Beeinflusst ein Hörbuch euer Schreiben?

Amazon KDP führt KI-generierte Hörbücher ein. Ob das den Markt maßgeblich verändern wird, steht noch in den Sternen. Bislang gibt es das Angebot als Beta-Version nur in den USA. Die Teilnahme ist nur auf Einladung möglich. KDP-Autoren sollen schnell und einfach eine Hörbuchfassung ihres E-Books mittels synthetischer Sprachausgabe erstellen können.
Ob dieses Angebot auch für den deutschsprachigen Raum verfügbar sein wird und wann, lässt sich ebenso schwer einschätzen, wie die Auswirkungen auf Kauf- und Leseverhalten.

Die Fragen, die mich allerdings beschäftigen, sind:
Wird ein wachsender Hörbuchmarkt auch das Schreiben eines Manuskriptes beeinflussen?
Muss oder soll ich für ein Hörbuch anders schreiben?

Beispiel: Wie verfahre ich bei Passagen mit hohen Dialoganteil? Beim Lesen helfen Absätze und neue Zeilen, um die wörtliche Rede jeweils der richtigen Figur zuzuordnen. Ist eine künstliche Vorlesestimme in der Lage, hier bei der Unterscheidung zu helfen? Ich wüsste nicht wie, wenn ich nicht ständig Inquits verwende.
Wenn ich mich recht erinnere, war das bei meinem Hörbuch eine enorme Herausforderung an den Sprecher gewesen. Er hat es trotzdem sehr gut umgesetzt, bat mich aber, bei künftigen Texten etwas darauf zu achten.
Eine menschliche Hörbuchstimme wird in diesen Fällen der sprechenden Person einen eigenen Klang geben. Ich nehme an, das kann eine synthetische KI-Stimme nicht leisten. Insofern wundert mich eine Anforderung an einen Hörbuch-Text, die ich neulich einem Online-Schreibtipp entnommen habe, und die für ein Hörbuch gerade einen hohen Dialoganteil forderte. Ich kann nur schwer einschätzen, wie „belastbar“ solche Tipps sind.

1 „Gefällt mir“

Ja. Zumindest bei kurzen Texten. Ein Bekannter von mir hat es mit einem meiner Texte ausprobiert. Es gibt nur 1 falsche / unglückliche Betonung. Hier ist das Ergebnis: Aktuelles - diehuelles Webseite!
(Edith/Werner)

1 „Gefällt mir“

Um deine Frage zu beantworten: Ich werde meine Schreiberei zunächst wie immer fortsetzen.

1 „Gefällt mir“

Das ist ziemlich beeindruckend.

1 „Gefällt mir“

Fand ich auch als der Bekannte damit ankam.

hmm … hört sich gut an, ganz sicher. Für mich klingt das durch die unterschiedlichen Stimmen aber eher nach einem Hörspiel und nicht nach einem Hörbuch. Da gibt es in der Regel ja nur einem Sprecher oder eine Sprecherin. Das scheint mir auch logisch, da ja die Erzählstimme die Story vermitteln soll. Ein guter Sprecher kann die Dialoge dennoch unterscheidbar machen.

Ja. Stimmt. Ich kann mir auch nicht wirklich vorstellen, dass es mit langen Texten klappt. Ich dachte nur, da hast du dann mal ein Beispiel wie es sich anhören könnte.

1 „Gefällt mir“

Auch wenn ich kein Freund von automatisch generiertem „Vorlesen“ bin, kann ich mir so etwas nur mit Regieanweisungen vorstellen.
Eine andere Sache ist die Text-zu-Sprache-Konvertierung, wenn es darum geht, Fehler in Selbstgeschriebenem zu entdecken und zu korrigieren.

2 „Gefällt mir“

Das ist auch in meinen Augen ein vollkommen anderes Thema. Je mechanischer und unnatürlicher gelesen wird, desto eher fallen, mir zumindest, Fehler auf.

2 „Gefällt mir“

Ich konsumiere gerne und viele Hörbücher: im geschätzten Durchschnitt sicherlich 1-2 Std. pro Tag. Hörspiele sind nicht mein Ding.
Die Sprecherstimme ist ganz entscheidend. In Tonlagenvariation, in Vortragsgeschwindigkeit, im eigenen Einfühlen und Identifizieren mit dem Text. Von einer ganze Reihe von Bücher kenne ich beide Seiten: als Leser und als Zuhörer.
Für meine Enkel lese ich regelmäßig vor: Märchen oder Geschichten verschickt als Datei. Langsamer vortragen als eigenes Lesen, Betonung an den richtigen Stellen, Kunstpausen… funktioniert sehr gut.

Mein Fazit:
Gute Stimmen transportieren die allermeisten Prosatexte sehr, sehr gut. Je verschachtelter Satzkonstruktionen sind, je mehr Fremdworte und Spezialbegriffe und Definitionen qua Sachbuch einfließen und je mehr auch Bilder oder Graphen eine Rolle spielen, desto unmöglicher funktionieren Hörbücher. Ansonsten ist gute Prosa immer gut vorlesbar, ohne das spezielle Hörbuchtexte verfasst werden müssten.

KI als Vorlesestimme? Erlebe ich vielfach bei Nachrichtentexten. Noch gut erkennbar an manchen Stellen. Da ist noch viel Luft nach oben. Für Sehbeeinträchtigte ein Segen. Aber Genuß ist es nicht.

5 „Gefällt mir“

Ich bin nicht davon überzeugt, dass diese Technik den allgemeinen Schreibstil verändern wird. Aktuell gibt es ja tausende Hörbücher verschiedenster Epochen, Autoren und Stilrichtungen. Jedes funktioniert ja irgendwie für sich.
Ich zweifele hier nicht die Technik an - das ist eine Frage der Zeit. Auch die Qualität wird zunehmend besser werden. Aber vorgelesen bleibt vorgelesen. Die Textstruktur muss sich dazu nicht ändern.
Ich gehöre auch zu den Audible-Fetischisten und höre viel nebenbei. Dabei kann es dialoglastig sein oder auch nicht. Mitunter höre ich Geschichten intensiver, als ich sie gelesen haben. Vielleicht, weil man beim Lesen „überfliegen“ kann und bein Hören eben nicht.
Also - ich schreibe weiter, wie bisher.

2 „Gefällt mir“

James Joyce ist gerade in meinem Bücherregal vor Lachen umgefallen…

Eine KI versteht deinen Text. Du kannst ihn dir zusammenfassen lassen oder sogar fragen, ob sie Verbesserungsvorschläge am Stil hat. Ob die den Text besser machen, ist eine andere Sache. Du kannst allerdings davon ausgehen, dass KI sehr genau verstehen wird, wer gerade spricht. Dabei ist KI auch in der Lage, anhand von bestimmten sprachlichen Merkmalen (die du deiner Figur mitgegeben hast) zu erkennen, wer gerade spricht.

Ich würde darum nach vielen Tests mit ChatGPT sagen: Wenn für einen Leser klar ist, wer spricht, kannst du davon ausgehen, dass die KI es ebenfalls verstehen wird. Wenn die KI es falsch einschätzen sollte, musst du damit rechnen, dass es auch für deine Leser ein Stolperstein sein könnte.

Die Frage ist halt, ob die KI-Stimme über genügend Stimm-Spielraum verfügt, um – wie einige Sprecher das gut hinkriegen – mit ihrer Stimme zu spielen, um die Unterschiedlichkeit von Charakteren herauszuarbeiten.

1 „Gefällt mir“

Eine Maschine versteht einen Menschen. Ist das dein Ernst?

Dies hier ist ein Text aus Band 4 meiner Fantasygeschichte. Er ist noch nicht überarbeitet, nur um Kritiken zuvorzukommen. Es geht um das Kapitel „Mormut“.

Weil der Geist zu Beginn nicht genannt wird, nennt ChatGPT ihn „Unbekannt“. Später verwendet es „Unbekannt“ und „Geist“ als Synonyme. Würde es einen weiteren Sprecher erkennen, würde es ihn kenntlich machen. So wie ganz unten, wo wieder von „Erster Geist“ die Rede ist. Es hat sogar geschnallt, dass die zitierte Prophetie keinen interessiert und hat sie rausgeworfen :slight_smile:

Geister von Mormut.pdf (52,2 KB)

Ich habe ChatGPT folgenden Auftrag gegeben:

Würdest du bitte im folgenden Romantext nur die wörtlichen Reden extrahieren und jeweils die sprechende Person voranstellen, sodass man quasi ein Hörspiel daraus machen könnte und alle Sprecher erkennbar sind. Der Text folgt nach dem Doppelpunkt:

Dies hier ist das Ergebnis. Übrigens bewusst ungeschönt und unkorrigiert.

Hier sind die extrahierten wörtlichen Reden aus dem Text mit den jeweils sprechenden Personen:

Unbekannt: »Was tust du da?«

Unbekannt: »Was tust du? Setz dich hin!«

Yanhardt: »Drei Worte sind das.«

Unbekannt: »Ja, drei Worte sinds: Setz – dich – hin!«

Yanhardt: »Warum sollten Wir Ihm gehorchen, wenn Unser Schicksal ohnehin besiegelt ist.«

Geist: »Drei Geister sind wir, das ist richtig.«

Yanhardt: »Drei Geister, drei Worte, ein Auge.«

Unbekannt: »Ich verstehe nicht, was du meinst.«

Yanhardt: »Es ist nicht von Belang, ob Er versteht, was Wir meinen.«

Geist: »Was suchst du?«

Yanhardt: »Die dritte Stufe suchen Wir.«

Geist: »Ich verstehe dich nicht.«

Yanhardt: »Drei Geister, drei Worte, drei Stufen. Drei Geister, drei Worte, drei Stufen.«

Geist: »Von drei Stufen redest du? In diesem Haus gibt es deutlich mehr als drei Stufen.«

Yanhardt: »Drei Geister, drei Worte, drei Stufen.«

Stimme: »Die Decke ist zu hoch. Du wirst keinen Erfolg haben.«

Yanhardt: »Wir werden hier nicht sitzen und auf Unser Ende warten.«

Unbekannt: »Und nun? Was tust du nun? Setz dich hin!«

Yanhardt: »Setz dich hin. Drei Worte, drei Geister, ein Auge. Und drei Stufen.«

Unbekannt: »Setz dich hin!«

Unbekannt: »Du möchtest den Tisch doch nicht nach oben tragen?«

Yanhardt: »Selbstverständlich werden Wir diesen Tisch nach oben verfrachten!«

Unbekannt: »Er ist zu schwer, zu schwer für dich.«

Yanhardt: »Lausche Er Unseren Worten – und lausche Er genau: Wenn Er aufgegeben hat, einen Ausweg aus Seiner Lage zu finden, so trifft das auf Uns nicht zu. Wir werden bis zum letzten Atemzug kämpfen und nach einer Fluchtmöglichkeit suchen. Drei Worte. – Drei Worte, drei Geister, drei Stufen, ein Auge.«

Unbekannt: »He, was tust du?!«

Yanhardt: »Höre Er auf, sich künstlich zu echauffieren. Dieser Tisch ist für Ihn von wenig Nutzen.«

Unbekannt: »Nein, nicht für uns …«

Yanhardt: »Aber für Seine Gäste ist er von Nutzen?! Für arme, gefangene Seelen, die Ihm hier zuhören sollen, bis sie Untoten zum Opfer fallen.«

Unbekannt: »Was tust du? Setz dich hin!«

Yanhardt: »Wir können Uns nicht setzen. Der Stuhl ist oben.«

Geist: »Nun bin ich aber gespannt.«

Yanhardt: »Keine drei Worte mehr? Kein ›setz dich hin‹? Haben Wir es etwa vollbracht, Ihm eine andersartige Couleur von Zerstreuung zu bieten?«

Unbekannt: »Ich verstehe nicht, was du meinst.«

Yanhardt: »Drei Stufen. Was ist dort oben?«

Unbekannt: »Dort oben ist nichts.«

Yanhardt: »Erzähle Er Uns keinen Käse! Wir haben dieses Gebäude von außen in Augenschein nehmen können. Selbstverständlich ist dort oben noch etwas: die dritte Stufe.«

Unbekannt: »Dritte Stufe? Ich verstehe nicht, was du meinst?«

Yanhardt: »Will Er sagen, dass Er hier seit Jahrhunderten herumspukt und sich niemals auf den Dachboden gewagt hat? – Er sagt nichts. Drei Geister, drei Worte, drei Stufen. Etwas dort oben muss das Licht sehen. Er darf dort nicht hin. Drei Geister, drei Worte, ein Auge.«

Unbekannt: »Du hast recht. Tatsächlich sind wir auf diese beiden Geschosse beschränkt.«

Yanhardt: »Und Er kam nie darauf, dass dort oben etwas sein könnte?«

Unbekannt: »Was soll denn dort oben sein?«

Yanhardt: »Drei Geister, drei Worte, ein Auge. Entweder das Auge erblindet oder du.«

Unbekannt: »Du zeigst eine beeindruckende Hartnäckigkeit.«

Yanhardt: »Ihm kann man dieselbe bei der Suche eines Auswegs nicht bescheinigen.«

Unbekannt: »Was suchst du? Suchst du eine Luke zum Dachboden?«

Yanhardt: »Hohl! Hohl ist es hier. Etwas ist über diesem Raum.«

Unbekannt: »Aber was soll denn dort oben sein?«

Yanhardt: »Ein Ort, welcher Ihm verborgen blieb, ist dort oben. Ein Ort, an dem es Licht gibt.«

Unbekannt: »Warum denn Licht?«

Yanhardt: »Weil ein Auge ohne Licht nicht sehen kann. Da! Die dritte Stufe. Der Zugang zur dritten Stufe.«

Unbekannt: »Ich verstehe nicht, was du meinst.«

Yanhardt: »Ein Schloss. Wer verschließt eine Dachluke mit einem Schloss? Noch dazu mit einem so kleinen. Wo ist der Schlüssel?«

Unbekannt: »Schlüssel? Welcher Schlüssel?«

Yanhardt: »Lasst es gut sein!«

Babock: »Ich bin Babock, der Älteste der drei hier eingeschlossenen Geister.«

Yanhardt: »Warum hat Er sich im Verborgenen gehalten?«

Babock: »Du siehst uns als deine Feinde an. Wir sind nicht deine Feinde. Dein Feind ist unser Feind. Wir sind drei gefangene Geister in diesem Haus.«

Yanhardt: »Darüber sind Wir im Bilde. Und warum klinkt Er sich jetzt erst in unser Gespräch ein?«

Babock: »Weil du dich in jeder Hinsicht anders verhältst, als die armen Seelen, die vor dir hier waren. Für uns stellen die Begrenzungen dieses Hauses keine Barriere dar. Selbstverständlich können wir uns zwischen den Stockwerken hin und her bewegen.«

Yanhardt: »Dann weiß Er, was dort oben ist?«

Babock: »Mein Bruder hatte schon gesagt, dass uns die Sonne beißt.«

Yanhardt: »Und dort oben beißt sie Ihn, die Sonne. Richtig?«

Babock: »Wir werden nicht durch Mauern aufgehalten. Nein, das Licht deiner Welt quält uns, lässt uns nicht durch. Deswegen konnten wir diesen Raum so wenig erkunden wie du. Und solltest du den Raum öffnen und Licht zu uns hereindringen, so werden wir Pein erleiden müssen.«

Yanhardt: »Und diese Aussicht ist Ihm nicht willkommen.«

Babock: »Wie würdest du reagieren?«

Yanhardt: »Du verstehst, was ich meine?«

Babock: »Wenn Uns Sein Bruder die Wahrheit sagte, so führt Er hier ein Leben ohne Sinn – eingesperrt an einem düsteren Ort, gequält durch die Qualen derer, die durch diese Falle angezogen werden. Wenn Wir nun diese Luke zum Dachboden öffnen, was geschieht dann? Werden sie sterben, die drei Brüder?«

Babock: »Wir sind bereits tot, wie du weißt.«

Yanhardt: »Aber Sein Bruder sprach davon, dass ihn das Sonnenlicht beißen würde.«

Babock: »Das ist richtig. Und wenn dieses Haus uns nicht mehr zu beschützen vermag, droht uns ein Leben in ewiger Qual.«

Yanhardt: »Und um das zu verhindern, mischt Er sich in Unsere Konversation mit Seinem Bruder ein?«

Babock: »Nein. Wir haben genug gelitten an diesem Ort. Mir ist die Prophetie geläufig, die du rezitierst. Ich wäre allerdings nie darauf gekommen, dass wir selbst die drei Geister sein könnten.«

Yanhardt: »Er kennt die Prophetie der Narsis aus dem Königsbuch?«

Babock: [rezitiert die Prophetie aus dem Königsbuch]

Yanhardt: »Wo… woher kennt Er den genauen Wortlaut aus dem Königsbuch? Nicht einmal Wir sind in der Lage, den Text vollständig und fehlerfrei zu rezitieren.«

Babock: »Ich war ein Forscher Mooyans – wir drei waren Forscher Mooyans. Wir standen gut mit einem deiner Vorfahren.«

Yanhardt: »Unserem Vorfahren?«

Babock: »König Robjard.«

Yanhardt: »Er will sagen, dass Unser Urahn Ihm Einblick in das Königsbuch gewährte?«

Babock: »Dein Urahn erlaubte mir sogar, das Königsbuch abzuschreiben.«

Yanhardt: »Das Königsbuch ist nur den Königen vorbehalten. Was redet Er für einen Käse?!«

Babock: »Wie soll ich Käse sprechen, wenn ich dir aus diesem Königsbuch wörtlich zitieren kann?«

Yanhardt: »Warum tat er das? Warum brach Robjard seinen Schwur?«

Babock: »Welchen Sinn hat eine Prophetie, wenn niemand sie verstehen kann? Robjard sagte mir, sein Vater habe ihm das Buch übergeben mit dem Hinweis, dass vielleicht er dessen Geheimnis ergründen möge. Genau wie auch dessen Vater das Buch übergeben wurde. Generationenlang versuchte man doch in Odar, den Schleier dieses Königsbuchs zu enthüllen.«

Yanhardt: »Und Er war dazu in der Lage – und das vor Jahrhunderten?«

Babock: »Nein, auch ich war dazu nicht in der Lage. Aber ich versuchte mein Bestes.«

Yanhardt: »Und nun erzielt Er mit Uns Einigkeit, dass im Königsbuch Unsere jetzige Lage beschrieben wurde: Drei Geister, drei Worte, ein Auge. Drei Stufen.«

Erster Geist: »Vielleicht finden wir einen Weg, das Dachgeschoss zu versiegeln, sodass uns die Sonne nichts anhaben kann.«

Babock: »Nein, Bruder. Es ist von dem Auge die Rede. Das ist das Auge des dunklen Ghuls. Es muss erblinden. Entweder das Auge erblindet oder du. So steht es geschrieben. Aber wie willst du das Auge zum Erblinden bringen… König? Was spricht die Narsis?«

Yanhardt: »Ein entzündetes Auge kann nicht sehen.«

Erster Geist: »Entzündetes Auge?«

Babock: »Wenn ihm das Dachgeschoss einen Weg zur Flucht bietet, so wird er diesen Ort hier in Brand stecken müssen.«

Yanhardt: »Das entzündete Auge. Wir hätten das nicht aus diesem Text herausgelesen. Das entzündete Auge kann nicht sehen. Du wirst diesen Ort in Brand setzen müssen. Denn wenn der dunkle Ghul nicht erblindet, so erblindest du. Wenn er nämlich sieht, dass du sein Geheimnis kennst, so wird er dir nachstellen.«

Yanhardt: »Wir kennen eine mächtige Zauberin. Wir werden prüfen, ob Wir sie uns Rückhalt zu leisten bereit ist.«

Babock: »Wir haben keine Zeit, um auf eine Zauberin zu warten. Du wirst diesen Ort sofort in Brand stecken müssen.«

Yanhardt: »Wodurch Er zur ewigen Pein verdammt wäre!«

Babock: »Wir würden für etwas leiden, das uns in diese missliche Lage gebracht hat.«

Yanhardt: »Gehen wir einen Schritt nach dem anderen. Kennt Er das Versteck des Schlüssels?«

Babock: »Selbstverständlich. Der Schlüssel befindet sich in einer Bodenplatte des Kamins.

Gibt es davon auch eine Hörprobe?

Du würdest aber immer noch merken das den Text eine KI gesprochen hat. Ich habe mich n icht nur mit chatGPT beschäftigt, sondern auch mit KI generierter Musik, oder Bildern. Bei KI generierter Musik erkenn ich sofort das es KI generiert ist, da ich beide menschen kenne. wieso kann es für leser ein Stolperstein sein wenn es die KI nicht einschätzen? eine KI wird immernoch vom menschen programmiert und da können sich immer fehler einschleichen.

ich hatte letztens eine diskussion mit jemanden. KI generierte bilder und Copyright. kann man auch auf texte und sonstiges beziehen. kann man auf ein solches werk ein copryright setzen obwohl es KI generiert ist?

Weißt du, mir ist es doch völlig egal, was du persönlich zu KI glaubst. Ich sehe uns halt am Anfang einer Entwicklung. Was aktuell möglich ist, war für mich vor kurzer Zeit undenkbar.

Natürlich macht KI Fehler. Sie macht sogar viele Fehler. Menschen machen die allerdings auch beim Lesen. Ich muss manchmal zurückblättern, weil ich einen Abschnitt technisch gelesen, aber überhaupt nicht durch mein Gehirn geleitet habe.

ChatGPT macht ja auch keine Sprachausgabe. Ich habe nur bei meinem vielen Arbeiten damit gesehen, dass es meinen Text außerordentlich gut versteht. Eine KI kann durchaus zuordnen, wer gerade spricht, auch wenn es nicht dabeisteht. Das war meine Aussage. Mein Beispiel belegt, dass das zumindest bei ChatGPT nicht immer klappt, aber doch relativ gut.

ChatGPT ist allerdings ein Schweizer Messer. Mit einem Schweizer Messer kann man auch einen Ast absägen. Aber besser nimmt man dazu eine richtige Säge. Und so erwarte ich, dass ein KI-System, das speziell für das Vorlesen trainiert ist, Dialoge noch deutlich besser zuordnen kann als ChatGPT.

Da wir alle keine Rechtsanwälte sind, können wir das natürlich alle nicht beantworten und wir dürfen auch keine Rechtsberatung leisten. Wir können aber in die Nutzungsbedingungen der KIs schauen und lesen dort bei ChatGPT und Midjourney, dass derjenige, der den Befehl eingegeben hat, auch die Rechte am daraus entstanden Text/Bild erhält.

Ich stelle fest, dass die Sprachausgabe immer besser wird. Ich hatte für einen Monat ein Abo bei irgendeiner Sprach-App gezahlt, die rein von der Betonung her nochmal sehr viel besser ist, als die eingebauten Stimmen meines Mac. Perfekt ist sie noch nicht, aber es waren schon ausdruckstechnische Besonderheiten wie Stimmhöhe und Betonung eingearbeitet, die mich verblüfft haben.

Ich bin darum relativ sicher, dass wir bald auch Sprachausgaben hören werden, die sich kaum noch vom echten gesprochenen Wort unterscheiden. Wenn wir uns mal die CGI-Animationen aus den Neunzigern ansehen und die mit heute vergleichen, waren die damals auch nahezu immer erkennbar. Heute fliegen überall Drachen und sonstiges Viehzeugs rum oder krabbeln dir über den Arm, als ob es sie tatsächlich gäbe. Gegen solche Animationen muss doch eine realistische Sprachausgabe ein Klacks sein.