Vorlesefunktion vorhanden oder angedacht?

Noriberto · 28. November 2024 um 20:36

Hallo,
gibt es bei der Version 12 von Papyrus die Möglichkeit, sich seinen Text vorlesen zu lassen?
Das wäre für mich eine tolle Erleichterung. So muss ich nicht immer den Text kopieren und in ein anderes Programm einfügen, das diese Funktion bereitstellt.
Wenn man den eigenen Text vorgelesen bekommt, fallen einem viele Dinge auf, die gelungen sind oder auch nicht.

Leon · 28. November 2024 um 21:30

Hallo @Noriberto die Funktion ist auf der Roadmap, jetzt gerade gehts noch nicht.

Alan_Mistrey · 4. Dezember 2024 um 22:59

Meine Meinung zu dem Thema: Es wären sicher sehr viele Ressourcen für eine Eigenentwicklung notwendig. Und eine integrierte Text-to-speech Funktion würde die Software erheblich vergrößern, weit über das hinaus, wozu ein Texterstellungsprogramm eigentlich gedacht ist.
Wäre es von daher nicht sinnvoller, diese Funktion über vorhandene (KI) Onlinedienste oder das Betriebssystem auszulagern und stattdessen eine direkte Schnittstelle dafür in Papyrus zu integrieren?
Dann müsste man den Text nicht mehr von Papyrus in ein anderes Eingabefeld herüber kopieren.

Leon · 5. Dezember 2024 um 17:17

Du triffst den Nagel auf den Kopf!

Rey · 5. Dezember 2024 um 17:52

Fände ich auch besser. Ich lasse mir Texte meist von Chat GPT vorlesen. Oder am Mac über Siri Opt+ Esc startet diese Funktion und liest makierten Text auch direkt in Papyrus vor.

writers_headroom · 5. Dezember 2024 um 19:08

Da könnt ihr ja direkt als Output-Format Hörbuch hinzufügen.

Kick · 6. Dezember 2024 um 21:25

Die Verknüpfung zur KI … ! …
Das Gerät, auf dem ich schreibe … Da kommt mir null KI dran. Nullinger!
Sehr schade, dass es sich zwecks Umfang, nicht im Programm selbst eignet.
Die Vorlesefunktion wünsche ich mir unbedingt.
Gäbe es keine andere Lösung? Ein kleines Extratool, welches auch offline funzt?

Alan_Mistrey · 6. Dezember 2024 um 23:54

Es muss nicht zwangsläufig über KI laufen. Text zu Sprach Synthese könnte man auch mit einem Algorithmus verwirklichen, der nicht online von Datenbanken lernt. Das heißt dieses Tool würde die Sprachausgabe lokal und offline auf dem eigenen Computer berechnen.
Ich weiß es natürlich nicht aber wenn ich raten müsste, arbeiten die Betriebssystem eigenen Sprachausgaben mit Sampling und Physical Modelling Synthese. Also alles ohne KI.
Mir geht es auch gar nicht darum, die Sprachausgabe unbedingt mit einer KI zu verknüpfen sondern eher darum, sie an eine externe Software anzubinden. Dabei ist es mir egal ob sie nun mit KI Technik oder anderen Methoden arbeitet.

Ist es dir wichtig, offline arbeiten zu können oder willst du generell KI von deiner Schriftstellerei fernhalten?

Kick · 7. Dezember 2024 um 14:04

@Alan_Mistrey Ich überlege, ob ich meinen (Autoren) Laptop komplett vom Netz nehme. KI - wie gesagt: Null. Nehme mir doch nicht selbst mein Kopfkino weg
Mir gefällt das Sprachtool von T2S (Text to speak). Ich kann mir ellenlange Texte, ganze Romane, vorlesen lassen. Kann die Stimmen auswählen, Feineinstellungen ändern, ein Audiofile produzieren, usw. Genial! Alles Offline. Sound: Wenig Roboterhaft. Und wenn meine Geschichte dort noch gut klingt, dann ahne ich, dass sie gut sein könnte. Das Tool ist für mich eine riesige Hilfe. Dort höre ich, ob der Sprachfluss/Rhythmus passt, höre Rechtschreibfehler und Satzzeichenkram. Eben genial.

Alan_Mistrey · 7. Dezember 2024 um 22:15

T2S also, interessant. Schaue ich mir bei Gelegenheit mal an. Ich kannte die Software bisher nicht.
Und nun stell dir mal vor, es gäbe eine Schnittstelle in Papyrus mit der man auf T2S zugreifen kann. Dann brächte man nicht mehr zwischen zwei unterschiedlichen Programmen hin und her wechseln oder hinüberkopieren sondern könnte dies direkt in Papyrus je nach Texttyp vorlesen lassen. Die Integration von Slave-Software in Host-Software ist technisch durchaus möglich. Dazu müssten die Hersteller sich aber auf einen gemeinsamen Standard einigen. Ich glaube hier ist die größte Hürde.

Kick · 8. Dezember 2024 um 00:23

… Das stelle ich mir liebend gerne vor
Wobei ich einräume, dass ich vielleicht nicht auf dem allerneuesten Stand bin.
Gibt am Ende neuere/bessere tools .?.
Ich habe nur mal Eines genannt, mit welchem ich zufrieden bin.
Wie Hersteller eine Fusion händeln … Woaß i ned …
LG

LazyBastard · 11. Dezember 2024 um 08:58

Das ist eine prima Idee, warum ist mir das nie eingefallen? bisher hab ich das immer über die Sprachausgabe vom Betriebssystem gemacht und - nachdem die Qualität so mies war - irgendwann gar nicht mehr.

Über eine Verknüpfung zu KI würd ich mich nicht so fürchten wie @Kick , aber jeder hat ja da eine andere Meinung dazu. Ich verstehe im künstlerischen Bereich die Aversion gegen KI zum Teil, verwende sie aber auch beruflich. Hier bin ich zum Beispiel genötigt ad hoc eine Einschätzung zu einem Thema abzugeben. Früher musste ich da in 15 bis 60 Minuten drei 50seitige rechtliche Stellungnahmen überfliegen und am Ende hat man auf die Schnelle irgendwas gesagt, ohne wirklich eine Ahnung zu haben. Blindflug quasi, in meiner Branche ging es aber fast nicht anders. Heute lad ich die Texte hoch und hab 30 Sekunden später auf einer A4 Seite eine erstklassige Zusammenfassung, die idR sogar mehr als nur gut ist.

Von daher würd ich mich auch jetzt bei Sprachausgaben nicht fürchten. Die KI „erschafft“ da ja nichts oder greift dir in den Text ein.

Das größere Problem über eine API-Schnittstelle liegt aber mMn an der Tokenisierung? Fallen dann nicht bei längeren Texten nicht zusätzliche Kosten an, oder bin ich da auf einem alten Stand?

Gschichtldrucker · 11. Dezember 2024 um 09:03

Ich bin zertifizierter Lesepate für Grund- und Mittelschulkinder. Geht das auch?

Falto · 11. Dezember 2024 um 17:58

by the way, aber die Frage drängt sich mir gerade auf, wer schreibt denn die 50-seitigen Texte?

…

Eine KI?

LazyBastard · 11. Dezember 2024 um 18:16

Ist OT, aber nö, es sind Ausarbeitungen, Interpretationen, Kommentare etc zu Gesetzespassagen. Die werden oft von einer Wirtschaftsprüfungskanzlei oder einer Rechtsanwaltsgesellschaft erstellt, manchmal auch von Rechts-Diensten, quasi den Verlagshäusern im Rechtswesen, usw erstellt. Manche der Autoren sind zum Teil 75+ und gelten als „Koryphäen“ auf ihrem Gebiet, denen glaub ich schon, dass die da keine KI dazu verwendet haben

Diese widersprechen sich aber leider auch oft. Es erleichtert ungemein die Arbeit, das zuerst einmal „in normaler Sprache“ zusammenfassen zu lassen. So was liest und versteht sich einfach von Grund auf dann leichter, wenn man eine Zusammenfassung davor hatte. Und man kann zu einem gewissen Thema schon mal während einer unangemeldeten Besprechung mit einem Kunden eine grobe Einschätzung abgeben, ohne 150 Seiten runterbügeln zu müssen.

Viele Leute gehen halt auch einfach nicht, egal was man sagt. Bleiben fest und starr im Büro stehen, bis man sich nicht doch irgendwie zu einer Aussage hinreißen lässt. Und darauf wird man ein halbes Jahr später festgenagelt. Schlimmstenfalls dann, wenns ums deren Geld geht.

LazyBastard · 11. Dezember 2024 um 18:19

Aber ja, manche Berichte, die ich so schreibe, gehen auch an die 150+ Seiten nach genügend Jahren hat man zum Glück seinen Textbausteinkasten vollständig

Falto · 11. Dezember 2024 um 19:05

Hui, Da freut man sich doch, mal wieder was eigenes schreiben zu können.
Wie auch immer. Ich hätte keine Ahnung, wie ich eine ki zum Text vorlesen nutzen könnte.
Von daher:
Gibt es eigentlich noch weitere Vorlese-Tools, außer den hier genannten, die man dann an die baldige Papyrus-Schnittstelle anschließen kann?

Kick · 11. Dezember 2024 um 20:42

Würdest du mir vorlesen? Da wäre ich sofort dabei

Nee, honestly, bei mir geht total viel über meine empfindlichen Öhrchen.
Ich würde keinen Text rausgeben, ohne ihn vorher gehört zu haben.

@LazyBastard Meine Furcht ist eher, dass von meinem Rechner gesaugt wird … Deine Arbeit ist etwas anderes … Ähm …

Falto · 12. Dezember 2024 um 10:16

es gibt zu meiner Frage bereits an anderer Stelle Hinweise:

Alan_Mistrey · 12. Dezember 2024 um 23:29

Bisher gibt es noch nichts der gleichen, was man in Papyrus einbinden kann aber denkbar wäre es über ein Application Programming Interface zur Text to Speech Funktion des Betriebssystem.
Die Windows API SAPI erlaubt anderen Drittanbietern soweit ich weiß die Nutzung in deren Software. Es wäre also denkbar die Windows oder Apple „Stimme“ über ein grafisches Interface in Papyrus zu bedienen. Das könnte dann einem Audioplayer ähneln mit Start, Stopp, Vor, Zurück, Geschwindigkeit und Stelle auswählen.
Denkbar wäre auch eine Einbindung aller anderen Text to Speech Programme, sofern sie eine herstellerübergreifende API-Schnittstelle anbieten. Das ganze wäre also auch offline, ohne KI und lokal auf dem Laptop möglich.