X
Angebot anfragen

Was ist Sprachsynthese?

Sprachsynthese ist eine Methode zur künstlichen Erzeugung von Sprache. Zum Einsatz kommt dabei ein Text-to-Speech-System (TTS), also ein Gerät oder Computerprogramm, das geschriebenen Text in akustische Signale umwandelt. Sprachsynthese wird unter anderem genutzt, um sehbehinderte Menschen bei der Kommunikation zu unterstützen.


Die Entwicklung der Sprachsynthese

Schon Ende des 18. Jahrhunderts versuchten Forschende, die menschliche Sprache maschinell nachzubilden. 1937 gelang es dem US-Amerikaner Domer Dudley erstmals, gesprochene Äußerungen elektronisch mithilfe eines Vocoders zu rekonstruieren. Synthese-Systeme mit Lautschrifteingabe wurden in den frühen 50er Jahren entwickelt. Etwa 20 Jahre später standen die ersten vollständig textgesteuerten Systeme zur Verfügung. Seither wurden die Technologien stetig weiterentwickelt, wobei ein besonderer Fokus auf der Optimierung der Systemstruktur und der Ausgabequalität lag.

Die Aufgabe der Text-to-Speech (TTS) Programme

In erster Linie wurden Text to Speech Systeme entwickelt, um Menschen mit Beeinträchtigungen den Alltag zu erleichtern. Synthetisierte Geräte wie Computer, Uhren oder Wörterbücher ermöglichen Menschen mit Seh- oder Leseschwierigkeiten Zugang zu Inhalten, auf die sie sonst nicht zugreifen könnten. Sprechbehinderten kann ein Sprachsynthese-System eine künstliche Stimme verleihen. Auch finden TTS-Systeme Anwendung auf Kundenportalen, beim Infotainment oder in der Interaktion mit Maschinen oder Robotern.

Wie TTS-Systeme Text in Sprache umwandeln

Ein Text to Speech System wandelt einen geschriebenen Text in einem zweistufigen Prozess in Sprache um. Für eine korrekte Aussprache analysiert das Programm den Eingabetext im ersten Schritt unter linguistischen Gesichtspunkten, ehe der Inhalt im zweiten Schritt in ein synthetisches Sprachsignal umgesetzt wird. Software, die zur Umwandlung von Schrift in Sprache verwendet wird, wird als Sprachsynthesizer bezeichnet.

Qualitätsmerkmale für die TTS Software

Bei der Sprachsynthese wird darauf abgezielt, die Sprachausgabe möglichst der menschlichen Sprache anzupassen. Entscheidende Merkmale für die Qualität eines Gerätes sind Verständlichkeit und Natürlichkeit. Ziel ist eine möglichst natürlich klingende Satzmelodie, genannt Prosodie. Diese umfasst alle charakteristischen Eigenschaften einer Sprache wie Betonung, Rhythmus oder Sprechpausen und ist sehr schwierig zu erzeugen. Aus diesem Grund können Computerstimmen noch immer von menschlichen Stimmen unterschieden werden.

Verschiedene Ansätze zur Sprachsynthese

Für die Umwandlung von Text in Sprechlaute (Phonem) gibt es zwei grundlegende Methoden, die Aussprache eines Wortes anhand seiner Schreibweise zu bestimmen: den regelbasierten und den lexikonbasierten Ansatz. Beide bringen unterschiedliche Vor- und Nachteile mit sich, weshalb die meisten TTS-Systeme eine Kombination beider Ansätze verwenden.

Die regelbasierte Sprachsynthese

Dieser Ansatz basiert, wie der Name schon sagt, auf Ausspracheregeln, kombiniert mit einer Liste von Ausnahmen. Besonders zuverlässig ist der Ansatz bei Sprachen mit sehr regelmäßiger Schrift-Laut- Entsprechung wie Französisch und Spanisch. Regelbasierte TTS-Systeme generieren bei jeder Eingabe einen Treffer, tun sich jedoch bei Fremdwörtern und Abkürzungen etwas schwer.

Lexikonbasierte Sprachsynthese

Der lexikon- oder wörterbuchbasierte Ansatz zur Synthese funktioniert wie ein großes Wörterbuch, das alle Wörter einer Sprache und ihre korrekten Aussprachen enthält. Bei Eingabe eines Textes wird jedes Wort einzeln nachgeschlagen, was schnell und sehr genau abläuft. Problematisch wird es nur, wenn ein Wort gar nicht im Wörterbuch enthalt ist – dann wird kein Ergebnis generiert.

FAQ: Weitere Fragen zu Sprachsynthese

Was versteht man unter TTS?

Als Text To Speech (kurz: TTS) bezeichnet man eine Methode zur Umwandlung von geschriebenem Text in Sprache. Es handelt sich dabei um eine Form der Sprachsynthese.

Was bedeutet Sprachsynthese?

Sprachsynthese ist die künstliche Erzeugung der menschlichen Sprache. Dabei können verschiedene Geräte und Programme zum Einsatz kommen, zum Beispiel TTS-Software.

Welche Ansätze zur Sprachsynthese gibt es?

Zur Erzeugung von Sprachsignalen unterscheidet man zwischen zwei Ansätzen, dem regelbasierten und dem lexikonbasierten Ansatz, die bei den meisten Text to Speech Systemen kombiniert angewendet werden.

Was ist die neuronale Sprachsynthese?

Die neuronale Sprachsynthese bezeichnet eine Form der Spracherzeugung, die durch maschinelles Lernen stetig verbessert wird. Dafür wird ein künstliches neuronales Netz erzeugt, das lernt, die Phonetik der menschlichen Sprache vorherzusagen. Das Ergebnis ist eine flüssigere und natürlich klingendere Stimme.

Wo wird Text-to-Speech eingesetzt?

Wurde Text to Speech zunächst hauptsächlich dafür verwendet, Menschen mit Behinderungen bei der Kommunikation zu unterstützen oder ihnen barrierefreien Zugang zu Inhalten zu ermöglichen, so kann sie heute überall da einsetzt werden, wo Text in Sprache umgewandelt werden soll, z.B. in Kundendenservice-Portalen oder bei der Nutzung von smarten Geräten.