Sprachsynthese – Lexikon der Übersetzungen

Die Entwicklung der Sprachsynthese

Schon Ende des 18. Jahrhunderts versuchten Forschende, die menschliche Sprache maschinell nachzubilden. 1937 gelang es dem US-Amerikaner Domer Dudley erstmals, gesprochene Äußerungen elektronisch mithilfe eines Vocoders zu rekonstruieren. Synthese-Systeme mit Lautschrifteingabe wurden in den frühen 50er Jahren entwickelt. Etwa 20 Jahre später standen die ersten vollständig textgesteuerten Systeme zur Verfügung. Seither wurden die Technologien stetig weiterentwickelt, wobei ein besonderer Fokus auf der Optimierung der Systemstruktur und der Ausgabequalität lag.

Text-to-Speech (TTS) Programme

In erster Linie wurden Text to Speech Systeme entwickelt, um Menschen mit Beeinträchtigungen den Alltag zu erleichtern. Synthetisierte Geräte wie Computer, Uhren oder Wörterbücher ermöglichen Menschen mit Seh- oder Leseschwierigkeiten Zugang zu Inhalten, auf die sie sonst nicht zugreifen könnten. Sprechbehinderten kann ein Sprachsynthese-System eine künstliche Stimme verleihen. Auch finden TTS-Systeme Anwendung auf Kundenportalen, beim Infotainment oder in der Interaktion mit Maschinen oder Robotern.

Wie funktionieren TTS-Systeme?

Ein Text to Speech System wandelt einen geschriebenen Text in einem zweistufigen Prozess in Sprache um. Für eine korrekte Aussprache analysiert das Programm den Eingabetext im ersten Schritt unter linguistischen Gesichtspunkten, ehe der Inhalt im zweiten Schritt in ein synthetisches Sprachsignal umgesetzt wird. Software, die zur Umwandlung von Schrift in Sprache verwendet wird, wird als Sprachsynthesizer bezeichnet.

Qualitätsmerkmale der TTS Software

Bei der Sprachsynthese wird darauf abgezielt, die Sprachausgabe möglichst der menschlichen Sprache anzupassen. Entscheidende Merkmale für die Qualität eines Gerätes sind Verständlichkeit und Natürlichkeit. Ziel ist eine möglichst natürlich klingende Satzmelodie, genannt Prosodie. Diese umfasst alle charakteristischen Eigenschaften einer Sprache wie Betonung, Rhythmus oder Sprechpausen und ist sehr schwierig zu erzeugen. Aus diesem Grund können Computerstimmen noch immer von menschlichen Stimmen unterschieden werden.

Verschiedene Ansätze zur Sprachsynthese

Für die Umwandlung von Text in Sprechlaute (Phonem) gibt es zwei grundlegende Methoden, die Aussprache eines Wortes anhand seiner Schreibweise zu bestimmen: den regelbasierten und den lexikonbasierten Ansatz. Beide bringen unterschiedliche Vor- und Nachteile mit sich, weshalb die meisten TTS-Systeme eine Kombination beider Ansätze verwenden.

Die regelbasierte Sprachsynthese

Dieser Ansatz basiert, wie der Name schon sagt, auf Ausspracheregeln, kombiniert mit einer Liste von Ausnahmen. Besonders zuverlässig ist der Ansatz bei Sprachen mit sehr regelmäßiger Schrift-Laut-Entsprechung wie Französisch und Spanisch. Regelbasierte TTS-Systeme generieren bei jeder Eingabe einen Treffer, tun sich jedoch bei Fremdwörtern und Abkürzungen etwas schwer.

Lexikonbasierte Sprachsynthese

Der lexikon- oder wörterbuchbasierte Ansatz zur Synthese funktioniert wie ein großes Wörterbuch, das alle Wörter einer Sprache und ihre korrekten Aussprachen enthält. Bei Eingabe eines Textes wird jedes Wort einzeln nachgeschlagen, was schnell und sehr genau abläuft. Problematisch wird es nur, wenn ein Wort gar nicht im Wörterbuch enthalt ist – dann wird kein Ergebnis generiert.

Was ist Sprachsynthese?

Übersetzung benötigt?