TUD

Institut für Akustik und Sprachkommunikation

Sprachtechnologie

UASR - Intergrierte Sprachsynthese und -erkennung

UASR - Unified Approach to Speech Synthesis and Recognition [Bild zum Vergrößern anklicken]

Die automatische Sprachverarbeitung teilt sich traditionell (u. a.) in die Bereiche Spracherkennung und Sprachsynthese. In beiden Forschungsrichtungen wurden zur Lösung der jeweiligen Aufgabe (hochqualitative Synthese bzw. hohe Erkennungsrate) unterschiedliche Wege beschritten. Die leistungsfähigen Sprachsynthesesysteme greifen auf große Sprach-Datenbasen zu, in denen zur Laufzeit die optimalen Einheiten unterschiedlicher Länge ausgewählt werden. In der Spracherkennung haben sich besonders stark statistische Ansätze zur Modellierung von Spracheinheiten und deren Abhängigkeiten durchgesetzt. Auf beiden Gebieten werden mit ihren jeweiligen Ansätzen bemerkenswerte Ergebnisse erzielt, jedoch gibt es jeweils noch eine Reihe von offenen Problemen.

Dieser Forschungsschwerpunkt befasst sich mit der Kombination von Spracherkennung und Sprachsynthese zu einem einheitlichen System. Die Forschungsziele sind

  • durch die Kombination von Spracherkennung und -synthese Einblicke in die Wirkungsweise von Spracherkennungssystemen zu erhalten und deren Fehlerquellen nach dem Prinzip der "Analyse durch Synthese" aufzudecken,
  • Synergieeffekte durch die gemeinsame Verwendung von Datenbasen und Algorithmen für Spracherkennung- und Sprachsynthese zu erzielen sowie
  • die Schaffung eines umfassenden Experimentiersystems zu Forschungs- und Lehrzwecken.

Das kombinierte System UASR (Unified Approach for Speech Synthesis and Recognition) umfasst vier Verarbeitungsebenen: Signalanalyse und Signalsynthese, akustische Modellierung von Sprachlauten, lexikalische Modellierung von Wörtern sowie Sprachmodellierung in Form von expliziten oder stochastischen Grammatiken. Zwar wurden in der Vergangenheit verschiedene Teillösungen hinsichtlich kombinierter Systeme publiziert, ein vollständig invertierbares Sprachverarbeitungssystem ist jedoch noch nie realisiert worden.

Besonderes Augenmerk liegt auf der Erforschung inverser Probleme in der Sprachverarbeitung. Einige Beispiele sind:

  • Umkehrung der Sprechernormalisierung VTN (Vokaltraktlängennormierung) zur Konvertierung einer Sprachsynthesestimme: 
    Dieses Verfahren ermöglicht beispielsweise die Umwandlung einer männlichen in eine weibliche Stimme oder umgekehrt ohne nennenswerte Qualitätseinbußen und mit geringem Rechenaufwand.
  • Parametrische Sprachsynthese aus Hidden-Markov-Modellen (HMM) 
    Die Kombination bekannter Technologien zur akustischen Modellierung von Sprachlauten (stochastische Markov-Graphen nach Ruske) und parametrischer Sprachsynthese aus Hidden-Markov-Modellen (nach Tokuda) führte zu einem neuartigen parametrischen Sprachsyntheseverfahren, welches patentiert wurde.
  • Nutzung von stochastischen Sprachmodellen zur Steuerung des Sprechrhythmus:
    Amerikanische Studien haben einen Zusammenhang zwischen der Wahrscheinlichkeit einer gesprochenen Wortfolge und der Sprechgeschwindigkeit festgestellt.  Wir konnten durch „Umkehrung“ der in der Spracherkennung üblichen statistischen Wortfolgemodellierung die Ergebnisse dieser Studie praktisch für die Verbesserung des umgangssprachlichen Höreindrucks synthetischer Sprache umsetzen.
  • Aussprachevariation für die Sprachsynthese 
    Die Wahrscheinlichkeit einer Wortfolge hat nicht nur Einfluss auf die Sprechgeschwindigkeit, sondern auch auf die Deutlichkeit der Artikulation. Durch gezielte Auswahl verschiedener Ausspracheformen von Wörtern konnte eine Verbesserung der wahrgenommen Natürlichkeit synthetischer Sprache erreicht werden.
  • Vereinheitlichung von Wissensquellen und Algorithmen 
    Die konsequente Umsetzung des Konzept der Verwendung gleicher Wissensquellen (Lautmodelle, Wörterbücher, Sprachmodelle) und Algorithmen (inverse Signalanalyse und –synthesefilter, finite-state Algorithmen) erbrachte technologische Fortschritte für die Weiterentwicklung der automatischen Sprachverarbeitung.

Finanzierung:DFG, BMBF, Haushalt
weitere Informationen:DFG-Bericht (PDF)

DreSS - Dresdner Sprachsynthese

DRESS - Dresdner Sprachsynthese

Der Begriff Sprachsynthese bezeichnet die künstliche Erzeugung einer menschlichen Sprechstimme, wobei die Eingangsinformation variabel repräsentiert sein kann, z. B. als parametrische Darstellung von Sprachsignalen oder als symbolische Darstellung eines Sachverhalts. Eine typische Anwendungsvariante der Sprachsynthese ist der Vorleseautomat (in der Fachsprache: Text-to-Speech-System, TTS).

Je nach Anwendung und Qualitätsanforderungen können eine Vielzahl von Synthesemethoden und Kombinationen realisiert werden, z. B. eine vollständige artikulatorische (physiologisch basierte) Modellierung im Computer oder eine Selektion sowie Signalmodellierung zuvor aufgezeichneter Sprachsignalabschnitte (reproduktive Synthese). Die TTS-Prozesskette umfasst verschiedene Teilschritte wie die linguistische Textanalyse, die Erzeugung einer Lautsequenz, die Generierung prosodischer Steuerinformation (Sprechmelodie, Rhythmus, etc.) oder diverse akustische Signalmanipulationen.

Das Dresdner Sprachsynthesesystem (Dresden Speech Synthesizer, DRESS) stellt eine Experimentalplattform mit folgenden Eigenschaften dar:

  • multilinguale Teilmodule für die Sprachen Deutsch, Englisch, Mandarin-Chinesisch, Spanisch, Italienisch, Russisch, Klingonisch, usw.
  • alternative und in gewissem Umfang frei kombinierbare Verfahren auf den einzelnen Verarbeitungsstufen (z. B. regelbasierte versus datengetriebene Prosodiegenerierung)
  • diverse Sprecherdatenbasen (z. B. männliche und weibliche Diphon-Stimminventare)
  • Interfacefunktionen zur Anwendungsintegration (Signalkodierungsverfahren, Markup zur Akzentpositionierung, etc.).

Die erste DRESS-Variante wurde bereits 1997 fertiggestellt, wobei u. a. Algorithmen und Datenbasen aus Vorgängerprojekten im Bereich Sprachsynthese (beispielsweise VoiceCard und VERBMOBIL) integriert wurden. Die DRESS-basierte Forschung behandelt seitdem folgende Aspekte:

  • Optimierung von Verständlichkeit und Natürlichkeit des resultierenden Synthesesignals mittels verbesserter Signalmanipulation
  • Optimierung der linguistischen und prosodischen Verarbeitungsstufen - beispielsweise durch trainingsbasierte Verfahren der Prosodiesteuerung
  • Syntheseansätze auf Basis variabler bzw. längerer Spracheinheiten (siehe Projekt Korpusbasierte Sprachsynthese)
  • aufwandsminimierte Synthesealgorithmen sowie Speichereffizienz (siehe Projekt microDRESS)
  • multilinguale Verarbeitungskonzepte und automatisierte Bereitstellung neuer Sprecherdaten (vgl. Projekt Datenbasen und Tools)
  • Personalisierung - z. B. durch unterschiedliche Sprechstile oder Emotionssynthese
  • Anwendungsintegration in verschiedene Einsatzszenarien (Telefonserver, Vokabeltraining, Car-Infotainment, etc.)
  • Evaluierungsstrategien und Hörtest-Verfahren
  • Bedienergonomie von Demonstrationsanwendungen und geeignete GUI-Darstellung (Tcl/Tk-Einbindung, DTD/XML-basierte Browservariante, etc.).

Im Ergebnis der DRESS-Forschung entstanden abgeleitete Systemversionen wie das ressourcenoptimierte microDRESS-System oder eine Baseline-Variante zur Einzelwortsynthese für ein Aussprachewörterbuch (lexDRESS), welche in anderen Projektkontexten optimiert werden. Teilmodule bzw. Derivate von DRESS werden im UASR-System (vgl. entsprechendes Projekt) und bei kommerziellen Projektpartnern genutzt.

Finanzierung:

Haushalt, GWT-TUD

Partner:

GWT-TUD GmbH, Dresden

JLSS - Internetbasierter Spracherkenner und -synthetisator

Übersicht des internetfähigen Sprachsynthese- und -erkennungssystems. [Bild zum Vergrößern anklicken]

Für den nahtlosen Einbau von Sprachtechnologie in Internetseiten wurde eine Client-/Server-Architektur (siehe Bild) entwickelt. Zusammen mit dem Inhalt wird auf der Internetseite ein Java-Applet (SpeechApplet) angezeigt. Dieses realisiert eine Audioein- und -ausgabe und unterhält eine gesonderte Netzwerkvebindung mit einem Server (SpeechServer), welcher die Dienste Spracherkennung, Sprecherverifizierung und Sprachsynthese zur Verfügung stellt. Unter Benutzung dieser Architektur kann eine Sprachsteuerung und Sprachausgabe einfach in existierende Internetseiten eingebaut werden. Die einzige Anforderung auf der Client-Seite ist ein JavaScript-fähiger Browser mit einem neueren Java-Plugin.

Die Technologie kann unter anderem in den folgenden Szenarien verwendet werden:

  • Sprachsteuerung eines Internetportals (Spracherkennung),
  • Sprachsteuerung einer Multimediaumgebung (Spracherkennung),
  • Sprachausgabefunktionalität eines Webportals (zusätzlicher Inhalt oder Vorlesefunktion) und
  • Sprecherverifizierung als Zugangskontrolle zu Webinhalten.

Finanzierung:BMBF, Haushalt

Hardware-Sprachsteuerung für Mess- und Prüfgeräte

Integrierter Spracherkenner und -synthesisator als Hardwarelösung (Demonstrator). [Bild zum Vergrößern anklicken]

Der Einsatz von Spracherkennungs- und Sprachsynthesetechnologie bietet besonders bei Anwendungen, in denen kein anderer Kommunikationskanal zur Verfügung steht, ein enormes Potenzial zur Effektivierung von Prozessabläufen. Ein Beispiel hierzu wäre die zerstörungsfreie Prüfung mittels Ultraschall bei der Flugzeuginspektion. Wenn man an einer schwer zugänglichen Stelle mit verdrehtem Körper den Prüfkopf auf die zu untersuchende Stelle drückt, hat man kaum noch Möglichkeiten, das Prüfgerät zu bedienen. In dieser und ähnlichen Situationen, in denen der Nutzer massive manuelle Tätigkeiten ausführt, kann nur die Sprachsteuerung eine Lösung bringen.

Es wurde prototypisch eine Sprachsteuerung zur Bedienung eines Ultraschall-Prüfgerätes entwickelt, welche Sprachein- und -ausgabe unter Feldbedingungen ermöglicht. Lösungen zur Integration von Sprachtechnologie haben wesentlich bessere Vermarktungschancen, wenn sie in Form eines kleinen, über eine vorhandene Fernsteuerschnittstelle anschließbaren Zusatzgerätes angeboten werden und nicht in das Produkt selbst integriert werden müssen. Das erlaubt einen breiten Einsatz auch an anderen Mess- und Prüfgeräten, die eine externe Steuerung erlauben (z. B. in der Art des Standards VISA der Firmen Agilent Technologies und National Instruments). Daher wurde ein Zusatzgerät mit USB-Anschluss realisiert. Die Sprachein– und –ausgabe erfolgt über ein drahtloses Headset (z. B. Bluetooth), wodurch die notwendige Bewegungsfreiheit des Benutzers gewährleistet wird.

Die Sprachbedienung umfasst nicht nur den üblichen Wortschatz von Steuerkommandos (wie "Start!", "Stopp!", usw.), sondern auch das Einstellen von Parametern während der Prüfung (z. B. "Vorverstärkung plus neun Komma fünf dB"). Die gleiche Funktionalität steht für die Sprachausgabe zur Verfügung, die von Bestätigungs- und Fehlermeldungen (z. B. "Blendenwert überschritten") bis hin zur Ansage von Messwerten reicht.

Finanzierung:BMBF
Partner:Fraunhofer IZFP-D, Dresden
SINUS Messtechnik GmbH, Leipzig
Werner Industrielle Elektronik, Kreischa

microDRESS

Prototypischer Chip für Sprachanwendungen [Bild zum Vergrößern anklicken]

Die Anwendung von Textgesteuerte Sprachsynthese stößt auf zunehmenden Interesse bei den Herstellern verschiedener Produkte. Typische Anwendungen sind mobile Geräte, Haushaltsgeräte, Spielzeug oder Geräte zur Unterstützung behinderter Menschen. Besonders geeignet ist die Sprachsynthese für den Einsatz in Geräten, welche in einer Umgebung genutzt werden, in der kein anderer Kommunikationsweg mit dem Nutzer zur Verfügung steht. Beispiele dafür sind Mobiltelefone und Navigationssysteme im Auto oder persönliche digitale Assistenten (PDA) bei der Nutzung als Erfassungssystem in Werkstätten.

Den genannten Anwendungen ist gemeinsam, dass sie auf kleinen Geräten mit geringen Ressourcen für Rechenleistung und Speicher eingesetzt werden. Darüberhinaus sind die Kosten der erforderlichen Rechentechnik ein entscheidendes Kriterium der Hersteller für oder gegen die Nutzung von Synthesesystemen. Den wichtigsten Kostenfaktor bildet der auf dem Chip befindliche Speicher. Um eine Implementierung auf einem DSP zu ermöglichen, müssen folgende Anforderungen von einem Sprachsynthesesystem erfüllt werden:

  • Der Speicherbedarf der Sprachsynthese muss den Einschränkungen des spezifischen DSP gerecht werden. Das System sollte ohne zusätzlichen Programmieraufwand fexibel an unterschiedliche Vorgaben bezüglich der Speicherkapazität adaptierbar sein.
  • Unter Beachtung der geringeren Rechenleistung eines DSP muss die Echtzeitfähigkeit des Synthesesystems gewährleistet sein.
  • Die Abbildung des aus verschiedenen Modulen bestehenden TTS-Systems auf die Struktur des DSP (Controller, Codec, externer und interner Speicher) muss so gestaltet werden, dass die Datenströme, die der Kommunikation zwischen den Komponenten dienen, minimiert werden.
  • Eventuelle Einschränkungen bezüglich der Zahlendarstellung auf dem DSP (Festkomma-Arithmetik, Bitbreite der Datentypen) und des blockweisen Aufbaus des Speichers, mit der damit verbundenen eingeschränkten Adressierbarkeit einer Speicherzelle, sind programmtechnisch umzusetzen.

 

Neben den genannten Anforderungen, resultierend aus den Einschränkungen der Zielplattform, ist die Qualität der Sprachsynthese die zweite Säule, die das System benötigt, um bei einer praktischen Anwendung zu bestehen. Der Einfluss der durch eine Kodierung reduzierten akustischen Datenbank und des effektivierten Programmcodes auf den Qualitätsabfall ist zu minimieren.

Das Projektziel ist es, eine multilinguale skalierbare akustische Synthese zu entwickeln, welche die oben genannten Eigenschaften besitzt. Die Skalierbarkeit soll erreicht werden, durch die Möglichkeit das System auf unterschiedliche Speicherbeschränkungen zu adaptieren bei gleichzeitig minimiertem Qualitätsabfall im Bezug auf die Qualität eines Basissystems.

Landessprachenerkennung durch einen Metaklassifikator

Blockschaltbild eines Metaklassifikators für die Landessprachenerkennung. [Bild zum Vergrößern anklicken]

In diesem Projekt wurden Techniken zur Landessprachenerkennunf anhand der CALLFRIEND-Datenbasis untersucht. In der Vergangenheit wurden verschiedene Strategien zur Sprachenidentifizierung (language indentification, LID) publiziert. Der beste unter ihnen ist die Unterscheidung der Sprachen mit Hilfe sprachenabhängige Phonem- und phonotaktische Modelle. Zum Training dieser Modelle wird jedoch eine ziemlich umfangreiche, annotierte Sprachdatensammlung benötigt. Bei einer Vielzahl von Anwendungen ist das Sammeln der entsprechenden Daten unpraktikabel. Methode, welche mit weniger Trainingsdaten auskommen, können das Problem ebenfalls lösen, jedoch nicht mit der gleichen Leistungsfähigkeit. Als Kompromiss wurden verschiedene einfache Verfahren durch einen Metaklassifikator kombiniert:

  • einen Fenon-Erkenner nach Harbeck,
  • ein n-Multigramm-Modell über Codebuch-Vektoren und
  • einen HMM-basierten Erkenner.

Jede dieser Methode stellt einen "Experten" in einem Klassifikatorenensemble dar. Die Metaklassifikation wurde mit Hilfe eines einfachen BAYESschen Vektorklassifikators durchgeführt. Dieses erbrachte eine signifikante Leistungssteigerung verglichen mit den einzelnen Klassifikatoren.

Finanzierung:Haushalt
Partner:voiceINTERconnect, Dresden

Automatisches Lernen von Aussprachewörterbüchern

Beispiele für automatisch gelernte Aussprachemodelle für das Wort "abends" (oben Training mit gelesener Sprache, unten Training mit Umgangssprache). [Bild zum Vergrößern anklicken]

Aussprachewörterbücher stellen eine wesentliche Komponente des Modellwissens dar, das sowohl bei der Erkennung von Sprache als auch bei der Sprachsynthese zwischen der orthographisch-graphemischen Sprachrepräsentation und einer symbolisch-lautlichen (phonemischen) Repräsentation vermittelt. Dabei definiert ein Aussprachewörterbuch zum einen eine bestimmte Menge von Wörtern oder auch Wortverbindungen einer Sprache und zum anderen eine Abbildung dieser Menge in eine Menge von Ketten phonetischer Symbole, die für Klassen lautsprachlicher Signalrealisierungen stehen.

Obwohl für die wichtigsten Sprachen Aussprachewörterbücher in maschinenlesbarer Form verfügbar sind gibt es doch eine Reihe von Aspekten, die eine weitere Beschäftigung mit der Thematik der Wörterbuchrepräsentation, -generierung und -auswertung notwendig erscheinen lassen:

  • Die Konsistenz der phonetischen Umschriften ist schwer zu überwachen, fehlerhafte Einträge werden kaum erkannt. Eine Ergänzung - z.B. um Aussprachevarianten - ist manuell sehr aufwendig.
  • Die Organisationsform nach Wörtern ist nicht optimal; zusammengesetzte Wörter sollten auf Ihre Bestandteile zurückgeführt werden, bestimme häufige Phrasen - da deren Aussprache erheblich von der Standardform abweichen kann - jedoch als zusätzliche Einträge vorhanden sein
  • Herkömmliche Wörterbücher lassen keine Verallgemeinerungen zu, das heißt sie liefern für einen nicht enthaltenen Eintrag im allgemeinen kein Resultat.

In zwei großen Forschungsprojekten habe wir uns mit automatisch arbeitenden Verfahren, die Aussprachewörterbücher automatisch aus Sprachsignalen und deren orthographischer Verschriftung lernen und das resultierende Wörterbuch selbständig optimal organisieren, beschäftigt. Die Wörterbucheinträge werden dabei durch endliche Automaten repräsentiert.

Beim automatischen Training von Aussprachevarianten für phonetische Wörterbücher besteht das prinzipielle Problem der Beschaffung ausreichender Mengen an Trainingsmaterial. Die Ursache dafür liegt weniger in der Größe der zur Verfügung stehenden Korpora als in der ungünstigen Verteilung der Worthäufigkeiten. Aus diesem Grund haben wir ein Verfahren vorgestellt, das durch eine automatische Neugliederung des Wörterbuchs in Einheiten von der Größe von Teilwörtern bis hin zu Multiwörtern eine effizientere Ausnutzung gegebener Trainingskorpora zum Wörterbuchtraining ermöglich. Wird der zu Verfügung stehende Trainingskorpus als gegeben angesehen, kann die Anzahl der damit trainierbaren Wortmodelle nur durch eine Neudefinition der Wortliste selbst erhöht werden. Eine offensichtlich sinnvolle Umstrukturierung besteht in der Zerlegung von Komposita und Zahlwörtern in ihre Bestandteile. Diese müssen jedoch eine gewisse Mindestgröße haben. Einheiten von Morphemgröße haben sich als Basiseinheiten für das Training von Aussprachevarianten als ungeeignet erwiesen. Diesem Aspekt wird Rechnung getragen, indem nicht mehr nur Teilwörter als potentielle Worteinheiten zugelassen werden, sondern beliebige im Trainingskorpus auftretende Textstücke. Eine besondere Bedeutung kommt dabei Multiwörtern zu, die aus mehreren Einzelwörtern zusammengesetzte Worteinheiten darstellen. Experimente zeigen, daß ein Training von Aussprachevarianten besonders bei kurzen Wörtern, auch wenn genügend viele Trainingsproben verwendet werden, problematisch ist. Somit sind Multiwörter als Basiseinheiten generell gegenüber kurzen Einzelwörtern zu bevorzugen.

Finanzierung:BMBF, DFG
weitere Informationen:DFG-Abschlussbericht
Automatisch erlernte Zahlwortgrammatik für Deutsch. [Bild zum Vergrößern anklicken]

Automatisches Lernen von Zahlwortgrammatiken

Es wurde ein trainierbares, datengetriebenes Verfahren zur Generierung von Zahlwörtern aus Ziffernfolgen entwickelt. Das Verfahren beruht auf dem automatischen Erlernen einer endlichen Grammatik (repräsentiert durch einen endlichen Automaten) und einer speziellen Graphensuche, welche Zahlwörter anhand eine eingegebenen Ziffernfolge aus dem Automaten extrahiert. Durch die strikte Trennung von Programmcode und Daten ist das Verfahren universell und für jede Sprache anwendbar. Es wird kein a-priori-Wissen über die Zahlwortgrammatik benötigt. Durch das zugrunde liegende Automatenkonzept kann das Verfahren die Ziffern-zu-Zahlwort-Übersetzung mit minimalem Auswand erlernen und ausführen. Die einzige benötitgte Lerninformation besteht aus passenden Paaren von Ziffernfolgen und Zahlwörtern (also z. B. 123 = "einhunderdreiundzwanzig"). Das Verfahren kann für die einfache Erstellung von Wissensbasen für multilinguale Sprachsynthetisatoren und -erkenner verwendet werden.

Auftraggeber:SIEMENS
Resynthese der extrahierten Akzente und Phrasen in einem HMM-Synthese System. [Bild zum Vergrößern anklicken]

Prosodische Analyse und Resynthese

Die Natürlichkeit der synthetisierten Sprache hängt von der automatischen Extraktion der prosodischen Eigenschaften und prosodische Modellierung ab. Die prosodischen Eigenschaften bestehen aus Akzent-, Phrasenmarken, Pause, F0-Level, Satzmodus, Sprechgeschwindigkeit, Dauer und Sprachqualität. Deshalb ist die automatische Extraktion der prosodischen Eigenschaften sehr wichtig in der Sprachsignalverarbeitung. Die Extraktion dieser Eigenschaften basiert auf die Berechnung der prosodischen Merkmale (Grundfrequenz - F0, Dauer und Energie).

Das synthetisierte Signal kann zum originalen Signal adaptieren, durch die Extraktion der prosodischen Eigenschaften vom originalen Signal und durch die Generierung der prosodischen Merkmale aus den extrahierten Informationen und Hinzufügen der generierten Merkmale während des Syntheseprozesses.

Die Akzent und Phrasen wurden durch die Analyse der F0-Kontur mit Hilfe des Fujisaki-Models markiert. Die Periodenmarken sind der prosodische Merkmal für das HMM-Synthese System. Um das Konzept der Analyse-durch-Synthese zu implementieren, wurden die Periodenmarken von Akzenten und Phrasen berechnet. Die resynthetisierten Sprachsignale wurden mit dem originalen Signal verglichen. Die Ergebnisse wurden gezeigt, dass es keinen großen Unterschied zwischen den originalen und resynthetisierten Signalen gab.

Elemente eines TTS-Systems. [Bild zum Vergrößern anklicken]

Korpusbasierte Sprachsynthese

Bei der Forschung der korpusbasierten Sprachsynthese geht es darum, ein optimiertes Verfahren der Bausteinauswahl bereitzustellen, das für optimale Qualität, Effizienz und Flexibilität im Sinne einer breiten Anwendbarkeit bei der Durchführung der Sprachsynthese sorgt. Dabei wird davon ausgegangen, dass es bei der konkatenativen korpusbasierten Sprachsynthese durch eine wirksame Bausteinauswahl und eine große Datenbank möglich ist, eine breite Vielfalt von Äußerungen einer bestimmten Sprache in einer guten Qualität wiederzugeben. Die gute Qualität bezieht sich auf die Verständlichkeit, Natürlichkeit und Expressivität der synthetisierten Sprache.

Das Bausteinauswahlverfahren sucht nach den für die Synthese einer Äußerung passenden Bausteinen (Sprachsegmenten) in der Datenbank und wählt die entsprechend besten Bausteine aus. Die Suche nach den Bausteinen in einer großen Datenbank ist ein vielschichtiger Prozess mit hohem Zeit- und Rechenaufwand. Sie sollte aber so schnell, zuverlässig und wirksam wie möglich erfolgen, so dass die Bausteinauswahl über viele mögliche Bausteine verfügen kann.

Gesucht wird nach den Bausteinen, die die sprachlichen Merkmale und prosodischen Anforderungen der linguistisch-phonetischen Umsetzung und Prosodiegenerierung für eine zufriedenstellende Umsetzung der TTS-Synthese (siehe Abbildung 1) erfüllen. Bei der Bausteinauswahl laufen verschiedene Vorhersageverfahren für die entstehenden Verzerrungen bei der Verkettung der Bausteine ab. Das Auftreten dieser Verkettungsfehler gilt es zu verringern. Zudem besteht die Aufgabe der Bausteinauswahl darin, die Bausteine zu finden, die zu der geringsten Beeinträchtigung der Expressivität der Stimme führen und dabei die größte Ähnlichkeit mit der zu synthetisierenden Äußerung aufweisen.

HMM-basierte Sprachsynthese

Die Erzeugung akustischer Sprachsignale aus Sprechabsichten in orthografischer Form ist mit verschiedenen Verfahren möglich (konkatinativ, parametrisch u.a.m.). Die HMM-basierte Sprachsynthese als eine Form der parametrischen Synthese erlaubt die Modellierung der akustischen Sprachlaute mittels stochastischer Modelle. Entsprechend dem am Institut entwickelten UASR-System (Unified Approach for Speech Synthesis and Recognition) wird die Sprachsynthese in umgekehrter Richtung zur Spracherkennung betrieben, wobei auf die gleichen Modelle zurückgegriffen wird. HMM steht als Abkürzung für Hidden Markov Modell.

Wie auch die anderen Syntheseverfahren läßt sich die Sprachsynthese mit stochastischen Modellen grob in die beiden Teile

  •  linguistisch-phonetische Verarbeitung
  •  phonetisch-akustische Verarbeitung

unterteilen.

Die linguistisch-phonetische Verarbeitung dient auch bei der HMM-basierten Sprachsynthese der Textanalyse und der damit verbundenen Umsetzung von Zahlen, Abkürzungen und Sonderzeichen in verarbeitbare Einheiten, sowie der Graphem-Phonem-Umsetzung. Diese überführt den aufbereiteten Text aus der orthografischen in eine lautschriftliche Form, wobei die für die weitere Verarbeitung notwendige Lautfolge entsteht.

Die phonetisch-akustische Verarbeitung der HMM-basierten Sprachsynthese unterscheidet sich von anderen Verfahren und läßt sich in zwei weitere Verarbeitungsschritte zerlegen

 - die Zustandsauswahl zur Bestimmung einer geeigneten Folge von HMM-Zuständen - dem sogenannten Pfad, wobei die Dauern der einzelnen Laute der Zieläußerungen berücksichtigt werden müssen
 
 - die akustische Synthese zur Generierung einer Merkmalvektorfolge aus den zu den Zuständen der Zustandfolge gehörenden Normalverteilungen, welche einem Synthesefilter zugeführt wird und im Ergebnis die gewünschte Lautfolge als Schalldruck-Zeitfunktion liefert

Ein für die Akzeptanz der synthetisierten Sprache entscheidender Punkt ist die Natürlichkeit, wie sie z.B. bei konkatinativen Systemen implizit enthalten sein kann. Da bei der Sprachsynthese mit dem UASR-System die für die Spracherkennung generierten stochastischen Modelle Verwendung finden, sind die "unwichtigen" Parameter (z.B. Sprechermerkmale) nicht vorhanden. Da sie nun aber für die Natürlichkeit unabdingbar sind, wird während des Modelltrainings ein spezielles Prosodiemodell angelegt, welches dann für die Synthese genutzt werden kann.

 

Robustheit von Spracherkennungssystemen unter realen akustischen Umgebungsbedingungen

Abbildung 1: Akustisches Szenario einer Mund-Mikrofon-Strecke
Abbildung 2: Links: Abhängigkeit der Erkennungsrate (RR - Recognition Rate) von der Nachhallzeit T60 für die Sprecher-Mikrofon-Abstände 100cm, 200cm und 300cm. Rechts: Abhängigkeit der Erkennungsrate vom SMD in einem Raum mit der Nachhallzeit T60 = 0,7 s.

Mit einem Laborsystem ist es möglich, für einen bestimmten Spracherkenner mit einem speziell entwickelten Evaluationskorpus über 95% bis zu 100% Erkennungsrate zu erreichen. Dabei wird normalerweise mit ungestörten Evaluationssprachdaten gearbeitet. Im praktischen Einsatz eines Spracherkenners unterscheidet sich das akustische Szenario jedoch drastisch von den Studiobedingungen. Besonders Störgeräusche sowie der akustische Einfluss des umgebenden Raumes führen zu einer deutlichen Verschlechterung der Erkennungsgenauigkeit. Um beide Einflüsse zu beschreiben, lässt sich das folgende Modell anwenden.

Der Raum lässt sich als System h(t) beschreiben, das mit dem originalen Sprachsignal gefaltet wird. Geräusche n(t) addieren sich am Mikrofon. Das Mikrofonsignal setzt sich demnach zusammen aus

 

m(t) = (h * s)(t) + n(t)

Aufgrund der unterschiedlichen Eigenschaften der beiden Störungen h(t) und n(t) werden sie separat behandelt.

Störgeräuscheinflüsse

Störgeräusche können in stationäre und nichtstationäre sowie in systemeigene (Lautsprecherausgaben, Echos, im System messbare Geräusche) und systemfremde (äußere Einflüsse) Geräusche unterschieden werden. Die einfachste Annäherung bildet die Darstellung stationärer systemfremder Geräusche, wie sie z.B. Fahrgeräusche in einem Kfz repräsentiert werden. Um Störgeräuschen zu begegnen, gibt es in der Literatur verschiedene Ansätze. Dabei kann man in Ansätze auf Signalebene, auf Merkmalvektorebene sowie auf Modellebene unterscheiden.

Raumeinflüsse

Räume hallen. Je stärker Räume hallen, umso stärker ist die menschliche Sprache im Raum gestört. Sowohl die menschliche Sprachverständlichkeit als auch die Leistungsfähigkeit von Spracherkennern verringern sich bei stärkerer Halligkeit. Die Untersuchung von Raumeinflüssen in der Spracherkennung ist ein verhältnismäßig neues Forschungsthema. Die wichtigste Beschreibungsgröße der Hallstörung ist die Nachhallzeit T60 von Räumen. Zusätzlich ist der Sprecher-Mikrofon-Abstand (SMD) für die Stärke der Störung verantwortlich.

Stand: 29.07.2009 07:09
Autor: M. Wolff