Seminar Spracherkennung und -synthese

Ausarbeitung zum
Seminar Spracherkennung und -synthese
Bernhard Frötschl und Sven Behnke
Institut für Informatik, FU Berlin
WS 1998/99

Yassin Naciri
Das Lesen von Sonagrammen

1. Einleitung

Das vorliegende Dokument gibt eine kurze Einführung in das Lesen von Sonagrammen. Es berichtet über die Eigenschaften von Lauten der deutschen Sprache im Sonagramm. Ein Sonagramm ist eine visuelle Abbildung von Sprache. Man stellt sich dann die Frage, wie man durch bloßes Ansehen eine Lautfolge aus einem solchen Sonagramm wieder erkennen und identifizieren kann. Um der Antwort nahe zu kommen, werden die Lautklassen des Deutschen im Sonagramm erläutert und spezifiziert.

2. Der Sonagraph

Ein Sonagraph ist eine Instrument zum "Sichtbarmachen" von Sprache in Form von Sonagrammen, d.h die visuelle Darstellung eines Sprachsignals "visible Speech", das akustisch in seine spektralen Komponenten (Zeit,Frequenz,Intensität) zerlegt wurde.

Die Geschichte von Visible Speech-Sonagrammen begann mit der Entwicklung des ersten klassischen KAY-Sonagraphen(Kay Electric Company, Pine Brook, New Jersey, USA), die der akustischen Phonetik völlig neue Möglichkeiten eröffnet haben. 1945 wurde im Artikel "Visible Pattern Of Sound" von POTTER über die Anwendungsmöglichkeiten des Sonagraphen berichtet. KOENIG, DUNN und LACEY beschrieben 1946 seine Funktionsweise und Anwendungsmöglichkeiten.

2.1 Der klassische Sonagraph

Der KAY-Sonagraph ist ein elektromechanisches Gerät zur Aufzeichnung von Zeitvarianten Fourierspektren. Als Grundfunktionen verfügt er über Bandpaßfilterung, Gleichrichtung und Glättung, die man mit graphischer Darstellung verbinden kann. Er kann Sprachsignale von maximal 2,4 Sekunden speichern und aufzeichnen, und Sonagramme im Frequenzbereich von 0 bis 8000 Hz auf Papier zeichnen. Vor dem Aufzeichnen auf Papier kann die Analyse-Bandbreite eingestellt werden. Bei der Wahl von einem Filter von 350 Hz entsteht ein Breitband-Sonagramm, bei einem Filter von 80 Hz ein Schmalband-Sonagramm.

2.2 Der digitale Sonagraph

Er unterstützt digitale Verfahren zur Bearbeitung von Sprachsignalen. Ein Beispiel dafür ist das Modell 5500 von KAY-Sonagraphen "Signal-Analyse-Workstation": dieser besteht aus einer Recheneinheit, mindestens einem Lautsprecher, einem Bildschirm, einem Mikrophon oder Tonband/Kassettengerät und einem Drucker. Solche Sonagraphen können Sprachsignale bis zu 98 Sekunden aufzeichnen und weitere Analysefilter für 300 Hz und 30 Hz einsetzen.

3. Das Sonagramm

Ein Sonagramm ist ein aus Zeit, Frequenz und Intensität bestehendes Spektrum, und stellt das Sprachsignal in sichtbarer Form dar.

Die Zeit: in Millisekunden (ms), perzeptiv als Dauer wahrgenommen, wird auf der x-Achse von links nach rechts gelesen.

Die Frequenz: in Herz (Hz), perzeptiv als Tonhöhe wahrgenommen, wird auf der y-Achse von unten nach oben gelesen.

Die Energie: (bzw. Intensität) des Signals, perzeptiv als Lautstärke bzw. Intensität wahrgenommen, wird auf der z-Achse des Sonagramms am Grad der Schwärzung abgelesen.

Heisenbergsche Unschärferelation:

Je genauer die Auflösung im Zeitbereich, desto ungenauer ist sie im Frequenzbereich und umgekehrt. Eine hohe Frequenz- und Zeitauflösung zu erreichen ist schwierig, da das Analysefenster entweder eine hohe Frequenz- oder eine hohe Zeitauflösung ermöglicht.

3.1 Breitband-Sonagramm

Bei Einsatz von Analysefenstern von etwa 300 Hz entsteht ein Breitband-Sonagramm. Es verfügt über eine bessere Auflösung im Zeitbereich, was eine bessere Sichtung von Glottisschlägen und eine Verfolgung von Formantenstrukturen der Vokale ermöglicht. Formanten sind im Sonagramm als waagerechte Frequenzbänder zu sehen. Dabei werden "Kurzzeit"-FFTs verwendet, die für eine höheren Zeitauflösung sorgen, und schnell wachsende Ereignisse erfassen (siehe Abbildung 1).

Abbildung 1: Schmalband- und Breitband-Sonagramm mit Frageintonation und Markierung von stimmhaften Segmenten

3.2 Schmalband-Sonagramm

Das Schmalband-Sonagramm demonstriert deutlich den Tonhöhenverlauf sowie den Verlauf der Harmonischen (Obertöne) und entsteht bei hoher Auflösung im Frequenzbereich, in dem ein Analysefenster von etwa 50 Hz eingesetzt wurde. Die Harmonischen sind im Sonagramm als schmale, parallele "Bänder" zu erkennen, die grundsätzlich parallel verlaufen und deren Abstand jeweils gleich groß ist (siehe Abbildung 1).

3.3 Die Stimmhaftigkeit im Sonagramm

Stimmhafte Laute sind im Sonagramm an den Glottisschlägen erkennbar. Ihre Abwesenheit deutet auf einen stimmlosen oder entstimmten Laut hin. Die Glottisschläge können annähernd über den gesamten Frequenzbereich als durchgehende Linien sichtbar sein, wie bei den Vokalen, oder aber nur im untersten Frequenzbereich unterhalb von etwa 500 Hz, wie beispielsweise bei stimmhaften Plosiven.

3.4 Der Prozeß des Sprechens und der Koartikulation

Im Allgemeinen gibt es beim normalen Sprechen keine akustisch oder artikulatorisch konstanten Laute: Der Artikulationsvorgang bei der Produktion einer Lautfolge ist ein kontinuierlicher Prozess, d.h. nicht Einzellaute werden produziert, sondern ein Lautstrom, in dem die Laute koartikularisch miteinander verbunden sind. Es gibt zwar Artikulationsstellen bzw. Artikulationsregionen für die Bildung eines jeden Lautes, jedoch werden sie beim Sprechen nur in Bewegung durchlaufen. Diese Tatsache bewirkt, daß ein Laut û in unterschiedlichen Lautkontexten oder von verschiedenen Sprechern produziert û immer wieder etwas anders aussehen kann.

4. Die Lautklassen im Sonagramm

4.1 Vokale und Formanten

Die deutschen Vokale sind stimmhafte Laute, deren Klangcharakteristika durch die Konfiguration des Vokaltraktes bestimmt wird. Der durch Glottisimpulse angeregte Luftstrom wird im Ansatzrohr moduliert, dabei verändern Kehlkopfhöhe, Rachenenge, Zungenposition und -höhe sowie Lippenstellung die Resonanzeigenschaften des Ansatzrohres und damit die Resonanzfrequenz des entstehenden Vokals. So erhält jeder Vokal seine für ihn typischen spektrale Zusammensetzung mit Energiekonzentration bei den jeweiligen Resonanzfrequenzen. Diese Energiekonzentration sind im Sonagramm als waagerechte Frequenzbänder zu erkennen. Sie heißen Formanten F1, F2, F3 usw. (siehe Abbildung 2).

Die drei ersten Formanten F1, F2 und F3 spezifizieren die Vokale und sind relativ sprecherunabhängig, d.h. sie nehmen immer annähernd die gleiche Frequenzwerte. Die Formanten ab F4 spezifizieren die Klangfarbe und charakterisieren die Sprecherstimme. Sie dienen in erster Linie zur Identifizierung eines Sprechers und nicht eines Vokals.

Die Formanttabelle in folgender Abbildung zeigt die bei Männern (M), Frauen (W) und Kindern (Ch) durchschnittlich gemessene Grundfrequenz F0 und die Frequenzwerte der drei ersten Vokalformanten.

Abbildung 2: Formanttabelle mit Grundfrequenz F0 und Formanten F1, F2, F3 von Vokalen gemittelt über 76 Sprecher: Männer (M), Frauen (W) und Kinder (Ch)
(entnommen aus: PETERSON, BARNEY, 1952, S.183)

4.1.1 Abgrenzung der Vokale von den Konsonanten

Man kann Vokale von Konsonanten in erster Linie durch die Formantenstruktur unterscheiden. Das wichtigste Unterschiedsmerkmal ist dabei der bei den Konsonanten niedrige erste Formant F1. Dieser wird bedingt durch die größere artikulatorische Enge bei Konsonanten im Vergleich zu Vokalen. Formantübergänge von einem Vokal zum anderen oder von einem Vokal zum angrenzenden Konsonant heißen Transitionen. Im Sonagramm folgender Abbildung sind die Vokalsegmente der Äußerung "Biedermeier" gekennzeichnet.

Abbildung 3: "Biedermeier" mit Vokal-Kennzeichnung [i],[A],[aI A]

In der Abbildung 3 ist die niedrige Frequenz F0 bei den Konsonanten 'B', 'd' und 'm' zu bemerken.

4.1.2 Diphtonge

Sie treten bei deutlicher kontinuierlicher Wahrnehmungsveränderung der Vokalqualität innerhalb einer Silbe auf. Diese Veränderung zeigt sich im Sonagramm durch einen gleitenden Übergang der Formanten vom ersten zum zweiten Vokal.

Die Diphtonge des Deutschen sind die folgenden:

ei (wie frei à aI ) [aI]
au (wie Frau à aU ) [au]
eu (wie neu à OY ) [OY]

Das Sonagramm der Äußerung "Da ist mein NeuHaus" in Abbildung 4 zeigt die gleitenden Formantübergänge (Transitionen) der Diphtonge.

Abbildung 4: "Da ist mein Neuhaus" mit markierten Diphthongen [aI OY aU], Vokale /a/ und /i/ sind ebenfalls markiert.

4.1.3 Vokale mit Glottal-Stop

Ein glottaler Verschlußlaut, der "Glottal-Stop" geht im Allgemeinen den Vokalen im Deutschen in wort- und silbeninitialer Position voraus. Er wird auch als harter Stimmeinsatz bezeichnet. Er steht potentiell vor jedem mit einem Vokal beginnenden Wort- und Stamm-Morphem, sowie nach einer Sprechpause vor betontem und unbetontem Vokal bei intramorphematischen Vokalfolgen /the?ater/. Er tritt ebenfalls im Innern einer nicht unterbrochenen Äußerung vor betontem Vokal auf. Am häufigsten tritt er vor /a/, am seltensten vor /i/, /u/ und /y/ auf.

Abbildung 5: Der "Glottal-Stop" jeweils zu Beginn von "am" und "also", [?] markiert

4.2 Die Plosive

Bilabial	Alveolar	Velar
P, b	t, d	k, g

Tabelle der Plosive

Bei der Bildung eines Plosivs werden drei artikulatorische Phasen beobachtet:

Verschlußbildung: Das artikulierende Organ (Lippen, Zungenspitze, Zungenrücken) bildet einen vollständigen Verschluß mit der Artikulationsstelle (labial, alveolar, velar).
Verschlußphase: Während dieser Zustand über einen bestimmten Zeitraum aufrechterhalten wird, staut sich hinter demVerschluß ein expiratorischer Luftstrom.
Verschlußlösung: Der Verschluß löst sich unter explosiver Geräuschbildung.

Mit der Verschlußbildung (Phase I) erfolgt ein abrupter Abfall der spektralen Energie. DieVerschlußphase (Phase II) zeichnet sich durch eine völlige "akustische Stille" in allen Frequenzbereichen des Spektrums aus, abgesehen von einem eventuell vorhandenen Stimmton. Dieser ist als "voice bar" im untersten Frequenzbereich des Sonagramms zu sehen. Während der Verschlußphase eines stimmhaften Plosivs schwingen die Stimmlippen so lange weiter, bis der Luftdruck im Mundraum groß genug ist, die Phonation zu stoppen, oder aber der Verschluß gelöst wird. Das erklärt den nicht immer durchgehenden Stimmton bei stimmhaften Plosiven.

Abbildung 6: "Das gute Boot" mit den stimmhaften Plosiven [d] und [g] und dem stimmlos aspirierten Plosiv [th]

Die Verschlußlösung, der "Burst" (Phase III), hat einen plötzlichen, sprunghaften Anstieg der spektralen Energie in einem bestimmten Frequenzbereich zur Folge. Dieser ist bestimmt durch die Burst-Schallquelle, also der Artikulationsstelle des Plosivs. Das Verschlußlösungsgeräusch stimmhafter Plosive ist mit einer Dauer von nur 10-20 ms sehr kurz. Ihm folgt eine sehr schnelle F1-Transition von ca. 50 ms. Bei stimmlosen Plosiven wird der "Burst" in der Regel gefolgt von einer Aspirationsphase unterschiedlicher Dauer. Diese liegt etwa zwischen 40 ms und 80 ms. Die Aspiration entfällt bei stimmlosen Plosiven in Verbindung mit Frikativen und vor Nasalen.

In der Regel werden die Plosive durch die Verschlußphase, die als akustische Stille bezeichnet wird, im Sonagramm erkannt. Sie gilt als akustisches Merkmal für die Perzeption eines Plosivs. Fehlt sie, ist es dann fast unmöglich einen Plosiv wahrzunehmen.

4.3 Glottal-Stop und Glottalisierung

Ein Glottal-Stop entsteht durch vollständigen Verschluß der Stimmlippen (kurzzeitiges Aussetzen der Stimmlippenschwingungen), das ist eine Signalpause von meist weniger als 100 ms, vergleichbar mit der Verschlußphase eines Plosivs. Die Verschlußlösung ist erkennbar an einigen (1 bis 3) unregelmäßigen Stimmlippenschwingungen zu Beginn des Vokals (siehe Abbildung 5).

Häufig wird einen sog. Glottalisierungseffekt anstelle des Glottal-Stops zu Beginn des Vokals beobachtet. Dies erfolgt bei Konsonant-Vokal-Übergängen wie z.B. wenn dem silbeninitialen Vokal ein Nasal oder ein Lateral vorausgeht.

Abbildung 7: "Bea" vs. "Be?ate": Glottalisierung ersetzt den Glottal-Stop

Abbildung 7 vergleicht den einsilbigen Namen "Bea" mit dem zweisilbigen "Beate", wobei wir beim zweiten Namen einen silbeninitialen Glottal-Stop vor dem /a/ erwarten würden. Die erste Äußerung zeigt einen fließenden Übergang zwischen den Vokalen /e/ und /a/, während in der zweiten der Glottal-Stop durch einen glottalisierten Übergang ersetzt wird.

4.4 Die Nasale

Die Bildung von Nasalen wird durch Kombination zweier artikulatorischer Bewegungen realisiert:

orale Verschlußbildung durch Lippen, Zungenspitze oder Zungenrücken.
Absenken des Velums.

Der Verschluß im Mundraum wird analog zu den Plosiven gebildet, die Bewegung von Zunge oder Lippen erfolgt schnell. Im Gegensatz zu den Plosiven, strömt der Glottisschall während der Verschlußphase durch den Nasenraum nach außen, daher entsteht kein Druck im Mundraum und bei der Verschlußlösung wird es kein Verschlußlösungsgeräusch geben. Aufgrund des zugeschalteten Nasenraums bilden sich im Vokaltrakt während der Verschlußphase sog. Anti-Formanten aus, die Teile des Spektrums sehr stark dämpfen.

Abbildung 8 zeigt die drei Nasale des Deutschen in den Äußerungen "anga" (ohne [g] gesprochen), "ana" und "ama". Dort ist zu sehen, wie klar sich Nasale von Vokalen abgrenzen lassen, was die Segmentierung erleichtert.

Abbildung 8: [aNa, ana, ama] mit den drei Nasalen des Deutschen [N, n, m] jeweils im [a]-Kontext, Nasale segmentiert und gekennzeichnet.

Das Hauptkennzeichen eines Nasals im Sonagramm ist ein stark gedämpftes Formantspektrum oberhalb 500 Hz. Der erste Formant F1 liegt etwa bei 250 Hz und dominiert das Spektrum. Der Formant F2 ist sehr schwach ausgeprägt oder fehlt völlig und manchmal sind mehrere höhere Formanten geringer Intensität zu erkennen.

4.5 Die Trills

Die Trills werden als Schwinglaut oder Vibrant bezeichnet. Sie entstehen durch eine Folge von Verschlüssen und Verschlußlösungen. Jeden einzelnen dieser Verschlüsse nennt man Schlag.

Im Deutschen werden zwei Allophone des Phonems /r/ als Trill realisiert:

Das alveolare [r]: Die Zungenspitze bewegt sich in Richtung der Alveolen und flattert passiv gegen Sie und der Luftstrom wird dabei unterbrochen.
Das uvulare [R] (rollendes r): Es wird eine Enge durch Annäherung des hinteren Zungenrücken an Velum bzw. Zäpfchen gebildet. Das Hindurchtreten des Phonationsstromes bewirkt die Schwingung dieser Teile gegeneinander.

Trills sind in der Regel stimmhaft, es kann aber bei angrenzenden stimmlosen Segmenten zur Entstimmung kommen.

Abbildung 9: Der alveolare Trill [r] in "ara"

Beim Trill sind zwei Phasen besonderer Strukturierung zu unterscheiden:

Öffnungphase: Es wird ein Maximum an Phonationschall abgestrahlt, da in dem Moment die Zungenspitze den größten Abstand von den Alveolen bzw. die Uvula die weiteste Auslenkung erfährt.
Verschlußphase: Die alveolare bzw. uvulare Passage wird maximal verkleinert und dämpft so den Phonationstrom kurzzeitig auf ein Minimum.

Jeder Schlag des Trills besteht aus diesen zwei Phasen. Der Übergang von der Verschlußphase zur Öffnungsphase erfolgt schneller als im umgekehrten Fall, da das Artikulationsorgan hier durch den Phonationstrom unterstützt wird. Im Sonagramm zeigt sich dieser Zusammenhang durch eine etwas längere Öffnungsphase im Vergleich zur Verschlußphase. Die Anzahl der Schläge bei Trills beträgt in fließender Sprache üblicherweise höchstens fünf Schläge.

4.6 Die Frikative

Die Entstehung der Frikative basiert auf einer Engebildung im Mundraum zwischen artikulierendem Organ und der Artikulationstelle.

Im zeitlichen Verhalten ähneln Frikative den Plosiven und Nasalen, doch wird hier kein völliger Verschluß gebildet, sondern nur Annäherung. Die Verengung unterteilt den Mundraum in einem vorderen und einem hinteren Resonazraum. Der Luftstrom, der diese Enge passiert, wird turbulent. Luftturbulenzen sind die typischen Schallquellen aller Frikative.

Frikative sind im Sonagramm anhand ihrer 'Geräuscheigenschaften' meist sehr leicht zu erkennen und zu segmentieren. Sie zeichnen sich durch eine stochastische Schwärzung besonders im oberen Frequenzbereich aus. Das Frikativspektrum weist wesentlich mehr Intensität in den höheren Frequenzbereichen oberhalb von 2500 Hz auf, als in den unteren Frequenzbereichen. Je nach Artikulationsort konzentriert sich dieses "Rauschen" auf bestimmte Frequenzbereiche.

Das Sonagramm in Abbildung 10 zeigt die Äußerung "Fachschaft" mit den markierten Frikativen [f], [x], [S] und [f]. Während sich beim [x] bereits frikative Formantstrukturen erkennen lassen, ist beim [f] das Rauschen über alle Frequenzbereiche weitgehend gleichmäßig verteilt.

Abbildung 10: Frikative [f], [x], [S] und [f] in der Äußerung "Fachschaft", gleichmäßige Energie beim [f], Formantstrukturen beim [x], Energieschwerpunkt beim [S] ab 2500 Hz.

Beim [S] dagegen ist eine Energiekonzentration im mittleren Frequenzbereich ab etwa 2500 Hz zu erkennen.

4.6.1 Die Affrikaten

Die Öffnung eines Plosivs in einem homorganen Frikativ bezeichnet man als Affrikat. Affrikate werden wie Frikative produziert, denen ein Verschluß vorausgeht.

Abbildung. 11: Affrikat [ts] gefolgt von [o] in "Zoo"

4.7 Die Laterale

Ein Lateral des Deutschen wird gebildet, indem die Zungenspitze die Alveolen berührt. Der Zungenrücken ist aufgewölbt und läßt laterale Passagen frei.

Die Laterale besitzen sowohl "vokalische" als auch "konsonantische" Eigenschaften:

konsonantisch: der alveolare Teil-Verschluß mit der Zungenspitze und die Verengung in der Uvulagegend geben dem /l/ im Sonagramm seine konsonantische Eigenschaften durch den tief liegenden ersten Formanten F1.
vokalisch: durch die seitlich offenen Passagen bekommt das /l/ seine meist klare Formantstruktur, die es einem Vokal oft zum Verwechseln ähnlich aussehen läßt.

Abbildung 12: Lateral in Vokalumgebung [ala] [ili] [ulu]

5. Zusammenfassung

Dieses Dokument bietet einen kurzen Überblick über das Lesen von Sonagrammen. Es wurden die deutschen Lautklassen erläutert und spezifiziert. Die wichtigsten Punkte werden hier noch einmal zusammengefaßt:

Vokale zeichnen sich durch ihre Formanten aus, die im Sonagramm als waagerechte Balken (Frequenzbänder) zu sehen sind.
Ein wichtiges Unterscheidungsmerkmal zwischen Vokalen und Konsonanten ist, daß bedingt durch die größere artikulatorische Enge bei Konsonanten der erste Formant bei Konsonanten immer tiefer als bei Vokalen liegt.
Bei den Plosiven sind drei Phasen zu erkennen:

Verschlußbildung: es erfolgt ein rapider Abfall der Energie über den gesamten Frequenzbereich.
Verschlußphase: gekennzeichnet durch völlige akustische Stille während der gesamten Verschlußphase. Bei stimmhaften Plosiven ist lediglich die "voice bar" unterhalb von 500 Hz zu sehen.
Verschlußlösung: es erfolgt ein sprunghafter Anstieg der spektralen Energie (Burst). Dieser Burst ist in der Regel im Sonagramm als senkrechte Linie zu erkennen. Dem Burst können Formanttransitionen oder eine Aspirationsphase folgen. Bei Affrikaten folgt unmittelbar der Frikativ.

Glottal-Stop und Glottalisierung sind im Sonagramm an einem oder auch mehreren Glottisverschlüssen zu Beginn des Vokals, deren Formantstruktur der des folgenden Vokals entspricht, zu erkennen.
Ein Hauptkennzeichen von Nasalen ist eine sehr starke Dämpfung des Formantspektrum durch sogenannte Antiformanten, was besonders deutlich in der Vokalumgebung zu sehen ist.
Die Laterale sind durch konsonantische und vokalische Eigenschaften erkennbar:

konsonantische: Durch den alveolaren Teilverschluß mit der Zungenspitze sowie einer Engebildung in der Uvulagegend entsteht ein tiefer Formant F1. Zudem dämpfen Antiformanten das Spektrum leicht.
vokalische: Durch seitlich offene Passagen erhält der Lateral seine meist klare Formantstruktur.

Die Frikative erkennt man anhand ihrer "Geräuscheigenschaften" im Sonagramm. Ihre stochastische Schwärzung weist in den Frequenzbereichen oberhalb von 2500 Hz wesentlich mehr Intensität auf als in den unteren Frequenzbereichen.

In dieser Ausarbeitung habe ich nur einige Teilaspekte des Sonagrammlesens angesprochen. Da dieses Thema sehr umfangreich ist, bemühte ich mich die wichtigsten Punkte zu erklären.

6. Literatur

Das Lesen von Sonagrammen, Kirsten Machelett, H.G. Tillmann, 1996, Institut für Phonetik und Sprachliche Kommunikation, Universität München: http://www.phonetik.uni-muenchen.de/SGL/SGLHome.html

Automatische Spracherkennung, E.G. Schukat-Talamazinni,1995, Vieweg Verlag