Yassin Naciri
Das Lesen von Sonagrammen
1. Einleitung
Das vorliegende Dokument gibt eine kurze Einführung in das Lesen
von Sonagrammen. Es berichtet über die Eigenschaften von Lauten der
deutschen Sprache im Sonagramm. Ein Sonagramm ist eine visuelle Abbildung
von Sprache. Man stellt sich dann die Frage, wie man durch bloßes
Ansehen eine Lautfolge aus einem solchen Sonagramm wieder erkennen und
identifizieren kann. Um der Antwort nahe zu kommen, werden die Lautklassen
des Deutschen im Sonagramm erläutert und spezifiziert.
2. Der Sonagraph
Ein Sonagraph ist eine Instrument zum "Sichtbarmachen" von Sprache in Form von Sonagrammen, d.h die visuelle Darstellung eines Sprachsignals "visible Speech", das akustisch in seine spektralen Komponenten (Zeit,Frequenz,Intensität) zerlegt wurde.
Die Geschichte von Visible Speech-Sonagrammen
begann mit der Entwicklung des ersten klassischen KAY-Sonagraphen(Kay
Electric Company, Pine Brook, New Jersey, USA), die der akustischen
Phonetik völlig neue Möglichkeiten eröffnet haben. 1945
wurde im Artikel "Visible Pattern Of Sound" von POTTER über
die Anwendungsmöglichkeiten des Sonagraphen berichtet. KOENIG, DUNN
und LACEY beschrieben 1946 seine Funktionsweise und Anwendungsmöglichkeiten.
2.1 Der klassische Sonagraph
Der KAY-Sonagraph ist ein elektromechanisches
Gerät zur Aufzeichnung von Zeitvarianten Fourierspektren. Als Grundfunktionen
verfügt er über Bandpaßfilterung, Gleichrichtung und Glättung,
die man mit graphischer Darstellung verbinden kann. Er kann Sprachsignale
von maximal 2,4 Sekunden speichern und aufzeichnen, und Sonagramme im Frequenzbereich
von 0 bis 8000 Hz auf Papier zeichnen. Vor dem Aufzeichnen auf Papier kann
die Analyse-Bandbreite eingestellt werden. Bei der Wahl von einem Filter
von 350 Hz entsteht ein Breitband-Sonagramm, bei einem Filter von 80 Hz
ein Schmalband-Sonagramm.
2.2 Der digitale Sonagraph
Er unterstützt digitale Verfahren zur Bearbeitung von Sprachsignalen.
Ein Beispiel dafür ist das Modell 5500 von KAY-Sonagraphen "Signal-Analyse-Workstation":
dieser besteht aus einer Recheneinheit, mindestens einem Lautsprecher,
einem Bildschirm, einem Mikrophon oder Tonband/Kassettengerät und
einem Drucker. Solche Sonagraphen können Sprachsignale bis zu 98 Sekunden
aufzeichnen und weitere Analysefilter für 300 Hz und 30 Hz einsetzen.
3. Das Sonagramm
Ein Sonagramm ist ein aus Zeit, Frequenz und Intensität bestehendes Spektrum, und stellt das Sprachsignal in sichtbarer Form dar.
Heisenbergsche Unschärferelation:
Je genauer die Auflösung im Zeitbereich, desto ungenauer ist sie im Frequenzbereich und umgekehrt. Eine hohe Frequenz- und Zeitauflösung zu erreichen ist schwierig, da das Analysefenster entweder eine hohe Frequenz- oder eine hohe Zeitauflösung ermöglicht.
3.1 Breitband-Sonagramm
Bei Einsatz von Analysefenstern von etwa 300 Hz entsteht ein Breitband-Sonagramm. Es verfügt über eine bessere Auflösung im Zeitbereich, was eine bessere Sichtung von Glottisschlägen und eine Verfolgung von Formantenstrukturen der Vokale ermöglicht. Formanten sind im Sonagramm als waagerechte Frequenzbänder zu sehen. Dabei werden "Kurzzeit"-FFTs verwendet, die für eine höheren Zeitauflösung sorgen, und schnell wachsende Ereignisse erfassen (siehe Abbildung 1).
Abbildung 1: Schmalband- und Breitband-Sonagramm mit Frageintonation
und Markierung von stimmhaften Segmenten
3.2 Schmalband-Sonagramm
Das Schmalband-Sonagramm demonstriert deutlich den Tonhöhenverlauf
sowie den Verlauf der Harmonischen (Obertöne) und entsteht
bei hoher Auflösung im Frequenzbereich, in dem ein Analysefenster
von etwa 50 Hz eingesetzt wurde. Die Harmonischen sind im Sonagramm als
schmale, parallele "Bänder" zu erkennen, die grundsätzlich parallel
verlaufen und deren Abstand jeweils gleich groß ist (siehe Abbildung
1).
3.3 Die Stimmhaftigkeit im Sonagramm
Stimmhafte Laute sind im Sonagramm an den Glottisschlägen erkennbar.
Ihre Abwesenheit deutet auf einen stimmlosen oder entstimmten Laut hin.
Die Glottisschläge können annähernd über den gesamten
Frequenzbereich als durchgehende Linien sichtbar sein, wie bei den Vokalen,
oder
aber nur im untersten Frequenzbereich unterhalb von etwa 500 Hz, wie beispielsweise
bei stimmhaften Plosiven.
3.4 Der Prozeß des Sprechens und der Koartikulation
Im Allgemeinen gibt es beim normalen Sprechen keine akustisch oder artikulatorisch
konstanten Laute: Der Artikulationsvorgang bei der Produktion einer Lautfolge
ist ein kontinuierlicher Prozess, d.h. nicht Einzellaute werden produziert,
sondern ein Lautstrom, in dem die Laute koartikularisch miteinander verbunden
sind. Es gibt zwar Artikulationsstellen bzw. Artikulationsregionen für
die Bildung eines jeden Lautes, jedoch werden sie beim Sprechen nur in
Bewegung durchlaufen. Diese Tatsache bewirkt, daß ein Laut û
in unterschiedlichen Lautkontexten oder von verschiedenen Sprechern produziert
û immer wieder etwas anders aussehen kann.
4. Die Lautklassen im Sonagramm
4.1 Vokale und Formanten
Die deutschen Vokale sind stimmhafte Laute, deren Klangcharakteristika durch die Konfiguration des Vokaltraktes bestimmt wird. Der durch Glottisimpulse angeregte Luftstrom wird im Ansatzrohr moduliert, dabei verändern Kehlkopfhöhe, Rachenenge, Zungenposition und -höhe sowie Lippenstellung die Resonanzeigenschaften des Ansatzrohres und damit die Resonanzfrequenz des entstehenden Vokals. So erhält jeder Vokal seine für ihn typischen spektrale Zusammensetzung mit Energiekonzentration bei den jeweiligen Resonanzfrequenzen. Diese Energiekonzentration sind im Sonagramm als waagerechte Frequenzbänder zu erkennen. Sie heißen Formanten F1, F2, F3 usw. (siehe Abbildung 2).
Die drei ersten Formanten F1, F2 und F3 spezifizieren die Vokale und sind relativ sprecherunabhängig, d.h. sie nehmen immer annähernd die gleiche Frequenzwerte. Die Formanten ab F4 spezifizieren die Klangfarbe und charakterisieren die Sprecherstimme. Sie dienen in erster Linie zur Identifizierung eines Sprechers und nicht eines Vokals.
Die Formanttabelle in folgender Abbildung zeigt die bei Männern (M), Frauen (W) und Kindern (Ch) durchschnittlich gemessene Grundfrequenz F0 und die Frequenzwerte der drei ersten Vokalformanten.
Abbildung 2: Formanttabelle mit Grundfrequenz F0 und Formanten F1,
F2, F3 von Vokalen gemittelt über 76 Sprecher: Männer (M), Frauen
(W) und Kinder (Ch)
(entnommen aus: PETERSON, BARNEY, 1952, S.183)
4.1.1 Abgrenzung der Vokale von den Konsonanten
Man kann Vokale von Konsonanten in erster Linie durch die Formantenstruktur unterscheiden. Das wichtigste Unterschiedsmerkmal ist dabei der bei den Konsonanten niedrige erste Formant F1. Dieser wird bedingt durch die größere artikulatorische Enge bei Konsonanten im Vergleich zu Vokalen. Formantübergänge von einem Vokal zum anderen oder von einem Vokal zum angrenzenden Konsonant heißen Transitionen. Im Sonagramm folgender Abbildung sind die Vokalsegmente der Äußerung "Biedermeier" gekennzeichnet.
In der Abbildung 3 ist die niedrige Frequenz F0 bei den Konsonanten
'B', 'd' und 'm' zu bemerken.
4.1.2 Diphtonge
Sie treten bei deutlicher kontinuierlicher Wahrnehmungsveränderung der Vokalqualität innerhalb einer Silbe auf. Diese Veränderung zeigt sich im Sonagramm durch einen gleitenden Übergang der Formanten vom ersten zum zweiten Vokal.
Die Diphtonge des Deutschen sind die folgenden:
Abbildung 4: "Da ist mein Neuhaus" mit markierten Diphthongen [aI OY aU], Vokale /a/ und /i/ sind ebenfalls markiert.
4.1.3 Vokale mit Glottal-Stop
Ein glottaler Verschlußlaut, der "Glottal-Stop" geht im Allgemeinen den Vokalen im Deutschen in wort- und silbeninitialer Position voraus. Er wird auch als harter Stimmeinsatz bezeichnet. Er steht potentiell vor jedem mit einem Vokal beginnenden Wort- und Stamm-Morphem, sowie nach einer Sprechpause vor betontem und unbetontem Vokal bei intramorphematischen Vokalfolgen /the?ater/. Er tritt ebenfalls im Innern einer nicht unterbrochenen Äußerung vor betontem Vokal auf. Am häufigsten tritt er vor /a/, am seltensten vor /i/, /u/ und /y/ auf.
Abbildung 5: Der "Glottal-Stop" jeweils zu Beginn von "am" und "also",
[?] markiert
4.2 Die Plosive
|
|
|
|
|
|
|
|
Tabelle der Plosive
Bei der Bildung eines Plosivs werden drei artikulatorische Phasen beobachtet:
Abbildung 6: "Das gute Boot" mit den stimmhaften Plosiven [d] und
[g] und dem stimmlos aspirierten Plosiv [th]
Die Verschlußlösung, der "Burst" (Phase III), hat einen plötzlichen, sprunghaften Anstieg der spektralen Energie in einem bestimmten Frequenzbereich zur Folge. Dieser ist bestimmt durch die Burst-Schallquelle, also der Artikulationsstelle des Plosivs. Das Verschlußlösungsgeräusch stimmhafter Plosive ist mit einer Dauer von nur 10-20 ms sehr kurz. Ihm folgt eine sehr schnelle F1-Transition von ca. 50 ms. Bei stimmlosen Plosiven wird der "Burst" in der Regel gefolgt von einer Aspirationsphase unterschiedlicher Dauer. Diese liegt etwa zwischen 40 ms und 80 ms. Die Aspiration entfällt bei stimmlosen Plosiven in Verbindung mit Frikativen und vor Nasalen.
In der Regel werden die Plosive durch die Verschlußphase, die
als akustische Stille bezeichnet wird, im Sonagramm erkannt. Sie gilt als
akustisches Merkmal für die Perzeption eines Plosivs. Fehlt sie, ist
es dann fast unmöglich einen Plosiv wahrzunehmen.
4.3 Glottal-Stop und Glottalisierung
Ein Glottal-Stop entsteht durch vollständigen Verschluß der Stimmlippen (kurzzeitiges Aussetzen der Stimmlippenschwingungen), das ist eine Signalpause von meist weniger als 100 ms, vergleichbar mit der Verschlußphase eines Plosivs. Die Verschlußlösung ist erkennbar an einigen (1 bis 3) unregelmäßigen Stimmlippenschwingungen zu Beginn des Vokals (siehe Abbildung 5).
Häufig wird einen sog. Glottalisierungseffekt anstelle des Glottal-Stops zu Beginn des Vokals beobachtet. Dies erfolgt bei Konsonant-Vokal-Übergängen wie z.B. wenn dem silbeninitialen Vokal ein Nasal oder ein Lateral vorausgeht.
Abbildung 7 vergleicht den einsilbigen Namen "Bea" mit dem zweisilbigen
"Beate", wobei wir beim zweiten Namen einen silbeninitialen Glottal-Stop
vor dem /a/ erwarten würden. Die erste Äußerung zeigt einen
fließenden Übergang zwischen den Vokalen /e/ und /a/, während
in der zweiten der Glottal-Stop durch einen glottalisierten Übergang
ersetzt wird.
4.4 Die Nasale
Die Bildung von Nasalen wird durch Kombination zweier artikulatorischer Bewegungen realisiert:
Abbildung 8 zeigt die drei Nasale des Deutschen in den Äußerungen "anga" (ohne [g] gesprochen), "ana" und "ama". Dort ist zu sehen, wie klar sich Nasale von Vokalen abgrenzen lassen, was die Segmentierung erleichtert.
Abbildung 8: [aNa, ana, ama] mit den drei Nasalen des Deutschen
[N, n, m] jeweils im [a]-Kontext, Nasale segmentiert und gekennzeichnet.
Das Hauptkennzeichen eines Nasals im Sonagramm ist ein stark gedämpftes
Formantspektrum oberhalb 500 Hz. Der erste Formant F1 liegt etwa bei 250
Hz und dominiert das Spektrum. Der Formant F2 ist sehr schwach ausgeprägt
oder fehlt völlig und manchmal sind mehrere höhere Formanten
geringer Intensität zu erkennen.
4.5 Die Trills
Die Trills werden als Schwinglaut oder Vibrant bezeichnet. Sie entstehen durch eine Folge von Verschlüssen und Verschlußlösungen. Jeden einzelnen dieser Verschlüsse nennt man Schlag.
Im Deutschen werden zwei Allophone des Phonems /r/ als Trill realisiert:
Beim Trill sind zwei Phasen besonderer Strukturierung zu unterscheiden:
4.6 Die Frikative
Die Entstehung der Frikative basiert auf einer Engebildung im Mundraum zwischen artikulierendem Organ und der Artikulationstelle.
Im zeitlichen Verhalten ähneln Frikative den Plosiven und Nasalen, doch wird hier kein völliger Verschluß gebildet, sondern nur Annäherung. Die Verengung unterteilt den Mundraum in einem vorderen und einem hinteren Resonazraum. Der Luftstrom, der diese Enge passiert, wird turbulent. Luftturbulenzen sind die typischen Schallquellen aller Frikative.
Frikative sind im Sonagramm anhand ihrer 'Geräuscheigenschaften' meist sehr leicht zu erkennen und zu segmentieren. Sie zeichnen sich durch eine stochastische Schwärzung besonders im oberen Frequenzbereich aus. Das Frikativspektrum weist wesentlich mehr Intensität in den höheren Frequenzbereichen oberhalb von 2500 Hz auf, als in den unteren Frequenzbereichen. Je nach Artikulationsort konzentriert sich dieses "Rauschen" auf bestimmte Frequenzbereiche.
Das Sonagramm in Abbildung 10 zeigt die Äußerung "Fachschaft" mit den markierten Frikativen [f], [x], [S] und [f]. Während sich beim [x] bereits frikative Formantstrukturen erkennen lassen, ist beim [f] das Rauschen über alle Frequenzbereiche weitgehend gleichmäßig verteilt.
Beim [S] dagegen ist eine Energiekonzentration im mittleren Frequenzbereich
ab etwa 2500 Hz zu erkennen.
4.6.1 Die Affrikaten
Die Öffnung eines Plosivs in einem homorganen Frikativ bezeichnet man als Affrikat. Affrikate werden wie Frikative produziert, denen ein Verschluß vorausgeht.
4.7 Die Laterale
Ein Lateral des Deutschen wird gebildet, indem die Zungenspitze die Alveolen berührt. Der Zungenrücken ist aufgewölbt und läßt laterale Passagen frei.
Die Laterale besitzen sowohl "vokalische" als auch "konsonantische" Eigenschaften:
5. Zusammenfassung
Dieses Dokument bietet einen kurzen Überblick über das Lesen von Sonagrammen. Es wurden die deutschen Lautklassen erläutert und spezifiziert. Die wichtigsten Punkte werden hier noch einmal zusammengefaßt:
6. Literatur