next up previous contents
Next: Literatur Up: No Title Previous: DTW oder dynamic time

Ausblick

Die Erkennungsleistung mittels DTW kann durch gezielte Bestrafung von zeitlichen Verschiebungen verbessert werden. Ein großer Teil des Rechenaufwands läßt sich durch abstandsorientierte Beschneidung von Zuordnungspfaden einsparen. Dabei werden Zuordnungspfade, deren Abstandsmaß relativ zu anderen schlecht wird, nicht mehr weiter berücksichtigt. Die phonetisch bedeutsameren Transitionen können durch Analyse mit variabler Frame-Rate stärker gewichtet werden.

Dynamische Programmierung kann weiter auf Erkennung von Wortketten erweitert werden. Dabei ist eine kontinuierliche Abarbeitung möglich, so daß für die ausgesprochenen Wörter bereits ein oder zwei Sekunden später die Erkennungsergebnisse ausgegeben werden.

Ein Spracherkennungssystem wird normalerweise trainiert, in dem ihm der vorgesehene Benutzer Beispiele aller Wörter vorspricht. Zuweilen nehmen an dieser Trainingphase verschiedene Sprecher teil, und es werden mehrere, verschiedene Vergleichsmuster für jedes Wort erstellt, um eine sprecherunabhängige Erkennung zu ermöglichen.


next up previous contents
Next: Literatur Up: No Title Previous: DTW oder dynamic time

Damir Culjat
Tue Feb 23 14:43:47 CET 1999