Erste Systeme zur sprecherabhängigen Einzelworterkennung analysierten nur isolierte Ziffern oder einsilbige Wörter mit Hilfe einfacher Zeitbereichsmerkmale oder analoger Filterbänke. Die Lautgestalt einer Äußerung durch Inspektion ihrer lokalen Spektralform abzuleiten, war bis zum Ende der sechziger Jahre der vorherrschende Ansatz.
Die Spracherkennung der siebziger Jahre konnte sich bereits auf neue, bahnbrechende Algorithmen zur Signalanalyse (das lineare Vorherrsagemodell) und Algorithmen zum Vergleich zeitlich verzerrter Muster - was auch das Thema dieser Arbeit sein soll - nach dem Prinzip der Dynamischen Programmierung stützen. Mit diesen Verfahren ließen sich schon recht leistungsfähige Einzelworterkenner verwirklichen, noch dazu auch sprecherunabhängig. Zu dieser Zeit gab es einige Projekte, die für die Spracherkennungsforschung wesentlich sein sollen. Von entscheidender Bedeutung für die Ausrichtung des Forschungsgebiets war das vom US-amerikanischen Verteidigungsministerium aufgelegte DARPA-SUR (Speech Understanding Research)-Vorhaben. Es wurden stark KI-orientierte Systemarchitekturen entwickelt, welche von einem geschichteten linguistischen Modell der Sprache ausgingen und über zahlreiche Wissensbasen und Analysemodule verfügten, deren Aktivitäten durch übergeordnete Kontrollstrategie koordiniert wurden.
In den achtziger Jahren setzte dann eine rasante Entwicklung ein. Der entscheidende Paradigmenwechsel vollzog sich durch den Übergang vom dynamischen Mustervergleich und Wortprototypen zur statistischen Modellierung. Die Technik der sog. Hidden-Markov-Modelle (kurz HMM) war bereits ab 1975 von einzelnen Forschungsgruppen verfolgt worden, aber nun wurde diese Technik ein Standard. Dadurch wurde es möglich, die schwer durchschaubaren Zusammenhänge zwischen Spracheinheiten und ihren akustischen Gegenstücken in ein Wahrscheinlichkeitsmodell zu verpacken, dessen freie Parameter aus vorgelegten Sprachproben geschätzt werden konnten. Die Flexibilität und Generalisierungsfähigkeit der Markovmodelle löste in den letzten Jahren eine Lawine von Fortschritten hinsichtlich Sprechanpassung, Erkennung großer Wortschätze, Grammatikmodellierung und Echtzeitverhalten aus. Im Kampf gegen die verschleifungsbedingte Variabilität gesprochener Sprache wurde mit der Technik kontextabhängiger Wortunterheiten ein durchbruchartiger Erfolg erzielt. So arbeiten heutzutage die meisten kommerziellen Spracherkenner auf diesem Prinzip.
Eine weitere Spielart parametrischen Lernens, die mittels gewöhnlichen Gradientenabstieg trainierbaren Neuronalen Netzwerke, gewann in jüngster Zeit im Bereich der signalnahen Verarbeitung zunehmend an Bedeutung. Es handelt sich um eine Verschaltung von gleichartigen, relativ einfachen Bausteinen zu einem Netzwerk und Informationsweiteleitung in diesem Netz nach Prinzipien, wie sie bei biologischen Nervenzellen (Neuronen) vorliegen.