Spracherkennung - Ein Eingabemedium für die berührungslose Navigation in Kiosksystemen

Die gesprochene Sprache stellt neben der Gestik und Mimik eines der wichtigsten menschlichen Kommunikationsmittel dar. Diese Signale erleichtern es, die Aussagen des Gegenübers zu verstehen. Für den Menschen stellen die Fähigkeiten des Sprechens und des Verstehens der Sprache eine Selbstverständlichkeit dar. Könnte die gesprochene Sprache von Computern verstanden werden, so würde dies nicht nur die Gestaltung des Mensch-Maschine-Dialogs erleichtern, sondern auch gleichzeitig neue Gebiete für den Einsatz von Computern erschließen. Die Spracherkennung hat in der jüngsten Vergangenheit - wie die Beispielse Cortana von Microsoft sowie Alexa von Amazon verdeutlichen - nicht zuletzt aufgrund der Nutzung der Cloud-Technologie signifikante Fortschritte erzielt, welche prinzipiell den Einsatz von Spracherkennungstechnologien zur berührungslosen Navigation und zur Steuerung von Kiosksystemen ermöglichen. Bei dieser Form der akustischen Eingabe werden von den Nutzern ausgesprochene Wörter oder ganze Sätze von dem Steuerungscomputer des Kiosksystems digitalisiert, aufgenommen und bestimmten Navigations- bzw. Steuerkommandos zugeordnet. Ein derartiges System für den Einsatz am Point of Sale stellte Friendlyway bereits im Jahre 1999 als "sprechendes Produktregal" vor, welches interessierte Kunden mit Produktinformationen versorgen sollte.

Blieb der Kunde vor einem herkömmlichen Produktregal stehen, so wurde über einen integrierten Bewegungsmelder leise beginnend eine Musiksequenz abgespielt, die den Kunden in eine geeignete Stimmung versetzen sollte. Anschließend begrüßte eine angenehm klingende Stimme den Kunden und fragte nach seinen Produkt-Wünschen. Diese Wünsche wurden via Voice Recognition aufgenommen und den im Steuerungssystem vorgehaltenen Informationskategorien zugeordnet. Im Anschluss an die Informationen durch das System erhielt der Interessent auf Wunsch die Möglichkeit, einen Verkäufer heranzurufen oder sich mit einem Call-Center verbinden zu lassen. Dieses Projekt wurde jedoch modifiziert und die Erkennung der Sprache aus dem System herausgenommen und durch den Druck auf mechanische Buttons subsituiert.

Technische Grundlagen der Spracherkennung für Kiosksysteme

Spracheingaben der Benutzer erfolgen über ein in das Kiosksystem integriertes Mikrofon. Die gesprochenen Äußerungen werden aufgezeichnet und als Sprachsignal von einem Audio-Digital-Wandler der Soundkarte digitalisiert. Die Qualität des aufgenommenen Sprachsignals ist für die erfolgreiche Implementierung von Technologien zur Erkennung der Sprache in Kioskterminals entscheidend, da bereits ein falsch erkanntes Wort den Sinn einer Äußerung nachhaltig verändern und zum Scheitern des Dialoges führen kann. Moderne Technologien zur Erkennung der Sprache können mit niedrigen Erkennungsraten umgehen, indem z.B. Sprachsignale unterhalb eines gewissen Toleranzwertes keine Beachtung finden oder Benutzer in einem solchen Fall gebeten werden, die betreffenden Äußerungen zu wiederholen.

Das digitalisierte akustische Signal wird auf für die Sprache charakteristische Merkmale wie beispielsweise Lautstärke, Tonhöhe und Frequenzverteilung analysiert. Dadurch lassen sich Abschnitte mit gesprochener Sprache von den Hintergrundgeräuschen trennen und herausfiltern. Für Voice Recognition werden hauptsächlich Merkmale des Sprachsignals genutzt, die eine Verteilung der akustischen Energie über Frequenz und Zeit widerspiegeln. Diese Merkmale ergeben für jedes zu erkennende Wort und jede sprachliche Einheit ein spezifisches Muster, welches die Voice Recognition-Technologie identifizieren kann, indem sie es mit gespeicherten Sprachmustern vergleicht. Bei großen Wortschätzen ist es nötig, auf kleinere Einheiten wie den einzelnen Lauten zurückzugreifen. In der deutschen Sprache existieren circa 40 Phoneme, aus denen sich alle Wörter zusammensetzen lassen. Voice Recognition zerlegt das fortlaufende Sprachsignal durch einen Vergleich mit den akustischen Mustern einer Sprach-Datenbank in Phoneme. Werden die Phoneme erkannt, so lassen sie sich wieder zu Wörtern zusammensetzen. Ein in das System integriertes Wörterbuch legt dabei fest, in welcher Reihenfolge Phoneme sinnvolle Wörter ergeben.

Der Durchbruch beim Einsatz von Spracherkennungstechnologien als Eingabemedium in Kioskterminals am POS und POI steht noch aus, da sich bisherige Systeme durch eine relativ hohe Sprecherabhängigkeit und Offline-Analysen ausgezeichnet haben und daher insbesondere bei Dialekten und undeutlicher Aussprache nur unzureichend in der Lage waren, gesprochene Wörter zu erkennen. Die mittlerweile erzielten Forschungserfolge und die von Microsoft mit Cortana und Amazon mit Alexa dank des Cloud-Einsatzes erzielten Erfolge könnten jedoch auch dem Einsatz von Voice Recognition in stationären multimedialen Kiosksystemen zum Erfolg zu verhelfen.