Sprechen statt diktieren

Spracheingabe ist mittlerweile so weit gediehen, dass sie als ernsthafte Alternative zum langwierigen Tippen angesehen werden kann.

Nicht erst seit Stanley Kubricks Kultfilm «2001: A Space Odyssey» ist es ein Traum aller Computerprogrammierer, ein System zu entwickeln, das mit natürlicher Sprache bedient werden kann und zwischen Kommentaren, Befehlen und Diktattext genauso gut unterscheiden kann wie eine menschliche Sekretärin. Natürlich ist es sicher noch ein weiter Weg, aber wir hatten das Vergnügen, die aktuellen Produkte von Philips und IBM auf diesem Wege zu testen. Sowohl das System «FreeSpeech» von Philips als auch «ViaVoice» von IBM unterscheiden während des Diktates zwischen dem eigentlichen Text des Diktats einerseits und Formatierungsbefehlen wie «Komma», «Punkt», «Neuer Absatz» und ähnlichem.

Die Installation des Systems gestaltet sich - wie bei fast allen Windows 95-Programmen - relativ einfach: CD einlegen, setup.exe aufrufen, und schon geht's los. Lustiger ist die Installation der Mikrofone: Das - ebenfalls von Philips stammende - «SpeechMike» ist ein Gerät, das Mikrofon mit Trackball und Maustasten vereinigt. Bei dieser Einheit wird keine Software mitgeliefert, sondern im Handbuch steht, dass das System mit den regulären Windows-Treibern funktioniert. Diese Behauptung entspricht auch den Tatsachen, da unser Windows-System den Trackball sofort als neue Hardware erkannte, und wir sofort damit arbeiten konnten. Als wir nun aber FreeSpeech installierten, führte dieses unter den Installationsoptionen auch das Philips-eigene SpeechMike auf. Selbstverständlich dachten wir uns, dass dies wohl eine bessere Abstimmung und höhere Leistung ergeben würde - weit gefehlt! Vielmehr war es so, dass nach der Installation von FreeSpeech das SpeechMike überhaupt nicht mehr funktionierte. Erst als wir in der Systemsteuerung den Philips-Treiber manuell entfernten und den Windows-eigenen Treiber wieder einführten, funktionierte das Gerät - dann aber einwandfrei, auch mit Philips FreeSpeech.

Bei ViaVoice von IBM ist dagegen ein Kopfhörer mit Mikrofon beigepackt. Die Idee dahinter ist, dass man dann beide Hände frei hat - die Realität sieht leider anders aus: Zunächst behauptete die Installationsroutine, das Mikrofon wäre defekt, oder nicht angeschlossen.

Da wir die goldene Regel der Computerei kennen (überprüfe als erstes immer die Kabel!), taten wir dies auch, kamen damit aber auf keinen grünen Zweig. Dann kam uns die Idee, der Tester könnte zu leise sprechen - was aber beim SpeechMike nicht der Fall war - und es wurde ein neuer Versuch mit etwas gehobener Stimme versucht. Resultat: Der Assistent verlangte das Einsetzen eines Dämpfungsgliedes, da die Audioleistung zu hoch wäre! Nach dieser Erfahrung kann die Bemerkung im Handbuch: «Verwenden Sie am besten das mit ViaVoice 98 mitgelieferte Mikrofon. Wenn Sie ein anderes Mikrofon verwenden wollen, dann muss es eines der unten aufgelisteten Modelle sein, da nur diese dieselbe Leistung erbringen.» nur als Drohung aufgefasst werden.

Wir haben daher auch für den Test von IBM ViaVoice das SpeechMike von Philips verwendet.

Wie funktioniert nun Spracherkennung?

Grundsätzlich wird das Audiosignal in kleine Zeitabschnitte zerlegt und nach Lautstärke und Frequenzen analysiert - eine Vorarbeit, die schon bei der Digitalisierung geleistet wird. Dann werden unterschiedlich lange Tonfragmente mit einem Lexikon verglichen, wobei man grundsätzlich zwei Arten unterscheidet, an das Problem heranzugehen:

Systeme mit kleinem, fixen Lexikon werden vor allem bei Maschinensteuerungen eingesetzt. Hier werden die Frequenzen stark beschnitten, um so die individuellen Eigenheiten möglichst zu entfernen. Dadurch können aber auch ähnliche Wörter nicht mehr unterschieden werden.

Systeme mit grossem, veränderlichen Lexikon können wirkliche Sprache verarbeiten, benötigen allerdings auch mehr Rechenleistung. Ausserdem muss solch ein System trainiert werden, um die individuellen Sprachmuster des Benützers, des Mikrofons und des Hintergrundes kennenzulernen. Ein Mensch erkennt einen Sprecher, egal, ob dieser in einem Brunnenschacht sitzt oder auf freiem Feld - ein Computer nicht.

FreeSpeech und ViaVoice gehören natürlich zur zweiten Kategorie, verwenden aber unterschiedliche Ansätze. ViaVoice vergleicht die Sprachstücke mit ganzen Worten - oder genauer gesagt Wortformen wie «Haus», «Hauses», «Häuser», «Häusern» -, hat daher ein ziemlich umfangreiches Lexikon: Ein Grundvokabular mit den 64'000 häufigsten Wortformen (wobei 56'000 schon eingetragen sind), ein Backup-Vokabular mit maximal 340'000 Wortformen (wobei 240'000 schon vorhanden sind) und ein Benützervokabular mit bis zu 64'000 Wortformen. Im laufenden Betrieb sucht ViaVoice zunächst nur im Grundvokabular, was natürlich die Erkennungsgeschwindigkeit erhöht.

FreeSpeech hingegen vergleicht nicht Wortformen, sondern Phoneme, die Bausteine der Sprache. Der Vorteil dabei ist, dass die deutsche Sprache einige hunderttausend Wörter und über eine Million Wortformen kennt, die noch dazu unterschiedlich ausgesprochen werden, je nachdem, welche Wörter davor oder danach kommen, und ob es eine Frage, eine Aussage oder ein Ausruf ist. Phoneme dagegen gibt es je nach Dialekt dreissig bis vierzig. Wenn man für jedes Phonem alle Kombinationsmöglichkeiten betrachtet, kommt man auf maximal 64'000 Varianten - wobei in Wirklichkeit ja nicht jedes Phonem mit jedem Phonem kombiniert wird -, die das System lernen muss.

Der Nachteil dabei ist, dass die Umwandlung von erkannten Phonemen in Wörter einen weiteren Schritt erfordert. Zudem lernt das System langsamer: Wenn man denselben Satz in ViaVoice ein zweites Mal diktiert und beim ersten Mal dem System neue Wörter eingelernt hat, dann ist das Diktat praktisch fehlerfrei. Bei FreeSpeech dagegen verbessert sich die Erkennungsrate nicht wesentlich. Dieser langsamere Lernprozess schlägt sich auch in der Menge der beigefügten Übungssätze nieder: Bei ViaVoice sind es gerade 256 Übungssätze, während FreeSpeech mit 697 Übungssätzen aufwartet. FreeSpeech hat aber auch Vorteile: Wenn man nicht ständig Texte mit denselben Wörtern diktiert, wie zum Beispiel ein Arzt oder Rechtsanwalt, tut sich ViaVoice schwer, da es jede neue Wortform extra speichert. FreeSpeech dagegen erkennt die Phoneme und versucht sie selbsttätig zu gruppieren. Das allein nutzt noch recht wenig, da man dieselbe Lautfolge in unterschiedlichen Wörtern unterschiedlich schreibt, aber es erleichtert das Erkennen neuer Texte.

Mehr als nur Diktate

Ausser dem Diktat können beide Systeme auch andere Funktionen ausführen. So ist es möglich, nicht nur Satzzeichen während des Diktats, sondern auch Programmsteuerungsbefehle zu geben. Bei FreeSpeech ist dies durch einen eigenen «Befehlsmodus» gelöst, der nach dem Prinzip des kleinen, fixen Lexikons funktioniert. ViaVoice hingegen hat keinen echten Befehlsmodus, was teilweise zu Problemen führt: Wenn man «Start» sagt - ist das ein Wort für das Diktat oder ein Befehl, auf den Startknopf von Windows 95/98/NT zu drücken?

Ein Punkt, bei dem ViaVoice dagegen konkurrenzlos ist, ist der Vorlesemodus: Man öffnet eine Datei und kann sie sich vorlesen lassen. Die Stimme wird dabei nicht aus der trainierten eigenen Sprache generiert, sondern es gibt eine Computerstimme, bei der man Geschlecht, Kopfgrösse, Stimmlage, Behauchung, Sprechgeschwindigkeit und andere Parameter einstellen kann.

Sprechen ohne Computer

Dafür kann nur FreeSpeech fremde Datenquellen verwenden. FreeSpeech verwendet nämlich zum Speichern von gesprochenem Text ein WAV-Format - das Standardformat für Audiodateien. Daher ist es auch kein Problem, mit irgendeinem anderen System Text aufzunehmen, den man dann von FreeSpeech in ein Textdokument umwandeln kann. Dabei ist allerdings zu bedenken, dass man beim Training nicht nur die eigene Stimme, sondern auch deren Veränderungen in unterschiedlichen Umgebungen und bei einem bestimmten Mikrofon trainiert. Daher sollte man für jede Tonquelle, die man so verwenden möchte, ein eigenes Training durchfuhren. Und aus diesem Grund gibt es die Schaltfläche «Sprachdatei öffnen» auch beim Training, damit man die Übungstexte eben mit diesem anderen Mikrofon sprechen und dann laden kann. Andernfalls sinkt die Erkennungsrate nämlich auf nicht akzeptable Werte ab.

Eine mögliche Anwendung dafür wäre der VoiceTracer, der ebenfalls von Philips stammt. Dieses Gerät ist eine PC-Karte Typ III, die mit Mikrofon und Lautsprecher alle Funktionen eines Diktiergeräts hat und etwa 16 Minuten Sprache speichern kann. Wird die Karte in den Computer eingesteckt, ist sie sofort als weiteres Laufwerk verfügbar, so dass man die WAV-Dateien verschieben, kopieren, editieren etc. kann. Doch genauso, wie der Treiber von FreeSpeech mit dem SpeechMike nicht funktioniert, verwendet der VoiceTracer auch ein anderes WAV-Format als FreeSpeech. Zum Glück - «aber Gott möge abhüten von allem, was noch ein Glück ist» (Torberg, Tante Jolesch) - kann man mit dem Audiorecorder von Windows WAV-Dateien leicht ineinander umwandeln. Das einzige Problem ist, dass der VoiceTracer ein ziemlich komprimiertes Format verwendet, das nur 8'000 Hz mit 4 Bit Samplingrate erfasst, während das FreeSpeech-eigene Format 16'000 Hz Bandbreite verwendet, was ja für optimale Spracherkennung notwendig ist.

ViaVoice dagegen speichert Sprachdateien in einem proprietären Format namens «IBM ViaVoice 5.2 Session» als VPS-Dateien ab, weshalb sich der Import aus anderen Quellen unmöglich gestaltet. Eine Ausnahme könnten digitale Diktiergeräte von Olympus sein, die dasselbe Format verwenden sollen, doch bevor wir kein Testgerät hatten, um das nachzuprüfen, geben wir dazu keinen Kommentar ab.

Was soll man nehmen?

Wenn man sich nun die Frage stellt, welches der beiden Systeme im Einsatz besser ist, hängt dies natürlich von verschiedenen Umständen ab.

Ein Punkt ist natürlich der Speicherbedarf: FreeSpeech belegt etwa 71 MByte, während ViaVoice mit seinem grösseren Lexikon 159 MByte verbraucht. Beide Systeme werden mit zunehmendem Training natürlich grösser, da sie diese Informationen ja irgendwo ablegen müssen.

Ein anderer Punkt ist die geplante Anwendung. Wenn man immer ähnliche Texte diktiert, und dies auch noch auf immer demselben Gerät, ist ViaVoice, da es schneller lernt, eindeutig vorzuziehen. Legt man hingegen mehr Wert auf die Möglichkeit, Sprachdateien aus anderen Quellen zu importieren, kann FreeSpeech punkten. Auch die Trennung von Befehlsmodus und Diktiermodus erleichtert die Sache ungemein, denn bei ViaVoice ist es uns zu oft vorgekommen, dass die Befehle sich einfach als diktierter Text wiederfanden - insbesondere, da viele Befehle keine ausgefallenen Begriffe sind, sondern Wörter, wie sie auch in einem «normalen Text» vorkommen können.

Computer Diktat Ende

Michael Köttl/fwk