Wer einmal ein Call-Center angerufen hat, der ist bereits mit Spracherkennung in Berührung gekommen: "Für den Verkauf wählen Sie 1, für den Support 2,...". Bei dieser Art von Spracherkennung bei automatisch durchgeführten Telefonmenüs handelt es sich um eine sprecherunabhängige Erkennung. Es ist egal, wer spricht. Der Vorteil: Das Training vor der ersten Nutzung der Spracherkennung entfällt. Die Erkennung der Zahlen 0 bis 9 liegt bei 100 %. Es können aber auf diese Art durchaus einige tausend Wörter erkannt werden.
Im folgenden Artikel geht es allerdings um sprecherabhängige Spracherkennung. Wer längere Texte via Diktat mit anschließender Spracherkennung als geschriebenes Wort in seine Textverarbeitung bringen will, der benötigt eine sprecherabhängige Software, wie z. B. Dragon Naturally Speaking 10 von Nuance. Hier ist der Wortschatz ungleich größer als bei der sprecherunabhängigen Variante, jedoch muss die Software zuvor auf die individuelle Aussprache des Sprechers hin trainiert werden. Es macht bei der Erkennung eben einen Unterschied, ob es sich um einen Briten oder einen Amerikaner bzw. um einen Deutschen oder einen Österreicher handelt. Allerdings dauert das Training bei der neuesten Version von Dragon Naturally Speaking nur mehr zwischen fünf und zehn Minuten. Dabei wird weder abgehackt, noch monoton, sondern völlig natürlich gesprochen.
Die Anbieter

In der Systemsteuerung von Vista verbirgt sich eine ausgewachsene Erkennung für die deutsche Sprache.
Ein großer Konkurrent darf allerdings nicht unerwähnt bleiben: Microsoft. Auch dieses Softwarehaus vergrößert das hauseigene Spracherkennungsknow-how durch Forschung sowie durch Übernahmen, wie z.B. jene der Firma TellMe im März 2007. Den Stand der Microsoft-Entwicklung in Sachen Spracherkennung kann jeder leicht überprüfen: In Windows Vista braucht man dazu in der Systemsteuerung bloß das Icon, unter dem "Spracherkennung" steht, doppelzuklicken, und schon kann der PC nach einem kurzen Training per Sprache gesteuert werden, es steht aber auch eine Spracherkennung zur Verfügung, mit der Texte diktiert werden können. Die Sprachsteuerung funktioniert übrigens besser als die Erkennung völlig frei gesprochener Texte, da ja "nur" vom Computer bereits bekannte Sprachbefehle erkannt werden müssen. Das ist auch der Grund, warum Spracherkennung sehr gut in Bereichen mit viel Fachvokabular und brancheneigenen Formulierungen funktioniert, wie beispielsweise bei Ärzten oder Rechtsanwälten.
Effizienz steigern
Selbst Experten des Zehnfingersystems können ihre Arbeit mit Diktieren schneller erledigen als mit der Tastatur. Allerdings muss - genauso wie auch beim Zehnfingersystem - ein wenig Zeit in das Training (und die Bedienung) der jeweiligen Spracherkennungssoftware investiert werden, um das Optimum herauszuholen. Noch größer ist die Effizienzsteigerung bei Menschen, die keine professionellen Tipper sind. Nach einer Untersuchung von Nuance sprechen die meisten Menschen mehr als 120 Wörter pro Minute, beim Tippen reicht es aber zumeist nur für 40 Wörter pro Minute. Dragon Naturally Speaking und auch die Vista Spracherkennung können zudem in verschiedenen Applikationen, wie MS Word, Outlook, Internet Explorer verwendet werden.
Für Endanwender gibt es vor allem Dragon Naturally Speaking, IBM Via Voice und die Windows-Vista-Spracherkennung. Anders sieht der Markt für Unternehmen aus.
Hier bietet Nuance spezielle Bundles für Rechtsanwälte, das mit tausenden von Vokabeln aus dem Rechtsbereich vorgefüttert worden ist. Das funktioniert sehr gut, hat aber auch seinen Preis. 999 Euro kostet die Legal-Version, während die Standard-Version bereits für 99 Euro zu haben ist. Allerdings muss hier das Vokabular selbst angelegt werden. Darüberhinaus gibt es mit der Preferred- (199 Euro) und der Professional-Version (799 Euro) Zwischenabstufungen. Diese unterscheiden sich im mitgelieferten Vokabular und im Funktionsumfang.
In Kanzleien, vielmehr aber noch in Spitälern geht es aber nicht nur um das Diktieren eines Texts, sondern darum mit Hilfe von Spracherkennung den Workflow effizienter zu machen. Schon alleine durch die Umstellung von analogem auf digitales Diktieren, sind Effizienzsteigerungen bis zu 30% möglich. Speicherkarten mit einer Kapazität von mehreren Gigabyte erlauben Aufzeichnungen von über 1.000 Stunden (im DSS-Format, siehe Kasten). Zudem können die Dateien auf Servern gespeichert und in den Workflow eingebunden werden. Auch das Datenbackup fällt leichter. Beim Diktieren mit einem digitalen Diktiergerät besteht zudem die Möglichkeit, Sprachinformationen in eine Datei einzufügen oder zu überschreiben. Wird das digitale Diktieren noch um eine Spracherkennung ergänzt, sind noch höhere Effizienzsteigerungen möglich, wie das Beispiel des Kaiser-Franz-Josef-Spitals zeigt.




1/2012
8/2011
7/2011


Alexandra Riegler arbeitet als freie Journalistin in den USA. Zu ihren Spezialgebieten zählen die Themen Technologie und Forschung. 