Newsfeed abonnieren
Strategien

Computer zum Diktat

Effizienter arbeiten mit Spracherkennung

Spracherkennung kann das Anlegen und den Workflow von Textdokumenten wesentlich vereinfachen und ist neben der Schrifterkennung ein Weg zu einer menschengerechteren Computer-Bedienung. Die Technik ist sehr verlässlich und bereits in vielen Spitälern, Anwaltskanzleien und Notariaten im Einsatz.

Klaus Lorbeer

Wer einmal ein Call-Center angerufen hat, der ist bereits mit Spracherkennung in Berührung gekommen: "Für den Verkauf wählen Sie 1, für den Support 2,...". Bei dieser Art von Spracherkennung bei automatisch durchgeführten Telefonmenüs handelt es sich um eine sprecherunabhängige Erkennung. Es ist egal, wer spricht. Der Vorteil: Das Training vor der ersten Nutzung der Spracherkennung entfällt. Die Erkennung der Zahlen 0 bis 9 liegt bei 100 %. Es können aber auf diese Art durchaus einige tausend Wörter erkannt werden.

Im folgenden Artikel geht es allerdings um sprecherabhängige Spracherkennung. Wer längere Texte via Diktat mit anschließender Spracherkennung als geschriebenes Wort in seine Textverarbeitung bringen will, der benötigt eine sprecherabhängige Software, wie z. B. Dragon Naturally Speaking 10 von Nuance. Hier ist der Wortschatz ungleich größer als bei der sprecherunabhängigen Variante, jedoch muss die Software zuvor auf die individuelle Aussprache des Sprechers hin trainiert werden. Es macht bei der Erkennung eben einen Unterschied, ob es sich um einen Briten oder einen Amerikaner bzw. um einen Deutschen oder einen Österreicher handelt. Allerdings dauert das Training bei der neuesten Version von Dragon Naturally Speaking nur mehr zwischen fünf und zehn Minuten. Dabei wird weder abgehackt, noch monoton, sondern völlig natürlich gesprochen.

Die Anbieter

In der Systemsteuerung von Vista verbirgt sich eine ausgewachsene Erkennung für die deutsche Sprache.

Den Markt für Spracherkennung dominiert das amerikanische Softwarehaus Nuance, in dem nach zahlreichen Firmenübernahmen das Know-how von einst so bekannten Spracherkennungsunternehmen wie ScanSoft, Lernout & Hauspie, SpeechWorks oder Dictaphone Corporation steckt. Am 1. Oktober dieses Jahres übernahm Nuance für rund 65 Mio. Euro die Philips Speech Recognition Systems (PSRS) mit Sitz in Wien. Die PSRS hat sich u.a. mit ihrer Spracherkennungslösung SpeechMagic besonders auf den Gesundheitsbereich spezialisiert - mit Hauptaugenmerk auf Spitalsprozesse. Damit hat sich der Mitbewerb zu Nuance sichtbar verdünnt. Im Text-to-speech-Bereich gibt es noch das Schweizer Unternehmen SVOX, die Telecom-Italia-Tochter Loquendo (bietet auch sprecherunabhängige Spracherkennung an) und IBM mit ihren WebSphere Voice Server. Letztere hat auch Via Voice entwickelt, eine sprecherabhängige Spracherkennung, die der Software des deutschen Unternehmens Linguatec zugrunde liegt, aber mittlerweile auch schon von Nuance vertrieben (nicht jedoch weiterentwickelt) wird. Während Dragon Naturally Speaking allerdings ausschließlich unter Windows läuft, gibt es Via Voice auch als Mac- und Linux-Version. Da IBM bei Via Voice bloß Produktpflege, aber keine echte Weiterentwicklung mehr anbietet, verliert das Programm zunehmend an Boden gegenüber Dragon.

Ein großer Konkurrent darf allerdings nicht unerwähnt bleiben: Microsoft. Auch dieses Softwarehaus vergrößert das hauseigene Spracherkennungsknow-how durch Forschung sowie durch Übernahmen, wie z.B. jene der Firma TellMe im März 2007. Den Stand der Microsoft-Entwicklung in Sachen Spracherkennung kann jeder leicht überprüfen: In Windows Vista braucht man dazu in der Systemsteuerung bloß das Icon, unter dem "Spracherkennung" steht, doppelzuklicken, und schon kann der PC nach einem kurzen Training per Sprache gesteuert werden, es steht aber auch eine Spracherkennung zur Verfügung, mit der Texte diktiert werden können. Die Sprachsteuerung funktioniert übrigens besser als die Erkennung völlig frei gesprochener Texte, da ja "nur" vom Computer bereits bekannte Sprachbefehle erkannt werden müssen. Das ist auch der Grund, warum Spracherkennung sehr gut in Bereichen mit viel Fachvokabular und brancheneigenen Formulierungen funktioniert, wie beispielsweise bei Ärzten oder Rechtsanwälten.

Effizienz steigern

Selbst Experten des Zehnfingersystems können ihre Arbeit mit Diktieren schneller erledigen als mit der Tastatur. Allerdings muss - genauso wie auch beim Zehnfingersystem - ein wenig Zeit in das Training (und die Bedienung) der jeweiligen Spracherkennungssoftware investiert werden, um das Optimum herauszuholen. Noch größer ist die Effizienzsteigerung bei Menschen, die keine professionellen Tipper sind. Nach einer Untersuchung von Nuance sprechen die meisten Menschen mehr als 120 Wörter pro Minute, beim Tippen reicht es aber zumeist nur für 40 Wörter pro Minute. Dragon Naturally Speaking und auch die Vista Spracherkennung können zudem in verschiedenen Applikationen, wie MS Word, Outlook, Internet Explorer verwendet werden.

Für Endanwender gibt es vor allem Dragon Naturally Speaking, IBM Via Voice und die Windows-Vista-Spracherkennung. Anders sieht der Markt für Unternehmen aus.

Hier bietet Nuance spezielle Bundles für Rechtsanwälte, das mit tausenden von Vokabeln aus dem Rechtsbereich vorgefüttert worden ist. Das funktioniert sehr gut, hat aber auch seinen Preis. 999 Euro kostet die Legal-Version, während die Standard-Version bereits für 99 Euro zu haben ist. Allerdings muss hier das Vokabular selbst angelegt werden. Darüberhinaus gibt es mit der Preferred- (199 Euro) und der Professional-Version (799 Euro) Zwischenabstufungen. Diese unterscheiden sich im mitgelieferten Vokabular und im Funktionsumfang.

In Kanzleien, vielmehr aber noch in Spitälern geht es aber nicht nur um das Diktieren eines Texts, sondern darum mit Hilfe von Spracherkennung den Workflow effizienter zu machen. Schon alleine durch die Umstellung von analogem auf digitales Diktieren, sind Effizienzsteigerungen bis zu 30% möglich. Speicherkarten mit einer Kapazität von mehreren Gigabyte erlauben Aufzeichnungen von über 1.000 Stunden (im DSS-Format, siehe Kasten). Zudem können die Dateien auf Servern gespeichert und in den Workflow eingebunden werden. Auch das Datenbackup fällt leichter. Beim Diktieren mit einem digitalen Diktiergerät besteht zudem die Möglichkeit, Sprachinformationen in eine Datei einzufügen oder zu überschreiben. Wird das digitale Diktieren noch um eine Spracherkennung ergänzt, sind noch höhere Effizienzsteigerungen möglich, wie das Beispiel des Kaiser-Franz-Josef-Spitals zeigt.

Seite: 1
1
weitersagen: drucken
Termine

22. Mai - 24. April

Genf

Globales Internet Forum 2012

18. Juni - 22. Juni

In ganz Österreich

SAP Mittelstandstage

Print-Archiv
Folgen Sie uns
Leser empfehlen
MONITOR-Newsletter

Abonnieren Sie unseren Newsletter!

E-Mail:
Die von Ihnen angegebene E-Mail Adresse wird von MONITOR Online weder an Dritte weitergegeben noch zu anderen Zwecken verwendet.
MONITOR-Autoren
Alexandra Riegler

Alexandra Riegler arbeitet als freie Journalistin in den USA. Zu ihren Spezialgebieten zählen die Themen Technologie und Forschung. ..mehr..

Die neuesten Artikel:

© Copyright 1983-2012 by MONITOR / Bohmann Druck und Verlag Gesellschaft m.b.H. & Co. KG (www.bohmann.at)

Add to Google  | Abo | Themenvorschau | Mediadaten | Inserate buchen | Kontakt | Impressum