IT, die aufs Wort hört
Der Warenrücklauf der Schwab
Versand GmbH in Hanau bei Frankfurt gleicht einem emsigen
Bienenstock: Zurückgesandte Pakete in allen möglichen Größen
und Formen gleiten auf Förderbändern durch die Halle, wollen
gesichtet, sortiert und weitergeleitet werden. Mehr als
270.000 Rückläufe wickeln die Mitarbeiter der Abteilung Tag
für Tag auf diese Weise ab. Seit Dezember 2004 erleichtern
ihnen dabei Headsets die Arbeit: Statt mit der
Tastatur stellen die Mitarbeiter nun bei der Sichtung der
eingehenden Ware ihre Diagnose mit rund 25 prägnanten
Begriffen, beispielsweise „Webfehler“ bei Textilien. Die
Bewegung der Förderbänder steuern sie mit Befehlen wie
„weiter“ oder „manuell“. „Durch die Headsets haben wir beide
Hände frei, müssen uns bei der Diagnose nicht mit dem
Computer befassen und arbeiten insgesamt sehr viel
schneller“, sagen die Beurteilerinnen des Versandhändlers.
Die Produktivität der Abteilung schoss seit der Einführung
der Spracherkennung merklich nach oben. Nun wollen auch der
Mutterkonzern Otto Versand und der BAUR Versand das System
nach Testläufen für ihre eigenen Reklamationsabteilungen
übernehmen.
Zum Einsatz kommt dann in allen drei
Versandhäusern eine individuell programmierte
Spracherkennungslösung der kleinen Firma ASKA GmbH
aus Sindelfingen. „Als Grundgerüst nehmen wir den bewährten
Spracherkenner VoCon 3200 passen und ihn den speziellen
Anforderungen unserer Kunden an“, sagt
ASKA-Geschäftsführerin Doris Schlumberger. VoCon 3200 stammt
vom US-Hersteller Scansoft, laut Marktforschungsinstitut
Gartner führend auf dem rasch wachsenden Markt für
Sprachanwendungen. Bis 2007 sollen in diesem Bereich
weltweit 1,6 Milliarden Dollar umgesetzt werden. „Voice
Tools go Mainstream“, jubilierte unlängst das US-Magazin
Computerworld.
Die Spacherkennungslösung bei Schwab gehört zum Bereich der kommandobasierten Sprachsteuerung. Diese Art der
Texterfassung bzw. Datenerfassung ist vor allem da nützlich, wo man keine Hände frei hat und auf seine Sprache
angewiesen ist“, sagt Doris Schlumberger. „In diesem Bereich
steckt noch viel Wachstumspotenzial.“ Typische weitere
Anwendungen sind die Kommissionierung von Lagerbeständen
oder das schnelle Sortieren von Post per Spracheingabe. Im
Prototypenbau der Volkswagen AG sprechen Qualitätsprüfer
ihre Bewertungen in ihre Headsets und haben so auch während
einer Inspektion im Fahrzeuginneren beide Hände frei. Auch
im mobilen Einsatz sind viele Anwendungen denkbar: In
einigen Automodellen von Honda sollen noch in diesem Jahr
Navigationssysteme und andere Funktionen zum Einsatz kommen,
die auf der Technologie „embedded ViaVoice“ von IBM
basieren. Dabei soll das System mehr als 700 Befehle
verarbeiten und sich rund 1,7 Millionen gesprochene Straßen-
und Städtenamen merken können. Das risikoreiche
Programmieren der Navigationssysteme per Tastendruck während
der Fahrt gehört damit der Vergangenheit an. „So etwas
funktioniert umso besser, je einfacher und eindeutiger die
Sprachbefehle sind“, sagt Prof. Günther Ruske vom Lehrstuhl
für Mensch-Maschine-Kommunikation an der Technischen
Universität München und fügt hinzu: „Die Innenkabinen der
Fahrzeuge müssen stark schallisoliert sein, denn bei
Störgeräuschen gehen die Erkennungsrate noch immer stark in
die Knie.“
IBM´s
ViaVoice-Technologie stammt ursprünglich aus dem Bereich der
Diktatsoftware, wie sie inzwischen bundesweit in tausenden
Unternehmen zum Einsatz kommt. Die Stuttgarter entwickeln
das Programm als Diktier-Lösung inzwischen aber nicht mehr
weiter und haben den Vertrieb dem US-Konzern ScanSoft
überlassen. Die Amerikaner brachten jüngst die achte Version
der prämierten Diktiersoftware Dragon-NaturallySpeaking auf
den Markt und versprechen bei einem enthaltenen Wortschatz
von 400.000 Wörtern eine Erkennungsgenauigkeit von bis zu 99
Prozent. „Inzwischen funktioniert Spracherkennung im Büro
wirklich zuverlässig, besonders wenn sie an den Sprechenden
gewöhnt ist. Für Firmen ist es dennoch ratsam, das
standardmäßig integrierte Vokabular so schnell wie möglich
zu erweitern“, sagt Prof. Ruske. Nur mit entsprechenden
Zusatzvokabularien für Juristen, Mediziner oder die
Finanzbranche seien die von den Herstellern versprochenen
Erfolgsquoten zu erreichen. „In der Praxis werden
komplizierte Sätze meist leichter erkannt als einfache, weil
diese weniger eindeutig sind“, berichtet der Berliner
Rechtsanwalt Axel Bartsch. „Die Juristen-Sprache ist sehr
präzise, und bei uns klappt es daher prima.“ Um die nötigen
Wortschatz-Erweiterungen kümmern sich Spezialfirmen wie
ASKA oder der hessische Anbieter Speechconcept, die den
Betrieben darüber hinaus auch bei der Integration der
Standard-Diktatlösungen in ihre jeweilige Infrastruktur
helfen. „Bei einem unserer Kunden, einer Arztpraxis,
funktionierte die Diktatsoftware schon sehr gut, aber die
Anbindung an die vorhandene Arztsoftware war eine echte
Herausforderung“, erzählt Doris Schlumberger.
Alternativ zum so genannten Online-Diktat, bei dem eine Software wie Dragon NaturallySpeaking 8 das Gesprochene in Echtzeit mit bis zu
160 Wörtern pro Minute niederschreibt, bieten Hersteller wie die Berliner Thax Software GmbH auch Offline-Diktierlösungen
an. Hierbei sprechen die Mitarbeiter den Text in ihre Diktiergeräte, und erst im Anschluss werden die erzeugten
Sprachdateien von einem zentralen Server in einem Rutsch in Text umgewandelt. „Das verläuft annährend fehlerfrei,
gelegentliche Ausrutscher können in einem abschließenden Korrekturvorgang im Handumdrehen behoben werden“, sagt
Speechconnect-Gründer Michael Mende. Ähnlich funktioniert auch der auf der diesjährigen CeBIT vorgestellte Voice
Tracer von Scansoft – eine mobile Diktierlösung, bei der Gesprochenes über ein Diktiergerät von Philipps aufgenommen
anschließend der nächsten Synchronisierung mit einem PC von Dragon NaturallySpeaking 8 in Text umsetzen wird.
Der dritte und potenziell wachstumsstärkste Markt für
Spracherkennungslösungen besteht aus den so genannten
Dialogsytemen. Sie kommen überall dort zum Einsatz, wo
Mensch und Maschine sprachlich miteinander kommunizieren
wollen, wo es also eine Synthese zwischen Spracherkennung
und –ausgabe gibt, etwa in virtuellen Telefonvermittlungen
oder in automatisierten Callcentern. „Die Qualität solcher
Lösungen ist in den vergangenen Jahren enorm gestiegen,
ebenso der Kreis der Anwender“, wirbt Michael Mende. Das
sieht auch Professor Wolfgang Wahlster so: „Die Zeiten, da
Sprachcomputer wenig verstanden, Anrufer mit vielen unnützen
Fragen quälten, ohne wirklich weiterzuhelfen, und sie mit
blechern klingendem Gequäke verschreckten, sind vorbei.
Moderne Systeme verstehen fast jedes Wort und müssen
selbst vor Dialekten nicht kapitulieren. Der Anrufer kann
frei sprechen, sich korrigieren und das Thema wechseln.
Versteht der Computer mal etwas nicht, fragt er geschickt
nach“, sagt der Direktor des Deutschen Forschungszentrums
für Künstliche Intelli- genz (DFKI) in Saarbrücken.
Und so liest sich die Kundenliste solcher Dialogsyteme wie ein
Who-is-Who der deutschen Wirtschaft: Der Softwarekonzern SAP
nutzt den name dialer von Speechconnect als virtuelle
Telefonzentrale, die Fluggesellschaft LTU bietet ihren
Reisenden mit Hilfe von ScanSoft-Technologie eine
sprachgesteuerte Flugauskunft, und die Stau-Auskunft des
Bayerischen Rundfunks erkennt die gesprochenen Anfragen der
Hörer und gibt ihnen mit einer natürlich klingenden
weiblichen Stimme die neuesten Verkehrsinformationen. Viele
Geschäftsreisende lassen sich inzwischen ihre E-Mails
unterwegs vom Computer übers Telefon vorlesen.
Aber auch für kleinere und mittlere
Unternehmen könnten sich die automatischen Dialogsysteme
rechnen. So verkauft Speechconcept die virtuelle
Telefonzentrale name dialer schon für einmalig 15.000 Euro
und zielt damit auf Unternehmen „mit 30 Mitarbeitern und
mehr“. Mitbewerber VoiceCom Solutions aus Nürnberg bewirbt
seine VoiceButler-Systeme speziell bei Unternehmen „mit bis
zu 20 Mitarbeitern“. Und die Clarity AG lässt nach einer
Untersuchung mit der Universität Frankfurt verlauten, dass
sich die Investition in eine automatische Telefonvermittlung
im Durchschnitt bereits nach neun Monaten bezahlt macht. Die
Genauigkeit solcher Lösungen, die den Anrufer automatisch
mit dem gewünschten Gesprächspartner verbinden, liegt laut
Speechconnect-Geschäftsführer Mende inzwischen bei 98
Prozent. „Und bei den zwei Prozent der Fälle, in denen
unsere Lösung den gesprochenen Wunsch des Anrufers nicht
erkennt, leiten wir kostenlos zu einem Callcenter um, das
wir für unsere Kunden stellvertretend betreuen und
unterhalten.“ Gerade für kleine Betriebe dürfte ein solch
günstiges Callcenter durchaus seinen Reiz haben. Die großen
Unternehmen wie LTU wiederum versprechen sich durch die
Automatisierung mehr Luft für ihre Callcenter. „Mit diesem
Service entlasten wir unsere Mitarbeiter von
Routineanfragen. Sie werden gezielt dort eingesetzt, wo sie
wirklich gebraucht werden, nämlich bei komplexen
Beratungsaufgaben“, sagt Pascale Döring, Leiterin der
Abteilung IT Sales & eBusiness bei LTU.
Ingo
Schenk
|