IT, die aufs Wort hört

Der Warenrücklauf der Schwab Versand GmbH in Hanau bei Frankfurt gleicht einem emsigen Bienenstock: Zurückgesandte Pakete in allen möglichen Größen und Formen gleiten auf Förderbändern durch die Halle, wollen gesichtet, sortiert und weitergeleitet werden. Mehr als 270.000 Rückläufe wickeln die Mitarbeiter der Abteilung Tag für Tag auf diese Weise ab. Seit Dezember  2004 erleichtern ihnen dabei Headsets die Arbeit: Statt mit der Tastatur stellen die Mitarbeiter nun bei der Sichtung der eingehenden Ware ihre Diagnose mit rund 25 prägnanten Begriffen, beispielsweise „Webfehler“ bei Textilien. Die Bewegung der Förderbänder steuern sie mit Befehlen wie „weiter“ oder „manuell“. „Durch die Headsets haben wir beide Hände frei, müssen uns bei der Diagnose nicht mit dem Computer befassen und arbeiten insgesamt sehr viel schneller“, sagen die Beurteilerinnen des Versandhändlers. Die Produktivität der Abteilung schoss seit der Einführung der Spracherkennung merklich nach oben. Nun wollen auch der Mutterkonzern Otto Versand und der BAUR Versand das System nach Testläufen für ihre eigenen Reklamationsabteilungen übernehmen.

Zum Einsatz kommt dann in allen drei Versandhäusern eine individuell programmierte Spracherkennungslösung der kleinen Firma ASKA GmbH aus Sindelfingen. „Als Grundgerüst nehmen wir den bewährten Spracherkenner VoCon 3200 passen und ihn den speziellen Anforderungen unserer Kunden  an“, sagt ASKA-Geschäftsführerin Doris Schlumberger. VoCon 3200 stammt vom US-Hersteller Scansoft, laut Marktforschungsinstitut Gartner führend auf dem rasch wachsenden Markt für Sprachanwendungen. Bis 2007 sollen in diesem Bereich weltweit 1,6 Milliarden Dollar umgesetzt werden. „Voice Tools go Mainstream“, jubilierte unlängst das US-Magazin Computerworld.

Die Spacherkennungslösung bei Schwab gehört zum Bereich der kommandobasierten Sprachsteuerung. Diese Art der Texterfassung bzw. Datenerfassung ist vor allem da nützlich, wo man keine Hände frei hat und auf seine Sprache angewiesen ist“, sagt Doris Schlumberger. „In diesem Bereich steckt noch viel Wachstumspotenzial.“ Typische weitere Anwendungen sind die Kommissionierung von Lagerbeständen oder das schnelle Sortieren von Post per Spracheingabe. Im Prototypenbau der Volkswagen AG sprechen Qualitätsprüfer ihre Bewertungen in ihre Headsets und haben so auch während einer Inspektion im Fahrzeuginneren beide Hände frei. Auch im mobilen Einsatz sind viele Anwendungen denkbar: In einigen Automodellen von Honda sollen noch in diesem Jahr Navigationssysteme und andere Funktionen zum Einsatz kommen, die auf der Technologie „embedded ViaVoice“ von IBM basieren. Dabei soll das System mehr als 700 Befehle verarbeiten und sich rund 1,7 Millionen gesprochene Straßen- und Städtenamen merken können. Das risikoreiche Programmieren der Navigationssysteme per Tastendruck während der Fahrt gehört damit der Vergangenheit an. „So etwas funktioniert umso besser, je einfacher und eindeutiger die Sprachbefehle sind“, sagt Prof. Günther Ruske vom Lehrstuhl für Mensch-Maschine-Kommunikation an der Technischen Universität München und fügt hinzu: „Die Innenkabinen der Fahrzeuge müssen stark schallisoliert sein, denn bei Störgeräuschen gehen die Erkennungsrate noch immer stark in die Knie.“

IBM´s ViaVoice-Technologie stammt ursprünglich aus dem Bereich der Diktatsoftware, wie sie inzwischen bundesweit in tausenden Unternehmen zum Einsatz kommt.  Die Stuttgarter entwickeln das Programm als Diktier-Lösung inzwischen aber nicht mehr weiter und haben den Vertrieb dem US-Konzern ScanSoft überlassen. Die Amerikaner brachten jüngst die achte Version der prämierten Diktiersoftware Dragon-NaturallySpeaking auf den Markt und versprechen bei einem enthaltenen Wortschatz von 400.000 Wörtern eine Erkennungsgenauigkeit von bis zu 99 Prozent. „Inzwischen funktioniert Spracherkennung im Büro wirklich zuverlässig, besonders wenn sie an den Sprechenden gewöhnt ist. Für Firmen ist es dennoch ratsam, das standardmäßig integrierte Vokabular so schnell wie möglich zu erweitern“, sagt Prof. Ruske. Nur mit entsprechenden Zusatzvokabularien für Juristen, Mediziner oder die Finanzbranche seien die von den Herstellern versprochenen Erfolgsquoten zu erreichen. „In der Praxis werden komplizierte Sätze meist leichter erkannt als einfache, weil diese weniger eindeutig sind“, berichtet der Berliner Rechtsanwalt Axel Bartsch. „Die Juristen-Sprache ist sehr präzise, und bei uns klappt es daher prima.“ Um die nötigen  Wortschatz-Erweiterungen kümmern sich Spezialfirmen wie ASKA oder der hessische Anbieter Speechconcept, die den Betrieben darüber hinaus auch bei der Integration der Standard-Diktatlösungen in ihre jeweilige Infrastruktur helfen. „Bei einem unserer Kunden,  einer Arztpraxis, funktionierte die Diktatsoftware schon sehr gut, aber die Anbindung an die vorhandene Arztsoftware war eine echte Herausforderung“, erzählt Doris Schlumberger.

Alternativ zum so genannten Online-Diktat, bei dem eine Software wie Dragon NaturallySpeaking 8 das Gesprochene in Echtzeit mit bis zu 160 Wörtern pro Minute niederschreibt, bieten Hersteller wie die Berliner Thax Software GmbH auch Offline-Diktierlösungen an. Hierbei sprechen die Mitarbeiter den Text in ihre Diktiergeräte, und erst im Anschluss werden die erzeugten Sprachdateien von einem zentralen Server in einem Rutsch in Text umgewandelt.  „Das verläuft annährend fehlerfrei, gelegentliche Ausrutscher können in einem abschließenden Korrekturvorgang im Handumdrehen behoben werden“, sagt Speechconnect-Gründer Michael Mende. Ähnlich funktioniert auch der auf der diesjährigen CeBIT vorgestellte Voice Tracer von Scansoft – eine mobile Diktierlösung, bei der Gesprochenes über ein Diktiergerät von Philipps aufgenommen anschließend der nächsten Synchronisierung mit einem PC von Dragon NaturallySpeaking 8 in Text umsetzen wird.

Der dritte und potenziell wachstumsstärkste Markt für Spracherkennungslösungen besteht aus den so genannten Dialogsytemen. Sie kommen überall dort zum Einsatz, wo Mensch und Maschine sprachlich miteinander kommunizieren wollen, wo es also eine Synthese zwischen Spracherkennung und –ausgabe gibt, etwa in virtuellen Telefonvermittlungen oder in automatisierten Callcentern. „Die Qualität solcher Lösungen ist in den vergangenen Jahren enorm gestiegen, ebenso der Kreis der Anwender“, wirbt Michael Mende. Das sieht auch Professor Wolfgang Wahlster so: „Die Zeiten, da Sprachcomputer wenig verstanden, Anrufer mit vielen unnützen Fragen quälten, ohne wirklich weiterzuhelfen, und sie mit blechern klingendem Gequäke verschreckten, sind vorbei. Moderne Systeme verstehen fast jedes Wort und müssen selbst vor Dialekten nicht kapitulieren. Der Anrufer kann frei sprechen, sich korrigieren und das Thema wechseln. Versteht der Computer mal etwas nicht, fragt er geschickt nach“, sagt der Direktor des Deutschen Forschungszentrums für Künstliche Intelli- genz (DFKI) in Saarbrücken.

Und so liest sich die Kundenliste solcher Dialogsyteme wie ein Who-is-Who der deutschen Wirtschaft: Der Softwarekonzern SAP nutzt den name dialer von Speechconnect als virtuelle Telefonzentrale, die Fluggesellschaft LTU bietet ihren Reisenden mit Hilfe von ScanSoft-Technologie eine sprachgesteuerte Flugauskunft, und die Stau-Auskunft des Bayerischen Rundfunks erkennt die gesprochenen Anfragen der Hörer und gibt ihnen mit einer natürlich klingenden weiblichen Stimme die neuesten Verkehrsinformationen. Viele Geschäftsreisende lassen sich inzwischen ihre E-Mails unterwegs vom Computer übers Telefon vorlesen.

Aber auch für kleinere und mittlere Unternehmen könnten sich die automatischen Dialogsysteme rechnen. So verkauft Speechconcept die virtuelle Telefonzentrale name dialer schon für einmalig 15.000 Euro und zielt damit auf Unternehmen „mit 30 Mitarbeitern und mehr“. Mitbewerber VoiceCom Solutions aus Nürnberg bewirbt seine VoiceButler-Systeme speziell bei Unternehmen „mit bis zu 20 Mitarbeitern“.  Und die Clarity AG lässt nach einer Untersuchung mit der Universität Frankfurt verlauten, dass sich die Investition in eine automatische Telefonvermittlung im Durchschnitt bereits nach neun Monaten bezahlt macht. Die Genauigkeit solcher Lösungen, die den Anrufer automatisch mit dem gewünschten Gesprächspartner verbinden, liegt laut Speechconnect-Geschäftsführer Mende inzwischen bei 98 Prozent. „Und bei den zwei Prozent der Fälle, in denen unsere Lösung den gesprochenen Wunsch des Anrufers nicht erkennt, leiten wir kostenlos zu einem Callcenter um, das wir für unsere Kunden stellvertretend betreuen und unterhalten.“ Gerade für kleine Betriebe dürfte ein solch günstiges Callcenter durchaus seinen Reiz haben. Die großen Unternehmen wie LTU wiederum versprechen sich durch die Automatisierung mehr Luft für ihre Callcenter. „Mit diesem Service entlasten wir unsere Mitarbeiter von Routineanfragen. Sie werden gezielt dort eingesetzt, wo sie wirklich gebraucht werden, nämlich bei komplexen Beratungsaufgaben“, sagt Pascale Döring, Leiterin der Abteilung IT Sales & eBusiness bei LTU.

Ingo Schenk

Creditreform-Magazin Ausgabe 4/2005
www.creditreform-magazin.de