Team 4 - 2001 | Deutscher Zukunftspreis

Sprachverstehende Computer als Dialog- und Übersetzungsassistenten

Prof. Dr. rer. nat. Wolfgang Wahlster
Deutsches Forschungszentrum für Künstliche Intelligenz, Saarbrücken

Prof. Dr. rer. nat. Wolfgang Wahlster

Die umständliche Bedienung per Maus, Tastatur oder berührungsempfindlichem Display hindert viele Menschen am Benutzen von Computern. Ist es möglich, mit dem Rechner stattdessen zu reden wie mit einem Menschen?

Wolfgang Wahlster und seinem Team am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) gelang mit der Entwicklung des Verbmobil-Systems für automatische Übersetzungen von gesprochenen Dialogen ein Durchbruch bei der Spracherkennung. Wolfgang Wahlster ist Wissenschaftlicher Direktor und Mitglied der Unternehmensleitung des DFKI.

Dolmetscher für die Hosentasche

Fortschritte auf dem Gebiet der Sprachtechnologie machen den Computer zum allgegenwärtigen Assistenten und Dialogpartner, der menschliche Alltagssprache versteht und selbst auch spricht. Das Verbmobil-System erkennt gesprochene Spontansprache, analysiert die Eingabe, übersetzt sie in eine Fremdsprache, erzeugt einen Satz und spricht ihn aus.

Damit kann etwa ein Mobiltelefon im Ausland zur Übersetzungshilfe werden. Dazu wird eine Dreierkonferenz zwischen zwei Menschen, die unterschiedliche Sprachen sprechen, und dem Verbmobil-System als Dolmetscherhilfe geschaltet. Das System übersetzt – fast ohne Verzögerung – wechselweise zwischen den Gesprächspartnern.

Die Technologie, die die Forscher dafür entwickelt haben, ist aufwendig und komplex. Zunächst wird das akustische Signal durch Spracherkennung symbolisch dargestellt. Verfahren der Sprachanalyse sowie des Sprachverstehens unterziehen es dann einer inhaltlichen Interpretation. Anschließend erfolgt die Erzeugung der Sprachausgabe für die Antwort des Systems.

Der Sinn muss erkannt werden

Da sich dieselben Äußerungen von Sprecher zu Sprecher, aber auch beim gleichen Sprecher in verschiedenen Situationen und Zusammenhängen, stark unterscheidet, kann ein Computer einen fließenden Dialog nicht ohne Zusatzwissen in eine eindeutige Wortfolge überführen. Die Forscher statteten das System mit dem dafür nötigen Zusatzwissen aus. Es gewährleistet auch, dass der automatische Dolmetscher den Sinn mehrdeutiger Äußerungen aus dem Gesprächskontext heraus erkennt. Der Kern der Innovation des Projektes besteht in der semantischen Integration und der zuverlässigen Auswahl der korrekten Bedeutung und Übersetzung. Dafür haben die Forscher in Verbmobil 69 Softwarebausteine zusammengeführt.

Die Ergebnisse des Forschungsprojekts haben Deutschland bei der Sprachtechnologie in eine internationale Spitzenstellung gebracht. Bis 2006 sind aus dem Projekt 42 Spin-off-Firmen hervorgegangen und über 1.200 neue Arbeitsplätze entstanden. Zusammen mit Industriepartnern konnte das DFKI mehr als 80 Patente anmelden. Inzwischen nutzen etliche Millionen Menschen täglich Sprachdialogsysteme – das Marktvolumen beträgt rund zwei Milliarden Euro.

Das Vorschlagsrecht zum Deutschen Zukunftspreis obliegt den führenden deutschen Einrichtungen aus Wissenschaft und Wirtschaft sowie Stiftungen.

Das Projekt „Sprachverstehende Computer als Dialog- und Übersetzungsassistenten“ wurde vom Bundesministerium für Bildung und Forschung und von der Karl Heinz Beckurts-Stiftung vorgeschlagen.

Lebensläufe

Prof. Dr. rer. nat. Wolfgang Wahlster

2.2.1953: geboren in Saarbrücken, Saarland
1972: Abitur
1972 – 1977: Studium der Informatik und Computerlinguistik an der Universität Hamburg
1981: Promotion über Künstliche Intelligenz an der Universität Hamburg
1982: Ruf an die Universität des Saarlandes, Saarbrücken, Lehrstuhl für Künstliche Intelligenz im Fachbereich Informatik
1984: Rufe an die Universitäten Karlsruhe und Hamburg, jeweils Lehrstuhl für Künstliche Intelligenz
1985 – 1995: Vorstandsmitglied im Sonderforschungsbereich „Künstliche Intelligenz“ der Deutschen Forschungsgemeinschaft
1987: Gastprofessor, University of California, Berkeley, USA
seit 1989: Wissenschaftlicher Direktor, seit 1993 Mitglied der Unternehmensleitung des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI gemeinnützige GmbH)
1991 – 1993: Präsident des Weltverbandes für Künstliche Intelligenz, IJCAI Inc., Palo Alto, Kalifornien, USA
1993 – 2000: Wissenschaftlicher Leiter des BMBF-Verbundprojektes VERBMOBIL
seit 1996: Vorstandsmitglied im Sonderforschungsbereich „Ressourcen-adaptive Kognitive Prozesse“ der Deutschen Forschungsgemeinschaft
seit 1996: Vorsitzender der Geschäftsführung des DFKI, Saarbrücken und Kaiserslautern
1996 – 2000: Präsident des Europäischen Verbandes für Künstliche Intelligenz, ECCAI, Brüssel, Belgien
2000: Präsident der International Association for Computational Linguistics (ACL) in New Jersey, USA

Ehrungen:

1991: Fritz-Winter-Preis für Forschungen zur intelligenten Mensch-Maschine-Kommunikation
1993: Ernennung zum Fellow der AAAI, Stanford, Kalifornien, USA
1995: ITEA-Preis (Information Technology European Award) der EU, Brüssel
1998: Verleihung der Ehrendoktorwürde der Universität Linköping, Schweden
1999: Ernennung zum Fellow der ECCAI, Brüssel
2000: Karl Heinz Beckurts-Preis
2001: Verleihung der Ehrendoktorwürde der Technischen Universität Darmstadt

Kontakt

Projektsprecher

Prof. Dr. rer. nat. Wolfgang Wahlster
Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI)
Stuhlsatzenhausweg 3
66123 Saarbrücken
Tel.: +49 (0) 681 / 30 25 252
Fax: +49 (0) 681 / 30 25 341
E-Mail: wahlster@dfki.de

Pressekontakt

Reinhard Karger
Leiter Unternehmenskommunikation
DFKI
Stuhlsatzenhausweg 3
66123 Saarbrücken
Tel.: +49 (0) 681 / 30 25 253
Fax: +49 (0) 681 / 30 25 341
E-Mail: karger@dfki.de

Beschreibung der Institute und Unternehmen zu ihren nominierten Projekten

Durch die Fortschritte auf dem Gebiet der Sprachtechnologie wird der Computer vom komplexen Werkzeug für Experten zum allgegenwärtigen Assistenten und Dialogpartner, der menschliche Alltagssprache versteht und selbst auch spricht. Prof. Wahlster und seiner Arbeitsgruppe ist nach zwanzig Jahren intensiver Grundlagenforschung mit der Entwicklung einer innovativen Sprachverarbeitungsmethode ein international vielbeachteter Durchbruch gelungen: Das Verbmobil-System, dessen Software Ende 2000 vollständig realisiert wurde, erkennt gesprochene Spontansprache, analysiert die Eingabe, übersetzt sie in eine Fremdsprache (derzeit: Englisch, Japanisch, Chinesisch), erzeugt einen Satz und spricht ihn aus. Damit kann ein Mobiltelefon im Ausland zur Übersetzungshilfe werden. Technisch wird automatisch eine Dreierkonferenz zwischen zwei menschlichen Gesprächspartnern, die unterschiedliche Sprachen sprechen, und dem Verbmobil-System als Dolmetschhilfe geschaltet. Das Verbmobil-System übersetzt wechselweise zwischen den Gesprächspartnern, wobei nur eine geringe Verzögerung durch die automatische Sprachverarbeitung entsteht.

Die maschinelle Sprachverarbeitung ist wissenschaftlich eines der ehrgeizigsten Ziele unseres Zeitalters. Nur durch die von Prof. Wahlster über acht Jahre vorangetriebene enge multidisziplinäre Zusammenarbeit von Informatikern, Linguisten, Sprachpsychologen, Nachrichtentechnikern, Kommunikationswissenschaftlern, sowie Spezialisten der Computerlinguistik und des Bereiches „Künstliche Intelligenz“, waren die jetzt erzielten Fortschritte bei der automatischen Sprachverarbeitung möglich. Für die Konstruktion von natürlichsprachlichen Dialogsystemen ist es notwendig, vom akustischen Signal eines Sprechers durch Spracherkennung zunächst zu einer symbolischen Repräsentation der eingegebenen Äußerung zu kommen. Darauf setzen dann Verfahren der Sprachanalyse sowie des Sprachverstehens auf. Nach der inhaltlichen Interpretation des Dialogbeitrags erfolgt die Sprachgenerierung für die Rückäußerung des Systems. Schließlich wird die symbolische Form der geplanten Systemausgabe durch die Sprachsynthese wieder in ein akustisches Sprachsignal verwandelt. „Hörende und sprechende Computer“ setzen also sehr komplexe Signal-Symbol-Signal Transformationen voraus.

Durch die extrem hohe Variabilität des Sprachsignals bei unterschiedlichen Sprechern, aber auch bei demselben Sprecher in verschiedenen Sprechsituationen und Äußerungskontexten, ist es nicht möglich, fließend gesprochene Sprache ohne Zusatzwissen direkt in eine eindeutige Wortfolge zu überführen. Neben der Vielzahl der Aussprachevarianten für ein Wort müssen dadurch, dass Wortgrenzen im Sprachsignal nicht immer klar erkennbar sind und Laute verschliffen werden, Tausende von Worthypothesen alternativ überprüft werden. Auf den verschiedenen Ebenen der Sprachverarbeitung werden schrittweise immer mehr Wissensquellen in die Verarbeitung eingeführt, so dass die Unsicherheit darüber, was der Sprecher mit seiner Äußerung letztlich will, auf jeder Verarbeitungsebene weiter reduziert wird. Wegen der starken Mehrdeutigkeit von Alltagssprache im lexikalischen und syntaktischen Bereich kann meist nur über ein explizites Modell des Gesprächskontextes oder Wissen über das Gesprächsthema ein eindeutiges Verstehen erreicht werden. Oft erweist sich die zunächst verfolgte Satzhypothese, die auf Grund vom Spracherkenner als wahrscheinlichste Wortfolge eingestuft wurde, auf späteren Ebenen der Sprachverarbeitung durch das Hinzuziehen von syntaktischen und semantischen Modellen und von Weltwissen als falsch, so dass ein alternativer Pfad durch den vom Spracherkenner erzeugten Worthypothesengraphen als Interpretation gewählt werden muss.

Der Kern der Innovation des Projektes besteht in der semantischen Integration und der konfidenzbasierten Selektion multipler und konkurrierender Analyse- und Übersetzungspfade, die erstmals hohe Robustheits- und Realzeitanforderungen mit variabler Verstehenstiefe und Analysekorrektheit verbindet. Der entscheidende technische Fortschritt ist ein innovatives Verfahren zur wechselseitigen, synergistischen Ergänzung flacher, statistischer Algorithmen und tiefer, wissensbasierter Analyseverfahren für spontane Umgangssprache in einer hybriden Multi-Blackboard-Architektur. Die Idee zu einer solchen Informationsfusion auf der semantischen Ebene hatte Prof. Wahlster bereits 1991 erstmals im Rahmen seines XTRA-Projektes entwickelt. In diesem Grundlagenprojekt war es mit Hilfe von typisierter Graphunifikation zum ersten Mal gelungen, die Ergebnisse von Spracheingaben und sprachbegleitenden Gesten auf einer semantischen Ebene so zu integrieren, dass eine wechselseitige Auflösung von Mehrdeutigkeiten erreicht wird. Hier wurde erstmals das später in den Jahren 1993 bis 2000 in Verbmobil auf breiter Basis eingesetzte Prinzip verwirklicht, dass die Verknüpfung verschiedener, in sich mehrdeutiger Analyseergebnisse schließlich ein eindeutiges Resultat liefern, wenn man die wechselseitigen Bedeutungsbeschränkungen bei der Informationsfusion auswertet. Um ausgehend von der Kerninnovation ein vollständig implementiertes Sprachdialogsystem bis zum Jahr 2000 erfolgreich zu entwickeln, war im Rahmen des Verbmobil-Systems die Integration von 69 Softwaremodulen notwendig, die von über 100 Mitarbeitern unter Leitung von Prof. Wahlster entwickelt und in 800 Publikationen dokumentiert wurden. Das Verbmobil-System wurde anhand von 3.200 Dialogen mit 1,5 Millionen Wörtern und 85.000 Syntaxbäumen trainiert und auf der Basis von 30.000 Übersetzungsbeispielen evaluiert.

Aus den im Rahmen des Verbmobil-Prototyps erprobten sprachtechnologischen Innovationen sind inzwischen bereits sechs Spin-Off Firmenneugründungen mit dreihundert neuen Hightech-Arbeitsplätzen und zwanzig marktfähige Produkte (z.B. FairCar zur sprachbasierten Produktsuche im Internet, Beagle zur natürlichsprachlichen Musiksuche, FränKi zur vollautomatischen Kinoauskunft über Telefon) hervorgegangen. Mit den Ergebnissen von Verbmobil hat Deutschland heute im Bereich der Sprachtechnologie eine internationale Spitzenstellung erreicht.

Im derzeit laufenden Nachfolgeprojekt SmartKom, das ebenfalls von Prof. Wahlster geleitet wird, arbeitet ein Konsortium aus Industrieunternehmen und Forschungsinstituten an einem multimodalen Sprachdialogsystem, das die Sprache, Gestik und Mimik eines Benutzers als sich wechselseitige ergänzende Eingabemodi im Dialogzusammenhang inhaltlich interpretiert. Neuartig dabei ist auch, dass auch auf der Ausgabeseite Sprache, Gestik und Mimik kombiniert werden, wobei anthropomorph visualisierte Kommunikationsassistenten als virtuelle Charaktere auf dem Bildschirm erscheinen.

Die Sprachtechnologie zählt deshalb zu den Schlüsseltechnologien bei der Verwirklichung der Wissensgesellschaft, weil sich bislang keine mathematischen Kunstsprachen, sondern nur die menschlichen Sprachen zur Formulierung, Speicherung und Weitergabe komplexer Sachverhalte, Gedanken und Wissensinhalte eignen. Der weltweite Zugriff auf das gesamte digital gespeicherte Wissen für jedermann, zu jeder Zeit und an jedem Ort würde daher im Zeitalter des mobilen Internet und von UMTS ohne den Einsatz von sprachverstehenden Computersystemen eine Fiktion bleiben.

Erst wenn es prinzipiell für jeden Menschen möglich wird, in seiner Muttersprache spontan eine Anfrage oder ein Kommando in Computersysteme zu sprechen, und wenn die entsprechende Antwort oder Reaktion wiederum für ihn verständlich in Alltagssprache ertönt, wird die Mensch-Computer-Interaktion den Stand erreicht haben, der den Computer zum integralen Bestandteil einer universalen Technik für die Wissensgesellschaft macht. Da elektronische Interaktion ein integraler Bestandteil des täglichen Lebens, der Arbeit und der Erziehung sein wird, könnten rasch Nachteile für diejenigen Menschen entstehen, die nicht in der Lage sind, solche Interaktionen auszuführen. Um diesen Personenkreis von der Wissensgesellschaft nicht auszuschließen, wurden mit Hilfe der Sprachtechnologie von Prof. Wahlster und seinen Teams ein Weg zu neuartigen Dialogschnittstellen für informationstechnische Dienste geschaffen, die jedermann, unabhängig von seinem Bildungsstand und seinem Lebensalter, völlig intuitiv über seine Alltagssprache bedienen kann. Maus und Tastatur werden durch natürliche Sprache und intuitive Gestik ersetzt. Damit muss sich der Mensch bei der Computerbenutzung weniger der Maschine anpassen, sondern der Computer passt sich dem Menschen und seinen wichtigsten Kommunikationsmitteln an.

Informationen und Kontakt zum Deutschen Zukunftspreis unter:

E-Mail: info@deutscher-zukunftspreis.de
Internet: www.deutscher-zukunftspreis.de

Das Vorschlagsrecht zum Deutschen Zukunftspreis obliegt den führenden deutschen Einrichtungen aus Wissenschaft und Wirtschaft sowie Stiftungen.

Das Projekt „Sprachverstehende Computer als Dialog- und Übersetzungsassistenten“ wurde vom Bundesministerium für Bildung und Forschung und von der Karl Heinz Beckurts-Stiftung vorgeschlagen.

Preisträger 2001 · TEAM 1

Künstliche Leber

Learn more

Sprachverstehende Computer

Weitere Details

Lebensläufe

Prof. Dr. rer. nat. Wolfgang Wahlster

Ehrungen:

Kontakt

Projektsprecher

Pressekontakt

Beschreibung der Institute und Unternehmen zu ihren nominierten Projekten

Künstliche Leber