Sprechen Sie mit dem Roboter! Über die Zukunft der Kommunikation

Früher verstanden die Maschinen nur „ein“ und „aus“. Heute deuten Roboter Gesichtsausdruck und Körpersprache. Werden sie uns in Zukunft auch trösten, unterhalten und therapieren – oder droht die absolute Kontrolle?

Frankfurter Allgemeine Quarterly 7
Juni 2018

Hana Chan lässt kein Missverständnis aufkommen: Die kleine Plüschhündin schnüffelt an den Füßen der Menschen und fällt in Ohnmacht, wenn jemand mal wieder duschen sollte. Sie wurde letztes Jahr entwickelt und kommt wie die meisten niedlichen Roboter aus Japan. Ihre Kollegen, die flauschige Robbe Paro und Pepper, das Plastik-Männchen mit den großen Augen, haben schon international Karriere gemacht. Sie werden auf der ganzen Welt eingesetzt, um jeweils in ihrer eigenen Art mit Menschen zu kommunizieren.
Paro, der auch manchmal Emma heißt, liegt auf dem Schoß demenzkranker Patienten, fiept, bis man ihn streichelt, drückt sich gegen die kraulende Hand, hebt das Köpfchen, schaut dem Senioren in die Augen und klimpert mit seinen langen Wimpern. Paro schmust aber nicht mit jedem gleichermaßen, die Robbe merkt sich, wer sie wie berührt hat, sie kann riechen, sehen und hören. Über diese Robbe, so heißt es in Altenheimen allerorts begeistert, könnte man wieder Nähe aufbauen zu Menschen, die mit anderen ihrer Art nicht mehr reden wollen.
Als die Robbe erstmals von Japan nach Deutschland kam, fanden Experten zwar, der Einsatz der Robbe sei „gefühllos“, Roboter seien „kein Ersatz für echte Zuwendung“. Das aber scheint den meisten Menschen jenseits der Ethik-Kommissionen egal: Schon 2015 konnte sich laut einer Studie jeder Vierte in Deutschland vorstellen, einmal von einem Roboter gepflegt zu werden. Bei Jugendlichen im Alter von 14 bis 19 Jahren sogar jeder dritte.
Und die meisten würden wahrscheinlich auch mufflige Mitarbeiter an Infoständen gern gegen freundliche Roboter tauschen. Etwa gegen einen wie Pepper, den kleinen Humanoiden. Das 1,20 Meter große Plastik-Männchen steht seit Mitte Februar am Flughafen München und beantwortet Fragen zu Geschäften, Restaurants und Flugbetrieb mit seiner blechern piepsigen Stimme und schaut dabei aufmerksam durch seine leuchtenden Kulleraugen, die ihre Farbe ändern, wenn er spricht. Und was er sagt, sind keine fertigen Texte, sondern jeweils individuelle Antworten. Über Wlan ist der Rechner des Roboters mit dem Internet verbunden und hat dadurch Zugriff auf eine Cloud, in der Gesprochenes verarbeitet, interpretiert und mit den Daten des Flughafens verknüpft wird. Außerdem fährt Pepper auf Rollen umher, die in seinen weißen Plastikrumpf integriert sind, mit seinen langen dünnen Armen winkt er freundlich oder unterstreicht seine Aussagen mit Gesten.
Aber Pepper kann noch viel mehr als Flughafen-Assistenz. Er dient als „geselliger Begleiter“, als „social companion“, wie die Entwickler auf der Firmenseite schreiben. Er sei entworfen, „um mit Menschen zu leben“ und ihnen „Wohlgefühl“ zu vermitteln. Pepper kann Gesichter lesen und erkennen, ob jemand traurig oder fröhlich aussieht, und je nachdem passende Worte finden, einige Menschen in Japan haben ihn bereits als emphatische Ergänzung der eigenen Familie gekauft.
Dass Menschen sich gern Maschinen anvertrauen, die zwar reagieren, aber nicht urteilen, zeigte sich schon 2014 am Institut für Kreative Technologie an der Universität von Kalifornien, wo Forscher eine virtuelle Therapeutin namens Ellie entwickelten und sie mit zwei Experimentalgruppen ins Gespräch brachten: Die einen gingen davon aus, hinter der Maschine säße ein Mensch, die anderen wussten, dass Ellie ein vollautomatischer Bot war. Letztere tendierten dazu, sich viel mehr zu öffnen und der Maschine schneller ihre intimsten Geheimnisse zu verraten.
Chatbots, die als virtuelle Coaches oder Therapeuten dienen, kommen täglich neue auf den Markt. Wer sich Pepper als Zuhörer nicht leisten kann — der Roboter kostet aktuell 20.280,- Euro —, verzichtet auf die physische Präsenz des Companions und hat den neuen Gefährten dafür permanent ganz nah: Die Bots kann man sich meist kostenlos als App herunterladen oder als Facebook-Freund auf dem Handy installieren, wie einen permanent verfügbaren Chatpartner. Er stellt dann etwa Fragen, zur Ernährung, wenn es sich um einen Ernährungscoach wie Forksy handelt, oder zum eigenen Wohlergehen und danach, was man den Tag über gemacht hat, wenn es ein Bot gegen leichte Depressionen ist wie Woebot.
Die Software, auf der Pepper, Paro und die Bots basieren, ist die gleiche: Künstliche neuronale Netze ermöglichen, dass die Maschinen alles, was sie erfassen, in Beziehung zueinander setzen und sich merken können. Dass sie also lernen können und ihre künftigen Reaktionen an ihrer „Erfahrung“ orientieren. Dass Paro sich merkt, wenn die Person mit der tiefen Stimme, ihn am liebsten am Kopf krault, und dass er ihn deshalb gleich emporstreckt, wenn er die Stimme wieder hört. Dass Pepper versteht, dass die meisten Leute sich freuen, wenn er erstmal High Five gibt, bevor sie eine Frage stellen. Dass Forksy erkennt, dass ihr Chatpartner zu wenig basisch isst und ihre Ernährungstips danach ausrichtet.
Die Idee für solche Netze zur Mustererkennung ist nicht neu, doch erst jetzt sind die Rechner so weit, sie wirklich anzuwenden. So funktioniert auch die Spracherkennung in digitalen Assistenten wie Apples Siri oder Microsofts Cortana: Der Computer erkennt Muster in akustischen Signalen.
Doch nicht nur in der Mustererkennung werden die Maschinen immer besser — auch ihr Wahrnehmungsvermögen wird immer größer. Sie können immer mehr und immer unterschiedlichere Signale erfassen.
Alte analoge Elektrogeräte, wie etwa der Staubsauger oder der Kaffeeautomat verstanden nur eine Order und die musste man per Knopfdruck vermitteln: 0 und 1, ein und aus. Computer machten es dann erstmals möglich, Nullen und Einsen zu komplexeren Befehlen zu kombinieren. Aber sie nahmen den Code zuerst immer noch allein in Form von manuellen Eingaben entgegen.
Jetzt aber explodiert der Wahrnehmungsapparat der digitalen Geräte und sie sind dabei nicht mehr darauf angewiesen, dass der Mensch ihnen direkt etwas eintippt: Die Computer lernen zu sehen, zu hören und zu riechen, wie Hana Chan, Paro und Pepper.
Auch ein sich selbst steuerndes Auto soll seine Umwelt allumfassend von allein registrieren und Roboter, die mit Menschen zusammenarbeiten, die Bewegung der menschlichen Körper erkennen, ohne dass sie ihm aktiv vermittelt werden. Die Maschine wird zum unersättlichen Empfänger, der Mensch ein permanenter Sender, und jede Regung, die er macht, wird vom Gerät erfasst und dekodiert. So wird aus dem niedlichen neuen Familienmitglied Pepper plötzlich Big Brother — und wer weiß, an wen er die Informationen weiterleitet, die er zu allen möglichen Gewohnheiten seiner Besitzer sammelt.
Bald dürfte Pepper auch schon erkennen können, wenn das Kind bei den Hausaufgaben unkonzentriert ist, nicht an Mathe, sondern an die Party denkt. Denn das ist der nächste Schritt: Die Computer sollen in Zukunft noch mehr erfassen, nicht nur Töne, Bilder, Gesten und Gerüche. Sie sollen auch Gedanken lesen, ohne dass der Mensch sie artikuliert, Gefühle erkennen, ehe sie dem fleischlichen Wesen ins Gesicht gezeichnet sind. Daran arbeiten Forscher und Unternehmen gleichermaßen und auch die EU hat bereits 2012 eine Milliarde Euro in das „Human Brain Project“ investiert, um den menschlichen Gehirngängen digital auf die Schliche zu kommen. Das schien erst nicht gut zu klappen und das ganze Geld vergeudet, aber jetzt zeichnen sich doch Erfolge ab.
Wieder sind die so genannten tiefen neuronalen Netzwerke maßgeblich: Sie werden eingesetzt, um Gehirnströme und -wellen, die Elektroenzephalographie und Magnetresonanztomographie erfassen können, zu dekodieren.
Bislang verstanden Computer nur einfache elektromagnetische Signale, wie etwa Ja- und Nein-Antworten, bei denen die beiden Gehirnhälften jeweils unterschiedlich stark durchblutet sind. Das ermöglichte Menschen, die etwa aufgrund von Lähmungen wie beim Locked-In-Syndrom nicht sprechen können, zumindest ansatzweise auf simple, geschlossene Fragen zu antworten. Letzten Dezember entwickelten vier Wissenschaftler an der Universität von Kyoto in Japan nun aber erstmals einen Computer, der viel tiefer schaut: Mithilfe neuronaler Netze kann er ganze Objekte wiedergegen, die ein Mensch sich vorstellt. Wenn der etwa an einen bunten Vogel denkt, zeichnet der Computer das Bild bis zur einzelnen Feder nach. Das würde ganz neue Möglichkeiten eröffnen, auch Halluzinationen und Träume zu visualisieren, hieß es in Fachblättern.
Und nur vier Monate später, im April, stellten Forscher vom Massachusetts Institute of Technology (MIT) ein Gerät namens „Alter Ego“ vor, ein schmales Plastikärmchen, das, befestigt am Ohr, seitlich auf dem Kieferknochen liegt — und ebenfalls scheinbar Gedanken lesen kann: Im Video dazu sitzt ein Mann vor dem Fernseher und der Plastikarm am Kiefer versteht, welches Programm er sehen will, und teilt das dem Fernseher mit, der dann entsprechend umschaltet. Oder der Mann fragt sich lautlos, wieviel Uhr es ist, und „Alter Ego“ antwortet, denn „Alter Ego“ ist ja mit dem Internet verbunden und weiß alles. Prima rechnen kann das Gerät natürlich auch und so geht der Mann in den Supermarkt und schaut bei jedem Produkt, das er in seinen Wagen legt, auf das Preisschild, und Alter Ego sagt dann auf, wie hoch die Summe schon ist.
Das klingt sehr praktisch. Aber wer weiß, wie loyal Alter Ego ist, ob er nicht vielleicht ausplaudert, was er durch die Augen seines Besitzers wahrnimmt, oder sich zumindest entgegen seiner ursprünglichen Programmierung manipulieren lässt. Das hängt auch davon ab, wer sich weiter um die Entwicklung dieser Geräte kümmert, wer sie am Ende verbreitet, ob das allein profitorientierte Firmen wie Google und Facebook sind, die bereits die Forschung vorantreiben.
Die grundlegende Frage ist aber wohl: Ist die menschliche Kommunikation, ist der Mensch selbst am Ende so simpel, dass er komplett dekodiert werden kann? Davon gehen diejenigen aus, die die Forschung zur so genannten künstlichen Intelligenz vorantreiben und die Maschinen befähigen, den Menschen immer besser zu verstehen. So etwa Jürgen Schmidhuber, der als einer der ersten Informatiker mit den rekurrenten neuronalen Netzen arbeitete — und der glaubt, dass Maschinen bald sogar besser kommunizieren, intelligenter sein werden als Menschen. Der Mensch sei schließlich auch nichts anderes als eine physikalische Maschine, ein Netz aus Datenströmen, das darin Signale von außen kodieren und dekodieren könne. Und je vielfältiger der Wahrnehmungsapparat und die Fähigkeit, Signale zu deuten, desto intelligenter die Maschine oder der Mensch.
Aber wird Pepper, nur weil er am Flughafen in München die richtigen Worte findet, um das gelangweilte Kind zu erheitern, je nachvollziehen können, wie sich Langeweile anfühlt?
Der Sprachphilosoph John Searle entgegnet denen, die glauben, Computer könnten bald wie Menschen kommunizieren, ein Gedankenexperiment: Einer Person, die keinerlei Chinesisch versteht, werden Fragen in chinesischer Schrift gestellt. Anhand einer Anleitung in ihrer Muttersprache sucht sie jeweils sinnvolle Antworten auf Chinesisch heraus. Kann die Person deshalb schon Chinesisch? Nein. Sie kann Zeichen richtig anordnen, aber sie kennt deren Bedeutung nicht.
Signifikat und Signifikant sind bislang zweierlei. Was hier heute das eine meint, kann morgen schon wieder etwas anderes heißen, und selbst am gleichen Ort zur gleichen Zeit war noch nie klar, ob Begriff und Bedeutung sich entsprechen, ob die eine das Gleiche fühlt, wenn sie Liebe sagt, wie der andere.
Jetzt aber soll es keine Unschärfen mehr geben. Menschliche Regungen werden direkt am Körper lesbar. Der Mensch braucht Alter Ego gar kein Signal mehr zu senden – die Maschine soll seine Affekte, Geistes- und Gemütszustände erfassen, ohne dass er sich aktiv äußern muss. Rosalind Picard vom MIT Media Lab schlug schon vor 20 Jahren vor, die Modellierung und Berechnung von Emotionen in die Informatik zu integrieren. Heute ist sie beteiligt am MIT-Ableger Affectiva, der Autos entwickelt, die erkennen sollen, ob die Menschen hinter dem Steuer emotional überhaupt als Fahrer taugen. Runzeln sie die Stirn auf eine Weise, die der Maschine als zu wütend gilt, springt der Motor nicht an. Die Firma hat eine riesige Datenbank von Gesichtsausdrücken angelegt, mit der sie die durchschnittliche menschliche Mimik katalogisiert und für die Autos operationalisiert hat.
Wenn es nach den Befürwortern des Affektive Computings geht, werden erst die Gesichtsausdrücke, dann die Gehirnströme und die restlichen Nervensysteme vermessen. Damit alle Affekte, damit alles Leben sich mit Hilfe der Rechenmaschinen erfassen und in den Griff kriegen lässt. Und wenn die Menschen dann wirklich irgendwann so weit sein sollten, wie die Maschinen zu kommunizieren, ohne Missverständnisse, ohne Zweideutigkeit und ohne Zweifel, wird niemand mehr einen Unfall bauen. Alle werden täglich duschen, und Paro wird die Kranken heilen.