• 1 month ago / Charlotte Block

Sprachinterfaces: Freund oder Feind?

KITT Sprachinterface

Sprachinterfaces gibt es in Form mehr oder weniger ausgereifter Prototypen bereits seit Jahrzehnten. Knightrider, Star Trek ... seine Umgebung per Sprache steuern zu können hatte schon immer eine immense Faszination. Ob es dabei um das Gefühl besserer Kontrolle geht oder wie bei K.I.T.T. darum, einen treuen Begleiter zu haben, sei mal dahingestellt. Tatsächlich sind wir dieser Vision in den letzten Jahren mit großen Schritten immer nähergekommen, denn die Rechenleistung, die für eine entsprechende Spracherkennung nötig ist sowie künstliche Intelligenz zur Interpretation, sind inzwischen mehr als erschwinglich.

Vor allem für die Anhänger der „Voice First“-Bewegung scheint es außer Frage zu stehen, dass wir in Zukunft unser automatisiertes Umfeld über Sprache steuern. Auf den ersten Blick ein attraktives Szenario, erscheint diese Interaktion doch so viel intuitiver und natürlicher, als mit Maus, Tastatur oder Touchpad zu arbeiten. Aber ist dem wirklich so?

Punkt 1: Stand heute werden „nur“ 92% der Formulierungen auf Anhieb verstanden.

Das bedeutet, dass in 8% der Fälle das System nicht erwartungsgemäß reagiert. In den einfacheren Fällen muss der Anwender seinen Befehl nur deutlicher, langsamer oder anders paraphrasiert wiederholen. Das fühlt sich sperrig und langsam an. Ärgerlich wird es, wenn die Fehlinterpretation zu unerwünschten Ergebnissen führt und die falsche Musik abgespielt oder ein anderer Artikel als gewünscht auf die Einkaufsliste geschrieben wird.
Für die Pflege einer NLU ist es daher unumgänglich, entsprechende Kapazitäten für die Analyse der vom Nutzer als fehlerhaft gemeldeten oder selbstständig als fehlerhaft erkannten Befehle zu analysieren und das System entsprechend durch die Eingabe der korrekten Interpretation zu korrigieren. Nur so kann die Spracherkennung das angestrebte Level erreichen.

Zudem sollten die Funktionen des Systems dabei unterstützen, Fehler schnell und einfach zu korrigieren. Und für den Fall, dass ein Befehl gar nicht verstanden wird, kann es schon charmanter sein, wenn es mehr Reaktionen als ein einfaches „Das habe ich nicht verstanden.“ gibt. Scheitert ein Anwender mehrfach hintereinander, sollten ihm außerdem Hilfestellungen angeboten werden.

Punkt 2: Die Sprache wird zwar erkannt, aber der Befehl kann nicht immer übersetzt werden

Spracherkennung ist der erste Schritt, in der nächsten Stufe wird der Befehl analysiert. Natürlich können nur die Befehle umgesetzt werden, die auch als „Utterances“ implementiert wurden. Alexa, Siri und Konsorten präsentieren sich gerne als allmächtig, nach dem ersten intensiven Ausprobieren wird den meisten Nutzern aber schnell klar, dass auch sie deutliche Grenzen im Funktionsumfang haben.

Damit sich keine Frustration einstellt, ist es elementar, dass der Nutzer ein Gefühl dafür hat, was er von dem System erwarten kann, und dass er nicht die Lust am Ausprobieren und Entdecken neuer Funktionen verliert. Zunächst ist dafür eine grundlegende Positionierung des Dienstes hilfreich. Handelt es sich um einen Shopping-Assistenten? Dann verzeihe ich Schwächen bei der Routenplanung. Oder ist es ein Familien-Planungstool? Dann werde ich eine Kalender-Funktion erwarten. Zusätzlich helfen gute Onboarding-Strategien, mithilfe derer im Rahmen der Einrichtung die wichtigsten Funktionen kennengelernt und ausprobiert werden können. Aber auch im Laufe der Benutzung sollten neue oder noch nicht entdeckte Funktionen zugänglich gemacht werden – proaktiv und/oder auf Nachfrage.

Punkt 3: Selbstgespräche zu führen fühlt sich eigenartig an

Die meisten Sprachassistenten, die aktuell am Markt sind, sind auf eine Nutzung zuhause ausgelegt. Amazon arbeitet zwar an einer Brille mit Sprachsteuerung, aber dennoch ist genau zu betrachten, in welchen Situationen sich der Nutzer wohl damit fühlt, in der Öffentlichkeit zu sprechen. SMS und Textnachrichten haben uns in den letzten Jahren stark in Richtung nonverbaler Kommunikation geprägt. Und selbst in vertrauter heimischer Umgebung kann es sich komisch anfühlen, längere Befehlsdialoge laut zu führen. Ganz zu schweigen von sensiblen oder gar vertraulichen Informationen, die laut und damit für alle Anwesenden hörbar vorgetragen werden müssen. Schon der Absender einer empfangenen Sprachnachricht kann eine brisante Information sein.

Hier ist das wichtigste Stichwort „Kontext“. Was wissen wir über die Situation des Nutzers und welche Schlüsse können wir daraus auf seine Bedürfnisse zur Privatsphäre schließen? Hat er Kopfhörer auf, ist die Information exklusiv für ihn zu hören. In anderen Situationen macht es womöglich Sinn, erst auf explizite Anforderung bestimmte Informationen preis zu geben.

Punkt 4: Wie menschlich sollte eine Maschine überhaupt sein?

Bis der Charakter eines Gesprächs zwischen zwei Menschen nachempfunden werden kann, wird noch einige Zeit vergehen. Fühlt sich ein Voice Interface dumm oder „trampelig“ an, kann das schnell zu Frustrationen führen. Das kann Unverständnis der Befehle sein, Trägheit in der Reaktion oder zu ausführliche Dialoge. Zudem muss man die Frage stellen, ob es überhaupt gewünscht ist, dass ein System wie eine eigene Persönlichkeit daherkommt. Hier spielen auch kulturelle Unterschiede eine Rolle: Während ein pragmatisch-funktional orientierter Mensch klare fokussierte Dialoge bevorzugt, gibt es mit Sicherheit andere Nutzer, die eine emotionalere Tonalität bevorzugen. Passen z. B. Witze und spielerische Dialoge überhaupt zur Marke? Ist ein Duzen der Kunden angemessen oder geht man erst nach einer gewissen Phase dazu über? Wer spricht eigentlich? Alexa oder die eigene Marke?

Schnell wird klar, dass es um mehr geht als darum, einfach nur Dialoge zu schreiben. Das System braucht einen definierten Charakter, für den z. B. festgelegt ist, wie humorvoll er ist oder ob Fremdwörter verwendet werden. Eine Varianz der Antworten lässt das System menschlicher und intelligenter wirken. Ein weiterer Gedanke im Hinblick auf die Beziehung zwischen Nutzer und System ist es, adaptive Lernprozesse vorzusehen. Während Antworten zu Beginn kürzer und prägnanter sein könnten, mögen für geübte Nutzer oder in intensiven Nutzungsphasen schnelle und zielgerichtete Reaktionen passend sein, ein Aspekt der z. B. im B2B Bereich interessant ist.

Punkt 5: Nutzer müssen das Konzept von Voice Hubs erstmal verstehen

Zu guter Letzt ein Aspekt, der angesichts der vielen neuen Möglichkeiten gerne aus dem Blick verloren wird: Wir befinden uns am Anfang eines neuen Interaktionsparadigmas. Das bedeutet, dass es zum einen wenige etablierte Mechanismen gibt, zum anderen aber auch, dass das anzunehmende Vorwissen der Nutzer sehr unterschiedlich ist. Während Early Adopter ein klares Verständnis von Alexa und ihren Skills haben, ist vielen Nutzern die komplette Tragweite des Modells noch nicht vollkommen klar.
Viele Nutzer, die noch keine Erfahrungen mit Voice Interfaces gesammelt haben, verstehen Sprachinterfaces nicht als zusätzlichen Zugang zu bestehenden Systemen, sondern als Parallelwelt („Wieso gibt es hier einen Kalender? Ich habe doch schon einen Kalender.“). Teilweise ist auch der Unterschied zu einer Diktierfunktion unklar. Zudem werden Voice Devices häufig für einzelne Usecases angeschafft und mit entsprechenden Scheuklappen betrachtet.

Hier müssen wir den schmalen Grat zwischen Belehrung und guter Einführung in das System treffen. Bestenfalls verinnerlichen die Nutzer durch eine gute Produktkommunikation schon im Verlauf des Kaufentscheidungsprozesses das Konzept. Eine gute Onboarding-Phase geht individuell auf die Kenntnisse des Nutzers ein und bietet je nach Bedarf vertiefende Hilfestellungen oder Abkürzungen für Profis an.

Die Essenz: Research, Testing, Weiterentwicklung

Um einen erfolgreichen Sprachdienst zu entwickeln ist es elementar, ein genaues Verständnis des Nutzers und seines Kontexts zu erhalten. Was wissen wir über ihn? Was können wir durch Schulung oder Onboarding vermitteln? Wie viel Engagement für ein Erlernen der Steuerung können und wollen wir abverlangen?
Auf dem Papier ist ein Sprachinterface schnell definiert, aber Tests sind unverzichtbar, um ein Gefühl für die Wirkung der Dialoge zu bekommen. Und zwangsläufig wird der laufende Betrieb Schwachstellen und Optimierungspotentiale aufzeigen. Dadurch, dass die Handlungsmöglichkeiten des Nutzers deutlich offener sind als bei grafischen Benutzeroberflächen, müssen hier viel mehr Eventualitäten betrachtet werden.

Aber das Gute ist: Die Nutzer sind genauso „frisch“ in der ganzen Thematik. Sie wollen ausprobieren, lernen und Teil einer echten Innovation sein. Sie wissen, dass die Systeme noch nicht unfehlbar sind. Natürlich sollte jedes Produkt einen ausreichenden Reifegrad haben, bevor es auf den Markt kommt. Aber diese Offenheit und Begeisterung für neue Ideen sollten wir als echte Chance sehen.