Sprachassistenten haben in den letzten Jahren rapide an Verbreitung gewonnen. Allein in Deutschland nutzt inzwischen jede/r Dritte Assistenten wie Amazon Alexa oder den Google Assistant. Schaut man sich aber an wofür, ist der aktuelle Stand eher ernüchternd. Radio starten, nach dem Wetter fragen, einfache Wissensfragen stellen oder einen Timer stellen: Basisfunktionen bleiben nach wie vor die Hauptanwendungsfälle. Aber woran liegt das?
Auf anfängliche Euphorie und hohe Erwartungen an das, was Sprachassistenten können, folgt oft Ernüchterung. Innerhalb dieses Spannungsfeldes sinnvolles Erwartungsmanagement zu betreiben ist der Kern des Problems. Die Orientierung in einem Voice Skill gleicht der Suche nach dem Lichtschalter in einem dunklen Zimmer. Wobei – das setzt voraus, dass man wüsste, dass es überhaupt eine Lampe gibt. Ähnlich wie in einem dunklen Raum gibt es nur die Dimension der Zeit. Man sieht nicht, was vor einem liegt und wo man hergekommen ist. Die Orientierung ist also deutlich schwieriger.
Im Gegensatz zu einem GUI, also einem grafischen Nutzer-Interface, können wir dem Nutzer in Sprachinterfaces nur durch explizite Vorschläge Hinweise darauf geben, was er tun kann, oder im Nachhinein reagieren, wenn etwas nicht funktioniert. Wenn es schlecht läuft, endet das wie die Suche nach der Nadel im Heuhaufen.
Doch bevor es überhaupt um die Orientierung innerhalb eines Skills geht, lautet die erste entscheidende Frage: Wie erfahren Nutzer von dem Skill? Bei bekannten Marken ist es wahrscheinlicher, dass Nutzer gezielt danach suchen. Der Long Tail hat es da schwerer. Alexa stellt zwar regelmäßig neue Funktionen in einem Newsletter vor und es gibt Amazon und Google Stores für die Skills bzw. Actions. Aber auf diese Vermarktungskanäle alleine kann bzw. sollte man nicht bauen.
Es ist ein bisschen wie zu Beginn des Internets, als Suchmaschinen noch nicht das waren, was sie heute sind. Erste Möglichkeiten sind zwar gegeben, so dass der Nutzer auch ohne den Namen des Skills zu nennen Sprachbefehle (sogenannte „Intents“) ausführen kann (z. B. durch Implicit Invocations für Google Actions bzw. den CanFulFill-Intent für Alexa). Allerdings liegt die Entscheidung bei Google und Amazon, welcher Skill bzw. welche Action den Intent bedienen darf. Über alternative Skills wird der Nutzer gar nicht informiert, im übertragenden Sinne fehlt hier die Suchergebnisseite.
Hat der Nutzer dann den Skill oder die Action gestartet, sollte er begrüßt und bei der ersten Benutzung über den groben Umfang des Skills informiert werden. Sinnvoll ist es, direkt eine erste Handlungsaufforderung unterzubringen. Genauso wie bei einem persönlichen Treffen, wenn man seinem Gegenüber bei der ersten Vorstellung im Sinne des guten Small Talks zunächst eine Frage stellen würde.
Und wie geht es weiter? Danach können wir zwei Szenarien unterscheiden:
Das erste Szenario: Es gibt einen klaren Usecase des Skills.
Nehmen wir zum Beispiel den Buchungs-Skill eines bekannten Hotels: Worauf könnte die Erwartungshaltung des Nutzers an die Anwendung fußen? Wahrscheinlich auf den Erfahrungen, die er mit den Buchungsservices des Hotels in anderen digitalen Channels gemacht hat. Und die Basisfunktionen, die er von dort kennt, wird er wahrscheinlich auch im Voice-Kontext ausprobieren wollen. Umso wichtiger ist es, dass der Sprachassistent auch auf Intents reagiert, deren Funktion noch nicht implementiert ist. Also nicht einfach nur: „Das habe ich nicht verstanden“, sondern: „Du kannst noch keine Extras zu bestehenden Hotelbuchungen hinzufügen, aber wir arbeiten daran. Besuche dazu doch unsere Website, ich schicke dir einen Link in die Alexa App.“
Das zweite Szenario: Es handelt sich um eine unbekanntere Marke und/oder unbekannteren Usecase. Hier geht es beispielsweise um Skills, die Funktionen abbilden, welche für User selbst noch neu sind, beispielsweise wenn sich ein Nutzer erste Smart Home Devices zusammen mit einem Speaker besorgt, über den er sie in Zukunft steuern möchte. In diesem Fall ist es umso wichtiger, den Nutzer strukturiert über die Funktionen des Skills aufzuklären. Bei komplexeren Skills kann das zum Beispiel in einer begleitenden App geschehen, in der die Einrichtung erfolgt. Oder aber beim ersten Aufruf per Sprache, wenn der Skill sich und seine Funktionen vorstellen kann. In diesem Moment werden die Weichen dafür gestellt, ob der Nutzer den Skill nicht nur einmal ausprobiert, sondern auch in Zukunft nach neuen Funktionen sucht.
Und auch in der dauerhaften Nutzung gilt es – durch kontextuelle Hilfen und konstruktive Reprompts („Es tut mir leid, diese Funktion gibt es noch nicht. Aber versuch doch mal …“) – den Nutzer bestmöglich an die Hand zu nehmen. Besonders wichtig ist das bei Erstanwendern, die sonst „eingeschüchtert“ oder frustriert werden. Fatal wäre es, wenn Nutzer den Eindruck erhielten, dass der Fehler bei ihnen und nicht beim eingeschränkten Umfang des VUI liegt.
Neue Entwicklungen und Verbesserungen sichtbar machen:
Ein guter Skill wird kontinuierlich weiterentwickelt. Aber wie erfahren Nutzer von neuen Funktionen? Ein Ansatz ist es z. B., bei verwandten Funktionen einen Hinweis auf passende neue Funktionen zu geben. Hier ist Fingerspitzengefühl gefragt, damit Nutzer nicht in ihrer Effizienz gestört und die Hinweise als sinnvolle Tipps und nicht als Werbung verstanden werden.
Natürlich können auch bestehende Kommunikationskanäle wie Newsletter oder – falls vorhanden – Benachrichtigungen in Apps genutzt werden. Aber wie bei jeder Werbung gilt auch hier: Die Hinweise sollten mit Bedacht eingesetzt und Nutzer nicht mit generischen Inhalten überladen werden. Je passender die Empfehlung z. B. durch Targeting oder guten Kontext ausgegeben werden, desto höher die Wahrscheinlichkeit, dass das Ziel, Nutzer zu halten, erreicht wird.
Die Konzepte und Ideen sind da. Alexa hat zum Beispiel das Konzept der „Alexa Conversations“ im Preview-Modus vorgestellt . Dadurch kann innerhalb eines Gesprächs zwischen verschiedenen Skills gewechselt werden und das Kontextwissen bleibt erhalten. Auch gibt es immer mehr Geräte mit integrierter Kamera. Könnten diese visuellen Daten einbezogen werden, hätten wir deutlich mehr Wissen über die aktuelle Situation des Nutzers.
In der Realität ist diese Intelligenz aber oft noch nicht wirklich spürbar und digitale Assistenten sind noch nicht genug im Alltag der Nutzer angekommen, als dass ihre Vorteile gegenüber Datenschutzbedenken überwiegen würden. Es bleibt also nach wie vor spannend, wann der Durchbruch in Richtung ubiquitärer, wirklich intelligenter Assistenten kommt.