Steffen Voß - Technologie & Gesellschaft

Digitale Assistenten : Ist gesprochene Sprache gut bedienbar?

Google Home auf einem Schreibtisch. Im Vordergrund: Eine Schreibmappe mit einer Lesebrille darauf
Im Hintergrund: Google Home | Foto: NDB Photos - CC BY-SA 2.0

Steffen Voß

„Bitte“ und „Danke“ – Das ist noch die alte Schule der Höflichkeit. Eine 86-Jährige Britin im letzten Jahr damit bekannt geworden, dass sie Ihre Google Suchanfragen mit „Please“ und „Thank you“ formuliert. Ein bisschen so kommt mir der Umgang mit digitalen Sprach-Assistenten wie Siri, Alexa oder Google Home vor.

Seit Anfang des Monats hat nach Amazon auch Google ein Gerät im Angebot, mit dem man per gesprochener Sprache interagieren kann. Generell finde ich das Thema faszinierend. Also natürlich nur, wenn man mal den Aspekt ausblendet, dass da ein Gerät eines US-Konzerns mit einem Mikrofon dauerhaft in der Wohnung steht. Das ist wie bei Star Trek! Man kann mit dem Computer sprechen und der macht dann Sachen.

Bisher habe ich von wenig Dingen gehört, von denen ich sagen würde: „Oh, das ist super praktisch.“ Google kann lahme Witze erzählen und so etwas wie singen. Man kann genannte Smart-Home Geräte anbinden. Und dann kann man von dem Raum in dem Google Home steht fragen, wie warm es in einem anderen Raum ist. Das habe ich mich noch nie gefragt – jetzt kann ich Google fragen.

Aber okay – „Wofür braucht man das überhaupt?“ ist die erste Standardsituation der Technologiekritik. Lassen wir diesen Aspekt auch einmal beiseite.

Ich finde es bisher total unpraktisch, mit Geräten sprechen zu müssen. Ich muss das Gerät ansprechen, damit es weiß, dass ich mit ihm rede. Und dann muss ich mir überlegen, wie ich das formuliere, was ich will. „Ok Google, schalte das Licht im Wohnzimmer an.“ Bisher habe ich dafür immer einfach einen Schalter an der Wand gedrückt, ohne mir etwas zu überlegen. Und bisher haben mich meine Computer immer wortlos verstanden.

Gibt es irgendwen, der ernsthaft Siri benutzt? Ich bin ja nicht dabei, wenn iPhone-Besitzer alleine mit ihrem Telefon sind. Lassen die sich ihre Termine tatsächlich von Siri in den Kalender eintragen? Schreiben die tatsächlich WhatsApps per Siri?

In der Öffentlichkeit fänden das die meisten Leute vermutlich immer noch sehr merkwürdig, wenn man auf diese Art mit seinem Telefon spricht. Aber vor 20 Jahren war natürlich auch noch das öffentliche Telefonieren verpönt. Dafür gibt es inzwischen niemanden mehr, der Klingeltöne laut hat. Da verändert sich unsere Kultur natürlich auch.

Die Virtuellen Persönlichen Assistenten befanden sich im Gartner Hype Cycle 2016 noch im Aufstieg. In diesem Jahr haben sie den Gipfel der Erwartungen erreicht. Entsprechend sind die aktuellen Erwartungen an diese Systeme vollkommen überzogen. In den nächsten Jahren werden Alexa und ihre digitalen Kolleginnen einstauben, bis es dann eine vernünftige Anwendung dafür gibt. 5 – 10 Jahre schätzt Gartner. Dann muss ich nicht mehr sagen „Ok Google. Koche mir einen Tee.“ sondern „Tee. Earl Grey. heiß.

Filmtipp

Kommentare

Swen Wacker
Swen Wacker:

Kauf Dir einen Fire TV Stick von Amazon; dann wirst Du dessen Mikrofon lieben. Die Menü-Navigation im Fire TV Stick ist nämlich nervtötend. Den Serien-Titel ins Mikro schnacken (Fernbedienung habe ich eben gerade in der Hand) ist viel praktischer und geht flott.

17.8.2017 um 13:57
Steffen Voß
Steffen Voß:

Das stimmt, das mach ich auch manchmal. Aber da sag ich nur den Suchbegriff. Ich bin mir sicher, auch Du sagst nicht: „Alexa, bitte zeige mir den Film XY.“

Probiers mal aus: Du kannst auch sagen „Gib mir meine tägliche Zusammenfassung.“ Finde ich aber noch schräg.

18.8.2017 um 09:46
Swen Wacker
Swen Wacker:

Eine Entwicklung, die darauf hinausläuft, dass ich „normal“ spreche und nicht in Einwortsätzen Befehle erteile, finde ich okay. Der Rechner soll „das Richtige“ erkennen können. Egal, ob ich „Alexa, bitte zeige mir den Film XY“ oder „Sklave, XY anzeigen, aber zackzack, Du Sau“ sage.

18.8.2017 um 10:09
Steffen Voß
Steffen Voß:

Ist es nicht viel cooler, dass es mit einzelnen Begriffen geht? Es ist doch auch praktisch, dass das Licht per Knopfdruck angeht und nicht mit dem Satz „Bitte liebes Auto, würdest Du den Motor starten?“

Die ganzen Extra-Wörter benutzen wir Menschen doch nur, weil wir niemals nur Informationen übermitteln. Wir können nach Watzlawick nicht nicht kommunizieren und wenn wir es tun, hat jede Botschaft nach Schulz von Thun vier Seiten: Sachebene, Selbstoffenbarung, Beziehungsebene und den Appell. Für den Computer benötige ich nur 2 davon: Sachebene und Appell: „Suche Film XY.“ und weil das Ding weiß, wenn ich den Titel eines Films nenne, dass es den suchen soll, kann ich das „Suche“ weglassen. Ich muss dem Computer nicht deutlich machen, dass ich ihn mag und dass ich von ihm gemocht werden möchte. Manche Leute reden ja mit ihren Geräten so – vor allem, wenn sie nicht funktionieren. Aber als Benutzerinterface finde ich das falsch.

Das erinnert an die digitalen Holzoberflächen in den frühen iPhone-Apps. Das ist verbaler Skeuomorphismus.

18.8.2017 um 12:32
Swen Wacker
Swen Wacker:

Natürlich ist es absurd, mit der Maschine „menschlich“ zu kommunizieren. Es ist auch absurd, mit Hunden „menschlich“ oder Apfelbäumen überhaupt zu reden. Ich mache es trotzdem. Mir zuliebe. Ich fühle mich dann wohler.
Ich glaube also, man sollte das vom Absender her denken. Wenn und solange es ihm so gefällt, ist das okay – egal ob das kommunikationstheoretisch nun formal korrekt oder überflüssig oder wie auch immer ist. Von der Maschinenseite her sollte diese beides beherrschen: Einwortbefehle und floskelvolles Geschwätz. Warum dem Menschen ein Verhaltensmuster vorgeben? (Achten Sie auf Ihre Überlegenheit. Reden Sie von oben herab. Verzichten Sie auf Höflichkeitsfloskeln …) Soll doch jede/r machen, wie er/sie will.

„Suche XY-Film“ Ich finde das Wort „Suche“ ja wichtig. Dann weiß die Maschine, dass es den Film nicht gleich starten soll. Sie kann mir jetzt Infos zum Film liefern, ob es die neue Staffel schon online gibt, den Ort sagen, an dem ich ihn gespeichert habe, mich auf die DVD aufmerksam machen, die ich damals noch bei Amazon gekauft habe, wann ich ihn zuletzt gesehen habe … Außer in der Weihnachtszeit. Wenn ich der Fernbedienung dann sage „Herr der Ringe“. Dann soll das Ding bitte schön wissen, dass ich jetzt, wie jedes Jahr, die extended version aller Teile sehen will. Ohne Verzögerung und Schnickschnack 🙂

18.8.2017 um 16:35
Steffen Voß
Steffen Voß:

Wie gesagt: Ich weiß nicht, was sich in dieser Sache gesellschaftlich durchsetzt. Ich denke, es wird sich das Bequemste durchsetzen – ich frag mich halt, was das ist. Klar ist immer Platz für verschiedene Ansätze – trotz Touchscreen gibt es noch Mäuse, und trotz Maus gibt es noch die Kommandozeile.
Spracheingabe ist für einfache Suchoperationen schon jetzt unschlagbar. Das Beispiel Filmsuche bei einer Filmabspielanwendung hatten wir ja schon.
Wenn ich dagegen mal mein Nutzerverhalten beim Telefon anschau. Das möchte ich nicht sprachsteuern. Wenn ich mir vorstell, dass die Bahn voller Leute sitzt, die Anweisungen an ihr Telefon brummeln, ist das noch merkwürdig. Andererseits war das öffentliche Telefonieren oder Voicenachrichten sprechen auch komisch vor ein paar Jahren…

18.8.2017 um 18:05
Rudolf Riep
Rudolf Riep:

Deine Ausgangsfrage, ob gesprochene Sprache gut bedienbar ist, würde ich etwas anders formulieren: Kann ich mit umgangssprachlichen Formulierungen erreichen, was ich will? Und wie fühle ich mich, wenn ich mit einer Maschine spreche?
Dazu zwei Beispiele; erstens meine Tochter, die mit einem Telefonsystem über Reklamationen „spricht“. Nichts gefällt ihr, was der Computer sagt oder fragt und sie schreit „Berater!“, bevor das ganze Programm abgespult wird. Bei der dritten lautstarken Froderung wird die Programmroutine abgebrochen und die Wartescheleife fängt an. Hätte hier der Hinweis geholfen: „Bitte verbinde mich direkt mit einem Menschen!“ …
Zweiter Fall, der nicht direkt mit deiner Frage zusammenhängt aber auch zum Problembereich der gestörten Kommunikation gehört. Ein Bekannter hatte einen Schäferhund aus Frankreich und es war ihm unangenehm, französische Komanndos in der Öffentlichkeit zu rufen, deshalb gibng er mit dem Hund nicht raus.

Ich will damit sagen, dass es darauf ankommt, ob mit einem System zu einer akzeptablen Kommunikation kommt ist entscheidend für die Nutzbarkeit. Es wird ja auch von Navigationssystemen berichtet, deren Wirksamkeit höher ist, wenn sie mit nörgelnder Stimme sagen: „Hab ich nicht gleich gesagt, du solltest rechts abbiegen.“ anstatt der öden Ansage: „Demnächst bitte wenden.“
Leute, deren Gesprächsbedarf erschöpft ist, wenn sie beim Brötchenholen Moin gesagt haben, müssen genauso mit einem elektronischen System klar kommen, wie Leute mit einer hohen verbalen Ausscheidungsrate.

Bei dem Beispiel von Swen Wacker taucht für mich die Frage auf, ob „Du Sau“ von einem System nicht als Schlüsselwort für eine andere Reaktion gewertet müsste. Und das ist für mich der entscheidende Punkt. Wie auch immer so ein Kommunikationssystem programmiert wird, Aktionen werden durch Schlüsselwörter oder -phrasen ausgelöst. Wer die kennt oder zufällig benutzt hat Erfolg im Umgang mit einem Sprachsystem, egal ob mit oder ohne Verzierungen.

18.8.2017 um 22:14

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Möchtest Du per E-Mail benachrichtigt werden, wenn Dir hier jemand antwortet?