Assistenten und Alleskönner: Sprachsteuerung für den PC

Die Sprachassistentin und Alltagshelferin Cortana ist seit Windows 10 beim Microsoft-Betriebssystem an Bord. Foto: Andrea Warnecke
Die Sprachassistentin und Alltagshelferin Cortana ist seit Windows 10 beim Microsoft-Betriebssystem an Bord. Foto: Andrea Warnecke

«Richte mir bitte einen Termin ein.» Oder: «Erinnere mich daran, heute Abend Oma anzurufen.» Und: «Brauche ich morgen einen Regenschirm?» Solche Fragen und Befehle kann man nicht nur an sein Smartphone richten. Auch Windows hat seit Version 10 die Sprachassistentin und Alltagshelferin Cortana an Bord. Sie ist benannt nach einer Künstlichen Intelligenz aus Microsofts Spieleserie «Halo». Da steuert Cortana sogar Raumschiffe. Die kleine Windows-Schwester ist nicht ganz so mächtig. Ihr Funktionsumfang entspricht eher dem der Apple-Konkurrentin: «Im Grunde ist Cortana ein Assistent wie Siri.

Ich kann also Fragen oder einfache Aufgaben stellen», sagt Jo Bager vom «c't»-Fachmagazin. Das funktioniere im Grunde auch gut - mit einer Einschränkung: »Der Nutzen hängt immer davon ab, wie sehr ich mich auf die Welt eines Herstellers einlasse.»

 

Wer an seinem Windows-10-PC konsequent auf das Microsoft-Ökosystem setzt, also etwa E-Mails und Termine in den mitgelieferten Apps verwaltet, kann Cortana tatsächlich viele Alltagsaufgaben überlassen. Am Mac geht das noch nicht. Gut möglich allerdings, dass Siri demnächst den Sprung von mobilen Geräten auf den Computer schafft. Selbst für Linux gibt es mit Sirius einen Open-Source-Assistenten, der aber in Sachen Funktionsumfang noch ganz am Anfang steht.

 

Die Arbeit am PC beschleunigen die Assistenten aber nicht unbedingt. «Sprachsteuerung ist dann besonders attraktiv, wenn Augen und Hände beschäftigt sind, also zum Beispiel im Auto oder am Handy», sagt Alexander Waibel, Professor für Informatik am Karlsruhe Institute of Technology (KIT). «Am klassischen PC ist der Nutzen solcher Systeme eingeschränkt, die Leute sitzen ja in der Regel direkt davor.»

 

Interessanter werden solche Assistenten erst, wenn das nicht mehr der Fall ist, sagt der Informatiker - etwa wenn der PC zur Steuerzentrale für die ganze Wohnung wird und dann auf Kommando nach der Lieblingsserie sucht. «Mit Lösungen wie Amazon Echo gibt es das ja jetzt schon», sagt Waibel. «Gut möglich, dass sich die Definition des PC in den kommenden Jahren generell in diese Richtung verschiebt.»

 

Bis es so weit ist, gibt es aber noch einige Hürden zu überwinden. Vielleicht die größte davon ist eine Art Sprachbarriere zwischen Assistenten und Nutzer. «Eindeutige und einfach zu interpretierende Befehle zu geben, ist für Menschen fast unmöglich», sagt Waibel. «Selbst einfachste Kommandos sind sprachlich sehr komplex.»

 

Zur Lösung dieses Problems setzen Assistenten wie Siri und Cortana auf Lernalgorithmen: Jeder Befehl aller Nutzer der ganzen Welt landet im Speicher der Systeme. Mit der Zeit entsteht so eine Datenbank aus Erfahrungswerten, aus denen die Programme lernen können. «Je mehr wir solche Assistenten nutzen, desto besser werden sie», erklärt Waibel.

 

Doch am PC gibt es noch andere Möglichkeiten der Sprachsteuerung. Wer will, kann seinem Computer etwa schon seit Jahren Texte diktieren. Diese Funktion ist bei aktuelleren Versionen von Windows und OS X integriert, alternativ gibt es Programme wie Dragon Naturally Speaking oder Voice Pro. Die kosten zwar, können aber auch mehr.

 

Ob das Diktieren besser klappt als klassisches Tippen, ist Geschmacks- und Übungssache. «Klar und eindeutig zu diktieren, ohne sich zu versprechen, ist gar nicht so einfach», warnt Waibel. Tippen sei dagegen schneller, fehlerfreier und geräuscharmer - wichtig fürs Großraumbüro. «Beim Tippen können Sie außerdem ins Unreine schreiben und später editieren, das geht beim Diktieren nicht so leicht.»

 

Einige sind aber auch auf solche Systeme angewiesen. «Spracherkennung ist für alle Menschen mit irgendeiner Form der motorischen Einschränkung enorm wichtig», sagt Christian Hille vom Berliner Verein Zugangswerk, der barrierefreie Technologien fördert. «Menschen mit Sehbehinderung benutzen die Systeme aber zum Beispiel auch, einfach weil sie damit deutlich schneller schreiben können.»

 

Gute Spracherkennungssoftware steuert zudem alles vom Browser bis zur Systemsteuerung. «Wer damit umgehen kann, formatiert damit sogar Texte oder baut Tabellen», so Hille. Möglich machten dies Bordmittel der Betriebssysteme ebenso wie Kaufprogramme. Letztere lieferten aber deutlich bessere Ergebnisse: «Die sind einfach anpassungsfähiger und bieten gerade für erfahrene Nutzer viel mehr Möglichkeiten.»

 

Die Programme brauchen aber Gewöhnungszeit: Sie funktionieren erst richtig gut, wenn sie die Stimme ihres Besitzers kennen, sagt Jo Bager. Auch der Ton zählt: «Mit einem einfachen Mikrofon im Notebook klappt das nicht so gut, mit einem Headset aber deutlich besser.» (DPA/TMN)