MIT MASCHINEN SPRECHEN INNOVATION | SMITHSONIAN - ARTIKEL, BLOGS, INNOVATIONEN, INNOVATION, WISSENSCHAFT, TECHNOLOGIE UND RAUMFAHRT

Spracherkennungssoftware, da stimmen die meisten von uns wahrscheinlich zu, ist eine ziemlich coole Sache. Aber die Gespräche mit Maschinen gehören dazu - sei es ein Smartphone, ein Fernsehbildschirm oder ein Armaturenbrett - und nicht so sehr. Fragen Sie nach einem Gerät? Stinkt nach Geek. Jedes Wort ausdrücken, damit Sie verstanden werden können? Wie cool kannst du wirklich sein?

Aber Apple hat, wie es sich gehört, diese Herausforderung angenommen und drei coole Ikonen für ihre neueste Werbekampagne für Siri, die Stimme des iPhone 4S, engagiert. Es gibt Zooey Deschanel (Adorable Cool) und John Malkovich (Cerebral Cool) und Samuel L. Jackson (Ultimate Cool), und alle machen das Spielen von Wörtern mit einem Telefon zum Sport der Götter.

Kritiker weisen jedoch darauf hin, dass Siri im wirklichen Leben weder so reaktionsschnell noch allwissend ist, wie sie in Werbespots dargestellt wird. Ich bin sicher, auch Sie sind schockiert, das zu hören. Andere sehen das Ganze als parodiereif an - sehen Sie, wie Zooeys Bruder Jooey eine Funny or Die-Version von Zooeys und Siris Regentag zusammen macht.

Ganz gleich. Siri ist zu einem Sänger im Roboterchor geworden, der „You Got Mail“ -Stimme einer neuen Generation.

In manchen Kreisen ist es modisch anzunehmen, dass Siri nicht Steve Jobs würdig ist, dass Jobs, wenn er noch am Leben wäre, es vom Markt genommen hätte oder zumindest niemals eine so hochkarätige Anzeige genehmigt hätte Kampagne für ein so fehlerhaftes Produkt.

Aber als Jobs Nachfolger, Tim Cook, sagte Anfang dieser Woche, iPhone 4S-Besitzer wie Siri. Laut einer im März veröffentlichten Umfrage geben fast 90 Prozent an, sie mindestens einmal im Monat zu verwenden. Und denken Sie daran, dass Siri, eines der wenigen Apple-Produkte, das zum Zeitpunkt der Veröffentlichung in der Beta-Version war, ihren ersten Geburtstag erst im Oktober feiert. Sie lernt immer noch Sprache und, was noch wichtiger ist, fängt gerade an, das Potenzial der künstlichen Intelligenz auszuschöpfen.

Siri wird wahrscheinlich das Herzstück von Apple TV sein, das voraussichtlich im Dezember sein Debüt geben wird. Aber die Chancen stehen gut, dass der Ort, an dem mit Maschinen gesprochen wird, in unseren Autos der Mainstream ist.

Fahren Sie, sagte sie

Klar, das passiert schon, aber du musst immer noch auf Robotersprechen umsteigen, wenn du verstanden werden willst. Und selbst dann gibt es keine Garantie. Das wird sich ab diesem Sommer ändern, wenn einige neue Modelle mit dem sogenannten Dragon Drive ausgestattet werden!

Es ist die Erfindung von Nuance Communications, einem in Massachusetts ansässigen Unternehmen, das zu einem Kraftpaket im Spracherkennungsgeschäft geworden ist. (Es wird allgemein angenommen, dass das Gehirn hinter Siri steckt.) Nuancen und Spracherkennung in Autos haben letzte Woche einen großen Sprung nach vorne gemacht, als die Firma bekannt gab, dass Dragon Drive! wird in der Lage sein, in die Cloud zu tippen.

Dies bedeutet, dass das System seine Rechenleistung und Speicherkapazität dramatisch ansteigen lässt. Und das bedeutet, dass die Stimme in Ihrem Dashboard mehr Siri-Charakter hat und es Ihnen ermöglicht, sich tatsächlich damit zu unterhalten. Kein einsilbiges Geschrei mehr. Der Tag kommt, an dem Sie beiläufig erwähnen können, dass Sie sich wie einige Allman Brothers fühlen, und Sekunden später wird „Whipping Post“ durch die Lautsprecher gepumpt.

Der Schlüssel ist, wie gut wir Maschinenkontext und Pragmatik unterrichten können - wie Sprache in sozialen Situationen verwendet wird. Und das ist eine knifflige Angelegenheit. Für den Anfang muss sogar das raffinierteste Spracherkennungsgerät warten, bis ein Mensch das Sprechen beendet hat, damit es den gesamten Satz analysieren und interpretieren kann. Dann gibt es die "Theorie des Geistes", die Fähigkeit zu verstehen, dass andere Menschen andere Überzeugungen und Absichten haben können als wir. Soweit wir wissen, können dies nur Menschen.

Eine kürzlich von zwei Stanford-Psychologen durchgeführte Studie kann Ihnen einen Eindruck davon vermitteln, wie Maschinen intuitiv zu bedienen sind. Die Forscher Michael Frank und Noah Goodman erstellten ein Online-Experiment, bei dem die Teilnehmer aufgefordert wurden, sich eine Reihe von Objekten anzusehen und dann auszuwählen, welches ein bestimmtes Wort war. Zum Beispiel sah eine Gruppe von Teilnehmern ein blaues Quadrat, einen blauen Kreis und ein rotes Quadrat. Die Frage für diese Gruppe lautete: Stellen Sie sich vor, Sie sprechen mit jemandem und möchten sich auf das mittlere Objekt beziehen. Welches Wort würden Sie verwenden, "blau" oder "Kreis"?

Die andere Gruppe wurde gefragt: Stellen Sie sich vor, jemand spricht mit Ihnen und verwendet das Wort „blau“, um sich auf eines dieser Objekte zu beziehen. Über welches Objekt sprechen sie?

Die Antworten halfen den Forschern, ein klareres Bild davon zu bekommen, wie ein Zuhörer einen Sprecher versteht und wie ein Sprecher entscheidet, was er sagen soll. Daraus entwickelten sie ein mathematisches Modell, mit dem der Denkprozess eines Computers erweitert und verfeinert werden kann.

Frank sagte: "Es wird Jahre dauern, aber der Traum ist ein Computer, der wirklich darüber nachdenkt, was Sie wollen und was Sie meinen und nicht nur, was Sie gesagt haben."

Eine Redeweise

Hier sind einige neuere Entwicklungen in der Spracherkennung:

Siri schweigt: IBM ist sehr nervös, wenn es darum geht, dass Unternehmensgeheimnisse nicht herauskommen, und untersagt seinen Mitarbeitern daher die Verwendung öffentlicher Dateiübertragungssites wie Dropbox. Es ist jedoch auch die Verwendung von Siri im Büro untersagt, da Sicherheitsmitarbeiter befürchten, dass jemand beim Telefonieren vertrauliche Informationen preisgibt, die auf Apples Servern landen.
Nehmen wir an, Apple !: Samsung hat diese Woche in London sein neues Galaxy X III-Smartphone vorgestellt. Der große Touchscreen erhält zwar viel Aufmerksamkeit, verfügt aber auch über eine neue Sprach- und Gesichtserkennungssoftware.
Tu was ich sage, nicht was ich tue: Und Samsung hört dort nicht auf. Es hat kürzlich eine Patentanmeldung für einen Roboter eingereicht, der menschliche Sprache versteht. Der Roboter wäre in der Lage, seine „Abhörfähigkeiten“ anzupassen, um Umgebungsgeräusche zu berücksichtigen, die die ihm erteilten Befehle unterbrechen oder stören könnten. Es könnte auch erkennen, wer mit ihm spricht, selbst wenn das Hintergrundgeräusch sehr laut ist.

Infografik-Bonus: Sie glauben, Ihr Auto ist jetzt computerisiert. Warten Sie, bis das Gerät vollständig mit dem Internet verbunden ist. Erfahren Sie, was ein vernetztes Auto leisten kann.