https://frosthead.com

Der Turing-Test misst etwas, aber es ist keine „Intelligenz“

Alan Turing, einer der Väter des Computerzeitalters, war ein außerordentlich kluger Mann. In der Tat so schlau, dass er verstand, dass der Begriff „Maschinenintelligenz“ so gut wie bedeutungslos war. Besser, überlegte er, was eine Maschine tatsächlich kann: Kann sie sprechen? Kann es ein Gespräch halten? Zumindest können wir versuchen, das zu studieren. Turing schlug schließlich vor, was als "Turing-Test" bekannt wurde: Wenn ein Richter nicht erkennen kann, welche der beiden verborgenen Wesenheiten ein Mensch und welche eine künstliche ist, hat die Maschine den Test "bestanden" - und genau das ist es soll am vergangenen Samstag in London passiert sein.

Verwandte Inhalte

  • Das Silicon Valley verdankt seinen Erfolg diesem technischen Genie, von dem Sie noch nie gehört haben
  • Alan Turings 60 Jahre alte Vorhersage über Muster in der Natur als wahr erwiesen

"Wir sind stolz zu erklären, dass Alan Turings Test zum ersten Mal bestanden wurde", sagte einer der Organisatoren, Kevin Warwick von der University of Reading, als die Ergebnisse bekannt gegeben wurden. Der siegreiche Chatbot heißt "Eugene Goostman", ein Computerprogramm, das die Persönlichkeit eines 13-jährigen ukrainischen Jungen nachahmt. "Eugene" hat es geschafft, 33 Prozent der Richter bei der Veranstaltung am Samstag, die am 60. Todestag von Turing in den Büros der Royal Society in London stattfand, davon zu überzeugen, dass es sich um einen Menschen handelte. (Turing, ein Homosexueller, wurde 1952 wegen grober Unanständigkeit verurteilt und im Rahmen eines Plädoyers einer hormonellen „Behandlung“ unterzogen. Zwei Jahre später starb er an einer Zyanidvergiftung bei einem offensichtlichen Selbstmord.)

Aber Vorsicht ist angebracht. „Intelligenz“ war schon immer ein heikles Thema, und insbesondere der Turing-Test war lange Zeit umstritten. Turing beschrieb, wie es funktionieren würde, in einer Arbeit von 1950 mit dem Titel "Computing machinery and intelligence". Er übernahm die Idee aus einem traditionellen viktorianischen Gesellschaftsspiel, in dem man herauszufinden versucht, ob die Person, die sich hinter einem Vorhang verbirgt, ein Mann oder eine Frau ist indem Sie Fragen stellen. (Die Antworten auf die Fragen mussten aufgeschrieben werden, da die Stimme ein Werbegeschenk wäre.) So würde Turings Version funktionieren: Man hätte einen Richter, der vor zwei Vorhängen sitzt und nicht weiß, was sich dahinter verbirgt . Hinter einem Vorhang steht ein Mensch; hinter dem anderen ist ein Computer. Der Richter kann eine der beiden verborgenen Einheiten befragen. Anhand der Antworten versucht der Richter herauszufinden, ob die verborgene Entität ein Mensch oder eine Maschine ist. (Turing stellte sich vor, dass die Konversation von Fernschreibmaschinen vermittelt wird. Heute können wir jede Art von elektronischer, textbasierter Schnittstelle verwenden, wie sie in Internet-Chatrooms oder Instant Messaging verwendet wird.)

Turing spekulierte, dass "ein durchschnittlicher Vernehmer bis zum Jahr 2000 nicht mehr als 70 Prozent der Chancen haben wird, die richtige Identifikation zu finden" - das heißt, Computerprogramme würden die Richter 30 Prozent der Zeit behindern - nach fünf Minuten Befragung. Die "fünf Minuten" sind wichtig. Turing sprach nicht davon, dass ein Zeitlimit ein fester Bestandteil des Tests sei, und man könnte argumentieren, dass eine Maschine, um den Test wirklich zu bestehen, in der Lage sein sollte, jede Menge Fragen zu beantworten. Vermutlich war das Fünf-Minuten-Kriterium eine willkürliche, aber notwendige Grenze. Das Jahr 2000 kam und ging, und Chatbots machten nur schleppende Fortschritte. (In einem nüchterneren Moment antwortete Turing auf eine Frage eines BBC-Interviewers aus dem Jahr 1952, dass es 100 Jahre dauern würde, bis eine Maschine den Test besteht.)

Im Jahr 2012 war ich Richter bei einem „Turing-Testmarathon“, dem bislang größten Satz von Turing-Tests, die gleichzeitig durchgeführt wurden. Es fand im Bletchley Park in England statt, dem Ort, an dem Turing in den letzten Jahren des Zweiten Weltkriegs wichtige Code-Breaking-Arbeiten durchgeführt hatte. (Es wurde von demselben Team organisiert, das die Veranstaltung am Samstag geleitet hat, und eine frühere Version von Eugene war auch diesmal der Gewinner.) Die Vorbereitung für die Veranstaltung am Samstag war dieselbe wie im Jahr 2012: Die Richter tippten ihre Fragen an einem Computer und warteten, bis die Antworten auf ihren Bildschirmen angezeigt wurden. Die Chatbots befanden sich zusammen mit den „versteckten Menschen“ in einem anderen Raum und waren nicht zu sehen.

Das erste, was mir überbewusst wurde, war, dass, wenn Sie ein Richter in einem Turing-Test sind, fünf Minuten ziemlich schnell vergehen. Und je kürzer die Konversation ist, desto größer ist der Vorteil des Computers. Je länger die Abfrage dauert, desto höher ist die Wahrscheinlichkeit, dass sich der Computer selbst verrät. Ich nenne das gerne den Mannequin-Effekt: Haben Sie sich schon einmal bei einem Kaufhaus-Mannequin entschuldigt, wenn Sie gerade auf einen lebenden Menschen gestoßen sind? Wenn die Begegnung nur einen Bruchteil einer Sekunde dauert und Sie in die andere Richtung blicken, können Sie sich vorstellen, dass Sie sich nur gegen einen Menschen gewandt haben. Je länger die Begegnung dauert, desto offensichtlicher wird das Mannequin.

Das Gleiche gilt für Chatbots. Ein Austausch von Höllen offenbart nichts - aber je weiter man sich damit beschäftigt, desto mehr Probleme treten auf. Ich fand heraus, dass Chatbots dazu neigen, das Thema ohne Grund zu wechseln. Oft können sie einfache Fragen nicht beantworten. Bei der Gefahr, vage zu klingen, klingen sie einfach nicht menschlich . In einem meiner Gespräche im Jahr 2012 habe ich einen einfachen Witz geschrieben - und die Entität, mit der ich mich unterhielt, wechselte sofort das Thema zu Hamburgern. (Der Informatiker Scott Aaronson hatte kürzlich eine ähnliche Erfahrung, als er über die Website des Bots mit Eugene chattete. Aaronson fragte Eugene, wie viele Beine ein Kamel habe. Er antwortete: "Etwas zwischen 2 und 4. Vielleicht drei? :-))" Als Aaronson später fragte, wie viele Beine eine Ameise habe, hustete Eugene genau die gleiche Antwort, Dreifach-Smiley und so weiter.)

Beachten Sie auch, dass Eugene keinen englischsprachigen Erwachsenen emuliert. es gibt vor, ein junger und etwas flippiger ukrainischer Teenager zu sein, der sich in einigermaßen gutem (aber bei weitem nicht perfektem) Englisch unterhält. Vladimir Veselov, einer der Entwickler des Programms, sagte gegenüber Mashable.com : „Wir haben viel Zeit damit verbracht, einen Charakter mit einer glaubwürdigen Persönlichkeit zu entwickeln.“ Obwohl Eugene jeden in irgendeiner Weise einbeziehen wird, macht sein Alter „es absolut vernünftig, dass er es nicht tut Ich weiß nicht alles. “Eugene kommt nicht gleich heraus und gibt sein Alter und seine Nationalität bekannt. Aber er wird es offenbaren, wenn er gefragt wird - und das Endergebnis kann eine gewisse Nachsicht der Richter sein, insbesondere in Bezug auf die englische Grammatik und den Gebrauch von Wörtern. (Ich gehe davon aus, dass die meisten Richter am Samstag englische Muttersprachler waren, obwohl ich das nicht sicher weiß.) Es wäre wahrscheinlich anders gekommen, wenn Eugene jemals einem ukrainischen Muttersprachler als Richter begegnet wäre.

Der Kampf, eine Sprechmaschine zu bauen, zeigt, wie komplex Sprache ist. Es ist nicht nur eine Frage des Sprechens - man muss über etwas reden und was man sagt, muss einen Sinn ergeben - und es muss einen Sinn im Kontext dessen ergeben, was die andere Person gerade gesagt hat. Für uns ist es einfach; für Computer nicht so sehr. Chatbots sind daher auf eine Reihe von Tricks angewiesen: Sie können sich Megabytes an Antworten merken oder im Internet nach Dialogen suchen, die in etwa der Konversation entsprechen, in der sie sich gerade befinden. Mit anderen Worten, was einer Maschine an Intelligenz fehlt, kann sie möglicherweise an roher Rechenleistung ausgleichen. Dies ist der Grund, warum Google oder Siri (der persönliche Assistent des iPhones) für uns so klug erscheinen können: Siri hat zwar keinen „Verstand“, aber Zugriff auf eine so umfangreiche Datenbank mit Informationen, dass es sich so verhalten kann, als ob es dies tut. Es war die gleiche Art von Brute-Force-Ansatz, die es IBMs „Watson“ ermöglichte, bei Jeopardy zu gewinnen ! in 2011.

All dies wirft eine entscheidende Frage auf: Was genau misst der Turing-Test? Einige Kritiker haben vorgeschlagen, dass dies eher eine Belohnung für Tricks als für Intelligenz ist. Gary Marcus, ein Psychologe der New Yorker Universität, schreibt bei NewYorker.com, dass es Eugene gelingt, "eine Reihe von Tricks auszuführen", um die Grenzen des Programms zu überdecken. Steven Harnad, Psychologe und Informatiker an der Universität von Quebec in Montreal, war noch mehr skeptisch und sagte The Guardian, es sei "völliger Unsinn", zu behaupten, Eugene habe den Turing-Test bestanden. (Zu seiner Ehre war sich Turing dieses Problems bewusst. Er nannte seine Idee „das Nachahmungsspiel“ und sprach nur sparsam von Intelligenz.) Noch seltsamer ist es, dass der Computer im Gegensatz zum Menschen gezwungen ist, zu täuschen. „Der Turing-Test ist wirklich ein Test, um ein erfolgreicher Lügner zu sein“, sagte mir Pat Hayes, Informatiker am Institut für menschliche und maschinelle Kognition in Pensacola, Florida, nach dem Turing-Testmarathon 2012. "Wenn du etwas hättest, das Turings Imitationsspiel wirklich bestehen könnte, wäre es eine sehr erfolgreiche 'menschliche Nachahmung'."

Und „menschlich“ ist der andere entscheidende Punkt: Ist es nicht möglich, dass es andere Arten von Intelligenz auf der Welt gibt, die über die Art unserer Spezies hinausgehen? Eine wirklich intelligente Maschine hätte unzählige praktische Anwendungen, aber warum sollte man sich darauf konzentrieren, mehr „Menschen“ zu schaffen? Immerhin haben wir schon viele Leute. Wie der Linguist Noam Chomsky betont hat, müssen wir beim Bau einer Maschine, die sich unter Wasser bewegt, nicht „schwimmen“ - und ein U-Boot ist nicht weniger ein Erfolg, da es nicht in der Lage ist, den Rücken zu streicheln.

Ja, Eugene ist beeindruckend, zumindest in kleinen Schüben. Und doch stolpern selbst die besten Chatbots über Fragen, mit denen ein Kind, das halb so alt ist wie Eugene, problemlos fertig werden kann. Vielleicht nicht überraschend, verbringen die meisten KI-Forscher wenig Zeit damit, den Turing-Test zu untersuchen. Die maschinelle Intelligenz schreitet tatsächlich voran und zwar ziemlich schnell. Software für die Übersetzung von Sprache in Text, die noch vor wenigen Jahren ziemlich erbärmlich war, und Sprachübersetzungsprogramme verbessern sich rasant. Amazon hat oft eine ziemlich gute Vorstellung davon, was Sie kaufen möchten, noch bevor Sie dies tun. Und Googles selbstfahrendes Auto wäre vor einem Jahrzehnt nur Fantasie gewesen. Aber Gespräche, die wir immer wieder neu entdecken, sind wirklich schwierig, und es ist unwahrscheinlich, dass sie die Grenze bilden, an der die KI am hellsten leuchtet. Für den Moment, wenn Sie jemanden zum Chatten suchen, empfehle ich einen echten Menschen.

Dan Falk ist Wissenschaftsjournalist und lebt in Toronto.

Der Turing-Test misst etwas, aber es ist keine „Intelligenz“