Die Harry Potter-Serie hat die Welt an die Idee gewöhnt, Porträts mit sprechenden Gemälden und bewegten Fotografien zu leben. Aber letzte Woche, als ein von der KI erstelltes „lebendes Porträt“ von Leonardo da Vincis Mona Lisa im Internet auftauchte, erschraken viele Menschen, als das berühmte Porträt ihre Lippen bewegte und sich umsah.
Das animierte Porträt von Lisa Gherardini war eines von mehreren neuen „sprechenden Kopfmodellen“ - besser bekannt als „Deepfakes“ -, die von Forschern des Samsung AI Centers in Moskau und des Skolkovo Institute of Science and Technology erstellt wurden. Mit nur wenigen Referenzrahmen oder einem einzelnen Bild haben die Forscher auch Deepfakes von Prominenten wie Oprah erstellt, einzelne Schnappschüsse von Marilyn Monroe und Albert Einstein zum Leben erweckt und neue Ausdrucksformen für berühmte Bilder wie Vermeers Mädchen mit dem Perlenohrring geschaffen .
Die Forscher haben ihre Methode, die sie als "Lernen mit wenigen Schüssen" bezeichnen, auf YouTube und in einem Artikel veröffentlicht, der im Preprint-Repository arXiv.org noch nicht begutachtet wurde. Während die Details ziemlich technisch werden, berichtet Mindy Weisberger von LiveScience, dass sich zur Erstellung der lebenden Porträts eine Art künstliche Intelligenz, ein so genanntes Faltungs-Neuronales Netzwerk, durch Analyse von Referenzbildern selbst trainiert. Anschließend werden die Gesichtsbewegungen aus einer Reihe von Einzelbildern auf ein statisches Bild wie die Mona Lisa angewendet . Je mehr Winkel und Referenzbilder vorhanden sind, desto besser wird das lebende Porträt. Dem Papier zufolge könnte die KI mit nur 32 Referenzbildern einen „perfekten Realismus“ erzeugen (gemessen an der Fähigkeit des Menschen, zu erkennen, welche von drei Bildsätzen Deepfakes waren).
Die Mona Lisa ist natürlich nur ein Bild, daher sind die drei "lebenden Porträts" von Leonardos Meisterwerk etwas beunruhigend. Bei den kurzen Animationen beobachtete das neuronale Netzwerk drei verschiedene Trainingsvideos, und die drei Versionen von Mona Lisa, die auf diesen Bildern basieren, scheinen jeweils unterschiedliche Persönlichkeiten zu haben. Wenn Leonardo sein berühmtes Modell aus verschiedenen Blickwinkeln gemalt hätte, hätte das System ein noch realistischeres lebendes Porträt hervorbringen können.
Während die animierte Mona Lisa unterhält, hat das Aufkommen von Deepfakes Besorgnis ausgelöst, dass die computergenerierten Ähnlichkeiten dazu verwendet werden könnten, Menschen zu diffamieren, rassistische oder politische Spannungen zu schüren und das Vertrauen in Online-Medien weiter zu untergraben. „Wir untergraben unser Vertrauen in alle Videos, auch in die echten“, schreibt John Villasenor von der Brookings Institution. "Die Wahrheit selbst wird schwer fassbar, weil wir nicht mehr sicher sein können, was wirklich ist und was nicht."
Während KI verwendet wird, um Deepfakes zu erstellen, kann Villasenor zumindest vorerst auch Deepfakes identifizieren, indem nach Inkonsistenzen gesucht wird, die für das menschliche Auge nicht erkennbar sind.
Tim Hwang, Direktor der Harvard-MIT-Initiative für Ethik und Governance der KI, erklärt gegenüber Gregory Barber von Wired, dass wir noch nicht an dem Punkt angelangt sind, an dem schlechte Schauspieler ausgefeilte Deepfakes auf ihren persönlichen Laptops erstellen können. "Nichts deutet darauf hin, dass Sie dies nur für die Erzeugung von Deepfakes zu Hause verwenden", sagt er. "Nicht kurzfristig, mittelfristig oder sogar langfristig."
Das liegt daran, dass die Verwendung des neuen Systems von Samsung teuer ist und Fachwissen erfordert. Aber Barbers Artikel weist darauf hin, dass es nicht eines überaus raffinierten fotorealistischen Videos bedarf, das von einem neuronalen Netzwerk erstellt wurde, um die Leute zum Narren zu halten. Erst letzte Woche wurde ein manipuliertes Video in sozialen Netzwerken verbreitet, das verlangsamt wurde, um die US-Sprecherin Nancy Pelosi betrunken zu machen.
Letztendlich wird die Technologie jedoch so gut sein, dass schlechte Schauspieler Deepfakes produzieren können, die so überzeugend sind, dass sie nicht erkannt werden können. Wenn dieser Tag kommt, sagt Hwang zu Wired, müssen sich die Leute auf Fakten und kontextbezogene Hinweise verlassen, um herauszufinden, was wirklich und was falsch ist. Wenn zum Beispiel Mona Lisas schmales Lächeln zu einem zahnigen Grinsen wird und sie versucht, Ihnen Zahnpasta zum Aufhellen zu verkaufen, ist das mit Sicherheit eine echte Fälschung.