https://frosthead.com

Software schafft ein Bild, das alles sagt

Täglich laden Benutzer mehr als 350 Millionen Fotos auf Facebook hoch. Dieser Zufluss von Bildern hat Analysten veranlasst, zu schätzen, dass 10 Prozent der weltweit 3, 5 Billionen Fotos im letzten Jahr aufgenommen wurden. All diese Daten, die das Web überfluten, bedeuten, dass Sie positiv mit Suchergebnissen überflutet werden, wenn Sie nach einem bestimmten Bild oder Objekt suchen - wie sieht beispielsweise eine orangefarbene Tabby-Katze aus.

Im vergangenen Monat stellten Forscher der University of California, Berkeley, die neue Software AverageExplorer vor, mit der Benutzer das "durchschnittliche" Bild sehen können, das das darstellt, wonach sie suchen. Anstatt eines Bildes, das mehr als tausend Worte sagt, ist es ein Bild, das mehr als tausend Bilder wert ist.

"Wenn Sie eine Google-Bildsuche starten, werden Sie Seiten und Seiten mit Bildern durchsuchen", erklärt Jun-Yan Zhu, Doktorand und Hauptautor des Papiers von UC Berkeley, der auf der diesjährigen Internationalen Konferenz und Ausstellung für Computergrafik vorgestellt wurde und interaktive Techniken in Vancouver. „Es ist riesig und schwer zusammenzufassen. Sie können nicht verstehen, was passiert. “

Für das Erstangebot sammelten Zhu und sein Team Fotos über Flickr-, Google- und Bing-Bildersuchen. Die Software ist stromsparend genug, um auf einem durchschnittlichen Desktop ausgeführt zu werden, und kann etwa 10.000 Bilder gleichzeitig verarbeiten.

Benutzer verfeinern ihre Suche auf verschiedene Arten. Sie können eine Form ähnlich wie in Adobe Photoshop oder Illustrator skizzieren und einfärben, um das Durchschnittsbild zu schärfen. Wenn Sie beispielsweise den Hintergrund eines Durchschnittsbildes des Eiffelturms einfärben, wird das Durchschnittsbild automatisch ausgewählt, um nur Nachtaufnahmen zu erhalten. Sie können auch abgewinkelte Linien zeichnen, um die Ausrichtung eines Schmetterlings im Verbund zu steuern.

Seufzerbrücke, von Tag zu Nacht Indem Sie die Farben in einem AverageExplorer-Bild der Seufzerbrücke verfeinern, können Sie die Szene von Tag zu Abend bis zur Nacht ändern. (Mit freundlicher Genehmigung von UC Berkeley)

Sobald ein durchschnittliches Bild erstellt wurde, was bis zu einer Minute dauern kann, können Benutzer das Ergebnis mithilfe des vom Team als Explorer-Modus bezeichneten Modus weiter verfeinern. Wenn Sie in diesem Modus auf einen bestimmten Teil eines Bildes klicken, beispielsweise auf die Nase einer Katze, werden andere häufig verwendete Optionen oder Verfeinerungen für diesen Punkt angezeigt, z. B. blaue oder schwarze Nasen oder abgerundete statt eckiger Nasen. In einem Demo-Video hat das Team beispielsweise ein Bild von Kindern auf dem Schoß des Weihnachtsmanns verfeinert, indem nur Bilder ausgewählt wurden, auf denen der Weihnachtsmann ein Kind auf jedem Arm hat.

Wo das System besonders leistungsfähig sein wird, ist laut Zhu ein Werkzeug zum Trainieren von Computer-Vision-Algorithmen, wie sie von Google Goggles oder Amazon Firefly-Apps verwendet werden, mit denen sich identifizieren lässt, auf was eine Kamera zeigt. „Im Bereich Computer Vision geben die Leute viel Geld aus, um Objekte mit Anmerkungen zu versehen“, erklärt er. „Jetzt können Sie die Anmerkung auf das durchschnittliche Bild anwenden. Die Idee ist, dass Sie nur an einem Bild arbeiten müssen, um alle Bilder in einem Datensatz zu verbreiten. “

Katzenrassen finden Durch die Verfeinerung der Modi eines Suchergebnisses können Forscher bestimmte Rassen von Katzen finden, darunter (von links nach rechts) Ragdoll, Siamese, Maine Coon und Sphinx. (Mit freundlicher Genehmigung von UC Berkeley)

Das Erstellen von Kunstwerken ist die niedrig hängende Frucht für AverageExplorer. Das Team ließ sich von New-Media-Künstlern wie Jason Salavon inspirieren, der sorgfältig gemittelte Fotos von Hand erstellt hat. Es könnte auch verwendet werden, um ein Facebook-Plug-In zu erstellen, mit dem Benutzer das durchschnittliche Bild von sich selbst basteln können.

Die Bestrebungen der Forscher sind noch umfassender und wirkungsvoller. Soziologen könnten das System nutzen, um soziale Trends zu erkennen und zu erforschen. Ein gemitteltes Bild könnte beispielsweise beweisen, dass Bräute in Hochzeitsporträts am häufigsten rechts vom Bräutigam stehen. AverageExplorer ist möglicherweise auch ein nützliches Tool für Medienanalysten, die versuchen, die Berichterstattung über das Fernsehen zu analysieren. Ändert sich Stephen Colberts Haltung, wenn er über George W. Bush im Vergleich zu Barack Obama spricht?

Indem Benutzer intuitiv mit visuellen Daten interagieren können, anstatt sich um die Eingabe der richtigen Schlüsselwörter zu bemühen, können sie überbrücken, was Zhus Berater und Co-Schöpfer von AverageExplorer, Alexei Efros, als "Sprachengpass" bezeichnet.

Das Team stellt sich eine Reihe von benutzerdefinierten Tools vor, die für bestimmte, schwer zu formulierende Aufgaben entwickelt wurden. Eine Einkaufsanwendung zum Beispiel würde es einem Benutzer ermöglichen, das Web nach einem Paar Absätzen mit der exakten Farbe, Absatzform und -höhe zu durchsuchen, die er sucht. Zhu stellt sich ein Tool vor, das sich in den Arbeitsablauf von Polizisten einfügt und es einem Zeugen ermöglicht, in Gesichtsdatenbanken nach Merkmalen zu suchen, die mit denen des Täters übereinstimmen, und ein zusammengesetztes Porträt zu erstellen.

Eine Basisversion von AverageExplorer wird diesen Herbst veröffentlicht.

Software schafft ein Bild, das alles sagt