https://frosthead.com

Wie künstliche Intelligenz die Forschung im Archivmuseum revolutionieren könnte

Wenn Sie an künstliche Intelligenz denken, ist das Gebiet der Botanik in Ihrem Kopf wahrscheinlich nicht das oberste. Wenn Sie sich Einstellungen für modernste Computerforschung vorstellen, stehen jahrhundertealte Museen möglicherweise nicht ganz oben auf der Liste. Und doch zeigt ein gerade veröffentlichter Artikel im Biodiversity Data Journal, dass einige der aufregendsten und bedeutendsten Innovationen im Bereich des maschinellen Lernens an keinem anderen Ort als im National Herbarium des Nationalen Naturkundemuseums in Washington, DC, stattfinden

Das Papier, das demonstriert, dass digitale neuronale Netze in der Lage sind, zwei ähnliche Pflanzenfamilien mit einer Genauigkeit von weit über 90 Prozent zu unterscheiden, impliziert für Wissenschaftler und Akademiker alle möglichen Möglichkeiten, die ihnen das Wasser im Mund zusammenlaufen lassen. Die Studie stützt sich auf Software, die auf „Deep Learning“ -Algorithmen basiert, mit deren Hilfe Computerprogramme auf die gleiche Weise wie menschliche Experten Erfahrungen sammeln und ihr Spiel bei jedem Start verbessern können. Bald könnte diese Technologie vergleichende Analysen von Millionen verschiedener Exemplare aus allen Teilen der Welt ermöglichen - ein Vorschlag, der zuvor eine unhaltbare Menge menschlicher Arbeit erfordert hätte.

„Diese Forschungsrichtung ist vielversprechend“, sagt Stanford-Professor Mark Algee-Hewitt, eine herausragende Stimme in der Bewegung der Digital Humanities und stellvertretender Fakultätsleiter am Zentrum für Raum- und Textanalyse der Universität. "Mit diesen Methoden können wir eine Unmenge von Informationen darüber erhalten, was Sammlungen enthalten, und auf diese Weise werden diese Daten zugänglich."

Diese neuen Erkenntnisse bauen auf jahrelanger Arbeit an der Smithsonian Institution auf, um ihre Sammlungen systematisch für den Online-Zugang von Wissenschaft und Öffentlichkeit zu digitalisieren, und stellen eine bemerkenswerte interdisziplinäre Begegnung dar: Botaniker, Digitalisierungsexperten und Datenwissenschaftler waren alle daran beteiligt Ergebnisse ans Licht.

Die Geschichte beginnt im Oktober 2015, als die Installation eines Kamera- und Förderbandapparats unter dem Naturkundemuseum die Digitalisierung der botanischen Sammlung von Smithsonian erheblich vereinfachte. Anstatt jede gepresste Blume und jeden Grasklumpen in ihrem Depot manuell einscannen zu müssen, konnten die Arbeiter jetzt ganze Reihen von Proben in die Warteschlange stellen, den Riemen seine magische Wirkung entfalten lassen und sie am hinteren Ende abrufen und neu katalogisieren. Eine dreiköpfige Crew hat den Gürtel seit seinem Debüt überwacht und durchläuft jedes Jahr rund 750.000 Exemplare. In Kürze wird das Herbarium-Inventar von Smithsonian, das fünf Millionen Exemplare umfasst, vollständig online sein.

Jedes Exemplar ist mit einem gründlichen Ausweis versehen, der Informationen zur Herkunft sowie wichtige statistische Daten enthält. Der Inhalt dieser Karten wurde zusammen mit den Digitalbildern transkribiert und hochgeladen, so dass diejenigen, die zum Suchen neigen, einen umfassenden Überblick über jedes Objekt in der Sammlung erhalten.

Im digitalisierten botanischen Archiv von Smithsonian werden hochauflösende Bilder von Exemplaren mit Transkriptionen der auf ihnen angebrachten handlichen ID-Tags gepaart. Im digitalisierten botanischen Archiv von Smithsonian werden hochauflösende Bilder von Exemplaren mit Transkriptionen der auf ihnen angebrachten handlichen ID-Tags gepaart. (Nationales Museum für Naturkunde)

"Damit ist unsere Sammlung für jeden zugänglich, der über einen Computer und eine Internetverbindung verfügt", sagt Laurence Dorr, Vorsitzender der Botanik des Museums. "Damit können bestimmte Fragen hervorragend beantwortet werden." Dennoch stellte Dorr fest, dass er ein Gefühl des ungenutzten Potenzials nicht abschütteln konnte . Sicher, der Online-Community standen jetzt enorme Mengen an Probendaten zur Verfügung, aber die Analyse dieser Daten in ihrer Gesamtheit blieb phantastisch. Das Nachschlagen bestimmter Exemplare und kleiner Kategorien von Exemplaren war recht einfach, aber Dorr fragte sich, ob es eine Möglichkeit gab, die Daten zu nutzen, um Rückschlüsse auf Tausende von Exemplaren zu ziehen. "Was können Sie mit diesen Daten anfangen?", Erinnert er sich. Ein Mann namens Adam Metallo gab bald eine überzeugende Antwort.

Metallo, ein Mitarbeiter des Smithsonian Digitalization Program Office, hatte an einer Konferenz teilgenommen, auf der der Technologiekonzern NVIDIA - ein Liebling aller PC-Spieler - Grafikprozessoren oder GPUs der nächsten Generation vorstellte. Metallo war auf der Suche nach Möglichkeiten, die 3D-Rendering-Funktionen von Smithsonian zu verbessern, aber es war ein größtenteils nicht zusammenhängendes Nugget von Informationen, das seine Aufmerksamkeit auf sich zog und an ihm festhielt. Die GPUs von NVIDIA seien nicht nur für die Erstellung dynamischer High-Fidelity-3D-Grafiken geeignet, sondern auch für die Big-Data-Analyse. Insbesondere verbesserte GPUs waren genau das, was für eine intensive Erkennung digitaler Muster erforderlich war. So mancher Algorithmus für maschinelles Lernen wurde für die NVIDIA-Plattform optimiert.

Metallo war sofort fasziniert. Diese „Deep Learning“ -Technologie, die bereits in Nischenbereichen wie der Entwicklung selbstfahrender Autos und der medizinischen Radiologie eingesetzt wird, birgt ein großes Potenzial für die Welt der Museen. Metallo weist darauf hin, dass sie „den größten und ältesten Datensatz darstellt, auf den wir jetzt zugreifen können zu."

„Was bedeutet das für die großen Datensätze, die wir am Smithsonian durch Digitalisierung erstellen?“, Wollte Metallo wissen. Seine Frage spiegelte die von Laurence Dorr perfekt wider, und sobald die beiden verbunden waren, begannen die Funken zu fliegen. „Die Botanik-Sammlung war eine der größten Sammlungen, an denen wir zuletzt gearbeitet haben“, erinnert sich Metallo. Eine Zusammenarbeit bot sich an.

Während viele Formen des maschinellen Lernens es erfordern, dass Forscher wichtige mathematische Marker in den zu analysierenden Bildern markieren - ein mühsamer Prozess, der dem Festhalten an der Hand des Computers gleichkommt -, können sich moderne Deep-Learning-Algorithmen selbst beibringen, welche Marker bei der Arbeit gesucht und gespeichert werden müssen Zeit und die Tür zu größeren Anfragen öffnen. Trotzdem war es schwierig, ein Smithsonian-spezifisches Deep-Learning-Programm zu schreiben und es für diskrete botanische Forschungsfragen zu kalibrieren - Dorr und Metallo brauchten die Hilfe von Datenwissenschaftlern, um ihre Vision Wirklichkeit werden zu lassen.

Datenwissenschaftler stellen Trainingsmuster für das neuronale Netz zusammen, an die sich Paul Frandsen erinnert Datenwissenschaftler stellen Trainingsmuster für das neuronale Netz zusammen, an die sich Paul Frandsen als "kalter Januartag" erinnert. (Nationales Museum für Naturkunde)

Einer der Spezialisten, die sie an Bord brachten, war der Smithsonian-Wissenschaftler für Forschungsdaten, Paul Frandsen. Er erkannte sofort das Potenzial, ein NVIDIA-GPU-gestütztes neuronales Netzwerk zu schaffen, das sich auf die Botaniksammlung auswirkt. Für Frandsen symbolisierte dieses Projekt einen ersten Schritt auf einem wunderbaren und unerforschten Weg. Bald sagt er: „Wir werden beginnen, auf globaler Ebene nach morphologischen Mustern zu suchen, und wir werden in der Lage sein, diese wirklich großen Fragen zu beantworten, die traditionell Tausende oder Millionen von Arbeitsstunden gedauert hätten, um in der Literatur nachzuschlagen Dinge klassifizieren. Wir werden Algorithmen verwenden können, um diese Muster zu finden und mehr über die Welt zu erfahren. “

Die soeben veröffentlichten Ergebnisse sind ein eindrucksvoller Proof of Concept. Die Studie wurde von einem neunköpfigen Team unter der Leitung des Forschungsbotanikers Eric Schuettpelz und der Datenwissenschaftler Paul Frandsen und Rebecca Dikow erstellt und zielt darauf ab, zwei große Fragen zum maschinellen Lernen und zum Herbarium zu beantworten. Das erste ist, wie effektiv ein trainiertes neuronales Netzwerk sein kann, um mit Quecksilber gefärbte Proben von unbeschmutzten zu trennen. Das zweite, das Highlight der Arbeit, ist, wie effektiv ein solches Netzwerk bei der Unterscheidung von Mitgliedern zweier oberflächlich ähnlicher Pflanzenfamilien sein kann - nämlich der Farnverbündetenfamilien Lycopodiaceae und Selaginellaceae .

Der erste Versuch erforderte, dass das Team im Voraus Tausende von Proben selbst durchläuft und dabei definitiv feststellt, welche sichtbar mit Quecksilber kontaminiert sind (ein Überbleibsel veralteter botanischer Konservierungstechniken). Sie wollten sicher sein, dass sie mit hundertprozentiger Sicherheit wussten, welche befleckt waren und welche nicht - andernfalls wäre eine Beurteilung der Genauigkeit des Programms nicht möglich. Das Team hat fast 8.000 Bilder sauberer Proben und 8.000 weitere gefärbte Proben ausgewählt, mit denen der Computer trainiert und getestet werden kann. Als sie mit der Optimierung der neuronalen Netzwerkparameter fertig waren und die gesamte menschliche Unterstützung zurückzogen, kategorisierte der Algorithmus Proben, die er noch nie zuvor gesehen hatte, mit einer Genauigkeit von 90 Prozent. Wenn die zweideutigsten Exemplare, z. B. diejenigen, bei denen die Färbung minimal und / oder sehr schwach war, weggeworfen wurden, stieg diese Zahl auf 94 Prozent.

Dieses Ergebnis impliziert, dass Deep Learning-Software Botanikern und anderen Wissenschaftlern bald helfen könnte, keine Zeit mehr mit mühsamen Sortieraufgaben zu verschwenden. "Das Problem ist nicht, dass ein Mensch nicht feststellen kann, ob eine Probe mit Quecksilber befleckt ist oder nicht", stellt Metallo klar tun Sie dies aus Sicht der Zeitwirtschaft. Glücklicherweise könnte maschinelles Lernen eine erhebliche Zeitersparnis in höchstens einige Tage schneller automatisierter Analyse umwandeln.

Das Durchforsten einzelner Proben erfordert viel Energie und macht es schwierig, Schlussfolgerungen in großem Maßstab zu ziehen. Jetzt bietet die Big-Data-Analyse den Museen neue Möglichkeiten, sich ihren Sammlungen zu nähern. Das Durchforsten einzelner Proben erfordert viel Energie und macht es schwierig, Schlussfolgerungen in großem Maßstab zu ziehen. Jetzt bietet die Big-Data-Analyse den Museen neue Möglichkeiten, sich ihren Sammlungen zu nähern. (Arnold Arboretum)

Noch aufregender ist der Teil der Studie zur Speziesdiskriminierung. Die Forscher trainierten und testeten das neuronale Netzwerk mit rund 9.300 Keulenmoos- und 9.100 Stachelmoos-Proben. Wie beim Färbeexperiment wurden etwa 70 Prozent dieser Proben für die Erstkalibrierung, 20 Prozent für die Verfeinerung und die letzten 10 Prozent für die formelle Beurteilung der Genauigkeit verwendet. Nach der Optimierung des Codes lag die Erfolgsquote des Computers bei der Unterscheidung der beiden Familien bei 96 Prozent - und bei nahezu perfekten 99 Prozent, wenn die schwierigsten Beispiele weggelassen wurden.

Eines Tages, so spekuliert Frandsen, könnten solche Programme die vorläufige Kategorisierung von Exemplaren in Museen auf der ganzen Welt übernehmen. „Ich denke in keiner Weise, dass diese Algorithmen die Kuratoren ersetzen können“, merkt er an, „sondern ich denke, dass sie Kuratoren und an der Systematik Beteiligten helfen können, produktiver zu werden, sodass sie ihre Arbeit viel erledigen können schneller."

Der Erfolg des neuronalen Netzwerks in dieser Studie ebnet auch den Weg für die rasche Überprüfung wissenschaftlicher Hypothesen über umfangreiche Sammlungen hinweg. Dorr sieht in den Ergebnissen des Teams die Möglichkeit, umfangreiche morphologische Vergleiche von digitalisierten Proben durchzuführen - Vergleiche, die zu bedeutenden wissenschaftlichen Durchbrüchen führen könnten.

Dies soll nicht heißen, dass tiefes Lernen eine Silberkugel in der Forschung auf der ganzen Linie sein wird. Mark Algee-Hewitt von Stanford weist darauf hin, dass „es fast unmöglich ist, zu rekonstruieren, warum und wie ein neuronales Netzwerk seine Entscheidungen trifft“, wenn es einmal konditioniert wurde. Bestimmungen, die Computerprogrammen überlassen bleiben, sollten immer unkompliziert und überprüfbar sein, wenn sie als vertrauenswürdig eingestuft werden sollen.

"Offensichtlich", sagt Dorr, "wird ein autonomes Computerprogramm - zumindest in naher Zukunft - nicht auf genetische Beziehungen testen." „Aber wir können anfangen, die Verteilung von Merkmalen nach geografischen Regionen oder nach taxonomischen Einheiten zu lernen. Und das wird sehr mächtig. “

Diese Forschung ist vor allem ein Ausgangspunkt. Es ist jetzt klar, dass Deep-Learning-Technologie sowohl für Wissenschaftler und andere Akademiker auf der ganzen Welt als auch für die neugierige Öffentlichkeit, für die sie Wissen produzieren, vielversprechend ist. Was bleibt, ist strenge Nacharbeit.

"Dies ist ein kleiner Schritt", sagt Frandsen, "aber es ist ein Schritt, der uns wirklich sagt, dass diese Techniken auf digitalisierten Museumsexemplaren funktionieren können. Wir freuen uns darauf, in den nächsten Monaten weitere Projekte auf den Weg zu bringen, um die Grenzen noch ein bisschen mehr zu testen. “

Wie künstliche Intelligenz die Forschung im Archivmuseum revolutionieren könnte