https://frosthead.com

Big Data wird immer größer, als IBMs Watson die Enzyklopädie des Lebens erreicht

Nach 2000 Jahren steht die ultimative Enzyklopädie des Lebens am Beginn einer neuen datengetriebenen Ära. Ein Stipendium der National Science Foundation wurde an The Encyclopedia of Life (EOL), IBM und das Georgia Institute of Technology vergeben. Der Zuschuss wird es ermöglichen, riesige Datenmengen so zu verarbeiten und zu indexieren, dass bahnbrechende wissenschaftliche Erkenntnisse gewonnen werden können.

Verwandte Inhalte

  • Vorgeschlagenes neues Meeresschutzgebiet bietet rosige Aussichten für Hummer und Hummerfischer

Im Jahr 77 begann Plinius der Ältere, die erste Enzyklopädie der Welt, die Naturgeschichte, zu schreiben . Es umfasste alles von Astronomie über Botanik, Zoologie bis hin zu Anthropologie und mehr. Plinius versuchte, alles, was er persönlich über die natürliche Welt sammeln konnte, in einem einzigen schriftlichen Werk zusammenzufassen. In den letzten 2000 Jahren verfolgte eine lange Reihe von Wissenschaftlern, die von Plinius inspiriert waren, dieselbe Vision.

Pliny umfasste 20.000 Themen in 36 Bänden, stieß jedoch an die Grenzen dessen, was eine einzelne Person innerhalb einer menschlichen Lebensspanne entdecken, aufzeichnen und verarbeiten kann. Er starb während des Ausbruchs des Vesuvs, bevor er eine endgültige Bearbeitung seines Magnum-Opus beenden konnte. Selbst zu seiner Zeit war es nicht möglich, dass eine Person alle Bücher las, alle Dinge lernte und der Welt alles erklärte.

Wie spätere Wissenschaftler, Herausgeber und Bibliothekare in einer Welt entdeckten, die mit jedem Jahr mehr schriftliches Wissen hinzufügt, ist es eine Herausforderung, alle relevanten Informationen zur Verfügung zu stellen, selbst wenn Sie alle Bücher und Forschungsergebnisse der Welt in einem Gebäude speichern könnten Forscher während der Grenzen ihres kurzen menschlichen Lebens.

EOL ist möglicherweise in der Lage, dies zu ändern, indem modernste Rechenleistung auf unterschiedliche Sammlungen biologischer Daten angewendet wird. Das Projekt ist eine kostenlose und offene digitale Sammlung von Fakten, Artikeln und Multimedia-Inhalten zur biologischen Vielfalt, eine der größten der Welt. EOL hat seinen Hauptsitz in der Smithsonian Institution und ist mit seinen 357 Partnern und Inhaltsanbietern, darunter die Harvard University und die New Library of Alexandria in Ägypten, von 30.000 Seiten im Jahr 2008 auf über 2 Millionen mit 1, 3 Millionen Seiten Text und Karten gewachsen, Video, Audio und Fotos und unterstützt 20 Sprachen.

„Ich bin 2010 aus der Software-Branche zu Smithsonian gekommen“, sagt EOL-Direktor Bob Corrigan. „Eine der Entdeckungen, die ich hier gemacht habe, ist, dass die IT zwar überall ist, aber nicht so in die Museumswelt eingedrungen ist, wie sie in die Geschäftswelt eingedrungen ist. Vor allem in der Biologie wurden die wichtigsten Daten in Lehrbüchern und Tabellen vergraben. “

Wie können biologische Daten in verschiedenen Formen kombiniert und für neue Einblicke in das Leben auf der Erde gewonnen werden? Was wäre, wenn Daten zur Artenvielfalt von Schmetterlingen in Afrika über ein Jahrzehnt mit Daten zu Anbaumethoden und Niederschlägen kombiniert würden? Könnte etwas Neues gelernt werden? Es braucht etwas Größeres als ein menschliches Gehirn, um dies zu tun. So etwas wie der Watson-Supercomputer von IBM.

„IBM leistet einen Beitrag zum Aufwand und zum Zugriff auf eine Version [von Watson], die nicht öffentlich verfügbar ist“, sagt Jennifer Hammock, Programmdirektorin bei EOL. „Sie werden auch Leute haben, die daran arbeiten. IBM leistet dies als Sachleistung. “

Watson ist ein Supercomputer, der nicht nur Zahlen in großen Mengen verarbeitet. Mithilfe künstlicher Intelligenz können Benutzer Fragen im Klartext stellen.

"Ich würde aus Benutzersicht sagen, es bedeutet, dass die Datenbank etwas ist, auf das Sie zugehen und eine Frage stellen können, als ob Sie es von einem Menschen wären", sagt Hammock. "Können Sie mir sagen, ob dieser lila Schmetterling in Afrika vorkommt?"

„Die Beantwortung einer einfachen Frage in einer beliebigen Sprache setzt voraus, dass hinter den Kulissen viel Wissen vorhanden ist“, sagt Corrigan. „Sogar [das Wort] Lila setzt voraus, dass wir wissen, was Lila ist. Oder ein Schmetterling, [der Computer] muss den Unterschied zwischen einem Schmetterling und einer Motte verstehen. Darüber hinaus haben die Datensätze selbst unterschiedliche Auffassungen über diese unterschiedlichen Begriffe. All diese Daten waren ohne einen Rosetta-Wortschatz nur schwer abzubauen. Und das ist Teil der Magie dessen, was die EOL tut. “

Eine wissenschaftliche Frage, die die Partnerschaft zwischen EOL, IBM und Georgia Tech lösen möchte, ist das Paradoxon des Planktons.

Laut Hammock versuchen Wissenschaftler, die mit Computersimulationen arbeiten, „zu modellieren, was im Ozean passiert, indem sie sagen, dass die Sonne scheint und die Algen wachsen. . . es hat eine Art grobe Annäherung, aber sie können nicht [das Computermodell des Ökosystems] stabil sein. Sie gehen für eine Weile und dann stürzen sie ab. Weil sie zu einfach sind. Sie hoffen, dass sie stabiler werden, wenn sie etwas mehr Vielfalt in ihrer modellierten Biosphäre zeigen können. . . Das Paradoxe ist: Wie existiert die Biosphäre des Ozeans? Warum stürzt es nicht ab? "

"Die Leute sitzen auf Daten", sagt Corrigan. „Überall auf der Welt gibt es unglaubliche Reservoirs für Messungen der biologischen Vielfalt. Ich bekomme viele Anrufe von Leuten, die auf diesen Daten sitzen und Hilfe benötigen, um sie in einen breiteren Kontext zu stellen. Es ist wichtig, weil wir in einem Wettlauf sind, um diesen Planeten zu studieren und zu lernen, wie unsere Entwicklung unsere sehr begrenzten Ressourcen belastet. . . Das Smithsonian kann eine Rolle bei der Erweiterung des Wissens aus all diesen Quellen spielen und eine echte Kraft sein, um es zu verbreiten. “

Ein Viertel des Zuschusses in Höhe von 1 Million US-Dollar wird an Smithsonian für seinen Anteil an der Arbeit vergeben, aber EOL umfasst viele andere Akteure. Einige Entwickler sind in Ägypten; Ein Bildungsteam hat seinen Sitz in Harvard. und die spanische Spracheinheit ist in Mexiko-Stadt.

Alle Daten von EOL sind weiterhin entweder öffentlich oder unter Creative Commons lizenziert. Die Recherchen und Daten sollen öffentlich zugänglich und nicht hinter einer Paywall versteckt sein.

"Es ist ein sehr alter Traum", sagt Hammock. „Ein Mensch kann wahrscheinlich nicht alles lernen. Es ist schwer, alles an einen Ort zu bringen, an dem es bewusst gegen sich selbst geprüft werden kann. Aber jetzt haben wir Computer. "

Plinius wäre entweder sehr erfreut oder sehr eifersüchtig.

Big Data wird immer größer, als IBMs Watson die Enzyklopädie des Lebens erreicht