1984 startete die National Biomedical Research Foundation eine kostenlose Online-Datenbank mit über 283.000 Proteinsequenzen. Heute können Wissenschaftler auf der ganzen Welt mithilfe der Proteininformationsquelle ein unbekanntes Protein entnehmen, es mit den Tausenden bekannten Proteinen in der Datenbank vergleichen und feststellen, inwiefern es sich ähnelt und unterscheidet. Aus diesen Daten können sie schnell und genau die Evolutionsgeschichte eines Proteins und seine Beziehung zu verschiedenen Lebensformen ableiten.
Die bescheidenen Ursprünge dieser riesigen Online-Datenbank beginnen lange vor dem Internet. Alles begann mit dem Atlas of Protein Sequence and Structure, einem 1965 gedruckten Buch mit den 65 damals bekannten Proteinsequenzen, das von einer Frau namens Margaret Dayhoff zusammengestellt wurde. Bei der Erstellung ihres Atlas verwendete Dayhoff modernste Computertechnologien, um Lösungen für biologische Fragen zu finden, und half dabei, ein neues Feld zu eröffnen, das wir jetzt Bioinformatik nennen. Ursprünglich Chemiker, nutzte Dayhoff die neuen und sich entwickelnden Technologien der Computerzeit nach dem Zweiten Weltkrieg, um wegweisende Werkzeuge zu entwickeln, mit denen Chemiker, Biologen und Astronomen die Ursprünge des Lebens auf der Erde interdisziplinär untersuchen können.
Dayhoff (damals Margaret Oakley) wurde am 11. März 1925 in Philadelphia als Sohn der Mathematiklehrerin Ruth Clark und des Kleinunternehmers Kenneth Oakley geboren. Im Alter von zehn Jahren zog ihre Familie nach New York City. Dort besuchte sie öffentliche Schulen und wurde schließlich 1942 zum Valedictorian des Bayside High ernannt. Sie erhielt ein Stipendium am Washington Square College der New York University und schloss dieses nur drei Jahre später, 1945, mit dem Magna cum laude in Mathematik ab.
Im selben Jahr trat Dayhoff in die Columbia University ein, um unter der Leitung des bekannten Chemikers und Operationsforschers George Kimball aus dem Zweiten Weltkrieg in Quantenchemie zu promovieren. Ihre Akzeptanz war für die damalige Zeit eine Seltenheit. Nach dem Zweiten Weltkrieg traten mehr Männer in die Naturwissenschaften ein, und die Chemie wurde noch stärker von Männern dominiert als im letzten Jahrzehnt. Nur fünf Prozent der promovierten Chemikerinnen gingen an Frauen, anstatt acht Prozent.
Während der Zeit von Dayhoff an der Universität war Columbia eine Hochburg für Computertechnologie. Es verfügte über einige der ersten Computerlabors in den USA und beherbergte 1945 das IBM Watson Scientific Laboratory unter der Leitung des Astronomen WJ Eckert. Das Watson-Labor hatte in den letzten Monaten des Zweiten Weltkriegs erstmals als Rechenzentrum für die Alliierten gedient. Nach dem Krieg wurden hier einige der ersten Supercomputer entwickelt, darunter der Selective Sequence Electronic Calculator (SSEC), mit dem Eckert später die Mondumlaufbahnen für die Apollo-Missionen berechnete.
Mit dieser Technologie verband Dayhoff ihr Interesse an Chemie mit dem Rechnen mit Lochkartenmaschinen - im Wesentlichen frühen Digitalcomputern. Mit den Maschinen konnte Dayhoff ihre Berechnungen automatisieren und einen Algorithmus auf einem Kartensatz und Daten auf einem anderen speichern. Mit der Maschine war sie in der Lage, Berechnungen viel schneller und genauer als von Hand durchzuführen.
Dayhoffs besonderes Interesse galt polycyclischen organischen Verbindungen, bei denen es sich um Moleküle handelt, die aus drei oder mehr Atomen bestehen, die in einem engen Ring verbunden sind. Sie verwendete Lochkartenmaschinen, um eine Vielzahl von Berechnungen der Resonanzenergien der Moleküle (die Differenz zwischen der potentiellen Energie eines Moleküls in einem bestimmten Zustand und dem Durchschnittszustand) durchzuführen und die Wahrscheinlichkeit von Molekülbindungen und Bindungsabständen zu bestimmen.
Dayhoff promovierte in nur drei Jahren in Quantenchemie. Die Forschung, die sie als Doktorandin unternahm, wurde 1949 mit Kimball als Koautorin im Journal of Chemical Physics unter dem einfachen Titel Lochkartenberechnung von Resonanzenergien veröffentlicht.
Ebenfalls 1948 heiratete Dayhoff Edward Dayhoff, einen Studenten der Experimentalphysik, den sie in Columbia kennengelernt hatte. 1952 zog das Paar nach Washington, DC, wo Edward eine Stelle beim National Bureau of Standards antrat und Dayhoff ihre erste von zwei Töchtern, Ruth, zur Welt brachte. Dayhoff brach die Forschung bald ab, um Ruth und ihrer jüngeren Tochter Judith eine Bleib-zu-Hause-Mutter zu werden, abgesehen von einer zweijährigen Postdoktorandenstelle an der University of Maryland.
Als sie zur Forschung zurückkehrte und sich 1962 um Stipendien bewarb, um ihre Arbeit zu finanzieren, stieß sie auf einen Schock. Die National Institutes of Health lehnten einen Finanzhilfeantrag ab, in dem Dayhoff als leitender Ermittler aufgeführt war, mit der Erklärung, dass "[Dayhoff] seit einiger Zeit keine intime Verbindung mehr hat ... mit diesem komplizierten und schnell voranschreitenden Bereich", wie der Historiker Bruno Strasser schreibt sein anstehendes Buch Sammeln von Experimenten: Making Big Data Biology . Diese Art von Aufstieg für Frauen, die sich die Zeit genommen haben, um Kinder großzuziehen, ist nur einer der Wege, auf denen wissenschaftliche Einrichtungen den Aufstieg von Frauen behinderten - und weiterhin behindern.
Trotz der mangelnden Unterstützung der NIH stand Dayhoff kurz vor dem Eintritt in das konsequenteste Jahrzehnt ihrer Karriere. 1960 folgte sie einer schicksalhaften Einladung von Robert Ledley, einem Pionier der Biophysik, den sie über ihren Ehemann kennengelernt hatte, an die National Biomedical Research Foundation in Silver Spring, Maryland. Ledley wusste, dass Dayhoffs Computerkenntnisse entscheidend für das Ziel der Stiftung sein würden, die Bereiche Computer, Biologie und Medizin zu kombinieren. Sie war 21 Jahre lang seine stellvertretende Direktorin.
In Maryland hatte Dayhoff freie Hand, um den brandneuen IBM 7090-Mainframe der Georgetown University zu nutzen. Das IBM-System wurde für die Verarbeitung komplexer Anwendungen entwickelt und bietet sechsmal schnellere Rechengeschwindigkeiten als frühere Modelle. Diese Geschwindigkeit wurde erreicht, indem langsamere, sperrigere Vakuumröhrentechnologie durch schnellere, effizientere Transistoren (die Komponenten, die die Einsen und Nullen von Computern erzeugen) ersetzt wurden. Mit dem Großrechner begannen Dayhoff und Ledley, nach Peptidsequenzen zu suchen und diese mit FORTRAN-Programmen zu vergleichen, die sie selbst geschrieben hatten, um Teilsequenzen zu einem vollständigen Protein zusammenzusetzen.
IBM 7090-Bedienerkonsole im NASA Ames Research Center, 1961, mit zwei Bänken von IBM 729-Magnetbandlaufwerken. (NASA)Das Engagement von Dayhoff und Ledley, Computeranalysen auf Biologie und Chemie anzuwenden, war ungewöhnlich. "Die Kultur der statistischen Analyse, geschweige denn der digitalen Datenverarbeitung, war den meisten [Biochemikern] völlig fremd", erklärt Strasser in einem Interview mit Smithsonian.com . "Einige waren sogar stolz darauf, keine" Theoretiker "zu sein. So verstanden sie die Datenanalyse mithilfe mathematischer Modelle."
Eine wissenschaftliche Disziplin, in der Dayhoffs Computerkenntnis mehr geschätzt wurde, war jedoch die Astronomie. Dieses Interesse am Computer war zum Teil WJ Eckhart zu verdanken, der 1940 Lochkartenmaschinen von IBM zur Vorhersage von Planetenbahnen eingesetzt hatte. In den 1960er Jahren war das amerikanische Interesse an Weltraumforschung in vollem Gange, was die Finanzierung der NASA bedeutete. An der University of Maryland lernte Dayhoff den Spektroskopiker Ellis Lippincott kennen, der sie 1961 in eine sechsjährige Zusammenarbeit mit Carl Sagan in Harvard einbrachte. Die drei entwickelten thermodynamische Modelle des chemischen Aufbaus der Materie und Dayhoff entwarf ein Computerprogramm, das sie aufnahm könnte Gleichgewichtskonzentrationen von Gasen in Planetenatmosphären berechnen.
Mit Dayhoffs Programm konnten sie, Lippincott und Sagan ein zu analysierendes Element auswählen und so viele verschiedene atmosphärische Zusammensetzungen untersuchen. Letztendlich entwickelten sie atmosphärische Modelle für Venus, Jupiter, Mars und sogar eine ursprüngliche Erdatmosphäre.
Bei der Erforschung des Himmels ging Dayhoff auch auf eine Frage ein, die die Forscher mindestens seit den 1950er-Jahren untersucht hatten: Welche Funktion haben Proteine? Die Sequenzierung von Proteinen war ein Mittel, um die Antwort zu finden, aber die Sequenzierung einzelner Proteine war sehr ineffizient. Dayhoff und Ledley gingen einen anderen Weg. Anstatt Proteine isoliert zu analysieren, verglichen sie Proteine, die aus verschiedenen Pflanzen- und Tierarten stammen. „Durch den Vergleich der Sequenzen desselben Proteins in verschiedenen Spezies konnte festgestellt werden, welche Teile der Sequenz bei allen Spezies immer identisch waren. Dies ist ein gutes Indiz dafür, dass dieser Teil der Sequenz für das Wohl des Proteins von entscheidender Bedeutung ist“, sagt Strasser.
Dayhoff tastete tiefer nach der gemeinsamen Geschichte von Proteinen. Sie analysierte nicht nur die Teile, die für alle Arten gleich waren, sondern auch deren Variationen. „Sie haben diese Unterschiede als Maß für die evolutionären Abstände zwischen den Arten genommen, die es ihnen ermöglichten, phylogenetische Bäume zu rekonstruieren“, erklärt Strasser.
Dayhoff, immer bereit, die Kraft der neuen Technologie zu nutzen, entwickelte computergestützte Methoden zur Bestimmung von Proteinsequenzen. Sie führte eine Computeranalyse von Proteinen in einer Vielzahl von Arten durch, vom Candida-Pilz bis zum Wal. Dann benutzte sie ihre Unterschiede, um ihre Ahnenbeziehungen zu bestimmen. 1966 schuf Dayhoff mit Hilfe von Richard Eck die erste Rekonstruktion eines phylogenetischen Baumes.
In einem Artikel von Scientific American aus dem Jahr 1969, "Computer Analysis of Protein Evolution", präsentierte Dayhoff der Öffentlichkeit einen dieser Bäume zusammen mit ihrer Forschung, bei der Computer zur Sequenzierung von Proteinen verwendet wurden. "Jede festgelegte Proteinsequenz, jeder beleuchtete Evolutionsmechanismus, jede aufgedeckte bedeutende Innovation in der phylogenetischen Geschichte wird unser Verständnis der Lebensgeschichte verbessern", schrieb sie. Sie wollte der Life-Sciences-Community das Potenzial computergestützter Modelle aufzeigen.
Ihr nächstes Ziel war es, alle bekannten Proteine an einem Ort zu sammeln, an dem die Forscher Sequenzen finden und mit anderen vergleichen konnten. Im Gegensatz zu heute, als es einfach war, mit nur einem Schlüsselwort Quellen in einer elektronischen Datenbank abzurufen, musste Dayhoff physische Zeitschriften durchsuchen, um die Proteine zu finden, nach denen sie suchte. In vielen Fällen bedeutete dies, die Arbeit anderer Forscher auf Fehler zu überprüfen. Selbst mit Hilfe eines Computers erforderte das Sammeln und Katalogisieren der Sequenzen viel Zeit und ein scharfes wissenschaftliches Auge.
Nicht jeder sah Wert in dem, was sie tat. Für andere Forscher ähnelte Dayhoffs Arbeit eher der Sammlung und Katalogisierung der Naturgeschichte des 19. Jahrhunderts als der experimentellen Arbeit des Wissenschaftlers des 20. Jahrhunderts. „Das Sammeln, Vergleichen und Klassifizieren von Naturgegenständen erschien vielen experimentellen Biologen in der zweiten Hälfte des 20. Jahrhunderts altmodisch“, sagt Stasser. Er bezeichnet Dayhoff als „Außenseiterin“. „Sie hat zu einem Feld beigetragen, das es nicht gab und das daher keine berufliche Anerkennung hatte“, sagt er.
1965 veröffentlichte Dayhoff ihre Sammlung der 65 bekannten Proteine erstmals im Atlas of Protein Sequence and Structure, einer gedruckten Version ihrer Datenbank. Schließlich wurden die Daten auf ein Magnetband übertragen, und jetzt ist es online, wo Forscher ihre Daten weiterhin verwenden, um Tausende weiterer Proteine zu finden. Weitere biomedizinische Datenbanken sind hinzugekommen, darunter die Protein-Datenbank, eine 1971 eingeführte kollaborative Sammlung von Proteinen und Nukleinsäuren, und die GenBank, die 1982 eingeführte Datenbank für genetische Sequenzen. Dayhoff leitete eine wissenschaftliche Revolution ein.
"Heute enthält jede einzelne Veröffentlichung in der experimentellen Biologie eine Kombination aus neuen experimentellen Daten und Schlussfolgerungen aus Vergleichen mit anderen Daten, die in einer öffentlichen Datenbank verfügbar gemacht wurden, ein Ansatz, den Dayhoff vor einem halben Jahrhundert eingeführt hat", sagt Strasser.
Mit dem Wachstum der Bioinformatik fielen die Aufgaben des Sammelns und Berechnens weitgehend Frauen zu. Die Mitarbeiter von Dayhoff am Atlas waren alle Frauen mit Ausnahme von Ledley. Wie die weiblichen "Computer" der NASA in den 1960er Jahren und die weiblichen Codebrecher des Zweiten Weltkriegs wurden diese Frauen bald an den Rand der wissenschaftlichen Praxis gedrängt. Unter Bezugnahme auf die „ENIAC-Mädchen“, die den ersten digitalen Allzweckcomputer programmierten, schreibt die Computerhistorikerin Jennifer Light: „Es ist genau so, dass sich Frauen in Berufsklassifikationen mit niedrigem Status mit beispielloser Arbeit befassen.“
In ihrer biografischen Skizze von Dayhoff schrieb Lois T. Hunt, die mit ihr am Atlas arbeitete, dass Dayhoff glaubte, dass ihre Untersuchung der Uratmosphäre der Erde ihr „die Verbindungen liefern könnte, die für die Bildung des Lebens notwendig sind“ Computing ist das, was die unterschiedlichen Teile von Dayhoffs wissenschaftlicher Forschung zusammenhält. Von dem winzigen Protein bis zur riesigen Atmosphäre suchte Dayhoff nach den Geheimnissen des Lebens auf diesem Planeten. Obwohl sie nicht alle freigeschaltet hat, gab sie der modernen Wissenschaft die Werkzeuge und Methoden, um die Suche fortzusetzen.