https://frosthead.com

Warum Google Grippe-Trends die Grippe (noch) nicht nachverfolgen können

Im Jahr 2008 kündigte Google einen interessanten neuen Dienst namens Google Flu Trends an. Die Ingenieure des Unternehmens hatten festgestellt, dass bestimmte Suchanfragen (wie die mit den Worten "Fieber" oder "Husten") jede Grippesaison anstachelten. Ihre Idee war es, die Häufigkeit dieser Suchanfragen zu nutzen, um die landesweite Gripperate schneller als möglich zu berechnen Dies geschieht mit herkömmlichen Daten (deren Erfassung und Analyse in der Regel einige Wochen in Anspruch nimmt), damit die Benutzer wissen, wann sie zusätzliche Vorsichtsmaßnahmen treffen müssen, um eine Ansteckung mit dem Virus zu vermeiden.

Verwandte Inhalte

  • Wie Wettermodelle und Google bei der Vorhersage der Grippesaison helfen könnten
  • Big Data oder zu viele Informationen?

Medienunternehmen (einschließlich dieses Reporters) beeilten sich, Google zu einer solch aufschlussreichen, innovativen und disruptiven Nutzung von Big Data zu gratulieren. Das einzige Problem? Google Flu Trends hat sich nicht sehr gut entwickelt.

Der Dienst hat die Gripperaten im Vergleich zu herkömmlichen Daten, die später von der CDC erhoben wurden, immer wieder überschätzt und schätzt, dass die Inzidenz der Grippe in 100 von 108 Wochen zwischen August 2011 und September 2013 höher war als tatsächlich. Im Januar 2013, wenn national Die Gripperaten erreichten ihren Höhepunkt, die Schätzungen von Google Flu Trends waren jedoch doppelt so hoch wie die tatsächlichen Daten.

Die häufigste Erklärung für die Diskrepanz war, dass Google den Anstieg grippebezogener Suchanfragen aufgrund der medienbedingten Grippehysterie, die jeden Winter auftritt, nicht berücksichtigt hat. Aber diese Woche in Science schlägt eine Gruppe von Sozialwissenschaftlern unter der Leitung von David Lazer eine alternative Erklärung vor: Dass Googles eigene Optimierungen an seinem Suchalgorithmus schuld sind.

Zugegebenermaßen ist es für Außenstehende schwierig, Google-Grippetrends zu analysieren, da das Unternehmen die von ihm als Rohdaten verwendeten spezifischen Suchbegriffe oder den bestimmten Algorithmus, mit dem die Häufigkeit dieser Begriffe in Grippeanalysen umgewandelt wird, nicht veröffentlicht. Die Forscher haben jedoch ihr Bestes getan, um die Begriffe mithilfe von Google Correlate abzuleiten. Mit diesem Dienst können Sie die Häufigkeit bestimmter Suchbegriffe im Laufe der Zeit überprüfen.

Als die Forscher dies in den letzten Jahren für eine Reihe von grippebezogenen Abfragen taten, stellten sie fest, dass einige wichtige Suchanfragen (die nach Grippebehandlungen und die Frage, wie man die Grippe von der Erkältung unterscheidet) mit Google Flu genauer verfolgt wurden Trends Schätzungen als mit der tatsächlichen Grippe, vor allem, wenn Google die Prävalenz der Krankheit überschätzt. Diese speziellen Suchanfragen könnten anscheinend einen großen Teil des Ungenauigkeitsproblems ausmachen.

Es gibt einen weiteren Grund zu der Annahme, dass dies der Fall sein könnte. Im Rahmen einer regelmäßigen Optimierung des Suchalgorithmus hat Google 2011 begonnen, verwandte Suchbegriffe für viele Suchanfragen zu empfehlen (einschließlich der Auflistung einer Suche nach Grippebehandlungen, nachdem jemand viele mit Grippe zusammenhängende Begriffe gegoogelt hat), und 2012 hat das Unternehmen begonnen, potenzielle Diagnosen bereitzustellen als Reaktion auf Symptome bei Suchanfragen (einschließlich der Auflistung von "Grippe" und "Erkältung" nach einer Suche, die beispielsweise den Ausdruck "Halsschmerzen" enthielt, wodurch ein Benutzer möglicherweise aufgefordert wird, nach einer Unterscheidungsmöglichkeit zwischen den beiden zu suchen). Diese Optimierungen, so argumentieren die Forscher, haben wahrscheinlich die Rate der Suchanfragen, die sie als verantwortlich für die Überschätzungen von Google identifiziert haben, künstlich erhöht.

Wenn diese Hypothese zutreffen würde, würde dies natürlich nicht bedeuten, dass Google Flu Trends unweigerlich zu Ungenauigkeiten führt, sondern nur, dass sie aktualisiert werden muss, um die ständigen Änderungen der Suchmaschine zu berücksichtigen. Lazer und die anderen Forscher argumentieren jedoch, dass die Verfolgung der Grippe aufgrund von Big Data ein besonders schwieriges Problem ist.

Wie sich herausstellt, wird ein großer Teil der Suchbegriffe, die mit CDC-Daten zu Gripperaten korrelieren, nicht von Grippepatienten verursacht, sondern von einem dritten Faktor, der sowohl das Suchmuster als auch die Grippetransmission beeinflusst: dem Winter. Tatsächlich berichteten die Entwickler von Google Grippe-Trends, dass sie auf bestimmte Begriffe gestoßen waren - beispielsweise im Zusammenhang mit Basketball an der High School -, die im Laufe der Zeit mit den Gripperaten korrelierten, aber eindeutig nichts mit dem Virus zu tun hatten.

Im Laufe der Zeit haben die Google-Ingenieure viele Begriffe, die mit der Suche nach Grippe zusammenhängen, aber nichts mit Grippe zu tun haben, manuell entfernt. Ihr Modell war jedoch eindeutig noch zu stark von saisonalen Suchtrends abhängig - ein Grund, warum Google Flu Trends diese nicht widerspiegelten 2009 Epidemie von H1N1, die im Sommer passiert ist. Insbesondere in seinen früheren Versionen war Google Flu Trends "Teil Grippedetektor, Teil Winterdetektor", schreiben die Autoren des Science Papers.

All dies kann jedoch eine Lehre für den Einsatz von Big Data in Projekten wie Google Flu Trends sein, anstatt eine pauschale Anklage dagegen zu erheben, sagen die Forscher. Wenn eine ordnungsgemäße Aktualisierung vorgenommen wird, um Optimierungen des Google-eigenen Algorithmus zu berücksichtigen, und eine strenge Analyse durchgeführt wird, um rein saisonale Faktoren zu entfernen, kann dies bei der Dokumentation landesweiter Grippefälle hilfreich sein - insbesondere in Kombination mit herkömmlichen Daten.

Als Test erstellten die Forscher ein Modell, das Google Flu Trends-Daten (die im Wesentlichen in Echtzeit, aber möglicherweise ungenau sind) mit zwei Wochen alten CDC-Daten kombinierte (die datiert sind, weil das Sammeln Zeit in Anspruch nimmt, aber immer noch möglich ist) etwas bezeichnend für die aktuelle Grippe-Rate). Ihr Hybrid stimmte viel besser mit den tatsächlichen und den aktuellen Grippedaten überein als nur mit Google Flu Trends und bot eine Möglichkeit, diese Informationen viel schneller abzurufen, als zwei Wochen auf die herkömmlichen Daten zu warten.

"Unsere Analyse von Google Flu zeigt, dass die besten Ergebnisse aus der Kombination von Informationen und Techniken aus beiden Quellen resultieren", sagte Ryan Kennedy, Professor und Mitautor für Politikwissenschaft an der Universität Houston, in einer Presseerklärung. "Anstatt von einer 'Big-Data-Revolution' zu sprechen, sollten wir über eine 'All-Data-Revolution' sprechen."

Warum Google Grippe-Trends die Grippe (noch) nicht nachverfolgen können