Wenn Sie gefragt werden, wie viele Medaillen jedes Land bei den diesjährigen Olympischen Spielen gewinnen wird, würden Sie wahrscheinlich versuchen, die favorisierten Athleten in jedem Event zu identifizieren, und dann die erwarteten Gewinne jedes Landes zusammenzählen, um zu einem Ergebnis zu gelangen.
Tim und Dan Graettinger, die Brüder des Data-Mining-Unternehmens Discovery Corps, Inc., verfolgen einen ganz anderen Ansatz. Sie ignorieren die Athleten völlig.
Ihr Modell für die Sotschi-Spiele untersucht stattdessen das geografische Gebiet jedes Landes, das Pro-Kopf-BIP, den Gesamtwert der Exporte und den Spielraum, um zu bestimmen, wie viele Medaillen jedes Land gewinnen wird. Falls Sie sich fragen, sagen Sie voraus, dass die USA mit insgesamt 29 Medaillen die Nase vorn haben werden.
Die Graettinger sind nicht die Ersten, die einen solchen datengesteuerten Top-down-Ansatz zur Vorhersage der Medaillenanzahl anwenden. Daniel Johnson, ein Wirtschaftsprofessor am Colorado College, baute ähnliche Modelle für die fünf Olympischen Spiele zwischen 2000 und 2008 - mit einer Genauigkeit von insgesamt 94 Prozent bei der Vorhersage der Anzahl der Medaillen in jedem Land -, erstellte jedoch kein Modell für Sotschi.
Dan und Tim sind neuer im Spiel. Dan, der in der Regel an konventionelleren Data-Mining-Projekten arbeitet, um beispielsweise potenzielle Kunden eines Unternehmens vorherzusagen, war vor vier Jahren bei den Olympischen Winterspielen in Vancouver erstmals daran interessiert, Modelle zur Vorhersage von Wettbewerben zu verwenden. "Ich benutze Daten über die Vergangenheit, um die Zukunft immer vorherzusagen", sagt er. "Jede Nacht haben sie die Medaillenanzahl im Fernsehen gezeigt, und ich habe mich gefragt, ob wir das vorhersagen können."
Auch wenn die Leistungen einzelner Athleten unvorhersehbar variieren können, könnte ein allgemeiner Zusammenhang zwischen den grundlegenden Merkmalen eines Landes (z. B. Größe, Klima und Umfang des Vermögens) und der Anzahl der Medaillen bestehen, die es wahrscheinlich mit nach Hause nehmen würde. Diese Art von Ansatz könnte nicht sagen, welcher Teilnehmer ein bestimmtes Event gewinnen könnte, aber mit genügend Daten könnte es in der Lage sein, die Gesamtmedaillenanzahl für jedes Land genau vorherzusagen.
Zunächst machten er und sein Bruder sich an die Arbeit, um ein vorläufiges Modell für die Spiele 2012 in London zu entwickeln. Zunächst sammelten sie eine Vielzahl verschiedener Arten von Datensätzen, von der Geographie eines Landes über die Geschichte, die Religion, den Wohlstand und die politische Struktur. Anschließend verwendeten sie Regressionsanalysen und andere Datenanalyseverfahren, um festzustellen, welche Variablen die engste Beziehung zu historischen Daten zu Olympiamedaillen hatten.
Sie stellten fest, dass für die Sommerspiele ein Modell, das das Bruttoinlandsprodukt, die Bevölkerung, den Spielraum und die gesamtwirtschaftliche Freiheit eines Landes (gemessen am Index der Heritage Foundation) berücksichtigte, am besten mit den Medaillenzahlen jedes Landes für die letzten beiden Olympischen Sommerspiele (2004) korrelierte und 2008). Zu diesem Zeitpunkt konnte das vorläufige Modell jedoch nur vorhersagen, welche Länder zwei oder mehr Medaillen gewinnen würden, nicht die Anzahl der Medaillen pro Land.
Sie beschlossen, es für die Spiele in Sotschi zu verbessern, konnten sich jedoch nicht auf ihr Vorgängermodell verlassen, da sich die Länder, die im Winter erfolgreich sind, so stark vom Sommer unterscheiden. Ihr neues Sotschi-Modell packt das Problem der Vorhersage der Medaillenanzahl in zwei Schritten an. Da etwa 90 Prozent der Länder noch nie eine Medaille bei den Olympischen Winterspielen gewonnen haben (kein Athlet aus dem Nahen Osten, Südamerika, Afrika oder der Karibik hat je eine Medaille gewonnen), werden zunächst die zehn Prozent getrennt, die wahrscheinlich mindestens eine Medaille gewinnen, und dann die Anzahl der vorhergesagten Jeder wird gewinnen.
"Einige Trends sind so ziemlich das, was man erwarten würde. Je größer die Bevölkerung eines Landes wird, desto wahrscheinlicher ist es, dass es eine Medaille gewinnt", sagt Tim. "Irgendwann brauchen Sie jedoch leistungsfähigere statistische Mechanismen, mit denen Sie eine Vielzahl von Variablen durchsuchen und nach den prädiktivsten ordnen können."
Schließlich stießen sie auf einige Variablen, die die neunzig Prozent der nicht mit Medaillen ausgezeichneten Länder genau von den zehn Prozent trennen, die wahrscheinlich gewinnen werden: Dazu gehörten die Migrationsrate, die Anzahl der Ärzte pro Kopf, der Breitengrad, das Bruttoinlandsprodukt und die Frage, ob das Land sie besitzt in den letzten Sommerspielen eine Medaille gewonnen (kein Land hatte jemals eine Wintermedaille gewonnen, ohne im vergangenen Sommer eine Medaille gewonnen zu haben, auch weil der Pool der Sommersieger so viel größer ist als der der Winterspiele). Indem dieses Modell bei den letzten beiden Olympischen Winterspielen eingesetzt wurde, bestimmte dieses Modell, welche Nationen eine Medaille mit einer Genauigkeit von 96, 5 Prozent mit nach Hause nahmen.
Nachdem 90 Prozent der Länder ausgeschieden waren, verwendeten die Graettinger ähnliche Regressionsanalysen, um ein Modell zu erstellen, das rückwirkend vorhersagte, wie viele Medaillen jedes verbleibende Land gewann. Ihre Analyse ergab, dass eine etwas andere Liste von Variablen am besten zu den historischen Medaillendaten passt. Diese Variablen zusammen mit Vorhersagen für die Sotschi-Spiele sind unten:
Die Vorhersagen des Modells für die Sotschi-Spiele (Grafik mit freundlicher Genehmigung von Discovery Corps, Inc.)Einige der Variablen, die sich als korrelativ erwiesen, sind kein großer Schock - es ist sinnvoll, dass Länder mit höheren Breiten bei den Ereignissen, die während der Winterspiele ausgetragen wurden, besser abschneiden -, aber einige waren überraschender.
"Wir dachten, die Bevölkerung und nicht die Landfläche wären wichtig", sagt Dan. Sie sind sich nicht sicher, warum das geografische Gebiet besser zu den historischen Daten passt, aber es könnte sein, dass einige bevölkerungsreiche Länder, die keine Wintermedaillen gewinnen (wie Indien und Brasilien), die Daten verwerfen. Durch die Nutzung der Landfläche vermeidet das Modell den übergroßen Einfluss dieser Länder, behält jedoch eine grobe Assoziation mit der Bevölkerung bei, da Länder mit größeren Flächen insgesamt größere Bevölkerungsgruppen haben.
Natürlich ist das Modell nicht perfekt, auch wenn es mit historischen Daten übereinstimmt. "Unser Ansatz ist der 30.000-Fuß-Ansatz. Es gibt Variablen, die wir nicht berücksichtigen können", sagt Tim. Einige Länder haben die Vorhersagen des Modells wiederholt übertroffen (einschließlich Südkorea, wo überproportional viele Eisschnelllauf-Kurzstrecken-Events gewonnen werden), während andere Länder durchweg unterdurchschnittlich abschneiden (wie das Vereinigte Königreich, das bei zu erwartenden Sommerereignissen weitaus besser abzuschneiden scheint). vielleicht, weil es - trotz seiner geographischen Breite - weit mehr regnet als schneit.
Darüber hinaus ist eine konsistente Ausnahme, die sie zu den Vorhersagen des Modells gefunden haben, dass das Gastgeberland mehr Medaillen als sonst erhält, basierend auf den Daten. Sowohl Italien (während der Turin-Spiele 2006) als auch Kanada (während der Vancouver-Spiele 2010) übertrafen das Modell. Kanada stellte mit 14 Goldmedaillen seinen Rekord auf.
Aufgrund ihres statistisch strengen Ansatzes sind die Graettinger jedoch zuversichtlich, dass ihr Modell die endgültigen Medaillenzahlen insgesamt mit einem relativ hohen Maß an Genauigkeit vorhersagen wird.
Wie vergleichen sich ihre Vorhersagen mit denen von Experten, die konventionellere Strategien anwenden? Die Experten unterscheiden sich nicht dramatisch, Es gibt jedoch einige traditionell erfolgreiche Länder (Norwegen, Kanada, Russland), die mehr Medaillen gewinnen, und einige andere (China, Niederlande, Australien), die jeweils weniger Medaillen gewinnen.
Bisher haben die Graettinger keine Wetten auf ihre Prognosen abgegeben, aber sie planen, die Leistung ihres Modells kurz vor Spielbeginn mit den Wettquoten zu vergleichen. Wenn sie Unstimmigkeiten sehen, die sie gerne ausnutzen würden, könnten sie ihr Geld dorthin legen, wo ihr Mund ist.