https://frosthead.com

Kann ein Computermodell die erste Runde des diesjährigen Märzwahnsinns vorhersagen?

„Hüten Sie sich vor den Ideen des März.“ Ja, es ist endlich wieder soweit: Wenn die Kaiser des College-Basketballs aufpassen müssen, um nicht den Boden unter den Füßen des Turniers zu verlieren.

Vor dem 15. März werden Millionen auf der ganzen Welt ihre March Madness-Klammern ausfüllen. Im Jahr 2017 erhielt ESPN einen Rekord von 18, 8 Millionen Klammern.

Der erste Schritt zu einer perfekten Klammer ist die richtige Auswahl der ersten Runde. Leider können die meisten von uns die Zukunft nicht vorhersagen. Letztes Jahr waren nur 164 der eingereichten Klammern in der ersten Runde perfekt - weniger als 0, 001 Prozent.

18, 8 Millionen Klammern eingereicht.

164 sind nach Runde 1 perfekt.

Ist hier zum Übererfüllen. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ESPN Fantasy Sports (@ESPNFantasy) 18. März 2017

Viele Klammern werden gesprengt, wenn ein Team mit niedrigerem Startwert den favorisierten höheren Startwert stört. Seit der Erweiterung des Feldes auf 64 Teams im Jahr 1985 treten durchschnittlich mindestens acht Störungen pro Jahr auf. Wenn Sie Ihren Bracket-Pool gewinnen möchten, sollten Sie sich mindestens ein paar Überraschungen heraussuchen.

Wir sind zwei Mathe-Ph.D. Kandidaten an der Ohio State University, die eine Leidenschaft für Datenwissenschaft und Basketball haben. In diesem Jahr haben wir beschlossen, dass es Spaß machen würde, ein Computerprogramm zu erstellen, das einen mathematischen Ansatz verwendet, um Störungen in der ersten Runde vorherzusagen. Wenn wir Recht haben, sollte eine mit unserem Programm ausgewählte Klammer in der ersten Runde eine bessere Leistung bringen als die durchschnittliche Klammer.

Fehlbare Menschen

Es ist nicht leicht zu erkennen, welches der Spiele der ersten Runde zu einer Überraschung führen wird.

Angenommen, Sie müssen sich zwischen dem Samen Nr. 10 und dem Samen Nr. 7 entscheiden. Die Nr. 10 hat in den letzten drei Turnierspielen für Aufsehen gesorgt und sogar die letzten vier erreicht. Die Nr. 7 ist ein Team, das wenig bis gar keine nationale Berichterstattung erhält. Der Gelegenheitsfan hat wahrscheinlich noch nie von ihnen gehört. Welches würdest du nehmen?

Wenn Sie sich 2017 für den Samen Nr. 10 entschieden hätten, wären Sie mit der Virginia Commonwealth University über Saint Mary's of California gegangen - und Sie hätten sich geirrt. Dank eines Fehlschlusses bei der Entscheidungsfindung, dem so genannten „Recency Bias“, können Menschen dazu verleitet werden, ihre neuesten Beobachtungen zur Entscheidungsfindung heranzuziehen.

Neuheitsverzerrung ist nur eine Art von Verzerrung, die den Auswahlprozess von jemandem infiltrieren kann, aber es gibt viele andere. Vielleicht sind Sie voreingenommen gegenüber Ihrer Heimmannschaft, oder Sie identifizieren sich mit einem Spieler und möchten verzweifelt, dass er oder sie Erfolg hat. All dies beeinflusst Ihre Klammer auf potenziell negative Weise. Sogar erfahrene Profis fallen in diese Falle.

Modellieren von Störungen

Maschinelles Lernen kann sich gegen diese Fallstricke wehren.

Beim maschinellen Lernen trainieren Statistiker, Mathematiker und Informatiker eine Maschine, um Vorhersagen zu treffen, indem sie sie aus früheren Daten „lernen“ lässt. Dieser Ansatz wurde in vielen verschiedenen Bereichen eingesetzt, einschließlich Marketing, Medizin und Sport.

Maschinelles Lernen kann mit einer Black Box verglichen werden. Zunächst geben Sie dem Algorithmus die Daten aus, wobei Sie im Wesentlichen die Wählscheiben auf der Blackbox einstellen. Sobald die Einstellungen kalibriert sind, kann der Algorithmus neue Daten einlesen, mit früheren Daten vergleichen und dann seine Vorhersagen ausspucken.

Eine Black-Box-Ansicht von Algorithmen für maschinelles Lernen. Eine Black-Box-Ansicht von Algorithmen für maschinelles Lernen. (Matthew Osborne, CC BY-SA)

Beim maschinellen Lernen stehen verschiedene Black Boxes zur Verfügung. Für unser March Madness-Projekt sind diejenigen, die wir wollten, als Klassifizierungsalgorithmen bekannt. Diese helfen uns zu bestimmen, ob ein Spiel als verärgert eingestuft werden soll oder nicht, indem entweder die Wahrscheinlichkeit einer Verärgerung angegeben oder ein Spiel explizit als eins eingestuft wird.

Unser Programm verwendet eine Reihe gängiger Klassifizierungsalgorithmen, einschließlich logistischer Regression, zufälliger Waldmodelle und k-nächster Nachbarn. Jede Methode ist wie eine andere Marke derselben Maschine. Sie arbeiten unter der Haube genauso unterschiedlich wie Fords und Toyotas, führen jedoch die gleiche Klassifizierungsaufgabe aus. Jeder Algorithmus oder jede Box hat ihre eigenen Vorhersagen über die Wahrscheinlichkeit einer Störung.

Wir haben die Statistiken aller Erstrundenteams von 2001 bis 2017 verwendet, um die Zifferblätter für unsere Black Boxes festzulegen. Als wir einen unserer Algorithmen mit den Daten der ersten Runde 2017 testeten, hatte er eine Erfolgsquote von 75 Prozent. Dies gibt uns die Gewissheit, dass die Analyse vergangener Daten, anstatt nur unserem Darm zu vertrauen, zu genaueren Vorhersagen von Störungen und damit zu insgesamt besseren Klammern führen kann.

Welche Vorteile haben diese Boxen gegenüber der menschlichen Intuition? Zum einen können die Maschinen in Sekundenschnelle Muster in allen Daten des Zeitraums 2001-2017 erkennen. Da sich die Maschinen nur auf Daten stützen, ist es außerdem weniger wahrscheinlich, dass sie durch menschliche psychologische Vorurteile beeinträchtigt werden.

Das heißt nicht, dass maschinelles Lernen uns perfekte Klammern gibt. Obwohl die Box die Vorurteile des Menschen umgeht, ist sie nicht immun gegen Fehler. Die Ergebnisse hängen von früheren Daten ab. Wenn zum Beispiel ein Saatgut Nr. 1 in der ersten Runde verlieren würde, würde unser Modell dies wahrscheinlich nicht vorhersagen, da dies noch nie zuvor passiert ist.

Darüber hinaus funktionieren Algorithmen für maschinelles Lernen am besten mit Tausenden oder sogar Millionen von Beispielen. Seit 2001 wurden nur 544 März-Wahnsinns-Spiele in der ersten Runde gespielt, sodass unsere Algorithmen nicht jede Überraschung korrekt wiedergeben. Nach dem Vorbild von Basketball-Experte Jalen Rose sollte unser Output als Werkzeug in Verbindung mit Ihrem Fachwissen verwendet werden - und Glück! - um die richtigen Spiele zu wählen.

Wahnsinn beim maschinellen Lernen?

Wir sind nicht die ersten, die maschinelles Lernen auf March Madness anwenden, und wir sind nicht die letzten. Möglicherweise sind bald maschinelle Lerntechniken erforderlich, um die Wettbewerbsfähigkeit Ihrer Klasse zu erhöhen.

Sie brauchen keinen Abschluss in Mathematik, um maschinelles Lernen anzuwenden - obwohl es uns hilft. Bald könnte maschinelles Lernen zugänglicher sein als je zuvor. Interessenten können sich unsere Modelle online ansehen. Entdecken Sie unsere Algorithmen und finden Sie selbst einen besseren Ansatz.


Dieser Artikel wurde ursprünglich auf The Conversation veröffentlicht. Die Unterhaltung

Matthew Osborne, Doktorand in Mathematik an der Ohio State University

Kevin Nowland, Doktorand in Mathematik an der Ohio State University

Kann ein Computermodell die erste Runde des diesjährigen Märzwahnsinns vorhersagen?