BBL, Gedanken, Welt

Gedanken: Statistiken in Europa

Welche Bedeutung Statistiken im europäischen Basketball besitzen und warum aktuell eine Grenze erreicht ist

Wenn wir uns Statistiken in Europa ansehen, existieren anscheinend zwei Paralleluniversen: Im ersten Universum wird das offizielle Statistik-Angebot der Liga von Vielen kaum noch genutzt, da andere Portale ihr den Rang abgelaufen haben. Privatpersonen haben damit angefangen, selbst Statistiken zu generieren, weil ihnen die Daten der Liga nicht genügen.
Im anderen Universum erwähnen Reporter nur zu gerne statistische Werte und sprechen inflationär von „Moneyball“. Statistiken werden gerne zitiert und dienen den Sprechern gerne als schlagkräftiges und diskussionsendendes Argument. Die Bewegung hin zu einer zahlenbasierten Betrachtung, zuerst aus dem Baseball, danach im Basketball, stammt aus den USA und entstand dort unter völlig anderen Bedingungen und wird auch heute dort unter anderen Voraussetzungen praktiziert. Im europäischen Raum gelten diese Bedingungen nicht grundsätzlich, folglich müssen auch andere Regeln eingehalten und beachtet werden.


Beginnen wir mit dem wohl wichtigsten, bereits sehr häufig erläuterten Problem: Sample Size (oder für die völlig abgedrehten Nerds: die Gesetze der “Großen Zahlen” (Hoeffding’s Inequality)).
Grundlegend geht das mathematische Gesetz der großen Zahlen davon aus, dass sich Trends in Daten oder Wahrscheinlichkeiten mit zunehmender Menge von Daten stabilisieren. Diverse spezielle Gesetze der großen Zahlen beschreiben dabei verschiedene Schranken für benötigte Datenmengen, um sicherere Aussagen treffen zu können. Absolvieren NBA-Teams pro Saison mindestens 82 Spiele, so sind es für nicht international spielende europäische Teams meist ca. 30-35 Spiele. In dieser geringen Anzahl von Spielen schlagen Verletzungen oder Personalwechsel signifikant in die Menge der verfügbaren Zahlen ein. Verändert sich eine Mannschaft über den Lauf der Saison auf mehreren Positionen durch Verletzungen sowie durch generelle Personalpolitik, sind die zu Beginn der Saison generierte Werte in den letzten Saisonwochen wohl nur gering aussagekräftig. Ab welchem Punkt der Schwellwert überschritten ist, ab dem ein Leser Zahlen Wert zukommen lassen sollte, ist stark situationsabhängig. Ein Beispiel: Die aktuelle Mannschaft der Eisbären Bremerhaven ist im Vergleich zu der vergangenen Spielzeit ohne Fluktuationen im Kader durch die Saison gegangen. Die meistgespielte Fünf-Mann-Lineup der Norddeutschen stand in der Hinrunde ca. 200 Ballbesitze auf dem Feld. Das Gegenstück der Bundesligamannschaft aus Jena steht hingegen nur 90 Ballbesitze auf dem Feld. Ab welchen Werten messen wir den aufgelegten Lineups Bedeutung zu?

           

Die meist-gespielte Lineup (8,9,11,23,24) von Science City Jena und deren Werte auf dem Feld

Die meist-gespielte Lineup (9,10,13,14,21) der Eisbären Bremerhaven und deren Werte auf dem Feld

Sicher ist, ein wechselnder Kader erschwert es, Statistiken aus der gesamten bisherigen Saison auf das aktuelle Team zu beziehen. Generell ist ein solches Vorhaben möglich, sofern die Aspekte des Spiels, zu denen die Zahlen Impressionen liefern sollen, nicht durch Rotationen verändert worden. Plagt sich ein Team im Verlauf der Hinrunde mit Verletzungen auf den Guard-Positionen, ist das Betrachten der Reboundquoten, in den meisten Fällen, weiterhin legitim. 


Mittlerweile sind die meisten Play-by-Play-Daten der großen europäischen Ligen verfügbar (Euroleague inklusive). Sie entstammen live aus den Partien direkt vom “Anschreibetisch”. Erfasst werden, bezogen auf die Basketball Bundesliga, der Typ der Aktion, eine Zeitangabe, involvierte Spieler (im Falle eines assistierten Dreipunkte-Wurfes z. B. der Assist-Geber als auch der Schütze selbst), die Position von Korbversuchen, der aktuelle Punktestand. Sie sind als Vektor für jede Aktion formalisiert. 

Die Daten sind, wie angedeutet, in den meisten Fällen, korrekt und geben das Spielgeschehen korrekt wieder. So eine Aussage zu wagen, steht jedoch auf wackligen Beinen, als dass eher zufällig Fehler bemerkt werden und wohl weniger als 0,0001% der Daten geprüft wurden (so wirken die Daten zumindest mehrheitlich realistisch).  
Die Zeitangaben, sind z. B. jedoch nicht auf dem Niveau, dass Informationen über den Zeitpunkt im Angriff der Aktion geschlossen werden könnten, um daraus interessante Statistiken zu generieren. Die Koordinaten von Würfen folgten vor einigen Jahren. Auch hier gilt, nur ein geringer Prozentsatz ist geprüft, auffällig ist aber, dass weiterhin teilweise Wurfkoordinaten fehlen oder offensichtlich zufällig gesetzt werden. 

Berechnet werden können alle klassischen und “advanced” Box-Score-basierten Metriken und Statistiken. Zusätzlich können, unter Hinzunahme eigener Algorithmen, Lineup-Statistiken erstellt werden.

Die Möglichkeiten mit diesen Informationen umzugehen und Erkenntnisse daraus zu gewinnen, scheinen ausgereizt.

Wurfkoordinaten eines Spielers oder Teams können auf die Trefferwahrscheinlichkeit aus verschiedenen Zonen, auf Rechts/Links-Balancen oder auf Entfernung zum Korb ausgewertet werden. Zusätzlich können verschiedenere Filter hinzugezogen werden: Trefferquote bei einer +10 Führung, Anzahl der Wurfversuche zwischen drei und vier Metern Entfernung bei 2, 3, 4 oder 5 Teamfouls. Der Kreativität sind keine Grenzen gesetzt, doch, mit dem Blick auf die Sample Size, werden durch den Einsatz von solchen Filtern die Anzahl der Würfe meist auf eine zu geringe Anzahl verringert. 

Der Zugang ist ein weiteres Problem. Um die im JSON-Format gespeicherten Daten zu finden, auszulesen und auszuwerten, reichen Copy & Paste- Befehle in einer Excel-Tabelle meist nicht. Eine offenere Kommunikation der Datensätze würde die deutsche Basketball-Szene sicherlich vorantreiben, darin neue interessante Statistiken generieren zu können, ohne eine Programmiersprache beherrschen zu müssen, um die Daten in erster Instanz überhaupt generieren zu können. 

Synergy Sports hebt sich im europäischen Raum als professioneller Statistik-Anbieter für Vereine heraus. Unter anderem differenziert die hauseigene Datenbank jeden Korbversuch nach einem Typ: Pick & Roll (sowohl für den abrollenden als auch für den ballführenden Spieler), Isolation, Cut, Putback etc. Synergy arbeitet mit eigenen Scouts, welche parallel diese Informationen generieren.
Auf kleineren Datensätzen veröffentlicht Manuel Baraniak (Twitter @manuel_baraniak) phasenweise eben solche Daten für einzelne Spiele oder Spieler. Eine solche, von der Liga bereitgestellte, Information zu allen Wurfaktionen der Saison, aller Spieler, würde neue Möglichkeiten schaffen. Jedoch wäre selbst ein solches Unterfangen, eine einzelne neue Information zu jedem Play hinzuzufügen, nur über einen endlichen Zeitraum eine Innovation, bis zu dem Zeitpunkt, an dem auch das neu geschaffene Potenzial ausgereizt ist. Denn in ähnlicher Weise verhielt es sich bereits bei der Einführung von Standort-Koordinaten der Würfe: Rasch wurden diverse Metriken und graphische Aufbereitungen erstellt und kommuniziert, doch scheint nun, wie beschrieben, die Grenze im Umgang mit dieser Innovation erreicht zu sein (die intelligenteste Darstellung findet sich unter www.korbrechnung.de). 

Ein weiterer Gedanke zum Thema Sample Size: Die beschriebenen Gesetze der großen Zahlen sind in den Fällen zumeist relevant, in denen nur eine Stichprobe bzw. nicht der volle Umfang der Daten bekannt ist.

Mit der verfügbaren Stichprobe soll folgend mittels der Problematik der großen Zahlen bestimmt werden, inwieweit diese Aussagen auf die Grundgesamtheit übertragbar sind. Im Falle der Basketball-Statistiken besitzen wir jedoch nicht nur eine Stichprobe, sondern verfügen über die Grundgesamtheit aller Daten. Dennoch bleibt es mit kritischem Blick zu betrachten, wenn eine untersuchte Lineup deutlich unter 80 Ballbesitze auf dem Feld steht. Zwar verfügen wir in diesem Fall ebenfalls über die Gesamtheit aller verfügbaren Daten, prinzipiell den perfekten Informationen. Faktisch ist die Aussage über die erhobenen Daten nicht im kritischen Bereich zu sehen, da alle benötigten Informationen zu Grunde liegen. In der praktischen Anwendung hingegen, ist die Sample Size zu jedem Zeitpunkt und der Datenmenge relevant, unabhängig davon, ob eine Stichprobe oder, wie zumeist, die Grundgesamtheit vorliegt. Bei einer geringen Zahl von Possessions, ist die Gefahr von Ausreißern hoch. Ein paar wenige gute/schlechte Aktionen sind zwar total gesehen in der Grundgesamtheit als Fakt zu sehen, doch auf einer Metaebene sind diese Werte aus zufälligen Ereignissen bzw. nicht mit Aussagen aus dem Eye-Test zu vereinbaren. 

Anwendung in der obersten Ebene

Im Gespräch mit mehreren Trainern aus der Bundesliga ergibt sich ein gespaltenes Bild. Ja, viele Statistiken sind definitiv spannend und deuten interessante Thesen an. In den meist zweiköpfigen Trainerstäben fehlt jedoch zum einen eine klare Aufgabenverteilung im Bereich der statistischen Auswertung und zum anderen die Kompetenz und die Methodik, interessante Statistiken zu generieren und auszuwerten. Dies ist einer, so wie ich sie in vielen Fällen erlebt habe, verständlichen Hypothese zugrundeliegend: In der Vorbereitung auf den nächsten Gegner scouten die Trainer meist einen Ausschnitt der letzten Spiele des Gegenübers und, sofern vorhanden, eigene Spiele gegen dieses Team. Durch diesen klassischen „eye-test“ werden Setplays, Stärken, Schwächen, Defensivprinzipien oder ähnliches offengelegt und den eigenen Spielern versucht, kenntlich zu machen.

Dies wäre ein mögliches Szenario, um eine Ergänzung durch Statistiken zu bieten. Das Problem liegt nun im Angebot verfügbarer Zahlen. An dieser Stelle sollten Vereine, welche Synergy Sports in ihrem Repertoire besitzen, ausgenommen sein. Zahlen, welche sich im Netz einsehen lassen, beschreiben die generelle Offensivqualität eines Teams, dessen Fähigkeit den Ball nicht zu verlieren oder die Zone zu verteidigen. Dieses Material bietet den Trainern jedoch keinen Mehrwert und dient ihnen in den häufigsten Fällen ebenfalls nicht, selbst beobachtete Trends zu falsifizieren. Zusätzlich bietet eine mögliche Statistik-Analyse keinen Zeitgewinn, in einem mehrheitlich für die meisten Mannschaften, mit einem Spiel pro Woche, entzerrtem Spielplan. Die Aussage, wie der Gegner in seinem Offensivrating verglichen mit dem eigenen Team dasteht, oder wie es die Zone verteidigt, ergibt sich aus dem Video-Scouting. Ebenfalls lassen sich kurzfristige Trends in den Statistiken nicht widerspiegeln. Dies führt in der Konsequenz dazu, dass die Anwendung von Statistiken auf einem Niveau, um den Gegner zu analysieren, nur auf einem sehr geringen Niveau stattfindet. Meist beschränkt es sich auf den mit Tesafilm an der Bande befestigten Ausdruck mit den besten und schlechtesten Freiwurfschützen. 

In der Zeit der Kaderplanung über den Sommer fällt in vielen Fällen der Blick zuerst auf klassische Box-Score-Statistiken. Punkte pro Spiel, Minuten pro Spiel, Trefferquoten aus dem Feld, geben einen ersten groben Überblick über das Potenzial eines Spielers und wie dessen Qualitäten und die Rolle in bisherigen Karrierestationen einzuordnen sind. Ob und wann dieser Blick auf die Statistiken erfolgt, ist in vielen Fällen stark von der Methodik des agierenden Cheftrainers abhängig.

Raoul Korner verfolgt neue potenzielle Spieler meist bereits über einen längeren Zeitraum im Voraus, auch, in dem er viele Spiele schaut, erweitert sich der Kreis potenzieller Spieler. Andere Trainer wie der ehemalige Bremerhavener, Berliner und Frankfurter Headcoach Muli Katzurin vertrauen auf ein eigens stark ausgeprägtes Netzwerk und darüber verknüpfte Erfahrungsberichte zu potenziellen Spielern. In den beiden vorgestellten Varianten ist der Gebrauch von Statistiken und dessen Zeitpunkt stark unterschiedlich. Die fehlende Ausdrucksstärke verfügbarer Statistiken, führt dennoch auch in dieser Situation zu einem reinen Eye-Test und erfahrungsbasierten Prozess. 

Die Grenze ist erreicht. Wie geht es jetzt weiter?

Die Grenze in der Auswertung der bisher verfügbaren Statistiken scheint erreicht. Play-by-Play-Daten haben in der Auswertung von Metriken mit dem aktuellen Umfang eine Grenze erreicht. Der Zugang zu den Daten und die Auswertung ist zusätzlich nur Personen mit Programmiersprachen-Kenntnissen vorbehalten. Innovationen – wie das Speichern von Wurf-Koordinaten – sind kurzfristig eine Bereicherung für die Auswertung, sind langfristig betrachtet aber nicht nachhaltig.  
Folglich ist die Rolle von solchen Daten in den Clubs der Bundesliga eine untergeordnete. Coaches fehlt in dem vorhandenen Material ein Mehrwert, um Statistiken nachhaltig in ihre Arbeit einzubringen. 

  •  
  •  
  •  
  •  
  •  
  •  

Schreibe einen Kommentar