Kun je met big data voetbaldeskundigen verslaan?
Met big data voorspellen we de omzet van Bruna-winkels. En big data helpen de korfbalbond bij ledenwerving. Kun je met data óók de uitslagen in de Eredivisie voorspellen? Wat begon als een grap tijdens de vrijdagmiddagborrel nam serieuze vormen aan. Wat blijkt? Big data voorspellen voetbaluitslagen beter dan menig deskundige.
Voorspelmodel
Big data en sport is al lang geen vreemde combinatie meer. In 2011 kwam de film Moneyball uit. De directeur van een honkbalteam (gespeeld door Brad Pitt) weet in deze film met een beperkt budget en de inzet van data een zeer succesvol team te formeren. Hoe realistisch dat verhaal is, bewees de Deense club FC Midtjylland in 2015. Met behulp van data werd deze relatief kleine club kampioen van de Deense voetbalcompetitie. Dichterbij huis werkt collega Pascal van Hattum intensief samen met de Korfbalbond om big data succesvol voor korfbalverenigingen in te zetten.
Teams samenstellen, leden leren kennen, je vereniging laten groeien, daarvoor kun je data dus heel goed inzetten. Maar kun je met data ook de uitkomsten van de Eredivisie voorspellen? De data creatives van MarketResponse gingen aan de slag met een voorspelmodel.
De AZ-factor
In het voetbal is een berg data beschikbaar om uitslagen te voorspellen: aantal goals voor en tegen, de leeftijd van de spelers, de totale transferwaarde van de elftallen, de vorm van de teams, hebben ze Europees voetbal gespeeld, positie op de ranglijst, noem maar op. Tot de speelsterkte van de teams uit FiFa aan toe. Die wordt tenslotte ook niet zomaar uit de lucht gegrepen. We hebben zelfs de ‘AZ-factor’ in het leven geroepen. Blijkbaar wijkt het aantal goals dat AZ scoort dermate af van andere eredivisieclubs dat er een extra variabele nodig is om dit ‘juist’ te voorspellen.
Plek 49 (van de 18.000)
We zijn inmiddels 14 speelrondes verder en ons voorspelmodel blijkt aardig te werken. Wekelijks werken we de statistieken bij en zoeken we naar nieuwe manieren en bronnen om ons model te verbeteren. Mijn ‘big data team’ staat op dit moment op plek 49 (voetbalpoules.nl). Van de 18.000 deelnemers wel te verstaan! Om even in de statistieken te blijven, we scoren op basis van big data beter dan 99,7% van alle teams. Ons model voorspelde 56% van de wedstrijden correct (de winnaar of gelijkspel). Van 15% van de wedstrijden werd zelfs de exacte stand juist voorspeld.
Toegeven, dat is niet de 70% die we voor Bruna haalden, maar dat is logisch. De voorspelbaarheid van voetbal ligt een stuk lager. Niet voor niets is het cliché ‘het balletje kan raar rollen’. AZ-factoren ten spijt, veel zaken in het voetbal laten zich domweg niet vangen in data. Zo voorspelde ons model PSV als winnaar in de wedstrijd PSV-FC Groningen. Toch speelde PSV dat weekend gelijk tegen het toen nog puntenloze Groningen.
Onvoorspelbaarheden
In die wedstrijd werd elke statistiek getart. Zo verbrak PSV die dag het wereldrecord gemiste kansen, behaalden ze geen voordeel uit een uur lang met een man meer spelen en miste Luuk de Jong tot overmaat van ramp een penalty. Had de Jong een avondje doorgehaald? Of wellicht de hele selectie? Was er niet op afwerken getraind die week? Wat de reden ook was, tegen zoveel onvoorspelbaarheden kunnen zelfs data niet op.
Conclusie
De voorlopige conclusie van ons experiment: big data is een prachtig voorspelmiddel, zelfs voor voetbaluitslagen. Maar voetbal met grote zekerheid voorspellen blijft lastig. Stiekem ben ik daar wel blij om. Als voetballiefhebber dan. Want die onvoorspelbaarheid maakt voetbal zo mooi. Al baalden we flink van de € 2.400,- die we door het debacle van PSV misliepen. Luuk, we krijgen nog geld van je…