Big data analyseren? Vermijd deze 3 beruchte valkuilen
Het goed analyseren van big data is essentieel om de onzin te scheiden van de waardevolle informatie. In zo’n analyse zijn veel fouten te maken. Drie beruchte valkuilen heb ik nader uitgewerkt: de klassieke fout om correlatie en causaliteit met elkaar te verwarren, het kijken naar een grote vergaarbak met data omdat het toevallig heel trendy is en teveel vasthouden aan de gemiddelden in plaats van aan de uitersten.
Valkuil 1. Correlatie en causaliteit verwarren
Een klassieker in mijn vakgebied is het verwarren van de begrippen ‘correlatie’ en ‘causaliteit’. Twee zaken kunnen een verband (correlatie) hebben en vaak tegelijkertijd voorkomen, maar dat wil nog niet zeggen dat het één ook het gevolg (causaliteit) is van het ander. Een klassiek voorbeeld is dat van de ooievaars: als in een Hollands dorp het aantal ooievaars én het aantal baby’s toeneemt, dan wil dat nog niet zeggen dat de ooievaars allemaal baby’s hebben rondgebracht bij de moeders.
Een interessant voorbeeld komt uit het boek Freakonomics (aff.). In de jaren 80 en 90 was er in New York sprake van een misdaadgolf. Maar plots kwam die ten einde. Wetenschappers dachten aanvankelijk dat die daling alles te maken had met een zero tolerance-beleid op het gebied van misdaad, strengere gevangenisstraffen of het aan banden leggen van wapenbezit. Daar was namelijk een correlatie mee.
Echte causaliteit ging verder terug in de tijd
Maar de echte causaliteit lag veel verder terug in de tijd. De auteurs ontdekten namelijk dat in landen en staten waar abortus werd gelegaliseerd, criminaliteit na een jaar of twintig afnam. Dit gebeurde ook in New York: daar kregen in armoede opgroeiende moeders de mogelijkheid om de geboorte van hun kinderen af te breken. Daardoor werd een kwetsbare groep mensen (want armoede is een voorspellende factor van criminaliteit) helemaal niet geboren en gingen de criminaliteitscijfers flink omlaag. Maar omdat het zero tolerance-beleid het meest recent was ingevoerd, werd daar de oorzaak van de daling in de eerste instantie verwacht.
Bepalen wanneer sprake is van causaliteit in plaats van correlatie is trouwens notoir moeilijk. En tenslotte kan het ook nog zo zijn dat je op zoek gaat naar een correlatie tussen X en Y, maar dat je een causaal verband vindt tussen X en Z. Zo testten de makers van Sildenafil ooit de effecten van dit medicijn op het ontstaan van hartkrampen. De mannelijke groep van testers kreeg echter een erectie. Sindsdien wordt het middel in markt verkocht als… Viagra.
Valkuil 2. Kijk niet alleen naar gemiddelden, maar ook naar de extremen
Jarenlang was het gangbaar om in marketing naar de gemiddelden te kijken. Tegenwoordig adviseren we marketeers naar de extremen te kijken. Natuurlijk is het heel prettig om te weten dat vakantiepark Twenhaarsveld in Holten gemiddeld een 8,5 scoort op basis van de 620 beoordelingen van bezoekers. Dat is een heel behoorlijke score en veel mensen zullen op basis van deze cijfers afreizen naar het gezellige Oosten.
Maar om beleid te maken zal Landal toch liever iets nader inzoomen op de resultaten per activiteit die het aanbiedt. Het zwembad scoort bijvoorbeeld maar een 7,7 en bezoekers zullen weten dat dit bad redelijk gedateerd is. De andere faciliteiten op het park zijn van een veel hoger niveau en dat blijkt ook uit de cijfers.
Bij het volgende overleg met de bedrijfsleiding zal de manager van het park pleiten voor een beetje budget om het zwembad op te knappen want de kans is groot dat, als het cijfer onder de 7 zakt, mensen voor een andere bestemming kiezen.
Valkuil 3. Op zoek gaan naar trends in een onoverzichtelijke bak met data – en vervolgens verdrinken
Een andere fout is om je blind te staren op een bak met data op zoek naar trends. Maar tenzij je Google bent en miljarden hebt geïnvesteerd in kunstmatige intelligentie en patroonherkenning, kun je het beter andersom doen: probeer een vermoeden dat je hebt bewezen te zien in je bak met data.
Stel je bent manager van een bioscoop in Rotterdam, en je vraagt je af waarom jouw snoepverkopen achterblijven bij die van collega’s in andere steden. Dan kún je de data in duiken. Daaruit blijkt dat de frequentie lager is, de omzet lager, de verkochte hoeveelheden lager, dat bepaalde tijdstippen pieken en andere juist niet, enzovoorts.
Maar bij grotere en ingewikkelder datasets is de kans klein dat je die correlaties toevallig allemaal te pakken zult krijgen. En ook in het voorbeeld hierboven zie je misschien over het hoofd dat de combinatie snoep en bier minder vaak voorkomt dan in je vorige baan als bioscoopmanager. Of dat de verkopen rondom kinderfilms wel naar verwachting presteren, maar rondom volwassenenfilms juist niet (wat aanknopingspunten zijn voor vervolgonderzoek).
Onderbuikgevoel toetsen met data
Daarom is het vaak beter om die waarom-vraag vanuit de onderbuik beantwoord te krijgen, en te toetsen aan de data die je hebt. Als je 10 mensen vraagt ‘heeft u snoep overwogen te kopen’, krijg je misschien te horen dat volwassenen de popcornverpakking kinderachtig vormgegeven vinden. Iedereen klaagt over de kinderachtig vormgegeven bakken voor de popcorn en de flesjes met rietjes zijn ook niet zo aantrekkelijk. Volwassenen voelen zich als een klein kind behandeld: ze willen een bak popcorn met een klassieke Amerikaanse vlag en het liefst drinken ze een biertje aan een echte bar. Dit is een mooi doelgroepanalyse voorbeeld.
Is dat representatief? Pas dan ga je de data in. Je gaat op zoek naar volwassenen en verkopen. Snel zie je dat de omzet van je snoepwinkel vooral tegenvalt op dagen dat er weinig kinderfilms worden gedraaid. Je gaat in de data op zoek naar een relatie tussen het soort films (+6, +12, Alle Leeftijden) en de omzet in de snoepwinkel. Vooral rond films voor ‘+12’ valt die omzet flink tegen. Misschien kwamen de klachten van een paar bezoekers vaker voor. Nu heb je onderbouwing van een onderbuikgevoel, en heb je een gefundeerde reden om andere verpakkingen bij je popcorn te zoeken.
Begin niet met je data, maar eindig ermee
De grote hoeveelheid gegevens die beschikbaar zijn, zorgen ervoor dat we te snel verbanden zien die er niet zijn. En als we soortgelijke fouten maken, dan is de actie die volgt natuurlijk nooit adequaat. Let er dus op dat je geen verbanden legt die er niet zijn, je niet blind staart op de gemiddeldes en dat je het zicht op de werkelijkheid niet verliest.
Dit blog is ook gepubliceerd op Frankwatching.