Waar hebben we statistiek voor nodig?

Wetenschappelijke artikelen eindigen vaak met de woorden “We vonden een statistisch significant verband tussen variabele A en variabele B”. Neem bijvoorbeeld een verband tussen het aantal uren dat je slaapt en de grootte van je brein. Lezers die niet bekend zijn met het wetenschappelijk jargon interpreteren dat vaak als “mensen met slaapproblemen hebben dus een kleiner brein”. Wetenschappers staan hier echter voorzichtiger tegenover. Wat betekent de uitdrukking “statistisch significant”, en waarom zijn statistisch significante resultaten niet altijd de waarheid?

graph-163509_1280

Indirecte maten
De zaken die neurowetenschappers bestuderen kunnen niet met het blote oog geobserveerd worden. Als onderzoekers “persoonlijkheid” of “aandacht” meten, maken ze niet echt de hersenpan open om er met een vergrootglas in te turen. In plaats daarvan gebruiken ze indirecte maten. Bijvoorbeeld hoe vaak een deelnemer een flits op een computerscherm opmerkt. Die uitkomst wordt beïnvloed door de experimentele manipulatie (bijvoorbeeld, of de flitsen op dezelfde plek op het scherm plaatsvinden). Maar de uitkomst wordt ook beïnvloed door andere factoren. Misschien plaatst de proefpersoon zijn hand wel een keer verder weg van de responsknop, waardoor het hem meer tijd kost om te reageren. Misschien bedenkt hij zich ineens dat hij is vergeten boodschappen te doen. Misschien is hij juist net in topvorm en ontgaat niets hem. Deze toevallige invloeden kan de onderzoeker niet controleren, dus er blijft altijd een kans dat het gevonden effect in werkelijkheid door toeval is veroorzaakt.

Frequentie van observatie
Bovendien hangt het resultaat ook af van hoe vaak je iets observeert. Een illustrerend voorbeeld: stel je voor dat je een munt hebt waarvan je vermoedt dat die vals is waardoor hij vaker op kop landt. Hoe bevestig je je vermoeden? Je kunt de munt opgooien en de uitkomsten bestuderen. Laten we zeggen dat je de munt twee keer hebt opgegooid, en beide keren is hij op kop beland. Is je conclusie dan dat dit inderdaad een valse munt is? Waarschijnlijk niet: bij een normale munt heb je ¼ kans dat je twee keer kop gooit. Wat te denken van 10 keer achter elkaar kop? Nu kan je er redelijk zeker van zijn dat de munt niet koosjer is. Maar, er is nog steeds een kans van 1 op 1000 dat er niets mis is met die munt. En hoe vaak je je verdachte munt ook opgooit, de kans dat je bevinding op toeval berust wordt nooit nul.

Statistische significantie
Zelfs met zo’n helder experiment is er dus nog ruimte voor twijfel. De uitkomsten van wetenschappelijk onderzoek zijn vaak een stuk minder eenduidig. De munt van een wetenschapper landt vaak zeven keer op kop en drie keer op munt. Meestal wordt 5% kans genomen als drempelwaarde voor statistische significantie. Als de kans op het toevallig vinden van de resultaten 5% of kleiner is, wordt er trots het predicaat “statistisch significant” op geplakt.

Dus wat betekent “statistisch significant” eigenlijk? Het betekent niet dat het resultaat zeker de waarheid is. Met een 5% kans drempel, zal het resultaat van 1 op 20 onderzoeken op toeval gebaseerd zijn. De daadwerkelijke betekenis valt als volgt te interpreteren: “wij zien hier een resultaat dat waarschijnlijk niet door toeval is veroorzaakt, en dus onze aandacht verdient. Enkel als we ditzelfde effect keer op keer weer vinden, kunnen we er redelijkerwijs vanuit gaan dat dit geen toevalstreffer was maar een daadwerkelijk effect”.

Dit blog is geschreven door Alina.
Vertaling door Piet.
Bewerking door Winke.

+ posts

2 thoughts on “Waar hebben we statistiek voor nodig?

  1. Volgens mij wordt de p-waarde of statistische significantie verkeerd weergegeven.

    “Als de kans op het toevallig vinden van de resultaten 5% of kleiner is,” –> p-waarde geeft je niet de kans dat je resultaten toe te wijzen zijn aan toeval. [http://andrewgelman.com/2013/03/12/misunderstanding-the-p-value/]

    “Met een 5% kans drempel, zal het resultaat van 1 op 20 onderzoeken op toeval gebaseerd zijn.” –> dat dit niet klopt volgt ook uit het vorige, maar om zoiets te kunnen zeggen moet je ook de power van de onderzoeken meenemen. Waren 5% procent van de resultaten maar vals positieven, Ioannidis geeft namelijk een hele andere schatting. [http://www.plosmedicine.org/article/info%3Adoi%2F10.1371%2Fjournal.pmed.0020124]

    Wel super leuk om te zien dat hier aandacht voor is op Donders Wonders! Aanraders voor een blog over p-waarden en statistische significantie (naast de eerdere links) zijn: Gigerenzer (2004) Mindless Statistics en Goodman (2008) A Dirty Dozen: Twelve P-Value Misconceptions

    Keep up the good work!

    1. Bedankt voor het lezen van ons blog en voor je reactie, dat stellen we erg op prijs!

      Excuses dat onze verwoording wat misleidend is, dat was niet de bedoeling. We proberen onze blogs kort te houden en toegankelijk voor een breed publiek. Het uitleggen van de p-waarde is lastig zonder in detail te treden over het testen van de nulhypothese. Bedankt dat je er op wijst, we gaan eens kijken of we het anders kunnen verwoorden!

      De kans op het toevallig vinden van resultaten is inderdaad meer dan 5%, al is wat Ioannidis beweert misschien wat te pessimistisch. Maar er is inderdaad zoiets dat Simmons en collega’s “undisclosed flexibility” noemen (http://people.psych.cornell.edu/~jec7/pcd%20pubs/simmonsetal11.pdf): als onderzoekers de mogelijkheid hebben om het verzamelen van gegevens te stoppen of nog 5 extra proefpersonen te testen, of ze ruizige data weggooien of houden, hoeveel covariaten (en welke) ze in de analyse meenemen, enzovoorts, dan wordt de kans op het toevallig vinden van resultaten een stuk groter. Helaas is het waarschijnlijk dat deze situatie niet zomaar verandert zolang financiërende instanties onderzoekers blijven beoordelen op het aantal publicaties, en zolang de redacteuren van wetenschappelijke tijdschriften onderzoeken blijven beoordelen op de grootte van de gerapporteerde p-waardes.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Categories