HOORCOLLEGE 1 – HET GERANDOMISEERDE EXPERIMENT: BAYESIAANSE
STATISTIEK EN DESIGN OVERWEGINGEN
De empirische cirkel
Een onderzoek moet altijd voldoen aan de volgende stappen:
1. Theorie en onderzoeksvraag
2. Onderzoeksontwerp
3. Hypothese formulering en Preregistratie
4. Steekproeftrekking, Randomiseren en Causaliteit, Data verzameling en Data Controle
5. Nul hypothese significantie toetsing of Bayesiaanse hypothese evaluatie
6. Rapportage
7. Replicatie onderzoek
Bayesiaanse Hypothese Evaluatie
p-waarde is de kans op het verschil in gemiddelden zoals gevonden in de steeproef od een
groter verschil, onder de aanname dat H0 waar is.
Cohen’s d is een gestandaardiseerde effect size maat, het aantal standaarddeviaties dat de
twee gemiddelden van elkaar verschillen
De replicatie crisis
De ene groep psychologen onderzoekt iets en zegt: ‘er is een effect’ en de andere groep
psychologen onderzoekt iets en zegt: ‘er is geen effect’. Bij velen onderzoeken die herhaalt
worden die werden gezien als baanbrekend blijkt bij herhaling niet dezelfde resultaten naar
voren komen, kleinere effectsizen en grotere p-waardes.
Oorzaken van replicatie crisis → p-waarde van 0.05
Sloppy science: 33% van de onderzoekers geeft toe dat zij de wetenschap wel eens hebben
bedrogen en met de data hebben gesjoemeld, 33% geeft dit niet toe en 33% is eerlijk.
Waarom? als je een p-waarde vindt van kleiner dan 0,05 omdat je onderzoek dan pas wordt
gepubliceerd en dit is goed voor je carrière. In plaats van het willen beantwoorden van de
onderzoeksvraag. Hetzelfde geld voor de tijdschriften, die willen graag iets interessant
publiceren.
,Publicatie Bias: Wanneer er 3x geen effect wordt gevonden dan wordt dit telkens niet
gepubliceerd en wanneer iemand dan ineens iets vindt dan wordt het wel gepubliceerd. Het
grootste deel vindt niks, maar wanneer er dan wel iets wordt gevonden (5% kans) dan wordt
het ineens wel gepubliceerd.
Bayes-factor → Oplossing voor het probleem met p-waardes
• Bayes Factor BF0A geeft de relatieve steun in de data voor H0: µ niet = µ wel vs. Ha: µ
niet =/ µ wel.
• Als BF0A = 5 dan betekend dat dat de steun in de data 5x groter is voor H0 dan voor HA
• Als BF0A = - 0,64 van Etz en Vandekerckhove betekent dat 0,64 x meer steun voor H0
dan voor HA
• De hypotheses kun je ook omdraaien: BFa0 = 1/0,64 = 1,50 wat betekent: 1,50 x meer
steun voor Ha dan voor H0
• Bayes Factor geeft de relatieve steun aan
Bayes-factor hangt af van de fit en specificiteit van de nul-hypothese.
Fit van de nul-hypothese = hoe verder de gemiddeldes in de steeproef uit elkaar liggen, hoe
slechter de fit
Specificiteit van de nul-hypothese = hoe preciezer de hypothese, hoe duidelijker de
voorspelling die een hypothese doet (=;>; H(a))
Voordeel aan de Bayes Factor → Er is geen grenswaarde om tot de beslissing te komen over
het verwerpen van de H(0) of het aannemen van de H(a)
, Type I en Type II fouten
Type II fout: Je concludeert ten onrechte dat de nulhypothese niet waar en verwerpt H(0)
ten onrecht
Type II fout: Je concludeert ten onrechte dat de nulhypothese wel waar is terwijl eigenlijk
H(a) waar is.
Alfa: de kans op een type I fout alfa staat gebruikelijke op 0,05 dat wil zeggen: we
accepteren een kans van 0,05 dat we H(0) ten onrechte verwerpen
Power: de power (1 – kans op een type II fout) staat gebruikelijk op 0,80 dat wil zeggen: we
willen een kans van 0,80 dat we H(0) terecht verwerpen
Conditionele Type I en II fouten - Posterior Model Kansen (PMKs)
1. De kans dat H0 waar is gegeven de informatie in de data noemen we PMK0
2. De kans dat Ha waar is gegeven de informatie in de data noemen we PMKa
Beide kansen tellen op tot 1
BF0a PMK0 PMKa
4 0,80 0,20
3 0,75 0,25
Als PMK0 = 0,8 is de conditionele Type I fout want als we voor Ha kiezen is de kans dat we dat
ten onrechte doen gelijk aan 0,8
Als PMKa = 0,2 is de conditionele Type II fout, want als we voor H0 kiezen is de kans dat we
dat ten onrechte doen gelijk aan 0,2
Dit is een interpretatie van Posterior Model Kansen als fout kansen.
De rol van (conditionele) Type I en Type II fouten
Fouten spelen een grote rol bij het bepalen van de steekproefgrootte die nodig is. Bij NGST
wordt dat gedaan door middel van de power analyse. Bij Bayesiaanse hypothese evaluatie
door middel van Bayesian updating.