HC9. Experimenteel onderzoek
9.1 De contemporaine empirische cirkel
Een contemporaine empirisch cirkel
De structuur waar je je aan moet houden bij het doen van onderzoek.
1. Theory en onderzoeksvraag.
2. Onderzoeksontwerp.
3. Hypothese formulering en pre registratie.
4. Steekproeftrekking, randomisering en causaliteit, dataverzameling en datacontrole.
5. Nulhypothese significantie toetsing (NHST) of Bayeasiaanse hypothese evaluatie.
6. Rapportage.
7. Replicatieonderzoek.
Voorbeeldonderzoek: Mixed emotions in the face of endings
Op de dag van hun afstuderen lezen studenten aan de Stanford University oftewel “een tekst die ze eraan
herinnert dat ze een periode in hun leven gaan afsluiten (experimentele groep)” of “een tekst die ze er niet aan
herinnert dat ze een periode gaan afsluiten (controlegroep)”. Vervolgens wordt de mate waarin ze mixed
emotions hebben (zowel blij als bedroefd) gemeten’.
1 – Theory en onderzoeksvraag
Onderzoeksvraag: Hebben studenten de eraan herinnerd worden dat ze hun studententijd gaan afsluiten meer of
minder mixed emotions dan studenten die daar niet aan herinnerd worden?
2 – Onderzoeksontwerp
1. De onafhankelijke variabele is de groepsindeling. In de ene groep worden studenten niet herinnerd aan
de afluisting van de studentetijd. In de ander egroep worden studenten daar wel aan herinnerd.
2. De afhankelijke variabele is mixed emotions. Elke student rapporteert.
a. Happiness op een zeven punts schaal lopend van 1 = not at all tot 7 = extremely.
b. Sadness ook op een zeven punts schaal.
De mixed emotion score is de kleinste van beide resulterende getallen.
c. Scoor je 1 en 7 dan ben je niet blij en erg bedroefd en scoor je laag (1) op mixed emotions.
d. Scoor je 7 en 7 dan ben je heel erg blij en bedroefd en scoor je hoog (7) op mixed emotions.
3 – Hypothese formulering
H0: in de populatie is de gemiddelde score op mixed emotions van de
mensen die niet beïnvloed zijn gelijk aan de gemiddelde score op mixed
emotions van de mensen die wel beïnvloed zijn.
H1: de beiden scores zijn niet gelijk aan elkaar; het gemiddelde in de niet
groep is niet gelijk aan het gemiddelde van de wel groep.
4 – Dataverzameling
Nadat er een steekproef getroken is en mensen over de controle en experiementele condities verdeeld zijn,
moeten de gegevens verzameld worden. In onderhavige onderzoek is elke student gevraagd naar de happiness en
sadness op een 7-punts schaal lopend van not-at-all tot extremely.
5 – Hypothese evaluatie
Twee manieren van hypothese evalutie:
1. NHST: Null Hypothese Significantie
Toetsing.
2. Bayesiaanse hypothese.
NHST-toelichting
De NHST wordt getoetst aan de hand van de t-toets.
Gemiddelde score mixed emotions:
Wel groep: 3.75
Niet groep: 3.00
,Er moet een statistische toets worden uitgevoerd om de p-waarde uit te rekenen.
P-waarde: .02
o P-waarde: de kans op het verschil in gemiddelden zoals gevonden in de steekproef of een
groter verschil, onder de aanname dat H0 waar is.
o Het verschil is .02, dit is een heel klein verschil en de H0 is dus waarschijnlijk niet waar.
Cohen’s d: .45
o Cohen’s d: het gestandaardiseerde verschil tussen de gemiddelden.
Het aantal standaarddeviaties dat de twee gemiddelden van elkaar
verschillen.
o Noot: Cohen’s d kan worden berekend m.b.v. de gemiddeld voor de
wel en niet groepen en de SD (de wortel uit de mean squaded error) zoals deze door zowel
SPSS als JASP gegeven worden.
NHST type I en type II fouten
a: de kant op een type I fout a staat gebruikelijk op .05, d.w.z.; we accepteren een kans van .05 dat we
H0 ten onrechte verwerpen.
Power: de power (1 – kans op een type II fout) staat gebruikelijk op .80, d.w.z.; we willen een kans
van .80 dat we H0 terecht verwerpen. De power in beïnvloedbaar d.m.v. een poweranalyse.
NHST-poweranalyse
Bij een poweranalyse bepaal je hoe groot de steekproef moet zijn, om de H0 te verwerpen als hij niet waar is.
1. De effect sizes die meestal in gedrags-
en sociaalwetenschappelijk onderzoek
worden gevonden liggen tussen .20 en
de .50. Met a = .05 zijn er dus
minstens 64 personen per groep nodig.
2. In het mixed emotions onderzoek zijn
de steekproefgroottes (59 en 51
studenten per groep) kleiner.
NHST-rapportage
De t-test (t = -2.36, df = 108) resulteerde in een p-waarde van .02. Aangezien deze kleiner is dan .05 wordt H0
verworpen. Cohen’s d is -.45 dat is ruwweg een medium effect size waarbij de mixed emotions in de “niet”
groep lager liggen dan in de “wel” groep.
9.2 Replicatiecrisis
Replicatiecrisis
Het mixed-emotions onderzoek is gerepliceerd. Hiernaast staan de
resultaten van de originele en replicatie studie weergegeven.
Voorbeeld replicatiecrisis
Drie observaties:
1. De originele studie heeft p < .05, de replicatiestudie heeft p > .05.
2. De originele studie heeft d = .45, de replicatie studie heeft d = .01.
3. De replicatiestudie heeft met 110 studenten per groep een power groter dan .80 om een effect size dan d
= .45 te kunnen ontdekken (zie de power tabel aan het einde van het vorige college). Het resultaat van
de replicatie studie is dan ook geen type II fout.
Gebruik en misbruik van NHST
De Open Science Collaboration heeft 100 studies (waaronder randomized experiemnts) uit allerlei tijdschriften
gerepliceerd.
1. De effectgroottes (zoals Cohen’s d) waarin in de replicatiestudies maar half zo groot als in de originele
studies.
2. In bijna alle originele studies werd de H0 verworpen (een p-waarde kleiner dan .05). In slechts 1/3e van
de replicatiestudies werd de H0 verworpen.
Er werd duidelijk dat er een replicatiecrisis gaande is in de gedragswetenschappen en mogelijk ook daarbuiten.
Want wat is een onderzoeksresultaat waard als het niet herhaald kan worden?
, De replicatiecrisis leidt tot de vraag hoe het mogelijk is dat de resultaten van wetenschappelijk onderzoek vaak
niet repliceerbaar lijken. Twee van de oorzaken zijn sloppy science en publicatie bias.
Sloppy science (questionable research practices)
1. When explicity asked if they ever fabricated or falsified research data, or if they altered or modified
results to improve the outcome, between 0.3% and 4.9% of scientists replied affirmatively.
2. Other questionable practices were admitted by up to 33.7% of respondents. Consistently across studies,
scientists admitted more frequently to have “modified research results” to improve the outcome than to
have reported results the “knew to be untrue”.
3. When asked if they had personal knowledge of a colleague who fabricated or falsified research data, or
who altered or modified research data between 5.2% and 33.3% of respondents replied affirmatively.
Je kunt dit voorkomen door te pre-registreren en daar niet meer vanaf te wijken.
In de tabel hiernaast is te zien dat
het vinden van een hele lage p-
waarde veel beloningen met zich
meebrengen. Dit is dan ook een
van de redenen dat de
replicatiecrisis is ontstaan en dat
er sprake is van sloppy science en
questionable research practices.
Gelukkig is wetenschap aan het
veranderen en er worden ook
steeds vaker onderzoeken
gepresenteerd waar geen
significante variabelen in te
vinden zijn.
Publicatie bias
Publicatiebias: het publiceren van onderzoek gebaseerd op type I fouten. Deze fouten kunnen zowel het gevolg
van zijn van toeval als van sloppy science. Er wordt alleen iets gepubliceerd wanneer je er iets vindt wat
significant vindt. De a = .05 mag niet meer het criterium zijn om een onderzoek wel of niet te publiceren. Door
pre-registratie toe te passen moet het onderzoek voor de dataverzameling goed- of afgekeurd worden zodat de
publicatie niet afhankelijk is van het resultaat.
9.3 Bayesiaanse hypothese evaluatie
De Bayes factor
Gedurende de replicatiecrisis ontstond er in toenemende mate aandacht voor de Bayes factor als alternatief voor
NHST. Niet dat daarmee allee problemen worden vermeden,
maar de Bayes factor komt voort uit een ander perspectief op
statistiek en het is goed ook dat perspectief te kennen.
De tabel is hetzelfde gebleven, alleen de p-waarde is
vervangen voor de BF0a (Bayes factor).
Bayes factor:
De Bayes factor BF0a heeft de relatieve steun in de
data voor H0 versus Ha.
Als BF0a = 5 betekent dat dat de steun in de data 5x groter is voor H0 dan voor Ha.
Oftewel de BF0a = .64 betekent .64x meer steun voor H0 dan voor Ha.
De hypotheses kun je ook omdraaien BFa0 = 1/.64 = 1.50, oftewel, 1.50x meer steun voor Ha dan voor
H0.
Vuistregels Bayes factor
Als BF0a gelijk is aan 1, dan is de steun in de data voor H0 en Ha even groot.
Als BF0a groter is dan 1, dan is de steun in de data voor H0 groter dan voor Ha.
Als BF0a kleiner is dan 1, dan is de steun in de data voor H0 kleiner dan voor Ha.
De Bayes factor wordt berekend met behulp van de fit (f0) en de complexiteit
(specificiteit) (c0) van de nulhypothese: BF0a = f0/c0.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper revelips. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,99. Je zit daarna nergens aan vast.