Aantekeningen TOE EXPERIMENTEEL TT3
HC1
Empirische cirkel / onderzoek cyclus geloof ik
Hoe moet je onderzoek doen?
1. Theorie en onderzoeksvraag
2. Onderzoeksontwerp
3. Hypothese formuleren en preregistratie
4. Steekproeftrekking, randomiseren en causaliteit, data verzameling en data controle
5. NHST of Bayesiaanse hypothese evaluatie
6. Rapportage
7. Replicatie
Moet in deze volgorde.
Cohens d = gestandaardiseerde effect maat? Dit is wat de twee groepen ongeveer in SD van elkaar
verschillen.
Replicatiecrisis is de oorzaak van / bestaan van p waarde leidt tot:
- sloppy science / questionable research practice: bv resultaten aanpassen om het mooier te laten
lijken.
- publicatie bias: tijdschriften willen alleen lage p waarde publiceren anders niet interessant. Daarom
probeer je die als onderzoeker ook te krijgen door bv het vorige streepje te doen.
Daarom alternatieve methode voor data analyse dan p; bayes factor. Deze werkt als volgt:
- BF0a geeft de relatieve steun in de data voor h0 (geen effect) versus ha (wel effect)
- BF0a = 5 betekend dat: er is 5 keer meer steun in de data voor h0 dan voor ha
- BF0a = 0,64. Dan is BFa0: ,64 = 1,50. Dus BFa0 = 1 / BF0a
Bayes factor heeft geen grenswaarde (anders weer replicatiecrisis) Nog wat feitjes over BF:
- als BF0a = 1, dan is voor h0 en ha gelijke steun in de data
- Als BF0a > 1, dan is voor h0 de steun groter
- Als BF0a < 1, dan is voor ha de steun groter
De BF hangt af van de fit en complexiteit van hypothese (BF0a = f0 / c0)
- fit: als je in een steekproef twee gemiddeldes vindt die veel op elkaar lijken heb je een hoge fit,
want h0 = dat de gemiddeldes gelijk zijn dus hoe meer dit zo is hoe meer fit. Dus fit = hoe goed past
data bij de hypothese
- complexiteit: hoe specifiek is het? H0: m=m. Dit is heel specifiek want het moet precies gelijk aan
elkaar zijn, daarop kan je dan betere voorspellingen maken. M > m ook specifiek maar minder, ha
niet specifiek.
Fouten van p / NHST:
- Type I fout: h0 verwerpen terwijl deze wel waar is in de populatie. Dus foutief h0 verwerpen. Dus er
is eigenlijk geen effect. De kans op type I fout (alfa) = je p grens = 0,05.
- Type II fout: foutief h0 aannemen. Dus er is eigenlijk wel effect. Power = de kans om de
nulhypothese terecht te verwerpen. Dit willen we 80% hebben. Hiermee is de kans op een type II
fout dus 20%.
, Fouten BF: posterior model kansen/probabilities (PMK / PMP) (tellen samen op tot 1)
- PMK 0 = de kans dat h0 waar is
- PMK a = de kans dat ha waar is
BF0a = 4 geeft PMK 0 = 0,80 en PMK a = 0,20. Want: 0,,20 = 4.
Dus formule: PMK 0 / PMK a = BF0a
PMK 0 = conditionele type 1 fout want als we voor ha kiezen is de kans dat we dat ten onrechte doen
gelijk aan PMK 0
PMK a = conditionele type 2 fout want als we voor h0 kiezen is de kans dat we dat ten onrechte doen
gelijk aan PMK a
Poweranalyse (NHST): je wilt weten hoe groot
je steekproef moet zijn om voldoende power
te hebben. Dit hangt af van cohen’s d
(effectsize) en alfa. (d: 0,2 = klein, 0,5 =
gemiddeld, 0,8 = groot). Voor een power van
80% ziet dat er zo uit:
Cohen’s d is eigenlijk nooit 0,80 dus we hebben 64 personen nodig. Krijg je deze niet bij elkaar ga dan
samenwerken: team science. Als je ze niet bij elkaar krijgt: under powered.
Bayesian updating: je begint met een redelijk aantal personen per groep en voegt daar steeds een
aantal bij totdat je de BF en PMP waarden hebt die je overtuigend genoeg vindt. Je bepaalt dus niet
vooraf je steekproefgrootte maar tijdens je onderzoek.
Gepaarde t-test: elke persoon wordt twee keer gemeten, voor en nameting.
Threats van gepaarde metingen design:
- maturation threat: we zien een natuurlijke ontwikkeling, bv natuurlijk verbeterd.
- history threat: een externe gebeurtenis beïnvloedt (alle?) deelnemers
- regression to the mean: alle patiënten waren behoorlijk ziek, ze konden niet verslechteren maar
wel verbeteren. Je voelt je geweldig dus kan alleen slechter, of andersom.
- observer bias: onderzoeker vindt wat hij wilt vinden
- demand characteristics: participanten hebben door wat de studie is en veranderen hun gedrag
- placebo effect: niet de behandeling geeft het effect maar het idee van behandeling
Oplossingen threats:
- controle groep toevoegen: klassieke experimentele design. Hiermee los je niet observer bias en
demand characteristics op (en placebo alleen door uitbreiding)
- Blind design: therapeut of patiënt weten niet of ze in C of E groep zitten, bijvoorbeeld door andere
behandelaar depressie te laten testen. Dan is observer bias opgelost, als onderzoeker het niet weet.
Als respondent bv niet weet welke pil die krijgt los je demand characteristics op.
- Dubbel blind design: als beide onderzoeker en respondent het niet weten.
- Drie groepen: 1; echte therapie 2; warme aandacht 3; controle groep (niks). Hiermee kunnen we
het placebo effect controleren. Als er geen verschil is, is er placebo effect.