TOE Hoorcolleges Experimenteel
Hoorcollege 1 t-toets, Bayesiaanse statistiek, interne validiteit 25-02-20
De empirische cirkel
1. Theorie en onderzoeksvraag
2. Onderzoeksontwerp
3. Hypothese formulering en preregistratie
4. Steekproeftrekking, randomizeren en causaliteit, data verzameling en data
controle
5. Nul hypothese significantie toetsting (NHST) of Bayesiaanse hypothese
evaluatie
6. Rapportage
7. Replicatie onderzoek
Sloppy science
Vervalsing of datafabricage
Data aanpassen om data mooier te laten lijken
Mensen willen p-waarde onder de 0,05 hebben
Publicatie bias
Een artikel wordt alleen in een tijdschrift gepubliceerd als het interessant
genoeg is
Het publiceren van onderzoek gebaseerd op Type 1 fouten (je denkt verschil
maar is er niet) deze fouten kunnen zowel het gevolg zijn van toeval als
van sloppy science
Nul hypothese significantie toetsing
Type I – je denkt verschil, maar is er niet je verwerpt H0 onterecht alfa
Type II – je denkt geen verschil, maar is er wel je houdt H0 onterecht
Power – H0 terecht verwerpen kans van 0,8
,Bayesiaanse hypothese evaluatie
Alternatieve methode voor data analyse
P-waarde wordt vervangen door de Bayes factor (BF)
Als BF0a = 1 dan is de steun in de data voor H0 en Ha even groot
Als BF0a > 1 dan is de steun in de data voor H0 groter dan voor Ha
Als BF0a < 1 dan is de steun in de data voor H0 kleiner dan voor Ha
De fit wordt kleiner als de
afstand tussen de
gemiddelden toeneemt
Een goede hypothese is ook
specifiek, want hoe precieser
de hypothese, hoe duidelijker
de voorspelling die een
hypothese doet
Groep A = Groep B
specifiek
Groep A < Groep B minder
specifiek, want dit zegt slechts dat in de populatie het gemiddelde in de wel
groep groter is dan in de niet groep
Ha is in het geheel niet specifiek deze hypothese zegt dat alles mogelijk is
behalve dat in de populatie de twee gemiddelden exact gelijk aan elkaar zijn
H0 is zeer specifiek
De Bayes factor wordt niet vergeleken met een grenswaarde om tot een
beslissing ten faveure van H0 of Ha te komen. Dit is remedie tegen:
- Questionable Research Practices – omdat nu de incentive om de analyses
zo te manipuleren dat er Bayes factor groter dan een bepaalde
grenswaarde uitkomt weg wordt genomen
- Publication Bias – omdat tijdschriften niet langer een grenswaarde tot hun
beschikking hebben die ze kunnen gebruiken om artikelen mee te
beoordelen
Wanneer is de Bayes factor groot genoeg om voor H0 of voor Ha te kiezen?
- BF0a = 100 H0 waarschijnlijk meer gesteund
- BF0a = 25 H0 substantieel meer gesteund
- BF0a = 5 H0 meer steun, maar Ha kan niet worden gediskwalificeerd
- BF0a = 1,5 eigenlijk geen voorkeur voor H0 of Ha
Posterior model kansen (PMKs)
- De kans dat H0 waar is gegeven de informatie in de data noemen we
PMK0
- De kans dat Ha waar is gegeven de informatie in de data noemen we
PMKa
- Beide kansen tellen op tot 1.0
, - PMK0 = 0,8 conditionele Type I fout, want, als we voor Ha kiezen is de
kans dat we dat ten onrechte doen gelijk aan 0,8. Kans dat H0 niet waar is
= alsnog 20%
- PMKa = 0,2 conditionele Type II fout, want, als we voor H0 kiezen i s de
kans dat we dat ten onrechte doen gelijk aan 0,2. Kans dat Ha niet waar is
= alsnog 80%
Fouten spelen een grote rol bij het bepalen van de steekproefgrootte die nodig is. Bij
NHST wordt dat gedaan door middel van een power analyse. Bij Bayesiaanse
hypothese evaluatie door middel van Bayesian updating
Power analyse – nul hypothese significantie toetsing
De effect sizes die meestal in sociaal wetenschappelijk onderzoek worden
gevonden liggen tussen de 0,2 en de 0,5. Met a = 0,05
Underpowed studie niet genoeg power
0,2 = klein effectgrootte
0,5 = medium effectgrootte
0,8 = groot effectgrootte
Bayesian updating – bayesiaanse hypothese evaluatie
Alternatief voor poweranalyse
Begin met een redelijk aantal personen
Voeg telkens personen toe en ga daar mee door tot dat de BF en PMP
waarden overtuigend zijn; of tot dat je geld, energie of proefpersonen op zijn
Je bepaalt tijdens de rit hoe groot de steekproef moet zijn
NHST vs. Bayes Factor
Bij NHST kunnen de Type I en Type II fouten door de onderzoeker gekozen
worden. Een keuze voor a = 0,05 fixeerd de Type I fout. Een power analyse
kan er voor zorgen dat de Type II fout gelijk is aan 0,8. Deze fouten worden
vastgesteld zonder dat de echte data daarbij betrokken worden
Bij Bayesiaanse hypothese evaluatie kunnen de conditionele Type I en II
fouten niet van te voren bepaald worden. Ze worden geheel door de echte
data bepaald en die moeten dus eerst verzameld worden
Dit kan betekenen dat na uitvoering van een onderzoek de conditionele Type I
en II fouten te groot zijn. Dit kan worden verholpen door middel van Bayesian
updating
Experimentele designs
Gepaarde t-test elke persoon wordt 2x gemeten en beide metingen worden
met elkaar vergeleken
- H0 = 0 Ha = niet 0
Dit design met voor en nameting, en, controle en experimentele groep
noemen we het klassieke experimentele design
Het is niet altijd mogelijk, maar soms kan een experiment zo ontworpen
worden dat of de therapeut of de patient niet weet in welke groep ze zitten
blind design
Als niemand weet in welke groep we zitten spreken we van dubbel blind
design
Threat’s