Ultieme samenvatting EOM
Hoorcollege 1 – Samenvatting eerdere cursussen &
relatie tot EOM
Data op zichzelf zegt niet zoveel en is lastig te interpreteren beschrijvende statistiek helpt ons om
de data uit de steekproef samen te vatten, en dus interpreteerbaar te maken twee manieren:
1. Een verdeling van de scores maken de data samenvatten door het groeperen van data
met dezelfde score. Dit kan met een frequentieverdeling of een histogram
2. Steekproefgrootheden de data vatten we samen door kenmerkende eigenschappen van
de verdeling van de data
I. Meest kenmerkende score van de verdeling = centrale tendentie
Gemiddelde
Mediaan = middelste score
Modus = meest voorkomende score
II. Hoeveel wijken scores af van de meest kenmerkende score? = spreidingsmaten
Range = hoogste score – laagste score
Variantie = de soms van alle gekwadrateerde deviatiescores, gedeeld door het
aantal scores – 1
Standaarddeviatie = de wortel van de variantie
Met inferentiële statistiek kunnen we op basis van een steekproef een uitspraak proberen te doen
over de populatie:
1. Hypothese toetsen = je gaat na of het gemiddelde in de populatie gelijk is aan een bepaalde
waarde of niet hypotheses zijn uitsluitend en uitputtend!
- Vuistregels voor het opstellen van hypothesen:
H 0bevat het = -teken gaat altijd op
H 1bevat de verwachtingen van de onderzoeker gaat bijna altijd op
- p- waarde = de kans dat de waarde van X in de populatie optreedt of nog extremer *
- De output van een hypothesetoets is altijd tweezijdig, waardoor
we de beslissingsboom moeten toepassen om het om te zetten
naar een eenzijdige toets
2. Puntschatten = het gemiddelde of de variantie van de steekproef als
populatiewaarde aannemen
3. Intervalschatten = betrouwbaarheidsinterval we beantwoorden de
volgende vraag ‘Wat is het interval waarbinnen de waarde van de
parameter zich met …% zekerheid bevindt?’
s s
- X −t cv × / X +t cv ×
√N √N
- Wanneer het interval uit een SPSS-tabel wordt afgeleid, staat
bovenaan de tabel de test-value (= H 0- waarde) aangegeven. Zowel de boven- als
ondergrens van het betrouwbaarheidsinterval moet je dan optellen bij de H 0 - waarde
- Als μ H wel in het CI ( 1−a) ×100 % interval ligt, dan mag je H 0 niet verwerpen ten gunste van een
0
tweezijdig alternatief
- Als μ H niet in het CI ( 1−a) ×100 % interval ligt, dan mag je H 0 wel verwerpen ten gunste van
0
een tweezijdig alternatief
,!!! Een alternatieve interpretatie van het betrouwbaarheidsinterval (CI ) in relatie tot hypothese toetsen
het CI 95 geeft alle mogelijke hypothetische waarden voor μ die niet worden verworpen door de
steekproefgegevens, gegeven a=0.05
* Als de p- waarde kleiner is dan de a - waarde ( p<a ), concludeer je dat ‘als mijn H 0 waar is, dan is de
kans dat ik deze waarde voor X vind of nog extremer, kleiner dan a . Deze kans is zo klein, dat ik geen
vertrouwen meer heb in mijn nulhypothese en ik H 0 dus verwerp.’
Als de p- waarde groter is dan de a - waarde ( p>a ), concludeer je dat ‘als mijn H 0 waar is, dan is de kans
dat ik deze waarde voor X vind of nog extremer best groot. Ik heb dus niet genoeg redenen om te
twijfelen aan de juistheid van H 0 en verwerp H 0 dus niet.’
Hoorcollege 2 – Onderscheidend vermogen,
effectgrootte en één-weg ANOVA I
Onderscheidend vermogen/power = de kans op het verwerpen van de nulhypothese, gegeven dat
deze in werkelijkheid niet waar is een grote power is wenselijk, omdat dit een hoge kans op het
terecht verwerpen van de nulhypothese impliceert
- Type I fout = onterecht verwerpen van de nulhypothese in je steekproef vind je een effect,
maar in de populatie is die er niet deze kans is gelijk aan de gekozen Alpha (0.05)
- Type II fout = onterecht behouden van de nulhypothese in je steekproef vind je geen
effect, maar in de populatie is die er wel deze kans wordt aangeduid met bèta ( β )
De power wordt bepaald door 1−β
We willen a zo laag mogelijk hebben en de power (1−β ) zo hoog mogelijk
POWER BEPALEN
X −μ H
1. Bepaal de Z cv onder de H 0 (bij een gegeven a en de richting van de toets) z=
0
σ x/√N
Kijk voor de kritieke waarde in Tabel B.2 kijk in de kolom van de gegeven a en in de
laatste rij met ∞
Als de alternatieve hypothese éénzijdig is, met een < in de hypothese dan is de Z cv
negatief (dus i.p.v. 2.326 bij een eenzijdige met a=0.01, is de Z cv -2.326)
2. Bepaal het steekproefgemiddelde X cv dat bij Z cv hoort onder de H 0
σ
X cv =μ H + Z cv ×σ X , waarbij σ X =
0
√N
X−μ H
3. Reken de kritieke grenswaarde X cv om naar de Z H - waarde onder H 1 Z H = 1
1 1
σX
4. Het onderscheidend vermogen is gelijk aan de kans P ( Z ≥ Z H | H 1 ¿
1
P ( Z ≥ Z H | H 1 ¿ vind je in Tabel B.1 wanneer de kritieke X cv-waarde zich bevindt tussen
1
μ0 en μ1, moet je bij ‘proportion in body’ kijken
Wanneer de Z H -waarde precies tussen twee andere waarden zit, neem je het gemiddelde
1
van deze twee bijbehorende waarden ((waarde 1 + waarde 2) : 2)
Een significant resultaat betekent niet gelijk:
- Dat er een systematisch effect is er zijn altijd steekproeffluctuaties waardoor het ene
gemiddelde wel significant is en het andere niet + je kan een effect ook ‘toevallig’ vinden
- Dat het effect praktisch significant is zelfs hele kleine, oninteressante verschillen zijn
significant wanneer je grote steekproeven hebt, maar dit betekent niet dat je er in de praktijk
ook iets aan hebt
, Door het laten toenemen van de steekproefgrootte, daalt de standaardfout ( S X ) en krijg je een
lagere p-waarde, waardoor je dus sneller en significant effect vindt
Om de praktische significantie te begrijpen, is de effectgrootte van belang (effectgrootte = hoe groot
is het effect wat we vinden in de steekproef?) twee belangrijke maten:
1. Cohen’s d = hoe groot is het relatieve verschil in groepen
Zie formules op formuleblad
2. (Partiële) verklaarde variantie η2 = hoeveel procent van alle
variantie in Y wordt verklaard door X ?
(1) en (2) komen altijd op dezelfde conclusie uit!
Eén-weg ANOVA
Bij een ANOVA vergelijk je de gemiddelden van groepen met elkaar een ANOVA van twee groepen is
gelijk aan een onafhankelijke t -toets
Onderdelen van een ANOVA:
- Factoren = de categorische onafhankelijke variabelen
- Niveaus = categorieën van de factoren (onafhankelijke variabelen)
- Conditie = elke combinatie van niveaus
- Factorial design = een design met meerdere factoren
- Fully crossed factorial design = een design waarbij men ieder niveau heeft ‘gecrossed’ en
geïnteresseerd is in alle combinaties
Een manier om de nulhypothese op te stellen (naast H 0 : μ1=μ2=…=μ K =μ )
H 0 :ak =μk −μ=0 want, als μk en μ niet verschillen (= 0) is er GEEN treatment effect! En verschillen
de groepen dus niet van elkaar
Aantal t -toetsen wat je nodig hebt met meerdere condities ( K ) = K ×( K−1)/2
Het uitvoeren van meerdere t -toetsen vergroot de kans op een Type I fout kans bij deze t -toetsen op
tenminste één Type I fout = 1−¿ (c = aantal t -toetsen)
- (1−a) is de kans op het maken van GEEN Type I fout
- Experiment-wise Type-I error rate = de kans op tenminste één Type I fout
- Test-wise Type-I error rate = het risico op een Type I fout voor een individuele toets
Een ANOVA (omnibus toets) en de Bonferroni correctie zorgen voor het constant houden van de kans
op een Type I fout
Bij een ANOVA vergelijken we de variantie tussen groepsgemiddelden met de variantie binnen
groepgemiddelden
- Verschillen TUSSEN groepen de verschillen tussen het overkoepelend gemiddelde ( μ) en
groepsgemiddelden ( μ1 , μ 2 , μ3), kunnen verklaard worden door groepslidmaatschap
- Verschillen BINNEN groepen verschillen tussen het groepsgemiddelde en de geobserveerde
scores kunnen niet verklaard worden
- Als de variantie binnen groepen GROTER is dan de variantie tussen groepen kunnen we niet
zeggen dat de spreiding toe te schrijven is aan groepslidmaatschap, we kunnen dan dus niet
zeggen dat de groepen verschillen
- Wanneer de variantie tussen groepen GROTER is dan de variantie binnen groepen kunnen we dit
wel toeschrijven aan groepslidmaatschap en kunnen we dus concluderen dat de groepen
, verschillen
Hoorcollege 3 – Eén-weg ANOVA II
Overkoepelende gemiddelde Ý = het gemiddelde van iedere groep (Y k ) bij elkaar optellen, en delen
door het aantal groepen
Scores van personen variëren om twee redenen:
1. Doordat ze zijn blootgesteld aan verschillende (experimentele) condities = het verklaarde deel
2. Door alle andere (onbekende) invloeden = het onverklaarde deel/residual/error de variantie
die niet verklaard kan worden door groepslidmaatschap de variantie binnen groepen
Mensen binnen dezelfde groep zijn blootgesteld aan dezelfde conditie, de variantie in scores komt dus
alleen door andere (onbekende) invloeden
Y i , k =μ+α k +ε i , k
- Y i , k = de werkelijke score van persoon i in groep k
- μ= het overkoepelende gemiddelde
- α k = het groepseffect/treatment effect = hoeveel wijkt het gemiddelde van groep k af van het
overkoepelend gemiddelde hoe groot is het effect van die ene groep op het gemiddelde?
α k =μ k −μof a k =Y k −Ý
- ε i ,k = residual = hoeveel persoon i in groep k afwijkt van het groepsgemiddelde
ε i ,k =Y i , k −Y k
Populatiemodel ( Y i , k −μ ) =α k + ε i , k of ( Y i , k −Ý ) =(Y ¿ ¿ k−Ý )+(Y ¿ ¿ i, k −Y k )¿ ¿ voor steekproef
- De afstand tussen de geobserveerde score en het populatiegemiddelde wordt verklaard door
groepslidmaatschap (treatmenteffect) en het residu-deel
Opsplitsen van de totale Sum of Squares in within en between
Ons doel is het splitsen van de totale Sum of Squares in een SS binnen en tussen groepen
In steekproeven zullen verschillen tussen gemiddelden altijd verschillen van 0, dit komt door fluctuaties
in de steekproeven. Wanneer de verschillen 0 zijn, is het resultaat vaak te mooi om waar te zijn, het is
verdacht. We kijken dus of de variantie tussen de groepsgemiddelden groter is dan bij toeval verwacht,
gegeven de binnen-groepsvarianties (vandaar de variantieanalyse)
De F -toets
,1) Formuleren van de hypothesen (in termen van groepsgemiddelden):
- H 0 : μ1=μ2=μ 3=μ4
- H 1 : niet H 0
2) Berekenen van de toetsingsgrootheid
F = de ratio tussen between-groepsvariantie en within-groepsvariantie hoe groter F , des te groter
de between-groepsvariantie ( MS B ) in verhouding tot de within-groepsvariantie ( MS W ), en hoe meer
bewijs er dus is tegen de nulhypothese
MS B
F= , met:
MSW
SS B
- MS B = , met df B=K −1 (5.933)
df B
SSW
- MS W = , met df W =N−K (4.325)
df W
Bij de voorbeeldgetallen is er een groter verschil tussen groepen, dan binnen groepen (5.933 > 4.325)
Onder de nulhypothese geldt dat de between-groepsvariantie gelijk is aan de within-groepsvariantie,
dus verwachten we F=1
Wanneer er een groepseffect is geldt dat de verschillen tussen groepen groter zijn dan binnen groepen (
MS B > MS W ) een F> 1 geeft bewijs tegen de nulhypothese!
- Maar hoe groot moet F zijn voordat we kunnen concluderen dat er een effect is en we de
nulhypothese dus mogen verwerpen?
3) Gebruik de F -verdeling
5.933 MS B
Bij de voorbeeldgetallen zal de F -waarde =1.372 zijn ( F= )
4.325 MSW
Om de kritieke F -waarde ( F cv) te kunnen bepalen, is Tabel B.4 nodig
- df B=df numerator ( K−1 )
- df W =df denominator (N −K)
Verwerp de nulhypothese als de F -waarde GROTER is dan de kritieke F -waarde
ANOVA in SPSS
De SPSS-output van een ANOVA met meer dan twee groepen ( K >2) is altijd tweezijdig, waardoor we de
p- waarde dus gelijk kunnen interpreteren ( p=Sig )
1) Is het effect van praktisch belang?
, Hoeveel van de totale variantie in de afhankelijke variabele kan worden verklaard door
2 SS B
groepslidmaatschap? η = , die je kan interpreteren met de vuistregels
SST
Onderscheidend
vermogen in ANOVA
Onderzoekers bepalen voordat een onderzoek gedaan wordt hoe groot N moet zijn, gegeven α en de
effectgrootte, om een bepaald onderscheidend vermogen te behalen
-Afhankelijke variabele = prestatie van ratten in een doolhof
-Factor = 4 niveaus van medicatiedosis K=4
-De onderzoeker verwacht dat het grootste verschil tussen de waardes van μk gelijk zijn aan
0.75 ×within-groupvariantie (σ )
- Hij kiest a=0.05 en wil een onderscheidend vermogen van 0.8
Hoeveel ratten hebben we nodig in elke groep (n k)
- Tabel B.6 in het boek laat de steekproefgrootte per groep
zien
- n k = 40, dus 40 ratten per groep 40 x 4 = 160 ratten zijn
er in totaal nodig om een power van 0.8 te krijgen
Hoorcollege 4 – Contrasten I
2
t =F
in een ANOVA, een onafhankelijke t -toets en een regressieanalyse, krijg je steeds hetzelfde resultaat
wanneer het aantal groepen twee is ( K=2)
Assumpties van een statistische toets
Wanneer een assumptie van een toets geschonden is, kan de toets robuust of niet robuust zijn tegen de
schending van deze assumptie:
- Een toets is robuust tegen de schending als de werkelijke p-waarde (= de p-waarde zonder
schending) ongeveer gelijk is aan de gerapporteerde p-waarde
- Een toets is niet robuust tegen schending als de werkelijke p-waarde ongelijk is aan de
gerapporteerde p-waarde de werkelijke p-waarde is hoger/lager dan de gerapporteerde p-
waarde je mag de resultaten van de toets niet interpreteren, ze zijn onjuist
Assumpties ANOVA
1. Onafhankelijke observaties ANOVA is niet robuust tegen deze schending gebruik een RMA
Deze assumptie wordt geschonden wanneer een persoon meerdere keren gemeten wordt
2. Residuals zijn normaal verdeeld in elke groep ANOVA is robuust tegen deze schending als de
steekproefgroottes per groep minstens 30 is n k ≥ 30
3. Variantie van de residuals is hetzelfde in de verschillende groepen = aanname van
homogeniteit van variantie
Levene’s toets als deze p-waarde significant is, is de assumptie geschonden