Samenvatting Field 4th edition
Hoofdstuk 2
Everything you never wanted to know about statistics
Wetenschappers bouwen statistische modellen van processen van de echte wereld om te
voorspellen hoe deze processen zouden werken onder bepaalde condities.
Populaties en steekproeven
Wetenschappers zijn geïnteresseerd in het vinden van resultaten die van toepassing zijn op
een gehele populatie. Omdat we bijna nooit toegang hebben tot de data van een gehele
populatie, verzamelen we date van een subset van de populatie; een steekproef. Des te groter
de steekproef, des te beter het de populatie vertegenwoordigd.
Statistische modellen
Alle statistiek komt in principe neer op de volgende vergelijking:
outcome ! = (model) + error !
Statistische modellen bestaan uit variabelen (constructen) en parameters (schattingen van de
data). Voorbeelden van parameters zijn het gemiddelde, de mediaan en de correlatie en
regressie coëfficiënten.
Sum of squares en variantie
Afwijking is een ander woord voor error.
deviance = outcome ! - model !
Total error = sum of errors
De sum of squared errors geeft aan in hoeverre het model (bijvoorbeeld het gemiddelde als
parameter) past bij de daadwerkelijke situatie.
Sum of squared errors (SS) = ∑"!#$ (𝑜𝑢𝑡𝑐𝑜𝑚𝑒𝑖 – 𝑚𝑜𝑑𝑒𝑙! ) = ∑"!#$(𝑥𝑖 − 𝑥̅ ) ²
De degrees of freedom in statistiek staan voor het aantal observaties die kunnen variëren. Bij
een steekproef is dit N – 1.
%% ∑"
!#$ (+,-.+/0! – /+&02! ) ∑"
!#$(6! 5 6̅ ) ²
Mean squared error = &' = 45$
= 45$
De method of least squares is het principe van het zo klein mogelijk maken van de som of
squared errors.
Standaarderror
Sampling variation is het variëren van steekproeven omdat ze verschillende leden van een
populatie bevatten. Je kan deze variaties mooi weergeven in een sampling distribution.
De standaardafwijking van een steekproef staat bekend als de standaard error van het
gemiddelden oftewel, de standaard error (SE). Hoe kleiner de SE, des te groter de kans dat
de steekproef gemiddeldes gelijk zijn aan de populatie gemiddeldes. De central limit theory
stelt dat als een steekproef groot is (>30), de steekproefverdeling een normale verdeling heeft
met een gemiddelde gelijk aan het populatie gemiddelde. De formule voor de
standaardafwijking is hierbij:
𝑠
𝜎6̅ =
√𝑁
1
,Confidence intervals
Confidence intervals zijn de grenzen van scores opgesteld zodat het gemiddelde van de
populatie hierbinnen zou vallen in 95% van steekproeven.
Een z-score wordt berekend als volgt:
𝑋 − 𝑋9
𝑧=
𝑠
Dit wil zeggen, als er een 95% confidence interval wordt gebruikt en 95% van de z-scores
vallen tussen de -1.96 en de 1.96, krijg je de volgende formules:
Lower boundary of confidence interval = 𝑋9 − (1.96 x 𝑆𝐸)
Upper boundary of confidence interval = 𝑋9 + (1.96 x 𝑆𝐸)
Bij andere confidence intervals kun je de volgende formules gebruiken:
Lower boundary of confidence interval = 𝑋9 − (𝑧$%& x 𝑆𝐸)
'
Upper boundary of confidence interval: 𝑋9 + (𝑧$%& x 𝑆𝐸)
'
Bij een kleine steekproef is er geen sprake van een normale verdeling, maar van een t-
verdeling. Bij het berekenen van een confidence bij een steekproef kleiner dan 30, gebruiken
we de volgende formules:
Lower boundary of confidence interval = 𝑋9 − (𝑡"5$ x 𝑆𝐸)
Upper boundary of confidence interval = 𝑋9 + (𝑡"5$ x 𝑆𝐸)
Null-hypothese testing
De meest voorkomende vorm van het testen van significantie is aan de hand van een 0-
hypothese. Hierbij wordt vaak een p-waarde van 5% genomen, dat wil zeggen dat er slechts
een 5% kans is dat de data die we vinden geen oprecht effect hebben.
Alternatieve hypothese: de hypothese of voorspelling van je theorie dat een effect aanwezig
zal zijn. Wordt soms ook de experimentele hypothese genoemd.
Null hypothese: het tegenovergestelde van de alternatieve hypothese, dat stelt dat het effect
absent is.
Directionele hypothese: stelt dat een effect zal plaatsvinden en ook de richting van het effect
Non-directionele hypothese: stelt dat een effect zal plaatsvinden maar zegt niks over de
richting van het effect
Systematische variatie is variatie die verklaard kan worden door het model die we op maat
hebben gemaakt.
Onsystematische variatie is variatie die hierdoor niet kan worden verklaard, en dat dus een
error is.
9:;<=> A=B:=<C@ @DE>=:<@F GH IJ@ K?F@> @LL@CI
Test statistic = <?:9@ = A=B:=<C@ <?I @DE>=:<@F GH IJ@ K?F@> = @BB?B
Als er nulhypotheses en alternatieve hypotheses gebruiken en de kans valt onder de p-waarde,
dan accepteren we ons model (het is significant) en verwerpen we de nulhypothese.
Een directionele hypothese is een one-tailed test, een non-directionele hypothese een two-
tailed test. Als je ervoor hebt gekozen om een one-tailed test doen en de resultaten wijzen
naar de andere richting, moet je toch de nulhypothese accepteren. Je moet dus eigenlijk alleen
een one-tailed test doen als je daar een hele goede reden voor hebt.
2
,Een Type I-error vindt plaats wanneer we geloven dat er een effect is in onze populatie,
terwijl deze er niet is. De kans van deze error is meestal .05 (𝜶-level) als er geen effect is in
de populatie. We verwerpen dan onjuist de nulhypothese en nemen onterecht de alternatieve
hypothese aan.
Een Type II error vindt plaats als we denken dat er geen effect is in onze populatie, terwijl
die er wel is. De maximum acceptabele mogelijkheid hiervan is .2 (𝜷 – level). In dit geval
verwerpen we dus onjuist de alternatieve hypothese en nemen we onterecht de nulhypothese
aan.
Familywise of experimentwise error rate is de mate van error van statistische testen over
dezelfde data bij elkaar (vermenigvuldigd).
Familywise error = 1 - (0.95)"
n is hierbij het aantal testen dat wordt uitgevoerd over de data.
De meest bekende manier, de Bonferroni correction, om deze familywise error rate in
controle te houden is door de 𝛼 te delen door het aantal vergelijkingen, k.
𝛼
PMB:I =
𝑘
Het vermogen van een test om een effect te vinden wordt ook wel de power genoemd. Dit is
ook wel de kans dat de test een effect vindt, als we ervan uit gaan dat dit er is in de populatie.
Dit is het tegenovergestelde van de kans dat de test een effect niet vindt, als we ervan uit gaan
dat die er in de populatie wel is, oftewel het 𝛽-level. De power van een test is dan ook wel 1 –
𝛽. Over het algemeen willen we een power hebben van .8. Dit hangt van de volgende dingen
af:
- Hoe groot het effect daadwerkelijk is.
- Hoe streng we zijn over het beslissen van significantie.
- De grootte van de steekproef.
Er is een relatie tussen statistische significantie en confidence intervals. Bij net een significant
verschil, dus het verwerpen van H0 (p < .05), is er een matige overlap te zien. Als de
confidence intervals even lang zijn en p < 0.05 wordt gebruikt betekent dit ongeveer een
kwart overlap.
Power is dus gelinkt aan de grootte van een steekproef. Maar de mate van significantie is ook
afhankelijk van de steekproefgrootte, de groter de steekproef, des te significanter het verschil,
zelfs al is dit verschil maar heel klein.
Problemen bij nulhypothese testen
Wat kunnen we (niet) concluderen van statistisch significant testen?
- Dat het effect belangrijk is? Dit is niet waar, want hele kleine en onbelangrijke
effecten kunnen significant zijn vanwege een grote steekproef en hele grote en
belangrijke effecten kunnen over het hoofd worden gezien vanwege een kleine
steekproef.
- Een non-significant resultaat betekent dat de nulhypothese waar is? Ook niet waar.
Hoewel we bij een p-waarde boven .05 de alternatieve hypothese verwerpen, betekent
dat niet dat de nulhypothese waar is.
- Een significant resultaat betekent dat de nulhypothese niet waar is. Dit klopt ook niet,
want een significante test statistiek is gebaseerd op kans beredeneren, wat grenzen
stelt voor onze conclusies.
3
, Een ander probleem met nulhypotheses is dat het alles-of-niets denken aanmoedigt. Kijken
naar confidence intervals in plaats van alleen focussen op significantie zorgt dat we kijken
naar hoe consistent de data is.
Modernere technieken voor het testen van een theorie
Effectsize is de grootte van een effect. Het is een objectieve en gestandaardiseerde meting van
de impact van het geobserveerde effect.
De meest voorkomende metingen van de effectsize zijn de Cohen’s d, Pearson’s
correlatiecoëfficiënt r en de kans ratio. De Cohen’s d bereken je door het verschil tussen
gemiddeldes te delen door de standaardafwijking. Hierdoor krijgen we niet alleen een signal-
to-noise ratio, maar krijgen we ook een waarde uitgedrukt in dezelfde metingen als de
standaardafwijkingen.
𝑋9$ − 𝑋9N
𝑑J =
𝑠
0.2 is een klein effect, 0.5 medium en 0.8 groot.
Maar welke standaardafwijking moet je daarbij gebruiken? Als beide groepen dezelfde
standaardafwijking hebben kun je die gebruiken, maar zo niet dan zijn er twee opties:
- De standaardafwijking van de controlegroep gebruiken.
- Een pool maken van de verschillende standaardafwijkingen.
(𝑁$ − 1)s$N + (𝑁N − 1)sNN
sO = L
𝑁$ + 𝑁N − 2
In tegenstelling tot p-waardes worden effectgroottes niet beïnvloed door de steekproefgrootte.
Het heeft wel invloed op hoe nauwkeurig de effectsize van de steekproef matcht met die van
de populatie (precisie).
Pearson’s correlatiecoëfficiënt r is ook een effectgrootte. .10 is hierbij een klein effect, .30
een medium effect en .5 een groot effect.
Meta-analyse
Meta-analyse is het gebruiken van meerdere onderzoeken om een definitieve schatting te
maken van een effect in een populatie.
P
Σ!#$ 𝑑!
𝑑̅ =
𝑛
Met deze formule bereken je eigenlijk gewoon de gemiddelde effect size.
Rapporteren van statistische models
- 95% confidence intervals worden gerapporteerd in vierkante haakjes.
- Er wordt aangeraden om zowel een effect size als p-waarden te rapporteren.
Voorbeelden:
- ‘Angstreacties waren hoger M = 9.86 [7.41, 12.31] als Andy’s kat Fuzzy een neptong
droeg vergeleken met als hij dit niet deed M = 6.58 [3.47, 9.69].
- ‘Angstreacties waren significant hoger als Andy’s kat Fuzzy een neptong droeg
vergeleken met als hij dit niet deed, p = .023, d = 0.54.
4