Statistiek II - Psychologie
College 0 – overzicht statistiek I
Statistiek 2
- Statistiek 2 introduceert een aantal inferential methods voor het onderzoeken van
relaties tussen variabelen in een breed scala aan praktische settings
- Deze methodes bouwen allemaal voort op de basics van statistical inference, geleerd
bij stat 1:
o Betrouwbaarheidsintervallen, hypothese toetsing, P-values, de t-test, normale
verdelingen, Z-scores, checken assumpties…
- Herhaal: Ch1-9 in Moore & McCabe
Inferential statistics
Inference = To derive as a conclusion from facts or premises
Ofwel het generaliseren van waarnemingen, kenmerken, eigenschappen uit steekproeven
naar de gehele populatie
Confidence intervals
- Een C% CI bevat een (onbekende) populatie parameter met C% zekerheid (certainty)
- Als het onderzoek heel vaak herhaald wordt, dan zal ongeveer C% van de Cis de
parameter bevatten
Hypothese toetsing
- De kans op het huidige steekproefresultaat (of extremer) is zo klein, onder de
nulhypothese, dat het onwaarschijnlijk is dat de parameter een bepaalde waarde
heeft (gedefinieerd in H0)
Populatie en steekproef (sample)
- Gebruik een feit van de steekproef om de werkelijkheid over de gehele populatie te
schatten
- Bekend steekproefgemiddelde & onbekend populatiegemiddelde
1
,Sampling distribution
Begrijpen van de sampling distribution van het steekproefgemiddelde (voor vaste
steekproefgrootte n):
1. Verzamel een steekproef. Bereken steekproefgemiddelde: y1
2. Verzamel een steekproef. Bereken steekproefgemiddelde: y2
3. …. (herhaal dit heel erg vaak)
Dit levert een set van steekproefgemiddelde: (y1, y2, y3,…). Deze set van scores heeft een
bepaalde verdeling = the sampling distribution of the sample mean
Dit principe kan natuurlijk gegeneraliseerd worden naar elke andere statistic dan het
steekproefgemiddelde (de sample mean)
Dus, the sampling distribution is de kansverdeling van een statistic in de steekproef.
Wat weten we over de sampling distribution van y waardoor we deze kunnen gebruiken om
μ te schatten?
Significance tests
Onderliggende principes:
- Een formele procedure voor het vergelijken van waargenomen data met een
hypothese waarvan we de werkelijkheid willen beoordelen
2
, - Het is de bedoeling dat bewijs geleverd door de data tegen H0 en ten gunste van Ha
wordt beoordeeld
Er zijn twee soorten hypotheses in significance testing:
- Nulhypothese (H0): een uitspraak over de waarde van de populatieparameter
- Alternatieve hypothese (Ha): een uitspraak die in tegenspraak met de nulhypothese is
(kleiner, groter, verschillend)
De alternatieve hypothese is altijd in tegenspraak met de nulhypothese
Voorbeeld:
Elke significatietoetsis gebaseerd op een test statistic
Algemene vorm van een teststatistic voor z-test en t-tests: Uit de populatie
estimate statistic − hypothesized value 0 is true
test statistic =
statistic
Voorbeeld: Uit de steekproef
Onesample test
▪ In de populatie: ~ , , is bekend
▪ Sampling distribution: ~
−0
= ~
Τ
Significance tests: P-values
De P-value is de kans op een uitkomst zoals waargenomen in de steekproef of extremer,
gegeven dat H0 waar is.
- Hoe kleiner de p-value, hoe sterker het bewijs tegen H0, ofwel hoe onwaarschijnlijker
H0 is.
- Wat is ‘klein’? > vergelijk P met het significantieniveau α (e.g., α =5 % )
3
, Voorbeeld: “Sesamstraat” Data
▪ Twee populaties:
- Boys (1 = 115, = 26.39)
- Girls (2 = 125, = 26.98)
▪ Pooled = 13.30
▪ = , kennis van alfabet
0 wordt niet verworpen
= 115 + 125 − 2
26.39 − 26.98
= = −0.34
13.30 1 + 1
115 125
Significance tests: Welke en wanneer?
- Regressie
o T tests: paramters (o.a. regressiecoëfficiënten)
o F tests: Model fit
- Correlatie
o T test: special geval (H0: p = 0)
o Z test: Fisher’s z transformation
- Analysis of variance (ANOVA)
o T tests: contrasts, multiple comparisons
o F tests: Model fit
Confidence intervals (Cis)
Onderliggende principes: = □±
- Numeriek interval dat, met een bepaald
zekerheidsniveau, de waarde van de
populatieparameter bevat
- Conficence level: het zekerheidsniveau, vaak
95%
- Bij heel vaak herhalen van het experiment, zal Uit de steekproef
95% van de tijd het CI de populatieparameter bevatten
4