Hoorcollege 1: Principe van toetsen en t-toets voor één gemiddelde
Tips:
- Zorg dat je de juiste verdeling pakt bij het beantwoorden van de vraag. Of de z- of de t-
verdeling.
- Bij de formulering van de statistische hypothesen moet worden aangegeven waar μ voor
staat.
Z-toets voor een gemiddelde
Met de z-toets voor een gemiddelde bereken je toetsingsgrootheid z voor een
steekproefgemiddelde, waarmee je bepaalt of je een nulhypothese die je hebt opgesteld voor het
populatiegemiddelde mag verwerpen.
Assumpties voor de z-toets
• scores zijn onafhankelijk en hebben interval/ratio meetniveau;
• de populatiestandaarddeviatie (σ) is bekend;
• scores in de populatie zijn normaal verdeeld en/of de steekproef bestaat uit tenminste 30
cases
Schatten van de populatievariantie en de standaardfout
Als je variantie wil gebruiken om iets over de populatie te schatten, dan moet je corrigeren om een
zuivere schatting te krijgen. Hiervoor wordt het aantal vrijheidsgraden gebruikt (degrees of freedom);
df = n-1.
De geschatte standaarddeviatie van de steekproefgemiddelden (standaardfout) is gelijk aan: 𝑆𝐸𝑥̅ =
𝑠
ofwel de geschatte standaarddeviatie / wortel (N)
√𝑁
Echter in dit geval heb je een dubbele onzekerheid, over het gemiddelde en over de
standaarddeviatie in de populatie. Uit de steekproevenverdeling van 𝑋̅ van alle mogelijke
steekproeven met gelijke grootte N volgt nu NIET meer een normale verdeling.
De t-verdeling
Als de standaardfout is berekend met de standaarddeviatie in de steekproef is de
steekproevenverdeling voor het gemiddelde niet normaal verdeeld. Je kunt de standaardnormale
verdeling dus niet gebruiken om kansen voor steekproefgemiddelden te bepalen, uitgaande van een
nulhypothese.
Uit de steekproevenverdeling van 𝑋̅, volgt een t-verdeling met df = N-1 (student’s t-distribution).
Voor elke df is er een andere t-verdeling. De t-verdeling is symmetrisch rond t = 0. De t-verdeling lijkt
meer op de standaardnormale verdeling, naarmate de N groter is.
De kans schatten in een staart: Staarten verder naar buiten? → Kritieke gebied verder naar buiten en
dus minder snel H0 verwerpen.
Kritieke t-waarden tweezijdige toetsing met α = .05:
df = 25 , kritieke t = ± 2.060
df = 100, kritieke t = ± 1.984
df = 250, kritieke t = ± 1.969
df > 250, kritieke t = ± 1.960 (gelijk aan zk).
! Als je bepaalde df niet in de tabel staat, dan pak je het dichtstbijzijnde df lager dan die van jou.
! Bij een groot aantal (al v.a. 100) mag je ook gewoon de z-waarde pakken. Let op! Dit noem je wel de
t-waarde.
1
,Assumpties t-toets voor één gemiddelde
1. Scores zijn onderling onafhankelijk. Dit kun je niet zien aan de data, maar wel aan het
onderzoeksdesign (bv. aselecte steekproef of randomisering). Er mag geen onderlinge
afhankelijkheid zijn van de cases. Voorbeeld: allemaal gezinnen uit dezelfde straat mag niet,
deze zijn namelijk afhankelijk van elkaar.
2. Scores hebben interval/ratio meetniveau.
3. De scores zijn afkomstig uit een normaal verdeelde populatie. Indien de scores NIET normaal
verdeeld zijn dan moet de steekproefgrootte N > 30 zijn. Normaliteit kun je controleren door
een histogram of boxplot van de variabele te maken.
Robuustheid: wanneer schendingen van de assumpties niet zo’n grote gevolgen hebben
1. Kleine schendingen van de onafhankelijkheid kunnen al grote fouten geven.
2. Naarmate de N groter is (N > 30), als de verdeling unimodaal is, meer symmetrisch is en geen
uitbijters heeft, dan is een kleine afwijking van de assumpties niet zo’n groot probleem.
Toetsingsgrootheid t X − 0
Toetsingsgrootheid t bij het steekproefgemiddelde: t=
SE X
Beslissing over H0
1. De methode van de kritieke waarde (bij handberekening)
Linkseenzijdig: tk > tb → H0 verwerpen
Rechtseenzijdig: tk < tb → H0 verwerpen
2. De methode van de overschreidingskans/p-waarde (bij berekening met SPSS)
De p-waarde kun je niet opzoeken in de tabel, maar wel laten berekenen met SPSS: Analyse >
Compare means > One-Sample T-test. Onder test value kun je de waarde invullen waarmee
je de nieuwe scores gaat vergelijken (ofwel de H0). Bij Options kun je de BI aanpassen naar
het juiste percentage. Deze staat automatisch ‘op tweezijdige toetsing ingesteld’. Bij
tweezijdige toetsing met α 5% vul je hier dus 95% in, bij eenzijdige toetsing met α 5% vul je
hier 90% in, want je wil de foutenkans in zijn geheel aan één van de zijden.
In de tabel bij SPSS krijg je altijd de te tweezijdige overschreidingskans (sig. (two-tailed)). Om
hiervan de eenzijdige overschrijdingskans te maken moet de deze delen door 2.
Tweezijdig: tweezijdige ρ < α → H0 verwerpen
Rechtseenzijdig: rechter eenzijdige ρ < α → H0 verwerpen
Linkseenzijdig: linker ρ eenzijdige < α → H0 verwerpen
* De ρ betekent dat uitgaande van μ, de kans op een uitkomst gelijk aan of kleiner dan 𝑋
gelijk is aan ρ.
3. Betrouwbaarheidsinterval en Voorspelbaarheidsinterval
Als het populatiegemiddelde volgens H0 (μ0) buiten de grenzen van het
betrouwbaarheidsinterval valt, verwerp je de nulhypothese.
Als het steekproefgemiddelde (X) buiten de grenzen van het voorspellingsinterval (buiten Xk)
valt, verwerp je de nulhypothese.
Kritieke waarde 𝑿
De kritieke x-waarde is de waarde van x op het kritieke punt tk. De Xk kun je berekenen door de
𝑥̅ −𝑢
formule om de kritieke t-waarde te berekenen om te schrijven 𝑡𝑘 = 𝑘 0 of door de volgende
𝑆𝐸𝑥̅
formules te gebruiken: Xk(links)=μ0−tk⋅SEx of Xk(rechts)=μ0+tk⋅SEx
Dit komt overeen met de boven- en ondergrens van het 90%-VI.
2
,Voorspellingsinterval
Voorbeeld: Er wordt getoetst met een significantieniveau α = .05 (linkseenzijdig). Het bijbehorende
voorspellingsinterval moet dan ook 5% aan de linkerzijde laten.
Een voorspellingsinterval maken we altijd tweezijdig en symmetrisch, d.w.z. met links en rechts
gelijke oppervlakten onder de curve, hier links en rechts 5%.
We kiezen dus voor het 90% VI voor 𝑋̅, gegeven μ0, sx en n. Formule: 𝜇0 ±𝑡𝑘 ∙ 𝑆𝐸𝑋̅ met: 𝑋̅ = 2.408,
tk=1.679, 𝑆𝐸𝑋̅ = 0.1621 en μ0 = 2.72.
• ondergrens (OG) = 2.72 – 1.679 * 0.1621 = 2.4478 (ofwel 5% van de gevallen ligt
onder 2,45)
• bovengrens (BG) = 2.72 + 1.679 * 0.1621 = 2.9922 (ofwel 5% van de gevallen ligt
boven 2,99)
• 90% VI voor 𝑋̅ = [2.45, 2.99]
Betrouwbaarheidsinterval
• Voorbeeld: Er wordt getoetst met significantieniveau α = .05 (linkseenzijdig). Een
betrouwbaarheidsinterval maken we tweezijdig en symmetrisch, d.w.z. hier links en rechts
5%.
• We kiezen dus voor het 90% BI voor μ, gegeven 𝑋̅, sx en n.
X t * SE
Formule: k x
met 𝑋̅ = 2.408, tk=1.679 en 𝑆𝐸𝑋̅ = 0.1621
• ondergrens (OG) = 2.408 – 1.679 * 0.1621 = 2.1358
• bovengrens (BG) = 2.408 + 1.679 * 0.1621 = 2.6802
• 90% BI voor μ = [2.14, 2.68]. BI van 90% laat zien dat als je herhaalde steekproeven
trekt van dezelfde N, dan zal uiteindelijk 90% van alle BI de μ0 omvatten en 10% niet.
• Indien μ0 buiten het interval ligt, dan H0 verwerpen
Betrouwbaarheidsinterval in SPSS
(Alleen) bij de t-toets voor één gemiddelde geeft SPSS een andere BI, want SPSS bekijkt dit op basis
van de mean difference. Dan kijk je of 0 binnen het BI ligt. Ligt 0 in het BI → H0 niet verwerpen.
Effectgrootte
De toets van de statistische hypothesen gaat na of er een statistisch significant verschil bestaat
tussen het gevonden steekproefgemiddelde en μ0, het populatiegemiddelde onder H0.
Met de berekening van de gestandaardiseerde effectgrootte Cohen’s d kunnen we nagaan hoe we de
𝑥̅ −𝑢
grootte van het gevonden verschil kunnen interpreteren: 𝑑 = 𝜎 0 . Bij Cohen’s d wordt het
minteken meestal achterwege gelaten. De interpretatie van de effectgrootte gaat als volgt:
klein: d ≈ 0.2
middelgroot: d ≈ 0.5
groot: d ≈ 0.8
Conclusie/Rapportage volgens APA
De volgende gegevens moeten in je conclusie staan: het gevonden steekproefgemiddelde met
betrouwbaarheidsinterval, de standaarddeviatie (of de standaardfout voor het gemiddelde), de t-
waarde met daarbij tussen haakjes het aantal vrijheidsgraden, de p-waarde en de effectgrootte met
interpretatie. Geef aan of het resultaat statistisch significant is en hoe het verschil is ten opzichte van
wat was verondersteld in de nulhypothese.
Tips:
- Symbolen M, SE, t, p, d cursief, het aantal vrijheidsgraden tussen haakjes, eenzijdige toetsing
aangeven (tweezijdige toetsing hoeft niet).
- Afronden op twee of drie decimalen.
3
, Hoorcollege 2: t-toets gepaarde waarnemingen
Verschillende toetsen
Afhankelijke metingen/waarnemingen:
- 2 metingen: t-toets gepaarde waarnemingen
- ≥ 2 metingen: repeated measures ANOVA
Onafhankelijke metingen/waarnemingen:
- 2 groepen: t-toets onafhankelijke steekproeven
- ≥ 2 groepen: ANOVA
Afhankelijke metingen/waarnemingen (within subject design)
- Gepaarde waarnemingen, bv. opvoedattitudes van moeders en vaders vergelijken binnen
één gezin (vader en moeder vormen een paar).
Voordeel: bepaalde buitenlijke factoren zullen hetzelfde zijn. Bv. temperamentvol kind,
financiële druk etc.
Nadeel: Je moet onderzoekseenheden hebben met vergelijkbare proefpersonen, bv. een
gezin met een vader én een moeder. En de cases moeten 2x meedoen aan het onderzoek,
waardoor de kans op selectieve uitval groter is.
- Herhaalde metingen, bv. de opvoedattitudes van de moeder vergelijken na geboorte 1e kind
en na geboorte 2e kind.
- Pretest-posttest design, bv. de opvoedattitudes van moeders vergelijken voor en na een
oudertraining.
- Gematchte steekproeven, bv. bij elke case wordt een andere case geselecteerd die zo goed
mogelijk overeenkomt op relevante kenmerken voor het onderzoek.
Je kunt met een within subject design makkelijker vaststellen of de onafhankelijke variabele een
effect heeft. Dit design heeft meer power! Ook zullen de resultaten van afhankelijke metingen sneller
statistisch significant zijn.
Onafhankelijke metingen/waarnemingen (between subject design)
- Steekproeven uit verschillende populaties los van elkaar, bv. opvoedattitudes alleenstaande
vaders vs. alleenstaande moeders
- Aselecte toewijzing van deelnemers aan bepaalde condities, bv. vergelijken angstklachten
van cliënten die aselect zijn toegewezen aan een conditie.
Assumpties t-toets voor gepaarde waarnemingen
1. In de steekproef onafhankelijke paren van scores (door deze aselect te trekken). Binnen de
paren is er wél sprake van afhankelijkheid, maar tussen de paren is er sprake van
onafhankelijkheid.
2. Beide variabelen van interval/ratio meetniveau met dezelfde meeteenheid (meetschaal).
3. Normaal verdeelde populatie van verschilscores. Dit is na te gaan met een histogram of
boxplot. Bij N > 30 is schending van de assumptie niet erg.
Hypothesen
Voorbeeld tweezijdige toetsing ongericht: H0: μV = 0 en H1: μV ≠ 0
Voorbeeld rechtseenzijdige toetsing: H0: μV ≤ 0 en H1: μV > 0
Voorbeeld linkseenzijdige toetsing: H0: μV ≥ 0 en H1: μV < 0
μV is de waarde van het populatiegemiddelde volgens H0. Ofwel μV = μ1 - μ2 = populatiegemiddelde
van doelgroep 1 – doelgroep 2
Bij H0 is de μ altijd 0 als het gaat om het verschil van het gemiddelde.
Standaardfout
4