PDA Sample Sessions
Week 1 Schatting en toetsen
Puntschattingen
Populatieverdeling = verdeling van een variabele zoals uurloon in de populatie → we kunnen
geïnteresseerd zijn in het gemiddelde uurloon of de variatie in het uurloon (zijn kenmerkend voor de
populatieverdeling)
Bij continue variabelen (ratio/interval) wordt het steekproefgemiddelde (bijv. gemiddeld uur
inkomen) vaak gebruikt als schatting voor het populatiegemiddelde
Bij discrete variabelen (nominaal/ordinaal) wordt meestal de steekproefproportie gebruikt van de
mensen met een bepaald kenmerk (bijv. de proportie mensen die zegt te zullen gaan stemmen)
Belangrijk om altijd de variabelen te inspecteren! (FREQUENCIES)
Bij het schatten van de populatieproportie is het belangrijk om te beseffen dat een proportie
eigenlijk het gemiddelde is van een 0-1 variabele (daarom kan dezelfde methode worden toegepast
als bij het schatten van het populatiegemiddelde van een continue variabele)
Puntschattingen achterhalen in SPSS: FREQUENCIES, DESCRIPTIVES of MEANS
De populatiestandaardafwijking (sigma; σ) wordt geschat door de
steekproefstandaardafwijking/deviatie (s of SD) → de noemer van s is n-1 en wordt ook wel
‘vrijheidsgraden genoemd’
Betrouwbaarheidsintervallen
Een puntschatting heeft een verdeling (steekproevenverdeling; sampling distribution) → deze
verdeling kan worden gezien als een resultaat van het herhaaldelijk steekproeven trekken
De standaarddeviatie van een sampling distribution wordt standaardfout/standard error genoemd
→ standaardfout van een steekproefgemiddelde hangt af van de populatiestandaarddeviatie (sigma)
en de steekproefomvang (n)
SE = Sigma/√n
Hoe groter de omvang van de steekproef (n), des te kleiner is de standaardfout
Standaardfouten kunnen gebruikt worden om betrouwbaarheidsintervallen (CI) te construeren, wat
een bereik van getallen is (ondergrens, bovengrens) waarbinnen de populatieparameter met een
zekere waarschijnlijkheid valt → de zekerheid wordt de betrouwbaarheidscoëfficiënt genoemd (dus
als we een kans hebben van .90 voor een populatieparameter om binnen de CI te vallen, spreken we
van een 90% CI)
Hoe kleiner de standaardfout, des te accurater de puntschatting →
Foutkans ALPHA (α) (error probability) = 1 – betrouwbaarheidscoëfficiënt
Interpretatie CI: een 95% CI houdt in dat we met 95% zekerheid kunnen zeggen dat het
betrouwbaarheidsinterval van de puntschatting de daadwerkelijke POPULATIE parameter omvat →
bij herhaaldelijke steekproeven zal 95% het populatiegemiddelde bevatten
,Betrouwbaarheidsinterval voor het gemiddelde
CI voor een gemiddelde → we kunnen aannemen dat de sampling distribution van het gemiddelde
voor een steekproefomvang van n>30 ongeveer normaal verdeeld is met een standaardfout
(SEgemiddelde) gelijk aan de standaarddeviatie van de populatie (sigma) gedeeld door de wortel van de
steekproefomvang (√n)
SEgemiddelde = Sigma / √n
Over het algemeen is sigma niet bekend en wordt deze geschat aan de hand van de
standaarddeviatie in de steekproef → als n kleiner is dan 30, moeten we gebruik maken van de t-
verdeling i.p.v. de normaalverdeling
Gegeven een normaalverdeling weten we dat 95% van het oppervlak onder de normale curve valt
binnen twee (1.96) standaarddeviaties van het gemiddelde → dus een 95% CI voor een geschatte
gemiddelde kan als volgt worden berekend:
CI95% = steekproefgemiddelde - 1.96 × SE; steekproefgemiddelde + 1.96 × SE
Naast een 96% CI kun je ook andere CI’s berekenen → de formule is hetzelfde maar je gebruikt dan
een andere z-waarde (zijn te vinden in tabel in boek)
De breedte van een CI neemt af als de foutkans alpha toeneemt (1 – alpha) → ook neemt de breedte
van de CI af als de omvang van de steekproef n toeneemt (puntschattingen zijn dus meer accuraat als
we meer data hebben waar we de puntschattingen op baseren)
Betrouwbaarheidsinterval voor een proportie
Proportie is niets anders dan het gemiddelde van een 0-1 variabele (binomiale/dichotome/dummy)
→ bijv. de variabele religie heeft de waarden ‘1’ (religieus) en ‘2’ (niet-religieus)
Als we de populatieproportie ‘pi’ noemen, dan is de populatie variantie van pi gelijk aan pi x (1 – pi)
De standaardfout van een steekproefproportie (= pi-voorspeld) kan daarom als volgt worden
berekend:
SEpi-voorspeld = √ 𝑝𝑖 ×(1−𝑝𝑖) 𝑛
Voorbeeld: we berekenen het 95% CI voor de proportie religieuze mensen. De proportie religieuze
mensen is .507. De SE van de pi-voorspeld kan worden berekend als de wortel van {.507 × (1 - .507)/
3350} = .0086. Dus het 95% CI komt overeen met .507 ± (1.96) × .0086 ofwel (.49, .52). Afronden op
twee decimalen volstaat hier om zo nauwkeurig mogelijk te zijn
Principe van toetsing
Als onderzoekers hebben we vaak een inhoudelijke hypothese wat betreft de populatie → gebruiken
statistieken aan de hand van een willekeurige steekproef (bijv. leeftijd dat een kind het huis verlaat)
Door middel van beschrijvende statistieken (gemiddelde, maximum, minimum etc.) van een
steekproef zijn we in staat om te kijken of de gemiddelde leeftijd van kinderen in 2008 hoger is dan
in 1978 → echter kunnen we geen uitspraak doen of de toename een ‘echte’ toename is, of dat het
puur toeval is → hiervoor moeten we gebruik maken van statistische/significantie toetsen
Stellen onze inhoudelijke (alternatieve) hypothese tegenover een nulhypothese (deze neemt aan dat
er niets aan de hand is in de populatie; bijv. mannen en vrouwen verschillen niet) → het is belangrijk
om te weten dat je eigenlijk de nulhypothese toetst en dus NIET de alternatieve hypothese → als je
toets laat zien dat er een ‘echt’ verschil is te vinden; nulhypothese verwerpen
,Elementen van een statistische toets
Over het algemeen bestaat een statistische toets uit vijf elementen:
1. Assumpties van de toets
- Type data (bijv. kwantitatief vs. kwalitatief)
- Vorm van de populatieverdeling (vaak normaalverdeling)
- Methode van steekproeven trekken
- Steekproefgrootte (nauwkeurigheid toets verbetert met een toename van omvang
steekproef)
2. Hypotheses
- Twee hypothesen: (1) de nulhypothese (H0) die voor ‘waar’ wordt aangenomen totdat
het tegendeel is bewezen (2) de alternatieve hypothese (Ha) die de H0 weerspreekt
- Eenzijdige hypothese: als er expliciet een richting wordt benoemd
Tweezijdige hypothese: als er niet een specifieke verwachting is over een toename of
een afname
- We moeten aannemen dat H0 waar is totdat we in staat zijn om statistisch aan te tonen
dat dat niet het geval is → als er genoeg bewijs is verzameld tegen H0 zijn we in staat om
deze te verwerpen
3. Teststatistieken
- Teststatistiek (/toetsingsgrootheid) wordt berekend op basis van de steekproef om zo H0
te toetsen
- Vaak moeten we de teststatistiek transformeren om zo de waarde van de
teststatistieken te kunnen evalueren onder een bekende statistische verdeling
4. p-waarde
- De p-waarde is de kans dat, gegeven de sampling distribution onder de H0, de waarde
van de teststatistiek extremer is dan de feitelijke waargenomen waarde
- De z hangt af van de SE (zie formule hierboven): hoe kleiner de
SE, des te groter de z (dus kleinere p). Omdat de SE weer
afhangt van s en n (zie formule SE), hangt de z en dus de p-
waarde weer af van s en n. Zo geldt bijvoorbeeld, hoe groter
de n, des te kleiner de SE, en dus hoe groter de z, en dus hoe
kleiner de p-waarde
- Als de p-waarde kleiner is dan de vooraf bepaalde alpha waarde (ook wel
significantieniveau genoemd) waar α=.05 gebruikelijk is, wordt H0 verworpen → dus als
p < α, dan wordt H0 verworpen
- SPSS rapporteert alleen p-waardes van een tweezijdige hypothese → als je een
eenzijdige hypothese hebt kun je de p-waarde delen door twee
- Wanneer een gevonden steekproefwaarde aan de andere kant ligt dan de richting van de
verwachtte populatie waarde van de alternatieve hypothese; de verwachting was hoger,
maar we vinden lager (of andersom), dan moet de p-waarde als volgt worden
gerapporteerd: (1-(p-waarde/2))
5. Conclusie: om te bepalen of H0 wel of niet wordt verworpen, moeten we een conclusie
formuleren met betrekking tot de inhoudelijke vraag die aan de uitgevoerde statistische test
ten grondslag ligt
Voorbeeld conclusie (in woorden, met statistieken tussen haakjes): we kunnen concluderen dat
gegeven het steekproefgemiddelde (M = 21.33), er bewijs is dat de gemiddelde leeftijd in de
populatie waarop de kinderen het huis verlaten boven de leeftijd van 21 jaar is (z = 5.616, p < .001/
, 2). In plaats van z, wordt ook vaak t gebruikt (dus t=5.616; p<.001/2) (teststatistiek z wordt
aangeduid als t in SPSS output)
Toets voor een proportie in SPSS
We willen toetsen of meer dan de helft van de mensen in NL zichzelf als een religieus persoon
beschouwt → hypotheses:
Als het aantal observaties is > 30 en de populatie proportie is tussen de .3 en .7 dan kunnen we
gerust aannemen dat het normaal verdeeld is → als P duidt op de steekproefproportie, dan zal de z-
statistiek er zo uitzien:
(P is eigenlijk het gemiddelde van een 0-1 variabele)
Voorbeeld: n = 3350, P = .507, s/SD =.500 → z-statistiek:
Je hoeft dit niet met de hand uit te rekenen, maar kunt ook een one-sample t-test gebruiken (bedenk
dat het gemiddelde voor een dichotome 0/1 variabele hetzelfde is als een proportie en dat we dus de
t-toets hiervoor kunnen gebruiken)
Als de populatie proportie buiten het bereik van de normaalverdeling valt moet het aantal
observaties >30 zijn om er zeker van te zijn dat de aanname van een normaalverdeling geen
problemen oplevert →
Soorten fouten bij hypothese toetsen
Bij het toetsen van een hypothese besluiten we dat H0 moet worden afgewezen als de p-waarde
kleiner is dan het significantieniveau alpha → we accepteren dus dat we een fout met de grootte
alpha maken bij het afwijzen van H0 als het waar is (Type I-fout); ‘afwezigheid van bewijs’
Als we de H0 NIET afwijzen omdat de p-waarde groter is dan
alpha, maken we ook een fout als de alternatieve hypothese in
werkelijkheid echt waar blijkt te zijn (Type II-fout/beta β) →
power (gamma γ) = 1 – β
Type I-fout: de kans dat we onterecht H0 verwerpen
Type II-fout: de kans dat we onterecht H0 aannemen
• De power van een toets neemt toe als het aantal
observaties toeneemt
• De power van een toets neemt toe als het significantieniveau van de alpha toeneemt
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper amalswinkels. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,49. Je zit daarna nergens aan vast.