1
Onderzoeksvaardigheden 2 Verklarende (=inferentiële) statistiek Eveline Schipper
College 1
Populatie= Alle items die van belang zijn voor het onderzoek. VB onderzoek
naar het studiegedrag van Nederlandse HBO studenten. Alle Nederlandse
HBO studenten
Steekproef= Deel dat uit de populatie wordt getrokken. Items die uit de
populatie worden getrokken om te onderzoeken.
Variabele= Karakteristiek van de populatie. VB Leeftijd
Parameter= Waarde die betrekking heeft op de hele populatie.
Steekproefgrootheid= Waarde berekend o.b.v. onderzoek van de steekproef.
Dus betrekking op de steekproef.
Verschil parameter en steekproefgrootheid: Parameter heeft betrekking op de
gehele populatie, terwijl de steekproefgrootheid betrekking heeft op de
steekproef.
Beschrijvende statistiek
Betreft:
- Het verzamelen van data
- Het presenteren van data
- Het karakteriseren van data
Dit is puur cijfers in kaart brengen. Doel: beschrijven van data.
Verklarende statistiek / inferentiële statistiek
Betreft:
- Analyseren van de data
- Schatten (week 1)
o Meestal een gemiddelde of een percentage schatten
o Je stelt een interval op (bij nauwkeurigheid is de interval
groter)
- Toetsen van hypothesen (week 2,3,4)
o Stelling toetsen dat we de hypothese kunnen aannemen
Doel: Cijfers uit je steekproef gebruiken om betrouwbare en valide conclusies te trekken over
karakteristieken van de populatie.
Populatiekenmerken
Formule Normale verdeling
Statistische verdelingen:
1. Normale verdeling De gekwadrateerde
2. T-verdeling standaarddeviatie is de variantie
1. Normale verdeling
De normale verdeling wordt ook wel de Z-verdeling genoemd. Je gebruikt de normale verdeling als we de
standaarddeviatie van de steekproef kennen of als we grote steekproeven hebben (n ≥ 30).
De Z-waarde geeft aan hoeveel keer de standaardfout een bepaalde waarde x afwijkt van het
(veronderstelde) populatiegemiddelde. De Z-waarde geeft aan hoe vaak de standdaardeviatie afwijkt van het
gemiddelde. VB Z=2,76 → het ligt 1,76 keer de standaarddeviatie boven het gemiddelde
√N is een correctie voor de steekproef.
Belangrijkste verschil tussen de formules van steekproef en populatie is
dat we bij het berekenen van de variantie de steekproef de som van de
gekwadrateerde afwijkingen delen door n-1 en bij de populatie we
delen door n.
, 2
Voorbeeld 165 – 185 -20
Het gemiddelde is 185 cm → µ. Z= ------------------- = ------- = -2
De standdaarddeviatie is 10 → σ 10 10
Een man is 165 cm. Wat is de normale verdeling?
Hoe groter je steekproef wordt, hoe kleiner je foutmarge wordt en je dus dichter in de buurt komt van het
gemiddelde.
Voorbeeld normale verdeling
Verondersteld wordt dat het jaarlijks gasverbruik van een Nederlands gezin met 2 kinderen normaal
verdeeld is en dat µ en σ gelijk zijn aan 1.100 M3 en 300 m3 respectievelijk.
We hebben een steekproef van 30 gezinnen met 2 kinderen. Hoe groot is de kans dat in deze steekproef een
gemiddeld verbruik van 1200 m2 of meer uitkomt?
Als de steekproefgrootte bekend is (N)
(1200 – 1100) dan de formule van de normale verdeling
De Z-waarde= ---------------------- = 1,83 gebruiken.
300 : (√30)
Tabel aflezen op blz. 11 syllabus tabel 2.1. We pakken de Z-tabel, want de steekproef is n ≥ 30. Het eerste
decimaal in de Z tabel (verticaal) aflezen en het tweede decimaal horizontaal aflezen.
Dus 1,83 dan zoek je in de Z rij de 1,8 en horizontaal zoek je de 3. Waar deze elkaar kruisen is de Z-waarde.
P(Z≥1,83) = 0,0336 → 3,36% →bij een gemiddelde van 1.100 en een σ van 300 is de kans dat we een
gemiddeld gebruik van 1200 of meer vinden ongeveer gelijk aan 3,36%.
Voorbeeld
Het gemiddelde cijfer van een vastgoedstudent is 6,75 op het diploma. De standaarddeviatie is 0,70. Hoe
groot is de kans dat iemand een diplomacijfer onder de 8,5 heeft?
Stap 1: Eerst de Z-waarde uitrekenen
8,50 – 6,75
Z= -------------------------= 2,50 → Deze 2,50 opzoeken in de tabel. 2,5 verticaal en 0 horizontaal= 0,0062.
0,70
0,0062 is 0,62%. Dit betekent dat de kans dat Z < 2,50 gelijk moet zijn aan 1-0,0062= 0,9938 = 99,38%
Als je op een negatief getal (dus ipv 2,5 → -2,5) uitkomt dan kan je gewoon de Z die bij 2,5 hoort pakken.
µ is onbekend σ
Je kan een onbekende µ schatten door: µ= ---------------
√N
Schatten
Als we uitspraken doen over de populatie (a.d.h.v. een steekproef) maken we in feite een schatting. Het is
belangrijk dat deze schatting voldoet aan een zekere vorm van:
- Nauwkeurigheid
o Hoe precies is de schatting?
- Betrouwbaarheid
o Hoeveel zekerheid heb je dat de schatting juist is. Hoe groter de populatie → hoe
betrouwbaarder (dus smaller betrouwbaarheidsinterval)
Soorten schattingen:
- Puntschatting
o Een schatting van µ met precies 1 waarde → zeer nauwkeurig, maar zeer onbetrouwbaar
- Intervalschatting
o Geeft een range van waarden
o Geeft informatie over de nauwkeurigheid van de schatting (wordt gegeven in kans termen)
o µ ligt tussen 2 bepaalde waardes in → minder nauwkeurig, maar wel betrouwbaarder.
o Aan een intervalschatting kunnen we een bepaalde mate van betrouwbaarheid koppelen
door er betrouwbaarheidsintervallen van te maken.
▪ VB. het onbekende populatiegemiddelde ligt tussen 50 & 70 met 95%
betrouwbaarheid. Dus de kans dat de onbekende populatiegemiddelde in het
interval ligt.
, Notatie (1- α) betrouwbaarheidsinterval 3
α= kans dat je buiten het betrouwbaarheidsinterval zit
Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval geeft aan dat we voor een bepaald percentage zeker zijn dat het
populatiegemiddelde tussen twee waardes in ligt.
- 80% betrouwbaarheidsinterval: Met 80% zekerheid kunnen we zeggen dat de echte waarde van µ
tussen twee waardes in ligt
- 95% betrouwbaarheidsinterval. Met 95% zekerheid kunnen we zeggen dat de echte waarde van µ
tussen twee waardes in ligt
Bij een gelijke N geldt: Als de betrouwbaarheid omhoog gaat, dan gaat de nauwkeurigheid omlaag
Veel voorkomende intervallen zijn: 99%, 95%, 90%, 80%
Factoren die de betrouwbaarheidsinterval beïnvloeden
- Spreiding in de data, gemeten met de standaarddeviatie σ
o Stel we hebben een steekproef met een gemiddelde van 10. De standaarddeviatie in de
populatie is 2. Stel we hebben een andere steekproef met een gemiddelde van 10. De
standaarddeviatie in de populatie is 5.
o De interval in de eerste situatie is smaller en dus nauwkeuriger, want de standaarddeviatie
is maar 2. Dus 8 (10-2) of 12 (10+2).
o Het betrouwbaar interval in de tweede situatie is breder, want (10-5) is 5 of (10+5) is 15.
- De steekproefgrootte: We corrigeren de standaarddeviatie voor de grootte van de steekproef
(=standaardfout). σ : √N
- Het gewenste niveau van betrouwbaarheid (1- α) : de Z-waarde
o Je weet het betrouwbaarheidspercentage. Hier hoort een α bij.
Deze deel je door 2 want Z= α:2.
o Bijvoorbeeld α = 10 → Z=10:2= 5. Deze 5 ga je opzoeken in
de grote tabel als 0,05. Deze lees je weer af en dat is dan de Z
waarde → 1,65
Samenstellen van betrouwbaarheidsintervallen
Bij het maken van een betrouwbaarheidsinterval voor het
populatiegemiddelde (µ), gebaseerd op het steekproefgemiddelde (x met
streepje erop), hebben we nodig:
- Spreiding in de data, gemeten met de standaarddeviatie σ
- De steekproefgrootte: we corrigeren de standaarddeviatie voor
de grootte van de steekproef (=standaardfout). σ : √N
- Het gewenste niveau van betrouwbaarheid (1- α)= de Z-waarde
Als SD gegeven is → Formule over het gemiddelde.
Als er alleen normale getallen gegeven zijn dus geen percentages → Formule van het gemiddelde.
Als er een percentage wordt gegeven → Formule van de populatie percentage.
Betrouwbaarheidsinterval voor gemiddelde
Een onderzoeker doet onderzoek naar woningen in de wijk Kralingen. Uit een steekproef van 50 woningen
komt een gemiddelde WOZ waarde van 720.000.
Je vergelijkt dus de uitkomst uit de linkergrens met de uitkomst uit
Gemiddelde (x met streepje erop)= 720.000 de rechtergrens OF je vergelijkt het gemiddelde (x met streepje
Standaarddeviatie is 125.000 (s=125.000). erop) met het antwoord uit de formule Z x ( σ : √n)
Maak een 95% betrouwbaarheidsinterval voor het onbekende populatiegemiddelde µ.
Aangezien N≥30 → Z verdeling → we mogen veronderstellen dat s= σ
α = 0,05 → α:2 = 0,025 → Z(0,025)= 1,96
Linker grens= x met streepje – Z x ( σ : √n) → 720.000 – 1,96 x (125.000 : √50)= 685.352
→ 720.000 – 34.648= 685.352
Rechter grens= x met streepje + Z x ( σ : √n) → 720.000 + 1,96 x (125.000 : √50)= 754.648
→ 720.000 + 34.648= 754.648
Het 95% betrouwbaarheidsinterval is dus [685.352 ; 754.648] OF 720.000 +/- 34.648