Hoofdstuk 10: Steekproevenverdeling van een fractie en betrouwbaarheidsinterval van een fractie
A. De verdeling van steekproefproporties
De populatie is over wie/wat je een uitspraak wil doen. Vb. Een groep mensen uit een bepaald gebied
Vaak is het niet mogelijk om de hele populatie te gaan bevragen. Daarom ga je een steekproef trekken.
➔ Je gaat een steekproef trekken indien het niet haalbaar is om de volledige populatie te bevragen/bemonsteren
Vanuit deze steekproef kan je een steekproefstatistiek gaan berekenen namelijk de proportie (𝑃̂ ) successen in
de steekproef.
➔ Je doet dat omdat je liever iets wilt weten over de proportie in de populatie (P) (werkelijke waarde/parameter).
Deze parameter kennen we meestal niet.
P is de populatieparameter/populatieproportie en 𝑃̂ is de steekproefstatistiek/steekproefproportie
Steekproevenverdeling
Wat is de variabiliteit in een steekproefproportie 𝑃̂ ?
➔ Stel je theoretisch voor hoe de steekproefproportie kan variëren over alle mogelijke steekproeven
Zou een andere steekproef een andere steekproefproportie kunnen opleveren?
Het antwoord daarop is ja.
Voorbeeld:
Indien 20% van de klanten hun uitgaven met een kredietkaart verhogen zal de marketingcampagne geslaagd zijn.
➔ Populatieproportie is hiet dus 0,2 (normaal gezien weten we dit meestal niet!)
In een steekproef van 1000 klanten, verhoogden 211 klanten hun uitgaven. Is dit voldoende om de campagne
te lanceren ?
𝐾𝑙𝑎𝑛𝑡𝑒𝑛 𝑑𝑖𝑒 𝑖𝑛𝑔𝑎𝑎𝑛 𝑜𝑝 ℎ𝑒𝑡 𝑎𝑎𝑛𝑏𝑜𝑑 211
➔ Steekproefproportie 𝑃̂ : = = = 0,211 (aantal successen in de steekproef)
𝑇𝑜𝑡𝑎𝑎𝑙 𝑎𝑎𝑛𝑡𝑎𝑙 𝑘𝑙𝑎𝑛𝑡𝑒𝑛 1000
Indien er een andere steekproef wordt getrokken zal er een verschillende steekproefproportie zijn.
Als de resultaten van steekproef tot steekproef verschillen, noemt men een dergelijke variatie een
steekproefvariabiliteit. Het is de variabiliteit in de steekproefproportie tussen herhaalde steekproeven.
In herhaalde steekproeven is de waarde van de herhaalde steekproefproporties elke keer anders.
• Men kan zien dat niet elke steekproef een proportie gelijk aan 0,2
heeft
• Steekrproefproporties groter dan 0,24 en kleiner dan 0,16 komen
zeer weinig voor.
• De meeste steekproefproporties liggen tussen 0,18 en 0,22
➔ Dit histogram toont de simulatie van de steekproevenverdeling van de steekproefproportie (𝑃̂ )
De verdeling van de proporties over veel onafhankelijke steekproeven van de populatie noemen we de
steekproevenverdeling van de proporties
Voor verdelingen die klokvormig zijn en gecentreerd rond de reële proportie P (populatieproportie als gemiddelde),
kunnen we de steekproefgrootte (n) gebruiken om de standaardafwijking van de steekproevenverdeling te vinden.
𝑝(1−𝑝) 𝑝𝑞 0,2 . 0,8
➔ 𝑆𝐷(𝑃̂) = √ = √ =√ = 0,0126
𝑛 𝑛 1000
Een andere steekproef kan een ander resultaat opleveren. Het verschil tussen de steekproevenproporties wordt
aangeduid als een steekproevenfout. Het is niet echt een fout dus kan worden aangeduid als een steekproevenvariabiliteit
𝑝𝑞
Het steekproevenverdelingsmodel voor de steekproefproporties is normaal verdeel met N(P, √ )
𝑛
➔ Dit zal niet gelden in alle situaties, maar wel voor de meeste situaties in de praktijk
,Het steekproevenverdelingsmodel voor de steekproefproporties wordt ook wel The Sampling Distribution
Model for a Proportion genoemd.
Met P (populatieproportie) als gemiddelde
𝑝𝑞
Met √ als standaarddeviatie
𝑛
𝑝𝑞
➔ N(P, √ )
𝑛
Steekproevenverdeling in de praktijk
We kunnen de variabiliteit tussen de steekproeven niet controleren omdat we in de praktijk meestal maar 1
steekproef hebben getrokken.
Maar we kunnen aan de hand van deze ene steekproef wel voorspellen hoe de verschillende steekproef
proporties zullen variëren van steekproef tot steekproef (indien aan bepaalde voorwaarden voldaan is)
Dankzij deze gekende variatie kunnen we toch een (bedrijfs)beslissing nemen aan de handen van 1 enkele
steekproef
➔ Hoe dit concreet in zijn werk gaat en vormt een belangrijk onderdeel van deze cursus
Z-scores
Indien we met het Normaalmodel werken kunnen we z-scores berekenen voor gekende populatie proportie P
en vooropgestelde steekproefproportie 𝑃̂
𝑃̂−𝑃
➔ Z-score =
𝑆𝐷(𝑃̂)
Via deze Z-score kunnen we dan de probabiliteit (kans) berekenen om een proportie te bekomen die groter dan
de vooropgestelde 𝑃̂ is.
Zo kunnen we bij het maken van een (bedrijfs)beslissing inschatten hoe uitzonderlijk het bekomen van een
proportie groter dan de vooropgestelde 𝑃̂ is.
Vb.
We weten dat in de populatie 30% van de internetgebruikers ingeschreven is voor een ‘pakket’ (met telefonie
en tv erbij). Stel dat een onderzoeker een survey opzet en 100 respondenten bekomt. Bij onderzoek van de
resultaten blijkt dat 49 respondenten ingeschreven zijn voor een ‘pakket’
Hoe uitzonderlijk is het om een steekproefproportie van 49% te bekomen, gegeven de populatieproportie en
steekproefgrootte?
𝑝𝑞 0,3 .0,7
➔ 𝑆𝐷(𝑃̂) = √ = √ = 0,046
𝑛 100
𝑃̂−𝑃 0,49 −0,30
➔ Z-score = = = 4,13
𝑆𝐷(𝑃̂) 0,046
De steekproefvariabiliteit is meer dan 4 standaarddeviaties groter dan het gemiddelde! Het is dus zeer
uitzonderlijk om deze steekproefproportie te bekomen van 49% als onze populatieproportie 30% is
Dit is een voorbeeldje gebaseerd op de steekproevenverdeling waarbij dat je informatie hebt uit de populatie
,Aannames en condities
Zoals eerder gezegd geld het gebruik van het normaal model voor proporties meestal maar niet altijd. Men
moet dus een aantal aannames en condities gaan controleren!
Aanname van onafhankelijkheid
De steekproefwaarden moeten onafhankelijk van elkaar zijn. Het eerste wat je moet doen is redeneren of de
onafhankelijkheid in de data te verwachten is (over welke gegevens heb ik het ?, op welke manier zijn die
verzameld?) en check de verschillende condities →
• Conditie van aselecte keuze
o Indien de data komt van een experiment, moet de toekenning van de deelnemers aan de groepen
aselect (random) gebeurd zijn.
o Voor een enquête heeft men een enkelvoudig aselecte steekproef uit de populatie nodig.
o Indien een ander opzet wordt gebruikt, moet men zeker zijn dat de steekproef niet vertekend is en dat
de data representatief zijn voor de populatie
• 10% conditie
o Indien de steekproef niet met teruglegging wordt getrokken, mag de steekproefgrootte niet groter zijn
dan 10% van de populatie. Indien het zo is zou men kunnen zeggen dat er afhankelijke trekkingen zijn.
Aanname van de grote van de steekproefgrootte
De steekproefgrootte (n) moet voldoende groot zijn om het normaal model te kunnen gebruiken. Hierbij moet
je ook de condities checken →
• Succes/mislukking conditie
o De steekproefgrootte moet groot genoeg zijn zodat zowel het aantal successen (np) als het aantal
mislukkingen (nq) verwacht wordt minstens 10 te zijn
Belangrijk om te weten dat groter steekproefgroottes gelinkt zijn aan kleinere standaarddeviaties van de
steekproevenverdeling. Een kleinere standaardeviatie betekent minder variabiliteit tussen de verschillende
steekproefproporties.
B. Betrouwbaarheidsinterval voor een proportie
Van steekproef naar populatie
Er wordt een poll uitgevoerd (3559 respondenten) en het resultaat is dat 1495 van de 3559 respondenten
denkt dat de economische omstandigheden betere worden, dus we bekomen een steekproefproportie van
𝑃̂ = = 42%
We zouden deze steekproefproportie graag gebruiken om iets te zeggen over wat de populatieproportie P van
de volledige populatie denkt omtrent de economische omstandigheden.
Standaardfout
We weten dat het steekproevenverdelingsmodel gecentreerd is rond de reële proportie p en dat de
standaardafwijking van de steekproevenverdeling gegeven is door
𝑝𝑞
➔ 𝑆𝐷(𝑃̂) = √ met q = 1 – P
𝑛
Als we de populatieproportie niet kennen zullen we de steekproefproporties gebruiken.
We weten dat de vorm van de steekproevenverdeling nagenoeg Normaal is bij voldoende groot aantal
successen en mislukkingen. We kunnen 𝑃̂ gebruiken om de standaardfout (standard error) te berekenen.
𝑃 𝑞̂̂0,42 .0,58
➔ 𝑆𝐸(𝑃̂ ) = √ = √ = 0,008
𝑛 3559
De standard error is de geschatte standaarddeviatie van de steekproevenverdeling.
, Normaalverdeling van steekproefproporties
Gezien de verdeling normaal is, kunnen we verwachten dat ongeveer 95% van alle steekproeven van 3559
volwassen een steekproefproportie zou hebben binnen 2 Sandard Error’s van de populatieproportie (P)
➔ We zijn dus 95% zeker dat 𝑃̂ binnen 2 . 0,008 van de populatieproportie (P) ligt.
Hoe gebruiken we de steekproevenverdeling? →
Draai de redenering om en bekijk vanuit de steekproefstatistiek (𝑃̂ )! Er is ook 95% zekerheid dat de
populatieparameter (P) binnen de 2 Standard Error’s (SE) van de geobserveerde steekproefstatistiek (𝑃̂ ) ligt!
➔ 42,0% ± 2 . 0,008 = 42,0% ± 1,6% = [40,4%; 43,6%] → Dit is het betrouwbaarheidsinterval
Wat kunnen we zeggen over een proportie? →
“We kunnen met 95% betrouwbaarheid stellen dat tussen 40,4% en 43,6% van volwassenen denkt dat de
economie zou verbeteren.”
➔ Dergelijke uitdrukkingen verwijzen naar betrouwbaarheidsintervallen.
Wat betekent 95% echt?
• Stel dat men 20 steekproeven trekken
• De groene lijn is de echte populatieproportie (P)
➔ We kennen zijn waarde niet
• De oranje lijnen zijn de betrouwbaarheidsintervallen
van de 20 verschillende steekproeven
• De paarse stip de de steekproefproportie (𝑃̂ ) van elke
steekproef.
➔ Bij 1 van de 20 steekproeven (5%) zit de waarde van de populatieproportie niet tussen het
betrouwbaarheidsinterval. Bij de 19 andere wel (95%)
➔ In spreektaal: We zijn 95% zeker dat onze werkelijke populatieproportie ligt in het interval [ …… ]
Aannames en condities
Er zijn hier ook aannames en condities om het interval op deze manier te kunnen berekenen →
• Aanname van onafhankelijkheid
o Controleer de conditie van aselecte keuze (randomization). De data moet volgens aselecte keuze
getrokken worden
o Controleer de 10% conditie. Indien minder dan 10% van de populatie werd getrokken, is het veilig
om verder te gaan.
• Aanname over steekproefgrootte
o Controleer de succes/mislukking conditie via de steekproeproportie (vermits we de
populatieproportie niet kennen). We moeten dus minstens 10 successen en 10 mislukkingen hebben
in de steekproef (n𝑃̂ en n𝑞̂ ≥ 10)
Men stelt een betrouwbaarheidsinterval op voor een populatieparameter (P) en niet voor een
steekproefstatistiek (𝑃̂ )