Hoofdstuk 10: Verdeling van steekproefproporties
1. Verdeling van steekproefproporties
Populatie: over wie/wat wil je een uitspraak doen?
Steekproef: indien niet haalbaar om de volledige populatie te bevragen/bemonsteren
Parameter: proportie p in de populatie
Statistiek: proportie 𝑝̂ in de steekproef
Steekproefverdeling: Wat is de variabiliteit in de steekproefproportie 𝑝̂ ? Stel je theoretisch
voor hoe de steekproefproportie kan variëren over alle mogelijke steekproeven.
(sample proportions)
Steekproefproportie berekend o.b.v. 1 enkele steekproef uit een volledige populatie
Variabiliteit: hoe zou de steekproefproportie variëren over alle mogelijke steekproeven?
Voorbeeld
Indien 20% van de klanten hun uitgaven met een kredietkaart verhogen, zal de
marketingcampagne geslaagd zijn. In een steekproef van 1000 klanten, verhoogden 211
klanten hun uitgaven. Is dit voldoende om de campagne te lanceren?
1
,Steekproevenverdeling
= de verdeling van de proporties over veel onafhankelijke steekproeven van de populatie
Voor verdelingen die klokvormig zijn en gecentreerd rond de p, kunnen we de
steekproefgrootte n gebruiken om de standaardafwijking van de steekproevenverdeling te
𝑝(1−𝑝) 𝑝𝑞
vinden: SD(𝑝̂ ) = √ =√𝑛
𝑛
Verschil tussen steekproefproporties = steekproevenfout/ steekproevenvariabiliteit
Bedrijfsbeslissing gebaseerd op 1 steekproef
We kunnen variabiliteit tussen steekproeven niet controleren.
In de praktijk: maar 1 steekproef getrokken
Adhv ene steekproef voorspellen hoe de verschillende
steekproefproporties zullen variëren van steekproef tot steekproef
(indien aan bepaalde voorwaarden voldaan)
Dankzij deze gekende variatie kunnen we toch een bedrijfsbeslissing nemen adhv 1
steekproef.
Z-scores
𝑝̂−𝑝
Als we met het Normaalmodel werken, kunnen we z-scores berekenen: z = 𝑆𝐷(𝑝̂)
Via deze z-scores kunnen we dan de probabiliteit berekenen om een proportie te bekomen
groter dan de vooropgestelde 𝑝̂ .
Zo kunnen we bij het maken van een bedrijfsbeslissing inschatten hoe uitzonderlijk het
bekomen van een proportie groter dan de vooropgestelde 𝑝̂ is.
Aannames & condities
Aanname van onafhankelijkheid: de steekproefwaarden moeten onafhankelijk zijn van
elkaar.
Aanname over steekproefgrootte: n moet voldoende groot zijn
Conditie van aselecte keuze:
- Indien de data komt van een experiment, moet de toekenning van de deelnemers
aan de groepen aselect gebeurd zijn.
- Voor een enquête heeft met een enkelvoudige aselecte steekproef uit de populatie
nodig.
- Indien een ander opzet wordt gebruikt, moet men zeker zijn dat de steekproef niet
vertekend is en dat de data representatief zijn voor de populatie.
10% conditie: als de steekproef niet met teruglegging wordt getrokken; n ≤ 10% populatie
Succes/mislukking voorwaarde (grote steekproef): n moet groot genoeg zijn zodat zowel het
aantal successen (np) als het aantal mislukkingen (nq) verwacht wordt minstens 10 te zijn.
2
, 2. Betrouwbaarheidsinterval voor een proportie
Voorbeeld
Er wordt een poll uitgevoerd (3559 respondenten) en het resultaat is dat 1495 van de 3559
respondenten denkt dat de economische omstandigheden beter worden, dus we bekomen
een steekproefproportie van 𝑝̂ = 1495/3559 = 42%
We zouden deze steekproefproportie graag gebruiken om iets te zeggen over wat de
proportie p van de volledige populatie denkt omtrent de economische omstandigheden.
Standaardfout
We weten dat het steekproevenverdelingsmodel gecentreerd is rond de reële proportie p en
dat de standaardafwijking van de steekproevenverdeling gegeven is door:
𝑝𝑞
SD(𝑝̂ ) = √ 𝑛
We weten dat de vorm van de steekproevenverdeling nagenoeg Normaal is bij voldoende
groot aantal successen en mislukkingen. We kunnen 𝑝̂ gebruiken om de standaardfout te
𝑝̂𝑞̂
berekenen SE(𝑝̂ ) = √ 𝑛
Normaalverdeling van de steekproefproporties
Gezien de verdeling Normaal is, kunnen we verwachten dat ongeveer 95% van alle
steekproeven van 3559 U.S. volwassenen een steekproefproportie zou hebben binnen 2 SE’s
van p.
→ Dus we zijn 95% zeker dat 𝑝̂ binnen 2x(0.008) van p ligt.
Draai redenering om en bekijk vanuit steekproefstatistiek!
Er is ook 95% zekerheid dat de populatieparameter binnen de 2 SE’s van de geobserveerde
steekproefstatistiek ligt. 42.0%±2x0.8 = 42.0% ±1.6% = [40.4%; 43.6%]
→ Interpretatie: “We kunnen let 95% betrouwbaarheid stellen dat tussen de 40.4% en
43.6% van U.S.-volwassenen denkt dat de economie zou verbeteren.”
= Betrouwbaarheidsinterval
Wat betekent 95% echt?
1/20 ligt niet op de groene lijn (dus ons interval) dus
5% niet betrouwbaar.
- 20 steekproeven
- Paarse stippen: steekproefproporties
- Oranje lijnen: BI elke steekproef
- Groene lijn: echte populatieproportie
3
, Aannames en condities
Aanname van onafhankelijkheid:
- Aselecte keuze
- 10% conditie; indien minder dan 10% van de populatie werd getrokken, is het veilig
om verder te gaan
Aanname van steekproefgrootte: controleer de succes/mislukking conditie via de
steekproefproportie – dus n𝑝̂ en n𝑞̂ ≥ 10
3. Foutenmarge: zekerheid vs precisie
Betrouwbaarheidsinterval = schatting ± ME met schatting = 𝑝̂
Foutenmarge (ME) = z*SE(𝑝̂ )
Foutenmarge van een BI geeft info over de precisie van de schatting.
z* bepaalt de zekerheid dat het interval de werkelijke populatieproportie bevat.
→ Meer zekerheid, z* verhogen, dan zal precisie verlagen
→ Precisie verhogen door zekerheid te verlagen, door SE te verlagen
→ SE verlagen door n te verhogen
Kritische waarden z*
Voor elk niveau van betrouwbaarheid, is de kritische waarde het aantal SE’s dat we moeten
aanpassen aan elke kant van 𝑝̂ .
Z-interval voor 1 proportie
Slechts 1 proportie te schatten in 1 steekproef
4. De steekproefgrootte kiezen
Toepassing: bepalen van de steekproefgrootte
Om een smaller BI te bekomen zonder betrouwbaarheid op te geven, moeten we een
grotere steekproef kiezen.
Stel dat een bedrijf een nieuwe service wil aanbieden en daarvoor een schatting, tot binnen
3%, van de proportie van klanten wil die waarschijnlijk deze nieuwe service zullen aankopen
met 95% betrouwbaarheid. Hoe groot moet de steekproef zijn?
𝑝̂𝑞̂ 𝑝̂𝑞̂
ME = z* √ 𝑛 → 0.03 = 1.96= √ 𝑛
→ Kunnen niet oplossen omdat we 2 onbekenden hebben
ME: 5% of minder is aanvaardbaar
ME halveren = n verviervoudigen
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller ellyle. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $9.65. You're not tied to anything after your purchase.