In deze samenvatting vind je alle theorie terug van het vak statistiek. Dit betreffen letterlijk dezelfde inhoud als de slides van de prof die op een mooie manier worden weergegeven in een document om alles overzichtelijker te maken.
H10: steekproevenverdelingen en betrouwbaarheidsintervallen
voor proporties
Recap: categorisch versus kwantitatief
o Batch: observatienummer (aantal batches = steekproefgrootte)
o Crack: dichotome waarde, 0/1 = nee/ja (proportie batches met crack=1 als
samenvattende statistiek door het aantal 1 te delen door het totale aantal)
o Impurities/onzuiverheden: kwantitatieve waarde (gemiddeld aantal onzuiverheden
als samenvattende statistiek)
Verdeling van steekproefproporties
Over populatie en steekproeven:
Populatie: over wie/wat wil je een uitspraak doen?
Steekproef: indien niet haalbaar om de volledige populatie te bevragen/bemonsteren
Parameter: proportie p in de populatie (’werkelijke’ waarde)
Statistiek: proportie 𝑃" in de steekproef
Steekproevenverdeling:
Wat is de variabiliteit in de steekproefproportie 𝑃"? Stel je theoretisch voor hoe de
steekproefproportie kan variëren over alle mogelijke steekproeven.
Over populatie een steekproef:
Steekproefproportie: berekend op basis van één enkele steekproef uit een volledige
populatie
Variabiliteit: hoe zou de steekproefproportie variëren over alle mogelijke steekproeven?
è Je gaat een simulatie van meerdere steekproefproporties maken en merkt dat de
steekproefproportie varieert over verschillende steekproeven
Steekproevenverdeling / sampling distribution:
De verdeling van de proporties over veel onafhankelijke steekproeven van de populatie
noemen we de steekproevenverdeling van de proporties.
Voor verdelingen die klokvormig zijn en gecentreerd rond de reële proportie p, kunnen we
de steekproefgrootte n gebruiken om de standaardafwijking van de steekproevenverdeling
,(-.,) ,0
te vinden: 𝑆𝐷(𝑝̂ ) = + /
=+/
,Verschil tussen steekproefproporties: steekproevenfout (Niet echt een fout, misschien
beter: steekproevenvariabiliteit. Het feit dat de steekproevenproporties variëren)
,0
Steekproevenverdelingsmodel voor de steekproefproportie: 𝑁(𝑝, + / )
,0
Steekproevenverdelingsmodel is normaal met een gemiddelde p en SD = + / als aan
bepaalde standaardvoorwaarden wordt voldaan (zie verder aannames en condities)
Dit zal niet gelden in alle situaties, maar wel voor de meeste situaties in de praktijk.
Bedrijfsbeslissingen gebaseerd op 1 steekproef:
o We kunnen de variabiliteit tussen steekproeven niet controleren.
o In de praktijk hebben we (meestal) maar 1 steekproef getrokken.
o We kunnen aan de hand van deze ene steekproef wel voorspellen hoe de verschillende
steekproefproporties zullen variëren van steekproef tot steekproef (indien aan bepaalde
voorwaarden voldaan is).
o Dankzij deze gekende variatie kunnen we toch een (bedrijfs)beslissing nemen a.d.h.v. 1
enkele steekproef.
o Hoe dit concreet in zijn werk gaat vormt een belangrijk onderdeel van deze cursus.
z-scores:
o Vermits we met het Normaalmodel werken kunnen we z-scores berekenen voor
,4.,
gekende populatieproportie p en vooropgestelde 𝑝̂ : 𝑧 = 56(,)
o Via deze z-scores kunnen we dan de probabiliteit berekenen om een proportie te
bekomen groter dan de vooropgestelde 𝑝̂ .
o Zo kunnen we bij het maken van een bedrijfsbeslissing inschatten hoe uitzonderlijk het
bekomen van een proportie groter dan de vooropgestelde 𝑝̂ is.
Aannames en condities
• Aanname van onafhankelijkheid
o De steekproefwaarden moeten onafhankelijk zijn van elkaar
o Conditie van aselecte keuze
Indien de data komen van een experiment, moet de toekenning van de deelnemers
aan de groepen aselect (random) gebeurd zijn. Voor een enquête heeft men een
enkelvoudige aselecte steekproef uit de populatie nodig. Indien een ander opzet
wordt gebruikt, moet men zeker zijn dat de steekproef niet vertekend is en dat de
data representatief zijn voor de populatie.
o 10% conditie
Indien de steekproef niet met teruglegging wordt getrokken, mag de
steekproefgrootte n niet groter zijn dan 10% van de populatie.
2
,• Aanname over steekproefgrootte
o De steekproefgrootte n moet voldoende groot zijn (Normaal
steekproevenverdelingsmodel van 𝑝̂ )
o Succes/mislukking voorwaarde
De steekproefgrootte moet groot genoeg zijn zodat zowel het aantal successen np
als het aantal mislukkingen nq verwacht wordt minstens 10 te zijn.
Betrouwbaarheidsinterval voor een proportie
Voorbeeld:
Er wordt een poll uitgevoerd (3559 respondenten) en het resultaat is dat 1495 van de 3559
respondenten denkt dat de economische omstandigheden beter worden, dus we bekomen
een steekproefproportie van 𝑝̂ = = 42%.
We zouden deze steekproefproportie graag gebruiken om iets te zeggen over wat de
proportie p van de volledige populatie denkt omtrent de economische omstandigheden.
We weten dat het steekproevenverdelingsmodel gecentreerd is rond de reële proportie p
en dat de standaardafwijking van de steekproevenverdeling gegeven is door:
,0
𝑆𝐷(𝑝̂ ) = + / met q = 1 – p
We weten dat de vorm van de steekproevenverdeling nagenoeg Normaal is bij voldoende
groot aantal successen en mislukkingen. We kunnen 𝑝̂ gebruiken om de standaardfout
(standard error) te berekenen. De standard error is de geschatte standaarddeviatie van de
,404
steekproevenverdeling. 𝑆𝐸(𝑝̂ ) = + / = 0,008 in ons voorbeeld
Gezien de verdeling Normaal is, kunnen we verwachten dat ongeveer 95% van alle
steekproeven van 3559 U.S. volwassen een steekproefproportie zou hebben binnen twee
SE’s van p.
Dus: we zijn 95% zeker dat 𝑝̂ binnen 2×(0.008) van p ligt.
Draai de redenering om en bekijk vanuit de steekproefstatistiek! Er is ook 95% zekerheid dat
de populatieparameter binnen de 2 SE van de geobserveerde steekproefstatistiek ligt.
42.0 % +/- 2x 0.008 = [40.4 % ; 43.6 %] -> betrouwbaarheidsinterval is berekend
3
, Interpretatie: "We kunnen met 95% betrouwbaarheid stellen dat tussen de 40.4% and
43.6% van U.S. volwassenen denkt dat de economie zou verbeteren.”
Wat betekent 95% echt?
20 steekproeven
paarste stippen: steekproefproporties
oranje lijnen: betrouwbaarheidsinterval van elke steekproef
groene lijn: echte populatieproportie
1/20 (= 5%) waar populatieproportie niet in het interval is. Dit is aanvaardbaar omdat men
een 95% betrouwbaarheidsproportie hebben.
Aannames en condities om het interval op deze manier te berekenen:
• Aanname van onafhankelijkheid
o Controleer de conditie van aselecte keuze (randomization)– de data moet volgens
aselecte keuze getrokken zijn.
o Controleer de 10% conditie – indien minder dan 10% van de populatie werd
getrokken, is het veilig om verder te gaan.
• Aanname over steekproefgrootte
o Controleer de succes/mislukking conditie via de steekproefproportie (vermits we de
populatieproportie niet kennen) - we moeten dus minstens 10 successen en 10
mislukkingen hebben in de steekproef (n𝑝̂ en n𝑞4 ≥10).
Foutenmarge: Zekerheid versus Precisie
Uitdrukking 95% betrouwbaarheidsinterval voor de populatieproportie p: 𝑝̂ ±1.96 SE(𝑝̂ )
De reikwijdte van het interval aan elke kant van 𝑝̂ wordt de foutenmarge (ME, margin of
error) genoemd. Het betrouwbaarheidsinterval kan algemeen uitgedrukt worden in termen
van ME:
Schatting ± ME met 𝑝̂ hier als de schatting (estimate) van p en ME = 1.96 SE(𝑝̂ ).
Algemene uitdrukking van de foutenmarge (margin of error): ME = 𝑧 ∗ SE(𝑝̂ )
De foutenmarge van een betrouwbaarheidsinterval geeft informatie over de precisie van de
schatting.
𝑧 ∗ bepaalt de zekerheid (betrouwbaarheid, vb. 95%) dat het interval de werkelijke
populatieproportie bevat. Wil je meer zekerheid dan kun je 𝑧 ∗ verhogen (het interval wordt
breder), maar dan zal de precisie verlagen.
4
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper ReginaAllen. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €11,46. Je zit daarna nergens aan vast.