Samenvatting

Samenvatting Statistiek II o.b.v. slides en lesopnames

6 keer verkocht

Instelling
Vrije Universiteit Brussel (VUB)

Gemaakt met de lesopnames en de slides. Extra informatie bijgeschreven die ze vermeldt. Ook komen er sommige delen overeen met stat I en heb ik hiervan een deel overgenomen uit mijn samenvatting van vorig jaar voor extra en duidelijkere uitleg. Bij vragen mag je mij altijd sturen :)

[Meer zien]

Voorbeeld 6 van de 96 pagina's

Bekijk voorbeeld

Heel boek samengevat? Nee
Wat is er van het boek samengevat? H9-16, h4, h22
Geupload op 9 mei 2021
Aantal pagina's 96
Geschreven in 2020/2021
Type Samenvatting

Volgen

evaclaes Lid sinds 4 jaar 101 documenten verkocht

€4,99

In winkelwagen

Opslaan

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Statistiek II

Hoofdstuk 9: steekproevenverdeling en betrouwbaarheidsintervallen
voor fracties

Pogingen zijn Bernoulli als:

- Er enkel 2 mogelijke uitkomsten zijn (succes en falen) voor elke poging
- The kans op succes (𝜌) dezelfde is bij elke poging. De kans op falen (1-𝜌) wordt vaak als 𝑞
genoteerd.
- De pogingen onafhankelijk zijn.

Voorbeelden: muntje opgooien, verzamelen van antwoorden op “ja/nee” vragen…

De 10% toestand: Bernoulli-proeven moeten onafhankelijk zijn. In theorie moeten we steekproeven
uit een populatie die oneindig groot is. Als de populatie echter eindig is, is het nog steeds goed om
door te gaan zolang de steekproef kleiner is dan 10% van de populatie.

Wanneer de willekeurige variabele dat van belang is “het aantal successen” is in een reeks Bernoulli-
onderzoeken, wordt dit een binomiale willekeurige variabele genoemd.

Er zijn 2 parameters nodig om dit binomiale kansmodel te definiëren: het aantal proeven (n) en de
kans op succes p).

De normale verdeling kan de binominale benaderen.

Succes/faalvoorwaarde = een binominaal model is ongeveer normaal als we ten minste 10 successen
en 10 mislukkingen verwachten:

𝑛𝑝 ≥ 10 𝑒𝑛 𝑛𝑞 ≥ 10

Eva Claes 1

, 1. Verdeling van steekproeffracties
Inleiding
Populatie = de grote groep waarover je een uitspraak wenst te doen.

- Parameter (fractie p) = waarde die de informatie beschrijft.

Steekproef = selectie uit de populatie.

- Statistiek (fractie 𝑝̂ ) = waarde die de informatie beschrijft.

Steekproevenverdeling: om meer te weten te komen over de variabiliteit in de steekproeffractie 𝑝̂ ,
moeten we ons voorstellen hoe de steekproeffractie kan variëren over alle mogelijke steekproeven.

Steekproeffractie: één enkele mogelijke steekproef uit een volledige populatie.

Variabiliteit: hoe zou de steekproeffractie variëren over alle mogelijke steekproeven?

Indien 20% van de klanten hun uitgaven met een kredietkaart verhogen, zal de marketingcampagne
geslaagd zijn. In een steekproef van 1000 klanten, verhoogden 211 klanten hun uitgaven. Is dit
voldoende om de campagne te lanceren?

➔ Hangt af van variabiliteit!!!

Simulatie van 10 000 steekproeffracties
Histogram voor 1000 personen met p= 0,2 als (populatie)fractie:

- Niet elke steekproef heeft een fractie gelijk aan 0,2.
- Steekproeffracties groter dan 0,24 en kleiner dan 0,16 zijn zeldzaam.
- Meeste steekproeffracties liggen tussen 0,18 en 0,22.
- Dit histogram toont de simulatie van de steekproevenverdeling van 𝑝̂ .

Steekproevenverdeling
De steekproevenverdeling van de fracties = de verdeling van de fracties over veel onafhankelijke
steekproeven van de populatie.

- Voorwaarden zijn dus: VEEL steekproeven en ONAFHANKELIJKE steekproeven.

Eva Claes 2

,Steekproevenverdeling ≠ verdeling van een steekproef

Samples distribution ≠ distribution of a sample

Steekproevenverdeling Verdeling van één steekproef
Gaat over de steekproeven die we nemen uit de Vorig jaar gezien.
populatie en dus niet over die ene steekproef Je bekijkt de data van de steekproef en hoe
waarvan je de verdeling wil voorstellen in een deze verdeeld zijn.
histogram. Gaat specifiek over één steekproef.

Voor verdelingen die klokvormig zijn en gecentreerd rond de reële fractie p kunnen we de
steekproefgrootte n gebruiken om de standaardafwijking van de steekproevenverdeling te vinden:

𝑝 (1 − 𝑝) 𝑝𝑞
𝑆𝐷(𝑝̂ ) = √ =√
𝑛 𝑛

0,2∗0,8
In ons voorbeeld: 𝑆𝐷(𝑝̂ ) = √ 1000
= 0,0126 = 1,26%

Verschil tussen steekproeffracties: steekproevenfout

- Niet echt een fout, misschien beter: steekproevenvariabiliteit

Steekproevenverdeling voor steekproeffracties
De normaalverdeling is een benadering voor de steekproevenverdeling van de steekproeffractie.

N(𝜇, 𝜎)

𝑝𝑞 𝑝𝑞
N(p, √ 𝑛 ) met 𝜇 (gemiddelde) = p en 𝜎 (standaardafwijking) =√ 𝑛

➔ Dit zal niet gelden in alle situaties, maar wel voor de meeste situaties in de praktijk.
o Wij behandelen alleen situatie die op die manier voorkomen, maar er zijn dus wel
uitzonderingen!

Eva Claes 3

, 𝑝𝑞 𝑝𝑞
68% vd waarnemingen vallen in het interval [−√ 𝑛 , √ 𝑛 ]

𝑝𝑞 𝑝𝑞
95% vd waarnemingen vallen in het interval [−2√ 𝑛 , 2√ 𝑛 ]

𝑝𝑞 𝑝𝑞
99,7% vd waarnemingen vallen in het interval [−3√ 𝑛 , 3√ 𝑛 ]

Aannames en voorwaarden
Aanname van onafhankelijkheid:
- De steekproefwaarden moeten onafhankelijk zijn van elkaar.

Voorwaarde van aselecte keuze:

- Indien de data komt van een experiment, moet de toekenning van de deelnemers aan de
groepen aselect gebeurd zijn.
- Voor een enquête heeft men een enkelvoudige aselecte steekproef uit de populatie nodig.
- Indien een ander opzet wordt gebruikt, moet men zeker zijn dat de steekproef niet
vertekend is en dat de data representatief zijn voor de populatie.

Aanname over steekproefgrootte:
- De steekproefgrootte n moet voldoende groot zijn.

10% voorwaarde:
- Indien de steekproef NIET met teruglegging wordt getrokken, moet de steekproefgrootte n
kleiner zijn dan 10% van de populatie.

Succes/mislukking voorwaarde:
- De steekproefgrootte moet groot genoeg zijn zodat zowel het aantal successen np als het
aantal mislukkingen nq verwacht wordt minstens 10 te zijn.
- 𝑛𝑝 ≥ 10 𝑒𝑛 𝑛𝑞 ≥ 10

2. Betrouwbaarheidsinterval voor een fractie
Hoe kunnen we een fractie van de populatie berekenen terwijl we enkel informatie uit een concrete
steekproef hebben? → doen we a.d.h.v. een betrouwbaarheidsinterval.

Voorbeeld:
Het resultaat van een poll was dat 1495 van de 3559 respondenten dacht dat de economische
omstandigheden beter zouden worden - een steekproeffractie van 𝑝̂ = = 42%. De studie
gaat over de populatie “alle inwoners van Amerika”.
We zouden deze steekproeffractie graag gebruiken om iets te zeggen over wat de fractie p van de
volledige populatie denkt omtrent de economische omstandigheden.

Eva Claes 4

,Standaardfout
We weten dat het steekproevenverdelingsmodel gecentreerd is rond de reële fractie p en dat de
𝑝𝑞
standaardafwijking van de steekproevenverdeling gegeven is door 𝑆𝐷(𝑝̂ ) = √ met q = 1-p.
𝑛

We weten ook van de Centrale Limietstelling dat de vorm van de steekproevenverdeling nagenoeg
̂ kunnen gebruiken om de standaardfout te berekenen:
Normaal is en we 𝒑

𝑝̂ 𝑞̂
𝑆𝐸(𝑝̂ ) = √
𝑛

0,42 (1−0,42)
In ons voorbeeld: 𝑆𝐸(𝑝̂ ) = √ = 0,0008 = 0,08%
3559

Normaalverdeling van de steekproeffracties
Gezien de verdeling Normaal is, kunnen we verwachten dat ongeveer 95% van alle steekproeven van
3559 USA volwassen een steekproeffractie zou hebben binnen 2 SE’s van p.

➔ We zijn 95% zeker dat 𝑝̂ binnen 2*(0,008) van p ligt.
➔ Voor ongeveer 95% v/d steekproeven bevat het interval [𝑝̂ – 2*SE(𝑝̂ ) ; 𝑝̂ + 2*SE(𝑝̂ )] de
populatiefractie p.

[42,0% - 2*0,8% ; 42,0% + 2*0,8%]

→ [42,0% - 1,6% ; 42,0% + 1,6%]

→ [40,4% ; 43,6%]

We kunnen met 95% betrouwbaarheid zeggen dat het interval [40,4% ; 43,6%] de reële
populatiefractie p bevat.

Gepaste interpretatie van een betrouwbaarheidsinterval:

"We kunnen met 95% betrouwbaarheid stellen dat tussen de 40,4% en 43,6% van USA volwassenen
dacht dat de economie zou verbeteren.”

➔ Dergelijke uitdrukkingen verwijzen naar betrouwbaarheidsintervallen.

Wat betekent 95% echt?

De interpretatie:

Als 100 onderzoekers elk een aselecte steekproef met grootte n nemen en elk een 95%-
betrouwbaarheidsinterval berekenen, dan zullen ongeveer 95 van de 100 intervallen de
populatiefractie p bevatten.

Eva Claes 5

, - Paarste stippen: gesimuleerde steekproeffractie
- Oranje lijnen: betrouwbaarheidsinterval van elke steekproef
- Groene lijn: echte populatiefractie

Aannames en voorwaarden
Aanname van onafhankelijkheid:

- Controleer de voorwaarde van aselecte keuze – de data moet volgens aselecte keuze
getrokken zijn.
- Controleer de 10% voorwaarde – indien minder dan 10% van de populatie werd getrokken, is
het veilig om verder te gaan.

Aanname over steekproefgrootte:

- Controleer de succes/mislukking voorwaarde – we moeten minstens 10 successen en 10
mislukkingen hebben in de steekproef.

3. Foutenmarge: zekerheid vs. precisie
Foutenmarge = margin of error ME

Een betrouwbaarheidsinterval heeft een foutenmarge.

95%-betrouwbaarheidsinterval:

𝑝̂ ± 2 ∗ 𝑆𝐸(𝑝̂ )
𝑠𝑐ℎ𝑎𝑡𝑡𝑖𝑛𝑔 ± 𝑓𝑜𝑢𝑡𝑒𝑛𝑚𝑎𝑟𝑔𝑒 → algemene vorm betrouwbaarheidsinterval

Foutenmarge (ME) = de reikwijdte van het interval aan elke kant van 𝑝̂ .

Kritische waarden
Om het niveau van betrouwbaarheid te wijzigen, moeten we het aantal SE’s aanpassen aan het
nieuwe niveau.

Eva Claes 6

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

Studenten hebben al meer dan 850.000 samenvattingen beoordeeld. Zo weet jij zeker dat je de beste keuze maakt!

In een paar klikken geregeld

Geen gedoe — betaal gewoon eenmalig met iDeal, Bancontact of creditcard en je bent klaar. Geen abonnement nodig.

Focus op de essentie

Studenten maken samenvattingen voor studenten. Dat betekent: actuele inhoud waar jij écht wat aan hebt. Geen overbodige details!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.