Beschrijvende en Inferentiele Statistiek (S_PMBIS)
Institution
Vrije Universiteit Amsterdam (VU)
Book
Descriptive and Inferential Statistics in the Social Sciences
Alle aantekeningen die ik heb gemaakt tijdens colleges van week 3 en 4 het vak Beschrijvende en Inferentiele Statistiek (BIS), dat wordt gegeven tijdens de premaster Beleid, Communicatie en Organisatie (BCO) aan de VU. De aantekeningen zijn aangevuld met informatie uit het boek van Van de Bunt (Des...
Beschrijvende en Inferentiele Statistiek (S_PMBIS)
All documents for this subject (3)
5
reviews
By: julia235 • 2 year ago
By: maartjevansnippenberg • 4 year ago
By: koenscheepers • 4 year ago
By: kishabadu • 4 year ago
By: manonbrabander1 • 4 year ago
Seller
Follow
sop_hie_
Reviews received
Content preview
Beschrijvende en Inferentiële Statistiek (BIS) – Deeltentamen 2
College 7 – Betrouwbaarheidsintervallen (H8)
Een ‘statistic’ beschrijft een steekproef. Hierbij hoort het steekproefgemiddelde (x-bar) en de standaarddeviatie s. Een
‘parameter’ beschrijft de populatie. Hierbij hoort het gemiddelde (m) en de standaarddeviatie s. Op basis van de steekproef
worden beslissingen gemaakt en voorspellingen gedaan over de populatie. Dit wordt ook wel inferentiële statistiek genoemd.
Puntenschatting en intervalschatting
Populatie paramaters hebben twee manieren om te schatten: puntschatting en intervalschatting. Een schatter (estimator) is een
steekproefwaarde (sample statistic) die wordt gebruikt om de populatieparameter mee te schatten
• Puntschatting (point estimate)
Schattig van een specifiek percentage of een specifiek gemiddelde. Deze schatting wordt gedaan op basis van een
steekproefproportie of een steekproefgemiddelde
Voorbeeld: X krijgt 56,5% van de stemmen/het gemiddelde cijfer is een 8,2
• Intervalschatting (interval estimate)
Schatting van een range. Hierbij wordt een bepaalde foutmarge (margin of error) gegeven, waardoor het mogelijk is
de nauwkeurigheid van de puntschatting te bepalen
Voorbeeld: X krijgt tussen de 54,5% en 58,5% van de stemmen
Bij categorische variabelen wordt een proportie geschat, welke zowel een puntschatting als een intervalschatting kan zijn. Bij
kwantitatieve variabelen wordt een specifiek gemiddelde geschat en wordt dus alleen een puntschatting gedaan.
Kenmerken van een goede puntschatting
Een goede puntschatting heeft twee kenmerken:
• Zuiver (unbiased)
Het gemiddelde van de steekproevenverdeling is gelijk aan het gemiddelde van de populatie. Een onzuivere
schatter (biased estimator) overschat of onderschat daarentegen de populatieparameter en is dus geen goede schatter
• Kleine standaard error (efficient estimate)
Een goede schatter heeft een kleine standaardfout in vergelijking met andere schatters. Dit wordt dan ook wel een
efficiënte schatting genoemd. Hoe kleiner de standaardfout, hoe efficiënter de schatting
Betrouwbaarheid van een intervalschatting
Hoe betrouwbaar een intervalschattig is wordt bepaald aan de hand van twee factoren:
• Het betrouwbaarheidsinterval (confidence interval)
Dit is een interval van waarden, waarvan we met een bepaald vertrouwen aannemen dat de ‘ware’ waarde van de
populatieparameter daarin ligt. Deze wordt bepaald door de puntschatting en de foutmarge (margin of error). De
foutmarge wordt bepaald door de z-score op basis van het betrouwbaarheidsniveau en de standaardfout
Voorbeeld: we kunnen met 95% vertrouwen zeggen dat de werkelijke waarde van de voorkeur voor X tussen de
54,5% en de 58,5% ligt
• Het betrouwbaarheidsniveau (confidence level)
Dit is de kans dat de populatieparameter daadwerkelijk in het interval ligt
Voorbeeld: we kunnen met 95% vertrouwen zeggen dat de werkelijke waarde van de voorkeur voor X tussen de
54,5% en de 58,5% ligt
Het meest gebruikte betrouwbaarheidsniveau is 0,95. In dat geval weet je met 95%
zekerheid dat de populatieparameter in een bepaald betrouwbaarheidsinterval ligt. De
foutmarge (a) is hierbij 5%. Er is dus 0,05 kans dat we het fout hebben. Deze fout kan
in beide ‘staarten’ van de verdeling liggen. Om de benodigde z-score bij 95%
betrouwbaarheidsniveau te vinden wordt a daarom gedeeld door 2 (p = 0,025).
Betrouwbaarheidsinterval berekenen
Om een betrouwbaarheidsinterval te berekenen worden verschillende stappen genomen:
1) Neem de puntschattig
2) Bepaal het betrouwbaarheidsniveau
3) Bereken de foutmarge op basis van de standaardfout en z-score: foutmarge = standaardfout ∗ z − score
4) Bereken het betrouwbaarheidsinterval op basis van de formule: B.I. = puntschatting ± foutmarge
5) Trek de conclusie
Betrouwbaarheidsinterval berekenen met proportie
Voorbeeld: we willen een 95% betrouwbaarheidsinterval maken voor de proportie Amerikanen die in reïncarnatie gelooft. In
2003 werd middels een survey aan 2201 Amerikanen gevraagd of ze in reïncarnatie geloofden. Van deze 2201 Amerikanen
geloofde 594 in reïncarnatie
1) Puntschatting
Aangezien het hier om een categorische variabele gaat wordt gekeken naar de proportie: 594 van de 2201 geloven
!"#
in reïncarnatie, dus: p-hat = = 0,2699
$$%&
, 2) Betrouwbaarheidsniveau
Het betrouwbaarheidsniveau wordt door de onderzoeker zelf bepaald. Dit reken je dus niet uit! In dit geval wordt
gekozen voor een betrouwbaarheidsniveau van 95%
3) Foutmarge op basis van de standaardfout en de z-score
'%,$)(&+%,$))
Standaardfout (se) = = 0,0095
$$%&
Z-score: het betrouwbaarheidsniveau is 95%. Dit betekent dat er een foutmarge is van 5%. Omdat deze kans is
%,%!
beide staarten van de verdeling kan liggen, wordt de kans gedeeld door twee: p = $ = 0,0250, Kijk in tabel A bij
p = 0,0250, Deze hoort bij een z-score van –1,96,
5) Conclusie
We kunnen met 95% zekerheid zeggen dat het percentage van alle Amerikanen dat in reïncarnatie gelooft tussen de
25,1% en 28,9% ligt
Betrouwbaarheidsinterval berekenen met gemiddelde en z-score
Voorbeeld: we willen een 95% betrouwbaarheidsinterval maken van het aantal sekspartners per jaar van Amerikanen. In
2006 werd aan 2400 Amerikanen gevraagd hoeveel sekspartners ze het afgelopen jaar hadden gehad. Het gemiddelde was
1,04 en de standaarddeviatie 1,09.
1) Puntschatting
Aangezien het hier om een kwantitatieve variabele gaat wordt gekeken naar het gemiddelde. Deze wordt gegeven:
1,04 sekspartners per jaar
2) Betrouwbaarheidsniveau
Het betrouwbaarheidsniveau wordt door de onderzoeker zelf bepaald aan de hand van de hoeveelheid zekerheid de
hij wil. Dit reken je dus niet uit! In dit geval wordt gekozen voor een betrouwbaarheidsniveau van 95%
3) Foutmarge op basis van de standaardfout en de z-score
&%"
Standaardfout (se) = = 0,022
√$#%%
Z-score: het betrouwbaarheidsniveau is 95%. Zoals in het vorige voorbeeld is laten zien hoort hier een z-score van
1,96 bij
5) Conclusie
We kunnen met 95% zekerheid zeggen dat het gemiddeld aantal sekspartners van alle Amerikanen tussen de 1,00
en 1,08 ligt
Invloeden op het betrouwbaarheidsinterval
Als het betrouwbaarheidsniveau wordt vergroot (bijvoorbeeld van 95% naar 99%), is dit van invloed op de z-score. In plaats
van p = 0,025 (betrouwbaarheidsinterval 95%) wordt er bijvoorbeeld naar p = 0,005 (betrouwbaarheidsinterval 99%) gezocht
in tabel A. Waar bij een betrouwbaarheidsniveau van 95% een z-score van – 1,96 hoorde, hoort bij een betrouwbaarheids-
niveau van 99% een z-score van – 2,58, zoals is af te lezen uit tabel A. Als gevolg hiervan neemt de foutmarge toe en wordt
het betrouwbaarheidsinterval breder. De schatting wordt hiermee dus minder precies.
, In onderstaande tabel zijn de meest voorkomende betrouwbaarheidsniveaus met hun bijbehorende foutmarge en z-score
weergegeven.
Betrouwbaarheidsniveau Foutmarge (a) Z-score Betrouwbaarheidsinterval
0,90 0,10 1,645 p ± 1,645(se)
0,95 0,05 1,96 p ± 1,96(se)
0,99 0,01 2,58 p ± 2,58(se)
Als de steekproefgrootte toeneemt (bijvoorbeeld van n = 240 naar n = 2400), is dit van invloed op de standaardfout. De
standaardfout bij een grote steekproef is kleiner dan de standaardfout bij een kleine steekproef. De standaarddeviatie wordt
immers door een groter getal gedeeld, waardoor deze kleiner wordt. Als gevolg hiervan neemt de foutmarge af en wordt het
betrouwbaarheidsinterval smaller. De schatting wordt hiermee dus preciezer.
De t-score gebruiken in plaats van de z-score
Om de standaardfout bij een gemiddelde te berekenen wordt in plaats van de s (standaarddeviatie van de populatie) gebruik
gemaakt van de s (standaarddeviatie van de steekproef), omdat de s vaak onbekend is. Hierdoor is er sprake van een extra
onzekerheid. In plaats van een z-score wordt daarom gebruik gemaakt van een t-score. Om gebruik te kunnen maken van een
t-score moet aan de volgende eisen worden voldaan:
• De data moet worden vergaard door middel van een random sample of een gerandomiseerd experiment
• De data moet ongeveer normaal verdeeld zijn en dus moet n groter zijn dan 30 (Centrale Limiet Theorie)
De t-score wordt gebruikt bij gemiddelden wanneer de n kleiner is dan 100, Wanneer de n bij gemiddelden groter is dan 100,
wordt gewoon gebruik gemaakt van de z-score. Bij proporties wordt altijd gebruik gemaakt van z-scores. Wanneer de n groot
genoeg is neigt de t-verdeling naar de standaard normaalverdeling (op basis van z-scores).
De t-verdeling is afhankelijk van het betrouwbaarheidsniveau en de vrijheidsgraden (degrees of freedom, df). De
vrijheidsgraden kunnen worden berekend door: df = n – 1, Het betrouwbaarheidsniveau wordt door de onderzoeker bepaald.
Betrouwbaarheidsinterval berekenen met gemiddelde en t-score
Voorbeeld: we willen een 95% betrouwbaarheidsinterval maken over de sportprestaties van de studenten van een universiteit.
Aan 7 studenten wordt gevraagd hoe vaak zij per week sporten. Hieruit is naar voren gekomen dat studenten gemiddeld 2,45
keer per week sporten, met een standaardafwijking van 0,54
1) Puntschatting
Aangezien het om een kwantitatieve variabele gaat wordt naar het gemiddelde gekeken. Deze is gegeven: 2,45 keer
per week sporten
2) Betrouwbaarheidsniveau
Het betrouwbaarheidsniveau wordt door de onderzoeker zelf bepaald aan de hand van de hoeveelheid zekerheid de
hij wil. Dit reken je dus niet uit! In dit geval wordt gekozen voor 95%
3) Foutmarge op basis van de standaardfout en de t-score
%,!#
Standaardfout (se) = = 0,204
√)
T-score: het betrouwbaarheidsniveau is 95%. Dit wordt in tabel B ook wel ‘confidence level’ genoemd. Kies
bovenaan in de tabel het juiste betrouwbaarheidsniveau. Aan de linkerkant van de tabel staan de vrijheidsgraden
(df). In dit geval zijn de degrees of freedom 6 (7-1). Bij dit betrouwbaarheidsniveau en degrees of freedom hoort
een t-score van 2,447
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller sop_hie_. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.51. You're not tied to anything after your purchase.