Samenvatting Statistische Modellen
Statistical Methods for the Social Sciences (5th edition) – Alan Agresti
H4.4 Sampling Distributions Describe How Statistics Vary
Steekproef proces simulatie: laat zien hoe dicht een uitkomst (van de steekproef) ligt bij de populatie
proportie steekproeven proportie ~ populatie proportie.
Als je dit 1000x doet zoek je naar een patroon in de resultaten Normale verdeling.
Voorbeeld: stemmen voor republikeinen of democraten (Brown).
Als de helft van de populatie op Brown stemt, zouden we verwachten dat de steekproefuitkomsten
van 1824 stemmers tussen 46% en 54% voor Brown kiest (als bijv. de steekproefproportie binnen
0.04 van de populatieproportie van 0.50 valt ongeacht de waarde). Voorspelling van 60,5% van de
stemmen voor Brown is dan onwaarschijnlijk.
Sampling distribution (steekproevenverdeling) van een statistic (bijv. steekproeven proportie of een
steekproevengemiddelde): de waarschijnlijkheidsverdeling (Norm. Verdeeld) dat waarschijnlijkheden
laat zien voor mogelijke waarden die de statistic aan kan nemen.
Niet voor individuele observaties, maar voor waarden van een statistic uit die observaties.
Belangrijk in inferentiële statistiek! het helpt te voorspellen hoe dichtbij een statistic ligt bij de
geschatte parameter.
Elke sample statistic heeft een sampling distribution.
Dus een sampling distribution voor een sample proportie, mediaan en gemiddelde apart.
H4.5 Sampling Distributions of Sample Means
ȳ = steekproevengemiddelde. Maar we weten nog niet hoe dichtbij het bij het populatiegemiddelde
µ zit, want we weten die waarde niet…
obv de spreiding, kunnen we het wel schatten!
↓
Standaarddeviatie / standard error (SE) of ȳ σȳ
De standaarddeviatie van de steekproevenverdeling is de standaardfout.
Mean and standard error (SE) of sampling distribution of ȳ
ȳ = µ (bij veel steekproeftrekkingen).
SE σȳ: beschrijft hoe veel ȳ varieert tussen verschillende steekproeven.
σ
Formule:σ ȳ =
√n
Hoe groter n,
- hoe kleiner SE (want de breuk wordt kleiner als n, dus √ n, groter wordt)
- hoe kleiner de spreiding.
- Dat betekent dat de steekproeven proportie dichter bij de populatie proportie zit.
- Hoe kleiner sampling error (fout omdat je µ schat obv ȳ, terwijl ȳ maar een deel van de
populatie is).
Centrale limietstelling: steekproevenverdeling van een steekproevengemiddelde ȳ is bij benadering
een normale verdeling.
Interpretaties en implicaties:
- Steekproevenverdeling van ȳ heeft een klokvorm, zelfs als de populatieverdeling scheef of
discreet is. Hoe groter n, hoe meer klokvormig.
↓
1
, - Wanneer hangt af van de mate van scheefheid (maar rond n=30). Maar
steekproevenverdeling van ȳ is dus bijna altijd klokvormig.
- Vanuit de normale verdeling kan je de steekproevenverdeling ȳ afleiden, want ȳ valt meestal
binnen 3σ van µ.
µ is vaak onbekend, maar toch voorspelt de steekproevenverdeling van ȳ de waarschijnlijkheid dat
het steekproefgemiddelde valt in een bepaalde afstand van µ (zelfs als die onbekend is).
H5 Statistical inference: estimation
H5.1 Punt- en intervalschatting
Parameter schatten op 2 manieren:
● Puntschatting: één getal
● Intervalschatting = betrouwbaarheidsinterval: interval van getallen rond een bepaald punt (met
foutenmarge).
Unbiased:
- Als een steekproevenverdeling centreert rond de parameter (ȳ = µ)
- Als een steekproevenverdeling een kleine SE heeft (smalle verdeling).
Biased:
- Onder-/overschatting van de parameter.
- Steekproevengemiddelde is bruikbaar, steekpoef mediaan niet.
want ligt dichter bij population center.
Betrouwbaarheidsinterval gevormd door puntschatting +- foutenmarge
De informatie over de nauwkeurigheid van een puntschatting bepaalt de breedte van een
intervalschatting.
Intervalschatting = interval waarbinnen de parameter valt. De waarschijnlijkheid hiervan noem je het
betrouwbaarheidsinterval (bhi).
↓
Hoe maak je die? Door een steekproevenverdeling van de puntschatting.
95% = statistic valt binnen 2σ foutenmarge.
H5.2 Betrouwbaarheidsinterval voor een proportie
Bij categorische waarden (kwalitatief) bereken je de verhouding ervan.
π = populatie proportie (dus percentage! deel/geheel * 100%)
π ¿ = steekproef proportie
Standaarddeviatie is wortel variantie: σ =√ π (1−π )
SE steekproefgemiddelde: σ ȳ =
σ
√n
, dus σ π ¿
σ
√n
=
√π (1−π )
n
Hoe groter n, hoe kleiner SE steekproef proportie valt dan dichter bij populatie proportie.
95% valt binnen 2σ van het gemiddelde (=1.96 standaarddeviaties):
¿
95% kans dat π binnen het interval
¿ ¿
π +/- 1.96σ π en 5% niet. 2
¿
Maar σ π weten we niet, want π is
¿
π (1−π )
, ¿
Formule bhi: π +/- 1.96(SE)
Bhi controleren door z-score
Bhi voor populatie proportie π :
¿
π +/- z(se)
Se = √ π ¿ ¿ ¿
Hoe hoger bhi percentage, hoe hoger de kans dat de bhi de parameter omvat. Kleine kans op fouten.
Want de intervalschatting is preciezer en smaller.
¿
Stel 95% π +/- 1.96(se)
¿
Stel 99% π +/- 2.28(se)
z*(se) = foutenmarge Is groter bij een grotere z-score (1..58).
Gegeven is Se = √ π ¿ ¿ ¿ dus hoe groter n, hoe kleiner foutenmarge, hoe kleiner het interval.
Dus factoren die van invloed zijn op de breedte van een bhi:
- Betrouwbaarheidslevel (95% of 99%): hoe groter, hoe groter de breedte van bhi.
- N: hoe groter, hoe kleiner de breedte van bhi.
Waarschijnlijkheidsfout (error of probability = α): de kans dat een bhi de parameter niet omvat, dus
1 – bhi. Dus stel bhi is 95%, dan is de waarschijnlijkheidsfout 5% - 0.05.
H5.3 Betrouwbaarheidsinterval voor gemiddelde
Bhi voor gemiddelde:
Puntschatting +/- foutenmarge
↓ ↓
µ=ȳ voor de populatie: z*se
σ
se steekproefgemiddelde: σ ȳ = maar σ weten we niet, dus dat wordt s.
√n
s
se ¿
√n
T-verdeling
- Voor elke random sample size. Aanname dat steekproefverdeling van ȳ normaal verdeeld is,
zelfs bij kleine n.
Niet meer betrouwbaar bij bhi voor gemiddelde… want er wordt gerekend met s ipv σ (wat al
minder nauwkeurig is) en dan ook nog eens met een kleine n…
Oplossing: z-score t-score. bhi is dan breder.
Lijkt op elkaar, maar t-score komt nu van een normale verdeling is iets wijder is, met dikkere
staarten.
Eigenschappen:
- Klokvormig, symmetrisch, gemiddelde = 0 zelfde als normale verdeling.
- σ ivm normale verdeling iets groter dan 1.
Waarde hangt af van vrijheidsgraden df df = n-1 (één minder dan n).
Hoe hoger df waarde, hoe meer de t-score in de buurt van de z-score komt en de verdeling
lijkt op een normale verdeling en is zelfs identiek bij df > 30.
Normale verdeling = df is oneindig.
- Dikkere staarten en meer verspreid.
- Foutenmarge voor betrouwbaarheidsinterval voor gemiddelde: t-score * se.
3
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller fnieuwkamp. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.90. You're not tied to anything after your purchase.