Samenvatting Statistische Modellen
Statistical Methods for the Social Sciences (5th edition) – Alan Agresti
H4.4 Sampling Distributions Describe How Statistics Vary
Steekproef proces simulatie: laat zien hoe dicht een uitkomst (van de steekproef) ligt bij de populatie
proportie steekproeven proportie ~ populatie proportie.
Als je dit 1000x doet zoek je naar een patroon in de resultaten Normale verdeling.
Voorbeeld: stemmen voor republikeinen of democraten (Brown).
Als de helft van de populatie op Brown stemt, zouden we verwachten dat de steekproefuitkomsten
van 1824 stemmers tussen 46% en 54% voor Brown kiest (als bijv. de steekproefproportie binnen
0.04 van de populatieproportie van 0.50 valt ongeacht de waarde). Voorspelling van 60,5% van de
stemmen voor Brown is dan onwaarschijnlijk.
Sampling distribution (steekproevenverdeling) van een statistic (bijv. steekproeven proportie of een
steekproevengemiddelde): de waarschijnlijkheidsverdeling (Norm. Verdeeld) dat waarschijnlijkheden
laat zien voor mogelijke waarden die de statistic aan kan nemen.
Niet voor individuele observaties, maar voor waarden van een statistic uit die observaties.
Belangrijk in inferentiële statistiek! het helpt te voorspellen hoe dichtbij een statistic ligt bij de
geschatte parameter.
Elke sample statistic heeft een sampling distribution.
Dus een sampling distribution voor een sample proportie, mediaan en gemiddelde apart.
H4.5 Sampling Distributions of Sample Means
ȳ = steekproevengemiddelde. Maar we weten nog niet hoe dichtbij het bij het populatiegemiddelde
µ zit, want we weten die waarde niet…
obv de spreiding, kunnen we het wel schatten!
↓
Standaarddeviatie / standard error (SE) of ȳ σȳ
De standaarddeviatie van de steekproevenverdeling is de standaardfout.
Mean and standard error (SE) of sampling distribution of ȳ
ȳ = µ (bij veel steekproeftrekkingen).
SE σȳ: beschrijft hoe veel ȳ varieert tussen verschillende steekproeven.
σ
Formule:σ ȳ =
√n
Hoe groter n,
- hoe kleiner SE (want de breuk wordt kleiner als n, dus √ n, groter wordt)
- hoe kleiner de spreiding.
- Dat betekent dat de steekproeven proportie dichter bij de populatie proportie zit.
- Hoe kleiner sampling error (fout omdat je µ schat obv ȳ, terwijl ȳ maar een deel van de
populatie is).
Centrale limietstelling: steekproevenverdeling van een steekproevengemiddelde ȳ is bij benadering
een normale verdeling.
Interpretaties en implicaties:
- Steekproevenverdeling van ȳ heeft een klokvorm, zelfs als de populatieverdeling scheef of
discreet is. Hoe groter n, hoe meer klokvormig.
↓
1
, - Wanneer hangt af van de mate van scheefheid (maar rond n=30). Maar
steekproevenverdeling van ȳ is dus bijna altijd klokvormig.
- Vanuit de normale verdeling kan je de steekproevenverdeling ȳ afleiden, want ȳ valt meestal
binnen 3σ van µ.
µ is vaak onbekend, maar toch voorspelt de steekproevenverdeling van ȳ de waarschijnlijkheid dat
het steekproefgemiddelde valt in een bepaalde afstand van µ (zelfs als die onbekend is).
H5 Statistical inference: estimation
H5.1 Punt- en intervalschatting
Parameter schatten op 2 manieren:
● Puntschatting: één getal
● Intervalschatting = betrouwbaarheidsinterval: interval van getallen rond een bepaald punt (met
foutenmarge).
Unbiased:
- Als een steekproevenverdeling centreert rond de parameter (ȳ = µ)
- Als een steekproevenverdeling een kleine SE heeft (smalle verdeling).
Biased:
- Onder-/overschatting van de parameter.
- Steekproevengemiddelde is bruikbaar, steekpoef mediaan niet.
want ligt dichter bij population center.
Betrouwbaarheidsinterval gevormd door puntschatting +- foutenmarge
De informatie over de nauwkeurigheid van een puntschatting bepaalt de breedte van een
intervalschatting.
Intervalschatting = interval waarbinnen de parameter valt. De waarschijnlijkheid hiervan noem je het
betrouwbaarheidsinterval (bhi).
↓
Hoe maak je die? Door een steekproevenverdeling van de puntschatting.
95% = statistic valt binnen 2σ foutenmarge.
H5.2 Betrouwbaarheidsinterval voor een proportie
Bij categorische waarden (kwalitatief) bereken je de verhouding ervan.
π = populatie proportie (dus percentage! deel/geheel * 100%)
π ¿ = steekproef proportie
Standaarddeviatie is wortel variantie: σ =√ π (1−π )
SE steekproefgemiddelde: σ ȳ =
σ
√n
, dus σ π ¿
σ
√n
=
√π (1−π )
n
Hoe groter n, hoe kleiner SE steekproef proportie valt dan dichter bij populatie proportie.
95% valt binnen 2σ van het gemiddelde (=1.96 standaarddeviaties):
¿
95% kans dat π binnen het interval
¿ ¿
π +/- 1.96σ π en 5% niet. 2
¿
Maar σ π weten we niet, want π is
¿
π (1−π )
, ¿
Formule bhi: π +/- 1.96(SE)
Bhi controleren door z-score
Bhi voor populatie proportie π :
¿
π +/- z(se)
Se = √ π ¿ ¿ ¿
Hoe hoger bhi percentage, hoe hoger de kans dat de bhi de parameter omvat. Kleine kans op fouten.
Want de intervalschatting is preciezer en smaller.
¿
Stel 95% π +/- 1.96(se)
¿
Stel 99% π +/- 2.28(se)
z*(se) = foutenmarge Is groter bij een grotere z-score (1..58).
Gegeven is Se = √ π ¿ ¿ ¿ dus hoe groter n, hoe kleiner foutenmarge, hoe kleiner het interval.
Dus factoren die van invloed zijn op de breedte van een bhi:
- Betrouwbaarheidslevel (95% of 99%): hoe groter, hoe groter de breedte van bhi.
- N: hoe groter, hoe kleiner de breedte van bhi.
Waarschijnlijkheidsfout (error of probability = α): de kans dat een bhi de parameter niet omvat, dus
1 – bhi. Dus stel bhi is 95%, dan is de waarschijnlijkheidsfout 5% - 0.05.
H5.3 Betrouwbaarheidsinterval voor gemiddelde
Bhi voor gemiddelde:
Puntschatting +/- foutenmarge
↓ ↓
µ=ȳ voor de populatie: z*se
σ
se steekproefgemiddelde: σ ȳ = maar σ weten we niet, dus dat wordt s.
√n
s
se ¿
√n
T-verdeling
- Voor elke random sample size. Aanname dat steekproefverdeling van ȳ normaal verdeeld is,
zelfs bij kleine n.
Niet meer betrouwbaar bij bhi voor gemiddelde… want er wordt gerekend met s ipv σ (wat al
minder nauwkeurig is) en dan ook nog eens met een kleine n…
Oplossing: z-score t-score. bhi is dan breder.
Lijkt op elkaar, maar t-score komt nu van een normale verdeling is iets wijder is, met dikkere
staarten.
Eigenschappen:
- Klokvormig, symmetrisch, gemiddelde = 0 zelfde als normale verdeling.
- σ ivm normale verdeling iets groter dan 1.
Waarde hangt af van vrijheidsgraden df df = n-1 (één minder dan n).
Hoe hoger df waarde, hoe meer de t-score in de buurt van de z-score komt en de verdeling
lijkt op een normale verdeling en is zelfs identiek bij df > 30.
Normale verdeling = df is oneindig.
- Dikkere staarten en meer verspreid.
- Foutenmarge voor betrouwbaarheidsinterval voor gemiddelde: t-score * se.
3
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur fnieuwkamp. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €5,49. Vous n'êtes lié à rien après votre achat.