Inferential statistics
Inference (in het woordenboek) = To derive as a conclusion from facts or premises
Ofwel het generaliseren van waarnemingen, kenmerken, eigenschappen uit steekproeven
naar de gehele populatie
Confidence Intervals(CIs)
- Een C% CI bevat een (onbekende) populatie parameter met C% zekerheid (certainty)
- Als het onderzoek heel vaak herhaald wordt, dan zal ongeveer C% van de Cis de
parameter bevatten
Hypothese toetsing
- De kans op het huidige steekproefresultaat (of extremer) is zo klein, onder de
nulhypothese, dat het onwaarschijnlijk is dat de parameter een bepaalde waarde
heeft (gedefinieerd in 𝐻0)
Populatie steekproef (sample)
Voorbeeld: steekproefgemiddelde 𝑦# en populatiegemiddelde 𝜇
Het steekproefgemiddelde 𝑦# kan gebruikt worden om:
- Het populatiegemiddelde 𝜇 te schatten
- Kansuitspraken over 𝜇 te doen:
o “Het 95% CI voor 𝜇 is (4.4; 8.8).”
o We verwerpen de hypothese dat 𝜇 = 1 bij 𝛼 = 5%
Om dergelijke kansuitspraken te kunnen doen is kennis over de sampling distribution van de
statistic nodig
Sampling distribution
Begrijpen van de sampling distribution van het steekproefgemiddelde (voor vaste
steekproefgrootte 𝑛):
1. Verzamel een steekproef. Bereken steekproefgemiddelde: 𝑦#1
2. Verzamel een steekproef. Bereken steekproefgemiddelde: 𝑦#2
3. Verzamel een steekproef. Bereken steekproefgemiddelde: 𝑦#3
4. ... (herhaal dit heel erg vaak)
,Dit levert een set van steekproefgemiddelden: 𝑦#1, 𝑦#2, 𝑦#3,...
Deze set van scores heeft een bepaalde verdeling
= the sampling distribution of the sample mean
Dit principe kan natuurlijk gegeneraliseerd worden naar elke andere statistic dan het
steekproefgemiddelde (de sample mean)
Dus,
The sampling distribution is de kansverdeling van een statistic in de steekproef
Wat weten we over sampling distribution van 𝑦# waardoor we deze kunnen gebruiken om 𝜇
te schatten?
Sampling distribution van 𝑦#
- Gemiddelde/ Mean: =
- SD: = Standard Error (SE) van het gemiddelde 𝑛
- Is normaal verdeeld als de populatie van 𝑦 waardes ook normaal verdeeld is
(ongeacht de steekproefgrootte 𝑛):
- Als de populatie van 𝑦-waardes niet normaal verdeeld is, gebruik dan de Central
Limit Theorem (CLT):
o Voor een random sample van grootte 𝑛 uit een arbitraire verdeling met
gemiddelde 𝜇 en standaarddeviatie 𝜎, is de sampling distribution van het
steekproefgemiddelde (sample mean) bij benadering (approximately)
normaal verdeeld met gemiddelde 𝜇 en standaarddeviatie 𝜎/ wortel 𝑛, als 𝑛
groot is
Significance tests
Onderliggende principes:
- Een formele procedure voor het vergelijken van waargenomen data met een
hypothese waarvan we de werkelijkheid willen beoordelen
- Het is de bedoeling dat bewijs geleverd door de data TEGEN 𝐻0 en ten gunste van
𝐻𝑎 wordt beoordeeld
Er zijn twee soorten hypotheses in significance testing:
- Nulhypothese (𝐻0): Een uitspraak over de waarde van de populatieparameter
- Alternatieve hypothese (𝐻𝑎 ): Een uitspraak die in tegenspraak met de nulhypothese
is (kleiner, groter, verschillend)
De alternatieve hypothese is altijd in tegenspraak met de nulhypothese
Voorbeeld: 𝐻0:𝜇 = 0 versus 𝐻𝑎:𝜇 ≠ 0
,P- value
De P-value is de kans op een uitkomst zoals
waargenomen in de steekproef of extremer,
gegeven dat 𝐻0 waar is
- Hoe kleiner de P-value, hoe sterker het
bewijs tegen 𝐻0, ofwel hoe
onwaarschijnlijker 𝐻0 is
- Wat is “klein”?
Vergelijk P met het significantieniveau
(significance level) 𝛼 (e.g., 𝛼 = 5%)
One sample t-test
- 𝑦 ~ 𝑁 𝜇, 𝜎 Zowel 𝜇 als 𝜎 is onbekend
- 𝐻0: 𝜇 = 𝜇0
- Schat 𝜎 met 𝑠 =
- Test statistic:
De t verdeling wordt gebruikt voor de P-value
Pooled Two-sample 𝑡 test
, Significance tests: Welke en wanneer? In statistiek 2
- Regressie
o 𝑡 tests: Parameters (o.a. regressiecoëfficiënten (intercept, hellingen enz.)
o 𝐹 tests: Model fit
- Correlatie
o 𝑡 test: Speciaal geval (𝐻0: 𝜌 = 0)
o 𝑧 test: Fisher’s 𝑧 transformation
- Analysis of variance (ANOVA)
o 𝑡 tests: Contrasts, multiple comparisons
o 𝐹 tests: Model fit
Confidence intervals (CIs) Onderliggende principes:
- Numeriek interval dat, met een bepaald zekerheidsniveau, de waarde van de
populatieparameter bevat
- Confidence level: Het zekerheidsniveau, vaak 95%
- Bij heel vaak herhalen van het experiment, zal 95% van de
tijd het CI de populatieparameter bevatten
Bekende 𝝈: 𝒛 confidence interval
- In de populatie: 𝑦~𝑁 (𝜇, 𝜎) , 𝜎 is onbekend
- 𝑧∗ = kritieke waarde uit 𝑁(0,1)
Onbekende 𝝈: 𝒕 confidence interval
- In de populatie: 𝑦~𝑁 (𝜇, 𝜎). Zowel 𝜇 als 𝜎 is onbekend
- Schat 𝜎 met 𝑠 =
- 𝑡∗ = kritieke waarde uit 𝑡(𝑛 − 1)
Comparing two means
- Neem aan “equal variances”, 𝑦1~𝑁 (𝜇1, 𝜎1) , 𝑦2~𝑁 (𝜇2, 𝜎2) . Alle 𝜇’s en 𝜎’s
onbekend
- Steekproefgroottes: 𝑛1, 𝑛2
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur noorlooijestijn. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €3,99. Vous n'êtes lié à rien après votre achat.