Inferential statistics
Inference (in het woordenboek) = To derive as a conclusion from facts or premises
Ofwel het generaliseren van waarnemingen, kenmerken, eigenschappen uit steekproeven
naar de gehele populatie
Confidence Intervals(CIs)
- Een C% CI bevat een (onbekende) populatie parameter met C% zekerheid (certainty)
- Als het onderzoek heel vaak herhaald wordt, dan zal ongeveer C% van de Cis de
parameter bevatten
Hypothese toetsing
- De kans op het huidige steekproefresultaat (of extremer) is zo klein, onder de
nulhypothese, dat het onwaarschijnlijk is dat de parameter een bepaalde waarde
heeft (gedefinieerd in 𝐻0)
Populatie steekproef (sample)
Voorbeeld: steekproefgemiddelde 𝑦# en populatiegemiddelde 𝜇
Het steekproefgemiddelde 𝑦# kan gebruikt worden om:
- Het populatiegemiddelde 𝜇 te schatten
- Kansuitspraken over 𝜇 te doen:
o “Het 95% CI voor 𝜇 is (4.4; 8.8).”
o We verwerpen de hypothese dat 𝜇 = 1 bij 𝛼 = 5%
Om dergelijke kansuitspraken te kunnen doen is kennis over de sampling distribution van de
statistic nodig
Sampling distribution
Begrijpen van de sampling distribution van het steekproefgemiddelde (voor vaste
steekproefgrootte 𝑛):
1. Verzamel een steekproef. Bereken steekproefgemiddelde: 𝑦#1
2. Verzamel een steekproef. Bereken steekproefgemiddelde: 𝑦#2
3. Verzamel een steekproef. Bereken steekproefgemiddelde: 𝑦#3
4. ... (herhaal dit heel erg vaak)
,Dit levert een set van steekproefgemiddelden: 𝑦#1, 𝑦#2, 𝑦#3,...
Deze set van scores heeft een bepaalde verdeling
= the sampling distribution of the sample mean
Dit principe kan natuurlijk gegeneraliseerd worden naar elke andere statistic dan het
steekproefgemiddelde (de sample mean)
Dus,
The sampling distribution is de kansverdeling van een statistic in de steekproef
Wat weten we over sampling distribution van 𝑦# waardoor we deze kunnen gebruiken om 𝜇
te schatten?
Sampling distribution van 𝑦#
- Gemiddelde/ Mean: =
- SD: = Standard Error (SE) van het gemiddelde 𝑛
- Is normaal verdeeld als de populatie van 𝑦 waardes ook normaal verdeeld is
(ongeacht de steekproefgrootte 𝑛):
- Als de populatie van 𝑦-waardes niet normaal verdeeld is, gebruik dan de Central
Limit Theorem (CLT):
o Voor een random sample van grootte 𝑛 uit een arbitraire verdeling met
gemiddelde 𝜇 en standaarddeviatie 𝜎, is de sampling distribution van het
steekproefgemiddelde (sample mean) bij benadering (approximately)
normaal verdeeld met gemiddelde 𝜇 en standaarddeviatie 𝜎/ wortel 𝑛, als 𝑛
groot is
Significance tests
Onderliggende principes:
- Een formele procedure voor het vergelijken van waargenomen data met een
hypothese waarvan we de werkelijkheid willen beoordelen
- Het is de bedoeling dat bewijs geleverd door de data TEGEN 𝐻0 en ten gunste van
𝐻𝑎 wordt beoordeeld
Er zijn twee soorten hypotheses in significance testing:
- Nulhypothese (𝐻0): Een uitspraak over de waarde van de populatieparameter
- Alternatieve hypothese (𝐻𝑎 ): Een uitspraak die in tegenspraak met de nulhypothese
is (kleiner, groter, verschillend)
De alternatieve hypothese is altijd in tegenspraak met de nulhypothese
Voorbeeld: 𝐻0:𝜇 = 0 versus 𝐻𝑎:𝜇 ≠ 0
,P- value
De P-value is de kans op een uitkomst zoals
waargenomen in de steekproef of extremer,
gegeven dat 𝐻0 waar is
- Hoe kleiner de P-value, hoe sterker het
bewijs tegen 𝐻0, ofwel hoe
onwaarschijnlijker 𝐻0 is
- Wat is “klein”?
Vergelijk P met het significantieniveau
(significance level) 𝛼 (e.g., 𝛼 = 5%)
One sample t-test
- 𝑦 ~ 𝑁 𝜇, 𝜎 Zowel 𝜇 als 𝜎 is onbekend
- 𝐻0: 𝜇 = 𝜇0
- Schat 𝜎 met 𝑠 =
- Test statistic:
De t verdeling wordt gebruikt voor de P-value
Pooled Two-sample 𝑡 test
, Significance tests: Welke en wanneer? In statistiek 2
- Regressie
o 𝑡 tests: Parameters (o.a. regressiecoëfficiënten (intercept, hellingen enz.)
o 𝐹 tests: Model fit
- Correlatie
o 𝑡 test: Speciaal geval (𝐻0: 𝜌 = 0)
o 𝑧 test: Fisher’s 𝑧 transformation
- Analysis of variance (ANOVA)
o 𝑡 tests: Contrasts, multiple comparisons
o 𝐹 tests: Model fit
Confidence intervals (CIs) Onderliggende principes:
- Numeriek interval dat, met een bepaald zekerheidsniveau, de waarde van de
populatieparameter bevat
- Confidence level: Het zekerheidsniveau, vaak 95%
- Bij heel vaak herhalen van het experiment, zal 95% van de
tijd het CI de populatieparameter bevatten
Bekende 𝝈: 𝒛 confidence interval
- In de populatie: 𝑦~𝑁 (𝜇, 𝜎) , 𝜎 is onbekend
- 𝑧∗ = kritieke waarde uit 𝑁(0,1)
Onbekende 𝝈: 𝒕 confidence interval
- In de populatie: 𝑦~𝑁 (𝜇, 𝜎). Zowel 𝜇 als 𝜎 is onbekend
- Schat 𝜎 met 𝑠 =
- 𝑡∗ = kritieke waarde uit 𝑡(𝑛 − 1)
Comparing two means
- Neem aan “equal variances”, 𝑦1~𝑁 (𝜇1, 𝜎1) , 𝑦2~𝑁 (𝜇2, 𝜎2) . Alle 𝜇’s en 𝜎’s
onbekend
- Steekproefgroottes: 𝑛1, 𝑛2
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller noorlooijestijn. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.33. You're not tied to anything after your purchase.