Samenvatting ALLE Hoorcolleges Statistiek 2
Hoorcollege 0 – Statistiek II – Opfriscollege
Onderwerpen van dit opfriscollege:
• Inferential statistics
• Sampling distributions
• Significantietoetsen/Significance tests
• Betrouwbaarheidsintervallen/Confidence intervals
Hoe kun je een uitspraak doen over de hele populatie?
1. Neem een Simple random sample uit de doelpopulatie.
2. Meet de relevante variabele.
3. Inferential method: BHI en/of significantietoets.
Verschillende inferenties, o.a.:
• Inferentie voor 1 gemiddelde (Hst 6 en 7)
• Inferentie voor verschil tussen 2 gemiddelden (Hst 7)
• Inferentie voor 1 proportie (Hst 8)
Wat is statistiek?
• Statistiek vat kwantitatieve gegevens samen
• Statistiek is hoe we onzekerheid modelleren
Merk op:
• Elke keer dat we een steekproef nemen, willen we iets te weten komen over een
populatie.
• Normaal gesproken kunnen we niet de hele populatie onderzoeken, dus we
bestuderen een deel van de populatie (dit is de steekproef).
• Maar omdat we niet alles weten, hebben we te maken met onzekerheid als we
werken met resultaten uit een steekproef.
• Onzekerheid, denk aan: standard errors, margin of errors, standard deviations,
variances.
Door Statistiek kunnen we uitspraken doen, rekening houdend met onzekerheid.
Beschrijven en onderzoeken van samenhang tussen variabelen
• Descriptive statistics
➢ Hoe kunnen we data samenvatten?
• Sampling distributions (Wat is de verdeling van ons steekproefgemiddelde, als we
heel vaak onze steekproef gaan herhalen → Centrale Limietstelling)
➢ Wanneer je steekproef (n) voldoende groot is, heeft je steekproefgemiddelde
een normale verdeling.
➢ Beschrijven van onzekerheid in het experiment.
• Vergelijken van 2 gemiddeldes
➢ Samenhang tussen kwantitatieve variabele en categorische variabele (2
levels).
• Vergelijken van 2 proporties
➢ Samenhang tussen tel-variabele en categorische variabele (2 levels).
• Vergelijken van meer dan 2 proporties
➢ Samenhang tussen tel-variabele en categorische variabele (meer dan 2
levels).
1
,Voorbeeld:
Is er een relatie tussen telefoongebruik en angst, academische resultaten en algemene
levenstevredenheid.
• Je kunt deze variabelen los gaan onderzoeken, maar ook alle drie in één keer.
Is er een relatie tussen alcoholconsumptie en sterfte.
• Moet leeftijd ook meengenomen worden? Leeftijd kan samenhangen met sterfte,
maar ook met alcoholconsumptie. Hoe kunnen deze confounding relationships
ontward worden?
Gebruik inferential methods om de samenhang te onderzoeken en uitspraken te doen,
rekening houdend met onzekerheid.
Basis:
• Inferential methods: Betrouwbaarheidsintervallen & Significantietoetsen
• Centrale Limietstelling, margin of errors, P-values, t-tests, normale verdelingen, z-
scores, checken assumpties, etc.
Inference = To derive as a conclusion from facts or premises
→ Ofwel, het generaliseren van waarnemingen, kenmerken, eigenschappen uit
steekproeven naar de gehele populatie.
Twee opties voor inferentie:
1. Confidence intervals (CI’s)
• Een C% CI bevat een (onbekende) populatie parameter met C% zekerheid
(certainty).
• Als het onderzoek heel vaak herhaald wordt, dan zal ongeveer C% van de
CI’s de parameter bevatten.
2. Significance testing
• P-value: de kans op het huidige steekproefresultaat (of extremer) is zo klein,
onder de nulhypothese, dat het onwaarschijnlijk is dat de parameter een
bepaalde waarde heeft (gedefinieerd in H0).
Gebruik een feit van de steekproef om de werkelijkheid over de gehele populatie te schatten.
2
,Populatie versus steekproef (sample)
→ Steekproefgemiddelde 𝑦̅ en populatiegemiddelde µ.
Het steekproefgemiddelde 𝑦̅ kan gebruikt worden om…
• Het populatiegemiddelde µ te schatten.
• Kansuitspraken over µ te doen:
➢ “Het 95% CI voor µ is (4.4; 8.8)”.
➢ We verwerpen de hypothese dat µ = 1 bij α = 5%.
Om dergelijke kansuitspraken te kunnen doen, is kennis over sampling distribution van de
statistic nodig.
Begrijpen sampling distribution van het steekproefgemiddelde (voor vaste n):
• Verzamel een steekproef. Bereken steekproefgemiddelde.
• Dit doe je nog een keer, nog een keer, etc.
• Dit levert een set van steekproefgemiddelden.
Deze steekproefgemiddelden kun je in een grafiek (histogram) zetten.
Deze set van scores heeft een bepaalde verdeling = the sampling distribution of the
sample mean. Dit principe geldt ook voor (elke) andere statistic dan het
steekproefgemiddelde.
Dus, de sampling distribution is de kansverdeling van een statistic in de steekproef.
3
, Centrale Limietstelling: Als n groot is, dan is de sampling distribution van het
steekproefgemiddelde 𝑥̅ ongeveer normaal verdeeld:
• Dit geldt ongeacht de vorm van de populatieverdeling, dus ook niet-normale
populaties.
• Voorwaarde: SRS, eindige σ en voldoende grote n.
• Als X~N(, σ) dan is 𝑥̅ exact normaal verdeeld, ook bij kleine n.
Sampling distributions zijn de basis voor inferentie. Waarom?
• Samping distributions helpen bij het kwantificeren welke waardes van de statistic het
meest/minst waarschijnlijk zijn.
• Hierdoor kunnen we kansen toekennen aan steekproefresultaten:
➢ Significance tests: P-values.
➢ Confidence intervals: De onder- en bovengrenzen.
Significance tests
Onderliggende principe: een formele procedure voor het vergelijken van:
• Waargenomen data met een
• Hypothese waarvan we de werkelijkheid willen beoordelen
→ We kijken naar het bewijs dat door de data TEGEN H0 en ten gunste van Ha wordt
geleverd.
4