Hoorcolleges Statistiek 2
College 0 – opfriscollege
Waarom is dit opfriscollege: interessante vragen…
• Hoe kunnen we 60 mensen met depressie bevragen en deze verkregen informatie
gebruiken om te leren over alle mensen met depressie? → gaat over inferentie voor
1 gemiddelde (M&M: CH6, CH7).
• Hoe kunnen we 50 mannen en 50 vrouwen een ‘mental rotation’ test afnemen en,
o.b.v. het verschil tussen deze mannen en vrouwen, met betrouwbaarheid zeggen
dat mannen en vrouwen verschillen? → gaat over inferentie voor verschil tussen 2
gemiddelden (M&M: CH7)
• Hoe kunnen we een klein aantal mensen bevragen over hun attitude m.b.t.
discriminatie en leren over de attitudes in de hele populatie? → gaat over inferentie
voor 1 proportie (M&M: CH8)
• Hoe?
o Simple random sample uit de doelpopulatie → bijv. alle mensen met
depressie, of alleen mannen of vrouwen.
o Meet de relevante variabele → bijv. het aantal symptomen.
o Inferential method: BHI en/of significantietoets.
• Hoe kunnen we deze vragen beantwoorden? Met statistiek.
o Statistiek vat kwantitatieve gegevens samen (vooral stats1A)
o Statistiek is hoe we onzekerheid modelleren (vooral stats1B)
• Merk op:
o Elke keer dat we een steekproef nemen, willen we iets te weten komen over
een populatie.
o Normaal gesproken kunnen we niet de hele populatie onderzoeken, dus we
bestuderen een deel van de populatie (dit is de steekproef).
o Maar omdat we niet alles weten, hebben we te maken met onzekerheid als
we werken met resultaten uit een steekproef!
▪ Onzekerheid… denk aan: standard errors, margin of errors, standard
deviations, variances.
• Door statistiek toe te passen kunnen we uitspraken doen, rekening houdend met
onzekerheid.
Stats1A
• Descriptive statistics = samenvatten van kwantitatieve gegevens
• Sampling distributions (centrale limietstelling) → wat is de verdeling van het
steekproefgemiddelde als we heel vaak een steekproef gaan herhalen.
o Centrale limietstelling: als je steekproef voldoende groot is heeft je
steekproef een normale verdeling.
o Sampling distributions gebruiken we voor het beschrijven van de onzekerheid
in het experiment → een idee krijgen over hoe groot de spreiding is van de
statistic (vooral het gemiddelde)
,Stats1B
• Vergelijken van 2 gemiddeldes = samenhang tussen kwantitatieve variabele en
categorische variabele (2 levels)
• Vergelijken van 2 proporties = samenhang tussen tel-variabele en categorische
variabele (2 levels)
• Vergelijken van meer dan 2 proporties = samenhang tussen tel-variabele en
categorische variabele (meer dan 2 levels)
Stats2 (en ook Stats3)
• Meer over onderzoeken van samenhang tussen variabelen
• Maar meer dan 2 variabelen en ook ingewikkelder samenhang
• VB: Is er een relatie tussen…
o Cell phone use &
▪ Anxiety? Academic performance? General life satisfaction?
o Alcoholconsumptie & mortality
▪ Moeten we leeftijd dan ook
meenemen?
▪ Leeftijd kan samenhangen met
mortalit, maar ook met
alcoholconsumptie.
▪ Hoe kunnen we deze confounding
relationships ontwarren?
Gebruik inferential methods om de samenhang te onderzoeken en uitspraken te doen,
rekening houdend met onzekerheid.
• Basis geleerd bij Stats1
o Inferential methods: betrouwbaarheidsintervallen & significantietoetsen
(CH6)
▪ Centrale limietstelling (CH5)
▪ Marging of errors
▪ P-values
▪ T-tests
▪ Normale verdelingen
▪ Z-scores
▪ Checken assumpties
o Voor Stats2 verwachten we dat je actieve kennis van deze onderwerpen hebt!
o Doel van vandaag: opfrissen van deze kennis.
Inferential statistics
• Inference = to derive as a conclusion from facts or premises.
o Ofwel, het generaliseren van waarnemingen, kenmerken, eigenschappen uit
steekproeven naar de gehele populatie.
• 2 mogelijke methodes
o Confidence intervals (CIs)
▪ Een C% CI bevat een (onbekende) populatie parameter met C% zekerheid
(certainty)
▪ Als het onderzoek heel vaak herhaald wordt, dan zal ongeveer C% van de CIs
de parameter bevatten.
, o Significance testing
▪ P-value: De kans op het huidige steekproefresultaat (of extremer) is zo klein,
onder de nulhupothese, dat het onwaarschijnlijk is dat de parameter een
bepaalde waarde heeft (gedefinieerd in H0).
• Voorbeeld
o Hoeveel mannelijke sekspartners hadden vrouwen vanaf
hun 18de verjaardag (age 23-29)
o 95% CI = (4,3; 8,9)
▪ Met 85% zekerheid ligt µ, het gemiddelde aantal
sekspartners in de populatie, tussen de 4,3 en 8,9.
o H0: 𝜇 = 1 vs. Ha: 𝜇 > 1
▪ T(128) = 4,78, P < 0,001
▪ Als H0 waar zou zijn (gemiddeld 1 sekspartner), dan is het
steekproefresulataat heel onwaarschijnlijk.
▪ Daarom verwerpen we H0: 𝜇 het gemiddelde aantal sekspartners in de
populatie, is waarschijnlijk groter dan 1.
Populatie versus steekproef (sample)
• Gebruik een feit van de steekproef om
de werkelijkheid over de gehele
populatie te schatten.
• Voorbeeld: steekproefgemiddelde 𝑦̅
en popultiegemiddelde 𝜇.
• Het steekproefgemiddelde 𝑦̅ kan
gebruikt worden om:
o Het populatiegemiddelde 𝜇 te
schatten.
o Kansuitspraken over 𝜇 te doen:
▪ Het 95% CI voor 𝜇 is (4,4; 8,8)
▪ We verwerpen de hypothese dat 𝜇 = 1 en 𝛼 = 5%
• Om dergelijke kansuitspraken te kunnen doen, is kennis over de sampling distribution van de
statistic nodig (CH5).
Sampling distributions
• Begrijpen sampling distribution van het steekproefgemiddelde (voor een vaste 𝑛).
1. Verzamel een steekproef. Bereken
steekproefgemiddelde.
2. Verzamel een steekproef. Bereken
steekproefgemiddelde.
3. Verzamel een steekproef. Bereken
steekproefgemiddelde.
4. … (herhaal dit heel erg vaak)
Dit levert een set van
steekproefgemiddelden zet deze in een grafiek (histrogram)
• Deze set van scores heeft een bepaalde verdeling = the sampling distribution of the sample
mean
• Dit principe kan geldt ook voor (elke) andere statistic dan het steekproefgemiddelde (de
sample mean)
• Dus, de sampling distribution is de kansverdelin gvan een statistic in de steekproef.
• Wat weten over sampling distribution van 𝑦̅ ?
, • Want 𝑦̅ gebruiken we om 𝜇 te schatten en om kansuitspraken over 𝜇 te doen.
Sampling distributions zijn basis voor inference
• Waarom? Sampling distributions helpen bij het
kwantificeren welke waardes van de statistic het
meest/minst waarschijnlijk zijn. Hierdoor kunnen we
kansen toekennen aan steekproefresultaten:
o Significance tests: P-values.
o Confidence intervals: de onder- en bovengrenzen.
Significance tests
• Onderliggende principe: een formele procedure voor het vergelijken van
o Waargenomen data met een
o Hypothese waarvan we de werkelijkheid willen beoordelen.
• We kijken naar het bewijs dat door de data TEGEN H0 en ten gunste van Ha wordt geleverd.
• Twee soorten hypotheses:
o Nulhypothese (H0): Een uitspraak over de waarde van de populatieparameter
o Alternatieve hypothese (Ha): Een uitspraak die in tegenspraak met de nulhypothese
is (>, <, ≠)
o De alternatieve hypotheses is altijd in
tegenspraak met de nulhypothese.
▪ Voorbeeld: H0: 𝜇 = 0 versus Ha: 𝜇 ≠ 0