College 1: H9: regressie en correlatie, Regressie
________________________________________________________
Vandaag: herhaling statistische modellen 1
en H9: regressie en correlatie (beschrijvend)
en regressie (inferentieel)
Docent is te vinden kamer 3.11 aan de grote rozenstraat.
Stof:
Agresti and Finlay
H9: regressie-analyse en correlatie
H11: multipele regressie
H12: variantieanalyse (ANOVA)
H13: regressie en ANOVA
H15: logistische regressie
Handig: SPSS-klapper, te verkrijgen bij repro
Extra literatuur op de DLO (aanvullingen door de docent).
Tentamen gedeelte open vragen & gedeelte MC-vragen → telt allebei 50%.
Hoofddoelen van statistiek en grove indeling:
- Samenvatting van een (hele grote) groep gegevens → beschrijvende statistiek.
- Aangeven van onzekerheid → statistiek bewijst niets, maar ondersteunt bepaalde
beweringen. Benadruk de onzekerheid hiervan in → inferientiële statistiek.
Terminologie:
- Populatie: groep waarvan onderzoeker eigenschappen wil weten
- Parameter: numerieke samenvatting van eigenschap in populatie
- Steekproef: subgroep uit populatie die onderzocht wordt
- Statistic (ook wel schatter): numerieke samenvatting van eigenschap in steekproef
Inferentiële statistiek
Iets zeggen over de populatie door middel van een steekproef.
,Twee methoden voor inferentie:
1. Betrouwbaarheidsintervallen → indicatie geven waar de parameter ligt
2. Toetsen van hypotheses → gegeven de nulhypothese, is de kans op deze steekproefuitkomst
zo klein, dat het onwaarschijnlijk is dat de populatiegrootheid een bepaalde waarde heeft.
➔ Beide proberen iets te zeggen over de populatie en de steekproef.
Inferentiële statistiek:
Voorbeeld: Het gemiddelde in de steekproef kun je gebruiken om
o Het gemiddelde in populatie te schatten
o Kansuitspraken te doen over het gemiddelde in de populatie
Nodig om kansuitspraken te doen:
o Steekproevenverdeling
Wat gebeurt er wanneer we het over zouden doen?
Waar heb je de steekproevenverdelingen voor nodig?
- Toetsen: p waarde → hoe bijzonder is jouw uitkomst
- Betrouwbaarheidsintervallen: foutenmarge → breedte is afgeleid vanaf de
steekproevenverdeling.
Betrouwbaarheidsintervallen:
- BHI gebaseerd op verdeling rond parameter (bv. µ, p)
- Middelste C% van de verdeling
- Afstand tot midden = margin of error
Margin of error = kritieke waarde * standaardfout (=standaarddevatie maar dan berekend
voor steekproefuitkomsten)
, - Altijd rond steekproefuitkomst
- Iedere keer ander interval
- Doel: schatten parameter
- Dus niet: schatting middelste C% van de mensen (!)
- Algemeen: informatiever dan significantietoets → omdat het een verzameling is van heel
veel mogelijke significantietoetsen die je zou kunnen doen, niet alleen die ene 0 hypothesen.
Je kan in 1 keer zien of je al die mogelijke 0-hypothesen zou verwerpen.
- Je weet alleen dat als je heel vaak een steekproef zou trekken, in 90% van die steekproeven
dat ook de populatie waarde is. Maar je mag niet zeggen, als je de steekproef al hebt
getrokken, dit 90% zeker de parameter omvat.
Toetsen:
- Nulhypothese: een populatiegrootheid heeft een bepaalde waarde
- Alternatieve hypothese: de populatie-grootheid heeft die waarde niet (groter, kleiner,
ongelijk)
- Probeer de nulhypothese te verwerpen
- vb. H0: = 0 versus Ha: ≠ 0
- Je mag nooit een 0 hypothese aannemen → niet significante p waarden zeggen niet dat je
bewezen hebt dat er geen verschil is, je hebt alleen niet voldoende bewijs gevonden dat er
iets aan de hand is.
- Gebaseerd op een toetsingsgrootheid:
p-waarde:
- The probability of getting an outcome as extreme or more extreme than the actually
observed outcome, given H0.
- Hoe kleiner p des te sterker is het bewijs tegen de nulhypothese, d.w.z. hoe
onwaarschijnlijker de nulhypothese is.
- Hoe klein is p? → vergelijk met significantieniveau
Interpretatie van een betrouwbaarheidinterval:
- Waarschijnlijk ligt hij daar ergens. Niet zeggen met 95% zekerheid.
Interpretatie uitkomst significantietoets:
- P < a: significant = “er lijkt bewijs tegen de nulhypothese” → maar dit hoeft niet per se sterk
bewijs te zijn (niks over groot bewijs, inhoudelijk, sterk effect).
- Als P > a : niet significant = geen idee of er een populatie effect is (en dus nooit: er is
waarschijnlijk geen populatie-effect.
- Dus: wees voorzichtig! Ga niet rigide om met cijfers (voorzichtiger zijn met cijfers wanneer
het dicht bij een grens ligt, alles ook inhoudelijk bekijken).
Problemen met significantie toetsing:
I. Complexe redenatie: Heel vaak fouten bij interpretatie van resultaten
, II. Slechts twee mogelijke uitkomsten (significant/niet significant): Onnodige en schadelijke
reductie van informatie!
III. Kan leiden tot gebruik questionable research practices = mensen denken dat significant
iets goeds is en gaan kloten met de cijfers totdat ze uitkomsten hebben die significant
zijn.
Beschrijvende statistiek:
Beschrijvende statistiek gebruik je vóór inferentiële statistiek, d.w.z.: bekijk eerst je data voordat je
toetst/bhis maakt
▪ Beschrijvende maten, zoals gemiddelde, SD, mediaan, minimum, maximum, IQR, etc.
▪ Grafische weergaven, zoals histogram, boxplot, spreidingsdiagram, QQ-plot, etc.
Herhaling regressie:
- Je wilt weten waarom mensen verschillen wat betreft een bepaalde variabele Y
- Proberen de afhankelijke variabele Y te voorspellen op basis van onafhankelijke variabele X
- Dit doen we door het zoeken van de best passende lijn in een y,x-scatterplot
- Voorwaarde: er moet een of ander lineair verband zijn
- Doel: vinden ideale lijn door puntenwolk in spreidingsdiagram
Lijn bepaald door twee eigenschappen:
- Helling (slope): hoe stijl loopt de lijn? Anders: hoeveel stijgt de lijn in de y-richting als x 1
groter wordt?
- Intercept (soms “Constant”): punt waar de y-as gesneden wordt. Oftewel: voorspelling als x
=0
- Hele kleine kans dat er gevraagd wordt naar berekeningen op het tentamen!
Lijn best mogelijke data:
› Door de formules is er een best passende lijn door de puntenwolk.
› Echter: op individueel niveau voorspelling niet per se goed
▪ VB: lange lichte mensen, zwaardere kleine mensen
› Hoe goed is voorspelling op individueel niveau:
▪ Residuen
▪ De regressielijn verbindt alle voorspellingen voor y gegeven bepaalde x-waarden