Week 1 - Generalized Linear Models
Statistiek 3
- Lineair model: categorische predictoren
● ANOVA: groepen vergelijken
● ANCOVA: groepen vergelijken met correctie door continue variabelen
● Dummy variabelen
- Logistisch model: categorische uitkomst
● Binair
● Categorisch: wel/niet ordinaal
- Generalized Linear Models
Multipele regressie
- 𝐸(𝑦) = 𝛼 + 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽𝑘𝑥𝑘
Voorspel de waarde van 𝑦 uit meerdere 𝑥-en
- 1 afhankelijke variabele 𝑦 (uitkomst-, responsvariabele)
- 𝑘 onafhankelijke variabelen 𝑥1, … , 𝑥𝑘 (verklarende variabelen, predictoren)
- Lineair voorspellingsmodel voor het conditionele gemiddelde van 𝑦 gegeven de 𝑥-en
- Schatten volgens Least Squares principe: minimaliseer SSE
- Aannames: onafhankelijke waarnemingen, lineair verband, homoscedasticiteit,
normaal-verdeelde residuen
De regressieanalyse geeft de conditionele verdeling van 𝑦 gegeven de 𝑥-en
- Dit is de normale verdeling (aanname: residuen normaal-verdeeld)
- met conditioneel gemiddelde 𝐸(𝑦) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- en met conditionele SD 𝜎 (de SD van de residuen)
Deze regressieanalyse heeft drie kenmerken
1. De conditionele verdeling van 𝑦 (i.e., de residuen) is de normale verdeling
2. Er is een lineaire predictor 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een link tussen het conditionele gemiddelde van 𝑦 en de lineaire predictor:
𝜇 = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
Generalized Linear Models
- Familie van modellen met drie kenmerken
1. Er is een conditionele verdeling van 𝑦 (afhankelijk van soort variabele)
2. Er is een zgn. lineaire predictor: 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een linkfunctie (transformatie) die het gemiddelde van 𝑦 koppelt aan de
lineaire predictor
Wat is het probleem hiermee?
- De verdeling is niet de normale (vaak veroorzaakt door de marginale verdeling van 𝑦:
categorisch, binair, scheef, etc.)
- Er is geen lineair verband tussen 𝑦 en de 𝑥-en (idem)
,Oplossing?
- Gebruik een geschikte verdeling voor 𝑦 dus je bent niet beperkt tot het gebruik van
de normale verdeling (met de aannames)
- Gebruik een andere link tussen het gemiddelde van 𝑦 en de predictoren
Generalized Linear Models
- 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Familie van modellen met drie kenmerken:
1. De verdeling van 𝑦 wordt bepaald door het type variabele – bepaalt ook
verdeling error (niet perse normaal)
2. Er is een zgn. lineaire predictor: 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een linkfunctie (transformatie) die het gemiddelde van 𝑦 koppelt aan de
lineaire predictor: 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Schatten gaat anders dan in het ‘gewone’ lineaire model (maximum likelihood)
- Toetsen gaat ook anders (andere verdelingen):
● Hellingen met 𝑍-toetsen of Wald-toetsen (Chi-kwadraat verdeling)
● Modellen met LR-toetsen (likelihood ratio-toetsen, deviance-toetsen; ook met
Chi-kwadraat verdeling)
,Week 2 - Groepen vergelijken I: eenweg-ANOVA
Generalized Linear Models
- 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽𝑘𝑥𝑘
- Lineaire regressieanalyse:
1. De conditionele verdeling van 𝑦 is de normale verdeling
2. Er is een lineaire predictor 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een eenvoudige link tussen het conditionele gemiddelde van 𝑦 en de
lineaire predictor: 𝜇 = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Schatten gaat via least squares (of maximum likelihood – zelfde hellingen)
- Toetsen gaat op de gebruikelijke manier:
● Hellingen met 𝑡-toetsen (𝑡(𝑛 − 𝑘 − 1)-verdeling)
● Modellen met 𝐹-toetsen (𝐹(𝑘, 𝑛 − 𝑘 − 1)-verdeling)
ANOVA 𝐹-toets
- ANOVA 𝐹-toets: 𝐻0: 𝜌2 = 0 tegen 𝐻ɑ: 𝜌2 > 0
● Of: 𝐻0: 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0 tegen 𝐻ɑ: niet alle 𝛽j gelijk aan 0
● Gebaseerd op splitsing van SS en 𝑑𝑓: verklaard + onverklaard = totaal
2
𝑀𝑆𝑀 𝑅 /𝑘
● 𝐹-toets: 𝐹(5, 144) = 𝑀𝑆𝐸
= 2 = 14,2
(1−𝑅 )/(𝑛−𝑘−1)
● 𝑝 = P(𝐹 ≥ 14,2 | 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0) < 0,0005
● Vergelijkt het model met een leeg model (zonder predictoren)
Partiële 𝐹-toets: vergelijkingen
- Modellen vergelijken: Model 2 en Model 3
● Model 2: predictoren tvsoc_c, sexe en tvsoc_sexe
● Model 3: predictoren tvsoc_c, sexe, tvsoc_sexe, fysiekg en men
● Modelfit: 𝑅22 = 0,264, 𝑅32 = 0,330, winst in 𝑅2 is 0,066
● Kijk niet naar het verschil in 𝐹-scores! Een kleinere 𝐹-score zegt niet dat de
verklaarde variantie minder is.
, ● Modelfit: 𝑅22 = 0,264, 𝑅32 = 0,330, winst in 𝑅2 is 0,066
2 2
(𝑅𝑐 −𝑅𝑟 )/(𝑑𝑓𝑟−𝑑𝑓𝑐) 0,066/2
● 𝐹= 2 = (1−0,330)/144
= 7,124, 𝑝 = 0,001
(1−𝑅𝑐 )/(𝑑𝑓𝑐)
● 𝐻0: 𝜌c2 − 𝜌r2 = 0 vs. 𝐻ɑ: 𝜌c2 − 𝜌r2 > 0 of
𝐻0: 𝜌32 − 𝜌22 = 0 vs. 𝐻ɑ: 𝜌32 − 𝜌22 > 0
● 𝐻0: 𝛽f = 𝛽m = 0 vs. 𝐻ɑ: tenminste één 𝛽 is niet 0
Categorische variabele als predictor, bijvoorbeeld 5 verschillende groepen
- Probleem: de getallen 1 t/m 5 worden random aan de groepen toegewezen
- Wanneer je hiermee een lineaire regressieanalyse uitvoert, krijg je een helling die
moeilijk te interpreteren is: bij een willekeurige andere toewijzing van labels krijg je
een andere helling
- Categorische variabelen moeten dus minimaal een ordinale schaal hebben, anders
kun je ze niet gebruiken
- Oplossing: dummy-variabelen
Dummy-variabelen
- Categorische variabelen als predictoren
● Mag als het dummy's zijn (0/1 variabelen)
● Als er meer dan twee categorieën zijn, mag je die variabelen niet zomaar als
voorspeller in het model opnemen – waarom niet?
● Let op: nominale of ordinale variabelen
● Ordinaal: Likert-schaal met vijf of meer categorieën?
● Hoe dan wel? Maak dummy-variabelen
- Wat moet je doen met een categorische voorspeller?
● Maak er een aantal dummy’s van
● Hoeveel: altijd één minder dan het aantal groepen (categorieën): 𝑔 - 1
● De laatste groep is automatisch de constante: op alle andere dummy’s is de
score namelijk 0
● Want je kunt niet in twee groepen tegelijkertijd zitten: de groepen zijn mutually
exclusive (dummy’s zijn onafhankelijk van elkaar)
Voorbeeld - Sesamstraat
Model: 𝐸(𝑦) = 31,39 − 1,31𝑑1 + 7,34𝑑2 − 5,95𝑑3 − 6,16𝑑4