Voorspel de waarde van 𝑦 uit meerdere 𝑥-en
- 1 afhankelijke variabele 𝑦 (uitkomst-, responsvariabele)
- 𝑘 onafhankelijke variabelen 𝑥1, … , 𝑥𝑘 (verklarende variabelen, predictoren)
- Lineair voorspellingsmodel voor het conditionele gemiddelde van 𝑦 gegeven de 𝑥-en
- Schatten volgens Least Squares principe: minimaliseer SSE
- Aannames: onafhankelijke waarnemingen, lineair verband, homoscedasticiteit,
normaal-verdeelde residuen
De regressieanalyse geeft de conditionele verdeling van 𝑦 gegeven de 𝑥-en
- Dit is de normale verdeling (aanname: residuen normaal-verdeeld)
- met conditioneel gemiddelde 𝐸(𝑦) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- en met conditionele SD 𝜎 (de SD van de residuen)
Deze regressieanalyse heeft drie kenmerken
1. De conditionele verdeling van 𝑦 (i.e., de residuen) is de normale verdeling
2. Er is een lineaire predictor 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een link tussen het conditionele gemiddelde van 𝑦 en de lineaire predictor:
𝜇 = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
Generalized Linear Models
- Familie van modellen met drie kenmerken
1. Er is een conditionele verdeling van 𝑦 (afhankelijk van soort variabele)
2. Er is een zgn. lineaire predictor: 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een linkfunctie (transformatie) die het gemiddelde van 𝑦 koppelt aan de
lineaire predictor
Wat is het probleem hiermee?
- De verdeling is niet de normale (vaak veroorzaakt door de marginale verdeling van 𝑦:
categorisch, binair, scheef, etc.)
- Er is geen lineair verband tussen 𝑦 en de 𝑥-en (idem)
,Oplossing?
- Gebruik een geschikte verdeling voor 𝑦 dus je bent niet beperkt tot het gebruik van
de normale verdeling (met de aannames)
- Gebruik een andere link tussen het gemiddelde van 𝑦 en de predictoren
Generalized Linear Models
- 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Familie van modellen met drie kenmerken:
1. De verdeling van 𝑦 wordt bepaald door het type variabele – bepaalt ook
verdeling error (niet perse normaal)
2. Er is een zgn. lineaire predictor: 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een linkfunctie (transformatie) die het gemiddelde van 𝑦 koppelt aan de
lineaire predictor: 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Schatten gaat anders dan in het ‘gewone’ lineaire model (maximum likelihood)
- Toetsen gaat ook anders (andere verdelingen):
● Hellingen met 𝑍-toetsen of Wald-toetsen (Chi-kwadraat verdeling)
● Modellen met LR-toetsen (likelihood ratio-toetsen, deviance-toetsen; ook met
Chi-kwadraat verdeling)
,Week 2 - Groepen vergelijken I: eenweg-ANOVA
Generalized Linear Models
- 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽𝑘𝑥𝑘
- Lineaire regressieanalyse:
1. De conditionele verdeling van 𝑦 is de normale verdeling
2. Er is een lineaire predictor 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een eenvoudige link tussen het conditionele gemiddelde van 𝑦 en de
lineaire predictor: 𝜇 = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Schatten gaat via least squares (of maximum likelihood – zelfde hellingen)
- Toetsen gaat op de gebruikelijke manier:
● Hellingen met 𝑡-toetsen (𝑡(𝑛 − 𝑘 − 1)-verdeling)
● Modellen met 𝐹-toetsen (𝐹(𝑘, 𝑛 − 𝑘 − 1)-verdeling)
ANOVA 𝐹-toets
- ANOVA 𝐹-toets: 𝐻0: 𝜌2 = 0 tegen 𝐻ɑ: 𝜌2 > 0
● Of: 𝐻0: 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0 tegen 𝐻ɑ: niet alle 𝛽j gelijk aan 0
● Gebaseerd op splitsing van SS en 𝑑𝑓: verklaard + onverklaard = totaal
2
𝑀𝑆𝑀 𝑅 /𝑘
● 𝐹-toets: 𝐹(5, 144) = 𝑀𝑆𝐸
= 2 = 14,2
(1−𝑅 )/(𝑛−𝑘−1)
● 𝑝 = P(𝐹 ≥ 14,2 | 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0) < 0,0005
● Vergelijkt het model met een leeg model (zonder predictoren)
Partiële 𝐹-toets: vergelijkingen
- Modellen vergelijken: Model 2 en Model 3
● Model 2: predictoren tvsoc_c, sexe en tvsoc_sexe
● Model 3: predictoren tvsoc_c, sexe, tvsoc_sexe, fysiekg en men
● Modelfit: 𝑅22 = 0,264, 𝑅32 = 0,330, winst in 𝑅2 is 0,066
● Kijk niet naar het verschil in 𝐹-scores! Een kleinere 𝐹-score zegt niet dat de
verklaarde variantie minder is.
● 𝐻0: 𝜌c2 − 𝜌r2 = 0 vs. 𝐻ɑ: 𝜌c2 − 𝜌r2 > 0 of
𝐻0: 𝜌32 − 𝜌22 = 0 vs. 𝐻ɑ: 𝜌32 − 𝜌22 > 0
● 𝐻0: 𝛽f = 𝛽m = 0 vs. 𝐻ɑ: tenminste één 𝛽 is niet 0
Categorische variabele als predictor, bijvoorbeeld 5 verschillende groepen
- Probleem: de getallen 1 t/m 5 worden random aan de groepen toegewezen
- Wanneer je hiermee een lineaire regressieanalyse uitvoert, krijg je een helling die
moeilijk te interpreteren is: bij een willekeurige andere toewijzing van labels krijg je
een andere helling
- Categorische variabelen moeten dus minimaal een ordinale schaal hebben, anders
kun je ze niet gebruiken
- Oplossing: dummy-variabelen
Dummy-variabelen
- Categorische variabelen als predictoren
● Mag als het dummy's zijn (0/1 variabelen)
● Als er meer dan twee categorieën zijn, mag je die variabelen niet zomaar als
voorspeller in het model opnemen – waarom niet?
● Let op: nominale of ordinale variabelen
● Ordinaal: Likert-schaal met vijf of meer categorieën?
● Hoe dan wel? Maak dummy-variabelen
- Wat moet je doen met een categorische voorspeller?
● Maak er een aantal dummy’s van
● Hoeveel: altijd één minder dan het aantal groepen (categorieën): 𝑔 - 1
● De laatste groep is automatisch de constante: op alle andere dummy’s is de
score namelijk 0
● Want je kunt niet in twee groepen tegelijkertijd zitten: de groepen zijn mutually
exclusive (dummy’s zijn onafhankelijk van elkaar)
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller romyborger00. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $11.15. You're not tied to anything after your purchase.