100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Aantekeningen colleges Statistiek 3 (SOBA114) $11.38   Add to cart

Class notes

Aantekeningen colleges Statistiek 3 (SOBA114)

 1 view  0 purchase
  • Course
  • Institution

In dit document staan alle aantekeningen van de colleges van Statistiek 3 met relevante visualisaties

Preview 4 out of 31  pages

  • November 19, 2024
  • 31
  • 2022/2023
  • Class notes
  • Statistiek
  • All classes
avatar-seller
Week 1 - Generalized Linear Models

Statistiek 3
- Lineair model: categorische predictoren
● ANOVA: groepen vergelijken
● ANCOVA: groepen vergelijken met correctie door continue variabelen
● Dummy variabelen
- Logistisch model: categorische uitkomst
● Binair
● Categorisch: wel/niet ordinaal
- Generalized Linear Models

Multipele regressie
- 𝐸(𝑦) = 𝛼 + 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽𝑘𝑥𝑘

Voorspel de waarde van 𝑦 uit meerdere 𝑥-en
- 1 afhankelijke variabele 𝑦 (uitkomst-, responsvariabele)
- 𝑘 onafhankelijke variabelen 𝑥1, … , 𝑥𝑘 (verklarende variabelen, predictoren)
- Lineair voorspellingsmodel voor het conditionele gemiddelde van 𝑦 gegeven de 𝑥-en
- Schatten volgens Least Squares principe: minimaliseer SSE
- Aannames: onafhankelijke waarnemingen, lineair verband, homoscedasticiteit,
normaal-verdeelde residuen

De regressieanalyse geeft de conditionele verdeling van 𝑦 gegeven de 𝑥-en
- Dit is de normale verdeling (aanname: residuen normaal-verdeeld)
- met conditioneel gemiddelde 𝐸(𝑦) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- en met conditionele SD 𝜎 (de SD van de residuen)

Deze regressieanalyse heeft drie kenmerken
1. De conditionele verdeling van 𝑦 (i.e., de residuen) is de normale verdeling
2. Er is een lineaire predictor 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een link tussen het conditionele gemiddelde van 𝑦 en de lineaire predictor:
𝜇 = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘

Generalized Linear Models
- Familie van modellen met drie kenmerken
1. Er is een conditionele verdeling van 𝑦 (afhankelijk van soort variabele)
2. Er is een zgn. lineaire predictor: 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een linkfunctie (transformatie) die het gemiddelde van 𝑦 koppelt aan de
lineaire predictor

Wat is het probleem hiermee?
- De verdeling is niet de normale (vaak veroorzaakt door de marginale verdeling van 𝑦:
categorisch, binair, scheef, etc.)
- Er is geen lineair verband tussen 𝑦 en de 𝑥-en (idem)

,Oplossing?
- Gebruik een geschikte verdeling voor 𝑦 dus je bent niet beperkt tot het gebruik van
de normale verdeling (met de aannames)
- Gebruik een andere link tussen het gemiddelde van 𝑦 en de predictoren

Generalized Linear Models
- 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Familie van modellen met drie kenmerken:
1. De verdeling van 𝑦 wordt bepaald door het type variabele – bepaalt ook
verdeling error (niet perse normaal)
2. Er is een zgn. lineaire predictor: 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een linkfunctie (transformatie) die het gemiddelde van 𝑦 koppelt aan de
lineaire predictor: 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Schatten gaat anders dan in het ‘gewone’ lineaire model (maximum likelihood)
- Toetsen gaat ook anders (andere verdelingen):
● Hellingen met 𝑍-toetsen of Wald-toetsen (Chi-kwadraat verdeling)
● Modellen met LR-toetsen (likelihood ratio-toetsen, deviance-toetsen; ook met
Chi-kwadraat verdeling)

,Week 2 - Groepen vergelijken I: eenweg-ANOVA

Generalized Linear Models
- 𝑔(𝜇) = 𝛼 + 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽𝑘𝑥𝑘
- Lineaire regressieanalyse:
1. De conditionele verdeling van 𝑦 is de normale verdeling
2. Er is een lineaire predictor 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
3. Er is een eenvoudige link tussen het conditionele gemiddelde van 𝑦 en de
lineaire predictor: 𝜇 = 𝛼 + 𝛽1𝑥1 + … + 𝛽𝑘𝑥𝑘
- Schatten gaat via least squares (of maximum likelihood – zelfde hellingen)
- Toetsen gaat op de gebruikelijke manier:
● Hellingen met 𝑡-toetsen (𝑡(𝑛 − 𝑘 − 1)-verdeling)
● Modellen met 𝐹-toetsen (𝐹(𝑘, 𝑛 − 𝑘 − 1)-verdeling)

ANOVA 𝐹-toets
- ANOVA 𝐹-toets: 𝐻0: 𝜌2 = 0 tegen 𝐻ɑ: 𝜌2 > 0
● Of: 𝐻0: 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0 tegen 𝐻ɑ: niet alle 𝛽j gelijk aan 0
● Gebaseerd op splitsing van SS en 𝑑𝑓: verklaard + onverklaard = totaal
2
𝑀𝑆𝑀 𝑅 /𝑘
● 𝐹-toets: 𝐹(5, 144) = 𝑀𝑆𝐸
= 2 = 14,2
(1−𝑅 )/(𝑛−𝑘−1)
● 𝑝 = P(𝐹 ≥ 14,2 | 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0) < 0,0005
● Vergelijkt het model met een leeg model (zonder predictoren)




Partiële 𝐹-toets: vergelijkingen
- Modellen vergelijken: Model 2 en Model 3
● Model 2: predictoren tvsoc_c, sexe en tvsoc_sexe
● Model 3: predictoren tvsoc_c, sexe, tvsoc_sexe, fysiekg en men
● Modelfit: 𝑅22 = 0,264, 𝑅32 = 0,330, winst in 𝑅2 is 0,066
● Kijk niet naar het verschil in 𝐹-scores! Een kleinere 𝐹-score zegt niet dat de
verklaarde variantie minder is.

, ● Modelfit: 𝑅22 = 0,264, 𝑅32 = 0,330, winst in 𝑅2 is 0,066
2 2
(𝑅𝑐 −𝑅𝑟 )/(𝑑𝑓𝑟−𝑑𝑓𝑐) 0,066/2
● 𝐹= 2 = (1−0,330)/144
= 7,124, 𝑝 = 0,001
(1−𝑅𝑐 )/(𝑑𝑓𝑐)

● 𝐻0: 𝜌c2 − 𝜌r2 = 0 vs. 𝐻ɑ: 𝜌c2 − 𝜌r2 > 0 of
𝐻0: 𝜌32 − 𝜌22 = 0 vs. 𝐻ɑ: 𝜌32 − 𝜌22 > 0
● 𝐻0: 𝛽f = 𝛽m = 0 vs. 𝐻ɑ: tenminste één 𝛽 is niet 0

Categorische variabele als predictor, bijvoorbeeld 5 verschillende groepen
- Probleem: de getallen 1 t/m 5 worden random aan de groepen toegewezen
- Wanneer je hiermee een lineaire regressieanalyse uitvoert, krijg je een helling die
moeilijk te interpreteren is: bij een willekeurige andere toewijzing van labels krijg je
een andere helling
- Categorische variabelen moeten dus minimaal een ordinale schaal hebben, anders
kun je ze niet gebruiken
- Oplossing: dummy-variabelen

Dummy-variabelen
- Categorische variabelen als predictoren
● Mag als het dummy's zijn (0/1 variabelen)
● Als er meer dan twee categorieën zijn, mag je die variabelen niet zomaar als
voorspeller in het model opnemen – waarom niet?
● Let op: nominale of ordinale variabelen
● Ordinaal: Likert-schaal met vijf of meer categorieën?
● Hoe dan wel? Maak dummy-variabelen
- Wat moet je doen met een categorische voorspeller?
● Maak er een aantal dummy’s van
● Hoeveel: altijd één minder dan het aantal groepen (categorieën): 𝑔 - 1
● De laatste groep is automatisch de constante: op alle andere dummy’s is de
score namelijk 0
● Want je kunt niet in twee groepen tegelijkertijd zitten: de groepen zijn mutually
exclusive (dummy’s zijn onafhankelijk van elkaar)

Voorbeeld - Sesamstraat




Model: 𝐸(𝑦) = 31,39 − 1,31𝑑1 + 7,34𝑑2 − 5,95𝑑3 − 6,16𝑑4

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller romyborger00. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $11.38. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

73216 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 14 years now

Start selling
$11.38
  • (0)
  Add to cart