Samenhang tussen twee variabelen:
● Tussen twee continue variabelen:
- Correlatie (covariantie)
● Tussen een continue en categorische variabele:
- 𝑡-toets voor twee gemiddelden (Agresti H.7)
● Tussen twee categorische variabelen:
- Kruistabel en 𝜒2-toets (Agresti H.8)
- Odds en odds-ratio (Agresti H.8)
- 𝑍-toets voor twee proporties (Agresti H.7)
● Samenhang tussen twee continue variabelen:
- Correlatie: sterkte en richting van het verband
- Regressie: modelleren van het verband
● Lineaire regressieanalyse:
Analyse van de samenhang tussen een afhankelijke variabele en een (of meerdere)
onafhankelijke variabele(n) met behulp van een lineair model.
Trek een rechte lijn door de puntenwolk
● Voorspel de waarde van 𝑦 uit een gegeven waarde van 𝑥 met behulp van een rechte
lijn: lineair verband
● Afhankelijke variabele 𝑦 (in voorbeeld postlet)
- Te verklaren variabele, responsvariabele, uitkomstvariabele
- Interval- of ratioschaal
● Onafhankelijke variabele 𝑥 (in voorbeeld postnumb)
- Verklarende variabele, predictor
- Intervalschaal of dummyvariabele (binair, bijv. 0/1)
● De formule 𝑦 = 𝛼 + 𝛽𝑥 drukt observaties van 𝑦 uit als een lineaire functie van
observaties van 𝑥. De formule heeft een grafiek met een rechte lijn, met helling 𝛽 en
𝑦-constante 𝛼.
- Constante (intercept): waarde van 𝑦 als 𝑥 nul is; snijpunt met de 𝑦-as
- Helling (richtingscoëfficiënt): stijging in 𝑦 als 𝑥 één punt stijgt
Voorbeeld: De impact van Sesamstraat
● Afhankelijke 𝑦 = postlet
● Onafhankelijke 𝑥 = postnumb
● Lineair verband: 𝑦 = 𝛼 + 𝛽𝑥
● Rechte lijn lijkt goed te passen maar blijft een vereenvoudiging van de werkelijkheid
(in de populatie)
● Waarden van de constante 𝛼 en de helling 𝛽 moeten geschat worden
● Model: ŷ = 0,443 + 0,862𝑥
● Of E(postlet) = 0,443 + 0,862postnumb
- Constante (0,443): verwacht waarde van postlet (𝑦) als postnumb (𝑥) gelijk is
aan 0
- Helling (0,862): gemiddelde stijging in postlet (𝑦) als postnumb (𝑥) één
eenheid stijgt
, ● Neem kind 133 in de dataset, die heeft een score op postnumb = 14. Wat voorspel je
voor 𝑦 (postlet)?
● Voorspelling: ŷ = 0,443 + 0,862 × 14 = 12,511
● Fout: y - ŷ = 13 - 12,511 = 0,489 → residu/error
Residuen
● De fout bij het schatten is e = y - ŷ = residu (uitleg voorspelfouten: ppt. week 1, slides
22-23).
● Het verschil tussen de geobserveerde waarde en de voorspelde waarde.
● SSE kan worden gezien als een ‘foutenmaat’; hoe slecht het model is.
● Beste regressielijn schatten via methode van kleinste kwadraten (OLS) door fouten
te minimaliseren:
- Maak de fouten zo klein mogelijk = maak de afstand van elk punt (observatie)
tot de regressielijn (voorspelling) zo klein mogelijk
- Minimaliseer daarmee de sum of squared errors SSE = ∑(y - ŷ)2
● Het minimaliseren van de SSE levert de geschatte waarden van de constante a en
de helling b (voorbeeld berekening van b, a en SSE: ppt. week 1, slides 27-28).
● Het geschatte model is ŷ = a + bx
Het lineaire regressiemodel
● Deterministisch model: voor elke waarde van x is er één y-waarde
● Onrealistisch: niet iedereen met dezelfde x heeft dezelfde y-score
● Voor elke x-groep is er een verdeling van y-scores
● Probabilistisch model: conditionele verdeling van y gegeven waarden van x
● Het model beschrijft hoe scores op y kunnen variëren voor elke waarde van x
Probabilistisch model
● Het model beschrijft de verdeling van y gegeven de waarden van x (conditionele
verdeling).
● Het deterministische deel geeft het gemiddelde (of verwachte waarde) E(y), dus van
y gegeven x:
E(y) = ɑ + βx
● Dit is de lineaire (enkelvoudige) regressievergelijking en geeft dus het verband
tussen x en het gemiddelde van y
, ● De regressiefunctie is een wiskundige functie die beschrijft hoe het gemiddelde van
de responsvariabele verandert als gevolg van de waarde van een verklarende
variabele.
Conditionele verdeling
● Gegeven een x-waarde is:
- de conditionele verdeling van y een normale verdeling
- met conditioneel gemiddelde E(y) (gegeven door de regressielijn)
- en constante conditionele standaarddeviatie σ
● Zie voor vergelijking met klassieke t-toets 2 gemiddelden: ppt. week 1, slides 36-38.
Conditionele SD
● Residu is de afstand van elk punt tot de regressielijn (oftewel tot het conditionele
gemiddelde van y)
● SSE is de kwadratensom rond het conditionele gemiddelde:
SSE = ∑(y - ŷ)2 = ∑e2
𝑆𝑆𝐸
● Variantie: s2 = 𝑛−2
= MSE
𝑆𝑆𝐸
● Geschatte SD: s = 𝑛−2
● Interpretatie van de mate van spreiding met behulp van de SD:
- 68% van de waarden ligt tussen -1σ en 1σ
- dus: 2σ vergelijken met de gehele schaal van y
Samenvattend
- De regressielijn geeft een voorspelling van het gemiddelde 𝐸(𝑦) van 𝑦 gegeven 𝑥: het
conditionele gemiddelde van 𝑦
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper romyborger00. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,49. Je zit daarna nergens aan vast.