Samenhang tussen twee variabelen:
● Tussen twee continue variabelen:
- Correlatie (covariantie)
● Tussen een continue en categorische variabele:
- 𝑡-toets voor twee gemiddelden (Agresti H.7)
● Tussen twee categorische variabelen:
- Kruistabel en 𝜒2-toets (Agresti H.8)
- Odds en odds-ratio (Agresti H.8)
- 𝑍-toets voor twee proporties (Agresti H.7)
● Samenhang tussen twee continue variabelen:
- Correlatie: sterkte en richting van het verband
- Regressie: modelleren van het verband
● Lineaire regressieanalyse:
Analyse van de samenhang tussen een afhankelijke variabele en een (of meerdere)
onafhankelijke variabele(n) met behulp van een lineair model.
Trek een rechte lijn door de puntenwolk
● Voorspel de waarde van 𝑦 uit een gegeven waarde van 𝑥 met behulp van een rechte
lijn: lineair verband
● Afhankelijke variabele 𝑦 (in voorbeeld postlet)
- Te verklaren variabele, responsvariabele, uitkomstvariabele
- Interval- of ratioschaal
● Onafhankelijke variabele 𝑥 (in voorbeeld postnumb)
- Verklarende variabele, predictor
- Intervalschaal of dummyvariabele (binair, bijv. 0/1)
● De formule 𝑦 = 𝛼 + 𝛽𝑥 drukt observaties van 𝑦 uit als een lineaire functie van
observaties van 𝑥. De formule heeft een grafiek met een rechte lijn, met helling 𝛽 en
𝑦-constante 𝛼.
- Constante (intercept): waarde van 𝑦 als 𝑥 nul is; snijpunt met de 𝑦-as
- Helling (richtingscoëfficiënt): stijging in 𝑦 als 𝑥 één punt stijgt
Voorbeeld: De impact van Sesamstraat
● Afhankelijke 𝑦 = postlet
● Onafhankelijke 𝑥 = postnumb
● Lineair verband: 𝑦 = 𝛼 + 𝛽𝑥
● Rechte lijn lijkt goed te passen maar blijft een vereenvoudiging van de werkelijkheid
(in de populatie)
● Waarden van de constante 𝛼 en de helling 𝛽 moeten geschat worden
● Model: ŷ = 0,443 + 0,862𝑥
● Of E(postlet) = 0,443 + 0,862postnumb
- Constante (0,443): verwacht waarde van postlet (𝑦) als postnumb (𝑥) gelijk is
aan 0
- Helling (0,862): gemiddelde stijging in postlet (𝑦) als postnumb (𝑥) één
eenheid stijgt
, ● Neem kind 133 in de dataset, die heeft een score op postnumb = 14. Wat voorspel je
voor 𝑦 (postlet)?
● Voorspelling: ŷ = 0,443 + 0,862 × 14 = 12,511
● Fout: y - ŷ = 13 - 12,511 = 0,489 → residu/error
Residuen
● De fout bij het schatten is e = y - ŷ = residu (uitleg voorspelfouten: ppt. week 1, slides
22-23).
● Het verschil tussen de geobserveerde waarde en de voorspelde waarde.
● SSE kan worden gezien als een ‘foutenmaat’; hoe slecht het model is.
● Beste regressielijn schatten via methode van kleinste kwadraten (OLS) door fouten
te minimaliseren:
- Maak de fouten zo klein mogelijk = maak de afstand van elk punt (observatie)
tot de regressielijn (voorspelling) zo klein mogelijk
- Minimaliseer daarmee de sum of squared errors SSE = ∑(y - ŷ)2
● Het minimaliseren van de SSE levert de geschatte waarden van de constante a en
de helling b (voorbeeld berekening van b, a en SSE: ppt. week 1, slides 27-28).
● Het geschatte model is ŷ = a + bx
Het lineaire regressiemodel
● Deterministisch model: voor elke waarde van x is er één y-waarde
● Onrealistisch: niet iedereen met dezelfde x heeft dezelfde y-score
● Voor elke x-groep is er een verdeling van y-scores
● Probabilistisch model: conditionele verdeling van y gegeven waarden van x
● Het model beschrijft hoe scores op y kunnen variëren voor elke waarde van x
Probabilistisch model
● Het model beschrijft de verdeling van y gegeven de waarden van x (conditionele
verdeling).
● Het deterministische deel geeft het gemiddelde (of verwachte waarde) E(y), dus van
y gegeven x:
E(y) = ɑ + βx
● Dit is de lineaire (enkelvoudige) regressievergelijking en geeft dus het verband
tussen x en het gemiddelde van y
, ● De regressiefunctie is een wiskundige functie die beschrijft hoe het gemiddelde van
de responsvariabele verandert als gevolg van de waarde van een verklarende
variabele.
Conditionele verdeling
● Gegeven een x-waarde is:
- de conditionele verdeling van y een normale verdeling
- met conditioneel gemiddelde E(y) (gegeven door de regressielijn)
- en constante conditionele standaarddeviatie σ
● Zie voor vergelijking met klassieke t-toets 2 gemiddelden: ppt. week 1, slides 36-38.
Conditionele SD
● Residu is de afstand van elk punt tot de regressielijn (oftewel tot het conditionele
gemiddelde van y)
● SSE is de kwadratensom rond het conditionele gemiddelde:
SSE = ∑(y - ŷ)2 = ∑e2
𝑆𝑆𝐸
● Variantie: s2 = 𝑛−2
= MSE
𝑆𝑆𝐸
● Geschatte SD: s = 𝑛−2
● Interpretatie van de mate van spreiding met behulp van de SD:
- 68% van de waarden ligt tussen -1σ en 1σ
- dus: 2σ vergelijken met de gehele schaal van y
Samenvattend
- De regressielijn geeft een voorspelling van het gemiddelde 𝐸(𝑦) van 𝑦 gegeven 𝑥: het
conditionele gemiddelde van 𝑦
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller romyborger00. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $8.15. You're not tied to anything after your purchase.