Week 1 -3: Observationele methoden (lineaire regressie)
Week 4-6: Experimentele methoden
COLLEGE 1: LINEAIRE REGRESSIE EN MODELLEN VERGELIJKING
Hoofdstuk 9 – Andy Field
Regressie | 4 Vragen:
à Waarom hebben we een multipele regressie nodig?
à Wat meten we met regressie?
à Hebben we de afhankelijke variabele voldoende ‘verklaard’?
à Mogen we conclusies trekken over de populatie?
o We analyseren altijd data uit een steekproef
WAAROM HEBBEN WE EEN MULTIPELE REGRESSIE NODIG?
Doel: Het bestuderen van de (causale) relatie tussen een continue variabele en een of meerdere
andere variabelen (dit kan van alles zijn: continue of categorische variabele).
De afhankelijke variabele van een multiple lineaire regressie is een continue variabele of een
tenminste een variabele die beschouwd kan worden als continue (bijvoorbeeld ordinaal).
à Als de afhankelijke 0/1 is, kan er geen lineaire regressie gebruikt worden.
à Bijvoorbeeld een logistische regressie à dit is geen onderdeel van dit vak. Bijvoorbeeld,
getrouwd of niet getrouwd.
Eisen voor causaliteit X à Y:
1. Er moet een correlatie zijn tussen X en Y
2. X (=oorzaak) gebeurt eerder in de tijd dan Y (=gevolg)
3. Alle alternatieve verklaringen van Y zijn uitgesloten
Wat we (tot nu toe) geleerd hebben in voorgaande vakken:
à Correlatie ≠ causaliteit: correlatie betekent niet per se causatie; waar een correlatie is, is
sprake van een causatie maar niet perse tussen x en y.
à Eis (3) het moeilijkst te voldaan is (alternatieve verklaringen van Y zijn uitgesloten)
Met multipele regressie kunnen we kijken of eis 3 klopt.
à Het uitsluiten van alternatieve verklaringen door het meenemen van/controleren voor
meerdere variabelen
ß X2 is wel een ‘alternatieve/ook’ verklaring van Y…maar is
niet belangrijk voor het bepalen van een causaal effect van X1
op Y. Wat betekent alternatief? Betekent dat het ipv X1, X2
erbij komt. X2 is ook een belangrijke verklaring van Y, maar
dat heeft geen invloed op de causale relatie tussen X1 en Y.
à X2 is wel een ‘alternatieve’ verklaring van Y…maar is wel
belangrijk voor het bepalen van het causaal effect van X1 op
Y. Er is hier sprake van iets anders. X2 wat bedoeld is met 3e eis van causaliteit, hier is X2 een
alternatieve verklaring; hier moeten we rekening mee houden. De multipele regressie kan je wel
rekening houden met de alternatieve verklaringen van de Y. Om vast te stellen dat er geen
alternatieve verklaringen voor Y zijn, gebruiken we een multipele regressie.
1
,WAT METEN WE MET EEN REGRESSIE?
à Het verband tussen een continue afhankelijke variabele (Y) en een of
meerdere andere, onafhankelijke variabelen (X)
à De onafhankelijke variabele hoeft niet per se continue te zijn
à De afhankelijke moet altijd continue zijn
à Bijvoorbeeld: Wat is het verband tussen experience (werkervaring) en
income (inkomen)?
à Dit kunnen we in een scatterplot zetten
o Bijvoorbeeld iemand die 14 jaar werkervaring heeft een
inkomen van 105.
Met een regressie wordt gemeten: Welke lijn verklaart het verband tussen onze onafhankelijke
variabele (Y) en onze onafhankelijke variabele (X) het beste? Ofwel: welke waarden voor a en b
passen het best voor onze data?
We willen de scatterplot vervangen door een lijn, die ongeveer of zoveel mogelijk informatie levert
als een scatterplot. In de scatterplot zien we een toenemende relatie: hoe langer je werkt, hoe hoger
je inkomen is. Het voordeel van de lijn in tegenstelling tot de scatterplot, is dat de lijn duidelijker af
te lezen.
We verwachten dat het verband tussen experience en income lineair is:
à Als de onafhankelijke variabele (X) met 1 toeneemt, met hoeveel neemt de afhankelijke
variabele (Y) dan toe (of af)?
In formulevorm lineaire regressie 𝑦" = 𝑎 + 𝑏 ∙ 𝑥
à a = snijpunt van lijn met y-as (constante)
à b = hellingsgraad (slope) van de lijn: met hoeveel neemt y toe als x met 1 toeneemt?
o Het effect van de onafhankelijke variabele!
Welke lijn past het best?
à De lijn die het minst ‘verschilt van de werkelijkheid’, oftewel: de lijn die het minst verschil
van onze observaties
à Welke lijn minimaliseert de residuen?
De verschillen tussen de regressielijn (Y – Y (hat)) en onze observaties noemen we residuen
Voor iedere persoon in de steekproef maken we een ‘fout’, een residu.
Regressie: (Ordinary) Least Squares Estimates | Residu-berekening
à Least squares estimates (kleinste kwadraten methode)
à OLS is een manier om de lijn te berekenen die het minst verschilt van de werkelijkheid: a & b
berekenen op basis van de minimum van y en y geschat.
à Formele definitie:
à OLS a en b zijn waarden voor de regressievergelijking 𝒚+ = a + b*x waarmee de som (alles bij
elkaar opgeteld) van de gekwadrateerde residuen geminimaliseerd is 𝚺 (𝒚 − 𝒚 /)𝟐 = 𝚺 𝜺𝟐
2
,De som voor alle gekwadrateerde residuen = de OLS-berekening
Regressiecoëfficiënten
Slope
/)5(𝒚5 𝒚
∑(𝒙5 𝒙 /)
𝑏= ∑ (𝒙5𝒙
/)𝟐
Intercept
𝑎 = 𝑦6 − 𝑏 ∙ 𝑥̅
Bij multipele regressie:
à Meer dan een b (onafhankelijke variabele)
à Formule 𝑦=𝑎+𝑏1·𝑥+𝑏2·𝑥+𝑏3·𝑥3...+𝑏k·𝑥k
à Dit maakt het plotten wel iets lastiger!
à Het principe blijft hetzelfde
a (constant) = Het gemiddelde uurloon als
iemand 0 scoort op experience en 0 scoort
op tenure (16,045)
b experience = hoeveel het uurloon
toeneemt, als experience met 1
toeneemt, gegeven tenure (0,471)
b tenure = hoeveel het uurloon toeneemt,
als tenure met 1 toeneemt, gegeven
experience (0,058)
uurloon formule = 16,045 + 0,471*experience + 0,058*tenure
Wat betekent gegeven? = rekening houden met
alternatieve verklaringen
Afhankelijk = uurloon
In model 1 wordt aangenomen dat alle vrouwen
hetzelfde zijn. Een vrouw verdient -4,123 minder,
gemiddeld gezien.
Het effect van geslacht wordt kleiner als we controleren
voor burgerlijke staat.
In model 2 wordt rekening gehouden met verschillen
tussen vrouwen: voor getrouwde vrouwen is de gender
pay gap groter dan voor ongetrouwde vrouwen. Bij niet-
getrouwde mensen, vrouwen 1.066 minder. Bij
sgetrouwde mensen, vrouwen verdienen -5.066 minder.
De verschillen zijn dus groter bij getrouwde mensen.
-3.537 = gewogen gemiddelde (steekproef) van effect
van geslacht voor ongetrouwde vrouwen (-1,006) en
effect van geslacht voor getrouwde vrouwen (-5.086).
3
, HEBBEN WE DE AFHANKELIJKE VARIABELE VOLDOENDE ‘VERKLAARD’?
We willen het uurloon verklaren; Hoe goed verklaren we uurloon?
R2: Vergelijking van onze regressielijn 𝒚
+ = a + b*x met de simpelste voorspeller van y: het gemiddelde
𝑦6
Het gemiddelde is gebruikt om het uurloon te verklaren.
R2 (formele definitie): de proportionele reductie van de fout
R2 interpretatie: Hoe beter is de regressielijn dan de lijn waar het gemiddelde wordt gebruikt, in de
voorspelling van het uurloon?
Hoeveel % kleiner is E2 ten opzichte van E1, een procentuele verbetering. Dit wordt de SST genoemd
(total) – Residual Sum of Squares (SSR)
4