Samenvatting: Kwantitatieve
1 Meervoudige Lineaire Regressie
1.1 Notatie MLR
Kernbegrip:
In een meervoudig lineair regressiemodel wordt de afhankelijke (de te verklaren variabele) Y
uitgedrukt in termen van meerdere verklarende variabel (X1, X2,…). Het theoretische model voor
waarden (X1, X2, …) is:
β0 + β1x1 + β2x2 + · · · + βk xk + ϵ.
Net zoals bij ELR bestaat dit model uit twee delen:
- De lineaire functie y = β0 + β1x1 + · · · + βk xk is de functionele vorm van het
model, dit is het deterministische gedeelte. Dit deel beschrijft voor een vaste X
het gemiddelde van de variabele Y.
- De variabele ϵ is de foutenterm, deze zorgt voor het toevalgedeelte in het model.
Door de toevoeging van deze foutenterm is Y voor een vaste x niet gelijk aan zijn
gemiddelde, maar is het een toeval variabele met gemiddelde µY |x = β0 + β1x1 + ·
· · + βk xk en standaardafwijking σ.
Theoretisch model of modelspecificatie = versie zonder hoedjes en met een foutenterm
Geschatte model = versie met hoedjes en zonder een foutenterm
1.2 De stochastische foutenterm
Mogelijke bronnen van de variatie in Y die opgenomen wordt in de stochastische foutenterm zijn:
- Niet opgenomen verklarende variabelen
- Meetfouten in de te verklaren variabelen
- Het onderliggende model heeft niet de juiste functionele vorm
- Toevallige, onvoorspelbare effecten
De foutenterm heeft spreiding σ2, deze schatten we met het behulp van de residuen, berekend op
basis van de steekproef als volgt:
We zeggen dat het model n – k – 1 vrijheidsgraden heeft.
1.3 Interpretatie van de coëfficiënten in MLR
Een meervoudig lineair regressie model drukt de relatie tussen afhankelijke variabele Y en de
onafhankelijke variabelen X1, X2, … uit met behulp van een lineaire functie. Rekening houdend met
het gegeven dat niet alle punten in het spreidingsdiagram op dezelfde rechte liggen, is voor een
vaste x = (x1, x2, …, xk):
Intercept β0 = is de constante of het intercept, het snijpunt met de Y-as, dit is de waarde als alle
xi nul zijn. Deze interpretatie kan je enkel maken als het lineair model geldig is in de buurt van
(x1, x2, . . . , xk ) = (0, 0, . . . , 0).
,Coëfficiënten βi = is de helling in de xi richting, meet het effect van een verandering in de variabele
xi op de verwachte waarde van y, ceteris paribus. (= als alle andere variabele constant blijven.)
1.4 Voorwaarden voor meervoudige lineaire regressie
Bij het toepassen van meervoudige lineaire regressie moeten volgende voorwaarden voldaan zijn:
Stelling van Gauss-Markov
Als voorwaarde 1 tot en met 4 voldaan zijn dan hebben van alle lineaire onvertekende schatters de
kleinste kwadratenschatters de kleinste variantie
Als ook voorwaarde 5 voldaan is, dan zijn de kleinste kwadratenschatters de beste onvertekende
schatters van alle mogelijke schatters, niet alleen van de lineaire schatters
1.5 Kwaliteit van het model in MLR
,De variatie SST van U is op te delen in een stuk variatie die verklaard wordt door het model, SSR
en het deel variatie die niet verklaard wordt door het model, maar vervat zit in de residuen, SSE.
Dus SST = SSR + SSE
Hoe kleiner SSE, hoe beter de geschatte regressierechte het theoretisch model beschrijft. De
kleinste kwadraten methoden minimaliseert SSE en dus maximaliseert ze SSR. Ook in MLR leidt de
decompositie van de variatie in Y tot een ANOVA-tabel.
Kernbegrip (R2): de determinatiecoëfficiënt of het verklarend vermogen is het percentage van de
variatie in Y die verklaard wordt door het geschatte regressie model.
- Hoe groter R2 hoe beter de geschatte regressievergelijking de data beschrijft. We zeggen
dat R2 een goodness-of-fit maat is.
- De kleinste kwadraten methode minimaliseert SSE, maximaliseert SSR en maximaliseert
bijgevolg R2 op voorwaarde dat het werkelijke onderliggend model lineair is
- Daar SSR <= SST en SSR, SST, SSE >= 0 is 0 <= R2 <= 1
o R2 = 1: de geschatte vergelijking beschrijft de data zeer goed
o R2 = 0: de geschatte vergelijking beschrijft de data niet beter dan y¯ zou kunnen
- R 2 = r(y, yˆ) 2 met r(y, yˆ) de Pearsoncorrelatiecoëfficiënt tussen y en yˆ.
Probleem met R2
- Als een extra variabele toegevoegd wordt dan daalt R2 niet, R2 stijgt of blijft hetzelfde ook
als is de toegevoegde variabele compleet onzinnig in het model
- De dataset blijft dezelfde, dus zorgt het toevoegen van een variabele ervoor dat, aangezien
een coëfficiënt extra geschat moet worden, het aantal vrijheidsgraden met 1 afneemt.
Oplossing: vergelijking de stijging in R2 met de daling in het aantal vrijheidsgraden met behulp
van de aangepaste R2 namelijk:
, Kenmerken van de aangepaste R 2
- Stijgt als de stijging in R2 belangrijker is dan de daling van het aantal vrijheidsgraden
- Daalt als de stijging in R2 niet opweegt tegen de daling van het aantal vrijheidsgraden
- Blijft gelijk als de stijging in R2 uitmiddelt met de daling van het aantal vrijheidsgraden
Nadeel van de aangepaste R2: er is geen interpretatie mogelijk in termen van het percentage van
de spreiding in de te verklaren variabele die verklaard wordt door het model
Opletten: het is niet de bedoeling om als er tussen verschillende modellen een keuze gemaakt
moet worden, zomaar dat model te nemen dat de hoogste waarde voor de aangepaste R kwadraat
heeft. Je moet steeds vertrekken van het onderliggende theoretische model en het realistisch zijn
van het model wat betreft de opgenomen variabelen en de schatting van de regressie coëfficiënten
ervoor voor ogen houden.
1.6 Dummy Variabelen
- Variabelen met slechts 2 uitkomsten worden indicator variabelen of dummy variabelen
genoemd.
- De 2 uitkomsten worden gewoonlijk gecodeerd met 1 of 0 om de aan- of afwezigheid aan te
geven van een bepaalde karakteristiek of om aan te geven of een bepaalde conditie al dan niet
geldt
- De waarde met D=0 geeft de referentiegroep weer van elementen waarbij de karakteristiek
niet aanwezig is.
- Kan gewoon in een meervoudig lineair regressiemodel opgenomen worden als verklarende
variabele. Het theoretische model is dan bijvoorbeeld:
o Y = β0 + β1x1 + β2x2 + β3D + ϵ
Interpretatie van een dummy variabele
Bijvoorbeeld: Y = β0 + β1x1 + β2x2 + β3D + ϵ. De betekenis van de dummy variabele: het geschatte
gemiddelde verschil in µY van de elementen van de populatie die het kenmerk dat gecodeerd wordt
door de dummy bezitten en de elementen van de populatie die dat kenmerk niet bezitten (de
referentie of controlegroep, voor alle elementen van de populatie die dezelfde waarde hebben voor
de overige variabelen.
Algemeen: als D=1, dan stijgt Y gemiddeld met B2 eenheden vergeleken met de referentiegroep.
Loon = β0 + β1Leeftijd + β2Dgeslacht + ϵ.
- Dan is B2 het geschatte gemiddeld verschil in loon tussen een vrouw en man van dezelfde
leeftijd.
Een dummy variabele opnemen zorgt voor 2 regressiemodellen. Bijvoorbeeld: lonen voor manen
en vrouwen modelleren met de vergelijking: Loon = β0 + β1Leeftijd + β2Dgeslacht + ϵ.
- Dan is het theoretisch model voor de referentiegroep, de vrouwelijk werkenden, Dgeslacht=0
o Loon = β0 + β1Leeftijd + ϵ.
- En voor de mannelijk werkenden, Dgeslacht = 1
o Loon = β0 + β2 + β1Leeftijd + ϵ.