Kernbegrip:
In een meervoudig lineair regressiemodel wordt de afhankelijke (de te verklaren variabele) Y
uitgedrukt in termen van meerdere verklarende variabel (X1, X2,…). Het theoretische model voor
waarden (X1, X2, …) is:
β0 + β1x1 + β2x2 + · · · + βk xk + ϵ.
Net zoals bij ELR bestaat dit model uit twee delen:
- De lineaire functie y = β0 + β1x1 + · · · + βk xk is de functionele vorm van het
model, dit is het deterministische gedeelte. Dit deel beschrijft voor een vaste X
het gemiddelde van de variabele Y.
- De variabele ϵ is de foutenterm, deze zorgt voor het toevalgedeelte in het model.
Door de toevoeging van deze foutenterm is Y voor een vaste x niet gelijk aan zijn
gemiddelde, maar is het een toeval variabele met gemiddelde µY |x = β0 + β1x1 + ·
· · + βk xk en standaardafwijking σ.
Theoretisch model of modelspecificatie = versie zonder hoedjes en met een foutenterm
Geschatte model = versie met hoedjes en zonder een foutenterm
1.2 De stochastische foutenterm
Mogelijke bronnen van de variatie in Y die opgenomen wordt in de stochastische foutenterm zijn:
- Niet opgenomen verklarende variabelen
- Meetfouten in de te verklaren variabelen
- Het onderliggende model heeft niet de juiste functionele vorm
- Toevallige, onvoorspelbare effecten
De foutenterm heeft spreiding σ2, deze schatten we met het behulp van de residuen, berekend op
basis van de steekproef als volgt:
We zeggen dat het model n – k – 1 vrijheidsgraden heeft.
1.3 Interpretatie van de coëfficiënten in MLR
Een meervoudig lineair regressie model drukt de relatie tussen afhankelijke variabele Y en de
onafhankelijke variabelen X1, X2, … uit met behulp van een lineaire functie. Rekening houdend met
het gegeven dat niet alle punten in het spreidingsdiagram op dezelfde rechte liggen, is voor een
vaste x = (x1, x2, …, xk):
Intercept β0 = is de constante of het intercept, het snijpunt met de Y-as, dit is de waarde als alle
xi nul zijn. Deze interpretatie kan je enkel maken als het lineair model geldig is in de buurt van
(x1, x2, . . . , xk ) = (0, 0, . . . , 0).
,Coëfficiënten βi = is de helling in de xi richting, meet het effect van een verandering in de variabele
xi op de verwachte waarde van y, ceteris paribus. (= als alle andere variabele constant blijven.)
1.4 Voorwaarden voor meervoudige lineaire regressie
Bij het toepassen van meervoudige lineaire regressie moeten volgende voorwaarden voldaan zijn:
Stelling van Gauss-Markov
Als voorwaarde 1 tot en met 4 voldaan zijn dan hebben van alle lineaire onvertekende schatters de
kleinste kwadratenschatters de kleinste variantie
Als ook voorwaarde 5 voldaan is, dan zijn de kleinste kwadratenschatters de beste onvertekende
schatters van alle mogelijke schatters, niet alleen van de lineaire schatters
1.5 Kwaliteit van het model in MLR
,De variatie SST van U is op te delen in een stuk variatie die verklaard wordt door het model, SSR
en het deel variatie die niet verklaard wordt door het model, maar vervat zit in de residuen, SSE.
Dus SST = SSR + SSE
Hoe kleiner SSE, hoe beter de geschatte regressierechte het theoretisch model beschrijft. De
kleinste kwadraten methoden minimaliseert SSE en dus maximaliseert ze SSR. Ook in MLR leidt de
decompositie van de variatie in Y tot een ANOVA-tabel.
Kernbegrip (R2): de determinatiecoëfficiënt of het verklarend vermogen is het percentage van de
variatie in Y die verklaard wordt door het geschatte regressie model.
- Hoe groter R2 hoe beter de geschatte regressievergelijking de data beschrijft. We zeggen
dat R2 een goodness-of-fit maat is.
- De kleinste kwadraten methode minimaliseert SSE, maximaliseert SSR en maximaliseert
bijgevolg R2 op voorwaarde dat het werkelijke onderliggend model lineair is
- Daar SSR <= SST en SSR, SST, SSE >= 0 is 0 <= R2 <= 1
o R2 = 1: de geschatte vergelijking beschrijft de data zeer goed
o R2 = 0: de geschatte vergelijking beschrijft de data niet beter dan y¯ zou kunnen
- R 2 = r(y, yˆ) 2 met r(y, yˆ) de Pearsoncorrelatiecoëfficiënt tussen y en yˆ.
Probleem met R2
- Als een extra variabele toegevoegd wordt dan daalt R2 niet, R2 stijgt of blijft hetzelfde ook
als is de toegevoegde variabele compleet onzinnig in het model
- De dataset blijft dezelfde, dus zorgt het toevoegen van een variabele ervoor dat, aangezien
een coëfficiënt extra geschat moet worden, het aantal vrijheidsgraden met 1 afneemt.
Oplossing: vergelijking de stijging in R2 met de daling in het aantal vrijheidsgraden met behulp
van de aangepaste R2 namelijk:
, Kenmerken van de aangepaste R 2
- Stijgt als de stijging in R2 belangrijker is dan de daling van het aantal vrijheidsgraden
- Daalt als de stijging in R2 niet opweegt tegen de daling van het aantal vrijheidsgraden
- Blijft gelijk als de stijging in R2 uitmiddelt met de daling van het aantal vrijheidsgraden
Nadeel van de aangepaste R2: er is geen interpretatie mogelijk in termen van het percentage van
de spreiding in de te verklaren variabele die verklaard wordt door het model
Opletten: het is niet de bedoeling om als er tussen verschillende modellen een keuze gemaakt
moet worden, zomaar dat model te nemen dat de hoogste waarde voor de aangepaste R kwadraat
heeft. Je moet steeds vertrekken van het onderliggende theoretische model en het realistisch zijn
van het model wat betreft de opgenomen variabelen en de schatting van de regressie coëfficiënten
ervoor voor ogen houden.
1.6 Dummy Variabelen
- Variabelen met slechts 2 uitkomsten worden indicator variabelen of dummy variabelen
genoemd.
- De 2 uitkomsten worden gewoonlijk gecodeerd met 1 of 0 om de aan- of afwezigheid aan te
geven van een bepaalde karakteristiek of om aan te geven of een bepaalde conditie al dan niet
geldt
- De waarde met D=0 geeft de referentiegroep weer van elementen waarbij de karakteristiek
niet aanwezig is.
- Kan gewoon in een meervoudig lineair regressiemodel opgenomen worden als verklarende
variabele. Het theoretische model is dan bijvoorbeeld:
o Y = β0 + β1x1 + β2x2 + β3D + ϵ
Interpretatie van een dummy variabele
Bijvoorbeeld: Y = β0 + β1x1 + β2x2 + β3D + ϵ. De betekenis van de dummy variabele: het geschatte
gemiddelde verschil in µY van de elementen van de populatie die het kenmerk dat gecodeerd wordt
door de dummy bezitten en de elementen van de populatie die dat kenmerk niet bezitten (de
referentie of controlegroep, voor alle elementen van de populatie die dezelfde waarde hebben voor
de overige variabelen.
Algemeen: als D=1, dan stijgt Y gemiddeld met B2 eenheden vergeleken met de referentiegroep.
Loon = β0 + β1Leeftijd + β2Dgeslacht + ϵ.
- Dan is B2 het geschatte gemiddeld verschil in loon tussen een vrouw en man van dezelfde
leeftijd.
Een dummy variabele opnemen zorgt voor 2 regressiemodellen. Bijvoorbeeld: lonen voor manen
en vrouwen modelleren met de vergelijking: Loon = β0 + β1Leeftijd + β2Dgeslacht + ϵ.
- Dan is het theoretisch model voor de referentiegroep, de vrouwelijk werkenden, Dgeslacht=0
o Loon = β0 + β1Leeftijd + ϵ.
- En voor de mannelijk werkenden, Dgeslacht = 1
o Loon = β0 + β2 + β1Leeftijd + ϵ.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper student1002. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €9,49. Je zit daarna nergens aan vast.