Een uitgebreide samenvatting van alle hoorcolleges (1-12) van Multivariate Analyse, Master Communicatiewetenschap. Alles wat je moet weten voor het tentamen staat in deze samenvatting, incl. voorbeelden zoals besproken in de hoorcolleges.
COLLEGE 1: LINEAIRE REGRESSIE EN MODELLEN VERGELIJKING
Hoofdstuk 9 – Andy Field
Regressie | 4 Vragen:
à Waarom hebben we een multipele regressie nodig?
à Wat meten we met regressie?
à Hebben we de afhankelijke variabele voldoende ‘verklaard’?
à Mogen we conclusies trekken over de populatie?
o We analyseren altijd data uit een steekproef
WAAROM HEBBEN WE EEN MULTIPELE REGRESSIE NODIG?
Doel: Het bestuderen van de (causale) relatie tussen een continue variabele en een of meerdere
andere variabelen (dit kan van alles zijn: continue of categorische variabele).
De afhankelijke variabele van een multiple lineaire regressie is een continue variabele of een
tenminste een variabele die beschouwd kan worden als continue (bijvoorbeeld ordinaal).
à Als de afhankelijke 0/1 is, kan er geen lineaire regressie gebruikt worden.
à Bijvoorbeeld een logistische regressie à dit is geen onderdeel van dit vak. Bijvoorbeeld,
getrouwd of niet getrouwd.
Eisen voor causaliteit X à Y:
1. Er moet een correlatie zijn tussen X en Y
2. X (=oorzaak) gebeurt eerder in de tijd dan Y (=gevolg)
3. Alle alternatieve verklaringen van Y zijn uitgesloten
Wat we (tot nu toe) geleerd hebben in voorgaande vakken:
à Correlatie ≠ causaliteit: correlatie betekent niet per se causatie; waar een correlatie is, is
sprake van een causatie maar niet perse tussen x en y.
à Eis (3) het moeilijkst te voldaan is (alternatieve verklaringen van Y zijn uitgesloten)
Met multipele regressie kunnen we kijken of eis 3 klopt.
à Het uitsluiten van alternatieve verklaringen door het meenemen van/controleren voor
meerdere variabelen
ß X2 is wel een ‘alternatieve/ook’ verklaring van Y…maar is
niet belangrijk voor het bepalen van een causaal effect van X1
op Y. Wat betekent alternatief? Betekent dat het ipv X1, X2
erbij komt. X2 is ook een belangrijke verklaring van Y, maar
dat heeft geen invloed op de causale relatie tussen X1 en Y.
à X2 is wel een ‘alternatieve’ verklaring van Y…maar is wel
belangrijk voor het bepalen van het causaal effect van X1 op
Y. Er is hier sprake van iets anders. X2 wat bedoeld is met 3e eis van causaliteit, hier is X2 een
alternatieve verklaring; hier moeten we rekening mee houden. De multipele regressie kan je wel
rekening houden met de alternatieve verklaringen van de Y. Om vast te stellen dat er geen
alternatieve verklaringen voor Y zijn, gebruiken we een multipele regressie.
1
,WAT METEN WE MET EEN REGRESSIE?
à Het verband tussen een continue afhankelijke variabele (Y) en een of
meerdere andere, onafhankelijke variabelen (X)
à De onafhankelijke variabele hoeft niet per se continue te zijn
à De afhankelijke moet altijd continue zijn
à Bijvoorbeeld: Wat is het verband tussen experience (werkervaring) en
income (inkomen)?
à Dit kunnen we in een scatterplot zetten
o Bijvoorbeeld iemand die 14 jaar werkervaring heeft een
inkomen van 105.
Met een regressie wordt gemeten: Welke lijn verklaart het verband tussen onze onafhankelijke
variabele (Y) en onze onafhankelijke variabele (X) het beste? Ofwel: welke waarden voor a en b
passen het best voor onze data?
We willen de scatterplot vervangen door een lijn, die ongeveer of zoveel mogelijk informatie levert
als een scatterplot. In de scatterplot zien we een toenemende relatie: hoe langer je werkt, hoe hoger
je inkomen is. Het voordeel van de lijn in tegenstelling tot de scatterplot, is dat de lijn duidelijker af
te lezen.
We verwachten dat het verband tussen experience en income lineair is:
à Als de onafhankelijke variabele (X) met 1 toeneemt, met hoeveel neemt de afhankelijke
variabele (Y) dan toe (of af)?
In formulevorm lineaire regressie 𝑦" = 𝑎 + 𝑏 ∙ 𝑥
à a = snijpunt van lijn met y-as (constante)
à b = hellingsgraad (slope) van de lijn: met hoeveel neemt y toe als x met 1 toeneemt?
o Het effect van de onafhankelijke variabele!
Welke lijn past het best?
à De lijn die het minst ‘verschilt van de werkelijkheid’, oftewel: de lijn die het minst verschil
van onze observaties
à Welke lijn minimaliseert de residuen?
De verschillen tussen de regressielijn (Y – Y (hat)) en onze observaties noemen we residuen
Voor iedere persoon in de steekproef maken we een ‘fout’, een residu.
Regressie: (Ordinary) Least Squares Estimates | Residu-berekening
à Least squares estimates (kleinste kwadraten methode)
à OLS is een manier om de lijn te berekenen die het minst verschilt van de werkelijkheid: a & b
berekenen op basis van de minimum van y en y geschat.
à Formele definitie:
à OLS a en b zijn waarden voor de regressievergelijking 𝒚+ = a + b*x waarmee de som (alles bij
elkaar opgeteld) van de gekwadrateerde residuen geminimaliseerd is 𝚺 (𝒚 − 𝒚 /)𝟐 = 𝚺 𝜺𝟐
2
,De som voor alle gekwadrateerde residuen = de OLS-berekening
Intercept
𝑎 = 𝑦6 − 𝑏 ∙ 𝑥̅
Bij multipele regressie:
à Meer dan een b (onafhankelijke variabele)
à Formule 𝑦=𝑎+𝑏1·𝑥+𝑏2·𝑥+𝑏3·𝑥3...+𝑏k·𝑥k
à Dit maakt het plotten wel iets lastiger!
à Het principe blijft hetzelfde
a (constant) = Het gemiddelde uurloon als
iemand 0 scoort op experience en 0 scoort
op tenure (16,045)
b experience = hoeveel het uurloon
toeneemt, als experience met 1
toeneemt, gegeven tenure (0,471)
b tenure = hoeveel het uurloon toeneemt,
als tenure met 1 toeneemt, gegeven
experience (0,058)
uurloon formule = 16,045 + 0,471*experience + 0,058*tenure
Wat betekent gegeven? = rekening houden met
alternatieve verklaringen
Afhankelijk = uurloon
In model 1 wordt aangenomen dat alle vrouwen
hetzelfde zijn. Een vrouw verdient -4,123 minder,
gemiddeld gezien.
Het effect van geslacht wordt kleiner als we controleren
voor burgerlijke staat.
In model 2 wordt rekening gehouden met verschillen
tussen vrouwen: voor getrouwde vrouwen is de gender
pay gap groter dan voor ongetrouwde vrouwen. Bij niet-
getrouwde mensen, vrouwen 1.066 minder. Bij
sgetrouwde mensen, vrouwen verdienen -5.066 minder.
De verschillen zijn dus groter bij getrouwde mensen.
-3.537 = gewogen gemiddelde (steekproef) van effect
van geslacht voor ongetrouwde vrouwen (-1,006) en
effect van geslacht voor getrouwde vrouwen (-5.086).
3
, HEBBEN WE DE AFHANKELIJKE VARIABELE VOLDOENDE ‘VERKLAARD’?
We willen het uurloon verklaren; Hoe goed verklaren we uurloon?
R2: Vergelijking van onze regressielijn 𝒚
+ = a + b*x met de simpelste voorspeller van y: het gemiddelde
𝑦6
Het gemiddelde is gebruikt om het uurloon te verklaren.
R2 (formele definitie): de proportionele reductie van de fout
R2 interpretatie: Hoe beter is de regressielijn dan de lijn waar het gemiddelde wordt gebruikt, in de
voorspelling van het uurloon?
Hoeveel % kleiner is E2 ten opzichte van E1, een procentuele verbetering. Dit wordt de SST genoemd
(total) – Residual Sum of Squares (SSR)
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller 1082580. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.42. You're not tied to anything after your purchase.