ARMS
(algemene
gedeelte)
Hoorcollege
aantekeningen
NL (2021)
,College 01: Multipele lineaire regressie
Als je nagaat of een gevonden effect een echt effect is, zou je kritisch moeten kijken naar hoe het effect onderzocht is. Je kunt hierbij kijken
naar een aantal zaken:
- Was de steekproef representatief?
- Waren de variabelen gemeten op een betrouwbare manier? Validiteit!
- Is er een correcte analyse uitgevoerd en zijn de resultaten op een betrouwbare manier geïnterpreteerd? Statistische validiteit!
- Besef je dat statistische correlaties niet hetzelfde zijn als causaliteit. In plaats van causaliteit, kan er een derde variabele zijn die
gerelateerd is aan beide variabelen. Misschien verklaart die derde variabele de relatie. Dat is precies wat je kunt onderzoeken met
de multipele regressie.
Dus, met een multipele regressie kun je onderzoeken of er een derde variabele is die de relatie tussen twee andere variabelen verklaart. Het
toevoegen van variabelen aan je model.
Allereerst heb je een simpele multipele lineaire regressie vergelijking, namelijk:
Y = B0 + B1Xi + ei
Y = uitkomstvariabele
X = voorspeller
Ook heb je een multipele lineaire regressie vergelijking:
Y = B0 + B1X1i + B2X2i + B3X3i + ei
Wat ga je evalueren als je kijkt naar een multipele lineaire regressie?
1) De relevantie van een voorspeller. In hoeverre verklaart een toegevoegde variabele de variantie in het model? Kan de
voorspeller de variantie van het model verklaren?
Dit kun je evalueren aan de hoeveelheid verklaarde variantie. Aangeduid met R2. Ook wel bekend als: de grootte van de residuen. Als de
puntjes wijder rond de lijn gespreid zijn, dan heb je meer residuen, en het model zal minder van de variantie verklaren. Het rechter model
past minder dan de linker. Dit is een manier om te bepalen of je een goed statistisch model hebt en of X is een belangrijke voorspeller is voor
Y.
2) De helling van de regressielijn. Hoe belangrijk is mijn voorspeller, bij het voorspellen van de uitkomst? Als X toeneemt met een
bepaald aantal, neemt de waarde van Y dan sterk toe? Aangeduid met B1. Dit gaat over de relevantie of de sterkte van de
variabele op de uitkomst.
Dus, de multipele lineaire regressie bestudeert een model waarin multipele voorspellers betrokken zijn om hun unieke lineaire effect op Y te
controleren.
Wat is belangrijk om te weten?
1) De terminologie van het model.
- b0 = intercept
- b1x1i = helling van x1
- b2x2i = helling van x2
- ei = residue
- yi = geobserveerde uitkomstvariabele
- ^yi = voorspelde uitkomst (niet de echte uitkomst)
- y = ^y + ei (de uitkomstvariabele is de voorspelde uitkomst, gebaseerd op het model, + een fout in die voorspelling)
- i = duidt aan dat het gaat om individuen, niet om een groep. Als het gaat om de hele groep, duid je dat aan met b1 bijvoorbeeld.
, Soms wordt een MLR een additief lineair model genoemd. Dit is anders dan een interactief effect (als twee variabelen SAMEN
interacteren en zorgen voor een effect). Dit gaat erover dat twee variabelen los van elkaar meer effect voorspellen.
2) Het soort variabelen.
Welke soorten variabelen kun je toevoegen aan een multipele regressie?
Op volgorde van minst complex, naar meest complex:
- Nominaal = categorieën, zonder verschil daartussen
- Ordinaal = categorieën, met verschil daartussen
- Interval = de rangorde tussen de waarden zijn gelijk
- Ratio = de rangorde tussen de waarden zijn gelijk, er is een nulpunt en die betekent ‘niks’
Voor de keuze van de analyse die je gebruikt bij dit model, maken we vaak onderscheid tussen:
- Normaal + ordinaal = is het kwalitatief? Of kun je er categorieën van maken? Je noemt dit ook wel categorisch of kwalitatief.
- Interval + ratio = kun je een gemiddelde berekenen? Gaat het om getallen? Je noemt dit ook wel continue, kwantitatief of
numeriek.
Belangrijk: in een MLR zou de uitkomstvariabele ALTIJD een continue variabele moeten zijn. Je hebt een numerieke waarde nodig. De
voorspellers moeten OOK continu zijn. Je hebt dus altijd interval of ratio meetniveau nodig. Maar, er is een uitzondering. Je kunt een
categorische voorspeller toevoegen als voorspeller. Je moet een soort truc gebruiken, namelijk dummy variabelen toevoegen. Bijvoorbeeld
gender (vrouw en man). Dit kan als dummy, want dat is een voorspeller met max. twee mogelijke uitkomsten (genaamd 0 en 1). Je kiest dan
bijvoorbeeld 0 voor vrouw en 1 voor man. Je schrijft dan:
^Y = B0 + B1 * D1mani (formule voor de mannen)
^Y = B0 (formule voor de vrouwen)
Waarom werkt dit? B0 + B1 is de voorspelde waarde voor de mannen. B0 (+ B1 x 0)
B1 zegt precies wat het verschil is tussen vrouwen en mannen. Dat is precies wat je wil weten als je kijkt naar of gender een goede
voorspeller is voor je uitkomstvariabele.
Gender is dus makkelijk, want het heeft twee categorieën. Maar wat als je meer dan twee cat. hebt? Bijvoorbeeld 4 (rood, groen, roze en
geel). Dan doe je NIET:
^y = b0 + b1kleuri
Stop het niet in de vergelijking als een opzichzelfstaande variabele. Je kunt het wel in de vergelijking zetten als 3 dummy variabelen. Je
maakt dus voor elke kleur een aparte dummy variabele. Rood is dan nietrood (0) of welrood (1). Je hebt ook altijd 1 variabele minder nodig
dan het aantal categorieën die je hebt. Want, als het niet een van de andere variabelen is, dan moet het de andere variabele zijn.
Dan doe je WEL:
^y = b0 + b1roodi + b2groeni + b3rozei + b4geeli
B1 is bijvoorbeeld het verschil tussen de referentiegroep en de groep ‘rood’.
---- pauze
Hiërarchische MLR
Kan geluk worden voorspeld door leeftijd en hoeveelheid jaren educatie?
Als je twee voorspellers hebt, zijn dit goede voorspellers?
Hiernaast kun je je ook afvragen steun van echtgenoot en steun van kinderen bijdragen aan het voorspellen van geluk, als leeftijd en jaren
educatie al in acht zijn genomen.
Gegeven dat deze twee variabelen al meegenomen zijn, is de aanvulling van een derde en vierde variabele dan relevant? Verbetert dit het
model? Is dit model significant beter dan het andere model? Dit kun je onderzoeken met een hiërarchische MLR.
Er zijn veel hypotheses die je kunt testen als je hiernaar gaat kijken.