Week 1 kwantitatief: Multipele regressie
Multipele regressie: een regressiemodel maken, waarin meerdere variabelen worden
meegenomen. Er zijn meerdere variabelen onderzocht. Deze worden allemaal in 1 model
gevoegd en dat is multipele regressie. Je neemt meerdere predictoren mee in je onderzoek.
Deze predictoren/variabelen moeten van tevoren geoperationaliseerd worden. Pas daarna
kun je multipele regressie uitvoeren. Voorbeeld:
In hoeverre zijn de predictoren goede
voorspellers van schoolprestaties?
Kunnen we de verschillen tussen
kinderen in schoolprestaties verklaren?
Multipele regressie gaat dus over het
voorspellen van scores op de afhankelijke
variabele en het verklaren van variantie:
waarom heeft niet iedereen dezelfde
schoolprestaties? Welke factoren
beïnvloeden dat?
Er wordt een voorbeeld gegeven van een onderzoek waarbij de volgende onderzoeksvraag
centraal staat: Kunnen we kennis van literatuur bij jongvolwassenen voorspellen met
persoons-, gezins- en schoolkenmerken? Dit is een correlationeel onderzoek, gaat over
voorspellen. Hierbij is het PAC-acroniem van toepassing: populatie, association, construct.
De populatie is jongvolwassenen. De afhankelijke variabele is kennis van literatuur, en de
onafhankelijke variabelen zijn persoonlijke kenmerken, kenmerken ouderlijk huis en
kenmerken school. Dat is de association. Het doel van het onderzoek is: voor de populatie
beschrijven en toetsen van de relaties tussen afhankelijke variabele Y en de predictoren X.
Andere woorden voor onafhankelijke variabelen zijn ‘predictoren’ of ‘voorspellers’.
Het doel van multipele regressie in het algemeen heeft betrekking op de volgende vraag:
Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere
kenmerken? Dat is het algemene doel. Veel onderzoeksvragen die gaan over multipele
regressie zijn hierin te vangen. De doelen van een regressieanalyse zijn:
- Beschrijven van lineaire relaties tussen variabelen (regressiemodel).
- Toetsen van hypothesen over relaties (significantie).
- Kwantificeren van relaties. Dit gaat over de effectgrootte.
- Kwalificeren van relaties. Hierbij wordt de effectgrootte geduid: klein, middelmatig,
groot.
- Voorspellen van iemands waarde met behulp van het regressiemodel, met een
puntschatting of intervalschatting.
Pas op: op basis van statistische samenhang kan geen uitspraak gedaan worden over
causaliteit. Als je een correlatie hebt gevonden, een samenhang tussen twee variabelen, dan
is dit niet meteen een causaal verband. Voorwaarden voor causaliteit zijn:
1. Covariance: er is een samenhang tussen variabelen.
2. Temporal precedence: oorzaak en gevolg in chronologische volgorde: oorzaak gaat
in tijd vooraf aan het gevolg.
3. Interne validiteit: uitsluiten van alternatieve verklaringen. Er zijn twee typen te
onderscheiden:
Selectie effect: bij aanvang van onderzoek.
, Design confound: tijdens het onderzoek.
Om aan deze voorwaarde te voldoen doe je een gerandomiseerd experiment. Dan weet je
het zekerst dat je aan temporal precedence en interne validiteit voldoet.
Als we een regressieanalyse gaan uitvoeren, dan moeten we ons bewust zijn van de
meetniveaus die de variabelen hebben, zoals de variabelen/kenmerken gemeten zijn. Een
van de voorwaarde om een regressie te mogen doen, is dat de meetniveaus kloppen. Dat is
stap 1. De verschillende meetniveaus zijn:
- Nominaal: groepen/categorieën/woorden/namen als waarden. Nummers hebben
geen numerieke betekenis.
- Ordinaal: categorieën waarbij de nummers wel een numerieke waarde hebben. De
getallen geven aan dat de ene waarde meer/groter/hoger/sterker is dan de andere,
maar niet met hoeveel. Er is dus ordening, maar hoeveel weet je niet.
- Interval: gemeten op een numerieke schaal. Er is geen absoluut nulpunt.
- Ratio: gemeten op een numerieke schaal. Er is wel een nulpunt, waarbij 0 betekent
dat het er ook echt niet is.
De afhankelijke variabele Y moet gemeten worden op minimaal interval meetniveau. De
onafhankelijke variabelen X moeten ook minimaal gemeten worden op interval meetniveau,
maar het kan ook zo zijn dat er een categorische variabele met twee categorieën wordt
gebruikt, bijvoorbeeld geslacht (man versus vrouw). Je hebt dan een variabele met twee
categorieën. Die kun je ook meten. Dit worden ook wel dichotome variabelen genoemd:
categorisch kenmerk met twee categorieën. Een dichotome variabele is een variabele van
nominaal meetniveau met twee categorieën. Deze kunnen ook meegenomen worden in een
regressieanalyse. Categorische kenmerken met meer dan twee categorieën zijn echter
lastiger mee te nemen in een regressieanalyse. Je moet er dan het volgende mee doen: je
moet ze omzetten in dummyvariabelen. Dan kun je ze wel gebruiken in een
regressieanalyse. In het volgende college wordt besproken hoe je zulke kenmerken omzet in
dummyvariabelen.
Een multipele regressie is dus bruikbaar in veel situaties. De afhankelijke variabele moet wel
op interval of ratio niveau gemeten worden, maar met de onafhankelijke variabelen kun je
eigenlijk altijd wel iets, zelfs als ze nominaal zijn (als je ze omzet in dummyvariabelen of
dichotome variabelen).
Regressiemodel
Met de gemeten variabelen wordt uiteindelijk een regressiemodel gemaakt. Het doel van de
statistische analyses is om de werkelijkheid te vatten in modellen. Modellen die zo goed
mogelijk de werkelijkheid beschrijven en/of Y-scores kunnen voorspellen. Daarvoor wordt
een regressievergelijking opgesteld.
- De vergelijking voor de geobserveerde variabele Y ziet
er als volgt uit: uitkomst (Y)=model (X) +
voorspellingsfout. De voorspellingsfout is belangrijk: op
grond van een model doe je een voorspelling, maar die
voorspelling zal er altijd naast zitten. Die voorspelt niet
de precieze, juiste score. De voorspelling wijkt dus af
van de werkelijkheid. De voorspellingsfout wordt ook wel het residu of een error
genoemd.
- De vergelijking voor de voorspelde waarde op Y ziet
er als volgt uit: geschatte uitkomst (Y^) = model (X).
Als we het hebben over de voorspelde/geschatte
waardes voor Y dan is er altijd sprake van een dakje
(^) boven de Y. De voorspelde/geschatte waarde voor Y is gelijk aan het model.
Hierbij ontbreekt dus de voorspellingsfout/het residu/een error.
,Op basis hiervan maak je een vergelijking.
Op grond van de X’en ga je
Y voorspellen. Dan kom je
bij het volgende uit:
De uiteindelijke regressievergelijking is de volgende formule: Y= B0+B1X1+….+B6X6+E
Y= afhankelijke variabele (dependent).
X = onafhankelijke variabelen (predictors).
B0 = intercept (constant), ook wel a.
B1 = regressiecoëfficiënt (slope, hellingshoek). Deze horen bij de x variabele.
E = voorspellingsfout (error of residu)
De constante is het startpunt van de lijn. Als alle x’en gelijk zijn aan 0, is de constante het
enige wat je overhoudt. Je wilt ervoor zorgen dat het verschil tussen Y en Y^ (het residu) zo
klein mogelijk is. Regressie gaat over het beschrijven van de lineaire relaties tussen X en Y.
Dit kan ook bij enkelvoudige regressie, waarbij y-scores worden voorspeld met behulp van
één onafhankelijke variabele. De formule is dan: Y= B0+B1X1. Als B1 nul is krijg je een
horizontale lijn.
Kleinste kwadraten criterium
Hoe komen we uiteindelijk aan de best passende rechte lijn? Hiervoor gebruiken we het
kleinste kwadraten criterium (least square estimation). De best passende lijn is de lijn waarbij
het residu zo klein mogelijk is. Voor elke respondent is er een geobserveerde Y en de
geschatte Y, die we schatten op grond van de lijn, en die moet zodanig zijn dat het residu zo
klein mogelijk is. Het residu wordt dus berekend door Y-Y^; de voorspellingsfout is de
afstand tussen de geobserveerde waarde van Y en de voorspelde waarde. Er zijn twee
soorten residuen:
1. Positief residu boven de lijn; onderschatting door model.
2. Negatief residu onder de lijn; overschatting door model.
Er zijn dus drie vergelijkingen besproken:
Wanneer je een regressie uitvoert in SPSS geeft SPSS je de gegevens waarmee je de
datevergelijking kunt invullen, zoals de constante of de slope. Voor de Y en X kijk je hiervoor
bij B.
Goodness of fitt
Als we een regressievergelijking gaan opstellen en een regressieanalyse gaan doen, dan wil
willen we dus die lijn vinden met de kleinste residuen over het geheel, met de kleinste
residuele kwadratensom. Die vinden we met behulp van de regressievergelijking. Hoe
beoordeel je echter hoe goed de lijn is? In dit geval wordt er gesproken van goodness-of-fit,
en die wordt beoordeeld met behulp van R^2 (R kwadraat, R square). R^2 maakt een
vergelijking van het lineaire model (de regressielijn) met het basismodel (basislijn). Hiervoor
hebben we SST, SSM en SSR:
, - SST= totale kwadratensom
- SSM = kwadratensom van rechte lijn (model)
- SSR = kwadratensom van voorspellingsfout (residual)
Hiermee kun je uiteindelijk R^2 uitrekenen. De formule is als volgt: R^2= SSM-SST. Het zijn
de gekwadrateerde afstanden tot de lijn, vanuit de observaties.
R^2 gaat dus over het lineaire model en het basismodel:
- Het basismodel: wat is de beste voorspelling als je verder geen informatie hebt?
Daarvoor gebruik je dan het gemiddelde. Als je het gemiddelde kent, dan is het
gemiddelde voor iedereen de beste voorspelling. Dit is het basismodel. Deze ga je
vergelijken met het lineaire model.
T= totale deviatie; elke observatie heeft een afstand tot het gemiddelde. Er is
een afstand van elke observatie tot de voorspelling die wordt gedaan met
behulp van het gemiddelde, het basismodel (Y-bar; ). Het idee is dat met
behulp van het regressiemodel een betere voorspelling gedaan kan worden.
Daarmee zou je een deel van de totale spreiding kunnen verklaren. Er is dus
een totale spreiding van scores en met behulp van het model probeer je een
stukje van die totale spreiding te begrijpen.
M= verklaarde deel (model); als we kijken wat het verschil is tussen de
lineaire lijn en het basismodel, dan vinden een deel dat verklaard is. Dat is M.
R= onverklaarde deel; de afstand tussen een observatie en de
regressierechten. Dit verschil is nog niet verklaard.
M en R bij elkaar zijn samen weer gelijk aan de totale spreiding. Elke T, M en
R kun je kwadrateren en dan optellen.
R^2 geeft weer in hoeverre welk deel van het totaal verklaard wordt door het model, door
SSM en SST op elkaar te delen. SST is altijd groter dan SSM dus R^2 zal altijd ergens liggen
tussen de 0 en 1.
Toetsen van R^2
Interpretatie R en R^2
- Multipele correlatiecoëfficiënt R
Correlatie tussen geobserveerde Y en de voorspelling (Y^). Hoe sterker deze aan
elkaar gecorreleerd zijn, hoe beter de voorspelling is.
- Determinatiecoëfficiënt R^2
o Proportie in Y verklaarde variantie door het model. Hoe hoger de R^2, hoe
beter het model het doet, hoe meer van de totale spreiding in scores wordt
verklaard. Dus het doel: hoe goed past de rechte (lineaire) lijn? Hoe goed
verklaart het model de totale spreiding in scores? Om dat te beoordelen
wordt R^2 gebruikt. De R^2 kan getoetst worden, kijken of het significant
is. Als je bij een regressieanalyse gaat toetsen dan toets je twee dingen:
er wordt gekeken of het gehele model significant is en er wordt gekeken of
de afzonderlijke predictoren significant zijn. Op grond van hypothesen die
we gaan toetsen en de uitslag die we daarmee vinden, willen we een
uitspraak doen over de hele populatie. Dat wordt gedaan op grond van
steekproefgegevens. Om een uitspraak te doen met die
steekproefgegevens over de onderzoekspopulatie, moet er getoetst
worden. Er worden twee alternatieve hypothesen opgesteld en getoetst:
R^2 > 0: het regressiemodel verklaart variatie in Y; wordt er een
significante variantie verklaard?
B > 0 of B < 0: er is effect van X op Y; zijn de constanten ongelijk aan
0?