VOS GRASPLE
MR 1: Controle assumpties (initieel)
Een voorwaarde voor een multipele regressieanalyse is dat de afhankelijke variabele minimaal van
interval meetniveau is.
Afhankelijk variabele minimaal van interval meetniveau
Onafhankelijke variabele minimaal van interval meetniveau of dichotoom
(Sekse is een dichotome variabele, er zijn twee categorieën)
Een tweede voorwaarde voor een multipele regressieanalyse is dat er lineaire verbanden zijn tussen
de afhankelijke variabele en alle kwantitatieve onafhankelijke variabelen.
SPSS spreidingsdiagrammen met telkens kwantitatieve onafhankelijke variabele op de X-as
en de afhankelijke variabele op de Y-as.
Verwijder de uitschieter uit de dataset. Vraag nu nogmaals het spreidingsdiagram op voor leeftijd en
tevredenheid. Vergelijk de het oude en nieuwe spreidingsdiagram voor leeftijd en tevredenheid.
De invloed van schendingen van deze
assumpties, en daarmee ook het belang
van het visualiseren van de data wordt
ook inzichtelijk gemaakt door het
kwartet van Anscomebe. Dit kwartet
beschrijft vier datasets met allemaal
dezelfde statistische eigenschappen. De
variabelen X en Y hebben in alle
datasets hetzelfde gemiddelde en
dezelfde variantie. Ook is de correlatie
en regressielijn voor alle datasets
precies gelijk.
Assumpties lineaire regressieanalyse:
1. Assumptie van lineraiteit
2. Assumptie afwezigheid van uitschieters
In deze les heb je geleerd dat je voorafgaand aan het uitvoeren van een multipele regressieanalyse
de volgende assumpties kunt controleren: meetniveau ’s, lineariteit en afwezigheid van uitschieters.
Ook heb je aan de hand van het Kwartet van Anscombe kunnen zien dat schendingen van de
voorwaarden veel invloed hebben op de statistische resultaten
MR2: Controle assumpties (statistisch)
De Multipele regressieanalyse:
Voer de regressieanalyse uit in SPSS:
Analyze > Regression > Linear
Bedenk wat de afhankelijke en onafhankelijke variabelen zijn en zet deze in de goede vakjes.
We willen verschillende assumpties controleren. Per assumptie staat aangegeven wat je aan
moet vinken om deze te kunnen controleren.
o Afwezigheid uitschieters: Klik op Save en vink Standardized residuals,
Mahalanobis en Cook’s distances aan.
o Afwezigheid multicollineariteit: Klik op Statistics en vink Collinearity diagnostics aan.
o Homoscedasticiteit: Klik op Plots. Plaats de variabele *ZPRED (de gestandaardiseerde
voorspelde waarden) op de X-as. Plaats de variabele *ZRESID (de gestandaardiseerde
residuen) op de Y-as.
, o Normaal verdeelde residuen: Klik op Plots en vink Histogram aan.
Klik op OK.
Beoordeel nu de assumpties. Wordt voldaan aan de voorwaarden om de resultaten van de
regressieanalyse te interpreteren?
Afwezigheid uitschietets
Het is mogelijk om met een spreidingsdiagram of boxplot op het oog te bekijken of er
uitschieters in de data aanwezig zijn. Het is ook mogelijk om dit formeel te beoordelen
tijdens het uitvoeren van de analyses. Hiervoor kijk je naar de tabel Residuals Statistics en
bekijk je de minimum en maximum waardes van de standardized residuals, Mahalanobis
Distance en Cook’s Distance. Aan de hand van deze waardes beoordeel je respectievelijk of
er uitschieters in Y-ruimte, X-ruimte en XY-ruimte zijn.
o Standarized residuals
Hiermee controleren we of er sprake is van uitschieters in Y-ruimte. Als vuistregel
houden we aan dat de waarde tussen -3.3 en +3.3 moeten liggen. Waardes kleinder
dan -3.3 of groter dan 3.3 duiden op uitschierers.
o Mahalanobis distance
Hiermee controleren we of er sprake is van uitschieters in X-ruimte. Een uitschieter
in X-ruimte is een extreme score op een predictor of combinatie van predictoren. Als
vuistregel houden we aan dat waardes voor Mahalanobis distance lager moeten zijn
dan 10+2(# onafhankelijke variabelen). Zo moeten in een onderzoek met 2
onafhankelijke variablen de waardes voor Mahalanobis distance lager zijn dan
10+2*2= 14. Waardes hoger dan deze kritieke waarde duiden op uitschieters
o Cook’s distance
Hiermee controleren we of er sprake is van uitschieters in XY-ruimte. Een uitschieter
in de XY-ruimte is een extreme combinatie van X(-en) en Y-scores. Cook’s distance
geeft wat de overall invloed is van een respondent op het model. Als vuistregel
houden we aan dat de waardes van Cook’s distance lager dan 1 moeten zijn.
Waardes hoger dan 1 duiden op invloedrijke respondenten (influential cases)
o Wanneer je een keuze moet maken over het al dan niet verwijderen van een
uitschieter is een aantal dingen belangrijk:
* Behoort deze participant tot de groep waarover je uitspraken wilt doen? Zo nee,
neem de participant dan niet mee in de analyses.
* Is de extreme waarde van de participant theoretisch mogelijk? Zo nee, neem de
participant dan niet mee in de analyses. Zo ja, draai de analyse dan met en zonder de
participant, rapporteer de resultaten van beide analyses en bespreek eventuele
verschillen.
Afwezigheid multicollineariteit
In de tabel Coefficients staat in de laatste twee kolommen informatie over multicollineariteit.
Hiermee wordt gekeken of de relatie tussen twee of meerdere onafhankelijke variabelen te
sterk is (r>.80). bijvoorbeeld als je zowel leeftijd als werkervaring in jaren opneemt als
onafhankelijke variabelen. Deze twee variabelen zijn hoogstwaarschijnlijk sterk aan elkaar
gerelateerd: hoe ouder, hoe meer werkervaring. Als je te sterk gerelateerde variabelen
opneemt in je model heeft dat drie gevolgen:
a) De regressiecoëfficiënten (B) zijn onbetrouwbaar
b) Het beperkt de grootte van R (de correlatie tussen Y en Ŷ)
c) Het belang van individuele onafhankelijke variabelen is niet/moeilijk vast te
stellen
o Je wilt juist geen multicollineariteit. Perfecte multicollineariteit betekent dat je
onafhankelijke variabelen perfect gecorreleerd zijn (bv lengte gemeten in cm’s en
, inches). Je wilt niet twee exact dezelfde onafhankelijke variabelen opnemen in je
regressieanalyse. In het geval van een (te) sterke samenhang kun je kiezen voor één
van de twee variabelen. Een andere optie is kijken of je de twee variabelen kunt
voegen (bv met behulp van factoranalyse).
o Vaststellen of multicollineariteit een probleem is kan aan de hand van statistieken
die SPSS geeft in de laatste twee kolommen van de tabel Coefficients. Hierbij kun je
de volgende vuistregels aanhouden:
a) Waardes van de Tolerance kleiner dan .2 duiden op een mogelijk probleem
b) Waardes voor de Tolerance kleiner dan .1 duiden op een probleem
c) De VIF is gelijk aan 1/Tolerance, dus voor de VIF geldt dat waardes groter
dan 10 duiden op een probleem
Homoscedasticiteit
De voorwaarde van homoscedasticiteit houdt in dat
de spreiding van de residuen per X-waarde ongeveer
gelijk moet zijn. Dit beoordelen we door de
gestandaardiseerde residuen te plotten tegen de
gestandaardiseerde voorspelde waardes. Als er voor
elke voorspelde waarde (X-as) ongeveer evenveel
spreiding is op de Y-as, dan is er voldaan aan de
voorwaarde. In het rechterplaatje zie je de situatie waarin dit juist niet het geval is. Dus voor
homoscedasticiteit moet de spreiding van de residuen ongeveer gelijk zijn voor alle
gestandaardiseerde voorspelde waardes.
Normaal verdeelde residuen
Hieronder zie je de frequentieverdeling van
de gestandaardiseerde residuen. Hoewel het
histogram niet precies de lijn van de normaal
verdeling volgt zijn de afwijkingen niet zo
groot dat we concluderen dat de voorwaarde
voor normaal verdeelde residuen
geschonden is.
Samenvatting:
In deze les heb je geleerd dat bij het uitvoeren van
een (multipele) regressieanalyse de volgende assumpties kunt controleren:
Afwezigheid uitschieters
Afwezigheid multicollineariteit
Homoscedasticiteit
Normaal verdeelde residuen
MR3: Uitvoeren en interpreteren
Wanneer voldaan is aan de assumpties mag het regressiemodel geïnterpreteerd worden. Hiervoor
bekijken we de eerste vier tabellen van de output:
1. In de eerste tabel staat wat de onafhankelijke en afhankelijke variabelen zijn.
2. In de tweede tabel staan de algemene kwaliteitsgegevens van het regressiemodel.
o Ook de waarde van multipele correlatiecoëfficiënt R: Deze waarde geeft aan wat de
correlatie is tussen de daadwerkelijke tevredenheidsscores (Y) en de voorspelde
tevredenheidsscores (Ŷ). Dit is een indicatie van hoe goed het model is om
tevredenheid te voorspellen.
o R square (R2) geeft het percentage verklaarde variantie aan in de steekproef. Naast R
square zie je de Adjusted R square. De adjusted R 2 geeft aan wat het geschatte
, percentage verklaarde variantie is in de populatie. De R 2 wordt hiervoor aangepast
op basis van de steekproefgrootte (n) en het aantal predictoren in het model (k). het
geschatte percentage verklaarde variantie in de populatie is altijd iets lager dan het
percentage verklaarde variantie in de steekproef.
3. In de derde tabel staat de uitkomst van de F-toets voor het model.
Hier kijken we dus of de drie onafhankelijke variabelen samen een significant deel van de
spreiding in tevredenheid kunnen verklaren. (Als p< .05 dan is het model significant oftewel
de drie onafhankelijke variabelen verklaren samen een significant deel van de spreiding in
tevredenheid.
4. In de vierde tabel staat informatie over de regressiecoëfficiënten.
Hier kijken we per onafhankelijke variabele of deze een significante voorspeller is van de
afhankelijke variabele.
We gaan nu een hiërarchische multipele regressieanalyse uitvoeren waarbij het vorige model
uitbreiden met variabelen steun van ouders en docenten. Hiermee kunnen we de vraag
beantwoorden of deze toevoeging voor een significant betere voorspelling van tevredenheid zorgt
ten opzichte van een model met alleen leeftijd sekse en sportparticipatie.
NB. Wanneer we nieuwe variabelen toevoegen aan de regressieanalyse, dienen de assumpties eigenlijk opnieuw gecontroleerd te worden.
Hiërarchische regressieanalyse in SPSS:
Analyze > Regression > Linear
Plaats de onafhankelijke variabelen van het oorspronkelijke model in Block 1 of 1.
Klik op Next. Hiermee kun je een nieuw blok met variabelen toevoegen. Hier selecteer je
alleen de extra variabelen: het is dus niet nodig de drie variabelen uit het eerste blok
nogmaals te selecteren. In dit geval plaats je in het tweede blok dus steun van ouders en
steun van docenten.
Vraag onder Statistics om R squared change.
Klik op OK.
De output die je nu krijgt lijkt op de output van de vorige multipele regressie. We geven voor de
eerste vier tabellen van de output per tabel aan welke (nieuwe_ informatie je hieruit kunt halen.
1. In de eerste tabel staat weer wat de onafhankelijke en afhankelijke variabelen zijn. Specifiek
staat er per model (1 en 2) welke onafhankelijke variabelen er in die stap zijn toegevoegd
2. In de tweede tabel staan weer de algemene kwaliteitsgegevens van het regressiemodel.
In het linkerdeel van de tabel staan kwaliteitsgegevens per model (in aparte regels voor model 1 en
model 2) in het rechterdeel van de tabel staan de Change statistics. Hierin wordt aangegeven hoe de
kwaliteitsgegevens over de modellen heen veranderen.
In model 2 is de R square change niet gelijk aan de multipele regressieanalyse. Dit betekent dat het
tweede model x aantal procent meer variantie verklaart dan model 1. Het is het verschil in R square
tussen de twee modellen. Met de Sig F change wordt aangegeven of deze toename in verklaarde
variantie significant is.
3. In de derde tabel staan nu de uitkomsten van de twee F-toetsen die toetsen of bij model 1 en
2 het gehele model significant is. Het verschil met de Sig F change in de vorige stap, is dat we
toen specifiek toetsten of de toename in verklaarde variantie significant is. Terwijl we in deze
ANOVA tabel alleen kijken of de modellen als geheel significant zijn.
4. In de vierde tabel staat weer informatie over de regressiecoëfficiënten. Hier kijken we per
model per onafhankelijke variabele of deze een significante voorspeller is van tevredenheid.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper lunaperik18. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,49. Je zit daarna nergens aan vast.