Grasple
Multiepele regressie
MR1
Lifesat1
Satisfaction (Tevredenheid), gemeten met de Life Satisfaction Scale (1-100)
Age (Leeftijd), gemeten in jaren
Gender (Sekse), (0 = man, 1 = vrouw)
Sports (Sportparticipatie) (gemeten in aantal uur per week)
Parents (Steun van ouders) (gemeten op een schaal van 1-10)
Teachers (Steun van docenten) (gemeten op een schaal van 1-10)
SES (Sociaaleconomische status) (1 = laag, 2 = midden, 3 = hoog
Een voorwaarde voor een multipele regressieanalyse is dat de afhankelijke variabele minimaal van
interval meetniveau is.
Een tweede voorwaarde voor een multipele regressieanalyse is dat er lineaire verbanden zijn tussen
de afhankelijke variabele en alle kwantitatieve onafhankelijke variabelen.
Spreidingsdiagram
In deze les heb je geleerd dat je voorafgaand aan het uitvoeren van
een multipele regressieanalyse de volgende assumpties kunt
controleren:
Meetniveau’s
Lineariteit
Afwezigheid van uitschieters
Ook heb je aan de hand van het Kwartet van Anscombe kunnen
zien dat schendingen van de voorwaarden veel invloed hebben
op de statistische resultaten.
MR2
Afwezigheid uitschieters
Je kan met een spreidingsdiagram of boxplot op het oog bekijken of er uitschieters in de data
aanwezig zijn. Het is ook mogelijk om dit formeel te beoordelen tijdens het uitvoeren van de
analyses. Hiervoor kijk je naar de tabel Residuals Statistics en bekijk je de minimum en
maximumwaardes van de standardized residuals, Mahalanobis Distance en Cook’s Distance. Aan de
hand van deze waardes beoordeel je respectievelijk of er uitschieters in Y-ruimte, X-ruimte en XY-
ruimte zijn.
Standardized residuals
Hiermee controleren we of er sprake is van uitschieters in Y-ruimte. Als vuistregel houden we aan
dat de waardes tussen -3.3 en +3.3 moeten liggen. Waardes kleiner dan -3.3 of groter dan 3.3 duiden
op uitschieters.
,Mahalanobis Distance
Hiermee controleren we of er sprake is van uitschieters in X-ruimte. Een uitschieter in X-ruimte is
een extreme score op een predictor of combinatie van predictoren. Als vuistregel houden we aan dat
waardes voor Mahalanobis distance lager moeten zijn dan 10 + 2(onafhankelijke variabelen). Zo
moeten in een onderzoek met 2 onafhankelijke variabelen de waardes voor Mahalanobis
distance lager zijn dan 10 + 2∙2 = 14. Waardes hoger dan deze kritieke waarde duiden op
uitschieters.
Cook’s distance
Hiermee controleren we of er sprake is van uitschieters in XY-ruimte. Een uitschieter in de XY-ruimte
is een extreme combinatie van X(-en) en Y-scores. Cook's distance geeft aan wat de overall invloed is
van een respondent op het model. Als vuistregel houden we aan dat waardes voor Cook’s distance
lager dan 1 moeten zijn. Waardes hoger dan 1 duiden op invloedrijke respondenten (influential
cases).
Wanneer je een keuze moet maken over het al dan niet verwijderen van een uitschieter is een
aantal dingen belangrijk:
Behoort deze participant tot de groep waarover je uitspraken wilt doen? Zo nee, neem de
participant dan niet mee in de analyses.
Is de extreme waarde van de participant theoretisch mogelijk? Zo nee, neem de participant
dan niet mee in de analyses. Zo ja, draai de analyse dan met en zonder de participant,
rapporteer de resultaten van beide analyses en bespreek eventuele verschillen.
Afwezigheid multicollineariteit
In de tabel Coefficients staat in de laatste twee kolommen informatie over multicollineariteit.
Hiermee wordt gekeken of de relatie tussen twee of meerdere onafhankelijke variabelen te sterk is
(r > .80). Bijvoorbeeld als je zowel leeftijd als werkervaring in jaren opneemt als onafhankelijke
variabelen. Deze twee variabelen zijn hoogstwaarschijnlijk sterk aan elkaar gerelateerd: hoe ouder,
hoe meer werkervaring.
Als je te sterk gerelateerde variabelen opneemt in je model heeft dat drie gevolgen:
De regressiecoëfficiënten (B) zijn onbetrouwbaar.
Het beperkt de grootte van R (de correlatie tussen Y en Ŷ)
Het belang van individuele onafhankelijke variabelen is niet/moeilijk vast te stellen .
Je wilt geen multicollineariteit. Perfecte multicollineariteit betekent dat je onafhankelijke variabelen
perfect gecorreleerd zijn. Je wilt niet twee exact dezelfde onafhankelijke variabelen opnemen in je
regressieanalyse. Als er een te sterke samenhang is kan je kiezen voor één van de twee variabelen.
Een andere optie is kijken of je de twee variabelen kunt samenvoegen.
Vaststellen of multicollineariteit een probleem is kan aan de hand van statistieken die SPSS geeft in
de laatste twee kolommen van de tabel Coefficients. Hierbij kun je de volgende vuistregels
aanhouden:
Waardes voor de Tolerance kleiner dan .2 duiden op een mogelijk probleem.
Waardes voor de Tolerance kleiner dan .1 duiden op een probleem.
De VIF is gelijk aan 1/Tolerance, dus voor de VIF geldt dat waardes groter dan 10 duiden op
een probleem.
,Homoscedasticiteit
De voorwaarde van homoscedasticiteit: de spreiding van de residuen per X-waarde moet ongeveer
gelijk zijn.
Dit beoordeel je door de gestandaardiseerde residuen te plotten tegen de gestandaardiseerde
voorspelde waardes. Als er voor elke voorspelde waarde (X-as) ongeveer evenveel spreiding is op de
Y-as, dan is er voldaan aan de voorwaarde. In het rechterplaatje zie je een situatie waarin dit juist
niet het geval is.
Normaal verdeelde residuen
Hieronder zie je de frequentieverdeling van de gestandaardiseerde residuen. Hoewel het histogram
niet precies de lijn van de normale verdeling volgt zijn de afwijkingen niet zo groot dat we
concluderen dat de voorwaarde voor normaal verdeelde residuen geschonden is.
Samenvatting
In deze les heb je geleerd dat je bij het uitvoeren van een (multipele) regressieanalyse de volgende
assumpties kunt controleren:
Afwezigheid uitschieters
Afwezigheid multicollineariteit
Homoscedasticiteit
Normaal verdeelde residuen
MR3: uitvoeren en interpreteren
R= multipele correlatiecoëfficiënt
- Deze waarde geeft aan wat de correlatie is tussen de daadwerkelijke tevredenheidsscores (Y)
en de voorspelde tevredenheidsscores (Y)
- Dit is een indicatie van hoe goed het model is om tevredenheid te voorspellen
R2= percentage verklaarde variantie in de steekproef
- Geeft aan hoeveel de variantie in Y wordt verklaard door het model
, - Voorbeeld:
Onafhankelijke variabelen: leeftijd, sekse, sportparticipatie
Afhankelijke variabele: tevredenheid
R2= .173 (17.3 %)
17.3% van de spreiding in tevredenheid kan verklaard worden door leeftijd, sekse, en
sportparticipatie. 82.7 % van de spreiding wordt verklaard door andere factoren.
R square (R2) geeft het percentage verklaarde variantie aan in de steekproef. Naast R square zie je
de Adjusted R square. De adjusted R2 geeft aan wat het geschatte percentage verklaarde variantie is
in de populatie. De R2 wordt hiervoor aangepast op basis van de steekproefgrootte (n) en het aantal
predictoren in het model (k). Het geschatte percentage verklaarde variantie in de populatie is altijd
iets lager dan het percentage verklaarde variantie in de steekproef.
In de derde tabel staat de uitkomst van de F-toets die toetst of het gehele model significant is. Hier
kijken we dus of de drie onafhankelijke variabelen samen een significant deel van de spreiding in
tevredenheid kunnen verklaren.
In de vierde tabel staat informatie over de regressiecoëfficiënten. Hier kijken we per onafhankelijke
variabele of deze een significante voorspeller is van tevredenheid.
Voer de hiërarchische regressieanalyse uit in SPSS:
Analyze > Regression > Linear
Plaats de onafhankelijke variabelen van het oorspronkelijke model in Block 1 of 1.
Klik op Next. Hiermee kun je een nieuw blok met variabelen toevoegen. Hier selecteer je
alleen de extra variabelen: het is dus niet nodig de drie variabelen uit het eerste blok
nogmaals te selecteren. In dit geval plaats je in het tweede blok dus steun van ouders en
steun van docenten.
Vraag onder Statistics om R squared change.
Klik op OK.
De output die je nu krijgt lijkt op de output van de vorige multipele regressie. We geven voor de
eerste vier tabellen van de output per tabel aan welke (nieuwe) informatie je hieruit kunt halen.
1. In de eerste tabel staat weer wat de onafhankelijke en afhankelijke variabelen zijn. Specifiek
staat er per model (1 en 2) welke onafhankelijke variabelen er in die stap zijn toegevoegd.
2. In de tweede tabel staan weer de algemene kwaliteitsgegevens van het regressiemodel.
In het linkerdeel van de tabel staan de kwaliteitsgegevens per model (in aparte regels voor model
1 en model 2). In het rechterdeel van de tabel staan de Change statistics. Hierin wordt aangegeven
hoe de kwaliteitsgegevens over de modellen heen veranderen.
Model Summary
Change Statistics
Adjusted R Std. Error of R Square
Model R R Square Square the Estimate Change F Change df1 df2 Sig. F Change
a
1 ,416 ,173 ,146 16,99547 ,173 6,474 3 93 ,000
2 ,552b ,304 ,266 15,75425 ,132 8,616 2 91 ,000
a. Predictors: (Constant), Hours playing sports per week, Gender, Age in years
b. Predictors: (Constant), Hours playing sports per week, Gender, Age in years, Perceived support of teachers , Perceived support of parents
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller sjdeboer. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.10. You're not tied to anything after your purchase.