Multivariate data-analyse
SPSS
Week 1. Multiple regressie analyse (MRA)
Opdracht 1.
File: MDA_MRA_1.sav
Een studie met middle-class kinderen (11-13 jaar)
Vraag: kunnen academische prestaties (GPA) het volgende voorspellen:
IQ
Age
Gender
Self-concept (SC)
Data view
Variable view
1. Calculate the Pearson correlations between the five variables.
Stappenplan
1. Analyse → Correlate → Bivariate
2. Variables:
- Grade point average (GPA)
- Intelligence quotient (IQ)
- Age
- Gender
- Self-concept (SC)
3. Vink aan: Pearson
4. Vink aan: two-tailed
5. Options → vink aan: means and standard deviations
Output:
Je krijgt twee tabellen:
- Descriptives statistics
- Correlations
→ Hierin kan je zien hoe de verschillende variabelen aan elkaar zijn gerelateerd.
→ Je kunt nu de multicollineariteit checken
(onderzoeken of de onafhankelijke variabelen zeer sterk aan elkaar zijn gerelateerd)
Het kan ook op een andere manier (deze manier wordt hierbij niet gebruikt)
1. Analyze → Regression → Linear.
2. Sleep de afhankelijke variabele (GPA) naar de Dependent sectie.
3. Sleep de onafhankelijke variabelen (IQ, age, gender, SC) naar de Independent sectie.
4. Kijk bij Method of Enter is aangevinkt (dit zorgt voor een standaard multipele regressie).
5. Klik op Statistics selecteer de volgende onderdelen: Model fit & Descriptives
1
, Multivariate data-analyse
SPSS
a. What is the sample size N?
SPSS extra optie: options vraag aan means and
standard deviations
Kijk naar de tabel Descriptive statistics
Tentamen antwoord: N = 78
b. Does it make sense to perform a linear regression of GPA on IQ, age, gender and/or
self-concept?
Kijk naar de tabel Correlations
GPA – IQ: r = .597 (hoog gecorreleerd)
GPA – Age: r = .092 (laag gecorreleerd)
GPA – Gender: r = - .015 (laag gecorreleerd)
GPA – SC: r = .484 (hoog gecorreleerd)
Doordat sommige correlatie hoog gecorreleerd
zijn met GPA, is het logisch om een lineaire
regressie te doen van GPA op IQ, age, gender
en/of selfconcept
Tentamen antwoord:
Ja, sommige variabelen correleren hoog met GPA
c. Which variable is likely to be a good predictor of GPA?
Regel: de predictor die de sterkte significante Pearson correlatie heeft met afhankelijke
variabelen (Y) is de beste predictor van afhankelijke variabelen (Y)
Kijk naar de tabel Correlations
GPA – IQ: r = .597; p < .001
GPA – Age: r = .092; p = .422
GPA – Gender: r = - .015; p = .657
GPA – SC: r = .484; p < .001
De predictor die de sterkte significante Pearson correlatie heeft met GPA is de beste
predictor van GPA
Zowel IQ (p < .001) als self-concept (p < .001) hebben een significante relatie met GPA
Intelligentie quotiënt heeft de sterkste Pearson correlatie met GPA (r = .579)
Tentamen antwoord: Intelligence quotient, r = ,579; p = .000
2
, Multivariate data-analyse
SPSS
2. Perform a linear regression of GPA on IQ, age, gender and self-concept.
Stappenplan
1. Analyse → Regression → Lineair
2. Dependent: Grade point average (GPA)
Independent:
- Intelligence quotient (IQ)
- Age
- Gender
- Self-concept (SC)
3. Statistics
Vraag om:
“part and partial correlations” (vraag 2f)
“collinearity diagnostics” (vraag 2g)
4. Save
Vraag om:
Cook’s distances (vraag 2h)
Leverage values (vraag 2h)
5. Kijk bij Method of Enter is aangevinkt
(dit zorgt voor standaard multipele regressie)
Output
Je krijgt zes tabellen:
- Variables Entered/Removed
→ Hierin kan je zien welke variabelen er in het model zitten
- Model summary
→ Hier vind je de waarde van R square
→ Deze waarde vertelt in hoeverre de variantie van de afhankelijke variabele wordt
voorspeld door het model
- ANOVA
→ Hier kan je kijken of het resultaat significant is (p-waarde)
→ Wanneer de p-waarde significant is, kan je de nul hypothese (H0) verwerpen
- Coefficients
→ Je kan hierin kijken welke variabelen in het model bijdragen aan de voorspelling van de
afhankelijke variabele.
→ Kijk hiervoor in de kolom Beta onder Standardized Coefficients.
→ Kijk welke Beta het grootst is
→ De variabele met de grootste Beta heeft de grootste bijdrage aan de voorspelling
→ Kijk vervolgens naar de significantie
→ Wanneer een variabele niet significant is betekent dit dat deze variabele geen
significante unieke bijdrage levert aan de voorspelling van je afhankelijke variabele.
→ Wanneer je wilt kijken naar de unieke bijdrage van een predicotor aan de voorspelling
van de afhankelijke variabele, dan kijk je naar de semi-partial correlatie voor elke
predictor → “part correlation” in SPSS tabel
Deze waarde moet je kwadrateren (part correlation2) voor de unieke bijdrage
3
, Multivariate data-analyse
SPSS
- Collinearity Diagnostics
→ In deze tabel kan je checken voor multicollineariteit
→ Regel: de analyse voldoen aan de assumptie multicollineariteit wanneer:
Tolerantie > .1
VIF < 10
→ Wanneer ze bij het tentamen vragen of er sprake is van multicollineariteit in het gehele
model dan schrijf je het antwoord op deze manier op
Nee, want tolerantie > .1 en VIF < 10
Ja, want tolerantie < .1 en VIF > 10
→ Wanneer ze bij het tentamen vragen of er sprake is van multicollineariteit in een
predictor dan schrijf je het antwoord op deze manier op
Nee, want tolerantie = ….. < .1 en VIF = ….. < 10
Ja, want tolerantie = ….. < .1 en VIF = ….. > 10
- Residuals Statistics
→ In deze tabel kan je checken voor uitbijters
Uitbijters op afhankelijke variabele Y
Standaard residuen moeten liggen tussen -3 en 3
Uitbijters op onafhankelijke variabele(n) X
Centered Leverage Value < 3(k+1)/n
k: aantal predictoren
n: aantal proefpersonen
Influential data-point
Dit zijn punten die heel veel invloed hebben op de data
Zulke punten wil je niet, want je wilt niet dat één persoon jouw resultaat bepaald
Cook’s distance is een maat voor de hoeveelheid invloed
Cook’s distance < 1
Uitleg over hypotheses:
Afhankelijke variabele (Y): academical achievement (GPA)
Onafhankelijke variabelen (voorspellers):
X1 = IQ
X2 = Age
X3 = Gender
X4 = Self-concept (SC)
De nul hypothese (H0 ) stelt dat er geen verschil is
Wanneer de nul hypothese wordt verworpen, betekent dit dat er een verschil is gevonden
Wanneer er sprake is van een verschil wordt de Ha aangenomen
H0 : b1 = b2 = b3 = b4 = 0 H0 : β1 = β2 = β3 = β4 = 0 H0 : R1 = R 2 = R 3 = R 4 = 0
Ha : tenminste één b𝑘 ≠ 0 Ha : tenminste één β𝑘 ≠ 0 Ha : tenminste één R 𝑘 ≠ 0
Je gebruikt b wanneer:
Data is ongestandaardiseerd
Het gaat over de steekproef (sample)
Je gebruikt β wanneer:
Data is gestandaardiseerd
Het gaat over de populatie
4
, Multivariate data-analyse
SPSS
d. Can the null hypothesis of no relationship between GPA and IQ, age, gender and/or
self-concept be rejected?
Regel: H0 kan verworpen worden wanneer de F-toets significant is (want er is een verschil)
Kijk in ANOVA tabel
Kijk of het resultaat significant is (p < .05)
Dit is het geval → p = .000
Het tentamen antwoord moet het volgende bevatten:
F-toets (F = 23,117)
dfregression, dfresidual (dfregression = 4 & dfresidual = 73)
p-waarde (p = .000)
H0 kan worden verworpen, want er is significantie, F(4,73) = 23,117; p < .001
Tentamen antwoord:
Ja, F(4,73) = 23,117; p < .001
e. How much variance of GPA is explained by IQ, age, gender and SC together?
Regel: de verklaarde variantie van de afhankelijke variabele wordt gegeven door R2
Kijk in de tabel Model Summary
R2 = 0,559
55,9% (56%) van de variantie van GPA is verklaard door
IQ, age, gender & SC samen
Tentamenantwoord: 55,9% (ongeveer 60%) , R2 = 0,559
f. What predictor explains the most unique variance?
SPSS extra optie: statistics vraag aan: part and partial correlations
Kijk naar de tabel Coefficients
2
Kijk naar de semi-partial correlatie voor elke predictor (ry(1∙2) )→ “part correlation” in SPSS tabel
Kwadrateer deze waarde (part)2
Intelligence quotient: (0,487)2 = 0,237
Age: (0,402)2 = 0,162
Gender: (-0,200)2 = 0,040
Self-concept: (0,269)2 = 0,072
Alle predictoren zijn significant
Intelligence quotient heeft de grootste bijdrage deze heeft de hoogste semi-partiele correlatie
2
Tentamenantwoord: Intelligence quotient, ry(1∙234) = (.487)2 = .237
Extra
Wanneer er wordt gevraagd wat de beste predictor is dan volgt de regel:
De beste predictor moet significant zijn en heeft:
De hoogste (absolute) Beta-waarde
De hoogste (absolute) semi-partiele correlatie
5