SPSS sessie 1
Exercise C1.1 Bivariate relations + simple regression
a. Open the data file ‘skinfold.sav’. Make a scatter plot of skinfold thickness (LSKIN) (x-axis)
and body mass (DEN) (y-axis).
Graphs > Legacy Dialogs > Scatter/Dot > Simple scatter > variabelen erin zetten > scatterplot.
b. Describe the relationship between skinfold and body mass:
-Linear or non-linear? Lineair
-Weak or strong? Sterk
-Positive or negative? Negatief
c. Perform a regression analysis to predict body mass (DEN) from skinfold (LSKIN). What is
the regression equation? What is the value of R square and what does this mean?
Analyze > Regression > Linear > je wilt DEN voorspellen dus dat is de dependent, lskin is de
independent
equation = b0 + b1 * x1 + b2 * x2 > de b0 is de constante B in de tabel en we hebben nu alleen maar
lskin (b1), dus dan wordt het 1.163 - .063 * lskin.
De Rsquared staat in de model summary > .72 > het model kan voor 72% verklaard worden door
lskin, dus skinfol thickness is een goede voorspeller voor body mass.
Dus; 72% van de variantie van bodymass (DEN) wordt verklaard door skinfold.
Model Summary
Adjusted R Std. Error of the
Model R R Square Square Estimate
1 ,849a ,720 ,717 ,008539
a. Predictors: (Constant), lskin
, Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 1,163 ,007 177,296 ,000
lskin -,063 ,004 -,849 -15,228 ,000
a. Dependent Variable: den
d. Formulate the hypotheses concerning the regression coefficient.
H0: lskin = 0
Ha: lskin ≠ 0
e. What is your conclusion concerning this hypotheses?
Dat H0 wordt verworpen omdat B1 niet 0 is maar -.063 en is significant want p <.001.
De regressie coefficient is significant (t(90) = -15.23, p <.001). Een verhoging in LSKIN (x-
variabele) is geassocieerd met een verlaging in DEN (b = -.06)
f. Redo the analysis and save (use the Save option) the predicted values for body mass. Look up
the new variable in the data editor.
Analyze > Regression > Linear > zelfde variabelen > Save > bij Predicted Unstandardized > nieuwe
variabele in de dataset.
g. Make a scatter plot of skinfold thickness (LSKIN) (x-axis) and the predicted values for body
mass (y-axis). Compare this scatterplot to the one created in a. Explain the difference between
the two plot and include the term “residual” in this explanation.
Hebben we gedaan bij a > maar dan unstandardized op de y. Dit is een rechte lijn, de andere bij a
was een wolk. Deze rechte lijn is de regressielijn, als je de afstand van de punten van a
(geobserveerde scores) tot deze lijn zou trekken krijg je de residuen. Als de punten dicht om de
regressielijn liggen, dan is de voorspelling beter (weinig error/residu).
,Exercise C1.2 regression analysis: checking linearity assumption
Open the data file ‘MM02_060.SAV’, which is a fictive data set with four different dependent
variables Y1 to Y4 and four predictor variables X1 to X4. The goal is to predict Y1 from X1, Y2
from X2, and so on.
a. Compute the correlations and regression coefficients for the 4 variable pairs X1-Y1 through
X4-Y4. What do you notice about these results?
Correlate > Bivariate > Alles erin > de onderlinge paren correleren allemaal .82. Of door de
correlatie op te vragen voor x1 en y1, x2 en y2, x3 en y3 en voor x4 en y4.
En regressiecoefficient opvragen door: Analyze > Regression > Linear > Dan y1 op dependent, x1
op independent (en dit ook voor 2, 3 en 4) > je ziet dat alle variabelen een constante van 3 hebben
en een b-waarde van .5 > b-waarden zijn dus allemaal hetzelfde, dus de regressielijnen zullen
hetzelfde lopen.
Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 3,000 1,125 2,667 ,026
x1 ,500 ,118 ,816 4,241 ,002
a. Dependent Variable: y1
, Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 3,001 1,125 2,667 ,026
x2 ,500 ,118 ,816 4,239 ,002
a. Dependent Variable: y2
b. Make scatter plots (including regression lines) for each of the four X-Y variable pairs.
Graphs > Scatterplots > van alle paren apart. Dan dubbelklik je op de scatterplot, kies je voor
Elements > Fit line at total > lineair. Dan komt ook de R2 tevoorschijn.
c. Which of these regression lines provides a good description of the data?
De eerste, dus x1 en y1.
De tweede is meer een curve (dus de regressielijn moest niet lineair zijn). De scatterplot van x3 en
y3 bevat een outlier, dus de regressielijn moet berekend worden na het verwijderen van deze outlier.
Voor x4 en y4 geldt dat er ook een outlier is > eerst verwijderen en dan regressielijn maken.
d. Compute the average and the standard deviation for all eight variables (X1 - X4, and Y1 -
Y4). Make a note of these values. What do you notice? Could you have expected this based
on your earlier findings?