Practicum 1: Enkelvoudige lineaire regressie
Als je een histogram moet maken, zeg dan iets over de verdeling: rechtsscheef (dus rechts bijna geen
waarden) of linksscheef (links bijna geen waarden). Zeg ook iets over uitbijters die je ziet. Als je
vervolgens een spreidingsdiagram moet maken, dan moet je iets zeggen over de samenhang tussen
de variabelen. Als de punten dicht bij elkaar liggen en er een rechte lijn door de puntenwolk
getrokken kan worden, dan is er sprake van een redelijk goede (positieve of negatieve) samenhang.
Daarnaast dien je ook iets te zeggen als: hoe hoger de score op x, hoe hoger de score op y. Wanneer
je vervolgens een rechte lijn door het spreidingsdiagram hebt getekend (via Fit line tot total) kun je
de samenhang nog beter onderzoeken. Hiermee kun je vervolgens zeggen of de lijn goed bij de data
past, maar bijvoorbeeld ook dat de lijn door de uitbijter uit positie wordt getrokken (de uitbijter trekt
de lijn naar zich toe).
Als je een uitbijter vindt, is het van belang om aan te geven of dit een uitbijter in zowel de x als y
richting is. Als je een uitbijter hebt gevonden en die hebt verwijderd uit de dataset (Data Select
Cases Kies wat je wilt doen (dus bij een bepaalde conditie of een aantal ranges) dan is het van
belang om nogmaals te vertellen hoe het spreidingsdiagram eruit ziet; past de lijn bijvoorbeeld beter
bij de puntenwolk en wat zegt dit over de samenhang (sterker of minder sterk zonder de uitbijter).
Wanneer je een enkelvoudige regressieanalyse wilt uitvoeren, ga je naar Analyze Regression
Lineair. De responsvariabele is hierin de constante, ook wel de afhankelijke variabele. De
responsvariabele wordt voorspeld uit de verklarende variabele, ook wel een onafhankelijke
variabele. Als je een regressievergelijking moet opschrijven, noteer dan: ^y = constante + hellingx.
Je kunt de voorspelde waarde voor de constante berekenen op twee manieren binnen SPSS:
1. Via Transform Compute Variable Pre_X = waarde constante +/- waarde x * naam x);
2. Binnen de regressieprocedure via Save Predicted Values Unstandardized en
Standardized (de belangrijkste waarde hierin is PRE_1).
Vervolgens is het ook handig om de residuen te berekenen en ook dit kan op twee manieren via
SPSS:
1. Via Transform Compute Variable Res_Compute = Y – PRE1 (dit heb je berekend bij de
voorspelde waarden);
2. Binnen de regressieprocedure via Save Residuals Unstandardized en Standardized (de
belangrijkste waarde hierin is RES_1).
Wanneer je het gemiddelde van de residuen moet berekenen, dan kan dit gewoon via Analyze
Descriptive Statistics Descriptives. De gemiddelden en de standaarddeviatie kun je echter ook
vinden wanneer je Save de residuen berekend. Het gemiddelde en de standaarddeviatie zijn dan te
vinden in de tabel Residuals Statistics en dan moet worden gekeken naar de tweede rij van boven
‘Residual’. Maar wanneer je 100% de juiste standaarddeviatie wilt hebben, kijk dan bij de tabel
Model Summary naar de laatste kolom: Standard Error of the Estimate. Dit is dus de
standaarddeviatie van de residuen. Als wordt gevraagd hoe de residuen verdeeld zijn, dan is het de
bedoeling dat het gemiddelde van de residuen 0 is. De standaarddeviatie moet ongeveer 3,1 zijn.
In de tabel Coefficients staat het geschatte model wat je moet gebruiken voor de enkelvoudige
regressievergelijking. In de ANOVA tabel staan daarnaast drie belangrijke dingen:
1. Residual (SSE): dit is het onverklaarde gedeelte in het model. Om de Mean Square Error te
berekenen, doe je SSE / N-K-1. Dit getal staat gelijk aan de variantie van de residuen;
2. Regression (SSM): dit is het verklaarde gedeelte in het model. Om de mean square van het
model te berekenen, doe je SSM / K;
3. Total (TSS): dit is het totaal aan variantie in het model. Om de MST te berekenen doe je TSS /
N-1.
,Als er wordt gevraagd om de marginale variantie van Y (de uitkomstvariabele) te berekenen, neem
dan de formule voor MST: TSS / N-1. Als er wordt gevraagd om de conditionele variantie van Y (de
uitkomstvariabele) gegeven X (de voorspeller) te geven, dan is dit gelijk aan de MSE: SSE / N-K-1. De
MSE is gelijk aan de SEE².
Als je uit een aantal cijfers de voorspellingsvergelijking moet maken, dan moet je dus Y berekenen uit
X. Volg onderstaande stappen om dit te doen:
1. Bereken het gemiddelde van Y en het gemiddelde van X;
2. Bereken vervolgens voor zowel X als Y de waarde van X – GemX en Y – Gem Y. Deze waarden
doe je vervolgens keer elkaar (x – gemx) (y – gemy) en dit tel je bij elkaar op;
3. Daarna kijk je naar (x – gemx) en dit doe je in het ²;
4. Vervolgens deel je de uitkomsten van (x – gemx) (y – gemy) door (x – gemx)². Deze uitkomst
is de waarde van b, dus de waarde van de helling;
5. Om vervolgens a te berekenen, neem je het gemiddelde van y +/- de helling van b * het
gemiddelde van x. Het getal wat hier uit komt, is de waarde van a.
6. Samenvattend: b = (x – gemx) * (y – gemy) / (x – gemx)². a = gemy +/- b * gemx.
Als je vervolgens (of met een nieuwe voorspellingsvergelijking) de residuen moet berekenen, doe dit
dan als volgt: waarde van één gegeven uit Y – (a + (b * één gegeven uit X in dezelfde rij).
Als je de geschatte waarde van de correlatie tussen X en Y moet berekenen, doe dit dan als volgt:
helling x * SDx / SDy.
, Practicum 2: Inferentie voor regressie I
Als je een spreidingsdiagram moet maken, moet je iets zeggen over de (positieve of negatieve)
samenhang maar ook of je de ene variabele goed kunt gebruiken om de andere te voorspellen.
Daarnaast moet je ook iets zeggen over de spreiding in de dataset. Zeg bijvoorbeeld iets als: de
spreiding is redelijk groot, wat duidt op een redelijke samenhang. Het lijkt erop dat met de scores op
x, de scores op y redelijk te voorspellen zijn en andersom.
Je kunt in SPSS de correlatie berekenen tussen X en Y via Analyze Correlate Bivariate. De
nulhypothese die SPSS automatisch toetst bij een correlatie is dat de correlatie gelijk is aan 0,
tegenover de alternatieve hypothese die toetst dat de correlatie niet gelijk is aan 0. Als je de
correlatie weet, kun je vervolgens ook de T-waarde voor de toets uitvoeren: R / (√1–R²) / N-2).
Wanneer je de T-waarde weet, kun je dit vervolgens opzoeken in Tabel B. Als de P-waarde uit de
tabel heel klein is, noteer dan: P<0,005 en verwerp de nulhypothese: de correlatie is significant
groter dan 0.
De Standard Error of the Estimate wordt bij een regressievergelijking gegeven in de tabel Model
Summary. De Standard Error of the Estimate is de geschatte standaarddeviatie van de residuen; dit is
de spreiding (in termen van standaarddeviaties) van de scores rond de regressielijn. Stel dat de
Standard Error of the Estimate 4,153 is: in deze regressie is de geschatte standaarddeviatie van de
punten rond de regressielijn (van de residuen) dus ongeveer gelijk aan 4,153. Volgens de normale
verdeling weet je dan dat 68% van de punten in een band van +4,153 (boven) en -4,153 (onder) rond
de regressielijn ligt.
De beste voorspelling van Y als je de informatie in X niet gebruikt bij het voorspellen, is het
gemiddelde van Y. Wanneer je de voorspellingsfout (redisu) van een individu op score Y moet
berekenen, bereken dan de waarde op Y van het individu – gemY. De gekwadrateerde fout is
vervolgens de uitkomst van de voorspellingsfout in het ². Wanneer je de X vervolgens wel weer
gebruikt om Y te voorspellen, dan moet je voor de voorspellingsfout (het residu) eerst de vergelijking
oplossen door de een waarde van X in te vullen van een individu (bijvoorbeeld 13,31 + 11,1 * 9).
Vervolgens kun je weer de waarde op Y van het individu pakken – de uitkomst van de
regressievergelijking om de voorspellingsfout te berekenen en daarmee ook de gekwadrateerde fout.
Over het algemeen is een model met X en Y het beste om Y te voorspellen, behalve voor individuen
met scores op y die dicht bij het gemiddelde van y liggen.
Om te beoordelen hoe goed een geschat regressiemodel is (dus hoe groot de voorspellingsfouten
zijn) moeten de voorspellingsfouten en de gekwadrateerde fouten voor elke individu in de dataset
worden uitgevoerd. Alle gekwadrateerde fouten worden vervolgens bij elkaar opgeteld. In de ANOVA
tabel is deze optelsom van gekwadrateerde fouten te vinden bij de Sum of Squares. Een aantal rijen
zijn hierin van belang:
Total Sum of Squares (TSS): de kwadratensom die hoort bij de voorspelings- en
gekwadrateerde fout wanneer X niet in het model wordt meegenomen (berekening:
(optelsom van alle waarden in de dataset van y – het gemiddelde van y)²). Dit geeft de
variabiliteit (variatie) in de marginale verdeling van y;
Residual Sum of Squares of Sum of Squares Error (SSE): de kwadratensom die hoort bij de
voorspellings- en gekwadrateerde fout wanneer X wel in het model wordt meegenomen
(berekening zoals bovenstaand beschreven voor elke individu in de dataset). Dit geeft de
variabiliteit in de conditionele verdeling Y gegeven X, dus wat er aan variabiliteit overblijft als
X eruit wordt gehaald.
Wanneer je de waarden voor TSS en SSE hebt, kun je de determinatiecoëfficiënt (r²) berekenen door
TSS – SSE / TSS te doen. Dit is dezelfde waarde als R Square in de Model Summary. Als je vervolgens
de gewone R wilt uitrekenen, dan doe je √r².