Week 1: Regressieanalyse
Met behulp van een lineaire relatie kan de relatie tussen twee intervalvariabelen worden
samengevat. De pearson correlatie geeft de sterkte en de richting van de lineaire relatie weer.
➢ SPSS: Analyze > Correlate > Bivariate.
Wanneer je de correlatie kwadrateert, krijg je de gemeenschappelijke variantie tussen variabelen.
Bij een hoge 𝑅 2 liggen de punten allemaal dicht bij regressielijn. Er is dan een hoge correlatie tussen
de variabelen (veel verklaarde variantie). Bij een lage 𝑅 2 liggen de punten verder weg van
regressielijn. Er is dan een lage correlatie tussen de variabelen (minder verklaarde variantie).
➢ SPSS: Analyze > Regression > Lineair, kijk naar de ‘Model Summary’-tabel
Een lineaire relatie kan worden uitgedrukt in termen van een regressievergelijking: score op
afhankelijke variabele = 𝑏0 + 𝑏1 * score op onafhankelijke variabele, waarbij 𝑏0 de intercept-waarde
weergeeft en 𝑏1 staat voor de helling. De waarden van 𝑏0 en 𝑏1 vind je in de coëfficiëntentabel.
➢ SPSS: Analyze > Regression > Lineair, kijk naar de Coëfficiëntentabel
Met behulp van een enkelvoudige regressieanalyse kun je onderzoeken of de afhankelijke variabele
door de onafhankelijke variabele kan worden voorspeld. Je voert een t-toets uit met H0: β1 = 0
(helling/regressiecoëfficiënt = 0 in de populatie, geen correlatie tussen beide variabelen). De Sig in de
coëfficiëntentabel geeft de kans dat H0 waar is. Wanneer Sig ≤ 0.05 is het effect significant (je kunt
met meer dan 95% zekerheid zeggen dat de Ha waar is) en kun je stellen dat de onafhankelijke
variabele zeer waarschijnlijk een voorspeller is van de afhankelijke variabele: er is waarschijnlijk een
verband tussen beide variabelen in de populatie.
➢ SPSS: Analyze > Regression > Lineair, kijk naar de ANOVA-tabel
Om door middel van lineaire regressie tot een goede schatting van de regressiecoëfficiënten te
komen, moet de data aan enkele voorwaarden (assumpties) voldoen:
1. de relatie tussen y en x is lineair (wanneer voor iedere voorspelde waarde (van links naar
rechts) het gemiddelde van de residuen ongeveer rond de lijn y = 0 lijkt te liggen, is er weinig
reden om te veronderstellen dat lineariteit niet opgaat in de populatie)
➢ SPSS: Graphs > Legacy Dialogs > Scatter/Dot
geen lineaire relatie? kwadratische term toevoegen aan het regressiemodel
2. de residuen zijn normaal verdeeld met een gemiddelde van 0 (wanneer de residuen er
redelijk normaal verdeeld uit zien, is er geen reden om aan te nemen dat dit voor de
populatie niet zo is)
➢ SPSS: Graphs > Legacy Dialogs > Histogram
de variantie van de residuen is constant voor alle combinaties van waarden voorspellers
(homoscedasticiteit),
➢ SPSS: Graphs > Legacy Dialogs > Scatter/Dot
bij heteroscedasticiteit doe je een regressieanalyse met weighted least squares
3. de residuen zijn onafhankelijk (scores van participanten zijn onafhankelijk)
Als assumpties niet lijken op te gaan beïnvloedt dat namelijk de standaardfouten van coëfficiënten
en daardoor ook de waarde van statistieken (F-waarde, t-waarde) en de p-waarden. Dit beïnvloedt
het wel of niet hebben van een significant effect waardoor je mogelijk verkeerde conclusies trekt.
Daarom moet je bij vermoedens dat de regressieassumpties niet helemaal opgaan, minder stellig zijn
met het trekken van conclusies.
Bij lichte tot gemiddelde schendingen van de assumpties (p < 0.001) betekent dat nog steeds dat er
waarschijnlijk een populatie-effect is. P-waardes rondom 0.05 kunnen leiden tot een Type I fout.
,Uitbijters zijn datapunten met afwijkende waarden die ervoor zorgen dat de regressielijn niet goed
wordt geschat. Oplossing: analyse met en zonder uitbijters en eventueel een punt weglaten. De
invloed van een uitbijter op regressieanalyse kan uitgedrukt worden in een getal:
− Cook’s distance (Cook, 1977), wanneer groter dan 4/N is er iets aan de hand
− Gest. DfFit (Belsey et al., 1980), wanneer > 1 of < -1 is er iets aan de hand
Wanneer er sprake is van 2 groepen, doe je twee aparte regressieanalyses: één voor iedere groep.
Voorbeeldvraag
➢ SPSS: Analyze > Regression > Lineair
Onderzoek naar schoolprestatie: N = 234 (groep 8ers).
Onderzoeksvraag: kan rapportcijfer worden voorspeld door motivatie, discipline en interesse?
De onderzoeksvraag is te beantwoorden met behulp
van een ANOVA-tabel en een F-toets. →
Hypotheses bij F-toets:
H0: alle populatie regressiecoëfficiënten van voorspellers zijn gelijk aan nul (H0: 𝑅 2 = 0)
Ha: minstens één populatie regressiecoëfficiënt is ongelijk aan nul (Ha: 𝑅 2 > 0)
Hier: p < 0.001 dus p < 0.05 dus er is sprake van een significant effect. De nulhypothese kan worden
verworpen α = 5% niveau. Dat betekent:
- zeer waarschijnlijk 𝑅 2 > 0 in de populatie
- zeer waarschijnlijk is er een relatie tussen rapportcijfer en de voorspellers
- zeer waarschijnlijk kan het rapportcijfer voorspeld worden door de variabelen
Determinatiecoëfficiënt (te vinden in Model Summary-table): 𝑅 2 = 188/313 = 0.601,
60% variantie van rapportcijfer wordt dus verklaard door motivatie, discipline en interesse.
Vanuit bovenstaande coëfficiëntentabel kun je de B-waardes (regressiecoëfficiënten) in de
regressievergelijking invullen: cijfer = 2.8 + 0.18pres + 0.11disc + 0.043int_kind + 0.028int_oud
Beta (gestandaardiseerde coëfficiënten) laat zien wat de belangrijkste voorspellers zijn. Hier:
prestatiemotivatie en zelfdiscipline. Gestandaardiseerde regressievergelijking: cijfer = 0.42pres +
0.36disc + 0.13int_kind + 0.088int_oud. De beta coëfficiënt is gelijk aan de correlatie.
Iedere voorspeller heeft een bijbehorende t- toets. H0: βi = 0
Interesse ouders (p = 0.054) is niet significant en waarschijnlijk geen goede voorspeller. De rest wel.
, Week 2: Multivariate relaties
Omdat soms niet bekend is hoe de populatie eruit ziet, worden steekproeven gebruikt. De statistiek
(bijv. 𝑦̅𝑝 ) uit de steekproef zegt iets over de verwachte parameter (bijv. p) uit de populatie.
Beschrijvende statistiek omvat alle statistieken waarmee je de steekproef (data) samenvat:
• beschrijvende maten: gemiddelde, SD, mediaan, minimum, maximum, IQR
• grafische weergaven: histogram, boxplot, spreidingsdiagram, QQ-plot, etc.
Inferentiële statistiek gebruik je om kansuitspraken te doen over populatie. Dit kan op 2 manieren:
1. toetsen van hypotheses
2. betrouwbaarheidsintervallen
Een toets is een methode om na te gaan of een bepaalde veronderstelling (de nulhypothese)
verworpen of geaccepteerd dient te worden. Bijv. H0: = 0 versus Ha: ≠ 0
De p-waarde geeft aan hoe uitzonderlijk en hoe betrouwbaar een resultaat is. Hoe kleiner de p-
waarde, des te sterker het bewijs tegen de nulhypothese. Wanneer p < is er sprake van een
significant effect, er is dan waarschijnlijk een populatie-effect. Wanneer p > is er geen sprake van
een significant bewijs, er is dan niet voldoende bewijs om nulhypothese te verwerpen.
Een betrouwbaarheidsinterval (BHI) is een intervalschatting voor een parameter. In dit interval
vallen betrouwbare schattingen van de parameter. Voor een betrouwbaarheidsinterval met 95%
zekerheid (C=95) valt de schatting van de parameter binnen twee standaardfouten van het
gemiddelde.
• Betrouwbaarheidsinterval = puntschatting ± foutenmarge (margin of error).
• Foutenmarge = kritieke waarde * standaardfout (bijv. 1.96 * SE)
• Voorbeeld: 𝑦̅ ± 1.96∗SE
Welk statistisch model je gebruikt, hangt af van:
1. het type onderzoeksvraag (meet je groepsverschillen of samenhang (voorspellen)?)
2. het aantal onafhankelijke variabelen
3. het meetniveau van de variabelen