Discovering statistics using IBM SPSS statistics – Andy Field
CHAPTER 8: CORRELATION
8.2 Modelling relationships
Voor een correlatie analyse beginnen we met grafisch kijken naar onze data d.m.v. scatterplots. Hoe je
die kan maken vindt je in paragraaf 5.8 (niet in deze samenvatting).
Wanneer er aan de assumpties wordt voldaan, kunnen we het general linear model gebruiken, wat een
heel veelzijdig en simpel model is wat we eerder gezien hebben.
Het wordt samengevat in de volgende vergelijking:
Samenvattend betekent deze vergelijking dat de data die we observeren voorspelt kan worden vanuit
het model dat we kiezen om toe te passen op de data, plus wat error in de voorspelling.
Als we een relatie tussen variabelen willen bekijken in ons model, dan proberen we dus een uitkomst
variabele te voorspellen met een voorspellende variabele.
Zoals we weten ziet die vergelijking er zo uit:
Deze vergelijking betekent dat ‘de uitkomst voor een entiteit is voorspeld vanuit de score op de
voorspellende variabele, plus error’.
Als we werken met gestandaardiseerde scores zoals z-scores dan hebben zowel de voorspeller als de
uitkomst variabele een gemiddelde van 0, dus dan weten we al de gemiddelde waarde van de uitkomst
wanneer de voorspeller niet in het model staat, namelijk 0. Het
intercept (uitgelegd in H9) wordt dus uit de vergelijking gehaald.
Deze vergelijking betekent dat de uitkomst (in z-scores) voorspelt kan worden vanuit de voorspellende
variabele (ook een z-score) vermenigvuldigd met b1. Wanneer je werkt met gestandaardiseerde scores
zoals deze, dan wordt b1 ook wel het Pearson product-moment correlation coefficient genoemd. En
als we dit model benoemen buiten de vergelijking om, wordt het geschreven als r. De waarde van r
kwantificeert de sterkte en richting van de relatie tussen de voorspeller en de uitkomst.
8.2.1. A detour into the murky world of covariance
De simpelste manier om te kijken of twee variabelen geassocieerd zijn is om te kijken of ze
covariëren. Weet je nog, de variantie van een enkele variabele representeert de gemiddelde
hoeveelheid dat de data verschilt van het gemiddelde. Als twee variabelen geassocieerd zijn met
elkaar, dan is de verwachting dat wanneer de ene variabele verandert, de ander ook zal veranderen. Als
één variabele afwijkt van zijn gemiddelde, dan zou de andere variabele op dezelfde manier moeten
afwijken van het eigen gemiddelde.
Hoe berekenen we de associatie tussen de patronen van residuen van twee variabelen? Wanneer er
twee variabelen zijn, in plaats van dat we elke afwijking kwadrateren, vermenigvuldigen we de
afwijking op de ene variabele met de bijbehorende afwijking op de andere variabele, dit heet de cross-
product deviation. Als beide afwijkingen positief zijn of negatief zijn, dan geeft dit ons een positieve
waarde, wat aangeeft dat de afwijkingen beide dezelfde kant op bewegen. Als één van de twee
tegenovergesteld is van de ander, krijgen we een negatieve waarde. De
som van de gemiddelde samengevoegde afwijkingen is de covariantie.
, Een positieve covariantie betekent dat als een variabele afwijkt van het gemiddelde, de andere
variabele in dezelfde richting afwijkt van het gemiddelde. Een negatieve covariantie betekent dat de
variabelen in tegengestelde richting afwijking van hun gemiddeldes. Let op, de covariantie is geen
gestandaardiseerde meting, het hangt namelijk af van het meetniveau dat is gebruikt. Dit is een
probleem omdat verschillende covarianties dus niet vergeleken kunnen worden met elkaar op een
objectieve manier.
8.2.2 Standardization and the correlation coefficient
Om dit probleem op te lossen moeten we de covariantie converteren naar een standaard set units,
standaardiseren. We hebben een meet eenheid nodig die we kunnen gebruiken om elke variabele te
converteren, en normaal gebruiken we daarvoor de standaarddeviatie.
Logischerwijs kunnen we dus de covariantie delen door de standaarddeviatie om zo een standaard
meeteenheid te berekenen. Maar, er zijn twee standaarddeviaties, want er zijn twee variabelen. We
vermenigvuldigen dus de standaarddeviaties en delen daarna de
covariantie hierdoor. De gestandaardiseerde covariantie noemen
we de correlatie coëfficiënt. Sx is hier de standaarddeviatie van
de ene variabele en Sy van de andere variabele. Door te standaardiseren krijgen we een waarde van -1
tot +1. Zelfs een waarde van +1 betekent echter niet dat de ene variabele de oorzaak is van de
verandering in de andere variabele, het betekent alleen dat de veranderingen met elkaar verbonden
zijn. Een waarde van 0 betekent dat er helemaal geen lineaire relatie is tussen de twee variabelen.
Waarden van +0.1 geven een klein effect aan, +0.3 een medium effect en +0.5 een groot effect.
Wat hierboven beschreven is, is een bivariate correlation, een correlatie tussen twee variabelen.
8.2.3 The significance of the correlation coefficient
In het geval van de correlatie coëfficiënt kunnen we de hypothese testen dat de correlatie ‘anders is
dan 0’. Als we er achter komen dat onze geobserveerde data een kleine kans heeft om (minstens) zo
groot te zijn als er geen effect zou zijn in de populatie, dan krijgen we wat meer vertrouwen dat de
relatie die we hebben geobserveerd statistisch betekenisvol is.
Er zijn twee manieren waarop we deze hypothese (er is geen relatie) kunnen testen. De eerste manier
is d.m.v. z-scores. Het lastige hieraan is, dat Pearsons r geen normaal verdeling heeft, maar we kunnen
r aanpassen op zo’n manier dat de steekproef verdeling wel normaal verdeeld is. Hier
hoort ook een anders berekende standaard error (SE) bij. Zodra je
dit omgerekend hebt, kan je de nieuwe r omrekenen naar een z-
score op de normale manier. De z-score die hieruit komt kan je
opzoeken in de tabel om te kijken of deze significant is onder de alfa die je wilt.
Let op! Correlatie zegt niets over causaliteit. Het zegt enkel iets over de verschillen tussen scores voor
de ene variabele en diens gemiddelde, corresponderen met verschillen tussen scores voor de andere
variabele en diens gemiddelde. Het zou namelijk ook nog kunnen zijn dat er andere variabelen die je
niet gemeten hebt invloed hebben op de variabele die je wel gemeten hebt.
Deze hypothese wordt overigens meestal met een t-statistiek getest i.p.v. een
z-score (sowieso in SPSS). Deze t-statistiek kan direct van r afgeleid worden.