H7 -Correlatie
7.2 Modelling relationship: Ook bij een correlatie analyse begin je met het maken van scatterplots.
Als aan de assumpties is voldaan, kunnen we beginnen.
Uitkomsti = (model) + errori
Uitkomsti (bXi) + errori
Als er maar 1 predictor variabele in het model zit, dan is b de Pearson product-moment correlatie
coëfficiënt r.
7.2.1 Covariance
De simpelste manier om te kijken of 2 variabelen geassocieerd zijn is om te kijken of ze covarieren.
Dan moeten we eerst even opfrissen wat variantie is.
Variantie (s2) = ∑(xi- x́ )2 / N-1
Als twee variabelen gerelateerd zijn, dan verwachten we dat veranderingen in de ene variabele
gepaard gaat met gelijke veranderingen in de andere variabelen. Bv als de ene onder het gemiddelde
scoort, verwacht je dat ook bij de andere variabele.
Als je 2 variabelen hebt, vermenigvuldig je de deviatie van de ene variabele met die van de andere
cross-product deviations. Als we hiervan een gemiddelde hebben, delen we door het aantal
observaties (N-1). Deze gemiddelde som van gecombineerde deviaties is de covariantie.
Covariantie (x,y) = ∑ (xi- x́ ) (yi- ý ) / N-1
Dus stel dat de deviaties van x zijn: -0.4; -1.4; -1.4; 0.6; 2.6
Stel dat de deviaties van y zijn: -3;-2;-1;2;4
Dan is de covariantie: (-0.4)(-3)+(-1.4)(-2)+(-1.4)(-1)+(0.6)(2)+(2.6)(4) / 4
Covariantie is een goede manier om te beoordelen of 2 variabelen gerelateerd zijn. Een positieve
covariantie geeft aan dat als 1 variabele afwijkt van het gemiddelde, de ander dat in dezelfde richting
doet. Een negatieve covariantie geeft aan dat als 1 variabele afwijkt van het gemiddelde(toeneemt),
de andere variabele afwijkt in de tegengestelde richting(afneemt). Echter is de covariantie afhankelijk
van de gebruikte meetschaal: het is geen gestandaardiseerde meting. Dit is een probleem omdat
we zo geen covarianties kunnen vergelijken, dus we kunnen niet zeggen of het groot of klein is.
7.2.2 Standardization and the correlation coëfficiënt: Om het probleem te overwinnen van
afhankelijkheid van de meetschaal bij covariantie, moeten we de covariantie in standaard units
omzetten. Dit heet standaardisatie. We gebruiken meestal de SD hiervoor. Hieruit volgt logisch dat
als we de covariantie delen door de SD, we een standaard unit van meting hebben. Er zijn echter 2
variabelen en dus 2 SDs. Bij de covariantie vermenigvuldigen we 2 deviaties. Dus bij de SDs doen we
hetzelfde: we vermenigvuldigen beide SDs en delen de covariantie hierdoor.
De gestandaardiseerde covariantie heet ook wel de correlatie coëfficiënt.
r = covxy / sxsy = ∑ (xi- x́ ) (yi- ý ) / (N-1) sxsy
De correlatie coëfficiënt r staat bekend als de Pearson product moment correlatie of Pearson's
,correlatie coëfficiënt. Omdat het gestandaardiseerd is, wordt het vaak gebruikt als meting van effect
size, waarbij .1 een klein effect is, .3 een medium effect en .5 een groot effect.
Er zijn 2 typen correlatie. Zojuist hebben we de bivariate correlatie beschreven dit is een correlatie
tussen 2 variabelen. Je kan ook de partial correlatie berekenen, wat de relatie is tussen 2 variabelen
terwijl je controleert voor het effect van 1 of meer extra variabelen.
7.2.3 The significance of the correlation coëfficiënt: We kunnen de hypothese testen of een correlatie
verschilt van nul. Er zijn 2 manieren om dit te testen. De eerste is om z-scores te gebruiken. Er is 1
probleem met Pearson's r en dat is dat we een sampling verdeling hebben die niet normaal verdeeld
is. We kunnen gelukkig r zo aanpassen dat de verdeling normaal is.
zr= 1/2 loge (1+r/1-r)
De resulterende z heeft een SE van:
SEz = 1/wortel N-3 (wortel over heel N-3).
Vervolgens de kritische z:
z = zr / SEzr deze zoek je op in de tabel met de bijbehorende kans (en deel je door 2 voor
tweezijdig). Dan kun je zien of deze kleiner of groter is dan alfa.
De hypothese of z significant van nul afwijkt wordt echter meestal niet op deze manier uitgevoerd.
Vaak wordt het getest door middel van een t-statistic met N-2 als df.
t = r wortel N-2 / wortel 1-r2
7.2.4 Confidence intervals for r:
Ondergrens BI = zr - (1.96 X SEr)
Bovengrens BI = zr + (1.96 X SEr)
We kunnen de warden terugkrijgen naar een correlatie door middel van:
r = e2zr -1 / e2zr +1, wat je dan een ondergrens en bovengrens kan geven voor de r. SPSS maakt zo'n
interval niet, maar het berekent wel een bootstrap interval. Dit is een interval dat verkregen is van de
werkelijke data en dus nauwkeurig zal zijn, zelfs als de verdeling van r niet normaal is.
Tips:
- Een ruwe meting van de relatie tussen variabelen is de covariantie
- Als we deze waarde standaardiseren krijgen we Pearson's r
- De correlatie coëfficiënt moet tussen -1 en +1 liggen
- Een coëfficiënt van +1 duidt op een perfecte positieve relatie, en die van -1 op een perfecte
negatieve relatie; die van 0 duidt op geen lineaire relatie
- De correlatie coëfficiënt is een gangbare meting van effect size: 0.1 is klein, 0.3 is medium, en 0.5 is
groot.
7.2.5 Waarschuwing over de interpretatie: causaliteit: De coëfficiënten geven geen indicatie van de
richting of causaliteit. Twee problemen:
- Derde variabele probleem / tertium quid Er kunnen andere variabelen zijn die invloed hebben
op de relatie.
, - Richting/ causaliteit De coëfficiënten zeggen niets over welke variabele welke verandert. Ook al
kun je op intuitie zeggen dat de 1 de ander veroorzaakt, klopt dit statistisch niet.
7.3 Data entry voor correlatie analyse SPSS:
Elke variabele gaat in SPSS in een aparte kolom.
7.4 Bivariate correlatie: Allereerst check in je in SPSS of aan de assumpties van bias voldaan is. De
meest belangrijke zijn lineariteit en normaliteit. Zowel uitkomst als predictor moeten interval schaal zijn
om hieraan te voldoen. Om normaliteit geven we alleen als we een BI of significance test willen doen
en als het sample erg klein is. Als de data outliers hebben of niet normaal zijn, kun je een versie van
de correlatie coëfficiënt gebruiken die werkt met ranked data, zoals spearman;s rho en Kendall's
tau. De impact van outliers wordt dan namelijk door ranken verminderd. De verdeling maakt niet uit
als je bootstrapt, want dan krijg je een bootstrap BI.
Voor normaliteit en lineariteit check grafieken(scatterplots, P-P of Q-Q plots, histogram).
Als aan de assumpties is voldaan en geen bias Pearson r
Als er geen normaliteit is of er outliers zijn Bootstrap BI, Spearman r, Kendall's tau.
Bij de P-P plots is er skew als de punten redelijk afwijken van de diagonale lijn. Dit vormt een
probleem voor BI en significantie tests, dus doe een bootstrap functie. We hebben 103 observaties
dus volgens de central limit theorem zou dit voldoende moeten zijn om normaliteit aan te nemen.
Algemene procedure voor correlaties in SPSS:
AnalyzeCorrelateBivariate. Hij staat automatisch op Pearson, maar je kunt hem ook op Spearman
en Kendall zetten. Je krijgt een correlatie matrix. In opties kan je gebruik maken van de mean en SDs
en van Cross-product deviaties en covarianties. Je kan ook omgaan met missende waardes in SPSS.
Tenslotte kan je de optie bootstrap kiezen.
Pearson's correlatie coëfficiënt:
In SPSS Je vindt een matrix met correlaties. Daaronder staat de significantie van de correlatie en de
sample size. Als er geen normaliteit is, dan moet je niet zoveel naar significantie kijken maar naar het
bootstrap BI. Dit interval is niet beïnvloed door de verdeling van scores, maar significantie waarden
misschien wel. Je kan bv vinden dat de nul in het interval ligt H0 kun je dan niet met zekerheid
verwerpen. Ook kan de ondergrens bv negatief zijn en de bovengrens positief; dan weten we dus niet
zeker wat de richting van het effect is.
R2 voor de interpretatie gebruiken: Ook al hebben we geen causaliteit, dan kunnen we alsnog een
meting hebben van de hoeveelheid verklaarde variantie. Handig om het in een percentage te zetten.
Spearman's correlatie coëfficiënt: Ook wel rs is een non-parametrische statistiek gebaseerd op
ranked data. Het kan handig zijn om de effecten van extreme scores te verkleinen of voor violations
van assumpties. Soms wordt het Spearman's rho genoemd. Het rankt dus eerst de data en voert dan
een formule erop uit. Zo kun je bv positie in de competitie als ordinale variabele hebben. Pearson mag
hierbij niet omdat het interval of ratio data moet bevatten. De andere variabele is creativiteit met een
maximum score van 60. Elke categorie van positie in de competitie is gecodeerd met een numerieke
waarde; eerste plaats is bv 1 etc. Het enige verschil is verder dat je in SPSS 'spearman' aanvinkt. Net
als bij Pearson kun je een bootstrap interval gebruiken. Als output krijg je ook een matrix.
Kendall's tau (non-parametrisch): Kendall's tau, ῑ, is een andere non-parametrische correlatie en
moet gebruikt worden in plaats van Spearman als je een kleine data set hebt met een groot aantal
tied(gelijke) ranks. Dat betekent dat als je alle scores een rangorde geeft, en veel scores dezelfde
rank hebben, dat je dan Kendall's tau gebruikt. Deze is nauwkeuriger qua wat de correlatie in de
populatie zal zijn dan Spearman. Je selecteert in SPSS Kendall's tau en je krijgt dan ongeveer gelijke