STATISTIEK
Les 1 – 16/11
HOOFDSTUK CORRELATIE
Definitie
• Correlatie = correlatie- of associatiematen geven de samenhang weer tussen 2
variabelen.
o De steekproefstatistiek/populatieparameter die de samenhang uitdrukt, is
afhankelijk van het meetniveau.
o “Correlatiematen” → vnl. bij data op interval/ratio en ordinaal niveau.
o “Associatiematen” → vnl. bij data op nominaal niveau.
Wij focussen ons vooral op correlatiematen op interval/ratio niveau, de covariantie en de
correlatiecoëfficiënt van Pearson.
Bivariate correlatie
• Bivariate correlatie = de gekoppelde (gepaarde) uitkomsten van 2 variabelen.
o Bv. lichaamsgewicht en lichaamslengte, gemeten bij dezelfde PP.
Scatterplot
Bij een scatterplot, puntenwolk of spreidingsdiagram visualiseert men de geordende
paren (xi en yi) data op interval- of ratio niveau.
• Biedt de onderzoeker een grafisch overzicht van een mogelijk verband.
• Geeft een impressie van…
o De aard (lineair, niet-lineair).
o De richting (positief, negatief).
o De globale sterkte (hoe breder de scatterwolk, hoe minder
samenhang).
Covariantie (cxy)
Definitie
• Covariantie (cxy) = parameter die weergeeft in welke mate de beide variabelen met
elkaar samenhangen.
o n = aantal gepaarde data (xi en yi).
o Nadeel = de covariantie geeft de richting weer van het verband, maar
aangezien cxy afhankelijk is van de meetschaal (eenheid), kan uit deze maat
de sterkte niet geëvalueerd worden.
Voorbeeld:
Je hebt een scatterplot met op de x-as het lichaamsgewicht (in kg) en op de y-as de
lichaamslengte (in cm). Als je de lichaamslengte nu in meter in plaats van in centimeter zou
uitdrukken, dan worden alle (y - ) 100x kleiner, en dus de covariantie ook.
De covariantie is dus afhankelijk van de meetschaal.
1
,Pearson’s correlatiecoëfficiënt (r)
Hoe kunnen we deze covariantie schaalonafhankelijk maken?
De covariantie kan schaalonafhankelijk gemaakt worden door (x - x̄) en (y - ) te delen door
de respectievelijke standaarddeviaties sx en sy.
• Dit noemen we de Pearson’s correlatiecoëfficiënt.
o Wordt ook Pearson’s product-moment correlatiecoëfficiënt genoemd.
• Pearson’s correlatiecoëfficiënt (r) = de statistiek (op steekproefniveau) die de
lineaire samenhang uitdrukt tussen 2 variabelen x en y op interval/ratio niveau.
o Is gebaseerd op de covariantie.
o Kan buiten de richting ook de sterkte van het verband aantonen.
o Correlatieprocedure kan worden toegepast bij groot aantal categorieën op
ordinaal dataniveau (bv. Likertschaal).
o Kan variëren in waarde tussen -1 en +1.
▪ 0 = geen samenhang.
• Bv. bij een non-lineair verband!
▪ -1 = perfect negatieve samenhang.
▪ +1 = perfect positieve samenhang.
De basisformule van hierboven kan omgevormd worden tot…
Outliers
De Pearson’s r wordt sterk beïnvloed door outliers (= uitschieters).
Data-transformatie
Als we te maken hebben met non-lineaire verbanden, dan kunnen we via data-
transformatie van 1 van de variabelen ervoor zorgen dat het wel een lineair verband wordt.
• Bv. via een logaritmische transformatie.
2
, Populatieparameter (ρ)
We weten nu al dat de Pearson’s rxy de steekproefstatistiek is.
De ρ (rho) is de populatieparameter voor de Pearson’s correlatiecoëfficiënt.
• Sampling distributie voor r rond ρ = niet normaal verdeeld.
Voorbeeld:
Niet normaal verdeeld.
Nulhypothese H0 : ρ = 0
Het testen van de nulhypothese H0 : ρ = 0 gebeurt op basis van t-testing.
De t-score hierbij is gekoppeld aan een t-distributie met n – 2 vrijheidsgraden.
Voorbeeld:
Gegeven: een steekproef met n = 6 en met steekproefstatistiek r = 0,897 (Pearson),
H0 : ρ = 0, H1 : ρ ≠ 0 en α = 0,05.
De t-score kunnen we berekenen via de formule, deze is…
6−2
0,897 .√ = 3,686.
1−0,879²
a) Berekening met de p-waarde van de t-testscore.
Niet kennen, excursus.
b) Berekening van de kritische t-waarde.
Deze methode ken je uit de eerdere HOC van T. Deliens.
De kritische t-score bij df = 4 en α = 0,05 (2 zijdig) is tcrit = ± 2,776 (~2,78).
De t-testscore (3,686) is groter dan de kritische t-score (2,776).
Op basis van deze steekproef kunnen we H0 verwerpen.
Determinatiecoëfficiënt (r²)
• Determinatiecoëfficiënt (r²) = geeft de variantie weer die de 2 variabelen met elkaar
gemeenschappelijk hebben.
o Is belangrijker dan de Pearson’s r.
o Is een maat van voorspelbaarheid (predictability) van de ene uit de andere
variabele.
Voorbeeld:
De Pearson’s r tussen ‘height’ en ‘weight’ gerelateerd aan de scatterwolk is r = 0,81. De
determinatiecoëfficiënt r² is gelijk aan 0,81² = 0,6561 (~0,65).
Dit geeft weer dat de lichaamslengte 65% van de variantie van het lichaamsgewicht
verklaart. De rest (35%) wordt gedragen door andere factoren (voeding, lichaamstype, …).
3