Practicum week 5
Correlatie en Regressie
De leesstof van deze
Syllabus hoofdstuk 3
week is:
Correlatie en Regressie
De doelen/onderwerpen van vandaag
Interpretatie van spreidingsdiagrammen en correlatie
Maken van spreidingsdiagrammen en berekenen van correlatie m.b.v. SPSS
Het uitvoeren van een kleinste kwadratenregressie m.b.v. SPSS
Het interpreteren van de resultaten van een regressieanalyse
Spreidingsdiagrammen en correlatie
Opdracht 5-1. Anscombe’s data
De statisticus Frank Anscombe (1973) maakte een dataset om verschillende vormen van
samenhang tussen scores op twee variabelen te kunnen illustreren.
Data file: Anscombe.sav
1. Maak m.b.v. SPSS voor ieder hieronder gevraagde variabelenpaar een
spreidingsdiagram (=scatterplot). Schets je gevonden spreidingsdiagrammen in
onderstaande hokjes en schat de correlatie (r). (Tip: Graphs ► Legacy dialogs ►
Scatterplot.
y1 & x123 A y2 & x123 B
, Schatting van r = 0.75 Schatting van r = 0.90
y3 & x123 C y4 & x4 D
Schatting van r = 0.85 Schatting van r = 0.05
2. Bereken m.b.v. SPSS de correlatie tussen bovenstaande paren variabelen, en voeg
de regressielijn toe. Dubbel klik op de grafiek ► Elements ► Fit line at total). Noteer
het resultaat. (Tip: Analyze ► Correlate ► Bivariate)
Bij nummer 1: r=0.816
Bij nummer 2: r=0.816
Bij nummer 3: r=0.816
Bij nummer 4: r=0.817
, 3. Klopten je schattingen van de correlaties? Als ze niet klopten, welke kenmerken van
de spreidingsdiagrammen hebben je dan op het verkeerde been gezet?
Bij de eerste 3 klopten mijn schattingen wel redelijk goed, de laatste schatting is fout,
hierdoor ben ik denk ik op het verkeerde been gezet doordat alle stipjes heel dicht bij
elkaar zaten en één stipje totaal niet.
4. a. Is de correlatie een geschikte samenvattingsmaat om iedere soort van samenhang
weer te geven tussen twee variabelen?
Nee, want het geeft geen goed beeld van de samenhang, outliers hebben veel
invloed op de uitkomst. Je kunt ook niet zien om wat voor soort verband het
gaat met de correlatie.
b. Geef per variabelen paar uit opgave 1 aan of de correlatie een geschikte maat is.
A: Ja, want er is hier sprake van een lineair verband
B: Nee, want ik denk dat de echte correlatie wel sterker zal zijn dan 0.816, dus dan is
de correlatie geen handige manier voor deze variabelen.
C: Ja, want er is hier sprake van een lineair verband.
D: Ja, want er is hier sprake van een lineair verband.
Wat de experts zeggen …
"Start with graphical display, then add numerical summaries."
(Moore, McCabe & Craig, 1999, p.106)
5. Ben je het eens met Moore, McCabe & Craig? Wat is de belangrijke les van
Anscombe's data?
Ja, ik ben het hier mee eens. Wanneer je eerst het grafische overzicht hebt weet je al
een beetje iets over de positie van alle stipjes, over outliers en of er een lineair
verband is. Dan kun je daarna met deze informatie berekeningen doen.
Dit kun je ook zien in Anscombe’s data, bij bijvoorbeeld B kun je meteen al zien dat
er geen sprake is van een lineair verband, dit is wel handig om te weten voordat je
berekeningen gaat doen.
Correlatie en Regressie
De leesstof van deze
Syllabus hoofdstuk 3
week is:
Correlatie en Regressie
De doelen/onderwerpen van vandaag
Interpretatie van spreidingsdiagrammen en correlatie
Maken van spreidingsdiagrammen en berekenen van correlatie m.b.v. SPSS
Het uitvoeren van een kleinste kwadratenregressie m.b.v. SPSS
Het interpreteren van de resultaten van een regressieanalyse
Spreidingsdiagrammen en correlatie
Opdracht 5-1. Anscombe’s data
De statisticus Frank Anscombe (1973) maakte een dataset om verschillende vormen van
samenhang tussen scores op twee variabelen te kunnen illustreren.
Data file: Anscombe.sav
1. Maak m.b.v. SPSS voor ieder hieronder gevraagde variabelenpaar een
spreidingsdiagram (=scatterplot). Schets je gevonden spreidingsdiagrammen in
onderstaande hokjes en schat de correlatie (r). (Tip: Graphs ► Legacy dialogs ►
Scatterplot.
y1 & x123 A y2 & x123 B
, Schatting van r = 0.75 Schatting van r = 0.90
y3 & x123 C y4 & x4 D
Schatting van r = 0.85 Schatting van r = 0.05
2. Bereken m.b.v. SPSS de correlatie tussen bovenstaande paren variabelen, en voeg
de regressielijn toe. Dubbel klik op de grafiek ► Elements ► Fit line at total). Noteer
het resultaat. (Tip: Analyze ► Correlate ► Bivariate)
Bij nummer 1: r=0.816
Bij nummer 2: r=0.816
Bij nummer 3: r=0.816
Bij nummer 4: r=0.817
, 3. Klopten je schattingen van de correlaties? Als ze niet klopten, welke kenmerken van
de spreidingsdiagrammen hebben je dan op het verkeerde been gezet?
Bij de eerste 3 klopten mijn schattingen wel redelijk goed, de laatste schatting is fout,
hierdoor ben ik denk ik op het verkeerde been gezet doordat alle stipjes heel dicht bij
elkaar zaten en één stipje totaal niet.
4. a. Is de correlatie een geschikte samenvattingsmaat om iedere soort van samenhang
weer te geven tussen twee variabelen?
Nee, want het geeft geen goed beeld van de samenhang, outliers hebben veel
invloed op de uitkomst. Je kunt ook niet zien om wat voor soort verband het
gaat met de correlatie.
b. Geef per variabelen paar uit opgave 1 aan of de correlatie een geschikte maat is.
A: Ja, want er is hier sprake van een lineair verband
B: Nee, want ik denk dat de echte correlatie wel sterker zal zijn dan 0.816, dus dan is
de correlatie geen handige manier voor deze variabelen.
C: Ja, want er is hier sprake van een lineair verband.
D: Ja, want er is hier sprake van een lineair verband.
Wat de experts zeggen …
"Start with graphical display, then add numerical summaries."
(Moore, McCabe & Craig, 1999, p.106)
5. Ben je het eens met Moore, McCabe & Craig? Wat is de belangrijke les van
Anscombe's data?
Ja, ik ben het hier mee eens. Wanneer je eerst het grafische overzicht hebt weet je al
een beetje iets over de positie van alle stipjes, over outliers en of er een lineair
verband is. Dan kun je daarna met deze informatie berekeningen doen.
Dit kun je ook zien in Anscombe’s data, bij bijvoorbeeld B kun je meteen al zien dat
er geen sprake is van een lineair verband, dit is wel handig om te weten voordat je
berekeningen gaat doen.