Werkgroepen Statistiek B
Week 2
WG1: Theorie van HC1
Toelichting
Voorafgaand aan deze werkgroep maakt de student de opgaven. Dit zijn veelal oude tentamen
opgaven.
Leerdoelen
1. De student kan de Pearson correlatiecoëfficiënt interpreteren;
2. De student kan een (multipele) lineaire regressievergelijking opstellen en
interpreteren;
3. De student kan statistische hypotheses over de regressiecoëfficiënten
formuleren;
4. De student kan voorwaardelijke en onvoorwaardelijke voorspellingen op basis
van (multipele) regressievergelijkingen doen.
Verplichte literatuur
Hoofdstuk 10, 11 en 12
Voorbereiding 14 januari:
OPGAVE 1
De quetelet index (QI) is gedefinieerd als het gewicht (in kg) gedeeld door de lengte (in
meters) in het kwadraat. Dus de quetelet index van iemand van 80 kg met een lengte van 1.75
meter is 26.1. Overgewicht, gedefinieerd als een QI boven de 25 kg/m2, is een onafhankelijke
risicofactor voor hartvaatziekten, galstenen, borst- en baarmoederkanker en artrose. In
Nederland is de prevalentie van overgewicht 39%. Een onderzoeker heeft de beschikking over
de volgende gegevens van 300 personen: quetelet index, calorie (aantal calorieën (x 1000) per
dag), leeftijd (in jaren), sexe (=1 als persoon een vrouw is; =0 als persoon een man is), sport
(=1 als persoon sport; =0 als persoon niet sport), ink_mid (=1 als inkomen middelmatig is,
anders 0) en ink_hoog ( =1 als inkomen hoog is, anders 0).
SPREIDINGSDIAGRAM
40
30
20
QUETELET
10
0 1 2 3 4 5 6 7
CALORIE
,REGRESSIE 1.
Statistics
quetelet calorie
N Valid 300 300
Missing 0 0
Mean 25,29850 1,818
Std. Deviation 4,677866 ,6886
Minimum 16,33114 ,4
Maximum 39,40624 6,7
Model Summary
Adjusted Std. Error of
Model R R Square R Square the Estimate
1 ,117a ,014 ,010 4,65372274
a. Predictors: (Constant), CALORIE
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 89,019 1 89,019 4,110 ,044a
Residual 6453,826 298 21,657
Total 6542,846 299
a. Predictors: (Constant), CALORIE
b. Dependent Variable: QUETELET
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 23,858 ,760 31,409 ,000
CALORIE ,792 ,391 ,117 2,027 ,044
a. Dependent Variable: QUETELET
a) Bepaal de regressievergelijking (regressie 1).
Regressievergelijking y’= β0 + β1 * x
β0= 23,858
β1= 0,792
Dus y’ = 23,858 + 0,792 * x OF QI = 23,858 + 0,792 * calorie
b) Wat is de betekenis van 0,792 in deze regressie?
β1 is de richtingscoëfficiënt, dus met hoeveel verandert de waarde in y, indien x met 1
eenheid toeneemt. De eenheid x (calorie) is gemeten in 1000 calorieën. Bij elke 1000
calorieën die iemand meer inneemt, stijgt de QI naar verwachting met 0,792 punt.
c) Geef een voorspelling van de quetelet index van een persoon die 2000 calorieën per
dag eet?
Y’ = 23,858 + 0,792 * 2 = 25,442
Dit is een voorwaardelijke voorspelling. Calorie, in deze situatie is de enige
verklarende variabele en wordt ingevuld.
, Als het onvoorwaardelijke voorspelling was, dan kijk je naar het gemiddelde van de
Y. Dus QI = 25,29850
d) Hoe hoog is de correlatiecoëfficiënt tussen de variabele quetelet index en de variabele
calorie? Is deze correlatiecoëfficiënt significant verschillend van nul? Motiveer uw
antwoord.
Correlatiecoëfficiënt r= 0,117
Stap 1: Bepaal de toets
Meetniveau onafhankelijke variabele (x) calorie = ratio
Meetniveau afhankelijke variabele (y) QI = ratio
Lineaire regressievergelijking (effect van calorieën op QI)
Toets op β1
(H0: p = 0
Ha: p ≠ 0 (tweezijdige toets)
P is de populatiecorrelatiecoëfficiënt (p=’rho’ staat voor richtingscoëfficient. Maar je
kunt ook B=’beta’ gebruiken)
N>30 en omdat er maar 1 verklarende variabele in het model zit, mag je ook een toets
uitvoeren op de β-coëfficiënt)
Stap 2: De hypothese
H0: β1 = 0
Ha: β1 ≠ 0 (tweezijdige toets)
Stap 3: Toetsingsgrootheid
Toetsingsgrootheid = t = schatter voor β1 / s.e.
Aflezen nuit SPSS-output
t= 2,027
(Je kunt ook zelf uitrekenen: t= (0,792 – 0) / 0,391 = 2,026)
Sigma/p-waarde= 0,044
Stap 4: Neem de beslissing
P-waarde = 0,044 (het is al 2-zijdig gegeven in de tabel, dus je hoeft niet meer :2 te
doen!)
P-waarde < 0,05)
H0 verwerpen
Stap 5: Conclusie
De correlatiecoëfficiënt is positief en significant verschillend van 0.
(Je ziet dat die positief is want r= 0,117. Bij – was het negatief. Bij nog 4 variabelen
dan gaat het om gemiddelde effect en dan kan als 1 heel sterk negatief is dat het anders
is. Maar bij 1 enkelvoudige variabele is richtingscoëfficiënt hetzelfde als
richtingscoëfficiënt en is dat cijfer wel lijdend.)
e) In bovenstaande spreidingsdiagram lijkt de meest rechtse waarneming een uitbijter.
Indien deze waarneming wordt verwijderd, wat is dan het effect op de
correlatiecoëfficiënt tussen de variabele quetelet en de variabele calorie?
De correlatiecoëfficiënt gaat omhoog. De samenhang tussen de afhankelijke variabele
en de onafhankelijke variabele wordt groter.
, (Die ene persoon neemt 7000 cal per dag in. Nu wordt die lijn een beetje naar rechts
getrokken door die ene waarde. Maar als je die weg past dan zal je lijn meer bij je
punten passen en omhooggaan. Verband calorie en QI heeft dan meer samenhang.
f) Hoeveel procent van de variatie in de quetelet index wordt verklaard door de variabele
calorie?
R-square is 0,014 dus 1,4%
Of berekenen:
r= 0,117
r2= 0,117^2 = 0,0137 1,37%
(Je mag adjusted en gewone R-square gebruiken. Om tot BMI te komen
kijken we nu alleen naar calorieën, R-square zegt dat we een verklarende
variantie hebben van 1%. Dus het vangt 1%. Bij BMI kun je naast calorieën
ook kijken naar geslacht, sporten, opleidingsniveau, etc. Dus calorieën
vangt maar 1%.
Adjusted R-square= Verklarende variantie, gecorrigeerd voor het aantal
onafhankelijke variabele in je model. Nu heb je alleen maar 1 variabele,
maar als je meer variabelen hebt dan kun je beter naar adjusted r-square
kijken want die corrigeert het.
Dus bij meer modellen adjusted R-square)
R-square is r in kwadraad en adjusted R-square kun je zelf niet berekenen,
maar wordt gegeven.