WERKGROEP 1: 15 JANUARI
OPGAVE 1
De quetelet index (QI) is gedefinieerd als het gewicht (in kg) gedeeld door de lengte (in meters) in het
kwadraat. Dus de quetelet index van iemand van 80 kg met een lengte van 1.75 meter is 26.1. Overgewicht,
gedefinieerd als een QI boven de 25 kg/m2, is een onafhankelijke risicofactor voor hartvaatziekten, galstenen,
borst- en baarmoederkanker en artrose. In Nederland is de prevalentie van overgewicht 39%. Een onderzoeker
heeft de beschikking over de volgende gegevens van 300 personen: quetelet index, calorie (aantal calorieën (x
1000) per dag), leeftijd (in jaren), sexe (=1 als persoon een vrouw is; =0 als persoon een man is), sport (=1 als
persoon sport; =0 als persoon niet sport), ink_mid (=1 als inkomen middelmatig is, anders 0) en ink_hoog ( =1
als inkomen hoog is, anders 0).
Statistics
SPREIDINGSDIAGRAM REGRESSIE 1. quetelet calorie
N Valid 300 300
40
Missing 0 0
Mean 25,29850 1,818
Std. Deviation 4,677866 ,6886
30 Minimum 16,33114 ,4
Maximum 39,40624 6,7
Model Summary
20
Adjusted Std. Error of
QUETELET
Model R R Square R Square the Estimate
1 ,117a ,014 ,010 4,65372274
10 a. Predictors: (Constant), CALORIE
0 1 2 3 4 5 6 7
CALORIE
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 89,019 1 89,019 4,110 ,044a
Residual 6453,826 298 21,657
Total 6542,846 299
a. Predictors: (Constant), CALORIE
b. Dependent Variable: QUETELET
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 23,858 ,760 31,409 ,000
CALORIE ,792 ,391 ,117 2,027 ,044
a. Dependent Variable: QUETELET
a. Bepaal de regressievergelijking (regressie 1).
Aflezen: 0 (constant) = 23.858 en 1 =0,792
Regressievergelijking: y = 23.858 + 0,792*x of: 01 = 23.858 + 0,792*Calorie
e kan je weglaten, is de error, niet alles perfect schatten. Wanneer coëfficiënt feitelijk die uit komen
rollen kan je de e weglaten.
e alleen uitschrijven als je de coëfficiënten niet invult. Dus als je b1 en b0 opschrijft.
Als coëfficiënten wel invult hoeft de e er niet meer bij.
b. Wat is de betekenis van 0,792 in deze regressie?
In is de richtingscoëfficiënt: oftewel, met hoeveel verandert de waarde in y. indien x met 1 eenheid
toeneemt. De eenheid van x (Calorie) is gemeten in 1000 calorieën. Bij elke 1000 calorieën die iemand
meer inneemt, stijgt de QI gemiddeld/naar verwachting met 0.792 punt.
c. Geef een voorspelling van de quetelet index van een persoon die 2000 calorieën per dag eet?
, x = 2000/1000 = 2. (let op: X was gemeten in 1000: i.e. 1 eenheid in x staat voor 1000 calorieën)
y' = 23,858 + 0,792*2 = 25.442
Dit is een voorwaardelijke voorspelling. Calorie. in deze situatie de enige verklarende variabele, is
bekend en deze wordt ingevuld in de regressievergelijking. (Ter informatie: een onvoorwaardelijke
voorspelling is het gemiddelde van de Y (QI =25,30))
d. Hoe hoog is de correlatiecoëfficiënt tussen de variabele quetelet index en de variabele calorie? Is deze
correlatiecoëfficiënt significant verschillend van nul? Motiveer uw antwoord.
De correlatiecoëfficiënt (r) is af te lezen in de SPSS output: namelijk r = 0,117. (SPSS gebruikt
hoofdletter R)
Stap 1: Bepaal de toets + Stap 2: Bepaal de hypothesen
Om te bepalen of de correlatiecoëfficiënt significant verschillend is van 0. stellen we allereerst de
hypothesen op: H0: ρ= 0 Ha: ρ ≠ 0 ! tweezijdige toets (ρ is de populatiecorrelatiecoëfficiént)
N > 30 en omdat er maar 1 verklarende variabele in het model zit, mag je ook een toets uitvoeren op
de -coëfficiënt.
De nulhypothese en alternatieve hypothese worden dan: H0: 1 = 0 Ha: ≠ 0 ! tweezijdige toets
Stap 3: Toetsingsgrootheid
t=(0.792 — 0)/ 0.391 = 2,026 Direct aflezen uit de tabel kan natuurlijk ook. De t-waarde is dan 2,027
(afrondingsverschil)
Stap 4: Bepaal de p-waarde en neem een beslissing
Aflezen uit de SPSS output: p-waarde = 0,044. a = 0,05. dus: p-waarde < a. H0 moet verworpen
worden.
Stap 5: Conclusie De correlatiecoëfficiënt is positief en significant verschillend van 0.
Correlatie zegt hoe x en y samenhangen, omdat groter is dan nul; meer x is meer y
Correlatie van 1 dan zou zijn x 1 groter dan y ook 1 groter. Als x met 1 groeit stijgt y met 0.117
Gaat vooral om de richting.
e. In bovenstaande spreidingsdiagram lijkt de meest rechtse waarneming een uitbijter. Indien deze
waarneming wordt verwijderd, wat is dan het effect op de correlatiecoëfficiënt tussen de variabele
quetelet en de variabele calorie?
Correlatiecoëfficiënt gaat omhoog. De samenhang tussen de afhankelijke variabele en de
onafhankelijke variabele wordt groter
f. Hoeveel procent van de variatie in de quetelet index wordt verklaard door de variabele calorie?
r = 0,117. r2 is dan 0,117^2 = 0.0137 — 1.37%. Of aflezen R-square=0.014 (1,4%).
Adjusted R-square is 0,010. (met 1 verklarende variabele is beide goed).
R square vs adjusted. Adjusted r square doe je als je meervoudige regressie doet waar je corrigeert
voor aantal variabelen die je mee neemt, meer variabelen is ook meer kans op toeval. Stabielere maat
voor meervoudige regressie
Voor enkelvoudig is normale r square ook goed, is altijd hoger of gelijk aan.
Meervoudig: adjusted r square gebruiken
0.01 = 1 % van de r square
REGRESSIE 2.
Model Summary
Adjusted Std. Error of
Model R R Square R Square the Estimate
1 ,390a ,152 ,135 4,35082271
a. Predictors: (Constant), INK_HOOG, CALORIE, SPORT,
LEEFTIJD, SEXE, INK_MID
, ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 996,456 6 166,076 8,773 ,000a
Residual 5546,390 293 18,930
Total 6542,846 299
a. Predictors: (Constant), INK_HOOG, CALORIE, SPORT, LEEFTIJD, SEXE, INK_MID
b. Dependent Variable: QUETELET
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 26,246 1,807 14,524 ,000
CALORIE ,841 ,384 ,124 2,189 ,029
LEEFTIJD 5,324E-03 ,019 ,017 ,285 ,776
SEXE -,630 ,795 -,046 -,793 ,429
SPORT -1,778 ,322 -,299 -5,514 ,000
INK_MID -1,352 ,631 -,144 -2,142 ,033
INK_HOOG -2,449 ,685 -,241 -3,573 ,000
a. Dependent Variable: QUETELET
g. Bepaal de regressievergelijking (regressie 2).
y = 26,246 + 0,841*Calorie + 0.005324 *leeftijd - 0.630 * sexe -1.778 * sport - 1,352 * ink_mid - 2.499
* ink_hoog.
Alle twee de inkomens klasse gaan mee in variabele, referentie categorie. Dubbele variabele
h. Wat is het effect van een inname van 1000 calorieën op de hoogte van de quetelet index?
1. Dit is een toets op . (meervoudige lineaire regressie)
2. H0: 1 = 0 vs Ha: ≠ 0 .
3.
- Toetsingsgrootheid aflezen uit de tabel: t=2,189
- Coëfficiënt = 1 = 0,841 > 0 -> positief effect
4. p-waarde aflezen uit de tabel: p-waarde= 0.029 < 0.05
5.
- De QI stijgt met gemiddeld/naar verwachting 0,841 punt bij inname van elke 1000 calorieën.
onder gelijkhouding van alle andere x-variabelen in het model.
- Dit effect is statistisch significant (op basis van alpha van 5%). Het effect is niet statistisch
significant bij een alpha van 1%.
• Richting effect
• Wat gebeurt er met de y
• Wanneer alle andere variabelen gelijk blijven = ceteris paribus, al het andere blijft constant
• Statistisch significant
i. Wat is het effect van geslacht op de hoogte van de quetelet index?
1 een vrouw en nul een man
1. Dit is een toets op . (meervoudige lineaire regressie)
2. H0: 3 = 0 vs Ha: 3 ≠ 0
3.
- Toetsingsgrootheid aflezen uit de tabel: t=-0.793
- Coëfficiënt = b3 = -0.630 < 0 -> negatief effect
4. p-waarde aflezen uit de tabel: p-waarde=0.429 >0.10
5.
- De coëfficiënt voor de variabele "sexe" is negatief. De QI is gemiddeld/naar verwachting 0.63 punt
lager voor vrouwen dan voor mannen, onder gelijkhouding van alle andere x-variabelen in het
model.
- Dit effect is niet statistisch significant (zelfs niet op basis van een alfa van 0,10).
j. Wat is het effect van sporten op de hoogte van de quetelet index?
sport (=1 als persoon sport; =0 als persoon niet sport)
1. Dit is een toets op . (meervoudige lineaire regressie)
, 2. H0: 4 = 0 vs Ha: 4 ≠ 0
3.
- Toetsingsgrootheid aflezen uit de tabel: t=-5.514
- Coëfficiënt= b4 = -1,778<0 -> negatief effect
4. p-waarde aflezen uit de tabel: p-waarde=0.000 <0,01
5.
- De coëfficiént voor de variabele 'sport' is negatief. De QI daalt met gemiddeld/naar verwachting
1,778 punten (dat is positief), onder gelijkhouding van alle andere x-variabelen in het model.
- Dit effect is statistisch significant op 1%.
k. Wat is het effect van inkomen op de hoogte van de quetelet index?
Er zijn 3 klassen: geen/laag inkomen, midden inkomen en een hoog inkomen.
In de regressievergelijking is geen/laag inkomen de referentiegroep.
1. Dit zijn twee toetsen op . (meervoudige lineaire regressie): midden inkomen tov geen/laag
inkomen en hoog inkomen tov geen/laag inkomen.
2. HO: 5 = 0 vs Ha: 5 ≠ 0
H0: 6 = 0 vs Ha: 6 ≠ 0.
3.
- Toetsingsgrootheid aflezen uit de tabel INK_MID: t=-2.142 en INK_HOOG: t=- 3,573
- Coefficient=b5=-1,352<0 -> negatief effect
- Coefficient=b6=-2.449<0 negatief effect
4. p-waarde aflezen uit de tabel: p-waarde INK_MID=0.033 <0,05 en p-waarde INK_HOOG=0,00
<0,01.
5.
- De coëfficiënt voor de variabele 'Ink-mid" is negatief: de QI van een persoon met een midden
inkomen is gemiddeld/naar verwachting 1.352 punten lager dan iemand met geen/ laag inkomen,
onder gelijkhouding van alle andere x-variabelen in het model.
- De coëfficiënt voor de variabele 'Ink-hoog" is negatief: de QI van een persoon met een hoog
inkomen is gemiddeld/naar verwachting 2,449 punten lager dan iemand met geen/laag inkomen,
onder gelijkhouding van alle andere x-variabelen in het model.
- Beide effecten zijn statistisch significant. die van Ink_mid op basis van een alpha van 5% en die
van Ink_hoog op basis van een alpha van 1%.
l. Geef een voorspelling van de quetelet index van een vrouw van 40 jaar, die 2000 calorieën eet, sport en
geen/laag inkomen heeft? Is dit een voorwaardelijk of een onvoorwaardelijke voorspelling? Motiveer
uw antwoord.
y" = 26,246 + 0,841*2 + 0,005324*40 -0.63*1 -1.778*1 - 1.352*0 - 2.499*0 = 25,733
Dit is een voorwaardelijke voorspelling, omdat alle verklarende variabelen worden gebruikt bij de
voorspelling.
m. Kan je op basis van de scatterplot concluderen dat aan de voorwaarden om een regressie te mogen
uitvoeren wordt voldaan? Motiveer uw antwoord.
Als je een horizontale lijn door 0 trekt, dan zitten de punten willekeurig rond deze lijn. Dat betekent
dat aan de voorwaarde: e is normaal verdeel met gemiddelde 0 en standaardafwijking σ is voldaan.
Zie paragraaf 11.4 (tekst onder de vergelijking) en figuur 12.3.
Zie ook extra document op BB (scan uit Field).
Y as is de standaarddeviatie, x as predicted value
n. Naar welk model (Regressie 1 of Regressie 2) gaat uw voorkeur uit? Motiveer uw antwoord.
Model 2. de verklaarde variantie is hoger.
De adjusted R2 van model 2 is 0.135=13,5% en van model 11%.
Kan ook dat variabelen er niks mee te maken hebben, kijken naar adjusted r square
veel groter deel wordt verklaard met de variabelen die je meeneemt.
als niks mee te maken hebben kan ook afnemen, omdat gecorrigeerd voor ruis, aantal variabelen dat
je toevoegt