1
, 1. Multiple regression analysis (MRA)
What to do?
• Literature: texts Which method for which problem? and Multiple regression analysis
• Homework: exercises 1.1 and 1.2
• Computer practical: computer exercises 1 and 2
• Workgroup: exercises 1.3 - 1.7
• Do-it-yourself: exercise 1.8
Objectives
The student knows and understands:
• the (multiple) regression model;
¿ ¿
o Simple: Y =b0 +b1 X 1 i +e i
b0 = intercept of constante
b1 = slope of regressie coefficienten
e = error, gebaseerd op het verschil tussen de voorspelde waarde en de
echte waarde van Y.
b0 en b1 gebruiken geen sterretje wanneer ze gebruikt worden als
schattingen van b0*.
o Multipele: Y =b0 +b1 X 1 +b 2 X 2 +…+ bk X k
• the (un)standardized regression equation and its coefficients;
o Gestandaardiseerd: ZY = β Z X +e Z
Hier is ez de error term, maar nu in SD eenheden.
sx
β= b =r
s y 1 xy
• the concept of residual (error);
o Hoeveel de voorspelde waarde afwijkt van de geobserveerde waarde.
• the null and alternative hypotheses for multiple regression;
o Ho : b1 = b2 = … = bk = 0 (geen relatie tussen Y en X1 en X2)
o Ha: ten minste één is niet 0.
• the ANOVA F test for testing the regression model;
o F = MSmodel / MSerror
• the ANOVA table for regression (SS, df, MS, F);
o
• R2 as a measure of effect size;
o Kwadrateren van de multipele correlatie geeft de proportie verklaarde variantie
verklaard door Y. Hogere R2 betekent betere voorspelling.
Zelf met behulp van SPSS output uitrekenen met meerdere predictors door:
één zero-order waarde te kwadrateren + van de ander part waarde te
kwadrateren.
2
, • the link between R2 and R2adj ;
o R2adj corrigeert de overschatting voor de verklaarde variantie in de populatie.
2 N −1 2
o Radj =1− (1−R )
N −k −1
• the multiple correlation coefficient R;
o De Pearson correlatie tussen de voorspelde waarde en geobserveerde waarde van Y:
R=r y ^y
• the t test to for testing regression coefficients;
o t-test is alleen mogelijk wanneer F-toets significant is.
• the concepts of semi-partial correlation and unique variance accounted for;
o De proportie van verklaarde variantie wat uniek verklaard wordt door één specifieke
predictor.
• the assumptions for regression analysis;
o Assumpties zeggen iets over de populatie(!)
o 1. De onafhankelijke (X) variabele en de afhankelijke (Y) variabele hebben beide
interval meetniveau. De predictors kunnen wel binair zijn.
o 2. Er is een lineaire relatie tussen de XiS en Y ( μe =0 voor ieder mogelijke
voorspelde waarde van Y). Is te controleren door een plot.
o 3. De residuen (of errors: Y - Y ^ ) hebben: a. een normale verdeling (N > 300 of
wanneer N > 300 een histogram van alle errors); b. dezelfde variantie voor alle
(ONAFHANKELIJKE OF AFHANKELIJKE) waardes van de lineaire combinatie van X S
(homoscedasticiteit: σ 1=σ 2=…=σ k ¿(te controleren door residuele plot, wanneer
er sprake is van heteroscedasticiteit is de puntenwolk niet altijd gelijk); en c. ze zijn
compleet onafhankelijk van elkaar. (niet te controleren, ligt in goede
onderzoeksopzet)
o 1 en 2 zijn belangrijk voor goede interpretatie, maar 3 is noodzakelijk voor
significantie toetsing.
Alle assumpties gaan over de populatie.
• the available options when assumptions are violated;
o Meestal geen effect op schattingen van coëfficiënten
o Wel invloed op gestandaardiseerde errors van coëfficiënten.
Waarde van tests statistieken (F en t waardes)
p-waardes
Verkeerde conclusies over H0 en significantie
• three ways to look at outliers (distance, leverage and influence);
o Distance: scores op Y veel hoger of lager dan verwacht? Bekijk gestandaardiseerde
residuen: waardes |3| -> uitbijter
o Influence: hoeveel invloed heeft een observatie op de resultaten? Gebruik Cook’s D:
waarden ruim onder 1 -> in ieder geval niet invloedrijk
o Leverage: uitbijters op de predictoren. Bekijk leverage: waarden > 3(p+1)/N ->
uitbijter op predictor.
• the concept of multicollinearity;
o Twee of meer predictors hebben sterke onderlinge correlatie (r > 0.70/0.80)
o We spreken van multicollineariteit wanneer ten minste één variabele een tolerantie
heeft van ≤ 0.10.
o Of als VIF waardes hoger zijn dan 10.
• various methods for regression analysis with their uses and limitations.
3
, 1. Multiple regression analysis (MRA)
What to do?
• Literature: texts Which method for which problem? and Multiple regression analysis
• Homework: exercises 1.1 and 1.2
• Computer practical: computer exercises 1 and 2
• Workgroup: exercises 1.3 - 1.7
• Do-it-yourself: exercise 1.8
Objectives
The student knows and understands:
• the (multiple) regression model;
¿ ¿
o Simple: Y =b0 +b1 X 1 i +e i
b0 = intercept of constante
b1 = slope of regressie coefficienten
e = error, gebaseerd op het verschil tussen de voorspelde waarde en de
echte waarde van Y.
b0 en b1 gebruiken geen sterretje wanneer ze gebruikt worden als
schattingen van b0*.
o Multipele: Y =b0 +b1 X 1 +b 2 X 2 +…+ bk X k
• the (un)standardized regression equation and its coefficients;
o Gestandaardiseerd: ZY = β Z X +e Z
Hier is ez de error term, maar nu in SD eenheden.
sx
β= b =r
s y 1 xy
• the concept of residual (error);
o Hoeveel de voorspelde waarde afwijkt van de geobserveerde waarde.
• the null and alternative hypotheses for multiple regression;
o Ho : b1 = b2 = … = bk = 0 (geen relatie tussen Y en X1 en X2)
o Ha: ten minste één is niet 0.
• the ANOVA F test for testing the regression model;
o F = MSmodel / MSerror
• the ANOVA table for regression (SS, df, MS, F);
o
• R2 as a measure of effect size;
o Kwadrateren van de multipele correlatie geeft de proportie verklaarde variantie
verklaard door Y. Hogere R2 betekent betere voorspelling.
Zelf met behulp van SPSS output uitrekenen met meerdere predictors door:
één zero-order waarde te kwadrateren + van de ander part waarde te
kwadrateren.
2
, • the link between R2 and R2adj ;
o R2adj corrigeert de overschatting voor de verklaarde variantie in de populatie.
2 N −1 2
o Radj =1− (1−R )
N −k −1
• the multiple correlation coefficient R;
o De Pearson correlatie tussen de voorspelde waarde en geobserveerde waarde van Y:
R=r y ^y
• the t test to for testing regression coefficients;
o t-test is alleen mogelijk wanneer F-toets significant is.
• the concepts of semi-partial correlation and unique variance accounted for;
o De proportie van verklaarde variantie wat uniek verklaard wordt door één specifieke
predictor.
• the assumptions for regression analysis;
o Assumpties zeggen iets over de populatie(!)
o 1. De onafhankelijke (X) variabele en de afhankelijke (Y) variabele hebben beide
interval meetniveau. De predictors kunnen wel binair zijn.
o 2. Er is een lineaire relatie tussen de XiS en Y ( μe =0 voor ieder mogelijke
voorspelde waarde van Y). Is te controleren door een plot.
o 3. De residuen (of errors: Y - Y ^ ) hebben: a. een normale verdeling (N > 300 of
wanneer N > 300 een histogram van alle errors); b. dezelfde variantie voor alle
(ONAFHANKELIJKE OF AFHANKELIJKE) waardes van de lineaire combinatie van X S
(homoscedasticiteit: σ 1=σ 2=…=σ k ¿(te controleren door residuele plot, wanneer
er sprake is van heteroscedasticiteit is de puntenwolk niet altijd gelijk); en c. ze zijn
compleet onafhankelijk van elkaar. (niet te controleren, ligt in goede
onderzoeksopzet)
o 1 en 2 zijn belangrijk voor goede interpretatie, maar 3 is noodzakelijk voor
significantie toetsing.
Alle assumpties gaan over de populatie.
• the available options when assumptions are violated;
o Meestal geen effect op schattingen van coëfficiënten
o Wel invloed op gestandaardiseerde errors van coëfficiënten.
Waarde van tests statistieken (F en t waardes)
p-waardes
Verkeerde conclusies over H0 en significantie
• three ways to look at outliers (distance, leverage and influence);
o Distance: scores op Y veel hoger of lager dan verwacht? Bekijk gestandaardiseerde
residuen: waardes |3| -> uitbijter
o Influence: hoeveel invloed heeft een observatie op de resultaten? Gebruik Cook’s D:
waarden ruim onder 1 -> in ieder geval niet invloedrijk
o Leverage: uitbijters op de predictoren. Bekijk leverage: waarden > 3(p+1)/N ->
uitbijter op predictor.
• the concept of multicollinearity;
o Twee of meer predictors hebben sterke onderlinge correlatie (r > 0.70/0.80)
o We spreken van multicollineariteit wanneer ten minste één variabele een tolerantie
heeft van ≤ 0.10.
o Of als VIF waardes hoger zijn dan 10.
• various methods for regression analysis with their uses and limitations.
3