SPSS Lectures
SPSS 1a: Data screening
Outlier detection:
- Gebruik grafieken: histogrammen (univariate) en scatter plots (bivariate)
- Outliers in Y-space (alleen afhankelijke variabele): standardized residuals
Rule of thumb: moet tussen -3 en 3 zijn
- Outliers in X-space (alleen onafhankelijke variabele): Mahalanobis distance
- Outliers in XY-space (zowel independent en dependent variabele): Cook’s distance
Rule of thumb: Cook’s distance <1.
Residuals: Een z-score van de stukjes die we nog niet hebben kunnen verklaren in het model. De
error voor ieder design. Een grote residual geeft aan dat je case slecht wordt voorspeld.
Residual: waarde-gemiddelde
Normality:
Analyze Descriptive statistics Q-Q-plots (dit doe je met de residuals van de dependent variable)
Graphs legacy dialogs Histogram
Sample size, N=?
- Aantal subjects voor een betrouwbaar model (bij regressie): Je hebt 10-15 cases nodig per
predictor
- Number of cases for adequate power
50+8*number of predictors to test general nullhypothesis (R^2)
104+number of predictors to test specific nullhypotheses (b1,b2 etc.)
- ‘The smaller the expected ‘effect’ (R^2) and the more predictors in the model, the larger N
must be for reliable estimates and adequate power (.80).
- Central Limit Theorem, n>30 dan hoef je niet voor normaliteit te checken (niet altijd
aannemen!) zie hierboven.
Assumptie van linearity
De R^2 Linear lijn en de R^2 Quadratic lijn moeten ongeveer gelijk zijn.
, Assumptie van homogeneity
Linear regression bij save: predicted values, unstandardized aanklikken!
Bij scatterplot simple scatter Y-as: standardized residuals. X-as: unstandardized predicted
values.
Assumptie Multicollinearity
Linear Regression Statistics Collinearity diagnostics
Multicollinearity: correlatie tussen voorspellers. Er is een probleem als:
1. Correlaties tussen predictors hoger zijn dan .80 of .90
2. VIF van een predictor >10
3. Tolerantie van een predictor <.10
Kwaliteit van voorspeller Kijken naar R^2
SPSS 1b: Diagnostics in (hierarchical) regression
ZIE LECTURE 1a
Kijk ook naar de scores per individu, en hoeveel hun score afwijkt van het gemiddelde. Is dit
opvallend?
Robuust= zonder de normaliteitsassumptie
Mean square: het aantal verklaarde variantie per unit van informatie
R square= hoeveelheid variantie die het model verklaard. Hoe groter R square, hoe groter F.
SPSS G*power: Power analysis
Test family: t-tests
Statistical test: Means – Difference
between two independent means (two
groups)
SPSS 1a: Data screening
Outlier detection:
- Gebruik grafieken: histogrammen (univariate) en scatter plots (bivariate)
- Outliers in Y-space (alleen afhankelijke variabele): standardized residuals
Rule of thumb: moet tussen -3 en 3 zijn
- Outliers in X-space (alleen onafhankelijke variabele): Mahalanobis distance
- Outliers in XY-space (zowel independent en dependent variabele): Cook’s distance
Rule of thumb: Cook’s distance <1.
Residuals: Een z-score van de stukjes die we nog niet hebben kunnen verklaren in het model. De
error voor ieder design. Een grote residual geeft aan dat je case slecht wordt voorspeld.
Residual: waarde-gemiddelde
Normality:
Analyze Descriptive statistics Q-Q-plots (dit doe je met de residuals van de dependent variable)
Graphs legacy dialogs Histogram
Sample size, N=?
- Aantal subjects voor een betrouwbaar model (bij regressie): Je hebt 10-15 cases nodig per
predictor
- Number of cases for adequate power
50+8*number of predictors to test general nullhypothesis (R^2)
104+number of predictors to test specific nullhypotheses (b1,b2 etc.)
- ‘The smaller the expected ‘effect’ (R^2) and the more predictors in the model, the larger N
must be for reliable estimates and adequate power (.80).
- Central Limit Theorem, n>30 dan hoef je niet voor normaliteit te checken (niet altijd
aannemen!) zie hierboven.
Assumptie van linearity
De R^2 Linear lijn en de R^2 Quadratic lijn moeten ongeveer gelijk zijn.
, Assumptie van homogeneity
Linear regression bij save: predicted values, unstandardized aanklikken!
Bij scatterplot simple scatter Y-as: standardized residuals. X-as: unstandardized predicted
values.
Assumptie Multicollinearity
Linear Regression Statistics Collinearity diagnostics
Multicollinearity: correlatie tussen voorspellers. Er is een probleem als:
1. Correlaties tussen predictors hoger zijn dan .80 of .90
2. VIF van een predictor >10
3. Tolerantie van een predictor <.10
Kwaliteit van voorspeller Kijken naar R^2
SPSS 1b: Diagnostics in (hierarchical) regression
ZIE LECTURE 1a
Kijk ook naar de scores per individu, en hoeveel hun score afwijkt van het gemiddelde. Is dit
opvallend?
Robuust= zonder de normaliteitsassumptie
Mean square: het aantal verklaarde variantie per unit van informatie
R square= hoeveelheid variantie die het model verklaard. Hoe groter R square, hoe groter F.
SPSS G*power: Power analysis
Test family: t-tests
Statistical test: Means – Difference
between two independent means (two
groups)