SAMENVATTING VOS TENTAMEN
Multipele regressie
Doel multipele regressieanalyse
- Beschrijven relaties tussen variabelen
- Toetsen van hypothesen over relaties (significantie)
- Kwantificeren van relaties (effectgrootte)
- Kwalificeren van relaties (klein, medium, groot)
- Beoordelen relevantie relaties (subjectief)
- Voorspellen van iemands waarde a.d.h.v. model
Meetniveaus:
- Y: minimaal interval.
- X: minimaal interval, dichotoom, categorisch met dummy’s
Formule voorspellen Y bij multipele regressie:
- Y = b0+b1X1+B2X2+” …”+E
- Met interactie: b0+b1X1+b2X2+b3X1xX2
Assumpties:
- De participanten zijn aselect gekozen en scoren onafhankelijk van elkaar.
- Er is een lineaire relatie tussen de variabelen.
- Er zijn geen uitschieters.
- Per X-waarde is de spreiding in Y-scores gelijk, ook wel homoscedasticiteit genoemd.
- Per X-waarde zijn de Y-scores normaal verdeeld.
- Er mag geen hoge correlatie zijn tussen de onafhankelijke variabelen, ook wel
multicollineariteit genoemd.
Controleren assumptie multicollineariteit: Er mag geen hoge correlatie zijn tussen de onafhankelijke
variabelen, ook wel multicollineariteit genoemd.
Kijk naar de tabel Coëfficients.
- Waardes voor de Tolerance kleiner dan .2 duiden op een mogelijk probleem.
- Waardes voor de Tolerance kleiner dan .1 duiden op een probleem.
- De VIF is gelijk aan 1/Tolerance, dus voor de VIF geldt dat waardes groter dan 10 duiden op
een probleem. Tolerance mag niet hoger dan .1 zijn.
3 gevolgen multicollineariteit:
- De regressiecoëfficiënten (B) zijn onbetrouwbaar.
- Het beperkt de grootte van R (de correlatie tussen Y en Ŷ)
- Het belang van individuele onafhankelijke variabelen is niet/moeilijk vast te stellen.
Assumptie homoscedasticiteit controleren: Per X-waarde is de spreiding in Y-scores gelijk, ook wel
homoscedasticiteit genoemd.
Het plotten van de gestandaardiseerde residuen tegen de gestandaardiseerde waardes. Als
er voor elke voorspelde waarde (X-as) ongeveer evenveel spreiding is op de Y-as, is er
voldaan aan de voorwaarde.
,Hiërarchische regressie: is toevoeging van X(-en) aan het model statistisch zinvol?
H0: ΔR2 = 0 H1: ΔR2 > 0
Adjusted R2: De adjusted R2 geeft aan wat het geschatte percentage verklaarde variantie is in de
populatie.
Goodness-of-fit: het model de regressielijn met de kleinste residuele kwadratensom R2
(verklaarde variantie)
Vergelijken van regressievergelijkingen: kijken of toevoeging van variabelen een hogere verklaarde
variantie. Als de verklaarde variantie toeneemt, is het zinvol om de variabelen toe te voegen aan de
vergelijking.
Effectgrootte:
, Meerweg ANOVA
Onderzoeksvraag meerweg ANOVA: Verschillen 2 of meer groepen (X) in het gemiddelde van Y?
Doel meerweg ANOVA:
- Gemiddelden tussen en binnen groepen vergelijken (gemiddelden model)
- Toetsen van hypothesen over relaties (significantie)
- Kwantificeren van relaties (effectgrootte)
- Kwalificeren van relaties (klein, medium, groot)
- Beoordelen relevantie relaties (subjectief)
- Voorspellen van iemands waarde a.d.h.v. model
Meetniveaus:
- Y: minimaal interval.
- X: nominaal
Nulhypothesen:
- H0: model verklaart geen variatie in Y
- H0: geen hoofdeffect van X1
- H0: geen hoofdeffect van X2
- H0: geen interactie-effect van X1 x X2
- H1: er is wel een effect
Assumpties:
1. Onafhankelijkheid van waarnemingen (observaties) bij respondenten (independence).
2. Minimaal interval meetniveau Y en X’ en nominaal.
3. Spreiding (variantie) van residuen per X-categorie gelijk (homoscedastisch/ homogeneity of
variance).
4. Residuen per X-categorie normaalverdeeld (normally distributed errors).
5. Geen uitschieters (outliers) en ‘te’ invloedrijke respondenten (influential cases).
Multipele regressie
Doel multipele regressieanalyse
- Beschrijven relaties tussen variabelen
- Toetsen van hypothesen over relaties (significantie)
- Kwantificeren van relaties (effectgrootte)
- Kwalificeren van relaties (klein, medium, groot)
- Beoordelen relevantie relaties (subjectief)
- Voorspellen van iemands waarde a.d.h.v. model
Meetniveaus:
- Y: minimaal interval.
- X: minimaal interval, dichotoom, categorisch met dummy’s
Formule voorspellen Y bij multipele regressie:
- Y = b0+b1X1+B2X2+” …”+E
- Met interactie: b0+b1X1+b2X2+b3X1xX2
Assumpties:
- De participanten zijn aselect gekozen en scoren onafhankelijk van elkaar.
- Er is een lineaire relatie tussen de variabelen.
- Er zijn geen uitschieters.
- Per X-waarde is de spreiding in Y-scores gelijk, ook wel homoscedasticiteit genoemd.
- Per X-waarde zijn de Y-scores normaal verdeeld.
- Er mag geen hoge correlatie zijn tussen de onafhankelijke variabelen, ook wel
multicollineariteit genoemd.
Controleren assumptie multicollineariteit: Er mag geen hoge correlatie zijn tussen de onafhankelijke
variabelen, ook wel multicollineariteit genoemd.
Kijk naar de tabel Coëfficients.
- Waardes voor de Tolerance kleiner dan .2 duiden op een mogelijk probleem.
- Waardes voor de Tolerance kleiner dan .1 duiden op een probleem.
- De VIF is gelijk aan 1/Tolerance, dus voor de VIF geldt dat waardes groter dan 10 duiden op
een probleem. Tolerance mag niet hoger dan .1 zijn.
3 gevolgen multicollineariteit:
- De regressiecoëfficiënten (B) zijn onbetrouwbaar.
- Het beperkt de grootte van R (de correlatie tussen Y en Ŷ)
- Het belang van individuele onafhankelijke variabelen is niet/moeilijk vast te stellen.
Assumptie homoscedasticiteit controleren: Per X-waarde is de spreiding in Y-scores gelijk, ook wel
homoscedasticiteit genoemd.
Het plotten van de gestandaardiseerde residuen tegen de gestandaardiseerde waardes. Als
er voor elke voorspelde waarde (X-as) ongeveer evenveel spreiding is op de Y-as, is er
voldaan aan de voorwaarde.
,Hiërarchische regressie: is toevoeging van X(-en) aan het model statistisch zinvol?
H0: ΔR2 = 0 H1: ΔR2 > 0
Adjusted R2: De adjusted R2 geeft aan wat het geschatte percentage verklaarde variantie is in de
populatie.
Goodness-of-fit: het model de regressielijn met de kleinste residuele kwadratensom R2
(verklaarde variantie)
Vergelijken van regressievergelijkingen: kijken of toevoeging van variabelen een hogere verklaarde
variantie. Als de verklaarde variantie toeneemt, is het zinvol om de variabelen toe te voegen aan de
vergelijking.
Effectgrootte:
, Meerweg ANOVA
Onderzoeksvraag meerweg ANOVA: Verschillen 2 of meer groepen (X) in het gemiddelde van Y?
Doel meerweg ANOVA:
- Gemiddelden tussen en binnen groepen vergelijken (gemiddelden model)
- Toetsen van hypothesen over relaties (significantie)
- Kwantificeren van relaties (effectgrootte)
- Kwalificeren van relaties (klein, medium, groot)
- Beoordelen relevantie relaties (subjectief)
- Voorspellen van iemands waarde a.d.h.v. model
Meetniveaus:
- Y: minimaal interval.
- X: nominaal
Nulhypothesen:
- H0: model verklaart geen variatie in Y
- H0: geen hoofdeffect van X1
- H0: geen hoofdeffect van X2
- H0: geen interactie-effect van X1 x X2
- H1: er is wel een effect
Assumpties:
1. Onafhankelijkheid van waarnemingen (observaties) bij respondenten (independence).
2. Minimaal interval meetniveau Y en X’ en nominaal.
3. Spreiding (variantie) van residuen per X-categorie gelijk (homoscedastisch/ homogeneity of
variance).
4. Residuen per X-categorie normaalverdeeld (normally distributed errors).
5. Geen uitschieters (outliers) en ‘te’ invloedrijke respondenten (influential cases).