Oplossing oefeningen:
meervoudige regressie
Oefening 2
1) Voer via SPSS een lineaire regressie uit voor het Verkoopsvolume in functie van alle verklarende
variabelen. Is het model nu betekenisvol en is er dus verbetering ten opzichte van het vorige
model? Zijn er hier problemen wat betreft de werkhypothesen? Leg uit en bespreek volledig.
Histogram en Probability plot daarmee ga je de normaliteit mee nagaan
Scatterplot van de gestandaardiseerde voorspellingen ten opzichte van de gestandaardiseerde
residuen doe je om homoscedasticiteit na te gaan
Analyze regression lineair
Dependent: Verkoopsvolume
Independent: Aantal inwoners, mediane jaarlijks familie-inkomen, aantal concurerrende winkels,
dagelijks verkeer
Klik bij statistics op ‘confidence intervals’, ‘descriptives’, ‘part and partial correlations’, ‘collinearity
diagnostics’
Klik bij Plots op ‘histogram’ en ‘normal probability plot’
Y = *ZRESID
X= *ZPRED
We hebben
maar 6 waarnemingen hebben dus dit is veel te weinig om te kunnen spreken van een serieuze
analyse
Hier hebben we de gemiddelden en de standaardafwijkingen van de verschillende variabelen
1
,We kijken naar de correlaties:
Verkoopvolume correleert significant (het is éénzijdig dus we moeten de correlatie maal 2 doen) met
het aantal inwoners (<0,001 x 2 = 0,002) en ook met het aantal concurrerende winkels (<0,001 x 2 =
0,002)
En het is randsignificant met het dagelijkse verkeer (0,029 x 2= 0,058)
Aantal inwoners correleert significant met het aantal concurrerende winkel 0,003
Aantal concurrerende
winkels correleert met
het dagelijks verkeer =
0,023 dus we moeten
opletten voor
multicollineariteit
2
,We kijken naar het modelfit
We zien een R2 = 1 dit bijna onmogelijk het zou willen zeggen dat 100% van de variantie van mijn
verkoopvolume verklaard wordt door de variantie van de onafhankelijke veranderlijke dit terwijl de
standaardfout van de voorspelling zeer groot is = 146,233
We zien bij ANOVA:
Probleem: er is maar 1 vrijheidsgraad over in de noemer (residual = 1)
3
, F(4,1) = 3360,887
Overschrijdingskans p = 0,013 dus we hebben minstens 1 significante voorspeller
t(1) = 21,537 met een overschrijdingskans van 0,030 dus aantal inwoners is significant
t(1) = 11,224 met een overschrijdingskans van 0,057 dus het mediane jaarlijks familie-inkomen is
niet significant
t(1) = 11,121 met een overschrijdingskans van 0,057 dus het aantal concurrerende winkels is niet
significant
t(1) = 6,369 met een overschrijdingskans van 0,099 dus het dagelijkse verkeer is niet significant
Als we kijken naar multicollineariteit dan zien we bij tolerantie dat aantal concurrerende winkels
(0,071) en dagelijks verkeer (0,240) kleiner zijn dan 0,5 waardoor we spreken over collineariteit en
dus is er overlap we gaan hier voor het moment nog niks aan doen (je gaat eerst het model gaan
optimaliseren en daarna kan je hieraan werken)
Om je model te gaan optimaliseren moet er een variabele uit het model gesmeten worden je
kiest de variabele die de grootste p-waarde heeft om eruit te laten, in dit geval is dit dagelijks
verkeer want p = 0,099 en dan zal het probleem van collineariteit direct opgelost zijn
Als we kijken naar de werkhypothesen:
Normaliteit: Er zijn te grote afwijkingen ten opzichte van de normale verdeling (dat komt ook voor in
de slingerbeweging dat je ziet bij de pp-plot) die afwijkingen zijn te groot om van normaliteit te
kunnen spreken
4