Assumpties van de OLS regressie
Lineaire regressie laat ons toe het effect na te gaan van een of meerdere onafhankelijke variabelen op
een continue afhankelijke variabele
➢ We mogen de resultaten van onze regressietabel echter niet zomaar blindelings vertrouwen!
➢ Er zijn namelijk een aantal voorwaarden waaraan voldaan moet zijn om onze resultaten te
vertrouwen, namelijk:
1. Onafhankelijke errors
2. Geen multicollineairiteit
3. Additiviteit en lineariteit
4. Geen heteroskedasticiteit
5. Normaal verdeelde errors
6. Geen outliers en invloedrijke cases
➢ Om deze voorwaarden te controleren maken we gebruik van verschillende SPSS functies
1) Onafhankelijke fouten (nadenken over hoe de data is verdeeld)
▪ Hoofdvraag: Is onze data wel geschikt om OLS regressie op uit te voeren?
▪ Bij een regressie-analyse gaan we er vanuit dat de observaties (cases) onafhankelijk van
elkaar, per toeval geselecteerd zijn.
▪ Als dit niet het geval is, hebben we vaak te maken met afhankelijke fouten: de residuals
van casus 1 en 2 zijn gecorreleerd.
Probleem:
▪ SPSS gaat uit van onafhankelijke observaties
▪ Afhankelijke fouten betekenen dat we de precisie van onze schattingen overschatten. Onze
standaardfouten zijn kleiner dan ze zouden moeten zijn.
▪ Misschien vinden we significante effecten die er niet zijn!
▪ Twee typische situaties:
• Tijd (1 observatie, op verschillende momenten) (dus bijv. Nederlandse smaak in de
loop van jaren; hoewel tijd anders is, zullen deze variabel toch gecorrelateerd zijn,
want 1 land) > DURBIN WATSON TOETS
• Geografisch (mensen geselecteerd van gemeenten en vanuit daar mensen random
selecteren; er is een kans dat deze mensen sterker met elkaar correlateren (door deze
pre-selectie) dan mensen random uit lijst van Nederlandse inwoners)>
Je kan autocorrelatie (dus zijn de cases afhankelijk van elkaar) toetsen met de Durbon-Watson toets:
Vuistregels voor de Durbin-Watson test (Enkel voor de tijdsdimensie!):
▪ Waarde van exact 2: helemaal geen autocorrelatie
▪ Waarden < 1: Zeker reden tot zorg
▪ Waarden > 3: Zeker reden tot zorg
Waarschuwing: de D-W toets is afhankelijk van de volgorde van casussen in de dataset. Als je de jaren
door elkaar mixt, kan autocorrelatie (onterecht) verhuld blijven
Oplossingen:
▪ Beste oplossing is om een time series model of multilevel model te draaien als deze
assumptie wordt geschonden.
▪ Een alternatief is om een ‘lagged dependent variable’ (een ‘vertraagde’ afhankelijke
variabele) te gebruiken als predictor.
, ▪ !!!Je moet deze oplossingen niet kennen, maar je moet wel weten wanneer je je OLS
regressie niet meer kan vertrouwen!
Geografische clustering
▪ Geografische clustering komt heel vaak voor bij survey-onderzoek: ‘multistage sampling’
(eerst geografische sectoren dus bijv. gemeenten, en daarna pas random mensen
uitzoeken)
▪ Stel: toevalssteekproef van Nederlandse burgers
▪ Respondenten kunnen van overal in het land komen
▪ Maar, dit kan kostelijk zijn:
o Interviewers sturen naar de verste uithoeken voor 1 respondent…
▪ Vaak willen onderzoekers kosten beperken door geografische clustering door te voeren
Multistage sampling:
▪ Eerst selecteer ik bij toeval een aantal gemeenten
▪ Dan selecteer ik bij toeval respondenten binnen gemeenten
• Zo moeten interviewers maar naar beperkt aantal gemeenten gaan
• Kan ik dan nog iets zeggen over Nederlandse burgers?
▪ Ja, gemeenten random gekozen
▪ Maar: respondenten binnen gemeenten lijken vaak meer op elkaar = minder variatie =
kleinere standaardfouten
▪ Dus minder variatie dan we zouden verwachten als respondenten echt van over heel
Nederland konden komen
▪ => statistische correcties toepassen
Detectie:
▪ Geen SPSS maatstaf
▪ Nadenken over hoe je data werd verzameld (je krijgt dus een tekstje met hoe data is
verzameld en dan moet je vertellen of OLS regressie mag worden gebruikt of niet?)
Oplossingen:
▪ Gecorrigeerde standaardfouten (‘clustered SEs’)
▪ dummy variabelen voor de geografische eenheden toevoegen
▪ multilevel regressietechnieken
!!!Opnieuw: Je moet deze oplossingen niet kennen, maar je moet wel weten wanneer je je OLS
regressie niet meer kan vertrouwen!
2) Geen multicollineariteit (nadenken over de variabelen; met name de onafhankelijke
variabel) (voor afhankelijke variabel moet interval-ratio zijn)
▪ Hoofdvraag: mogen we alle variabelen wel opnemen in ons model?
▪ In een multivariate regressie voegen we onafhankelijke variabelen toe die gecorreleerd
zijn met elkaar: logica van ‘controleren op’
▪ Maar onafhankelijke variabelen kunnen soms ook te sterk gecorreleerd zijn met elkaar
Probleem:
▪ Indien dit het geval is kunnen we het effect van de variabelen moeilijk apart schatten
▪ Slechte schatting betekent onbetrouwbare standaardfouten
▪ De standaardfouten worden groter geschat dan ze zijn waardoor we significante effecten
niet kunnen opsporen
▪ Op zich vormt multicollineariteit geen probleem als onze effecten significant zijn
, Bij perfecte multicollineariteit
➢ SPSS zal bij perfect multicollineariteit gooit een variabel uit het regressiemodel eruit!
➢
SPSS toets om te kijken of de correlatie tussen twee onafhankelijke variabelen te hoog is.
Lineair Regression> Statistics> Collineairty diagnostics
VIF = Variance Inflation Factor (je variantie is inflated; wil je liever niet)
• Tolerance = 1/ VIF (mathematisch dus hetzelfde)
• VIF liever niet hoger dan 5, zeker niet hoger dan 10
• We willen zoveel mogelijk dat VIF 0 of 1 is. Dat er geen inflatie is of dezelfde inflatie.
• Hier blijven onze effecten significant, dus geen probleem
• 2 criteria
1. Kijken of je variabelen nog significant zijn ondanks de inflatie
2. Zijn ze niet significant? Kijk dan naar de VIF. Is het hoger dan 5 en zelfs hoger dan 10,
dan is er een probleem en moet ik een oplossing uitvoeren om te kijken dat de niet-
significantie te doen heeft de multicollineariteit te doen heeft.
Geen multicollineariteit:
▪ Multicollineariteit is vooral een reden tot zorg bij:
➢ Kleine samples (zeker: landendata)
Oplossingen (hoef je niet uit te voeren!):
▪ Als twee variabelen vrijwel hetzelfde meten, kun je er wellicht één kiezen. Het is ook aan
te raden het model te testen met eerst de ene en dan de andere variabele.
▪ Als meerder variabelen samen hetzelfde onderliggende (latente) concept meten, kun je er
wellicht een schaal van maken.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller IsabelAnna. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.99. You're not tied to anything after your purchase.