2021
OLS: Classical Assumptions
COMPENDIUM OZM
ROBIN BAKKER
KU LEUVEN | Schakelprogramma | Alana Van de Beek & Ed Van Stee
,Inhoud
1. Het regressiemodel is lineair, correct gespecifieerd, en heeft een additieve storingsterm. .......... 2
Ex ante ................................................................................................................................................. 2
Ex post ................................................................................................................................................. 2
2. De storingsterm heeft een populatiegemiddelde van nul. ................................................................. 4
OLS – error term .................................................................................................................................. 4
3. Alle onafhankelijke variabelen zijn niet gecorreleerd met de storingsterm ....................................... 4
Omitted variable bias: under-/overfitting ........................................................................................... 4
4. Autocorrelatie: Observaties van de storingsterm zijn niet gecorreleerd met elkaar ......................... 4
Grafisch................................................................................................................................................ 5
Statistisch ............................................................................................................................................ 6
Durbin-Watson test: estat dwatson ............................................................................................... 6
Breusch-Godfrey LM – Lagrange multiplier test: estat bgodfrey, nomiss0.................................... 8
Oplossing ............................................................................................................................................. 8
ARIMA/ARMAX model ................................................................................................................... 10
5. Heteroscedasticiteit - De storingsterm heeft een constante variantie ......................................... 11
Grafisch.............................................................................................................................................. 12
rvfplot ............................................................................................................................................ 12
Box plots ........................................................................................................................................ 12
Statistisch .......................................................................................................................................... 12
Breusch-pagan ............................................................................................................................... 13
Reduced Breusch-Pagan ................................................................................................................ 13
White test ...................................................................................................................................... 13
Oplossing ........................................................................................................................................... 13
Functionele vorm & specificatie .................................................................................................... 13
6. Multicollineariteit - Geen enkele onafhankelijke variabele bevat een perfect lineair verband met
een andere onafhankelijke variabele .................................................................................................... 14
Grafisch.............................................................................................................................................. 14
Scatterplot ..................................................................................................................................... 14
Graph matrix.................................................................................................................................. 14
Statistisch .......................................................................................................................................... 14
VIF .................................................................................................................................................. 14
Oplossing ........................................................................................................................................... 14
7. De storingsterm is normaal verdeeld ................................................................................................ 15
Grafisch.............................................................................................................................................. 15
Kernel density plot ........................................................................................................................ 15
, Statistisch .......................................................................................................................................... 15
Shapiro-Wilk test ........................................................................................................................... 15
Skewness-Kurtosis test .................................................................................................................. 15
Oplossing ........................................................................................................................................... 16
Test je kennis!........................................................................................................................................ 16
Vind hier de link naar Quizlet (meer dan 90 flash cards!)
,1. Het regressiemodel is lineair, correct gespecifieerd, en heeft een
additieve storingsterm.
Extreme observaties detecteren
Ex ante
boxplot, histogram, graph matrix, scatter plot, …
Ex post
DfBèta’s, avplots (, rvfplot (residual vs fitted), plot: studentized residuals (predict rstud, rstudent) vs
fitted
DfBeta: Het verschil in bètawaarde is de verandering in de regressiecoëfficiënten die het
gevolg is van de uitsluiting van een bepaalde case. Een waarde wordt berekend voor elke
term in het model, exclusief de constante.
Gestandaardiseerde DfBeta: Gestandaardiseerd verschil in bètawaarde. Er wordt een
waarde berekend voor elke term in het model, met uitsluiting van de constante. Vuistregel:
absolute waarden van >1 is opmerkzaam (outlier).
Studentized residuals: het quotiënt dat resulteert uit de deling van een residu door een schatting van
de standaardafwijking. Je kan met andere woorden de verschillende waarden met elkaar vergelijken
omdat alles op dezelfde schaal wordt gezet. Dit is een belangrijke techniek bij de opsporing van
outliers.
Standaard Fout: standard error
De standard error is de vierkantswortel van de variantie
Wanneer een outlier?
Combineer alle ex ante en ex post bewijzen.
Check nadien op: omitted variable bias en functionele vorm.
Testen op omitted variable bias en overfitting
Men spreekt van underfitting wanneer variabelen niet in het model zitten, maar dat eigenlijk wel
moet (omitted variable bias). Consequenties: variantie van de error term is fout geschat, variantie
van de coëfficiënten zijn biased, betrouwbaarheidsintervallen en hypothese testen zijn
onbetrouwbaar.
Bij overfitting nemen we irrelevante variabelen op in het model. De variantie zal hierdoor verhogen,
de R² adjusted zal verlagen en de multicollineariteit zal verhogen. (Ook onnodig verlies aan
vrijheidsgraden, daling absolute waarde t-scores)
Overfitting is wel minder erg tov underfitting, de standaardfouten zullen wel groter worden maar de
coëfficiënten zijn bij overfitting niet vertekend.
2
,Testen op specificatie/functionele vorm
Ramsey Reset test
The Ramsey RESET test is a “Regression Specification Error Test.
• You add the squared (𝑌^2 ), cubed (𝑌^3 ), and the fourth power (𝑌^4 ) of predicted values of Y to
the original regression model
• If they are simultaneously significantly different from zero, then the errors are related to the
predicted values, indicating that there is a specification error in the original equation.
• This is based on demonstrating that there is some non-random behaviour left in the residuals
➔ Nogmaals hetzelfde principe heteroscedasticiteit en autocorrelatie: Er mogen GEEN
herkenbare patronen in de residu’s zijn om een voorspelbaar model te maken
• Original (linear) specification was not good enough
H0: correcte specificatie
HA: foute specificatie
H0 aanvaarden als p>0.10
H0 verwerpen als p<0.10
→ diagnostische test, hogere p
→ je wilt een hoge p-waarde als uitkomst
→ pas uitvoeren na wegwerken outliers
3
, 2. De storingsterm heeft een populatiegemiddelde van nul.
Standard Error meet de nauwkeurigheid van een schatting, d.w.z. de spreiding rond een schatting
→ meet hoe dicht het steekproefgemiddelde is bij het populatiegemiddelde
→ verschil werkelijke en geschatte waarde
OLS – error term
Je wilt deze minimaliseren, wat het doel is van OLS. Deze verschillen met de werkelijke waarden u
gaan we kwadrateren. Op die manier kunnen negatieve waarden het gemiddelde niet beïnvloeden
(opheffen).
Als deze minimaal is dan krijg je een steekproefgemiddelde die sterk aanleunt tegen het
populatiegemiddelde. Vandaar dat het zo belangrijk is dat de residu’s (u’s) normaal verdeeld zijn. Het
gemiddelde van een normaal verdeling is telkens 0 met een standaard afwijking van 1.
3. Alle onafhankelijke variabelen zijn niet gecorreleerd met de
storingsterm
Omitted variable bias: under-/overfitting
Men spreekt van underfitting wanneer variabelen niet in het model zitten, maar dat eigenlijk wel
moet (omitted variable bias). Deze variabelen zitten in de storingsterm, waardoor de error term niet
meer random white noise is.
Als X2 gecorreleerd is met X1 en we nemen deze niet op, schenden we de assumptie die stelt dat alle
verklarende variabelen ongecorreleerd moeten zijn met de storingsterm. Want wanneer we
bijvoorbeeld X2 niet opnemen in het model, zit deze in de storingsterm. We krijgen een vertekening
van de parameter van X1.
4. Autocorrelatie: Observaties van de storingsterm zijn niet
gecorreleerd met elkaar
Autocorrelatie, ook bekend als serial correlation is een schending van Gauss-Markov Assumptie IV
die stelt dat de observaties van de error term of de storingsterm niet gecorreleerd mogen zijn met
elkaar. Autocorrelatie kan optreden in elk onderzoek waar de volgorde van observaties een
betekenis hebben. Dit impliceert dat de storingsterm van een bepaald tijdstip een systematisch
verband bevat met de waarde van de storingsterm in andere tijdstippen. P273
Mogelijke oorzaken van autocorrelatie zijn:
• Het in effect treden van sommige variabelen kan tijd nodig hebben
• Omitted variables (weggelaten variabelen)
• Incorrecte functionele vorm
• Geen rekening houden met structuurbreuken (Chow-test)
• Extreme observaties
• Valse autocorrelatie (verkeerde specificatie, functionele vorm, …)
• Seizoenale effecten (onvoldoende dynamica)
Een negatieve autocorrelatie wijst in contexten van econometrie meestal op een specificatiefout.
4