Onderzoeksmethodologie
Econometrie is vooral interpretatie, geen definities.
Herhaling OLS assumpties
Alle concepten van de schakel worden verondersteld ACTIEF gekend te zijn.
Dus F-test, T-test, Multicollineariteit moet gekend zijn.
https://stats.idre.ucla.edu/ handige slide: legt elk getal uit van SPSS output.
Deze stappen moet men volgen doorheen een
onderzoek.
De data perfect kennen voor je aan je analyse begint.
Soorten variabelen: meetniveau ’s: (grijze vakken is wat de kenmerken zijn voor bepaalde
meetniveau ‘s.
Meetniveau: aard van de variabele: bepaald wat je mag doen met variabele.
Niet metrisch: mag je niet alles mee doen.
o Nominaal: Man of Vrouw, 1 of 0: getallen geen metrische betekenis.
o Ordinaal: Likertschaal <7, inkomenscategorieën, ..
Metrisch: hier mag je mee rekenen
o Interval: Likertschaal van meer dan 6, temperatuur, tijd, ..
, o Ratio: inkomen, uitgaven, prijzen, ..
Kenmerken:
Opdeling in categorieën
Natuurlijke ordening: er zit wel een volgorde in, bv likert schaal: akkoord, volledig akkoord, …
als je dit omzet in cijfers (Likertschaal) is 5 wel “meer” dan 1. Bepaalde antwoorden zijn
beter.
Interpreteerbare categoriebreedte
Natuurlijk nulpunt: Natuurlijk nulpunt: totale afwezigheid van iets, als temperatuur 0 is, is er
nog altijd een temperatuur, dus geen natuurlijk nulpunt. Natuurlijk nulpunt bv nodig om
dingen te logaritmeren. Voor procentuele veranderingen te berekenen heb je ook een
natuurlijk nulpunt nodig.
Temperatuur: nulpunt is geen natuurlijk nulpunt, dit is gewoon een afspraak, met Fahrenheit
is het bv anders. 10 graden is dus niet het dubbele van 5 graden. Zelfde geldt voor jaartallen.
Ratio’s hebben wel natuurlijk nulpunt: bv inkomen 0 je verdient niks.
Correlatie
betekent GEEN causaliteit. Ook al is er 95% correlatie, dit betekent niet dat het ene het andere
veroorzaakt. Ook gezond verstand gebruiken: heel hoge correlatie wil nog niet zeggen dat het iets
met elkaar te maken heeft.
Omitted variable bias
Stel dat in werkelijkheid zowel X1 als X2 een impact hebben op Y, maar dat we enkel X 1 opnemen in
het model
Indien X1 en X2 gecorreleerd zijn, zal een deel van de impact van X 2 op Y in de coëfficiënt van X1
sluipen en zal deze coëfficiënt dus vertekend zijn.
Asbakken veroorzaken geen longkanker, er is een derde
variabele die hier niet inzit.
Omitted: degene die er niet in zit.
Voorbeeld: Coca Cola en Airco verkopen als het warm is
gaan beide stijgen, dit wil nog niet zeggen dat het iets
verklaard: gezond verstand is nodig.
reversed causality: Bv rijkdom en gezondheid, dit kan in 2
richtingen gaan: ben je gezonder omdat je rijker bent? Of ben je rijker omdat je gezond bent?
Extreme observaties
Extreme observatie kan heel regressielijn scheeftrekken.
Detectie
Ex ante : scatter plot matrix
Ex post : casewise diagnostics, standardised residuals, partial
plots, (standardised) predicted vs. (standardised) residuals,
histogram van residuals, (standardised) DfBeta(s),
Mahalanobis, …
Oorzaak
Echte extreme observatie
Foute functionele vorm, omitted variable bias
Oplossing
, Verwijderen (enkel bij cross-sectie)
Dummies
Extreme observaties ontdekken VOOR je begint te schatten.
Ook op examen kan dit er in zitten zonder dat het vermeld wordt eerst oplossen.
Casewise diagnostics gaat er altijd nieuwe vinden na het verwijderen van de buitenste. Het beste is
op voorhand scatter plot matrix maken!!
Onechte extreme observaties: wanneer er een foute functionele vorm is. De vorm kan je best op
voorhand ook bekijken met scatterplot matrix.
Bij tijdreeks nooit observaties verwijderen.
Wat is OLS?
De best mogelijke lijn door de puntenwolk. Deze
minimeert de afstand tussen punten en de lijn.
De afstand tot de lijn is de fout.
Wordt gekwadrateerd zodat de negatieve en positieve
getallen elkaar niet doen verdwijnen. Dit kwadraat
wordt geminimeerd.
Assumpties (+ hoofdstuk Gujarati)
1. Model is linear in parameters Chapter 14
2. X values are nonstochastic and independent of error term:
Cov(ui, Xi) = 0 Chapter 18-20
No correlation between disturbance term and exogenous variables
3. Zero mean value of disturbance :
E(ui|Xi)= 0 Chapter 13
On average the disturbance is zero
4. Homoscedasticity :
Var(ui|Xi) =σ²= constant Chapter 11
No heteroscedasticity
5. No autocorrelation (serial correlation) between the disturbances :
Cov(ut,ut-j)=0 Chapter 12
6. Number of observations greater than number of parameters to be estimated
7. Nature of X variables :
a. Not all X values can be the same (variables must vary)
b. No outliers
8. No specification bias : model is correctly specified Chapter 13
9. Normality assumption for ui :
ui ~N(0, σ²) Chapter 4
10. No exact linear relationship between different X variables (i.e. no multicollinearity)
→ Chapter 7 & Chapter 10
Storingsterm
Er mag geen patroon in de residuen zitten, deze moeten random zijn. Als er een patroon in zit, dan is
, er waarschijnlijk iets niet in orde.
Patroon kan bv veroorzaakt worden door foute functionele vorm te schatten, door een extreme
observatie, autocorrelatie, niet alle variabelen opgenomen, …
Altijd eerst data binnenstebuiten keren vooraleer je econometrisch gaat schatten:
Exacte betekenis van de variabelen
Correct geïmporteerd?
Meetniveau
Missing values
Extreme observaties
Inconsistenties in data (string vs numeric, komma’s, duizendtallen, eenheden, …)
Descriptive statistics, frequenties, correlaties, lijngrafieken, scatter plots, histogrammen, …
…
R² enkel vergelijken als Y-variabele hetzelfde gebleven is.
Altijd eerst inhoudelijk kijken, een model kan heel goed lijken door bv spurious correlation maar dit
kan nog altijd rommel zijn.
F-test
F test is voor groepen van variabelen. Kijken of groepen samen significant verschillend zijn.
Bv testen of X2, X3 en X4 samen significant verschillend zijn van 0.
Deze werkt o.b.v. varianties, SSR, ANOVA-tabel
Restricties op meerdere parameters
BV CHOW-test of Goldfeld-Quandt (heterosc.)
T-test
T-test is bv om te testen of 1 veriabele gelijk is aan 0. of B1=B2
Werkt o.b.v. parameter, std. error
Testen of 1 variabele significant is
Testen of parameter bepaalde waarde heeft
Testen of 2 parameters gelijk zijn
Gestandaardiseerde variabelen
Standardised coefficients: alles is uitgedrukt in standaardafwijkingen. Als X1 stijgt met 1
standaarddeviatie, dan gaat Y stijgen met … standaarddeviaties
Zo staat alles in dezelfde metriek (namelijk standaarddeviaties). Zo kan de belangrijkheid van de
variabelen ook bekeken worden.
gemiddelde is altijd 0 en standaarddeviatie is altijd 1.
Transformaties: kwadratische vorm, logaritmes, ..
Een kostenfunctie is bv typisch een derde graad.
Via ln kan je lineaire vorm schatten.
Double log: coëfficiënten zijn elasticiteiten.
Keuze functionele vorm:
Onderliggende economische theorie (bv
kostenfunctie)
Eerder onderzoek