SAMENVATTING
ONDERZOEKSMETHODEN
2020-2021
Inhoud
1. Basisprincipes OLS ........................................................................................................................... 5
1.1. Algemene inleiding .................................................................................................................. 5
1.1.1. Econometrie .................................................................................................................... 5
1.1.2. Model schatten................................................................................................................ 5
1.2. De onbekende waarde van parameters berekenen................................................................ 8
1.2.1. Ordinary Least Squares (Gewone Kleinste Kwadraten) .................................................. 8
1.2.2. OLS-schatters afleiden ..................................................................................................... 9
1.2.3. Statistische concepten..................................................................................................... 9
1.3. Eigenschappen en assumpties .............................................................................................. 10
1.3.1. Algemene eigenschappen van OLS-schatters................................................................ 10
1.3.2. Basisassumpties onderliggend LS-methode (klassieke assumpties) ............................. 11
1.3.3. Foutenterm.................................................................................................................... 11
1.3.4. Normaliteitsassumptie voor 𝒖𝒊 (𝒖𝒊~𝑵(𝟎, 𝝈𝟐) ............................................................. 11
1.4. Precisie van schattingen ........................................................................................................ 11
1.4.1. Steekproefverdeling van 𝜷 ............................................................................................ 12
1.4.2. Precisie van OLS-schatters............................................................................................. 12
1.5. Diagnose van het model ........................................................................................................ 13
1.5.1. Determinatiecoëfficiënt 𝑹𝟐 .......................................................................................... 13
1.6. Voorbeelden .......................................................................................................................... 14
2. Meervoudige regressie .................................................................................................................. 14
2.1. OLS-schatters afleiden ........................................................................................................... 14
2.1.1. Meervoudige regressie .................................................................................................. 14
2.1.2. OLS-schatters ................................................................................................................. 15
2.1.3. Modellen vergelijken ..................................................................................................... 15
2.2. Voorbeelden .......................................................................................................................... 15
3. Dummy variabelen ........................................................................................................................ 16
3.1. Kwalitatieve of dummy variabelen........................................................................................ 16
3.2. Dummies op intercept ........................................................................................................... 17
3.3. Dummies op intercept en/of helling ..................................................................................... 18
3.3.1. Dummies op intercept versus dummies op intercept en helling .................................. 18
3.3.2. Interactie-effecten (= moderatoreffecten) ................................................................... 19
, 3.3.3. Stata............................................................................................................................... 20
4. Transformaties .............................................................................................................................. 21
4.1. Interpretatie van coëfficiënten ............................................................................................. 21
4.2. Gestandaardiseerde coëfficiënten ........................................................................................ 23
4.3. Logaritmische transformaties................................................................................................ 24
4.3.1. Log-log, log-lin en lin-log modellen ............................................................................... 24
4.3.2. Keuze van de functionele vorm ..................................................................................... 26
5. Intervalschatting en toetsen van hypothesen ............................................................................... 26
5.1. Normaliteit van residu’s ........................................................................................................ 26
5.1.1. Normaliteitsveronderstelling voor 𝒖𝒊: 𝒖𝒊~𝑵(𝟎, 𝝈𝟐) ................................................... 26
5.1.2. Normaliteitstest van de residu’s ................................................................................... 27
5.2. Toetsen van hypothesen ....................................................................................................... 28
5.2.1. Wat is (statistisch) toetsen van hypothesen? ............................................................... 28
5.2.2. Intuïtie ........................................................................................................................... 28
5.2.3. Uitkomsten van toetsen van hypothesen ..................................................................... 28
5.2.4. Typische procedure voor toetsen van hypothesen in econometrie ............................. 29
5.3. Toetsen van hypothesen: t-test ............................................................................................ 30
5.4. Toetsen van hypothesen: intervalschatters .......................................................................... 31
5.4.1. Equivalentie van betrouwbaarheidsinterval en t-test................................................... 31
5.4.2. Een bepaalde nulhypothese .......................................................................................... 32
5.4.3. Een variabele opnemen of uitsluiten? .......................................................................... 32
5.4.4. Significantie (p-waarde) geassocieerd met coëfficiënten ............................................. 32
5.5. Voorbeelden .......................................................................................................................... 33
5.5.1. Stata............................................................................................................................... 34
5.6. Toetsen van hypothesen op meerdere coëfficiënten ........................................................... 35
5.6.1. Testen van lineaire restricties op parameters ............................................................... 35
5.6.2. Toetsen van hypothesen op een enkele coëfficiënt ..................................................... 35
5.6.3. Toetsen van hypothesen op meerdere coëfficiënten: 2 coëfficiënten die gelijk zijn aan
elkaar 36
5.6.4. Toetsen van hypothesen op meerdere coëfficiënten: testen van lineaire restricties .. 36
5.6.5. Toetsen van hypothesen op meerdere coëfficiënten gebaseerd op SSR: algemene
principes 37
5.6.6. Toetsen van hypothesen op meerdere coëfficiënten: groep coëfficiënten die gelijktijdig
gelijk zijn aan nul ........................................................................................................................... 37
5.6.7. Toetsen van hypothesen op meerdere coëfficiënten: lineaire restricties testen ......... 40
5.6.8. Toetsen van hypothesen op meerdere coëfficiënten: testen van parameterstabiliteit 40
5.6.9. Toetsen van hypothesen op meerdere coëfficiënten: testen van parameterstabiliteit
met behulp van intercept en slope dummies ............................................................................... 41
5.6.10. Toetsen van hypothesen op meerdere coëfficiënten: Ramsey’s RESET test ................ 42
2
, 5.6.11. Toetsen van hypothesen op meerdere coëfficiënten: andere (exotische) testprocedures
43
5.7. Detecteren van extreme observaties .................................................................................... 44
5.7.1. Ex ante: scatter plot, boxplot, histogram ...................................................................... 44
5.7.2. Ex post: plots ................................................................................................................. 44
5.7.3. Ex post: DfBeta(s) .......................................................................................................... 44
5.7.4. Studentized residuals .................................................................................................... 45
5.7.5. Extreme observaties ...................................................................................................... 46
6. Multicollineariteit .......................................................................................................................... 47
6.1. Soorten multicollineariteit .................................................................................................... 47
6.1.1. Perfecte multicollineariteit............................................................................................ 47
6.1.2. Niet perfecte multicollineariteit .................................................................................... 48
6.2. Problematiek ......................................................................................................................... 49
6.3. Variance-inflating factor (VIF) ............................................................................................... 49
6.4. Gevolgen en detectie van multicollineariteit ........................................................................ 50
6.5. Corrigerende maatregelen .................................................................................................... 51
7. Modelspecificatie en diagnostische tests...................................................................................... 51
7.1. Voornaamste oorzaken van vertekening in OLS ................................................................... 51
7.1.1. Extreme observatie ....................................................................................................... 52
7.1.2. Verkeerde functionele vorm ......................................................................................... 52
7.1.3. Omitted variable bias (= underfitting) ........................................................................... 52
7.1.4. Opname van een irrelevante variabele (= overfitting) .................................................. 52
7.2. Het al dan niet opnemen van een variabele ......................................................................... 53
7.3. Keuze van de functionele vorm ............................................................................................. 54
7.3.1. Een gepaste specificatie kiezen ..................................................................................... 54
7.3.2. Ramsey RESET-test ........................................................................................................ 54
7.4. Conclusie ............................................................................................................................... 56
8. Heteroscedasticiteit ...................................................................................................................... 56
8.1. Algemeen............................................................................................................................... 56
8.2. Detecteren van heteroscedasticiteit ..................................................................................... 58
8.2.1. Grafische diagnose ........................................................................................................ 58
8.2.2. Statistische testen ......................................................................................................... 59
8.3. Hoe omgaan met heteroscedasticiteit? ................................................................................ 62
9. Autocorrelatie en tijdreekseconometrie ....................................................................................... 63
9.1. Autocorrelatie (seriële correlatie) ......................................................................................... 63
9.1.1. Oorzaken van autocorrelatie ......................................................................................... 63
9.1.2. Gevolgen voor OLS-schatters ........................................................................................ 64
9.2. Hoe autocorrelatie detecteren? ............................................................................................ 64
3
, 9.2.1. Grafische detectiemethoden......................................................................................... 64
9.2.2. Statistische tests ............................................................................................................ 68
9.3. Oplossingen voor autocorrelatie ........................................................................................... 71
9.3.1. Seizoensdummies .......................................................................................................... 71
9.3.2. Dynamische specificatie: met inbegrip van vertraagde variabelen .............................. 71
9.3.3. Gedistribueerde lag en autoregressieve modellen ....................................................... 72
9.4. Oplossingen voor autocorrelatie na opnemen van trends, seizoensdummies en vertraagde
variabelen .......................................................................................................................................... 74
9.4.1. Oplossing in het geval van 1ste orde autocorrelatie: taking first differences ................ 74
9.4.2. ARIMA-model of ARMAX-model schatten .................................................................... 74
4
,1. Basisprincipes OLS
1.1. Algemene inleiding
1.1.1. Econometrie
Econometrie = een techniek die relaties tussen bepaalde variabelen aantoont of (significant
verschillende) relaties verwerpt en deze relatie kwantificeert
➔ Grafisch: scatterplot
➔ Een redelijk onderliggend economisch model is vereist om een
relevante link te leggen
➔ Correlatie betekent niet noodzakelijk dat er ook causaliteit
➔ Econometrie heeft 3 hoofddoeleinden
Hypothesen over
economische theorieën en Toekomstige
beleiden testen economische activiteiten
bv. Wordt private voorspellen
Economische realiteit consumptie beïnvloed door bv. Wat zal de wisselkoers
beschrijven de beursprestaties? euro-dollar, de prijs van
bv. Met hoeveel moet de olie, de
prijs van sigaretten stijgen werkloosheidsgraad... zijn
om de consumptie ervan te binnen 6 maanden?
verlagen met 10%?
1.1.2. Model schatten
1.1.2.1. Mogelijke valkuilen bij het schatten van een model
• ‘Mechanisch' nabootsen van gedrag, zonder te begrijpen wat je aan het doen bent
• Correlatie (of significant effect) impliceert geen causaliteit
• Niet steunen op een degelijk onderliggend model
• Omitted variable bias (vergeten variabelen)
• Extreme observaties
• Geen rekening houden met het datatype (cross-section, tijdreeks, panel,...)
• Geen rekening houden met het meetniveau van afhankelijke en onafhankelijke variabelen
Reverse causality = het verband is in 2 richtingen mogelijk. Bv. de gezondheid van mensen en hun
inkomen: gezondere mensen verdienen meer, omdat ze meer werken OF mensen die meer verdienen
gaan/kunnen sneller naar de dokter, tandarts… en zijn dus gezonder.
1.1.2.2. Vereiste van een goed onderliggend model
Bv. vraag naar Coca Cola en de verkoop van airco enerzijds en de verkoop van Kerstkaarten anderzijds.
De factor weer speel hier mee. Bij warm weer drinkt men meer Cola en koopt men meer airco-
installaties (positieve correlatie), maar men koopt minder Kerstkaarten (negatieve correlatie).
➔ Econometrie is geen exacte wetenschap! Het gezond verstand gebruiken is vereist
5
,Omitted variables
Men zou een positief verband kunnen zien tussen het aantal
asbakken in huis en het risico op longkanker. Er is waarschijnlijk
een andere variabele die hier een rol speelt: als er meer asbakken
zijn, dan zijn er meer mensen die roken en dan is er een hoger risico
op longkanker.
Extreme observation
Bv. relatie tussen aantal ziekenhuisdagen en de totale kost van
het ziekenhuis
𝑇𝑜𝑡𝑎𝑙𝑒 𝑘𝑜𝑠𝑡 = 𝛽0 + 𝛽1 𝐷𝑎𝑔𝑒𝑛
TK = lineaire functie van dagen
𝛽0 = constante term = intercept
𝛽1 = helling = rico
Schatting van 𝛽1
• 1ste regressie (rode curve): 𝛽1 = €405
De outlier is er niet uitgehaald, waardoor deze de hele curve scheef trekt
• 2de regressie (groene curve): 𝛽1 = €510
Dit is een veel betere regressie, want hier is de outlier er wel uitgehaald
➔ 1 bijkomende dag (= marginale kost) kost €405 of €510
➔ Het verschil is heel belangrijk voor o.a. de financiering van het ziekenhuis
Bv. schatting van een consumptiefunctie
➔ Economische theorie: private consumptie wordt deels
bepaald door inkomen
𝐶𝑜𝑛𝑠𝑢𝑚𝑝𝑡𝑖𝑒 = 𝛽0 + 𝛽1 𝐼𝑛𝑘𝑜𝑚𝑒𝑛
𝛽0 = autonome consumptie
𝛽1 = marginale neiging tot consumeren
Regressielijn
Gemiddeld stijgt de lengte van kinderen met hun leeftijd, stijgt het gewicht met lengte, consumptie
stijgt met het gezinsinkomen… maar dit geldt niet voor elk individu of elk gezin. Dat zie je aan de punten
die niet op de regressielijn liggen.
6
,Schatting consumptiefunctie
Model: 𝐶 = 𝛽0 + 𝛽1 𝐼
C en I - Bekende data
- Variabel
β0 en β1 - Onbekende data
- Coëfficiënten (= parameters)
➔ Doel: β0 en β1 (betrouwbaar) schatten en daarvoor hebben we informatie nodig over C
en I
➔ Vergelijking schatten + resultaten van de schattingen evalueren (diagnostische test,
significantie…)
3 soorten data
• Crossectie data: bv. een aantal landen, een aantal gezinnen… op een bepaald moment
• Tijdreeks: bv. een bepaald land gedurende een bepaalde periode
• Pooled data of panel data: bv. een aantal landen gedurende verschillende periodes
Stappenplan om tot een goed model te komen
1.1.2.3. Terminologie en notatie
Variabelen en parameters
𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1,𝑡 + 𝛽2 𝑋2,𝑡 + 𝛽3 𝑋1,𝑡−1 + 𝛽4 𝑌𝑡−1 + 𝑢𝑡
7
,Afhankelijke en verklarende variabelen
Meetniveau van variabelen
4 categorieën:
• Ratiovariabele: bv. inkomen (hoger inkomen dan iemand anders, het verschil en de ratio zijn
betekenisvol)
• Intervalvariabele: bv. jaartelling (het is een jaar later, er is 1 jaar bijgekomen, maar de ratio
is niet betekenisvol)
• Ordinale variabele: bv. graden van verdiensten (grote onderscheiding is beter dan voldoende,
maar het verschil en de ratio hebben niet echt een betekenis)
• Nominale variabele: bv. geslacht, postcode, provincie… (er is geen superieur geslacht, het
verschil en de ratio hebben gen betekenis)
Ratio (X1/X2) Verschil (X1 – X2) Natuurlijke ordening?
betekenisvol? betekenisvol?
Ratio JA JA JA
Interval NEE JA JA
Ordinaal NEE NEE JA
Nominaal NEE NEE NEE
➔ Het is heel belangrijk om het meetniveau van de variabelen te bestuderen, want
sommige econometrische technieken kunnen enkel toegepast worden op een bepaald
meetniveau!
1.2. De onbekende waarde van parameters berekenen
1.2.1. Ordinary Least Squares (Gewone Kleinste Kwadraten)
OLS = techniek om de beste curve door een scatterplot te bepalen
➔ Scheidt de willekeurige component van de systematische component
➔ 2 soorten regressie
o Enkelvoudige regressie
o Meervoudige regressie
➔ Causaliteit van rechts naar links
8
, Bv. punten op het examen → model: Punten = 𝛽̂0 + 𝛽̂1 𝑈𝑟𝑒𝑛 + 𝛽̂2 𝐼𝑄1 + 𝛽̂3 𝐺𝑙𝑎𝑧𝑒𝑛 + 𝑢̂
Punten: score op het examen
Uren: aantal uur gestudeerd
IQ: IQ-score
Glazen: gemiddeld aantal glazen alcohol per week
Stel: resultaat van de schatting → Punten = 1 + 0,5𝑈𝑟𝑒𝑛 + 0,05𝐼𝑄1 − 0.75𝐺𝑙𝑎𝑧𝑒𝑛 + 𝑢̂
Voorspelling punten: 20 uur gestudeerd, IQ van 120 en 5 glazen
➔ 1 + 0,5 ∗ 20 + 0,05 ∗ 120 − 0.75 ∗ 5 = 13,25
1.2.2. OLS-schatters afleiden
Werkelijke Y = Voorspelling + residu
De som van de gekwadrateerde residu’s moet geminimaliseerd
worden! We gebruiken hun kwadraten, omdat de negatieve en
positieve fouten elkaar anders zouden compenseren. Ook krijgen
grotere fouten op die manier een groter gewicht.
1.2.3. Statistische concepten
∑𝑖 𝑋𝑖
• Verwachte waarde (gemiddelde): E(X) = 𝑋̅ = 𝑁
∑𝑖(𝑋𝑖 −𝑋̅)2
• Variantie: 𝑉𝑎𝑟(𝑋) = = 𝐸(𝑋 − 𝑋̅) = 𝑁−1 → gemiddelde kwadratische afleiding van
𝜎𝑋2 2
het gemiddelde
• Standaarddeviatie: 𝜎𝑋 = √𝜎𝑋2
• Covariantie: 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸{(𝑋 − 𝑋̅)(𝑌 − 𝑌̅)} = 𝐸(𝑋𝑌) − 𝑋̅𝑌̅ → variantie van een variabele
is de autocovariantie
𝐶𝑜𝑣(𝑋,𝑌) 𝐶𝑜𝑣(𝑋,𝑌)
• Correlatie: 𝜌 = = 𝜎𝑋 𝜎𝑌
√𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌)
9