Econometrie
1. INLEIDING
WAT?
Econometrie is een discipline binnen de economische wetenschap die als doel
heeft de kwantitatieve beschrijving te geven van de relaties tussen
economische variabelen, en overstijgt dus het descriptieve karakter van de
samenvattende statistiek.
Aan de hand van econometrie kunnen we theoretische hypotheses gaan
toetsen, en voorspellingen maken.
Het is een samenvoegsel van economische theorie, wiskunde en statistiek.
WAAROM?
Veel beslissingen in de economie, management en overheid hangen af van het verstaan van de
relaties tussen de variabelen. Deze kwantitatieve vragen hebben ook kwantitatieve antwoorden
nodig.
- Marketing: Wat is de impact van reclamecampagnes op de verkoop van smartphones?
- Overheidsbeleid: Hoeveel mensen stoppen et roken als de accijnzen op sigaretten toeneemt?
- Macro-economie: Wat is de impact van een toename van de investeringen in R&D op economische
groei?
- Monetair beleid: Wat is de impact van een renteverlaging door de ECB op inflatie?
-…
Causale effecten en ceteris paribus
De meest relaties die een econometrist moet kwantificeren zijn causale of oorzakelijke relaties.
- Een actie veroorzaakt een resultaat als het resultaat een direct gevolg is van de actie.
- Correlatieanalyse meet de mate van lineaire associatie maar verondersteld geen causaal verband.
Dus het is niet omdat er ook verband is tussen de variabelen, dat dit een oorzaak-gevolg is.
- Bij regressieanalyse veronderstelt we wel een causaal verband. Hier gaan we kijken dat er een
oorzaak-gevolg verband tussen de variabelen.
Hoe kunnen we deze causale effecten meten?
Ideaal is het uitvoeren van een gecontroleerd experiment.
In dit experiment hebben we een controle groep, dit is de groep waar niet aan gevraagd wordt bv.
Gewoon niet roken.
Daarnaast hebben we de treatment groep, dit is de groep die we gaan aanpassen. Bv. Wel roken.
-> Dan gaan we kijken naar het verschil tussen de 2 groepen om het causale effect te meten.
MAAR in de praktijk is zo een gecontroleerd experiment heel moeilijk:
- Niet ethisch, je kan niet mensen verplichten (niet) te roken.
- Te duur
- Tijdrovend
- Omstandigheden kunnen niet gecontroleerd worden. Bv Sommige mensen hebben meer genen om
longkanker te krijgen dan andere dus het experiment met de sigaretten zal geen uitsluitend beeld
geven.
1
,DAAROM gaan we in de plaats van de experimentele data dus vaak de geobserveerde data
gebruiken. Deze geobserveerde data is de beschikbare data die we hebben, maar dit is dus niet alle
data die je moet hebben.
- Omdat je niet alle data hebt, maar je hebt maar een beperktere hoeveelheid zorgt dit ervoor dat de
richting van causaliteit niet ontegensprekelijk vast staat.
- Het betekent ook niet dat indien je een statistisch verband hebt, dat je ook een oorzakelijk verband
hebt.
- Eén van de grote uitdaging is het inschatten van causale effecten op basis van niet-experimentele
data.
- Rol ceteris paribus: Controleren voor ‘derde variabelen’, dus kijken dat deze geen rol spelen
Stappen in het kwantificeringsproces
- We vertrekken vanuit een economische theorie. Dit heeft een kwalitatief verband weer. Bv.
Keynesiaanse consumptie functie, relatie tussen consumptie en inkomen. Indien je inkomen stijgt,
stijgt je consumptie
- Daarna gaan we dit kwalitatief verband om zetten tot een mathematische specificatie.
Bv. Y =B1 + B2X of de logaritmische versie lnY= B1 + B2lnX. Y=consumptie en X= inkomen,
met Beta1 een constante en Beta 2 is je hellingsgraad.
- Dan krijgen we econometrische specificatie van het model, namelijk
Y = B1 + B2X - met een stochastische storingsterm. Deze storingsterm wordt aan het
model toegevoegd omdat de relatie tussen consumptie en inkomen niet exact is omwille
van:
Andere factoren die inkomen beïnvloeden zoals vermogen, rente, …
Meetfouten in de data
Het verband tussen Y en X is statistisch.
Dus hier geven de puntjes in je grafische weergave de storingsterm weer. Want je
consumptie zal toch niet perfect op de lijn liggen voor dat inkomen.
- Na deze econometrische specificatie gaan we data verzamelen
- Hoe meer data en hoe juister de data, hoe beter we de onbekende parameters gaan schatten. Deze
schatten gaat leiden tot een regressieanalyse. We moeten dus B1 en B2 gaan schatten. Deze
schatting moet wel consistent, zuiver en efficiënt zijn
- Eenmaal we dit hebben geschat, kunnen we een analyse van het model maken. Er moet ook een
ceteris paribus zijn want er mogen geen andere variabelen een rol spelen.,
- Testen van hypothesen
Datatypes:
3 types van data
- Cross-sectionele data is data dat je op 1 moment in de tijd gaat meten voor meerdere individuen.
Bv. Consumptie en inkomen op 1 moment maar voor meerdere bedrijven, landen, …
- Tijdreeks data is data waar je op meerdere momenten in de tijd gaat data verzamelen voor 1
individu, bedrijf of landen.
- Panel data is data dat je op meerdere momenten gaat verzamelen in de tijd en ook voor meerdere
individuen, bedrijven en landen.
2. Regressieanalyse met 2 variabelen
2
, 2.1 Basisconcepten
A. Doel regressieanalyse
De regressieanalyse is grotendeels geconcentreerd met de studie van de afhankelijkheid van een
variabele. We hebben de afhankelijke/dependent variabele en de onafhankelijke/explanotary
variabele. Men probeert een inschatting te maken van het gemiddelde en de mediaan van populatie.
B. Hypothetische voorbeeld
Verondstel een hypothetisch land met een totale populatie van 60 gezinnen. Dus we kijken naar
de hele populatie.
We hebben voor elk gezin data over consumptie-uitgaven (Y) en inkomen (X).
Het doel is om de verwachte consumptie uitgaven (E(Y)) van de gezinnen te bepalen bij een bepaald
inkomen (Xi)
We bekijken dit eerst als een discrete verdeling. Dus we gaan voor de
verschillende inkomensniveaus zien hoeveel de gezinnen uitgaven. Voor
elk inkomensniveau hebben we een paar gezinnen en toont men
hoeveel ze uitgaven. Bij bv. Inkomensniveau 80 hebben we 5 gezinnen,
in totaal geven deze gezinnen 325 uit. Dit betekent dus dat elk gezin
325/5, gemiddeld 65 consumeert. We doen dit voor elk inkomensniveau.
We kunnen op basis van deze punten dan een lijn trekken.
Inkomensniveau en gemiddelde zijn de 2 coordinaten.
Dus voor een hele populatie kunnen we Beta1 en Beta2 inschatten en dus
de regressiefunctie te tekenen zonder econometrie toe te passen omdat
je alle data voor handen hebt. Maar normaal heb je nooit data voor een
hele populatie, maar heb je enkel een steekproef en heb je dus wel
econometrie nodig.
C. Conditionele verwachte waarde
Dus in ons voorbeeld zijn X en Y afhankelijk
want ze verwachte waarde van Y
conditioneel op de kansvariabele X is niet
hetzelfde als de verwachte waarde van Y
D. De populatie-regressiefunctie
Dus in ons voorbeeld hebben we dus data voor de hele populatie (namelijk 60 gezinnen, maar in de
werkelijkheid komt dat niet veel voor)
De populatie-regressiecurve is de locus van de voorwaardelijke
verwachtingen van de afhankelijke variabele voor de vaste waarden van
de onafhankelijke variabele
We gaan nu werken met een continue verdeling, dus voor elke waarde
van X of inkomensniveau hebben we oneindig aantal waarden voor Y of
consumptie
We hebben nog steeds de mathematische specificatie:
E(Y/Xi) = f(Xi) Dus de verwachte waarde van consumptie staat in
functie van het inkomensniveau
E(Y/Xi)= B1 + B2XI
Betekenis lineair:
Twee alternatieve interpretaties:
3
, Lineair in variabelen:
o De voorwaardelijke verwachtingen voor Y zijn een lineaire functie van X
o Dus de variabele zijn Y en X
Lineair in de parameters:
o De voorwaardelijke verwachtingen voor Y zijn een lineaire functie van B1 en B2
o Dus de parameters zijn B1 en B2
De basistheorie regressieanalyse steunt op de veronderstelling van lineariteit in de parameters,
terwijl niet-lineairiteit in de variabelen is toegestaan.
De populatie-regressiefunctie is slecht gemiddeld genomen correct. Omdat we dus nog steeds moet
rekeninghouden met , de stochastische storingsterm of foutenterm.
Dus de consumptie is wel afhankelijk van het inkomen, maar je moet ook rekening houden met de
foutenterm. Bij de discrete verdeling zien we deze of foutenterm weergegeven met de stippenlijn.
Deze stippenlijn betekend dat bij elk inkomensniveau, je consumptieniveau kan gaan wijzigen.
Interpretatie
o E(Y/Xi): Systematische component, dit is wat je kan inschatten op basis van de data
die je hebt
o : niet-systematische component of kanscomponent, moet rekening houden met
andere niet voorziene factoren
Onder de huidige veronderstelling:
o E(Y/Xi)= B1 + B2Xi
Wordt
o Yi=E(Y/Xi)+ = B1 + B2Xi +
E. Oorsprong van de stochastische storingsterm
De storingsterm is een bundeling van alle variabelen/factoren die Y beinvloeden maar die niet in het
model werden opgenomen.
Mogelijke redenen zijn hiervoor:
De theorie is vaag
Goede data zijn niet beschikbaar
Eenvoud, andere variabele hebben slechts kleine invloed
De data bevatten meetfouten
…
F. De steekproef-regressiefunctie
We hebben dus gekeken naar een voorbeeld waar we de data hadden voor de hele populatie, maar
dit zal in de werkelijkheid bijna nooit zo zijn omdat niet gaat. Te duur, tijdintensief, …
De steekproef moet dus een goede inschatting geven van de populatie.
We hebben dus gezien bij de populatie regressiefunctie hebben we geen econometrie om de
parameters B1 en B2 te berekenen omdat we alle data hebben.
Indien we een steekproef hebben bv. 10 gezinnen random getrokken uit de 60 die er zijn, hebben we
wel econometrie nodig om B1 en B2 te vinden
We zullen nu dus op basis van deze steekproef een steekproef-regressiefunctie opstellen met als
doel deze zo dicht mogelijk te doen lijken op de populatie-regressiefunctie. Opgelet elke steekproef
verschil van elkaar, dus ook de steekproef-regressiefuncties zullen van elkaar verschillen.
Dus aan de hand van de steekproef zullen we dus een inschatting maken van de parameters.
^Yi= ^B1 + (^B2 x Xi)
4