Dit vak werd gegeven door Prof. Andres Algaba en Nabil Bouamara. Deze samenvatting is een combinatie van het lesmateriaal en zelfgemaakte extra notities van tijdens de lessen. Het vat bondig en duidelijk de theorie van het vak samen. Succes!
Wat is econometrie?
Econometrie is een belangrijk onderdeel van hedendaags onderzoek. Het is een discipline binnen
de economische wetenschap die als doel heeft een kwantitatieve beschrijving te geven van de
relaties tussen economische variabelen, en overstijgt dus het descriptieve karakter van
samenvattende statistieken. Aan de hand van econometrie kunnen we theoretische hypotheses
gaan toetsen, en voorspellingen maken. Het is een samenvoeging van economische theorie,
wiskunde en statistiek.
➔ Inferentie: effecten berekenen. Hoe beïnvloedt een verandering in X de variabele Y?
➔ Voorspellingen.
Bv.: belangrijkste factoren voor een hoger loon?
Het is onvoldoende gewoon te kijken naar verschillende gemiddeldes en op basis daarvan
bepaalde uitspraken te doen. We hebben een multivariaat model nodig met alle relevante
variabelen voor het loon, en moeten dan het effect van al deze variabelen gezamenlijk
schatten (ceteris paribus effect = je bekijkt het effect van één veranderende factor, terwijl je
ervan uitgaat dat alle andere omstandigheden gelijk blijven).
We hebben voldoende observaties, en dus data, nodig om alle modelparameters te kunnen
schatten. Bij een bepaald model dat we moeten schatten, maken we bepaalde assumpties. Deze
assumpties moeten getoetst worden om na te gaan of ze effectief kloppen. De realiteit is complexer
dat het model, wie schat maakt fouten.
ECONOMETRIE VS BESCHRIJVENDE STATISTIEK
INFERENTIËLE STATISTIEK
Statistische methoden die gebruik maken van de beschikbare data (steekproef) om zo een uitspraak
te maken omtrent het (onzichtbare) onderliggende DGP (= DataGeneratieProces). Dit is een
wiskundig proces om aan te geven hoe we denken dat Y tot stand kwam.
Eigenschappen van het proces.
Validatie van gemaakte assumpties via hypothesetoetsen.
Schatten van parameters en kwantificeren onzekerheid omtrent deze schatting, we gaan het
gemiddelde gebruiken als voorspeller.
Beschrijvende statistiek daarentegen gebruikt numerieke en grafische methodes om data te
beschrijven en samen te vatten.
SOORTEN DATA
Cross-sectionele data
Afhankelijkheid tussen entiteiten over dezelfde periode. Individuen bestuderen op een vast moment.
Bv.: inflatie in België, Nederland, Frankrijk, ... in 2019.
Luca Pleysier - 2024/2025
, 2
Tijdreeks data
Afhankelijkheid van dezelfde entiteit over verschillende periodes. Variabele op verschillende
tijdstippen bestuderen (veel assumpties worden geschonden).
Bv.: inflatie in België over de jaren 1990, ..., 2024.
Panel (longitudinale) data
Afhankelijkheid tussen andere entiteiten en over verschillende periodes. Verschillende individuen
doorheen de tijd beschouwen.
Bv.: inflatie in België, Nederland, Frankrijk, ... over de jaren 1990, ..., 2024.
DATAGENERATIEPROCES
We specifiëren voor dit DGP een model met (onbekende) parameters die we dienen te schatten. We
zijn geïnteresseerd in het stochastische (= manier waarop de variabele gegenereerd wordt) proces
dat de kansvariabele Y genereert.
De kansvariabele Y hangt af van:
➔ Andere manifestaties van dezelfde kansvariabele Y.
➔ Andere voorspellende of verklarende kansvariabelen X.
CONDITIONELE VERWACHTE WAARDE
E[Y] is de conditionele verwachte waarde van een kansvariabele Y. E[Y|X] is de verwachte waarde
van een kansvariabele Y conditioneel op een kansvariabele X.
Indien X en Y stochastisch afhankelijk zijn, krijgen we dat: E[Y|X] ≠ E[Y]. We kunnen namelijk omwille
van de afhankelijkheid een betere voorspelling van Y doen, als X gekend is.
ECONOMETRIE
We veronderstellen dat de observaties van een kansvariabele Y het resultaat zijn van een
onderliggend DGP. We specifiëren een model aan de hand van een functionele vorm (bevat
onbekende parameters die we moeten schatten) dat de afhankelijke variabele Y en de
onafhankelijke variabelen X verbindt.
AFHANKELIJK VAN VERKLARENDE VARIABELEN
Deterministisch
Y = h(X), waar we de reëelwaardige functie h(.) de functionele vorm noemen.
Stochastisch
Y = h(X) + Ɛ, met E[Ɛ|X] = 0 en Var[Ɛ|X] > 0 (assumpties!). De functie h(.) bevat onbekende
parameters die we dienen te schatten.
Lineair regressiemodel
Y = + X + Ɛ, met Ɛ ~ N(0, 2), met Ɛ als foutterm. Het gaat hier om een i.i.d.-verzameling
(= independent and identically distributed, de variabelen beïnvloeden elkaar niet en hebben dezelfde
kansverdeling).
Luca Pleysier - 2024/2025
, 3
ONAFHANKELIJK EN GELIJK VERDEELD
Een sterke assumptie op het DGP is dat een variabele onafhankelijk en gelijk verdeeld (i.i.d.) is. We
stellen dat de kansvariabele Y i.i.d. is met als (onbekende) parameters een verwachte waarde en
een variantie 2. We dienen deze parameters te schatten.
Y ~ (, 2), we kennen enkel Y.
Soms maken we de nog sterkere assumptie van i.i.d. in combinatie met normaal verdeeld.
Y ~ N(, 2)
Notatie: kleine y zijn de punten die je uiteindelijk observeert, de relaties, waarvan je assumpties gaat
maken die belangrijk zijn voor de validiteit en voorspellingen.
Omdat iedereen een eigen kansvariabele Y heeft, en we van i.i.d. spreken:
E[Y1] = E[Y2] = ... = E[Yn]
2[Y1] = 2[Y2] = ... = 2[Yn]
WAT INDIEN WE ENKEL Y HEBBEN?
Keuze schatter voor locatie
Assumptie DGP: veronderstel dat y1, y2, ..., yn de realisaties zijn van kansvariabelen Y1, Y2, ..., Yn en
dat Y1, Y2, ..., Yn i.i.d. zijn, met E[Yi] = , voor i = 1, 2, ..., n.
➔ Hoe kunnen we met de steekproef y1, y2, ..., yn de locatieparameter schatten? Wat is de
functie hn(.) zodat ̂ n = hn(y1, y2, ..., yn).
Kleinste kwadratenschatting (beste schatter)
̂ zo kiezen dat het gekwadrateerde verschil tussen de geobserveerde data en de locatieparameter
minimaal is. Voor iedereen een voorspelling maken en ervoor zorgen dat de som van de
gekwadrateerde fout geminimaliseerd wordt: werkelijke punt aftrekken van de voorspelling (soms
overschatting en soms onderschatting dus van elkaar aftrekken, heffen elkaar op).
➔ ̂ LS = arg min ∑𝑛𝑖=1 (yi - ̂ )2, grote fouten worden extra hard afgestraft door de 2e macht.
(LS = least squared)
Eerste en tweede orde conditie minimum
1
Van formule hierboven de afgeleide nemen naar ̂ om dit te bekomen: ̂ LS = ∑𝑛𝑖=1 yi . Dit is het
𝑛
steekproefgemiddelde. De tweede afgeleide is steeds positief en geeft dus aanleiding tot een
minimum.
Steekproefgemiddelde
Onder sterke assumpties kan het steekproefgemiddelde aanzien worden als de beste locatie
schatter in termen van kleinste gekwadrateerde voorspellingsfouten. Wat we kunnen zeggen over
de verwachte waarde, variantie en verdeling van deze schatter zal afhangen van de assumpties.
Luca Pleysier - 2024/2025
, 4
Statistische eigenschappen
1
Het gemiddelde van de steekproef is: ̂ n = 𝑛 ∑𝑛𝑖=1 yi , hoe gaat de schatting zich gedragen?
Interpretatie:
➔ Descriptief: ̂ n is het gemiddelde van de steekproef.
➔ Inferentieel: ̂ n zegt iets over de verwachte waarde van het onderliggende DGP.
Om deze inferentie te kunnen doen, moeten we extra assumpties maken over het DGP welke
y1, y2, ..., yn gegenereerd heeft.
Assumptie van homogeniteit
Algemeen is een zekere homogeniteit in de steekproef vereist zodat we geen appelen met peren
vergelijken. We willen als minimum realisaties uit verdelingen met hetzelfde gemiddelde. De enige
manier een schatting te maken is ervan uit te gaan dat we een kansvariabele delen, dat er een
minimale homogeniteit is.
Berekening van de variantie
Hoe groter de variantie, hoe onzekerder de schatting. Deze is volledig afhankelijk van de data.
Assumpties van DGP zeggen een gelijke verwachte waarde en variantie + onafhankelijkheid (i.i.d.),
waaruit de volgende variantie van de schatter van het gemiddelde volgt:
1
➔ var[̂ n] = var [ ∑𝑛𝑖=1 Yi] = 2/n
𝑛
Door de lineariteit van de variantie (variantie van de gewogen som = som van de varianties
vermenigvuldigd met kwadraat van wegingsfactoren) mogen we de som naar buiten brengen.
Verdelingsfunctie steekproefgemiddelde
We kennen de verwachte waarde en de variantie van het steekproefgemiddelde onder voorgaande
assumpties (Y is i.i.d.): ̂ n ~ (, 2/n). Hypothesetoetsen vereisen dat we ook de verdeling kennen.
i.i.d. Normaal verdeeld
Extra assumptie DGP:
Indien de kansvariabele normaald verdeeld is onder assumptie van onafhankelijke
trekkingen uit dezelfde normale verdeling:
Y1, ..., Yn ~ i.i.d. N(, 2)
Dan is het steekproefgemiddelde ook normaal verdeeld:
1
̂ n = ∑𝑛𝑖=1 Yi ~ N(, 2/n)
𝑛
Schatters zijn kansvariabelen
̂ is een puntschatting van de populatieparameter . Door steekproefvariabiliteit is het zo dat, als de
steekproef niet oneindig groot is, dat ̂ ≠ . Vandaar het belang om naast een puntschatting van
ook een interval schatting te hebben van .
We moeten assumpties maken over gegevens van de steekproef om te generaliseren over de
gehele populatie. De voorspelling van de hele groep is enorm afhankelijk van de groep waarmee we
werken.
Luca Pleysier - 2024/2025
, 5
HYPOTHESETOETSEN
STATISTISCHE HYPOTHESE
Uitspraak over de numerieke waarde van de populatieparameter op basis van een steekproef, we
hebben een nulhypothese die afgewogen wordt tegenover de data-evidentie tegen die
nulhypothese.
Nulhypothese
H0 wordt niet verworpen, tenzij de gegevens overtuigend wijzen op het tegendeel. We gaan hiervan
uit tot er genoeg bewijs is aan te tonen dat het niet zo is (bevat =, ≤ of ≥).
H 0 : = 0
Alternatieve hypothese
HA vertegenwoordigt de waarden van de parameter waarvoor de onderzoeker bewijs zoekt en wordt
aanvaard als de gegevens de nulhypothese overtuigend verwerpen bevat ≠, > of <).
H A : ≠ 0
TYPE 1 EN TYPE 2 FOUT
Type 1 ()
H0 wordt verworpen, terwijl deze correct is (false positive). Als hoog is, is de bewijslast lager en
dus de kans op een type 1 fout hoger. Met gaat beslissen wanneer er genoeg bewijs is tegen H 0
door de spelen met .
Type 2 ()
H0 wordt aanvaard, terwijl deze niet correct is (false negative).
TEST STATISTIEK
Dit kunnen we berekenen op basis van de schatter van een steekproef. Als we de verdeling van
deze test statistiek kennen onder de nulhypothese, kunnen we berekenen hoe aannemelijk deze
steekproef is indien de nulhypothese juist is. Indien de test statistiek een waarde is die zeer
onwaarschijnlijk is onder de nulhypothese, dan verwerpen we H 0.
Bv.: lengte studenten
Frequentie: f(̂ )
H0: ≤ 160 (moeilijkste is zeggen dat het 160 is)
HA: > 160
̂ = 163cm N = 1000 personen
(Y) = 8cm 2(Y) = 64cm
̂ ~ N(160, 64/100)
163
163 ~ N(160, 64/100)
̂ (𝑌)
, hoedje omdat op basis van ̂ .
𝑁
158 162 ̂
Test statistiek:
➔ Kans op 163 is super laag, er is voldoende bewijslast om H 0 te verwerpen!
Luca Pleysier - 2024/2025
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper lucapleysier. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €21,99. Je zit daarna nergens aan vast.