Inleiding econometrie
STATA commando’s
Commando’s Beschrijving
describe Geeft een basis beschrijving van de dataset
browse Geeft je de mogelijkheid om direct de data
te bekijken
summarize evt.(, detail) → om bijv. Geeft een samenvatting van de
mediaan te berekenen beschrijvende statistiek van alle variabelen
(gemiddelde, standaarddeviatie etc.)
replace Vervangt waardes van een gegeven
Voorbeeld: replace smoke = . if variabele (als er bijv. verkeerde waardes
smoke == -8 staan in de samenvatting)
generate Maakt nieuwe variabelen aan
Voorbeeld: generate
fifty_plus=(age>=50) if age!=.
drop (variabele) Laat variabelen of observaties vallen uit de
dataset
rename (oude naam) (nieuwe naam) Geeft een nieuwe naam aan een variabele
tabulate (variabele) (evt. Genereert one of two-way tabellen
andere variabele)
histogram (variabele) Genereert een histogram
correlate (variabele) (andere Geeft de correlatie, ook gebruiken voor
variabele) evt. (, covariance) covariantie
scatter (variabele) (andere Geeft een puntgrafiek
variabele)
mean Geeft gemiddelde van variabelen
Bijv. mean diast_bp, over(wealth)
→ dit geeft de gemiddeldes van diast_bp
voor verschillende groepen van wealth
ttest Voert een t-test uit
regress y x1 x2, robust Voert regressie uit
Test Test hypotheses na regressie (F-test)
ivregress 2sls y x1 x2 etc. Gebruiken bij instrumentele variabele
(endogene variabele = iv)
probit y x, robust Probit model
logit y x, robust Logit model
tsset (variabele), weekly Maakt een tijdvariabele aan
sort (variabele) (variabele) Sorteert data
pwcorr (variabele) (andere Gebruik je als je variabele met vertraagde
variabele) waarde wilt correleren
corrgram variabele, lags(…) Laat autocorrelatie zien
estat ic Laat informatiecriteria (BIC/AIC) zien
arima y x1, ar(…/…) robust Gebruik voor ARIMA model
regress y x1 x2 Voert regressie met sample gewichten uit
[aweight=weight], robust (negatief = over gerepresenteerd, positief =
onder gerepresenteerd)
,Hoofdstuk 1
Data
Er zijn twee typen data:
* Experimentele data → komt van experimenten die ontworpen zijn om behandelingen of
beleid te evalueren (het onderzoeken van een causaal effect)
* Observationele data → komt van het observeren van mensen (enquête, statistieken)
Datasets komen in 3 verschillende vormen:
* Cross-sectionele data
Data dat verzameld wordt door veel subjects (mensen/bedrijven etc.) te
onderzoeken tijdens één periode.
* Tijdseries data
Data van één subject die verzameld wordt tijdens meerdere periodes.
* Panel data
Een combinatie van de bovenstaande typen data; data wordt verzameld door
meerdere subjecten te onderzoeken tijdens meerdere periodes.
Operationalisatie vs. conceptualisatie
Conceptualisatie = het proces waarbij er gespecifieerd wordt wat er bedoeld wordt met
bepaalde begrippen.
Operationalisatie = de manier waarop begrippen meetbaar gemaakt worden (= het vertalen
van een theoretisch begrip naar meetbare gegevens, zoals intelligentie).
Voorbeeld: individuen die meer verdienen, kennen ook hogere opportunity kosten wanneer
ze ziek zijn. Zij hebben dus hogere incentives om gezond te leven.
* Conceptualisatie → loon en/of gezondheid (fysiek/mentaal)).
* Operationalisatie → in het geval van fysieke gezondheid; “Hoeveel moeite heb je
met lopen?”. Wat is de meeteenheid; loopsnelheid of grip?
Hoofdstuk 4
Regressie = laat het verband zien tussen 2 variabelen.
Lineaire regressie = waarden van Y via een lineair verband voorspellen uit die van X. Y is de
afhankelijke variabele, X is de onafhankelijke variabele.
Covariantie
Correlatie
* rxy = +1 → perfect positief gecorreleerd
* rxy = 0 → niet gecorreleerd
* rxy = -1 → perfect negatief gecorreleerd
,Enkelvoudig lineair regressiemodel
- Hoe beïnvloedt variabele X variabele Y?
Model → Yi = 0 + 1Xi + ei
Y = response variabele, X = verklarende variabele
0/1 = coëfficiënten (0 = intercept, 1 = helling van de lijn)
ei = error term (andere factoren dan X die variabele Y
beïnvloeden)
Het eerste gedeelte van de formule wordt de populatie
regressielijn genoemd. Dit is het gemiddelde verband tussen Y
en X (→ E(Yi|Xi) = 0 + 1Xi).
Echter, zijn de coëfficiënten 0 en 1 niet bekend. Hiervoor gebruik je de ordinary least
squares (OLS) om deze waarden te voorspellen. De regressielijn past goed bij de data als Ŷ
dicht bij de geobserveerde waardes Yi liggen →dat is mogelijk als de residuen ei zo klein
n
2
mogelijk zijn! Dus verkrijg 0 en 1 door ∑ ( Y i− β^ 0− β^ 1 X i ) .
i=1
s xy
Exacte formules: * OLS schatter van 1:
s 2x
* OLS schatter van 0: Ý − ^β1 X́
(Ý en X́ zijn de sample gemiddeldes van X en Y)
* De OLS gefitte waardes zijn: Y^ i= β^ 0 + β^ 1 X i
* De OLS residuen zijn: e^ i=Y i−Y^ i
Dus geobserveerde waardes zijn gelijk aan: Yi = Y^ i + e^ i
(verklaard) (onverklaard)
Measures of fit
Wanneer je een lineaire regressielijn hebt geschat, wil je weten hoe goed de lineaire
regressie de werkelijke regressie beschrijft. Dit doe je door R2 te gebruiken,
ESS
R2 = X verklaart …% van de variantie in Y =
TSS
n
2
ESS = variantie dat voorspelt wordt door het model = ∑ ( Y^ i−Ý )
i=1
n
2
TSS = totale variantie = ∑ ( Y i−Ý )
i=1
2
0 < R < 1: R = 1 → het model voorspelt Yi perfect (Y^ i = Y i)
2
SER = standaarderror van de regressie; het schat de standaarddeviatie van de foutterm e i.
n
1 SSR
SER = se = √ s 2e met s2e = ∑ e^ 2i =
n−2 i=1 n−2
SSR = variantie dat niet voorspelt wordt door het model
Als SER groot is, dan verschillen de voorspellingen vaak van de daadwerkelijke waardes.
Assumpties van OLS
- De verdeling van ei heeft een gemiddelde van 0 → E(ei|Xi) = 0
Dit impliceert dat ei en Xi niet gecorreleerd zijn. Bovendien geldt dan ook dat Xi niet
gecorreleerd is met andere factoren die Yi beïnvloeden.
Hoe weet je dat aan deze assumpties voldaan wordt?
, * Als de steekproef willekeurig is
- Observaties (X1, Y1), (X2, Y2), … zijn onafhankelijk en identiek verdeeld (= dezelfde
verdeling)
Aan deze assumptie wordt voldaan als de steekproef willekeurig is getrokken:
* (Xi, Yi) hebben dezelfde verdeling → vanuit dezelfde populatie getrokken
* Willekeurige selectie zorgt voor onafhankelijkheid
Wanneer wordt hier niet aan voldaan?
* Afhankelijke observaties → wanneer observaties gedaan worden over dezelfde
unit van observaties over tijd (= observaties die snel achter elkaar gedaan worden,
zijn niet onafhankelijk maar zijn geneigd gecorreleerd te zijn aan elkaar)
* Steekproef is niet representatief
- Grote outliers van X en Y zijn onwaarschijnlijk
Bron van outliers zijn datafouten (bijv. typfout)
Steekproeftrekking distribution van OLS schatters
Omdat OLS schatters ^β 0 en ^β 1 berekend zijn d.m.v. een willekeurige steekproef, zijn de
schatters zelf willekeurige variabelen met een kansverdeling. Door een andere steekproef te
gebruiken, zullen de schatters ook weer anders zijn.
De verdeling van ^β 0 en ^β 1kan bepaald worden door:
* Alle mogelijke steekproeven te nemen van de populatie
* OLS voor elke steekproef gebruiken
Bij een grote steekproef, volgt ^β 1 een normale verdeling (central limit theorem).
Gemiddelden van de OLS schatters en unbiasedness
Onder de OLS assumpties, geldt dat E( ^β 0)= 0 en E( ^β 1)= 1. Dit houdt in dat ^β 0 en ^β 1 unbiased
schatters zijn van 0 en 1.
Volledige verdeling van ^β 0 en ^β 1
Volgens de central limit theorem, geldt bij grote steekproeven:
* ^β 0 volgt een normale verdeling
* ^β 1volgt een normale verdeling
* ( ^β 0, ^β 1) volgt een bivariate normaalverdeling
Conclusie: als er voldaan wordt aan de assumpties van het lineaire regressiemodel, dan zijn
de OLS schatters ^β 0 en ^β 1:
* Unbiased
* Consistent
* Normaalverdeeld als de steekproef groot is (n>100)
Interpretatie van regressiecoëfficiënt
Model: Yi = 0 + 1Xi + ei
Conditionele verwachting van Y, gegeven X:
E(Yi|Xi) = E(0 + 1Xi + ei|Xi) = 0 + 1Xi + E(ei|Xi) (→ = 0, zie assumptie 1)
Dus: E(Yi|Xi) = 0 + 1Xi