Econometrie voor bedrijfseconomen
HOOFDSTUK 1: Economische vraagstukken en data
1. Wat is econometrie?
Modellen voor economische fenomenen opstellen
Opletten voor causaal verband (oorzaak-gevolg) geluk!!
- Zorgen dat alle variabelen die verband kunnen veroorzaken mee in het model zitten
- Vb: onveilige seks prostitutie te verklaren variabele = prijs (andere variabelen = leeftijd…)
2. Economische data
2.1 Hoe wordt economische data gegenereerd?
1) Experimentele data gegenereerd via experiment vb: invloed bemesting op tomaten
- Voordeel: oorzaak-gevolg
- Nadelen:
Vaak slechts een nabootsing van de werkelijkheid
Vb: onderzoek naar belastingontduiking (zie artikel online)
Niet altijd mogelijk (praktisch, ethisch…) zeker voor economische/sociologische
Vb: effect van extra jaar studeren op loon dwingen om 1j extra te studeren?
pseudo-experimenten = experiment nabootsen (gelijkaardige omstandigheden)
2) Niet-experimentele data (meest gebruikt)
- Surveys, landendata… vb: Labour force survey
- Voordeel: vaak grote representatieve datasets
- Nadeel: opletten met oorzaak-gevolg
technieken van betrouwbaarheid zoveel mogelijke controlevariabelen in model
2.2 Types van economische data
Data kan op verschillende niveaus verzameld worden
- Micro: personen, huishoudens, bedrijven… (via enquêtes)
Vb: effect opwaarderen buurt op prijs? gegevens = huizen
- Macro: gemeenten, landen (geaggregeerde gegevens)
Vb: gemiddelde huur huis in ≠ gemeentes?
Kwantitatief of kwalitatief?
- Kwantitatief: te verklaren (afhankelijke) variabele
- Kwantitatief + kwalitatief: verklarende (onafhankelijke) variabele
Vast tijdstip of evolutie?
- Cross-sectionele data: data over verschillende entiteiten voor 1 bepaalde tijdsperiode
doorsnede op 1 moment vb: hoeveel kost een huis NU?
- Tijdreeksdata: data over 1 bepaalde entiteit maar van verschillende tijdsperiodes
- Paneldata (longitudinale): data over ≠ entiteiten + elk geobserveerd voor 2 tijdsperiodes
combinatie van vorige 2 technieken (complex)
HOOFDSTUK 2 & 3: Herhaling kansrekenen en statistiek
1. The California Test Score Data
1.1 Probleem
Probleemstelling: effect op examenresultaten van vd klasgrootte met 1 student?
- n = 420 schooldistricten in California
- Variabelen: testscores van 5e graad en student-teacher ratio (STR)
- Macro-niveau gemiddelde per district
Hebben districten met kleinere klassen hogere testscores? spreidingsdiagram
1
, - Verklarende variabele = STR
- STR = testscore negatief verband
Is dit een causaal verband?
andere variabelen/verklaringen vb: rijkere districten = meer middelen
1.2 Verkennende analyses
Kwantitatief bewijs dat districten met lagere STR, hogere testscores hebben?
1) Schatting: vergelijk gemiddelde testscores bij districten met lagere STR met deze bij hogere
- Schatting van ∆=μklein−μ groot = verschil tss de groepsgemiddelden
- μklein−μ groot =7,4
2) Toetsen van hypothesen: test H0 dat de gem testscores in de 2 types districten dezelfde zijn
- Toetsen tegen de alternatieve hypothese dat ze verschillen
- H 0 : μklein =μ groot vs . H a :μ klein ≠ μ groot
ý k − ý g
t= =4,0480
s 2k s2g P ( T ≥ 4,0480 )=0,000063 H 0 verwerpen
- Teststatistiek:
√ +
n k ng
3) Betrouwbaarheidsintervallen: bereken een interval voor het verschil in de gem testscore
- ý k − ý g ±1,96 SE( Ý ¿¿ k−Ý g)=[3,81; 10,99]¿
- 0 ligt niet in het BI H 0 verwerpen
Besluit: we hebben voldoende sterk bewijs tegen de nulhypothese om deze te verwerpen
de testscores van districten met lagere STR verschillen significant van deze bij hogere STR
HOOFDSTUK 4: Enkelvoudige lineaire regressie
1. Het lineair regressiemodel
1.1 Het enkelvoudig lineair regressiemodel
Vb: prijs appartement in groot-Leuven vermoeden van positief lineair verband tss prijs en opp
Y = prijs in euro, X = oppervlakte in m2
Y = β0 + β 1 X !!MAAR: het verband is niet perfect foutenterm u
- We hebben n observaties: ( X i , Y i ) ,i=1 ,… , n
- Y i=β 0 + β 1 X i+ ui
Algemeen model
- Y = de afhankelijke (te verklaren) variabele en X = de onafhankelijke (verklarende) variabele
- β 0 = intercept en β 1 = helling
- ui = de foutenterm (error term) bevat alle andere variabelen dan X met invloed op Y
bevat ook alle andere fouten (meetfouten, toeval…)
1.2 Correlatie
Spreidingsdiagram
Nagaan of er een lineair (of ander) verband is tussen X en Y? spreidingsdiagram
= grafische voorstelling van de koppels gegevens (x1, y1), (x2, y2),..., (xn, yn)
Deze koppels vormen een puntenwolk waar een bep (lineair) patroon in te vinden is
Steekproefcovariantie
n
1
Covariantie = stijgend of dalend verband? s x, y = ∑ ( x −x́ ) ( y i− ý ) !!niet dimensieloos
n−1 i=1 i
Positieve bijdrage
- x i> x́ en y i > ý +¿+ ¿+¿
- x i< x́ en y i < ý −¿−¿+¿
Negatieve bijdrage
- x i< x́ en y i > ý −¿+¿−¿
2
, - x i> x́ en y i < ý +¿−¿−¿
Steekproefcorrelatie
Correlatie: zin/richting en sterkte van het lineair verband (cov meet enkel richting)
sx , y
Formule: r x , y = !!dimensieloos = correlatie onafh van gebruikte eenheid
sx s y
Eigenschappen
r x , y =s x−x́ y− ´y
- Correlatie = covariantie van gestandaardiseerde gegevens ,
sx sy
- Dus eenheden worden eruit gehaald correlatie = dimensieloos ( μ=0 en σ =1)
Interpretatie: correlatie meet richting en sterkte vd lineaire samenhang tss 2 kwantitatieve variab
- Richting via het teken van de correlatie
Positief (stijgend) verband r > 0
Negatief (dalend) verband r < 0
- Sterkte via de grootte van de correlatie: -1 ≤ r ≤ 1
hoe dichter bij -1 of 1, hoe sterker het lineaire verband (hoe dichter bij 0, hoe zwakker)
r = 1: perfect stijgend lineair verband (punten liggen perfect op stijgende rechte)
r = -1: perfect dalend lineair verband tss x en y
r = 0: totale afwezigheid van een lineair verband tss x en y
Opmerkingen
- Correlatie verandert niet bij een lineaire transformatie van x of y
- Correlatie meet enkel de sterkte vh lineaire verband (er kan mss wel een ander verband zijn)
- rx,y = ry,x maakt niet uit welke de ‘te verklaren’ en welke de ‘verklarende’ variabele is
- x en y moeten kwantitatieve variabelen zijn
- De correlatie is niet resistent (gevoelig voor uitschieters) tekening maken!!
Populatiecovariantie en -correlatie
Eigenschappen + interpretatie zijn analoog aan die van steekproef-
X en Y zijn ongecorreleerd als corr(X, Y) = 0 (geen lineair verband)
- X en Y onafhankelijk = X en Y ook ongecorreleerd (geen verband)
- X en Y ongecorreleerd ≠ X en Y ook onafhankelijk
2. Schatten van de regressieparameters
2.1 Kleinste kwadraten criterium
Model: Y i=β 0 + β 1 X i+ ui β 0 en β1 geschat op basis van een steekproef
^β 0 en ^β1 bepaald zodat de rechte ^β 0 + ^β 1 X i zo goed mogelijk bij de puntenwolk aansluit
- Zorgen dat verschil tussen theoretische en geschatte rechte zo klein mogelijk is
- Verschil = residu (fout op schatting): u^ i=Y i−Y ^ i=Y i −( ^β 0 + ^β 1 X i)
- Som moet zo klein mog zijn MAAR: + en – heft elkaar op?
daarom som van kwadraten zo klein mogelijk maken
- Totale kwadratische afwijking minimaliseren ^β 0 en ^β1 zodat
n n n
2 2 2
min ∑ u^ i =∑ ( Y i−Y^ i ) =∑ ( Y i− ^β 0− ^β 1 X i)
i=1 i=1 i=1
Kleinste-kwadraten criterium
∑( X i − X́ )( Y i −Ý ) S XY SY
- ^β 1= = =R
∑ ( X i − X́ ) 2
S
2
X
SX
Voorwaarde: S X ≠ 0
3