Samenvatting Stata/Econometrie
- - BEGIN IN STATA ALTIJD MET EEN DO-FILE EN EEN LOG-FILE AAN TE MAKEN EN HIERIN
JE STAPPEN EN COMMANDO’S TE NOTEREN!! - -
Cross-sectional Dataset:
Je kunt een univariate analyse doen om de gemiddeldes, standaard deviaties, minimale
en maximale waarden te beschrijven van een bepaalde variabele (dan zet je er wel de
‘variable-name’ achter) of van alle variabelen in de data-set.
- command: describe ‘variable-name’
De bivariate relatie tussen twee variabelen geeft de invloed van op weer:
Standaardpopulatiemodel
= + +
is de gekozen afhankelijke variabele. is de constante waarde (_cons) en dus de
waarde van als 0 is. Verder is is de helling van de coëfficiënt van , wat staat
voor de toename van als met een eenheid toeneemt. Deze is de gekozen
onafhankelijke variabele. is de storingsterm welke alle invloeden op bevat (anders
dan de invloed van ).
- command: reg
De multivariate relatie tussen variabelen geeft de invloed van meerdere variabelen
( , , t/m ) op weer:
Standaardpopulatiemodel
= + + + +…+ +
is wederom de gekozen afhankelijke variabele. is de constante waarde (_cons) en
dus de waarde van als t/m 0 is. Verder staan t/m voor de hellingen van
de coëfficiënten van t/m , wat staat voor de toename van als met een
eenheid toeneemt. Deze t/m zijn de gekozen onafhankelijke variabele. is de
storingsterm welke alle invloeden op bevat (anders dan de invloed van t/m ).
- command: reg t/m
De correlatie tussen variabelen geeft de onderlinge samenhang tussen beide variabelen
weer, het is de mate van relatieve onderlinge afhankelijkheid. Hoe hoger de correlatie,
dat wil zeggen hoe dichter bij 1, hoe groter de kans op een eventueel causaal verband.
- command: corr ‘variable-name’ ‘variable-name’
, Om te kunnen stellen dat de het gemaakte populatiemodel in Stata betrouwbaar is,
zullen een aantal voorwaarden op het model getest moeten worden en een positief
beeld moeten genereren.
Dit zijn de “Assumpties voor een ‘unbiased estimator’of ‘regression parameter’”
1. Het regressiemodel is lineair (en heeft een storingsterm). Dit kan men zien als de
waardes van t/m een getal aannemen zonder dat hier een kwadraat,
wortel, etc. bij staat. (aan deze voorwaarde wordt meestal voldaan)
2. De storingsterm heeft een populatiegemiddelde van 0 [E( ) = 0]. Deze assumptie is
niet te testen in Stata, maar hieraan wordt voldaan als er een constante ( ) in het
model wordt opgenomen.
3. Alle verklarende variabelen zijn niet gecorreleerd met de storingsterm [corr( ,Xi) =
0]. Ook deze assumptie is niet te testen in Stata. Dit betekent dat alle variabelen
exogeen moeten zijn, maar dit is vaak niet het geval als er een omitted variable is.
Deze variabele zit in dan ‘verstopt’ in de storingsterm. Wanneer deze ‘vergeten’
variabele gecorreleerd is met een van de andere onafhankelijke variabelen wordt
de derde voorwaarde geschaad.
4. Er is geen (multi)collinariteit tussen de onafhankelijke variables (en er is geen
constante variabele). De multicollinariteit betekend in een multivariate
regressiemodel, dat onafhankelijke variabelen geen perfecte lineaire functies van
elkaar mogen zijn. Deze voorwaarde is te toetsen door de variabelen in
verhouding tot elkaar nader te bekijken. Ook hier geldt weer, hoe dichter bij 1,
hoe groter de kans op onderlinge afhankelijkheid. Vervolgens kan men door
regressies van alleen de gekozen onafhankelijke variabelen te doen (en hiervan
steeds een andere variabele de afhankelijke variabele te maken) en te kijken naar
de R2 hiervan, zeker stellen of er sprake is van multicollinariteit.
- command: pwcorr t/m
We kunnen nog twee assumpties toevoegen aan de bovenstaande vier assumpties als
het gaat om de variantie:
1. De observaties van de storingsterm zijn niet onderling gecorreleerd (geen serial
correlatie) [corr( , ) = 0].
2. Er is geen heteroskedasticiteit, dit betekend dat de variantie van de storingsterm
constant is [VAR( ) = 0].
Dummy variabelen zijn categoriale variabelen, bijvoorbeeld . Dat wil zeggen dat de
waarden van deze variabelen niet geleidelijk doorlopen, maar zijn ingedeeld. Hierdoor
kun je ze niet zomaar opnemen in je model, maar je kunt ze alsnog bruikbaar maken in
Stata. Dan worden voor alle categorieën apart een variabele gemaakt zodat ze kunnen
worden opgenomen. Een categorie moet als referentiepunt worden gebruikt, en uit het
model gelaten, vanwege de onderlinge afhankelijkheid. Voorkeur voor de
referentiepunten hebben de grootste categorieën. Het is meestal duidelijker en zo
handiger/makkelijker om de naam van de dummy-variabelen te veranderen.
- command: tab , gen (d )
- command: gen ‘variable-name’ = d
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper rubenvanuden. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €3,49. Je zit daarna nergens aan vast.