Samenvatting Stata/Econometrie
- - BEGIN IN STATA ALTIJD MET EEN DO-FILE EN EEN LOG-FILE AAN TE MAKEN EN HIERIN
JE STAPPEN EN COMMANDO’S TE NOTEREN!! - -
Cross-sectional Dataset:
Je kunt een univariate analyse doen om de gemiddeldes, standaard deviaties, minimale
en maximale waarden te beschrijven van een bepaalde variabele (dan zet je er wel de
‘variable-name’ achter) of van alle variabelen in de data-set.
- command: describe ‘variable-name’
De bivariate relatie tussen twee variabelen geeft de invloed van op weer:
Standaardpopulatiemodel
= + +
is de gekozen afhankelijke variabele. is de constante waarde (_cons) en dus de
waarde van als 0 is. Verder is is de helling van de coëfficiënt van , wat staat
voor de toename van als met een eenheid toeneemt. Deze is de gekozen
onafhankelijke variabele. is de storingsterm welke alle invloeden op bevat (anders
dan de invloed van ).
- command: reg
De multivariate relatie tussen variabelen geeft de invloed van meerdere variabelen
( , , t/m ) op weer:
Standaardpopulatiemodel
= + + + +…+ +
is wederom de gekozen afhankelijke variabele. is de constante waarde (_cons) en
dus de waarde van als t/m 0 is. Verder staan t/m voor de hellingen van
de coëfficiënten van t/m , wat staat voor de toename van als met een
eenheid toeneemt. Deze t/m zijn de gekozen onafhankelijke variabele. is de
storingsterm welke alle invloeden op bevat (anders dan de invloed van t/m ).
- command: reg t/m
De correlatie tussen variabelen geeft de onderlinge samenhang tussen beide variabelen
weer, het is de mate van relatieve onderlinge afhankelijkheid. Hoe hoger de correlatie,
dat wil zeggen hoe dichter bij 1, hoe groter de kans op een eventueel causaal verband.
- command: corr ‘variable-name’ ‘variable-name’
, Om te kunnen stellen dat de het gemaakte populatiemodel in Stata betrouwbaar is,
zullen een aantal voorwaarden op het model getest moeten worden en een positief
beeld moeten genereren.
Dit zijn de “Assumpties voor een ‘unbiased estimator’of ‘regression parameter’”
1. Het regressiemodel is lineair (en heeft een storingsterm). Dit kan men zien als de
waardes van t/m een getal aannemen zonder dat hier een kwadraat,
wortel, etc. bij staat. (aan deze voorwaarde wordt meestal voldaan)
2. De storingsterm heeft een populatiegemiddelde van 0 [E( ) = 0]. Deze assumptie is
niet te testen in Stata, maar hieraan wordt voldaan als er een constante ( ) in het
model wordt opgenomen.
3. Alle verklarende variabelen zijn niet gecorreleerd met de storingsterm [corr( ,Xi) =
0]. Ook deze assumptie is niet te testen in Stata. Dit betekent dat alle variabelen
exogeen moeten zijn, maar dit is vaak niet het geval als er een omitted variable is.
Deze variabele zit in dan ‘verstopt’ in de storingsterm. Wanneer deze ‘vergeten’
variabele gecorreleerd is met een van de andere onafhankelijke variabelen wordt
de derde voorwaarde geschaad.
4. Er is geen (multi)collinariteit tussen de onafhankelijke variables (en er is geen
constante variabele). De multicollinariteit betekend in een multivariate
regressiemodel, dat onafhankelijke variabelen geen perfecte lineaire functies van
elkaar mogen zijn. Deze voorwaarde is te toetsen door de variabelen in
verhouding tot elkaar nader te bekijken. Ook hier geldt weer, hoe dichter bij 1,
hoe groter de kans op onderlinge afhankelijkheid. Vervolgens kan men door
regressies van alleen de gekozen onafhankelijke variabelen te doen (en hiervan
steeds een andere variabele de afhankelijke variabele te maken) en te kijken naar
de R2 hiervan, zeker stellen of er sprake is van multicollinariteit.
- command: pwcorr t/m
We kunnen nog twee assumpties toevoegen aan de bovenstaande vier assumpties als
het gaat om de variantie:
1. De observaties van de storingsterm zijn niet onderling gecorreleerd (geen serial
correlatie) [corr( , ) = 0].
2. Er is geen heteroskedasticiteit, dit betekend dat de variantie van de storingsterm
constant is [VAR( ) = 0].
Dummy variabelen zijn categoriale variabelen, bijvoorbeeld . Dat wil zeggen dat de
waarden van deze variabelen niet geleidelijk doorlopen, maar zijn ingedeeld. Hierdoor
kun je ze niet zomaar opnemen in je model, maar je kunt ze alsnog bruikbaar maken in
Stata. Dan worden voor alle categorieën apart een variabele gemaakt zodat ze kunnen
worden opgenomen. Een categorie moet als referentiepunt worden gebruikt, en uit het
model gelaten, vanwege de onderlinge afhankelijkheid. Voorkeur voor de
referentiepunten hebben de grootste categorieën. Het is meestal duidelijker en zo
handiger/makkelijker om de naam van de dummy-variabelen te veranderen.
- command: tab , gen (d )
- command: gen ‘variable-name’ = d
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller rubenvanuden. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.75. You're not tied to anything after your purchase.