Onderzoeksmethoden: practica STATA: les 1
Oefening 1: Example household consumption
1. Open Excel-file “Example household consumption.xlsx” in Excel:
File – import – excel spreadsheet
• Check aantal observaties en aantal variabelen
• Namen van de variabelen in header row of niet?
• Lege kolommen of rijen, missing values?
• Separator: decimalen vs duizendtallen?
• Meetniveau (NOIR) en Type (numeric vs string)?
2. Importeer de file in STATA.
• Controleer of de data correct werd geïmporteerd.
• Interface STATA: editmode – viewmode …
• Properties: labels wijzigen
• Commando’s en namen van variabelen zijn hoofdlettergevoelig.
Vinkje bij import …!
-> zo gaan de variabele namen niet opgenomen worden )
cell range: row aanpassen naar 26 → zo gaan de rijen van beschrijvingen weg.
Werd de data correct geïmporteerd?
→ nagaan via descriptive statistics:
• Cijfers: summarize (details), codebook, describe
• Grafieken: histogram, boxplot, scatter (matrix)
Labels aanpassen
Proporties → slotje klikken (om te openen)
→ label: naam geven (vb. inkomen)
Data bekijken
Statistics – summaries, tables, and tests – summary and descriptive statistics – summary statistics
→ in venster: variables: Y X1 X2 typen ,, of niks (= alle variabelen) ,, of via keuze (pijltje)
→ OK
Of via command intypen:
codebook: je krijg vanalles
summarize: zelfde als via menu statistics …
summarize X1: enkel van X1
describe
help storage type: je wordt doorverwezen naar internet
Grafieken
Graphics – histogram
Variable: vb. Y
Y-axis: vb. frequency, percent, …
→ OK → grafiek verschijnt
~ Of via command: histogram Y
Graphics – box plot
Variables: vb. Y
Graphics – twoway graph
Y variable: Y
X variable: X1
→ submit
~ Of via command: scatter Y X1
~ Of via command: scatter Y X1, mlabel(household)
Grafiek kopiëren
Op scherm van de grafiek op rechtermuisknop drukken → copy
Regressie
(geen hoofdletters gebruiken)
Command: regress
1
,Oefening 1: Example household consumption
3. Voer een lineaire regressie uit waarbij je nagaat wat de impact is van INC (arbeidsinkomen) op
CONS (consumptie)
command: regress Y X1
▪ Hoe ziet het model er uit?
o (y) = …… + …… ……………(x) + ……
consumptie = 30,71 + 0,81inkomen +e
examenvraag: wat wil e zeggen over je model?
→ een deel van je regressie kan je niet verklaren. Dus alles wat overschiet van consumptie dat je
niet kan verklaren. Hetgeen je in je model niet kan schatten/niet opgenomen is in regressie (vb.
lotto gewonnen of niet).
▪ Is dit een goed model? Waarom (niet)?
o R² ; Sum of Squares ; …
R-squared = 0,6915
Hoe hoger (naar 1), hoe meer je model de variantie verklaart.
▪ Interpreteer de geschatte coëfficiënten. Zijn deze precies geschat?
▪ Zijn er extreme observaties aanwezig (grafisch)?
Wanneer je kijkt naar de boxplot zie je geen outliers.
4. Voeg de variabele Wealth (andere inkomsten) toe aan het oorspronkelijke model en ga na in
hoeverre het model hierdoor al dan niet verbetert
command: regress Y X1 X2
R-squared = 0.7952
→ model is verbeterd
Adjusted R-squared
→ gebruiken als je een variabele toevoegt om te kijken of je model beter is.
Want hoe meer variabelen, hoe meer je R-squared gaat zijn. De Adjusted houdt hier rekening mee.
Als de Adjusted R-squared ook hier hoger ligt, dan wordt het model inderdaad beter als je variabele X2 wordt
toegevoegd.
2
,5. Wat zou er gebeuren met de resultaten indien een of meer van de variabelen niet gemeten zijn in
1000 euro, maar in euro? Controleer dit met een nieuwe regressie.
• Stata-commando’s: generate vs. replace (opgelet!)
Command: generate inkomen1000 = X1 * 1000
Rechts is een variabele bijgekomen → we hebben inkomen1000 gecreëerd.
Via menu: data – create or change – new variable
data editor: als we naar de data willen kijken.
Regressie via menu: Statistics – lineair models – lineair regression
6. Maak een Do-file die alle bovenstaande handelingen in één keer uitvoert. Voeg waar nodig
commentaar toe. Bewaar de Do-file en test deze uit.
Ctrl indrukken en selecteren wat je wil.
→ rechtermuisknop
→ opslaan
→ STATA afsluiten (don’t save)
→ STATA opnieuw starten
→ dataset opnieuw importeren
Ook hier weer cell range: row 26
Ook hier weer import … aanvinken
File – DO – die opgeslagen file openen
3
, Oefening 2: College (zie hoofdstuk 2 pagina 79)
1. Importeer het bestand College2.xlsx in Stata
▪ Controleer of het importeren goed gelukt is (vergelijk Excel bestand met Stata bestand)
▪ Ga het meetniveau en type van de variabelen na
Type nagaan
command: codebook; of
command: describe
2. Beschrijf je data.
▪ Vraag enkele relevante descriptive statistics op (vb. N, min, max, gemiddelde, st. dev., correlatie
matrix, …)
Statistics – summaries, tables, and tests – summary and descriptive statistics – summary statistics
variables: leeg laten (zo worden alle variabelen weergegeven) → submit
▪ Genereer een aantal relevante grafieken (vb. histogram, boxplot, scatterplot, …)
Graphics – histogram
variabele aanduiden en y-axis (histogram)
~bins kan je eventueel ook aanpassen.~
~Let op bij weinig observaties: want dan zal de ene staaf hoger kunnen zijn dan de andere, maar dat wil nog
niet zeggen dat het verschil enorm groot is, dus denk logisch na.~
Graphics – boxplot
Graphics – twoway graph
“create”
4