ALLE PRACTICA SAMEN
Notities praktijk 14/02
1 Oefening 1: Example household consumption
Household => enquêtenummers
Meetniveau = een getal is niet zomaar een getal => een variabele kan bv. ordinaal (geordend) zijn
(bv. likertschaal) of bv. een interval of bv. nominaal (tekst bv. postcode)
Statistics => summaries, tables and tests => summary and descriptive statistics => summary statistics
Variables: Y X1 X2 (spaties tussen variabelen)
Geen spaties zetten in de naam van variabelen om de reden dat je hier spaties zet!!!
Aantal observaties: zijn evenveel bij elke variabele
Standaard deviatie = maat voor spreiding
o Voor X2 heel groot => invloed op bepaalde statistieken (bv. standaard error)
Command: “codebook Y”
Missing: geen enkele observatie ontbreekt
Command: “help format”
Voor het format aan te passen, voor in word te kunnen zetten en te kunnen rapporteren
Command: “histogram Y”
Histogram van de variabele Y
Command: “help grcomb”
“grcomb” werkt niet => eerst installeren
o Eerste blauwe link aanklikken
o “click here to install”
o Wanneer het verkeerd geïnstalleerd is, moet je het desinstalleren met “ado uninstall
grcomb”
“grcomb hist Y X1 X2, v(1)”
Command: “graph box Y X1 X2”
Command: “grcomb graph box Y X1 X2, v(1)
Command: “graph matrix Y X1 X2”
Command: “scatter Y X1” => meer specifiek (volledig scatterplot in stukjes gaan delen”
Command: “scatter Y X1, mlabel(household)
Command: “reg Y X1”
Coëfficiënt => hoe goed is die in de zin van mag je die gebruiken of niet
o 0.812 => als X1 met 1 hoeveelheid toeneemt => als mijn inkomen met 1000 euro
stijgt, zal mijn Y stijgen met 0.812*1000 stijgen
o (wanneer er een min zou staan = daling)
_cons = snijpunt met de y-as
Command: “rvfplot”
We mogen hier geen patroon in zien => als er punt uitsteekt, dan hebben we misschien een
outlier
Command: “reg Y X1 X2”
, Vergelijking, wat is de constatatie
o R² adjusted is gestegen dus meer wordt verklaard => mag je eigenlijk niet vergelijken
maar wordt nog verder uitgelegd in de toekomst!
o Minder besteding wanneer het inkomen toeneemt want X1 is nu maar 0.33 en was
ervoor 0.812
Do file = verzameling van alle commando’s
Selecteren van verschillende commando’s in de linkerbalk (history)
Rechtermuisknop “send selected to do-file editor”
Nieuw lijntje “// ‘tekst’” => op deze manier kan je tekst typen
2 Oefening 2: College
P79 handboek => data
College = datatype string
Notities praktijk 21/2
3 Oefening 1: consumptie
In do-file:
// commentaar
Commentaar
Met nieuwe lijn
*/
Stappen die je moet zetten
Import data let op: begin pas vanaf A5 en importeer met koptekst
Open een Do-file en zet hier alle commando’s in
Installeer de grcomb
Commando: Summerize
Je ziet de observaties
Ook kijken naar de range (4500… voor afhankelijk variabele) altijd even bekijken
Commando: graph box Y
Je ziet hier een outlier! Dit kan een probleem opleveren!
Data-editor (browse)
Hier kan je niets veranderen
Je ziet hier wat er opvalt
Je kan hier de outlier in zien (die je in de boxplot ook ziet)
Data-editor (edit)
Puntjes tegenkomen in data-editor = observaties waar geen waarde voor gekend is
De observaties waar geen waardes voor zijn moet je eruit halen
Rechtermuis toets (alle – geselecteerd dit selecteren door op de rijen te klikken) data
drop
o Sure? Yes
“drop in 21”
“drop in 21/5”
Boxplot X1 commando “graph box X1”
,Hist X1
Outliers helemaal rechts (Rond 80.000)
Graph matrix Y X1 X2
Overzicht scatterplots
Dit gebruik je voor correlatie
We willen zo hoog mogelijke correlatie met Y
Correlatie betekent:
o Als de ene stijgt, stijgt de andere ook
o Als de ene daalt, daalt de andere ook
We willen eigenlijk geen correlatie X1 en X2
Nu zijn we rond met verkennen van data
Nu gaan we dus labels aanpassen
Hernoem de labels met de namen in de Excel-file
Dit zegt ons veel meer nodig voor in rapportering
We kunnen dit op 2 manieren doen: ofwel in de properties ofwel via variables manager
Data Variables manager
In rechterkant van het scherm: hier staan terug de variabelen
o Hier kan je snel namen aanpassen (bv. label)
Y: Consumption (swifr)
X1: inkomen (swifr)
X2: Extra inkomen (swifr)
Merk op dat deze commando’s ook weer naar do-file kunnen
Commando: Reg Y X1 X2
Kijken naar residuals
En rvfplot
o We willen geen patronen dus een chaotisch patroon
o We willen ook geen outliers (uitstekers)
Wat is belangrijk in deze regressie? Waar kijk je naar?
o Eerst kijken naar R2 dit zegt ons (TYPISCHE EXAMENVRAAG): dit is een percentage
dat mijn X-variabele (exogene) dat die de Y-variabele (endogene) verklaart
0,0192 is NIET goed
o X1 lijn bekijken:
Coef. (hier draait het om) we willen de invloed weten
Valt op: de coef is negatief.
o Als je meer inkomen hebt, gaat de consumptie stijgen, maar
hier lijkt dit niet het geval… komt dus niet overeen met
onze verwachtingen ZEER ONLOGISCH
o De p-waarde is overigens niet-significant
o De outlier heeft heel onze regressie vertekend!!!!
, We gaan de outlier uit ons model halen Rvfplot kan je een label meegeven
Commando: Rvfplot , mlabel(name)
Dit geeft een scatterplot (maar dan met namen bij de bolletjes)
De namen worden echter niet meer leesbaar, dus we willen nummers! Echter hebben we de
nummers niet We kunnen wel nummers bijmaken in onze dataset
Commando: generate obsnr=_n
Dit doet niets, maar gebeurd ‘achter de schermen’ je kan dit controleren door:
“rvfplot , mlabel(obsnr)
Data editor (browse)
We mogen hier niet zomaar observaties uit droppen je kan ze achteraf nog nodig hebben
Achter reg-commando filter zetten commando: Reg Y X1 X2 if obsnr!=7
! = voorwaardelijke operator
R2 is nu zo’n 75% dus VEEL beter
o Nu verklaren we 75% met onze X-variabelen onze Y
X1 is nu positief geworden (dit zouden we verwachten)
o 0,78 als ons inkomen met 1 zwitserse frank stijgt, dan consumeer ik 0,78 zwitserse
frank meer
o De p-waarde significant
EXAMENVRAAG: Kan je aan de hand van de SS-waarde de R 2 berekenen? JA
o Model SS/ Total SS = R2
o SSM / SST (zie theorie)
We kunnen onze predicted en residuals eruit halen in STATA
Y – predicted = residus
Hoe predicted eruithalen? Commando: Predict pred, xb
o Pred = naam van variabele
o Dit doet niets, maar in data editor zie je staan “pred”
Hoe residu’s eruithalen? Commando: predict resid, residuals
Alles opslaan
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller birgitvs. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.50. You're not tied to anything after your purchase.