Onderzoeksmethoden
Hoofdstuk 1: typologie
Dataset bevat:
Variabelen: altijd in kolommen zetten: dit zijn antwoorden op vragen van bv enquête/
Cases: altijd in rijen: dit zijn de individuen die bv enquête invullen.
zo structureren omdat computer anders fout berekend.
Soorten datasets: (voorbeeld slide 1 dia 4 + 5)
Cross-sectie: dataset gegenereerd op 1 bepaald moment, geen invloed van tijd. Deze is
Tweedimensionaal: variabelen en cases. Volgorde bij cross-sectie van geen belang, bv
testpersonen in enquête kan je van plaats wisselen.
Tijdreeks: momenten in de tijd, volgorde wel van belang. Is ook tweedimensionaal.
tijdsinterval moet constant zijn.
Panel-data: driedimensionaal: dit is een cross-sectie met tijdsdimensie: bv enquête op
steekproef elke maand herhalen. (zie dia 7+8)
Deze datasets kunnen 2 bronnen hebben: primair (uit experiment/ enquête) of secundair (uit
bestaande databanken)
Soorten variabelen: meetniveau ’s: (grijze vakken is wat de kenmerken zijn voor bepaalde
meetniveau ‘s.
Meetniveau: aard van de variabele: bepaald wat je mag doen met variabele.
Niet metrisch: mag je niet alles mee doen.
o Nominaal: Man of Vrouw, 1 of 0: getallen geen metrische betekenis.
o Ordinaal: Likertschaal <7, inkomenscategorieën, ..
Metrisch: hier mag je mee rekenen
o Interval: Likertschaal van meer dan 6, temperatuur, tijd, ..
o Ratio: inkomen, uitgaven, prijzen, ..
Kenmerken:
1
, Opdeling in categorieën
Natuurlijke ordening: er zit wel een volgorde in, bv likert schaal: akkoord, volledig akkoord, …
als je dit omzet in cijfers (Likertschaal) is 5 wel “meer” dan 1. Bepaalde antwoorden zijn
beter.
Interpreteerbare categoriebreedte
Natuurlijk nulpunt: Natuurlijk nulpunt: totale afwezigheid van iets, als temperatuur 0 is, is er
nog altijd een temperatuur, dus geen natuurlijk nulpunt. Natuurlijk nulpunt bv nodig om
dingen te logaritmeren. Voor procentuele veranderingen te berekenen heb je ook een
natuurlijk nulpunt nodig.
Temperatuur: nulpunt is geen natuurlijk nulpunt, dit is gewoon een afspraak, met Fahrenheit
is het bv anders.
Ratio’s hebben wel natuurlijk nulpunt: bv inkomen 0 je verdient niks.
Soorten variabelen: Count data:
Count data: data die voorkomen uit het tellen van zaken.
Deze count data kan niet negatief zijn en zijn gehele getallen (frequenties). Deze reeksen bevatten
ook nullen en lijken sterk op nominale en ordinale reeks, daarom kijken naar hoe ze zijn
samengesteld (data generating proces):
Nominale data: arbitraire toewijzing van getallen: bv Europeaan = 1, Afrikaan = 2, Aziaat = 3,
willekeurige toewijzing.
Ordinale data: hier zit natuurlijke ordening in: bv <25 jaar =1, 25-55 jaar =2, >55 jaar= 3
Count data: : Deze waarden zijn het gevolg van ‘tellen’ van de frequentie waarmee een
fenomeen voorkomt (vb. aantal doelpunten van een voetbalploeg per match doorheen het
seizoen). Met count data kan je niet zomaar rekenen (is ook geen normaalverdeling)
Typologie van analysetechnieken:
Interdependence technieken:
wil dataset meet manipuleerbaar maken: dataset beter structureren door bv bepaalde
dingen te groeperen.
Bv proberen te groeperen (dit zie je in master)
Dependence technieken:
hoe is een variabele afhankelijk (dependent) van andere variabelen. Er zijn verklarende en
onafhankelijke variabelen. Proberen te achterhalen hoe verklarende variabelen de
afhankelijke variabele verklaren. Dit zijn de dependence technieken die we dit semester zien:
(Ancova: combinatie van regressie en anova.)
De toegelaten analysemethoden, datatransformaties en statistische tests zijn afhankelijk van
de aard van de dataset (cross sectie, tijdreeks, panel) en van de aard van de samenstellende
variabelen (nominaal, ordinaal, interval, ratio of count).
2
,Hoofdstuk 2: kernconcepten van multivariate
regressieanalyse
Doel: beschrijven economische realiteit en testen van hypothesen of simulatie (what-if vragen, kijken
wat effect is door bepaalde dingen aan te passen) of forecasting.
Twee soorten variabelen:
Y: afhankelijke (endogene variabele): waarde wordt binnen model bepaald
X: Onafhankelijke of verklarende variabele (regressor/ exogene variabele): waarde wordt
buiten het model bepaald.
X en Y komen voor in de dataset.
Beide gemeten op moment t op zelfde moment (= statisch model) geen tijdsdimensie
Lineair model: vorm ax + b
Niet-lineair: geen lineair verband (bv exponent)
Enkelvoudig: er is 1 verklarende variabele en 1 afhankelijke
Meervoudig: meerdere X’en, meer verklarende variabele.
Parameters:
Dit zijn de Beta’s in elke vergelijking. Variabele: meetbare dingen die je kan terugvinden in dataset (X
en Y). Parameters: deze moet je berekenen, kan je niet terugvinden in dataset. Goed onderscheid
maken tussen deze 2
B0 is constante term: Deze wijzigt niet bij wijziging van regressoren.
B1: hangt vast aan regressor: geeft weer in welke mate de waarde van de afhankelijke
variabele verandert bij wijziging met 1 éénheid van de verklarende variabele (X).
(denk aan regressieanalyse statistiek: vergelijking bestaat uit constante term en beta’s die
invloed van verklarende variabelen waargeven).
deze parameters zijn waarde van de eerste afgeleide van de afhankelijke variabele.
B1 moeten we schatten/ benaderen, dit doen we adhv regressie. (deze Beta’s vinden we
dus niet in onze dataset). We benaderen deze zo goed mogelijk door een representatieve
steekproef.
Zie dia 8 - 11 hoofdstuk 2.
ε op het einde = storingsterm, niet observeerbaar deze moet ook geschat worden. Deze zou zo klein
mogelijk moeten zijn. Dit is de afwijking van de schatting van de beta’s, je maakt altijd een fout. Er is
altijd een storingsterm. Deze storingsterm is niet te verklaren = stochastisch gedeelte. Oorzaken:
3
, Ontstaat bv door onbeschikbaarheid van gegevens. We proberen een model te maken met
kleinst mogelijke storingsterm.
Niet verklarende gedeelte dat in de populatie aanwezig is, omdat je steekproef gebruikt hebt
je een storingsterm.
Er zijn bv toevalseffecten in het model die niet verklaard worden door de X’en.
Zie dia 14 hoofdstuk 2.
De regressievergelijking wordt opgesteld door het schatten van de parameters. Deze schatting
gebeurt adhv het veronderstelde verband tussen Y en X.
Eigenschappen van goede parameterschatters:
Rond 50 observaties is de
grens tussen klein en groot
Niet vertekend: Schatter mag
geen vertekende fouten geven
hoe meer observaties, hoe
dichter het bij de werkelijke
waarde moet komen te liggen
Efficiënt: schatter met kleinste
variantie is beste schatter.
Schatter wordt consistent
naarmate steekproef groter worden, schatters komen dichter bij de werkelijke waarde, efficiency
neemt toe.
Zie dia 18.
Gauss-markov theorema:
Minimale variantie realiseer je door kleinste kwadraten te gebruiken als schatters: Best Linear
Unbiased Estimator (Beste lineaire niet vertekende schatters)
Hoofdstuk 3: gewone kleinste kwadraten (OLS)
Assumpties om te mogen werken met kleinste kwadratenmethode:
1. Model is lineair en inhoudelijk en formeel correct gespecifieerd
specificatie: alle mogelijk relevante/ invloedrijke variabelen moeten aanwezig zijn
(als er dingen niet ontbreken is er specificatiefout)
Het model moet lineair zijn geen machten/ sinussen/ breuken/ .. Aan de
rechterkant
Oorzakelijkheid: moet aanwezig zijn, oorzakelijke variabele moeten aan de
rechterkant zitten (regressoren) bepalen niveau van afhankelijke variabele.
Storingsterm mag niet multiplicatief zijn, moet additief zijn dwz dat je deze er bij
moet optellen/ aftrekken, niet bij vermenigvuldigen. Equatie moet er dus zo uit zien:
k
Yi 0 j X ji i
j 1
Als deze assumptie niet voldaan is: geschatte parameters (bèta) zullen vertekend en
inefficiënt zijn. Oplossing: specificatie herzien.
Zie ook hfdst 3 dia 8.
4