Inhoudsopgave alle hoorcollege aantekeningen
Week 1: Intro, Variables and Techniques, OLS (HC 1,2) → blz 1
Week 2: Discrete Choice models (HC 3,4) → blz 10
Week 3: Temporal dimension and quantitative analysis (HC 5,6) → blz 20
Week 4: Spatial Analysis Techniques (HC 7) → blz 29
Week 5: Structural Equation Modelling (HC8,9) → blz 39
Week 6: Structural Equation Modelling (HC 10) → blz 60
Overzicht van Statistische Outputinterpretatie
Samenvatting/overview
Oefentoets
1
,Week 1. Intro, Variables and Techniques, OLS
Hoorcollege 1,2
Algemene Overwegingen in Kwantitatieve Methoden
Er zijn twee hoofdtypen variabelen: de afhankelijke variabele (dependent variable), die de
uitkomst is die je wilt verklaren, en de onafhankelijke variabele (independent variable), die
de afhankelijke variabele beïnvloedt. Daarnaast worden variabelen onderverdeeld in
manifest en latente variabelen. Manifest variabelen zijn direct meetbaar, zoals leeftijd of
inkomen, terwijl latente variabelen niet direct meetbaar zijn, zoals tevredenheid of motivatie.
Deze laatste vereisen hulpvariabelen om te kunnen meten.
Afhankelijk van het type variabele worden verschillende analysemethoden toegepast. Voor
metrische variabelen (interval en ratio) wordt lineaire regressie met de OLS-methode
gebruikt, wat het hoofdonderwerp is van dit themablok. Ordinale variabelen worden
geanalyseerd met ordered logit regressie, en nominale variabelen met multinomiale logit
regressie (bijvoorbeeld binaire keuzes via logistische regressie).
Inductieve en Deductieve Benadering
Er zijn twee benaderingen om onderzoek te doen: inductief en deductief. Bij een
inductieve benadering (meestal kwalitatief) werk je bottom-up. Je begint met empirische
observaties en probeert trends, patronen en theorieën te ontdekken. Deductief onderzoek
(meestal kwantitatief) werkt top-down. Hierbij begin je met bestaande theorieën uit de
literatuur, die je operationaliseert naar concepten. Deze concepten zet je om naar
variabelen. Dit is een theorie-gedreven aanpak.
Zodra je een theoretisch kader hebt, verzamel je kwantitatieve data om de theorieën te
bevestigen. Het fenomeen dat je wilt onderzoeken, is een theoretisch concept dat moet
worden geoperationaliseerd, zodat het onderzoekbaar wordt en je het in cijfers kunt
uitdrukken.
Meetniveau bepaalt welke informatie je genereert:
● Nominaal: Er zit geen rangschikking in, de enige informatie is ja of nee, vaak
kwalitatief zoals geslacht. Er worden vaak percentages gebruikt om aan te geven
welke groep het vaakst voorkomt. Voorbeelden zijn cirkeldiagrammen en
staafdiagrammen.
● Ordinaal: Wel rangschikking, maar de stappen ertussen zijn niet per se even groot.
Hierdoor kun je bijvoorbeeld geen gemiddelde berekenen.
● Interval (metrisch): De stappen tussen waarden zijn even groot, en je kunt een
gemiddelde berekenen, maar er is geen absoluut nulpunt.
● Ratio (metrisch): Het nummer betekent iets, de stappen zijn even groot en er is een
absoluut nulpunt (bijvoorbeeld lengte, die niet negatief kan zijn).
Perfecte data is direct meetbaar en kwantitatief. Interval en ratio zijn kwantitatieve
(metrische) variabelen.
2
,Lineaire Regressie (OLS)
De afhankelijke variabele Y wordt gemodelleerd als een lineaire functie van de
onafhankelijke variabelen X1,X2,...,Xm. Dit wordt weergegeven in de formule:
waarbij E(Yi∣Xi) de verwachte waarde van Y gegeven X is. Hierin is β0het intercept, dat de
waarde van Y aangeeft wanneer alle X-variabelen nul zijn. De coëfficiënten β1,β2,…,βm
vertegenwoordigen het effect van elke onafhankelijke variabele op de afhankelijke variabele
Y. Beta is de helling (gemiddeld effect).
Omdat in de praktijk specifieke waarnemingen afwijken van de verwachte waarde, wordt een
error term ϵi toegevoegd aan het model om willekeurige variaties en meetfouten te
verklaren:
Yi=β0+β1Xi1+β2Xi2+⋯+βmXim+ϵi
De error term ϵi geeft het verschil weer tussen de
daadwerkelijke waarde en de voorspelde waarde van
Y. Het wordt verondersteld dat de verwachte waarde
van ϵi gelijk is aan nul (E(ϵi)=0, zodat de errors
gemiddeld gezien geen invloed hebben op het model.
R-Squared (R²)
R-squared geeft aan hoe goed een regressiemodel de variatie in de afhankelijke variabele
Y verklaart. Het wordt ook wel de goodness-of-fit genoemd en toont het percentage van de
totale variatie in Y dat door het model wordt verklaard.
● Een hoge R2-waarde betekent dat het model de gegevens goed verklaart en een
groot deel van de variatie in Y kan voorspellen.
● Een lage R2-waarde geeft aan dat het model weinig van de variatie in Y verklaart,
wat betekent dat er mogelijk andere factoren zijn die Y beïnvloeden en niet in het
model zijn opgenomen.
Een R2-waarde dichtbij 1 wijst op een sterke fit van het model, terwijl een waarde dichter bij
0 op een zwakke fit duidt.
Aannames voor een Lineair Regressiemodel
In alle modellen die we gaan gebruiken zijn er 4 stappen die moeten worden doorgelopen.
De stappen die we nemen zijn altijd hetzelfde: testing model assumptions, model relavance,
model significance, testing of individual efects/coefficients.
3
, 1. Testing Model Assumptions:
● Dit gebeurt door visuele inspecties en
statistische tests. We gebruiken bijvoorbeeld
scatterplots om lineariteit te checken, een Q-Q
plot of histogram om de normale verdeling van
residuen te controleren, en een residual plot
om homoscedasticiteit (gelijke spreiding van
residuen) te bevestigen.
2. Model Relevance:
● We bepalen of het model relevant is door te
kijken naar de theoretische onderbouwing en
context van de variabelen. Hiervoor
controleren we of de geselecteerde variabelen logisch en belangrijk zijn om de
afhankelijke variabele te voorspellen.
3. Model Significance:
● We gebruiken de F-test om te bepalen of het model als geheel significant is. Als de
F-waarde groot genoeg is (met een bijbehorende lage p-waarde), betekent dit dat het
model een betekenisvolle bijdrage levert aan het voorspellen van de afhankelijke
variabele.
4. Testing of Individual Effects/Coefficients:
● Hier gebruiken we t-tests voor elke onafhankelijke variabele om te beoordelen of hun
effecten significant zijn. Een significante t-waarde (met een lage p-waarde) geeft aan
dat de betreffende variabele een belangrijke invloed heeft op de afhankelijke
variabele.
1. Check Model Assumptions
Om een betrouwbaar en geldig regressiemodel te bouwen, moeten een aantal aannames
(assumptions) gecontroleerd worden. Deze aannames helpen ons te bepalen of het lineaire
regressiemodel geschikt is voor de data en of de resultaten interpreteerbaar en
generaliseerbaar zijn (dit is niet statistisch). De belangrijkste aannames zijn:
1. Onafhankelijke Observaties:
○ Elke observatie in de dataset moet onafhankelijk zijn van de andere. Dit
betekent dat de waarde van een observatie geen invloed mag hebben op de
waarde van een andere observatie. Dit kan je niet statistisch bekijken.
2. Lineariteit:
○ De relatie tussen de onafhankelijke variabele(n) en de afhankelijke variabele
moet lineair zijn. Dit houdt in dat als je de onafhankelijke variabele(n)
verandert, de verandering in de afhankelijke variabele constant blijft. Een
scatterplot tussen elke onafhankelijke variabele en de afhankelijke variabele
kan helpen om te controleren of er een lineair verband is. In de figuur kan je
4