Kwantitatieve Onderzoeksmethoden
1. Enkelvoudige Lineaire Regressie (ELR)
Doel: Modelleer het effect van een onafhankelijke variabele X op de afhankelijke variabele Y.
Verschillende stappen:
1. Model specificatie
• Suggereer een theoretisch model voor de populatie gebaseerd op de kennis van een
‘expert’ (bv. literatuur).
• Houdt in dat je assumpties maakt die moeten gecontroleerd worden.
2. Schat parameters in het model
• Fit het model op basis van de data.
• Voer hypothese toetsen uit.
3. Goodness of fit
• Levert het theoretische model een goede fit voor de data?
4. Check de assumpties op basis van de data
• Dit kan leiden tot een aangepaste model specificatie.
1.1. Model specificatie
Wat vertelt/vertellen de literatuur/experten jou over de relatie tussen X en Y?
Klassieke enkelvoudige lineaire regressie
Modelleer de relatie tussen X en Y met een lineaire functie. De punten liggen niet exact op een rechte:
Y = β0 + β1 x + ε, met ε ~N(0, σ), waar σ de standaard fout van het model wordt genoemd.
Interpretatie van de parameters
Omdat de foutenterm gemiddeld 0 is, geldt: μY|x = β0 + β1 x
• Intercept : waarde voor μY als x=0 (vaak niet relevant)
• Helling: verandering in μY als x toeneemt met 1 eenheid.
Non-lineaire relaties
Niet alle relaties zijn lineair. Maar het is mogelijk om niet-lineaire relaties te modelleren met behulp
van een ‘lineair’ regressiemodel, door transformaties toe te passen.
Transformaties
,Geschikte functionele vorm?
Het is belangrijk om goed na te denken over de specificatie van het regressiemodel. Je moet je laten
leiden door economische theorie, experts, rekening houdend met bijv. helling eigenschappen.
De vorm moet voldoende flexibel zijn om de gegevens te ‘passen’. Kies een vorm zodat aan de
assumpties A1-A5 wordt voldaan, zodat de kleinste kwadraten schatters de gewenste eigenschappen
hebben.
Een deel van de uitdaging van regressieanalyse is realistische assumpties maken en controleren of
eraan voldaan is. Als de assumpties niet gelden, zullen bepaalde conclusies die we trokken niet
kloppen.
Klassieke assumpties voor enkelvoudige lineaire regressie:
• A1: μY|x = β0 + β1 x (ε is gemiddeld 0 voor alle x)
• A2: ε heeft een constante standaardafwijking (homoskedasticiteit)
• A3: cov (εi, εj)=cov(Yi,Yj) =0 (= geen autocorrelatie)
• A4: Variabele x is niet random en neemt minstens 2 verschillende waarden aan.
• A5: (optioneel) ε is normaal verdeeld
In het kort: Yi = β0 + β1 xi + εi, met εi onafh. N(0, σ)
Modellen die vaak gebruikt worden in economische toepassingen:
• Lineair model: constante helling
• log-log: x stijgt met 1%, y met ≈ β1%
• log-linear: x stijgt met 1 eenheid, y met ≈β1100%
• linear-log: x stijgt met 1%, y met ≈0.01β1 eenheden
1.2. Geschat model
Populatie versus geschat model
Populatie Model = “true” model
Y = μY|x + ε = β0 + β1 x + ε
➔ Schattingen
➔ b0, b1, s
b0, b1: kleinste kwadraten principe
‘Fit’ een rechte op de data die ervoor zorgt dat de som van de kwadraten van de residuen e i zo klein
mogelijk is.
ei = yi –𝑦̂𝑖 is een residu.
,s: standaard fout van het model
σ = standaardafwijking van de foutenterm ε
• Benaderende steekproef: residuen ei
1
• Geschatte variantie: 𝑛−2 ∑𝑛𝑖=1(𝑒𝑖 − 0)²
n - 2 zijn de vrijheidsgraden van het model.
1.3. Inferentie parameters
Bi als een random variabele
De steekproef variantie σ²B1 meet de nauwkeurigheid van de schatter
𝜎²
Var(𝐵1 ) = (𝑛−1)𝑠2
𝑥
sB1, ook genoteerd als se(B1), is de vierkantswortel van de geschatte variantie van B1 en wordt de
standaardfout van B1 genoemd (cfr. SPSS).
De schatter is nauwkeuriger als:
• ² kleiner is.
• 𝑠𝑋2 groter is (spreiding x-waarden).
• n groter is.
Gauss Markov theorema
Het kleinste kwadraten principe is slechts één manier met data schattingen van βi te verkrijgen. Hoe
verhouden de kleinste kwadraten schatters zich tot andere procedures?
Theorema: Onder assumpties A1-A3, hebben de kleinste kwadraten schatters de kleinste variantie
van alle lineaire, onvertekende schatters van βi. Het zijn de ‘Best Linear Unbiased Estimators’ (BLUE)
Theorema: Wanneer bovendien assumptie A5 geldt, dan zijn de kleinste kwadraten schatters BUE.
1.4. Hypothesetoetsen
Hypothesetoetsen voor βi
Bij een hypothesetoets voeren we de volgende stappen uit:
1. Formuleer H0/H1
2. Bepaal geschikte descriptive statistics
3. Bepaal een geschikte test statistiek
4. Bepaal de p-waarde voor de toets gebaseerd op de verdeling van de test statistiek onder H0
5. Formuleer een conclusie
6. Beschrijf en controleer de assumpties
Formuleer H0/H1
H0: βi = 0
H1: βi >, ≠,< 0
, Geschikte descriptieve statistieken
• bi
• Scatterplot
Geschikte test statistiek
Gestandaardiseerde bi:
bi
t=
sBi
• Als H0 waar is, verwacht men een t ‘dicht bij’ 0
• Verwerp H0 als t significant >, ≠, < 0
• Als H0 waar is T ~ tN-2
P-waarde
Maak een grafische voorstelling van de p-waarde.
Assumpties
Assumpties A1-A5 moeten gelden opdat T t-verdeeld is met N-2 vrijheidsgraden
Benaderende resultaten indien A5 niet geldt.
1.5. Goodness of fit
Goodness of fit maatstaven
De ‘goodness of fit’ van een statistisch model beschrijft hoe goed het past bij een reeks observaties.
Maatstaven van goodness of fit vatten typisch de discrepantie samen tussen waargenomen waarden
en de waarden die onder het betreffende model worden verwacht.
Voorzichtigheid is geboden bij het gebruik van ‘statistische’ goodness of fit maatstaven voor
modelevaluatie. Ze mogen niet de enige maatstaf zijn om een model te beoordelen.
Voor een regressie zijn er verschillende statistische maten: R², F-toets, standaardfout van het model,
residuplot, …
Decompositie van de variantie