Toegepaste methoden en statistiek
College 1
Padanalyse
Doel = theorieën weergeven in het “paddiagram”, om daarna te kunnen onderzoeken of de
veronderstelde theorie overeenkomt met geobserveerde correlaties in de werkelijkheid. ‘’Kunnen de
correlaties tussen een groep variabelen verklaard worden door een causaal model?
Basiselementen van een padmodel
1. Variabelen
- Variabelen zijn de eigenschappen van onderzoekseenheden waar je in geïnteresseerd
bent (zoals personen, echtparen, scholen, …)
- Er moet variatie zijn in de eigenschap over de eenheden, anders is het een constante.
- Veelvoorkomende fouten
→ Verwarring van de waarden van de variabele met de variabele zelf. Bijvoorbeeld:
“rijk” en “arm” of ‘’positief’’ en ‘’negatief’’ zijn twee waarden van dezelfde
variabele ➔ niet apart in padmodel opnemen
→ Verwarring van een proces of een theorie met een variabele. Bijvoorbeeld:
attribution theory, math-related career choice process = geen variabelen.
→ Gedragsfactor is te algemeen, specifieer naar bijvoorbeeld selfcare.
2. Relaties tussen variabelen
- Twee variabelen die samen voorkomen waarvan waarden van de ene variabelen
samengaan met die van de andere
- Twee soorten uitspraken
→ Covariantie uitspraak= correlatie (y1 hangt samen met y2). Je kunt de variabelen
omdraaien zonder dat de boodschap verandert.
→ Causale uitspraak = Als je de onafhankelijke variabele verandert, dan verandert
daardoor ook de afhankelijke variabele (Variabele x veroorzaakt y1 en y2)
- Covariantie impliceert niet altijd causatie!
3. Soorten relaties/effecten
- Direct = x → y
- Indirect = x → m → y (via een andere variabele dus de mediator)
- Onbekend = Soms doen we geen uitspraak over de richting van een
effect. We nemen dan gewoon de correlatie op in het padmodel
(dubbele pijl = correlatie). De richting van het verband tussen x en
y1 is in dit voorbeeld niet belangrijk
- Schijnrelaties (spurious) = we observeren een correlatie tussen y1 en
y2 maar eigenlijk is er een onderliggende variabele die voor deze
correlatie hoort (geen causatie!)
- Wederkerige effecten (reciprocal) = Variabele y1 veroorzaakt y2 en
Variabele y2 veroorzaakt y1. Er zijn dus 2 directe effecten , geen
dubbele pijl.
- Conditionele effecten = Soms beïnvloedt variabele niet (alleen)
een andere variabele, maar (ook) een effect (deze variabele =
“moderator”). Het effect hangt af van de waarde van een
derde variabele in tegenstelling tot bij een mediator. Ook:
‘moderatie’, ‘interactie’ genoemd.
1
,College 2
Van tekst naar paddiagram
1. Lijst met variabelen maken
2. Causale ordening van variabelen vaststellen
3. Causale hypotheses vaststellen (verbinden met pijlen)
Toetsen van causale hypothesen
In de praktijk zien we niet of een causale hypothese waar is, alleen of twee variabelen “samen gaan”.
Dat is niet per sé een causaal verband omdat een schijnrelatie een alternatieve verklaring kan zijn voor
het “samen gaan”. Causale hypotheses kunnen daarom niet bewezen worden met correlaties.
- Gouden regel = Alle variabelen die een schijnrelatie kunnen veroorzaken tussen twee
variabelen met een verondersteld causaal verband ertussen, moeten worden
meegenomen in het model.
- Noodzakelijke uitbreidingen van model: gemeenschappelijke oorzaken toevoegen
- Denk aan de conditionele effecten dus een derde, moderate oorzaak
- Mogelijke uitkomsten zouden kunnen zijn:
→ De derde variabele heeft geen invloed op de variabelen en staat los.
→ De derde variabele is wel de oorzaak, samen met het directe effect
→ De derde variabele heeft een effect op beide andere variabelen, dus de causale
hypothese is weerlegd, er is geen causatie
→ Een combinatie van schijnrelaties
- Causale hypotheses kunnen niet bewezen worden met correlaties, maar wél ontkracht
(falsified)!
→ Causale hypothese is ontkracht als: grootte van schijnrelatie(s) = correlatie
→ De gehele correlatie kan dan worden verklaard door schijnrelaties
- Twee mogelijkheden:
1. Grootte van schijnrelatie(s) = correlatie → b1 = 0, geen causaal verband, causale
hypothese weerlegd
2. Grootte van schijnrelatie(s) ≠ correlatie: Wél een causaal verband, óf niet alle
variabelen die een schijnrelatie veroorzaken zijn meegenomen in het model
- Weglaten schijnrelatie leidt tot foute schatting b1 (schaadt toetsing causale hypothese)
daarom is het dus belangrijk om de gouden regel toe te passen
Endogene variabele: een variabele die verklaard wordt (waar een pijl naartoe wijst, minstens 1×
afhankelijke variabele)
Exogene variabele: een variabele die niet verklaard wordt (waar geen pijl naartoe wijst)
- Er kunnen ook onbekende effecten zijn, effecten tussen exogene variabelen. Dit zijn
correlaties maar deze teken je niet (of het zijn stippellijnen).
Disturbance terms (error) = Het is praktisch niet mogelijk om alle variabelen die endogene variabelen
beïnvloeden te meten. We zijn niet geintereseerd in al deze mogelijke oorzaken. Voor deze variabelen
gebruik je een zeta. Je tekent niet altijd een zeta maar ze zijn wel altijd aanwezig.
2
,ζ (“zeta”) stelt hier voor:
1. Onbekende variabelen die endogene variabelen beïnvloeden
2. Bekende maar weggelaten variabelen
3. Menselijke onvoorspelbaarheid
4. Meetfouten in endogene variabelen
Assumpties (aannames) over disturbance terms: disturbance terms zijn klein, ongecorreleerd aan
elkaar en ongecorreleerd aan exogene variabelen: Dus:
- Alle variabelen die zijn weggelaten uit het model hebben een relatief klein effect op de
endogene variabelen, anders moet je ze opnemen in het model
- Alle variabelen die zijn weggelaten uit het model zijn onderling ongerelateerd anders zou
je weer een correlatie verwachten hiertussen.
- Er zijn geen schijnrelaties weggelaten uit het model.
Van paddiagram naar lijnrechte vergelijkingen
- Lineaire relatie bepalen (regressielijn tekenen in grafiek)
- Vergelijking maken zoals y = 126 – 9x
- De regressiecoëffiënt (-9) kan je invoegen in de padanalyse
→ Als je de waarde van de coëfficiënt niet weet, gebruik je b
→ b = niet-gestandaardiseerde regressiecoëfficiënt
- Een verandering van één eenheid in x leidt tot een verandering van b eenheden in y,
ongeacht de waarde van x zelf → y = a + bx
- Regressielijn is geen perfecte weergave
→ Vergelijking is eigenlijk → y = a + bx + ζ (afwijking zitten
in de disturbance term)
- Er kan ook een andere invloed zijn, waardoor je een tweede,
parallelle regressielijn krijgt.
→ y = a + b1x1 + b2x2 + ζ
→ Bij parallelle lijnen is er geen sprake van een interactie, niet parallel = interactie.
- b1 en b2 zijn onafhankelijk van elkaar, hangen niet af van de waarde van de ander.
Padmodellen met rechte-lijnrelaties
- Tot nu toe steeds maar één afhankelijke variabele, wat als de theorie meerdere variabelen
tegelijk verklaart? En er dus meerdere endogene variabelen zijn in een paddiagram
- Voorbeeld opstellen regressievergelijking dubbele endogene variabelen
→ y1 = a1 + b1x1 + b2x2 + ζ1
→ y2 = a2 + b3y1 + ζ2
- 1 vergelijking per endogene variabele met daarin:
→ Alle variabelen die de endogene variabele
verklaren met bijbehorende regressie
coëfficiënt b (direct effect)
→ Een intercept (a)
→ Een disturbance term (ζ)
3
, College 3
Correlatie ≠ causatie
- Hoe kan ik ooit iets zeggen over mijn causale theorie op basis van correlaties?
- Hoe kom ik aan die padcoëfficiënten?
Indirecte en totale effecten
- Y1 doet hetzelfde als x door padcoëfficiënten en
y2 doet hetzelfde als y1
- Het gaat niet om de waarde van x maar om de
verandering
- Padcoëfficiënten geven aan hoeveel de waarde
veranderen. Als x 1 omhoog gaat in zijn waarde,
veranderen y1 en y2 allebei met 1 als de padcoëfficiënten allebei 1 zijn.
- y2 doet de verandering van y1 keer zijn eigen padcoëfficiënt. Dus zijn de padcoëfficiënten
-1 en 2 → verandering van-1 en -2 (2 x -1)
- Een padcoëfficiënt van 0 → geen verandering
(1x0=0)
- Directe effect van x op y1 is de waarde van x keer b1
- Indirecte effect van x naar y2 is product b1b2
- Op dit moment is er alleen een indirect effect op y2,
er kan ook nog een direct worden toegevoegd. Er
wordt dan een direct pijl van x naar y2 getekend. De padcoëfficiënten moet je
dan bij elkaar optellen dus b2 + b3 = de verandering van y2
- Totale effect van x op y2 is de som van het indirecte effect b1 b2 en het directe effect b3.
Patroon van samengaan
In de praktijk zien we niet hoe de pijlen in werkelijkheid lopen, we zien alleen een mengelmoes van
samengaan. Maar: effecten leiden tot een bepaald patroon van “samengaan”. Dus: we kunnen kijken
of de effecten in onze theorie matchen met de correlaties.
- Niet-gestandaardiseerde padcoëfficiënten
→ interpretatie: aantal eenheden toename in AV bij toename van 1 eenheid in OV
- Gestandaardiseerde padcoëfficiënten (gebruikt in dit college)
→ interpretatie: aantal standaarddeviaties toename in AV bij toename van 1
standaarddeviatie in OV
Patroon van samengaan
- We willen weten wat de correlatie is tussen x en y2 als het
model waar is
- Bij de eerste 2 paddiagrammen, is de relatie tussen x en y2
allebei b1b2
→ De eerste is simpelweg een indirect effect
→ De tweede is een schijnrelatie maar komen ook uit
op hetzelfde product
e
- Bij de 3 paddiagram is de relatie tussen x en y2 0
- Mocht er een onbekend effect zijn tussen x en y2 dan is de
correlatie gelijk aan het onbekende effect.
4