Voortgezette Statistiek 2022
Week 1. Introductie Pad-analyse en Causaliteit
K.4. Keith (2019). Multiple Regression and Beyond : Path Analysis.
Een pad-analyse is een vorm van een statistische analyse, met multipele regressie. Relaties tussen een
afhankelijke en twee of meer onafhankelijke variabelen worden onderzocht. Een pad diagram betreft
een conceptueel model, welke is uitgebreid met letters/cijfers bij de pijlen. Het is eigenlijk een
statistisch model met gestandaardiseerde regressiecoëfficiënten.
Bij een pad-diagram wordt er onderscheid gemaakt tussen twee soorten variabelen:
➢ Exogeen; een variabele waarvan de waarde buiten het model wordt bepaald en aan het model
wordt opgelegd. Een exogene verandering is een verandering in een exogene variabele.
➔ Oorzaken liggen buiten het model, er gaan geen pijlen naar de variabele toe.
➢ Endogeen; een variabele waarvan de waarde wordt bepaald door het model. Een endogene
verandering is een verandering in een endogene variabele als reactie op een exogene variabele die
aan het model wordt opgelegd.
➔ Oorzaken liggen binnen het model, er gaan wel pijlen naar de variabelen.
Een pad-analyse moet voldoen aan een aantal assumpties. Ten eerste gelden de basis assumpties van
een multipele regressie ook voor een pad-analyse:
- De afhankelijke variabele is een lineaire functie van de onafhankelijke variabelen.
- Er moet sprake zijn van aan onafhankelijke steekproef, wat betekent dat elke observatie op een
onafhankelijke wijze uit de populatie getrokken moet zijn.
- De fouten zijn normaal verdeeld en relatief constant voor alle waarden van de x-en.
Een andere assumptie van multipele regressie is dat de fouten niet samenhangen met de onafhankelijke
variabelen of. Hierom moet het causale mechanisme welke ten grondslag ligt aan de pad-analyse, aan
dezelfde beperking voldoen om ervoor te zorgen dat de regressiecoëfficiënten nauwkeurige
schattingen geven van de effecten van de ene variabele op de andere.
Een pad-analyse kent nog andere aannames:
1. Er is geen sprake van omgekeerde causaliteit;
Deze assumptie is enigszins tweevoudig. Ten eerste moeten de paden in de pad-analyse in de juiste
richting getekend worden. Ten tweede moet het model recursief zijn, wat betekent dat de pijlen in het
model maar één richting hebben.
2. De exogene variabelen zijn perfect gemeten; betrouwbaar en valide.
Een echte perfecte meting bestaat niet, maar onze variabelen moeten wel zo valide en betrouwbaar
mogelijk gemeten zijn. Op deze manier wordt de schade beperkt, wat betekent dat de schattingen van
de effecten niet overdreven vertekend zijn.
3. ‘a state of equilibrium has been reached’.
Causale processen moeten een kans hebben gehad om te werken, er is sprake van evenwicht. Motivatie
heeft bijvoorbeeld mogelijk invloed op prestatie, maar zo’n proces kost vaak wel tijd. Deze tijd moet
dan ook daadwerkelijk verstreken zijn; causaliteit moet een kans gekregen hebben.
,4. Er is geen sprake van ‘common causes’
Er mogen geen vergeten gezamenlijke oorzaken zijn. Je moet naar common causes kijken. Een
schijnrelatie wordt bijvoorbeeld veroorzaakt door common causes.
‘The Danger of Common Causes’
Stel je vind een correlatie tussen schoenmaat en leesvaardigheid. Het is dwaas om te concluderen dat
schoenmaat leesvaardigheid beïnvloedt, of andersom, omdat het een derde variabele is die de relatie
veroorzaakt: leeftijd/groei. Schoenmaat en leesvaardigheid zijn enkel met elkaar gecorreleerd, omdat
leeftijd/groei beide variabelen beïnvloedt. Er is sprake van dat was een ‘spurious relation’ genoemd
wordt: twee variabelen zijn niet aan elkaar gerelateerd doordat de ene variabele de andere beïnvloedt,
maar zijn het resultaat van een derde variabele die beide beïnvloedt.
Dit voorbeeld illustreert de essentie van het gevaar van ‘common causes’: zou je niet voor
leeftijd/groei controleren, dan zou een analyse uitwijzen dat schoenmaat invloed heeft op
leesvaardigheid. Dit, terwijl leeftijd/groei de common cause is. Zou je wel controleren voor leeftijd,
dan zul je zien dat het effect van schoenmaat op leesvaardigheid nul zou worden. De opbouw van het
model is dus cruciaal: wil je goede schattingen, dan moet je controleren voor belangrijke
gemeenschappelijke oorzaken van onze veronderstelde oorzaak en verondersteld gevolg. Dit probleem
wordt de ‘omitted common causes’, ‘spurious correlation’, ‘model misspecification’ of ‘the third-
variable problem’ genoemd.
Zou je niet controleren voor belangrijke ‘common causes’, dan zou het model wat je schat de invloed
van een variabele sterk kunnen overschatten. Deze variabele wordt mogelijk beïnvloed door een derde
variabele, welke ook invloed heeft op je afhankelijke variabele, maar als je deze niet opneemt in je
model, worden je geschatte effecten overschat. Het weglaten van een belangrijke variabele, wordt ‘the
Omission of an Common Cause’ genoemd. Het belang van gemeenschappelijke oorzaken kan ook
verklaren waarom sommige onderzoeken variëren in hun uitkomsten; het ene onderzoek controleert
wel voor de belangrijke common causes, waar een ander dat niet doet, wat leidt tot een overschatting
van de effecten.
Hoe weet je dan of je alle relevante gemeenschappelijke oorzaken in je model opgenomen hebt? Dit
vergt een goed begrip van relevante theorieën en een blik op voorgaand onderzoek welke dezelfde
concepten onderzocht heeft. Zeker weten doe je het echter nooit.
Gemeenschappelijke oorzaken, niet alle oorzaken
Vele onderzoekers zijn dermate bang om een common cause te verwaarlozen, dat ze elke variabele die
ze kunnen bedenken opnemen die mogelijk een common cause is. Anderen begrijpen het idee van een
‘common cause’ verkeerd en proberen alle mogelijke oorzaken van ofwel de veronderstelde oorzaak
ofwel het veronderstelde effect op te nemen in hun model. Dit leidt uiteindelijk tot te uitgebreide en
minder krachtige analyses, die eerder verwarrend werken dan verreikend.
Het betrekken van een non-common cause in een regressie verandert de schattingen van regressie-
coëfficiënten niet. Stel je onderzoekt de relatie tussen ouderlijke betrokkenheid en GPA (Grade Point
Average, schoolprestaties). Je hoeft niet alle mogelijke invloeden op ouderlijke betrokkenheid in je
model mee te nemen, en ook niet alle mogelijke invloeden op GPA; dat zouden namelijk honderden
variabelen kunnen zijn. Dat wat je in je model mee moet nemen, zijn de gemeenschappelijke
oorzaken; de variabelen die zowel invloed hebben op ouderlijke betrokkenheid, als op het GPA van
een kind. Een voorbeeld hiervan is voorgaande prestaties; presteert een kind voorgaand heel goed, dan
zijn ouders wellicht minder betrokken omdat betrokkenheid niet nodig is, wat het effect van
betrokkenheid op GPA van een kind minder sterk zou maken. Daarnaast zouden goede voorgaande
prestaties ook een positieve invloed kunnen hebben op GPA.
,Je hoeft variabelen die geen gemeenschappelijke oorzaak vormen , niet per se op te nemen in je model.
Het weglaten van variabelen die geen common cause zijn, zou weinig effect moeten hebben op het
schatten van andere effecten.
Experimenten en gemeenschappelijke oorzaken
Het elimineren van het gevaar van gemeenschappelijke oorzaken maken dat experimenten een sterke
conclusie van causaliteit mogelijk maken, omdat experimenten een hogere mate van interne validiteit
hebben dan niet-experimenteel onderzoek. Dit komt doordat deelnemers aan experimenten willekeurig
worden toegewezen aan experimentele of controlegroepen. De handeling van willekeurige toewijzing
sluit in feite alle mogelijke common causes uit.
Mediërende variabelen
Het is niet noodzakelijk om indirecte effecten in je model op te nemen, om te zorgen dat je model
valide is. De indirecte effecten – mediërende variabelen – kunnen wel je begrip vergroten als het aan
komt op hoe bepaalde effecten tot stand komen. Mediërende variabelen zijn dus interessant, maar niet
noodzakelijk om op te nemen in je model. Zou je een mediatie opnemen, dan veranderen de totale
effecten niet. De directe effecten veranderen daarentegen wel, omdat een gedeelte van het effect dan
via een andere variabele gaat lopen.
Het achterhalen van indirecte effecten is vaak wel erg verhelderend. Je achterhaalt een bepaald
mechanisme voor een effect welke je gevonden hebt. Een ander voordeel van een mediërende
variabele is dat deze je kunnen helpen om je causale uitspraken te versterken. Als je kunt uitleggen
welke variabelen invloed hebben op een bepaalde uitkomst en je daarnaast ook kunt uitleggen door
welk mechanisme dat effect plaatsvindt, dan zijn je causale uitspraken geloofwaardiger.
Een ander mogelijk gevaar: paden in de verkeerde richting
Het kan voorkomen dat je de paden in een pad-analyse in de verkeerde richting tekent. De implicaties
hiervan zijn afhankelijk van waar je deze fout maakt.
Het kan bijvoorbeeld voorkomen dat de richting van een causaal verband verkeerd om wordt
getrokken. Er is niets in een multipele regressie analyse die jou attendeert op het feit dat jouw model
dan verkeerd is. Teken je echter de pijlen verkeerd om – bijvoorbeeld als de causaliteit verkeerd om
loopt in de tijd – dan zullen de resultaten van je analyse misleidend zijn.
Het kan ook voorkomen dat een model een variabele voorheen controleerde als common cause, maar
dat door een verkeerde pijl niet meer doet.
Bijvoorbeeld. De zwarte lijn van ‘Previous Achievement’ naar ‘Parental Involvement’ wordt
omgedraaid (de oranje lijn).
Previous Achievement
GPA
Parental involvement
‘Previous Achievement’ was voorheen in het model opgenomen als potentieel ‘common cause’ van
‘Parental Involvement’ en GPA’, maar in de nieuwe situatie wordt er niet langer gecontroleerd voor
‘Previous Achievement’ als common cause. In dit geval, zullen de resultaten minder misleidend zijn
dan wanneer je causaliteit verkeerd om tekent. Het directe effect van elke variabele in het model zal
hetzelfde zijn als in het ‘correcte’ model. Wat wel fout gaat, zijn de totale effecten. Voorheen had
, ‘Previous Achievement’ een indirect effect op GPA via ‘Parental Involvement’, en daarmee een totaal
effect van .472, met een direct effect van .417.
In het nieuwe, verkeerde, model, heeft ‘Previous Achievement’ geen indirect effect meer op ‘GPA’ via
‘Parental Involvement’. Het directe en totale effect van ‘Previous Achievement’ is in dit model nu
.417. In het oude, correcte, model had ‘Parental Involvement’ geen indirect effect op ‘GPA’, zodat het
directe en totale effect van deze variabele gelijk waren aan .160. In het nieuwe, verkeerde, model heeft
‘Parental Involvement’ echter een indirect effect gekregen op GPA door ‘Previous Achievement’,
waardoor we het totale effect van deze variabele gaan overschatten: .294.
Als de variabelen met paden in de verkeerde richting, twee van de minder centrale variabelen zijn, zou
er weinig of geen effect moeten zijn op de schattingen van de primaire variabelen die van groter
belang zijn.
Wederkerige causale relaties?
Onderzoekers zijn soms geneigd om open-minded te zijn en te claimen dat variabelen wellicht
wederkerig causaal zijn; a heeft invloed op b, en b heeft ook invloed op a. Zo’n wederkerige causale
relatie is inderdaad mogelijk, maar dit komt maar heel weinig voor en daarnaast kun je dat ook niet
schatten met een multipele regressie analyse.
Een erg slechte oplossing, is om een regressie beide kanten op te schatten om ‘te kijken welke het
beste werkt’. De resultaten van een regressie analyse vertellen echter niet of een pad in de verkeerde
richting opgesteld is en uit een analyse blijkt ook niet welke richting de beste is. Het is opnieuw
theorie, voorgaand onderzoek en logica die moeten informeren over richtingen en paden.
Dealing with Danger
De twee primaire gevaren van pad-analyse zijn:
- Je verzuimd om een belangrijke common cause op te nemen in de model.
- Je tekent paden in de verkeerde richting; haalt oorzaak en gevolg door elkaar.
Keith stelt dat de eerste het meeste voorkomt en ook het meest verraderlijk is. Wat kun je als
onderzoeker doen om deze gevaren te omzeilen? Het antwoord van Keith, is dat je je als onderzoeker
moet verdiepen in relevante theorieën en voorgaand onderzoek en dat je stil moet staan bij de
mogelijkheid van common causes. Dit geldt ook bij het lezen van het werk van andere onderzoekers;
vraag aan jezelf of de onderzoekers mogen verzuimd hebben om een belangrijke common cause bij het
onderzoek te betrekken. Wordt een belangrijke common cause niet betrokken, dan zullen resultaten
misleidend en effect over- of onderschat zijn.