Voortgezette Statistiek 2022 – Tentamen b.
Week 1 . Padanalyse I
Hoorcollege 1. Pad Analyse
Een padanalyse gebruikt regressiemodellen om theorieën of causale relaties onder een set
variabelen weer te geven. Het wordt veelal gebruikt om oorzaken en gevolgen te achterhalen. We
maken hierbij onderscheid tussen directe en indirecte effecten. Het is de bedoeling dat achterhaald
wordt wat voor gewicht aan elke pijl in de padanalyse gehangen kan worden.
Bij het construeren van een padanalyse moet goed nagedacht worden over oorzaken, gevolgen en
controlevariabelen. Hierbij moet worden stil gestaan welke rol bepaalde variabelen spelen in het
model. Er moet altijd stil worden gestaan bij mogelijke common causes: variabelen die zowel de
veronderstelde oorzaak als het veronderstelde gevolg beïnvloeden. Common causes maken de relatie
tussen een x en een y spurious.
De paden in een padanalyse zijn altijd gestandaardiseerde
regressiecoëfficiënten, waardoor de paden direct met elkaar
vergeleken kunnen worden met betrekking tot sterkte. In een
padanalyse worden daarnaast ook errortermen weergegeven
(bv. D5). Dit zijn latente (onobserveerbare) variabelen, die
alles wat niet verklaard kan worden door de predictoren in het
model weergeven. Deze errorterm wordt weergegeven als er
een variabele gebruikt wordt om een andere te voorspellen. In
het voorbeeld worden er vijf variabelen gebruikt om één afhankelijke variabele te voorspellen. Er
loopt daarom een errorterm naar deze afhankelijke variabele.
Bij een schatting van een padanalyse hoort ook altijd een Std. Error of the Estimate. Dit is de
standaarddeviatie van de residuen en geeft een maat voor de nauwkeurigheid van de voorspellingen
aan de hand van het geschatte regressiemodel.
Structural Equation Modelling
De meest simpele vorm van een padanalyse, is Structural Equation Modeling (SEM). Deze bestaat
vaak uit zogenaamde simultaneous equation systems: conceptuele modellen met meerdere pijlen
en paden naar verschillende geobserveerde variabelen. Ofwel, het model bestaat uit meerdere
regressievergelijkingen en kan vaak worden uitgevoerd via meerdere multipele regressieanalyses.
Structural Equation Modelling omvat vaak een combinatie van padanalyse en (confirmatieve)
factoranalyse. Bij een padanalyse maken we gebruik van geobserveerde variabelen. Lineaire
regressiemodellen zijn speciale gevallen van padanalyse. De (confirmatieve) factoranalyse maakt
daarentegen gebruik van latente, niet direct observeerbare variabelen (zie week 3).
We maken onderscheid tussen:
- Simultaneous multiple regression: alle x-en worden in één keer toegevoegd
- Sequential multiple regression: de x-en worden in stappen toegevoegd.
1
,Bij het onderzoeken van causale verbanden, moet een verband aan drie voorwaarden voldoen wil het
als causaal verband gezien worden: (1) Er is sprake van een verband tussen twee variabelen; (2) Er is
sprake van een logische tijdsvolgorde waarin een verandering in de ene variabele voorafgaat aan een
verandering in de tweede variabele en (3) Er wordt gecontroleerd voor derde variabelen.
Er kan bijvoorbeeld sprake zijn van een mediatie. Hierbij verdwijnt de relatie tussen gevolg y en
oorzaak x (gedeeltelijk) bij controle voor een derde variabele. Er is dan geen sprake van een causaal
verband, zoals wellicht wel voorspeld werd.
Mocht een relatie na het controleren voor derde variabelen, dan is er alsnog niet noodzakelijk sprake
van een causaal verband: “We can never prove causality”.
Wright’s Rules
De heer Wright is erg belangrijk geweest voor de ontwikkeling van de padanalyse. Hij heeft regels
opgelegd voor het schatten van paden in een padanalyse. We spreken van ‘Wright’s Rules’. Hij stelt
dat de directe invloed langs een pad gemeten wordt via standaarddeviaties: een padcoëfficiënt wordt
gedefinieerd als de ratio van de standaarddeviatie van Y als gevolg van X tot de totale
standaarddeviatie van y. Met andere woorden, worden de paden in termen van variantie geschat.
De eerste wet van padanalyse is de basis van de padanalyse:
Met Y endogeen, X exogeen en variabelen Z alle oorzaken van Y
Padanalyse
In een paddiagram worden er pijlen getrokken van een vermoedelijke oorzaak naar een vermoedelijk
effect. Dit gebeurt op basis van theorie en voorgaand onderzoek. Daarnaast kunnen er ook correlaties
worden weergegeven in een paddiagram, waarbij de pijl twee koppen heeft en er geen indicatie van
richting wordt gegeven: er wordt geen informatie gegeven over effecten van de ene variabele op de
andere variabele, enkel dat er sprake is van samenhang.
De paden geven een zwakke causale ordening aan. Als twee variabelen causaal verbonden zijn, dan
is de oorzaak in de richting van de pijl en niet andersom.
Wright’s Tracing Rule: de correlatie tussen twee variabelen is de som van het product van alle
paden op alle mogelijke routes tussen de variabelen (First Law of Path Analysis).
Uitzondering 1: je mag niet tweemaal door dezelfde variabele
Uitzondering 2: je mag een variabel niet ‘in en uitgaan’ door een pijlkop
Uit deze regel kun je gestandaardiseerde regressiecoëfficiënten berekenen.
Bijvoorbeeld:
correlatie tussen Ab , Ac−(correlatie Ab, M∗correlatie M , AC )
Dus, pad b is gelijk aan: 2
1−r Ab , M
Keith hanteert vuistregels voor het beoordelen of een coëfficiënt betekenisvol is ja of nee:
< 0.05 ; too small to be meaningful
> 0.05 ; small but meaningful
2
,> 0.10 ; moderate
> 0.25 ; large
Residuen
Na het schatten van een paddiagram waarin oorzaken en gevolgen worden weergegeven, bevat een
model (nog) niet alle invloeden van andere variabelen op de uitkomsten. Hiervoor dienen de residu-
variabelen/errortermen (disturbances): deze representeren alle andere invloeden op de
uitkomstvariabelen. Het zijn ongemeten, latente variabelen welke in een paddiagram worden
weergegeven met cirkels.
Ook residuele paden kunnen worden uitgerekend: √ 1−R2
Paddiagrammen kunnen recursief, en non-recursief zijn:
- Recursive model ; paden (oorzaken) lopen in één richting.
- Nonrecursive model ; paden (oorzaken) lopen in twee richtingen, waarbij een variabele zowel
een oorzaak als een gevolg is. Dit is moeilijk te schatten.
Padmodellen: Identificatie
Het identificeren van padmodellen draait om de vraag of het model geschat kan worden. Met andere
woorden: is het model geïdentificeerd? Het komt soms voor dat je meer zou willen weten dan dat een
model je aan informatie kan geven.
We maken een onderscheid tussen :
- Model (A) is een geïdentificeerd model: er
zijn drie onbekende padcoëfficiënten en drie
bekende correlaties. Er zijn dus genoeg correlaties gegeven om de paden uit te kunnen rekenen.
Met andere woorden: er is precies genoeg informatie om de puzzel op te lossen.
- Model (B) is een onder-geïdentificeerd model: er zijn vier onbekende padcoëfficiënten en drie
correlaties, waardoor er te weinig correlaties zijn om de paden te kunnen schatten. We hebben te
weinig informatie om de paden te schatten, waardoor de puzzel niet op te lossen is.
Er is daarnaast ook sprake van een nonrecursive model; Ac en Mo zijn zowel oorzaak als gevolg.
- Model (C) is een over-geïdentificeerd model: er zijn twee onbekende padcoëfficiënten en drie
correlaties. We hebben meer informatie dan we in principe nodig hebben. Dit maakt dat er
verschillende schattingen zijn voor hetzelfde pad.
Hier gaat onze voorkeur naar uit! We kunnen een kwaliteitscontrole uitvoeren.
We maken daarnaast ook onderscheid tussen:
- Exogene variabelen; variabelen waarvan de oorzaken buiten het model liggen. Dit betekent dat er
in het padmodel geen pijlen naar de variabele toe gaan.
- Endogene variabelen; variabelen waarvan de oorzaken binnen het model liggen. Dit betekent dat
er wel pijlen naar de variabele toe gaan.
- Manifeste variabelen; dit zijn de variabelen die gemeten/geobserveerd zijn.
- Latente variabelen; de variabelen die niet direct observeerbaar en niet gemeten zijn. Deze latente
variabelen hebben een residu-variabele.
Voorbeeld van een complexer model.
3
, Deze padanalyse kent vijf variabelen. Het model is geïdentificeerd: er zijn vijf variabelen, wat
betekent dat er tien correlaties zijn. Er zijn tien paden in het model, dus voldoende correlaties om deze
tien paden te kunnen schatten.
Dit padmodel kan geschat worden met Multipele Regressie: je
schat vier modellen met als afhankelijke varaibelen ‘Ab’, ‘Mo’,
‘Co’ en ‘Ac’.
Vervolgens kunnen de padcoëfficiënten met de beta’s en de R 2-
waarden geschat worden.
Neem bijvoorbeeld de multipele regressie voor het schatten van
‘Achievement’ (Ac). Hiertoe worden Family Background (Fb),
Ability (Ab), Motivation (Mo) en Courses (Co) gebruikt als
onafhankelijke variabelen. Deze variabelen hebben namelijk
allemaal een pijl die naar Achievement loopt.
De geschatte regressiecoëfficiënten kunnen vervolgens gebruikt
worden om de paden een waarde te geven. Het residuele pad moet
nog wel berekend worden: √ 1−R2 = √ 1−0.629 =
0.609
Op dezelfde manier kunnen de regressiecoëfficiënten geschat
worden met Courses (Co) als afhankelijke variabele, Motivate
(Mo) als afhankelijke variabele en Ability (Ab) als afhankelijke
variabele. Op deze manier krijgen alle paden een waarde toegewezen.
Directe en indirecte effecten
Er kan een onderscheid gemaakt worden tussen indirecte en directe effecten. Er
is sprake van een direct effect als één variabele een directe pijl richting een
andere variabele heeft. Zo heeft Motivation een direct effect op Achievement:
0,013. Er is sprake van een indirect effect als een variabele via een tweede
variabele effect heeft op de uitkomstvaraibele. Zo heeft Motivation via
Courses een indirecte invloed op Achievement (0,0267 * 0,310 = 0,083). Dit
wordt uitgerekend door de paden waarlangs het effect loopt, met elkaar te
vermenigvuldigen.
Uiteindelijk heeft een variabele een totaal effect: direct effect + indirect
effect. Belangrijk om te onthouden is dat alle effecten conditioneel zijn, gecontroleerd voor de andere
variabelen. In dit voorbeeld is het totale causale effect van Motivation op Achievement: 0,013 + 0,083
= 0,096, gecontroleerd voor Family Background en Ability.
SPSS kan alleen directe effecten toetsen, niet indirecte effecten.
Met betrekking tot het effect van Motivation op Achievement,
kan er nog gekeken worden naar de andere paden. Wat doen
we bijvoorbeeld met het pad van tussen Motivation en Ability,
en het pad tussen Ability en Achievement?
Mo Ab Ac : 0,152 * 0,551 = 0,084
4