TDAT
LES
8
(
2015
-‐
2016
)
Lesnotities
HOOFDSTUK
8
:
Confirmatorische
factoranalyse
Slide
4
Exploratieve
factoranalyse
:
Stel
je
hebt
een
heleboel
variabelen
gemeten
hebt
(
bv.
items
op
een
vragenlijst)
dan
kan
je
u
afvragen:
kunnen
we
die
items
op
een
of
andere
manier
groeperen
zodanig
dat
die
eenzelfde
construct/factor
meten
en
welk
gewicht
ken
ik
dan
toe
aan
elk
van
die
items?
=
grote
verzameling
van
items
reduceren
tot
beperkt
aantal
factoren
,
maar
je
weet
niet
op
voorhand
hoeveel
onderliggende
factoren
er
zijn
(
en
welke
items
tot
welke
factoren
behoren.
Exploratieve
FA
gaat
dit
exploreren/verkennen.
Confirmatorische
factornalayse
Hier
hebben
we
a
priori
een
idee
over
hoeveel
factoren
er
zijn
en
welke
items
bij
welke
factoren
horen.
Willen
die
structuur
die
we
a
priori
veronderstellen,
bevestigd
zien
in
onze
data.
Slide
5
ECR-‐R
=
vragenlijst
om
angstige
vs.
vermijdende
hechting
bij
volwassenen
te
meten
adhv
aantal
items.
Studie
:
items
aangepast
naar
kinderen
!
meet
dit
bij
hen
ook
die
angstige
vs.
vermijdende
hechting?
Verwachting
van
de
studie
:
• uit
die
vragenlijst
zullen
nu
ook
diezelfde
2
factoren
(
kunnen
die
daar
ook
uit
destilleren)
• items
die
angstige
hechting
meten
zullen
op
de
ene
factor
laden,
en
de
vermijdende
op
de
andere
"
Men
heeft
dus
al
a
priori
een
idee
over
hoeveel
factoren
er
waren
en
welke
items
op
welke
factoren
zouden
laden
!
kunnen
we
diezelfde
structuur
bevestigen
als
we
die
vragenlijst
afnemen
bij
kinderen?
=
confirmatorische
factoranalyse
Slide
6
/
Slide
7
• Discriminante
validiteit
:
(
moet
laag
zijn
)
Onderscheiden
die
2
factoren
zich
bij
kinderen
(ook)
voldoende
van
elkaar?
Meten
die
echt
2
verschillende
dingen
?
Zijn
dat
echt
2
verschillende
factoren
(
zoals
dat
bij
volwassen
duidelijk
is
)
?
!
Hoe
onderzoeken
:
is
de
correlatie
tussen
die
2
factoren
niet
te
hoog?
!
Hoge
correlatie
betekent
:
die
2
factoren
meten
eigenlijk
praktisch
hetzelfde
!
Correlatie
mag
max
0.80
–
0.90
zijn
• Inhoudsvaliditeit
:
(
moet
hoog
zijn
)
Willen
dat
de
items
horend
bij
een
factor,
sterk
correleren
met
die
factor.
!
Hoe
onderzoeken
:
correlatie
tussen
die
2
moet
hoog
zijn
!
Minstens
.60
of
.70
, • Factor-‐ladingen
(
interpreteerbaar
als
regressiecoeff)
Is
de
sterkte
waarmee
de
factor
de
antwoorden
op
de
items
gaat
bepalen
(
=factorladingen
)
hetzelfde
bij
jongens
en
meisjes?
Hebben
we
hetzelfde
verband
tussen
de
items
en
de
factoren
bij
jongens
en
meisjes?
Slide
8
De
factoren
=
Latente
variabelen
Die
twee
factoren
zijn
ongemeten
factoren
:
meten
dat
niet
expliciet
in
ons
onderzoek.
Veronderstellen
gewoon
dat
de
gemeten
items
(
vierkantjes
)
die
factoren
weerspiegelen.
Veronderstellen
dus
dat
die
onderliggende
factoren
gemanifesteerd
kunnen
worden
door
het
meten
van
enkele
manifeste
items
(
vragen
uit
de
vragenlijst
).
Te
meten
items
=
manifeste
variabelen
(
indicatoren)
=
indicatoren
voor
de
onderliggende
factoren
Bv.
y1
zou
kunnen
zijn
“i
am
afraid
my
mother
will
stop
loving
me”
!
weerspiegelt
de
onderliggende
angstige
hechting
(
dus
die
factor
zal
dan
bepalen
wat
het
antwoord
op
de
vraag
van
y1
zal
zijn
)
y1
is
dan
een
indicator
van
de
onderliggende
factor
Meetfout
De
uitkomst
die
je
observeert
(
die
vierkantjes
–
de
variabelen
die
we
observeren/meten
–
de
manifeste
variabelen)
hierop
zit
sowieso
ook
een
meetfout
(
errorterm
)
Slide
9
We
proberen
niet
de
correlatie
te
voorspellen
tussen
die
2
factoren
door
bv.
een
derde
latente
variabele
of
een
predictor
die
op
die
2
factoren
allebei
een
effect
zou
kunnen
hebben.
We
laten
wel
toe
dat
die
factoren
gecorreleerd
zijn
(niet
te
hoog
)
maar
gaan
geen
expliciete
oorzaak
modelleren
voor
die
correlatie;
Slide
11
Factorladingen
:
hoe
sterk
is
de
associatie
?
hoeveel
effect
heeft
de
factor
op
het
specifieke
item?
cfr.
regressiecoëfficiënt
!
Regressiecoëfficiënten
standaardiseren
:
Hoe
:
door
zowel
indicatoren
als
factoren
te
standardiseren
En
hoe
doen
we
dat
dan
:
zorgen
dat
gemiddelde
0
is
en
variantie
1
Gevolg
:
dan
weerspiegelt
de
regressiecoëfficiënt
eigenlijk
de
correlatie
tussen
de
factor
en
de
indicator.
# Zo
kan
je
inhoudsvaliditeit
meten
:
“Meten
die
items
wel
degelijk
dat
construct
?”
Correlatie
tussen
items
(
die
bij
een
factor
horen)
en
de
factor
moet
hoog
zijn
!
,Slide
12
Error-‐term
heeft
altijd
regressie-‐coëfficiënt
“1”
Kunnen
het
model
eigenlijk
wat
zo
zien
(
zoals
op
slide
11
geschreven
)
Hierbij
staat
die
+e1
voor
“plus
1
keer
de
errorterm”.
De
regressiecoëfficiënt
die
dus
hoort
bij
het
effect
van
de
errorterm
is
dus
eigenlijk
gewoon
1.
(
vandaar
die
1
bij
de
pijl
van
e1
naar
y1
op
slide
12
)
Het
effect
van
de
error-‐term
:
Errorterm
=
alles
wat
in
de
uitkomst
niet
verklaard
kan
worden
door
de
factor
(bv.
door
methode-‐effecten,
andere
variabelen
die
een
invloed
hebben
,
…
+
meetfout
Variantie
van
de
error-‐term
=
unieke
variantie
=
de
variabiliteit
in
de
geobserveerde
variabele
Y1
die
niet
verklaard
wordt
door
de
factor.
=
de
variabiliteit
die
in
Y1
zit
,
die
niet
door
de
factor
komt
,
en
dus
uniek
is
aan
Y1
zelf
=
de
unieke
variabiliteit
(
de
andere
variabiliteit
die
in
Y1
zit,
die
wel
verklaard
wordt
door
de
factor
,
is
niet
uniek,
want
zullen
we
ook
zien
in
alle
andere
indicatoren
die
ook
beïnvloedt
of
bepaald
worden
door
dezelfde
factor
)
Slide
13
Implicatie
van
unidimensioneel/standaardmodel
:
Verwachten
dat
de
variabelen
(
indicatoren
)
die
door
eenzelfde
factor
verklaard
worden,
gecorreleerd
zijn.
(bv.
correlatie
tussen
items
die
eenzelfde
construct
meten
)
"
Dus
alle
correlatie
die
je
tussen
die
variabelen
observeert,
wordt
verklaard
door
diezelfde
onderliggende
factor.
Eens
je
de
factor
zou
kennen
en
hiervoor
controleert
,
zouden
die
voor
de
rest
onafhankelijk
zijn
.
Slide
15
Autocorrelatie
:
Als
je
herhaalde
metingen
doet
over
de
tijd
(
bv.
hechting
op
verschillende
leeftijden
)
!
je
verwacht
autocorrelatie
:
het
antwoord
dat
je
geeft
op
11
jaar
correleert
met
het
antwoord
op
14
,
16
…
jaar
!
De
error
die
dan
zit
op
het
item
(
op
leeftijd
11
jaar
)
,
zal
natuurlijk
vrij
sterk
correleren
of
hetzelfde
zijn
met
de
error
die
op
datzelfde
item
zit
dat
je
meet
op
een
andere
leeftijd.
Methode-‐effecten
Bv.
zelf-‐rapportage
vs.
rapportage
door
een
extern
persoon.
Bv.
eerste
paar
items
meet
je
met
zelf-‐
rapportage
en
andere
items
meet
je
door
rapportage
via
iemand
anders.
Items
die
voortkomen
uit
zelf-‐
rapportage
zullen
daardoor
misschien
gecorreleerd
zijn
en
de
items
door
een
extern
persoon
ook.
Slide
18
• Indicatoren
=
manifest,
hetgeen
je
meet/observeert
• Factoren
=
latent,
onderliggend
aan
de
indicatoren
(
kan
je
niet
meten
)
, • Reflectieve
indicatoren
:
factor
bepaalt
de
items
die
je
meet
• Formatieve
indicatoren
:
hetgeen
je
meet,
bepaalt
je
factor
Slide
19
Hoe
kunnen
we
nu
die
factorladingen
en
die
factoren
gaan
bepalen
of
identificeren?
Hiervoor
enkele
voorwaarden
:
1) Aantal
parameters
≤
aantal
datapunten
-‐ aantal
parameters
=
aantal
datapunten
!
df
=
0
=
gesatureerd
-‐ aantal
parameters
<
aantal
datapunten
!
df
=
positief
=
niet-‐gesatureerd
$ df
=
datapunten
–
parameters
$ datapunten
=
p(
p+1)/2
(
aantal
elementen
uit
variantie-‐covariantie
matrix
)
$ met
p
=
aantal
variabelen
2) Minimum
aantal
indicatoren
per
factor
-‐ Indien
1
factor
!
minstens
3
indicatoren
nodig
om
het
model
te
identificeren
-‐ Indien
meer
factoren
!
minstens
2
indicatoren
nodig
per
factor
3) Elke
latente
variabele
heeft
een
vaste
schaal
Een
latente
variabele
is/wordt
niet
gemeten
dus
we
moeten
hier
op
een
of
andere
manier
wel
zelf
een
restrictie
opleggen
om
toch
een
schaal
vast
te
leggen.
We
hebben
2
soorten
latente
variabelen
(
waarvoor
we
de
schaal
moeten
vastleggen
)
- De
error-‐termen
(
=
worden
niet
geobserveerd,
zijn
dus
latent
)
:
Hier
wordt
de
schaal
al
vastgelegd
door
het
effect
dat
het
heeft
op
de
indicator
(
padcoëffficiënt
hebben
we
op
1
gefixeerd
)
- De
factoren
(
=
worden
niet
geobserveerd,
zijn
dus
latent
)
:
2
manieren
om
schaal
vast
te
leggen
Slide
20
• ULI
:
hier
gaan
we
1
padcoëfficiënt
(
1
factorlading
)
op
1
fixeren.
Dus
je
neemt
1
geobserveerde
variabele
als
referentiegroep
en
diens
factorlading
zet
je
op
1
Zo
kan
je
de
schaal
vastleggen
van
de
factor
η1
• UVI
:
hier
gaan
we
geen
enkele
factorlading
(
padcoëfficiënt
)
fixeren,
maar
gewoon
zeggen
dat
de
variantie
van
onze
factor
1
is.
We
veronderstellen
dat
de
variantie
van
η1
gelijk
is
aan
1
en
zo
leg
je
ook
de
schaal
voor
deze
factor
vast).
,Slide
23
We
kunnen
met
deze
gegevens
nu
de
model-‐geïmpliceerde
variantie-‐covariantie-‐matrix
opschrijven
(zie
onderaan
slide
24
geschreven
).
Slide
24
Waarom
zouden
we
ULI
kiezen
boven
UVI
?
!
maakt
in
praktijk
niet
echt
veel
uit.
Slide
25
Gemakkelijkste
manier
om
te
proberen
na
gaan
of
een
multidimensioneel
model
identificeerbaar
is
of
niet,
is
om
het
gewoon
te
proberen
fitten
in
een
SEM
programma
(bv.
lavaan
)
en
kijken
of
het
lukt
of
niet.
Bv.
als
je
vreemde
bevindingen
ziet
(bv.
extreem
grote
getallen
bij
standaarderrors
of
extreem
grote
waarden
van
regressiecoëfficiënten
)
dan
is
dat
een
slecht
teken
(
=
probleem
voor
identificatie).
Zie
je
dat
niet
dan
kan
je
aannemen
dat
het
model
wel
degelijk
kan
geïdentificeerd
worden.
• Als
je
al
data
hebt
:
steek
je
dat
gewoon
in
de
software
en
kijk
je
eens
of
je
het
kan
fitten
(
en
normale
waarden
uitkomt
of
niet
)
• Als
je
nog
geen
data
hebt
:
verzin
hypothetisch
wat
data
en
probeer
het
dan
ook
eens
te
fitten
-‐-‐-‐-‐
pauze
–
Slide
26
en
27
Factorstructuur
a
priori
vooropstellen
:
(
hebben
we
op
voorhand
al
een
idee
over
=
CFA
)
• Wat
zijn
de
items
?
Wat
zijn
de
factoren?
• Hoeveel
factoren
hebben
we
?
• Welke
items
laden
op
welke
factoren?
Alternatieve
factorstructuren
in
gedachten
houden
:
bv.
laden
die
items
echt
op
2
verschillende
factoren
,
of
is
er
bij
kinderen
eerder
sprake
van
slechts
1
factor
(
bv.
gewoon
hechting
in
het
algemeen
).
Welke
structuur
past
best
bij
data,
is
meest
plausibel
?
(
hoe
we
dit
gaan
testen
zie
verder)
Dataverzameling
:
In
principe
heb
je
niet
de
volledige
dataset
(alle
individuele
observaties)
nodig
om
analyse
te
kunnen
doen.
Normaalgezien
is
variantie-‐covariantie
matrix
van
de
variabelen
(
=
als
je
die
kan
berekenen
=
de
geobserveerde
variantie-‐covarianties
)
voldoende
voor
een
CFA
te
doen.
Slide
28
Assumpties
voor
schatten
van
parameters
in
CFA
(
via
ML
methode
)
:
• Alle
indicatoren
moeten
van
interval
niveau
zijn
(
bv.
likert
schaal
)
• Alle
indicatoren
moeten
multivariaat
normaal
verdeeld
zijn
(
als
ze
allemaal
apart
al
univariaat
normaal
verdeeld
zijn
is
dat
al
een
goed
teken
)
, Soms
problemen
:
• Als
indicatoren
scheef
verdeeld
zijn
is
correctie
nodig
(bv.
de
meerderheid
zegt
een
bepaald
extreem
antwoord
dat
niet
in
het
midden
van
de
mogelijkheden
ligt
)
• Item
Parceling
=
als
je
heel
veel
items
gaat
meten,
gaat
men
soms
ook
items
meten
(
=
pakketjes
van
items
maken
om
het
aantal
geobserveerde
variabelen
te
reduceren
–
anders
te
veel
werk
,
teveel
parameters
te
schatten
–
en
je
moet
nog
voldoende
datapunten
overhouden
).
Merk
op
:
manier
waarop
je
die
pakketten
maakt
daar
bestaat
discussie
over
!
Slide
30
Chi-‐kwadraat-‐toets
als
fitmaat
In
les
7
(
padanalyse
)
zagen
we
al
de
fitfunctie
(FML
)
die
geminimaliseerd
moest
worden
(
slide
37).
We
wouden
daar
dat
het
verschil
tussen
de
geschatte
waarden
van
onze
model-‐gespecifieerde
covariantiematrix,
en
de
waarden
uit
de
geobserveerde
covariantiematrix
,
zo
klein
mogelijk
was.
Als
we
een
gesatureerd
model
hadden
(
=
aantal
parameters
is
gelijk
aan
aantal
datapunten,
dus
0
vrijheidsgraden
),
dan
betekent
dat
dat
die
2
matrices
inderdaad
gelijk
zijn
aan
elkaar
,
dus
FML
=
0
dus
we
hebben
een
perfecte
fit.
(zie
les
7
slide
27
!
gesatureerd
model
zal
altijd
perfecte
fit
hebben
–
merk
op
:
daarom
geen
perfecte
predicties
)
Nu
is
onze
chi-‐kwadraat
eigenlijk
een
functie
van
die
FML
en
ook
van
onze
steekproefgrootte
:
Chi-‐kwadraat
=
(
n-‐1)-‐keer
de
geminimaliseerde
fitstatistiek
.
Hoe
groter
chi-‐kwadraatM,
hoe
slechter
de
fit.
(
want
hoe
groter
de
discrepantie
)
H0
=
data
past
goed
bij
data
!
(
chi-‐kwadraat
=
klein
getal
of
zelfs
0
bij
perfecte
fit
)
H0
=
data
past
niet
bij
de
data
!
(chi-‐kwadraat
=
groot
getal
)
Indien
p
>
0.05
!
H0
niet
verwerpen
!
H0
“aanvaarden”
!
model
fit
consistent
bij
de
data
Indien
p<
0.05
!
H0
verwerpen
!
data
past
niet
bij
de
data
(
is
er
niet
consistent
mee
)
Nadeel
van
chi-‐kwadraat-‐toets
:
Als
je
een
grote
steekproef
hebt
(
vanaf
+300
observaties
)
!
H0
zal
heel
snel
verworpen
worden
(
te
snel)
!
alternatieve
maten
nodig
Slide
31
Incrementale
maten
:
CFI
Dit
kan
je
vergelijken
met
de
R2
in
een
lineair
regressiemodel
=
ook
een
incrementele
maat
Hier
keek
je
naar
wat
de
relatieve
verbetering
was
van
het
model
met
de
parameters
tov
het
nulmodel.
(
en
hoe
meer
predictoren
in
het
model,
hoe
meer
parameters
je
gaat
schatten
,
hoe
groter
R2
gaat
worden
)