TDA
Les
2
(
2015-‐2016
)
Lesnotities
Hoofdstuk
2
:
Multivariaat
lineair
model
Vorige
week
zagen
we
hoe
we
van
univariate
naar
multivariate
data
gingen.
Multivariate
data
kunnen
op
verschillende
manieren
ontstaan.
Door
clusters
(bv.
koppels
)
,
herhaalde
metingen
(
bv.
longitudinaal
onderzoek
)
,
verschillende
uitkomsten
die
we
meten
binnen
1
bepaald
individu
(
die
met
elkaar
samenhangen
)
!
allemaal
gecorreleerde
waarnemingen.
Dit
type
data
gaan
we
vandaag
bespreken.
1. Inleidend
voorbeeld
1.1Data
Slide
3
Studie
uitgevoerd
bij
600
studenten.
Hierbij
werden
enkele
maten
uit
de
persoonlijkheidspsychologie
gemeten
(
=
3
uitkomstvariabelen,
3
AV).
We
gaan
kijken
in
hoeverre
die
uitkomsten
voorspeld
kunnen
worden
door
3
academische
variabelen
en
het
opleidingsniveau.
De
dataset
vind
je
op
Minerva.
1.2Onderzoeksvragen
Slide
4
Bij
de
gegeven
data
hebben
we
concrete
onderzoeksvragen.
Vraag
1
is
een
vrij
algemene
vraag
:
hebben
die
predictoren
een
effect
op
onze
3
uitkomsten?
Bij
univariate
regressie
kijk
je
maar
naar
1
uitkomst
(
1
AV
)
bijvoorbeeld
enkel
kijken
naar
self-‐concept.
Nu
kijken
we
of
er
een
effect
is
op
die
3
variabelen.
(
Dat
is
het
verschil
tussen
uni-‐
en
multivariate
regressie).
We
hebben
wel
meerdere
predictoren
dus
we
zitten
ook
met
multiple/meervoudige
regressie.
Hiernaast
zijn
er
ook
enkele
concretere
vragen
(
volgende
vragen).
Bij
vraag
2
maken
we
dus
een
specifieke
vergelijking
van
die
3
opleidingsniveaus.
1.3Data-‐exploratie
Slide
5
Alvorens
data
te
analyseren
is
het
altijd
goed
data
visueel
te
exploreren
!
geeft
al
goed
idee
over
de
mogelijke
relaties
die
er
zijn
(
dan
hoef
je
enkel
via
modellen
te
fitten
bevestiging
te
krijgen
van
de
trends
die
je
ziet
op
de
figuur).
Als
we
werken
met
variabelen
op
intervalniveau
gaan
we
vaak
een
scatterplot
maken
(
=
puntenwolk
).
Op
x-‐as
zie
je
telkens
elk
van
de
predictoren
(
read,
write
,science)
en
op
de
y-‐as
telkens
de
3
AV
(
locus
of
control,
self-‐concept
en
motivation).
Links
bovenaan
:
Hoe
groter
de
reading
skills
,
hoe
groter
de
locus
of
control.
Best
passende
rechte
door
de
puntenwolk
vertoont
duidelijke
stijging.
Als
we
kijken
naar
het
effect
van
reading
op
self-‐concept
is
die
trend
minder
uitgesproken.
Van
reading
op
motivation
zien
we
ook
een
stijging
maar
ook
alweer
in
iets
mindere
mate
dan
bij
locus
of
control.
Voor
de
andere
predictoren
zien
we
gelijkaardige
trends.
Minst
effect
op
self-‐concept
en
meest
op
locus-‐of
control.
,Dit
zijn
allen
paarsgewijze
vergelijkingen
die
we
hier
maken.
Maar
merk
op
:
in
een
regressiemodel
gaan
we
ook
gaan
controleren
voor
andere
predictoren.
Dus
hier
krijgen
we
gewoon
de
paarsgewijze
correlaties
te
zien
zonder
te
controleren
voor
andere
predictoren.
Daarom
is
het
belangrijk
om
toch
een
regressie
te
doen
(
laat
ons
toe
te
controleren).
Slide
6
Een
van
de
predictoren
waarvoor
we
willen
controleren
is
bv.
opleidingsniveau.
We
zagen
vorige
week
ook
al
de
boxplot.
Je
ziet
hier
voor
elk
van
de
3
AV
,
3
boxplots
!
per
opleidingsniveau
(
voor
elk
opleidingsniveau
één).
Zwarte
lijn
in
het
midden
geeft
mediaan
weer
,
onderkant
van
de
box
staat
voor
p25
,
bovenkant
p75
(
dus
binnen
box
ligt
telkens
50%
van
observaties).
De
spreiding
over
de
3
opleidingsniveaus
zijn
vrij
gelijk
(
breedte
van
de
box
en
de
snorharen
is
vrij
gelijklopend
over
de
3
opleidingsniveaus).
Wat
zien
we
bij
locus
of
control
:
hoe
hoger
opleidingsniveau,
hoe
hoger
de
locus
of
control.
We
zien
eigenlijk
die
stijgende
trend
(
hoe
hoger
opleidingsniveau,
hoe
hoger
de
AV
)
voor
de
3
AV
(
dus
ook
voor
self-‐concept
en
motivation).
Op
de
tekening
zie
je
ook
die
zwarte
puntjes,
dat
zijn
outliers
=
observaties
die
meer
dan
1,5
x
de
boxbreedte
afwijken
van
de
onder-‐en
bovenkant
van
de
box.
Slide
7
We
zitten
met
meerdere
afhankelijke
variabelen
dus
moeten
onze
notatie
van
vroeger
wat
uitbreiden.
Vroeger
schreven
we
enkel
Yi
voor
de
uitkomst
(
omdat
we
maar
1
uitkomst
beschouwden
–
waarbij
i
een
nummer
van
de
deelnemer
is
–
gaande
van
1
tot
600
in
ons
geval).
Nu
hebben
we
een
extra
index
nodig
!
Yi1
geeft
de
eerste
uitkomstvariabele
weer
(
nl.
locus
of
control).
Yi2
is
de
tweede
uitkomstvariabele
,
…
Dan
hebben
we
ook
nog
onze
predictoren
:
typisch
voorgesteld
met
letter
x.
De
eerste
3
predictoren
zijn
allen
predictoren
op
intervalniveau
(
enorme
range
van
mogelijke
waarden
,
hier
variërend
van
0
tot
100
voor
deze
variabelen).
Laatste
predictor
is
opleidingsniveau.
Maar
dit
is
een
categorische
predictor
(
beperkt
aantal
mogelijke
waarden
nl.
1,
2
of
3
wat
staat
voor
laag,
middel
of
hoog
niveau).
Als
we
dit
in
een
regressiemodel
willen
gaan
we
dummy’s
gebruiken
(
codering).
De
standaard
in
SPSS
is
dat
het
laatste
niveau
van
de
categorieën
als
referentieniveau
beschouwd
wordt.
Laatste
niveau
(
3
hier
)
is
referentie.
Dan
gebruiken
we
dummy’s
voor
de
andere
niveaus
die
dan
het
verschil
weergeven
tov
dat
referentieniveau.
Dus
xi4
kunnen
we
1
noemen
als
de
deelnemer
opleidingsniveau
1
heeft,
indien
niet
wordt
dat
0.
xi5
krijgt
waarde
1
als
de
deelnemer
opleidingsniveau
2
heeft
(
indien
niet
wordt
dat
0
).
We
hoeven
geen
xi6
te
creëren
want
dat
is
ons
referentieniveau
(
dat
de
waarde
1
zou
kunnen
krijgen
als
het
opleidingsniveau
3
heeft,
anders
0),
maar
dit
hoeft
hier
dus
niet
omdat
het
de
referentiegroep
is.
Slide
8
We
willen
de
impact
bekijken
(
het
effect
)
van
reading
,
writing
en
science
en
opleidingsniveau
op
die
3
uitkomsten.
Formeel
kunnen
we
dan
3
regressievergelijkingen
neerschrijven
(
voor
elke
uitkomst
1
regressievergelijking).
Als
je
enkel
naar
de
1e
vgl
zou
kijken
is
dit
eigenlijk
wat
je
zou
doen
bij
een
univariate
regressie
:
je
gaat
de
uitkomst
regresseren
op
die
predictoren.
,Lineaire
regressiemodellen
• B01
is
het
intercept
• B11
=
effect
van
1e
predictor
(
reading
skills
)
op
eerste
AV
(
locus
of
control
)
• B21
=
effect
van
2e
predictor
(
writing
skills
)
“
“
• B31
=
effect
van
3e
predictor
(
science
skills
)
“
“
• B41
=
staat
bij
xi4
en
dat
kreeg
de
waarde
1
als
je
opleidingsniveau
1
had
en
anders
nul
en
onze
referentiecategorie
was
niveau
3
dus
die
B41
gaat
eigenlijk
het
verschil
in
effect
weergeven
van
opleidingsniveau
1
tov
het
referentieniveau.
(
hoe
verschilt
iemand
in
die
uitkomst
met
een
laag
opleidingsniveau
tov
iemand
met
een
hoog
opleidingsniveau
)
• B51
=
analoog
als
bovenstaand.
Geeft
verschil
weer
tussen
opleidingsniveau
2
en
3.
• Residuele
term
=
wat
niet
verklaard
kan
worden
door
de
predictoren
in
het
model
Dus
in
vergelijking
met
het
klassiek
univariaat
lineair
regressiemodel
zie
je
dat
dit
zeer
analoog
is.
Het
geen
verschilt
is
dat
we
bij
de
beta’s
2
indexen
hebben.
Vroeger
hadden
we
maar
1
index.
Zoals
je
kan
zien
verwijst
de
eerste
index
naar
hetzelfde
als
bij
univariaat
:
0
naar
intercept,
1
naar
eerste
predictor,
…
De
eerste
index
verwijst
naar
over
welke
predictor
het
gaat.
Nu
hebben
we
ook
een
2e
index
:
die
verwijst
naar
de
afhankelijke
variabele.
In
het
eerste
regressiemodel
is
dat
telkens
1
omdat
het
daar
gaat
over
het
effect
op
locus
of
control
(
over
die
AV).
Bij
de
tweede
vergelijking
zal
dat
telkens
2
zijn
omdat
het
dan
gaat
over
het
effect
op
self-‐concept
(
2e
AV),
enz…
Onderzoeksvraag
1
De
onderzoeksvragen
van
daarnet
kunnen
we
ook
formaliseren.
Onderzoeksvraag
1
was
“zijn
er
effecten
van
reading,
writing,
science
en
opleidingsniveau
op
de
3
uitkomstvariabelen
(
AV)?”.
We
kijken
eerst
naar
het
effect
van
reading:
xi1
was
de
variabele
die
reading
weergaf.
Dus
wanneer
zal
er
geen
effect
zijn
van
reading
op
locus
of
control
?
Als
B11
gelijk
is
aan
nul.
Aanaloog
als
B12
gelijk
is
aan
nul
betekent
dat
dat
er
geen
effect
is
van
reading
op
self-‐concept.
B13
gelijk
aan
nul
is
geen
effect
van
reading
op
motivation.
Dus
deze
3
coëfficiënten
=
0
stemt
overeen
met
de
nulhypothese
dat
er
geen
effect
is
van
reading
op
elk
van
die
3
psychologische
uitkomstvariabelen.
We
willen
nu
dus
gezamenlijk
gaan
testen
of
die
3
coëfficiënten
allen
gelijk
zijn
aan
nul.
Analoog
kunnen
we
kijken
naar
het
effect
van
writing
en
science
op
elk
van
de
uitkomsten.
We
willen
ook
nagaan
of
er
een
effect
is
van
opleidingsniveau
(
“zien
we
verschillen
in
die
3
uitkomsten
naargelang
het
opleidingsniveau?”
).
B41
geeft
het
verschil
weer
tussen
niveau
1
en
3
(
het
laagste
en
het
hoogste)
in
effect
op
locus
of
control.
B42
geeft
het
verschil
weer
in
effect
op
de
2e
uitkomst
(
self-‐concept)
en
B43
op
de
derde
uitkomst
(
motivation
).
Dus
als
B41
gelijk
is
aan
0
dan
betekent
dat
dat
er
geen
verschil
is
tussen
opleidingsniveau
1
en
3
in
effect
op
de
eerste
uitkomstvariabele.
Maar
dan
weten
we
enkel
nog
dat
er
geen
verschil
is
tussen
niveau
1
en
3
(
met
die
eerste
3
coëfficiënten).
We
willen
eigenlijk
(
in
de
nulhypothese)
dat
er
totaal
geen
effect
is
van
opleidingsniveau
dus
dan
moeten
we
ook
stellen
dat
het
verschil
tussen
niveau
2
en
3
gelijk
is
aan
nul
(
!
de
volgende
3
coëfficiënten).
,Dus
we
krijgen
voor
opleidingsniveau
6
coëfficiënten
die
simultaan
gelijk
moeten
zijn
aan
nul
(
om
geen
effect
te
hebben).
Merk
op
:
uiteraard,
als
de
eerste
3
gelijk
zijn
aan
nul
(
B41,
B42,
B43
)
,
en
de
volgende
3
ook
(B51,
B52,
B53)
,
dan
zal
er
uiteraard
ook
geen
verschil
zijn
tussen
opleidingsniveau
1
en
2.
Onderzoeksvraag
2
“Is
er
een
verschil
in
effect
van
opleidingsniveau
1
tov
opleidingsniveau
2?”
Dan
willen
we
kijken
of
B41
gelijk
is
aan
B51.
Als
ze
allebei
even
veel
verschillen
van
het
referentieniveau
dan
zullen
ze
uiteraard
gelijk
zijn
aan
elkaar.
Dit
kunnen
we
schrijven
als
:
het
verschil
tussen
die
2
is
gelijk
aan
nul.
Vaak
schrijven
we
nulhypotheses
in
de
vorm
van
iets
dat
gelijk
is
aan
nul.
(
dus
ipv
B41
=
B51
schrijven
we
dat
het
verschil
gelijk
is
aan
nul).
En
we
willen
dit
niet
enkel
voor
de
1e
uitkomstvariabele
nagaan
maar
ook
voor
de
andere.
Dus
B42
–
B52
is
ook
nul,
en
B43
–
B53
ook
(
in
onze
nulhypothese).
Slide
9
Onderzoeksvraag
3
“Is
het
effect
van
writing
op
locus
of
control
gelijk
aan
het
effect
van
writing
op
self-‐concept”.
Dus
het
effect
van
writing
(
xi2
)
op
locus
of
control
(
Yi1
)
is
dus
B21.
Het
effect
ervan
op
self-‐concept
is
B22.
Nu
maken
we
dus
vergelijkingen
tussen
effecten
op
verschillende
variabelen.
Willen
nagaan
of
B21
gelijk
is
aan
B22
(
is
het
effect
even
groot
).
Merk
op
:
zouden
dit
kunnen
herschrijven
als
:
“H0=
B21
–
B22
=
0”
Onderzoeksvraag
4
“Zijn
effecten
van
reading,
writing
en
science
op
locus
of
control
gelijk
of
niet”.
Willen
nagaan
of
B11
gelijk
is
aan
B21
en
B31.
1.3.1 Univariate
aanpak
Slide
10
Zo
hebben
we
onze
onderzoeksvragen
geformaliseerd
adhv
het
multivariaat
regressiemodel.
Met
de
kennis
die
we
vandaag
hebben
,
hoe
zou
je
(
met
welke
techniek
)
die
eerste
nulhypothese
gaan
testen?
Met
univariate
regressie.
Daarmee
kunnen
we
naar
1
specifieke
uitkomst
gaan
kijken.
We
gaan
dit
even
ter
herhaling
doen.
Als
we
dit
doen
zullen
we
ook
zien
waarom
we
hierna
beter
naar
multivariaat
overstappen.
We
openen
de
dataset
in
SPSS.
Als
we
regressie
willen
uitvoeren
kunnen
we
gebruik
maken
van
het
general
lineair
model
:
“analyze
–
general
linear
model
–
univariate”
…
We
kijken
eerst
naar
de
eerste
AV
(
locus
of
control).
Bij
de
covariaten
nemen
we
de
predictoren
“read”
,
“write”
en
“science”
op
en
opleidingsniveau
is
een
fixed
factor.
Dan
specifieren
we
ons
model
:
als
we
op
“full
factorial”
zouden
klikken
krijgen
we
de
effecten
van
alle
factoren
en
al
hun
interacties.
Voor
deze
onderzoeksvraag
(
zie
nulhypothese)
willen
we
elkel
kijken
naar
de
hoofdeffecten
dus
gaan
we
het
model
zelf
specifiëren.
Hoe
:
“custom”
en
dan
selecteren
we
al
de
predictoren
(
maar
geen
interacties).
,
Dan
kunnen
we
bij
opties
de
parameterschatters
ook
opvragen
(
om
te
kijken
naar
de
geschatte
regressiecoëfficiënten
of
dus
de
beta’s
).
We
kunnen
nu
op
OK
klikken
(
=
direct
de
output
)
of
op
PASTE
(
=
eerst
de
syntax).
We
kijken
eens
eerst
naar
de
syntax
:
die
selecteren,
groene
pijl
!
dan
krijg
je
de
output.
Interpretatie
:
(
van
de
univariate
(
1
AV)
,
meervoudige
(meer
OV)
regressie.
)
We
hebben
maar
1
AV
(
locus
of
control
)
met
verschillende
predictoren.
We
kijken
naar
de
geschatte
regressiecoëfficiënten
:
daar
zie
je
dat
SPSS
alweer
de
laatste
categorie
(
van
de
factor)
als
referentiecategorie
kiest
(
wordt
automatisch
op
nul
gezet
)
;
hier
dus
opleidingsniveau
3
(
PROG
3).
Gevolg
:
• PROG
1
=
verschil
in
effect
van
opleidingsniveau
1
ivm
niveau
3
• PROG
2
=
verschil
in
effect
van
opleidingsniveau
2
ivm
niveau
3
Hadden
we
eigenlijk
op
de
boxplot
ook
al
gezien
:
dat
hoe
lager
het
opleidingsniveau,
hoe
lager
de
locus
of
control.
We
zien
hier
gemiddeld
–
0,25
lager
bij
een
laag
opleidingsniveau
tov
het
hoogste.
Die
-‐0.12
betekent
dat
de
gemiddelde
LOC
gemiddeld
0,12
lager
is
in
opleidingsniveau
2
tov
3.
, A) Kijken
eerst
naar
onze
continue
predictoren
bv.
read
:
1
toename
daarin
zorgt
voor
een
gemiddelde
toename
van
0,013
in
de
uitkomst.
Als
we
kijken
naar
de
significatie
hiervan
(
kijk
naar
p-‐waarde
in
tabel
sig)
en
daar
zien
we
:
op
het
5%
significatieniveau
zien
we
een
significant
effect.
(
dit
ook
voor
writing
maar
niet
voor
science).
Dit
kan
je
ook
zien
aan
de
betrouwbaarheidsintervallen
(kijk
of
nul
erin
ligt).
PS
:
de
significantie
kan
je
ook
aflezen
in
een
gewone
ANOVA
tabel
!
als
je
enkel
hoofdeffecten
hebt
zullen
de
p-‐waarden
in
anova
hetzelfde
zijn
als
in
deze
regressietabel
!
B) Bekijken
nu
opleidingsniveau
(
=
factor
)
Voor
opleidingsniveau
daar
hebben
we
2
niveaus
(
dus
daarom
hebben
we
in
de
onderste
tabel
waar
de
parameters
geschat
worden
,
2
dummy
variabelen
–
vandaar
dat
we
hier
dus
ook
een
test
hebben
met
2
vrijheidsgraden
).
Onze
test
gaat
gezamenlijk
gaan
testen
of
deze
2
coëfficiënten
gelijk
zijn
aan
nul
of
niet
:
zijn
deze
coëfficiënten
gelijk
aan
nul
of
niet?
Dus
:
is
er
een
effect
van
opleidingsniveau
of
niet?
Bevinding
:
ja
er
is
een
effect
(
want
als
je
kijkt
naar
elk
van
de
paarsgewijze
vergelijkingen
met
het
referentieniveau
zie
je
ook
dat
die
beide
significant
verschillend
zijn).
(
zie
groen
in
cursus).
Bruikbaarheid
:
Met
deze
output
,
kunnen
we
hiermee
al
één
van
onze
nulhypothesen
beantwoorden?
(
kijk
even
terug
naar
de
onderzoeksvragen).
Kunnen
we
met
deze
output
1
van
onze
nulhypothesen
beantwoorden?
Nee
:
wat
we
gedaan
hebben
is
enkel
de
eerste
regressie
(
dus
deze
regressievergelijking
:
Yi1=
B01
+
B11xi1
+
B21xi2
+
B31xi3
…
).
We
hebben
elk
van
deze
coëfficiënten
geschat
(
B11,
B21
,
B31,
en
B41
).
Maar
kunnen
we
nu
daarmee
de
onderzoeksvraag
beantwoorden,
nee
!
Bijvoorbeeld
:
als
we
keken
naar
het
effect
van
reading
bv
op
locus
of
control,
dan
gingen
we
na
of
die
coëffficiënt
Beta11
gelijk
was
aan
nul.
Slide
11
Wat
konden
we
dus
nagaan
met
deze
univariate
regressie
• H0
:
B11
=
0
?
• H0
:
B21
=
0
?
• H0
:
B31
=
0
?
• H0
:
B41
=
B51
=
0
?
Wat
betreft
de
eerste
nulhypothese
van
de
eerste
onderzoeksvraag
hebben
we
dus
maar
1
klein
stuk,
uit
die
eerste
nulhypothese
nagegaan
(
nl.
B11).
Laat
staan
dat
we
vergelijkingen
kunnen
maken
tussen
effecten
van
verschillende
variabelen,
we
kunnen
zeker
geen
vergelijking
maken
met
andere
effecten
op
andere
variabelen
of
we
kunnen
ook
niet
rechtstreeks
vergelijking
gaan
maken
tussen
variabelen.
DUS
:
Kunnen
dus
geen
vergelijking
maken
tussen
de
effecten
van
de
verschillende
predictoren
(
kunnen
ook
niet
de
volledige
onderzoeksvraag
beantwoorden
over
het
effect
op
1
variabele).
En
we
kunnen
zeker
niet
de
effecten
vergelijken
tussen
verschillende
afhankelijke
variabelen
(
uitkomsten).
"
Gevolg
:
nood
aan
technieken
om
die
nulhypotheses
te
kunnen
beantwoorden
!
1.1.1
Multivariaat
toetsen
:
waarom
Slide
12