College aantekeningen

Toegepaste Data-analyse (TDAT) LES 1 : Inleiding ( incl. printscreens SPSS )

Name: Toegepaste Data-analyse (TDAT) LES 1 : Inleiding ( incl. printscreens SPSS )
SKU: doc_296541
Rating: 5.00 (1 reviews)
Author: tikoude

1 beoordeling

11 keer verkocht

Vak
Toegepaste Data-analyse

Instelling
Universiteit Gent (UGent)

TDAT Les 1 : H1 "Inleiding". Volledig uitgetypte les (adhv de slidecast), geordend per slide. Printscreens van alle stappen in SPSS. Ik behaalde voor dit vak 18/20

[Meer zien]

Voorbeeld 5 van de 18 pagina's

Bekijk voorbeeld

Geupload op 13 februari 2017
Aantal pagina's 18
Geschreven in 2015/2016
Type College aantekeningen
Docent(en) Onbekend
Bevat Alle colleges

1 beoordeling

Door: marjoriell • 7 jaar geleden

Volgen

tikoude Lid sinds 10 jaar 974 documenten verkocht

€2,99

In winkelwagen

Opslaan

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Toegepaste
data-‐analyse
-‐

les
1

(
2015
–
2017
)

Uitgetypte
lesnotities

Praktisch

Zoals
het
woord
zelf
zegt
gaan
we
data
gaan
analyseren.
Toegepast
:
we
vertrekken
vanuit
concrete

problemen.
We
gaan
studies
die
hier
aan
de
faculteit
zijn
uitgevoerd
nader
bekijken.
Wat
is
de

vraagstelling
en
hoe
kunnen
we
tot
een
antwoord
komen?
Waarom
is
dit
vak
belangrijk
:
vooral
voor
de

thesis
omdat
we
daar
de
technieken
moeten
gebruiken
die
we
hier
zien.
We
zien
veel
oude
technieken
die

we
toch
veel
gebruiken.
Vanaf
mixed
models
is
het
iets
geavanceerder
(
=
jongere
technieken
).

Les
7
is
geen
echt
hoorcollege
en
worden
ook
geen
statistische
technieken
aangebracht
maar
is
een

inleiding
tot
het
gebruik
van
R
(

=
softwarepakket
)
dat
we
gaan
gebruiken
vanaf
les
8.
Les
7
is
dus
een

demonstratie-‐les
van
hoe
we
R
gebruiken.
Ook
de
laatste
les
is
geen
hoorcollege
(
=
vragenles
,
herhaling).

Waarom
R
?
In
de
laatste
hoofdstukken
zien
we
structurele
vergelijkingsmodellen
en
dit
kan
je
niet

implementeren
in
SPSS
dus
daarom
moeten
we
wel
R
gebruiken.
Is
iets
minder
gebruiksvriendelijk
dan

SPSS
maar
door
te
oefenen
lukt
dat
goed.

Oefeningensessies
worden
georganiseerd
in
4
sessies.
De
stof
wordt
daar
ingeoefend.

Examen
:
meerkeuze,
er
zal
telkens
maar
1
antwoord
correct
zijn.
Uit
elk
hoofdstuk
komt
1
vraag.

Alle
hoofdstukken
zijn
dus
even
belangrijk.
Op
het
einde
van
elk
hoofdstukken
staan
er
voorbeelden
van
de

MK
vragen.
Hiervoor
geen
giscorrectie
of
hogere
cesuur.
Tweede
deel
van
het
examen
is
op
de
computer.

Zullen
data
krijgen
die
we
dan
moeten
analyseren.
Hiervoor
kunnen
we
ons
laten
leiden
door
de

voorbeelden
uit
de
practica.
Beide
delen
staan
op
even
veel
punten
(
beide
op
10
).
Moet
niet
op
beide

delen
geslaagd
zijn.
Het
PC
examen
is
meestal
iets
beter
qua
score.

Hoofdstuk
1
:
Inleiding

Inleiding
:
hierbij
zien
we
waarom
we
de
technieken
nodig
hebben
die
we
de
komende
weken
zullen
zien.

1. Van
uni-‐naar
multivariate
normaalverdeling

1.1Geclusterde
data

1.1.1 Voorbeeld
1
:
seksuele
tevredenheid
bij
koppels

Slide
3

Als
eerste
voorbeeld
:
data
van
een
studie
(
dagboekstudie
)
waarbij
aan
koppels
gevraagd
werd
(
die

minstens
6
maand
samen
waren
)
om
dagboek
bij
te
houden
(
zowel
man
als
vrouw
).
Hen
werd
gevraagd

om
savonds
te
rapporteren
over
hoe
ze
zich
voelden
die
dag.
De
ochtend
daarop
moesten
ze
rapporteren

over
seksuele
activiteiten
die
al
dan
niet
hadden
plaats
gevonden
en
de
tevredenheid
erbij.
1
specifieke

uitkomst
is
dus
de
seksuele
tevredenheid.
Deelnemers
moesten
hier
een
score
tussen
1
en
5
geven.
Die

data
zijn
beschikbaar
in
de
dataset
folder
op
Minerva
(
=
een
SPSS
databestand
).

Slide
4

Vooraleer
je
data
echt
gaat
analyseren
is
het
belangrijk
eerst
goed
naar
je
data
te
kijken.
Soms
vertellen

figuren
al
de
helft
van
het
verhaal.
Statistische
modellen
kunnen
dan
je
eerste
indrukken
al
dan
niet

verifiëren.
Hier
maken
we
een
histogram
(
links
voor
man,
rechts
voor
vrouwen
)
voor
seksuele

tevredenheid.
Blauwe
curve
is
de
best
passende
normale
verdeling
bij
die
data.
Vraag
:
“kijk
eens
naar

,figuur,
kan
je
op
basis
hiervan
zeggen
of
gemiddelde
tevredenheid
beter
was
bij
man
of
vrouw?
of

omgekeerd
?”
De
meerderheid
denkt
dat
het
bij
de
mannen
beter
is,
en
dat
is
ook
zo.
Als
we
kijken
naar
de

normale
verdeling
zien
we
dat
het
gemiddelde
op
de
piek
ligt
van
de
normaalverdeling.
Bij
de
mannen
ligt

dat
rond
de
3,5.
Bij
vrouwen
ligt
de
piek
tussen
2,5
en
3
(
dus
2,75
ongeveer).
Je
ziet
ook
de
spreiding
in
de

beide
groepen.
Bij
mannen
is
dat
ongeveer
tussen
2.25
en
4.75
,
bij
vrouwen
tussen
1
en
4.5.
Spreiding
is

dus
wel
vrij
gelijkaardig.

Slide
5

We
gaan
nu
wat
notatie
invoeren.
we
veronderstellen
dat
gegevens
uit
een
normaalverdeling
komen.
We

zagen
ook
die
klokvormige
verdeling
als
we
naar
het
histogram
kijken
dus
het
lijkt
vrij
plausibel
om
dat
dan

ook
te
veronderstellen.
Dan
is
daar
een
mu
(gemiddelde
)
en
een
variantie
(sigma
kwadraat)
voor.

(
aangeduid
met
1
die
staat
voor
mannen,
2
staat
voor
vrouwen
).

Die
karakteristieken
de
normale

verdeling.
Als
je
gemiddelde
en
variantie
kent
ken
je
de
hele
verdeling,
als
je
ervan
uitgaat
dat
het
een

normale
verdeling
is.

Wat
we
met
statistiek
willen
doen
is
:
obv
steekproef
uitspraak
doen
over
een
populatie.
We
hebben

populatie
mannen
en
de
populatie
vrouwen
en
daarbinnen
hebben
wij
eigenlijk
2
steekproeven
genomen.

We
hopen
dat
die
representatief
is
voor
de
populatie
waarin
we
geïnteresseerd
zijn.
We
weten
dat
in
de

populatie
mu
het
gemiddelde
is
en
sigma

kwadraat
de
variantie
maar
die
zijn
ongekend.
In
de
volledige

populatie
kennen
we
dit
niet.
In
de
steekproeven
(
100
mannen
en
100
vrouwen
)
die
we
hebben
kunnen

we
wel
het
gemiddelde
berekenen
(
=
steekproefgemiddelde
)
(
en
hetzelfde
voor
de
variantie).
Dat
is
dat
x

overstreept
en
s
kwadraat.
We
kunnen
die
geobserveerde
gemiddelde
en
variantie
dus
als
schatters
zien

voor
die
populatieparameters.
Wat
we
willen
onderzoeken
is
of
de
gemiddelde
tevredenheid
hetzelfde
is

bij
mannen
als
vrouwen.
Dus
we
willen
testen
in
de
volledige
populatie
:
is
mu
1
gelijk
aan
mu2.
(Merk
op
:

populatieparameters
worden
voorgesteld
door
Griekse
letters
!
)
Hiervoor
gaan
we
gebruik
maken
van
de

steekproef.
In
de
steekproef
zien
we
wel
wat
verschil
maar
is
dit
siginficant
of
door
random
variatie?
Als

we
een
andere
steekproef
namen,
kwamen
de
waarden
misschien
wel
dichter.
Dus
is
het
verschil
dat
we

observeren
te
wijten
aan
toeval
of
is
daar
echt
een
verschil?
Die
hypothese
willen
we
dus
testen
adhv
onze

observaties.
Waarom
kunnen
we
hier
nu
geen
t-‐toets
gebruiken
voor
onafhankelijke
steekproeven?
Omdat

het
gaat
om
koppels
(
=
gepaarde
data).
We
hebben
dus
geen
onafhankelijke
steekproeven.

Slide
6

Aangezien
we
met
die
paren
zitten
kunnen
we
ook
gaan
nagaan
wat
de
samenhang
is
van
de
seksuele

tevredenheid
van
de
man
en
diens
corresponderende
vrouw.
Hiervoor
kunnen
we
gebruik
maken
van
een

scatterplot.
Als
je
hier
kijkt
maken
we
een
best
passende
rechte
door
de
puntenwolk.
We
zien
een

positieve
samenhang
:
hoe
hoger
de
tevredenheid
bij
de
man,
hoe
hoger
die
ook
bij
de
vrouw
zal
zijn.
Als

we
naar
samenhang
kijken
tussen
2
variabelen
beschouwen
we
de
correlatie
:
dit
is
een
maat
voor
lineaire

samenhang.
Formeel
kunnen
we
dit
schrijven
als
de
correlatie
tussen
de
tevredenheid
van
de
man
en
de

tevredenheid
van
de
vrouw.
Dat
is
dan
ro.
En
we
weten
dat
de
correlatie
gelijk
is
aan
covariantie
gedeeld

door
de
vierkantswortel
…
(
zie
formule
op
slide).
Die
covariantie
is
iets
dat
moeilijk
te
interpreteren
is
en

kan
alle
mogelijke
waarden
aannemen.
De
correlatie
ligt
echter
altijd
tussen
-‐1
en
1
en
dat
is
makkelijker
te

gebruiken.
Totaal
geen
verband
:
ro
=
0.
Perfect
lineair
verband
:
ro
=
1.
Als
dat
verband
negatief
is
is
het

dan
-‐1,
als
het
positief
is,
is
dat
1.

Slide
7

Daarnet
hadden
we
histogrammen
gemaakt
van
elke
variabele
apart
en
bekeken
we
dus
univariaat.
Nu

gaan
we
bivariaat
kijken
:
2
variabelen.
We
gaan
kijken
naar
de
samenhang
dus.
Daarnet
hadden
we
dus

ook
de
univariate
normale
verdeling
en
die
werd
gekarakteriseerd
door
haar
gemiddelde
en
variantie.
Nu

gaan
we
naar
2
variabelen
kijken
en
naar
de
gezamenlijke
verdeling
daarvan
:
dan
hebben
we
een
bivariate

normaalverdeling
nodig.
Hoe
wordt
die
nu
gekarakteriseerd
?

, • Ym
=
tevredenheid
bij
mannen
(
oranje
)

-‐ Daarbij
hoort
mu1
:
gemiddelde
tevredenheid
bij
mannen

-‐ Variantie
sigma-‐kwadraat-‐1
:
variantie
van
tevredenheid
bij
mannen

• Yv
=
tevredenheid
bij
vrouwen
(
groen
)

-‐ mu2
:
gemiddelde
bij
vrouwen

-‐ Variantie
sigma-‐kwadraat-‐2
:
variantie
van
tevredenheid
bij
vrouwen

Aangezien
we
hier
nu
2
uitkomsten
(samen)
bekijken
gaan
we
ook
2
gemiddelden
specifiëren
(
we
hebben

dus
een
vector
-‐
BLAUW)
en
dan
hebben
we
ook
de
variantie-‐covariantiematrix
(ROZE).
Links
staat
dus
het

gemiddelde
en
rechts
de
variantie-‐covariantiematrix.
We
hebben
hier
dus
een
2
bij
2
matrix.
Op
de

diagonaal
zien
we
dus
de
variantie
staan
van
die
2
variabelen.
Van
de
diagonaal
zien
we
sigma
12
en
sigma

21
:
dat
zijn
de
covarianties
en
wijzen
op
hoe
die
2
variabelen
samenhangen
of
samen
variëren
(
=

covariëren).
Hoe
Ym
en
Yv
samen
variëren
is
hetzelfde
hoe
Yv
en
Ym
samen
variëren
!
Gevolg
:
sigma
12

is
hetzelfde
als
sigma
21
!
je
hebt
dus
altijd
perfecte
symmetrie
ten
opzichte
van
de
diagonaal
(
bij
een

variantie-‐covariantiematrix).
Je
kan
die
covarianties
trouwens
ook
gaan
schrijven
als
volgt
:
dat
is
eigenlijk

de
correlatie
maal
de
varianties.
We
kunnen
de
covarianties
dus
ook
schrijven
als
de
correlatie
maal
de

standaarddeviatie
van
de
eerste
variabele,
maal
de
standaarddeviatie
van
de
tweede
variabele.
We

hebben
nu
volledig
de
bivariate
normaalverdeling
gespecifieerd.
Als
je
gegevens
uit
een
bivariatie
normaal

verdeling
hebt
kan
je
naar
de
scatterplot
kijken
en
dan
moeten
de
gegevens
in
een
ellips
liggen.
Het

centrum
van
de
ellips
(
groene
bol
)
geeft
de
gemiddelden
weer.

Slide
8

We
hebben
de
bivariate
normaalverdeling
nu
gezien.
Als
(Ym
en
Yv
)
bivariaat
normaal
zijn
dan
volgt

daaruit
dat
YM
en
YV
apart
(
op
zich
)
univeriaat
verdeeld
zijn.
Dus
elk
op
zich
zijn
ze
univariaat
normaal

verdeeld.
Het
omgekeerde
hoeft
dus
niet
noodzakelijk
zo
te
zijn.
In
praktijk
zal
dat
eigenlijk
wel
vaak
zo

zijn,
als
2
zaken
apart
univariaat
normaal
verdeeld
zijn
dat
ze
samen
bivariaat
normaal
verdeeld
zijn.

Wat
is
dan
de
verdeling
van
de
totale
seksuele
tevredenheid
van
het
koppel?
Dat
wordt
dan
weergeven

door
Ym
+
Yv.
Het
verschil
in
seksuele
tevredenheid
tussen
man
en
vrouw
binnen
een
koppel
is
dan
weer

Ym
–
Yv.
Als
je
naar
die
gegevens
kijkt,
dan
zie
je
daar
opnieuw
die
klokvormen
(
Gauss-‐curves
)
verschijnen

:
die
geven
aan
dat
die
gegevens
normaal
verdeeld
zijn.
Denk
terug
aan
daarnet
:
gemiddeldes
ongeveer

2,5
en
3,75.
Als
we
dan
naar
de
som
kijken
dan
zien
we
dat
het
verschil
ligt
rond
de
0.75.
Dus
de
som
van

twee
normaal
verdeelde
veranderlijken
is
opnieuw
normaal
verdeeld
met
als
gemiddelde
de
som,
en
voor

het
verschil
geldt
dat
je
het
verschil
in
gemiddelden
hebt
(
ROZE
).
Voor
de
variantie
van
de
som
en
het

verschil
wordt
het
wel
wat
complexer.
We
hebben
hier
immers
te
maken
met
afhankelijke
variabelen.
We

hebben
twee
afhankelijke
variabelen
die
met
elkaar
gecorreleerd
zijn
en
dan
is
de
variantie
van
de
som

niet
zomaar
de
som
van
de
varianties
(
sigma
kwadraat
1
+
sigma
kwadraat
2
)
maar
er
komt
een
extra
stuk

bij
(
+
twee
keer
de
covariantie
)
!
PAARS.
Dus
als
ro
gelijk
is
aan
nul
(
en
de
twee
zijn
onafhankelijk
van

elkaar)
dan
valt
die
laatste
term
dus
weg.
Voor
het
verschil
geldt
dan
weer
hetzelfde
maar
dan
heb
je
min

twee
keer
de
covariantie.
Dus
je
ziet
hier
ook
dat
de
spreiding
van
de
som,
veel
groter
is
dan
de
spreiding

van
het
verschil.
Dus
bij
de
linkerfiguur
is
er
een
veel
breder
interval
(
kijk
naar
het
minimum
en
het

maximum)
dan
voor
het
verschil
(
rechter
figuur).
Dat
komt
doordat
er
een
positieve
samenhang
was
(
ro

was
positief
)
dus
bij
de
som
ga
je
dan
iets
extra
toevoegen
(
2x
de
covariantie-‐
die
niet
nul
is
want
ze
zijn

afhankelijk
–
en
die
dus
positief
is
want
er
was
een
positief
verband
dus
ro
is
positief)
,
en
bij
het
verschil

ga
je
dat
ervan
aftrekken.
Vandaar
dus.

Slide
9

We
hadden
dus
gezien
dat
we
geen
t-‐test
voor
onafhankelijke
observaties
mochten
gebruiken
en
we

kunnen
inderdaad
wel
de
gepaarde
t-‐test
gebruiken.
Die
kijkt
naar
de
verschilscores
tussen
man
en
vrouw

(
kunnen
hiervoor
een
nieuwe
variabele
definiëren
–
namelijk
D
)
en
kunnen
veronderstellen
dat
die

normaal
verdeeld
is
(
verschil
van
2
normaal
verdeelde
veranderlijken
is
ook
normaal
verdeeld).

,We
willen
nu
testen
of
de
gemiddelde
seksuele
tevredenheid
dezelfde
was
bij
man
en
vrouw
op

populatieniveau
(
mu1
=
mu2).
Dit
komt
overeen
met
“mu
D”
is
gelijk
aan
nul.
We
gaan
hiervoor
een
t-‐test

toetsstatistiek
voor
maken
en
die
kijkt
hoe
groot
dat
geobserveerde
verschil
is.
D
is
het
gemiddelde

verschil
dat
je
observeert
in
je
steekproef
(
d
overstreept
)
tov
de
precisie
die
je
hebt
voor
dat
verschil

(
kijken
naar
de
standaarddeviatie
van
dat
verschil
en
delen
door
wortel
n
).

Hoe
groter
die
waarde
(d)
is
(
absoluut
)
hoe
meer
evidentie
tegen
de
nulhypothese
(
om
die
te
verwerpen

dus).
We
kunnen
dergelijke
analyse
gaan
doen
in
SPSS.
Dit
wordt
nu
geïllustreerd
in
de
les.
(
OPMERKING
:

op
Minerva
kan
je
de
datasets
terugvinden
maar
ook
de
syntax
die
gebruikt
wordt
om
alle
analyses
uit
te

voeren
die
in
de
les
getoond/gebruikt
zijn
–
per
file
heb
je
dus
ook
een
syntax
file
die
het
script
weergeeft

voor
de
analyses).

Op
Athena
surf
je
naar
SPSS
(
maakt
niet
uit
welke
versie).
Wat
je
kan
doen
is
die
datasets
die
op
Minerva

staan
downloaden
en
op
je
H-‐schijf
zetten
zodat
je
die
makkelijk
vanuit
Athena
kan
oproepen.
Het

opnieuw
maken
van
die
oefeningen
(
dus
analyseren
van
de
data
die
we
in
de
les
zien
)
is
een
goede

voorbereiding
op
de
practica
en
dus
ook
voor
het
examen
zelf.
Probeer
de
analyses
die
in
de
les
getoond

worden
dus
zelf
altijd
eens
opnieuw
te
maken.
Je
opent
data
via
“file
–
open
data
–
dan
kom
je
op
de
H-‐
schijf
terecht
–
en
dan
open
je
het
document
afhankelijk
van
waar
je
het
hebt
opgeslaan”.
Je
ziet
dan
de

variabelen
staan
:

• 1e

kolom
=
identificatienummer
van
de
koppels
–
van
1
tot
100

• 2e
kolom
is
tevredenheid
mannen

• 3e
kolom
is
tevredenheid
vrouwen.

Slide
10

• Data
analyseren
!
“analyze”

• Willen
hier
gemiddelden
gaan
vergelijken
dus
we
kiezen!

“compare
means”

• Gebruiken
gepaarde
t-‐test
dus
kiezen
!
“pared
samples
t-‐test”

• Selecteer
dan
welke
variabelen
!
“seksuele
tevredenheid
M”
en
“seksuele
tevredenheid

• Onderaan
kan
je
dan
kiezen
tussen
“OK”
of
“PASTE”

-‐ PASTE
:

Als
je
op
Paste
klikt
wordt
er
eerst
een
syntax
venster
geopend

Het
is
dat
wat
je
ook
terug
vind
op
Minerva
:
Dat
toont
dus
hoe
we
de
analyse
gaan
uitvoeren
of

uitgevoerd
wordt.
Syntax
zelf
moet
je
niet
kunnen
maar
analyses
runnen
door
de
syntax
aan
te

klikken
wel.

-‐ OK
:

Moest
je
op
OK
geklikt
hebben
ipv
eerst
op
paste
dan
krijg
je
direct
rechtstreeks
de
output.

• Eerst
krijgen
we
wat
beschrijvende
statistieken
:

-‐ Gemiddelde
:

Deze
bevestigen
wat
we
eigenlijk
al
zagen
van
op
het
histogram
:
seksuele
tevredenheid
van

man
=
3,5
die
van
vrouw
is
2,76.

-‐ Standaarddeviaties
:

We
zien
ook
de
standaarddeviaties
die
een
idee
geven
van
de
spreiding
en
die
is
inderdaad

gelijkaardig
bij
mannen
en
vrouwen
(
.54
en
.58
respectievelijk).

-‐ Correlaties
:

Je
ziet
een
vrij
sterke
correlatie
/
samenhang
(
zagen
we
ook
al
)
tussen
tevredenheid
van

mannen
en
vrouwen
(
.60
).
Dit
zien
we
trouwens
vaak
tussen
koppels.

, Slide
11

Daarna
zien
we
dan
de
gepaarde
T-‐test
:
gemiddelde
delen
door
de
standaarderror
(
dit
is
hier
de

standaarddeviatie
gedeeld
door
wortel
n

!
in
ons
geval
is
dat
10).
Dan
heb
je
de
waarde
van
de

teststatistiek
(
15.7).
Merk
op
:
wij
gaan
geen
teststatistieken
moeten
berekenen
(
software
doet
dit
voor

ons).
De
interpretatie
is
wel
belangrijk.
Wij
weten
dat
die
teststatistiek
een
T-‐verdeling
volgt
en
vragen
ons

dan
af
“hoe
waarschijnlijk
is
het
dan
om
dergelijke
waarde
van
de
t-‐statistiek
te
observeren
onder
de

nulhypothese?”
!
Hoeveel
evidentie
hebben
we
tegen
die
hypothese.
We
zien
:
0,000
!
dan
weten
we

op
het
5%
significantieniveau
dat
we
de
nulhypothese
mogen
verwerpen
(
p-‐waarde
kleiner
dan
0,05
is

verwerpen).
We
kunnen
hier
besluiten
dat
de
seksuele
tevredenheid
van
mannen
significant
verschillend
is

dan
die
van
vrouwen
op
het
5%
sig.niveau.
Hoe
sterk
verschillend
is
die?
Dan
kijken
we
naar
het
95%-‐
betrouwbaarheidsinterval
voor
het
verschil.
Als
we
100
experimenten
opnieuw
zouden
doen
dan
zou
in

95%
van
de
gevallen
het
ware
gemiddelde
(verschil)
binnen
dat
interval
liggen.
We
zien
hier
dat
de
grenzen

van
dat
interval
lopen
van
.65
tot
.85
en
nul
ligt
daar
dus
niet
in.
Ook
op
die
manier
kunnen
we
dus

besluiten
dat
er
een
significant
verschil
is
tussen
tevredenheid
mannen
vs.
vrouwen
(
omdat
nul
er
niet
in

ligt
).

1.1.2 Voorbeeld
2
:
toegeeflijkheid
bij
ouders

Slide
12

Geven
ouders
vaak
even
veel
toe
of
is
er
meestal
1
ouder
die
meer/minder
toegeeflijk
is?
Hoe
variëren
die

samen?
Hoe
varieert
de
toegeeflijkheid
bij
man
en
vrouw
in
een
koppel
ten
aanzien
van
kinderen?
En
hoe

kunnen
we
dat
verklaren
?
We
kunnen
eens
gaan
kijken.
Er
zijn
scores
tussen
0
en
10
mogelijk
en
het
gaat

over
zowel
vader
als
moeder.
We
hebben
weer
afhankelijke
observaties
(
zijn
namelijk
een
koppel
–
geen

onafhankelijke
mannen
of
vrouwen).

Slide
13

We
zien
een
negatieve
samenhang
:
hoe
meer
de
ene
toegeeft
hoe
minder
de
andere
dat
doet
(
=
soort

compensatiemechanisme).
Die
gegevens
vallen
wel
mooi
binnen
de
ellips
van
de
bivariate
verdeling.
Je
kan

dus
zeker
gegevens
hebben
uit
een
bivariate
normale
verdeling
die
negatief
samenhangen
(
komt
minder

vaak
voor
in
de
praktijk
maar
het
kan
dus
wel).

Slide
14

We
kijken
opnieuw
naar
de
marginale
verdelingen
(
kijken
dus
naar
:
hoe
ziet
die
verdeling
eruit

onafhankelijk
van
de
andere
variabele
?
)
:
links
toegeeflijkheid
vader,
rechts
van
de
moeder.
(
Op
zich
zijn

die
dus
normaal
verdeeld).
Onderaan
zie
je
de
verdeling
van
de
som
en
het
verschil.
Waar
is
er
nu
het

meest
variabiliteit
?
Voor
het
verschil
natuurlijk
(
gaat
van
-‐4
tot
4
,
terwijl
dat
bij
de
som
van
7
tot
12
gaat).

Hoe
kunnen
we
dat
verklaren?
Daarnet
was
de
spreiding
voor
de
som
groter
omdat
de
ro
daar
positief

was.
Nu
zitten
we
met
een
negatieve
correlatie
dus
nu
gaan
we
bij
de
variantie
van
de
som
eigenlijk
iets

aftrekken
(
doordat
die
correlatie
negatief
is
)
–
zie
formule
slide
8
in
het
paars).
Terwijl
bij
het
verschil

gaan
we
nu
een
term
optellen.

1.1.3 Koppels
en
zoveel
meer

Slide
15

We
hebben
in
dit
eerste
deel
dus
een
voorbeeld
gezien
van
geclusterde
data
:
geen
onafhankelijke

observaties
maar
data
in
clusters
(bv.
man
en
vrouw
binnen
een
koppel,
siblings,
allerlei
werknemers
uit

een
team
die
rapporteren
aan
een
diensthoofd
,
kinderen
in
een
klas
,
…
).
Dit
zal
1
van
de
doelstellingen

zijn
in
onze
cursus
:
hoe
analyseren
we
data
als
we
met
zo’n
geclusterde
gegevens
zitten?

1.2Longitudinale
data

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

Studenten hebben al meer dan 850.000 samenvattingen beoordeeld. Zo weet jij zeker dat je de beste keuze maakt!

In een paar klikken geregeld

Geen gedoe — betaal gewoon eenmalig met iDeal, Bancontact of creditcard en je bent klaar. Geen abonnement nodig.

Focus op de essentie

Studenten maken samenvattingen voor studenten. Dat betekent: actuele inhoud waar jij écht wat aan hebt. Geen overbodige details!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.