Multivariate Data Analyse – Samenvatting
Michelle van Zwieten
S2549522
Wat betekent multivariate = multivariate heeft betrekking op 3 of meer variabelen
Leerdoelen:
algemeen:
Welke methode / techniek kan ik gebruiken voor welk probleem?
uitvoeren van die (gekozen) data-analyse
begrijpen en kunnen interpreteren van de output van de data-analyse
specifieke technieken:
theoretische eigenschappen van iedere methode /techniek weten
interpreteren van de parameters van een techniek
oordelen of de interpretaties geldig zijn
is er voldaan aan de aannames
College 1 – multiple regressieanalyse (= meervoudige regressie-analyse)
Technieken in week 1 t/m week 4:
Er is steeds sprake van 1 afhankelijke variabele : Y
Er is steeds sprake van meerdere onafhankelijke variabelen X1, X2, X…, = voorspellers =
predictoren
Onderzoeksvraag : kan Y worden voorspeld vanuit X1 en/of X2 en/of X … ?
3 relevante meetniveaus :
Nominaal (NOM) = nominaal meetniveau onderscheidt alleen categorieën ; er is geen ordening
bijv. : geen therapie, psycho-dynamische therapie, exposure therapie
Interval (INT) = als de data kan worden gecategoriseerd, er is sprake van een rangorde
(de intervallen tussen de categorieën zijn gelijk)
bijv. : gewicht, lengte, IQ-scores, BDI-scores (= Beck Depression Inventory) (quasi-interval)
Binair (BIN) = Binaire variabelen hebben 2 categorieën, deze kunnen zowel van nominaal als
van intervalniveau zijn.
bijv. : pass/fail, man/vrouw
Stappenplan : wanneer welke techniek? (week 1 t/m 4)
Predictoren : Afhankelijke var. : Y Techniek Afkorting
X1, X2 Slechts één
INT INT Multiple regressie analyse MRA (week 1)
NOM INT Analyse van variantie ANOVA (week 2)
1
, NOM + INT INT Analyse van covariantie ANCOVA
INT BIN Logistische regressieanalyse LRA
Opmerkingen bij bovenstaande tabel :
X1 en X2 kunnen ook BIN zijn
Als Y = BIN, dan altijd LRA
2
,Week 1 Multiple Regression Analysis (= MRA)
Week 2 variantieanalyse = Analysis Of Variances (ANOVA)
Onderzoeksvraag: kan Y worden voorspeld vanuit X1 en/of X2?
Meetniveaus :
X1 en/of X2 = INT
Y = INT
Inhoud college :
1. Illustratief voorbeeld
2. Regressievergelijking
3. Evalueren van het model
4. Checken van de assumpties (= aannames)
5. Diverse onderwerpen
1. Illustratief voorbeeld
Onderzoeksvraag : Kan depressie worden voorspeld uit levensgebeurtenissen (X1) en/of coping
(X2)?
Studiedesign :
Vraag de deelnemer naar het aantal levensgebeurtenissen (X1) (0, 1, 2, 3, …)
bijv. financiële moeilijkheden, relatieproblemen, ziekte
Gebruik testen om de coping-strategie van de participant te meten (X2)
bijv. 1 = no coping, en 10 = good coping
Gebruik BDI om te depressie te meten (Y)
BDI-score : 0-9 = minimal, 10-18 = mild, 19-29 = moderate, 30-63 = severe depression
Model dat goed werkt: als afhankelijke variabele (Y = depressie) wordt weergegeven als lineaire
functie van voorspellers (X1 en X2)
Regressiemodel:
Simpele regressie : Y1 = b0* + b1* X1i + ei
Multiple regressie : Y1 = b0* + b1* X1i + b2* X2i + …. bk* Xki + ei
Wat betekent wat uit de formule:
B0* = constante, en die ster geeft aan dat het om een populatiewaarde gaat = (populatie)
regressiecoëfficiënt
b1* , b2* …. , bk* = (populatie) regressiecoëfficiënten (= parameters).
Deze moeten worden geschat van de data (steekproef). Lineair model : volgens het kleinste
kwadratenprincipe least squares estimation (dit kan in SPSS)
X1i , X2i , … , Xki en Yi = scores op X1, X2, …, Xk en Y van individu i
ei = residu (= error) = individuele afwijking van een bepaald persoon tot het regressiemodel
3
, 2. Regressievergelijking
Y^ ⅈ = voorspelling van Yi (= afhankelijke variabele)
^ ⅈ + ei (de geobserveerde waarde = voorspelde waarde + error)
Yi = Y
Regressievergelijking :
Simpele regressie : Y ^ ⅈ = b0 + b1X1i
Multiple regressie : Y ^ ⅈ = b0 + b1X1i + b2X2i + … + bkXki
Wat betekent wat uit de formule:
b0 , b1 en b2, …., en bk = schattingen van b0*, b1* , b2* …. , bk*
De beste voorspelling / schatting (least squares) als de som van de gekwadrateerde verschillen
minimaal is:
Formule hiervoor: is minimaal (zo klein mogelijk)
Voorbeeld van regressielijn bij Voorbeeld van regressielijn bij meervoudige
enkelvoudige regressie (dus met maar 1 regressie (dus met meerdere predictoren)
predictor)
3. Evalueren van het model
4