SAMENVATTING MDA SPSS + belangrijkste theorie, R + belangrijkste theorie
2019-2020
Inhoudstafel
HOOFDSTUK 1: verkennen van data
Variabelen bekijken 4
Standaard descriptives, uitgebreid 4
Z-waarden bekijken 4
Boxplot opvragen 4
Output verkennen van data 6
Standaardfout berekenen 6
Skewness en kurtosis interpreteren 6
Histogram en loofdiagram 6
Boxplot interpreteren 7
Missing values 8
Interne consistentie van een vragenlijst 8
Chronbach’s alpha 8
Hercoderen van items 8
Likertschaal maken 9
Correlaties interpreteren 10
Outliers en extremes 10
Werkhypothesen nagaan 10
Q-Q plot 11
P-P plot 11
Homoscedastiteit 11
Spreidingsdiagrammen of scatterplot 12
HOOFDSTUK 2: meervoudige regressie
Meervoudige regressie 13
Theorie en extra 13
SPSS invoer 14
Output interpreteren 15
Correlatiematrix 16
R en R2 interpreteren 16
Anova 17
Coëfficienten interpreteren 18
Collinearity statistics (VIF en TOL) 19
Werkhypothesen nagaan 20
Homo- of heteroscedasticiteit? 21
KS-toets voor normaliteit 22
Logistische regressie 23
SPSS invoer 23
Output 23
Block 0 interpreteren 24
Block 1 interpreteren 25
Hosmer en Lemeshow test 25
Wald Statistic 27
Model verfijnen 27
“Wat is de kans?” 28
BI opvragen 28
1
,HOOFDSTUK 3: VARIANTIEANALYSE
ONE-WAY ANOVA 29
Theorie 29
SPSS invoer 31
Post-hoc of contrast? 31
Anova? 31
Contrasten invoeren 32
Werkhypothesen bij one-way anova 33
Output interpreteren 33
Vuistregel werkhypothese homoscedasticiteit 34
Anova-tabel handmatig rekenen 35
Contrast versus F-test 35
Post hoc test 36
Werkhypothesen nagaan 37
TWEE-FACTOR VARIANTIEANALYSE 38
Theorie 38
SPSS invoer 39
Output interpreteren 39
Maatstaf voor effect 40
Interactie-of hoofdeffect? 41
Werkhypothesen nagaan 42
Contrasten testen bij twee-factor 43
variantieanalyse
Post-hoc testen 45
VARIANTIEANALYSE MET HERHAALDE 45
METINGEN
Theorie 45
SPSS invoer 46
“Gewoon model” 46
Output gewoon model 47
Mauchly’s test of sphericity 47
Huynh Feldt en Greenhouse-Geisser 48
van Huyn Feldt en Greenhouse Geisser 48
handmatig rekenen
Contrasten 49
“Gemengd model” 49
Output gemend model 50
Mauschly’s test of sphericitity 51
Post hoc test 52
HOOFDSTUK 4: FACTORANALYSE
Theorie 53
SPSS invoer 55
Output interpreteren 56
KMO’s and Bartlett’s test 57
Extractie of geen extractie? 60
Voorwaarden extractie 60
Scree plot 61
Component plot 63
Extractie uitvoeren 64
Output na extractie 64
Eigenwaardes veranderd of niet? 65
2
,HOOFDSTUK 5: CLUSTERANALYSE
Theorie 66
Hiërarchische clustering 66
SPSS invoer 68
Output 70
Manhattan/city-block afstand handmatig 70
berekenen
Single linkage 71
Complete linkage 72
Methode between groups 73
Methode van Ward 74
R
Padanalyse 75
Confirmatorische factoranalyse 87
EXTRA
beslissingstabel 97
Handmatige berekeningen 98
3
,HOOFDSTUK 1: VERKENNEN VAN DATA
1.2 Een kijk op variabelen
: overzicht van alle variabelen
: in data view cijfers of ‘value labels’ bekijken (wisselen tussen beide)
1e MANIER om variabelen te bekijken:
• om te kijken naar de ‘standaard’ beschrijvingen zoals gemiddelde en standaardafwijking
• Analyze → descriptive statistics → descriptives → options (gemiddelde, sd, minimum,
maximum, skewness (scheefheid), kurtosis (gepiektheid))
! Z-waarden opvragen: ‘save standardized variables as values’
OUTPUT INTERPRETEREN:
• KIJK GOED NAAR JE SCHAAL: indien bv. ordinaal van 0 tot 6, kan minimum en
maximum hier nooit overgaan
• Gemiddelde bij een nominale schaal is de proportie van het getal dat 1 is (bv.
vrouw = 1 en man = 0 → )
• ‘n listwise’: aantal cases met geldige waarnemingen; N-‘nlistwise’ = cases met
missings
2e MANIER om te kijken naar inhoud van variabelen:
• om een uitgebreider overzicht te krijgen, met GRAFIEKEN
• Analyze → descriptive statistics → explore → dependent list (variabelen waarvan je
een overzicht wil), statistics (descriptives, outliers, percentielen), plots (histogram,
stam-loofdiagram, boxplot), factor list (variabele kan ingevoerd worden die de cases
opdeeld in groepen (bv. factor geslacht: mannen en vrouwen))
• boxplot opvragen op een andere manier (dus zonder explore, enkel de boxplot)
• Graphs → legacy dialogs → boxplot
• simple: verschillende variabelen vergelijken
• summaries of groups of cases: frequentieverdeling van verschillende groepen
cases voor één variabele vergelijken
4
,OUTPUT INTERPRETEREN
• Er komt een kadertje ‘case processing summary’ → geeft samenvatting van het aantal
cases
• Output descriptives
• standaardfout berekenen = standaardafwijking/N
• betrouwbaarheidsinterval (95% confidence interval for mean) = gemiddelde
+/- standaardfout
• 5% trimmed mean: vijf procent extreemste waarden worden niet
meegerekend in het gemiddelde
• indien dit gemiddelde niet veel verschilt van het oorspronkelijke zijn
er weinig extreme waardes (weinig outliers)
• skewness (scheefheid) en kurtosis (gepiektheid)
linksscheef, rechts
assymetrisch
Rechtsscheef, links
assymetrisch
• Tabel extreme values: hoogste en laagste outliers en bijbehorend case
nummer
• Histogram: snel overzicht verdeling van de waarnemingen, geeft zicht op:
normaliteit, positie, spreiding en symmetrie. Eventueel curve toevoegen
(dubbelklik: show distribution curve → normal)
• Stam-loof diagram: frequentieverdeling
5
,• Boxplot: info over: positie, spreiding en symmetrie
LA: links assymetrisch
RA: rechts assymetrisch
Als de mediaan ongeveer in het middel ligt wijst dit op symmetrie
Extreme waarden = sterretje: meer dan 3 interkwartielafstanden van de box
Gewone outlier/buitenbeentje=bolletje: 1,5 interkwartielafstanden verwijderd
van de box
IKA = Q3-Q1
gewoon= Q1-1,5IKA / Q3+1,5IKA extreem: Q1-3IKA / Q3+3IKA
!!! bv. 141 is het casenummer, niet de waarde
6
,Indien missing values:
Transform à replace missing values: voer items in waar missings voor zijn
Dan krijg je deze tabel te zien
1.3 De interne consistentie van een vragenlijst
Om van ordinale variabelen berekeningen te kunnen doen, moeten we de ordinale schalen omzetten
naar op zijn minst een interval niveau (hier kan je ipv enkel mediaan ook gemiddelde etc bij
berekenen).
STAP 1:
Hiervoor moeten we eerst twee voorwaarden nagaan:
1. Interne consistentie hoog genoeg?
analyze → scale → reliability analysis → statistics: scale en scale if item is deleted aanduiden
! Chronbach’s alpha moet groter zijn dan .80
→ kijk hoe je alpha stijgt als je kijkt naar chronbach’s alpha if item is deleted (je hebt er
minstens 3 nodig! Dus uitsmijten met maar 3 gaat niet!!)
Kijk naar corrected items total correlations: indien deze in tabel negatief zijn, deze moeten
gehercodeerd worden in stap 2 (schrijf op welke items dit waren om in stap 2 te gebruiken)
2. Staan de items in eenzelfde richting gecodeerd?
hercoderen van items die je in vorige berekening eruit hebt gehaald:
7
, transform → recode into different variables → items nieuwe naam geven ‘name: rec... +
change’ voor elk item → old and new values → hercoderen old value + new value → het is een
ordinale in de verkeerde richting voor die items, dus omkeren (!) bv. 0 wordt 6, 1 wordt 5, 2
wordt 4, 3 blijft 3, 4 wordt 2, 5 wordt 1, 6 wordt 0 system or user missing wordt ‘system
missing’ (duidt dit aan)
→ Tip: maakt eigenlijk niet uit dat je system or user missing veranderd in ‘system
missing’, dit wordt vaak gedaan bij ‘ranges’, maar het kan geen kwaad om dit altijd
aan te duiden.
Chronbach’s alpha opnieuw berekenen met gehercodeerde items !! let op dat je dus
de juiste items gebruikt, en niet de ‘oude’. Nu zou chronbach’s alpha gestegen
moeten zijn (idealiter ≥ .80!) en staan ze allemaal in dezelfde richting gecodeerd (geen
negatieve waarden meer bij corrected items if item is deleted.
Je zou ook voor elk item apart je correlatie (analyze → correlate → bivariate →
pearson) kunnen berekenen en indien negatief kan je hieruit afleiden welke correct gecodeerd
zijn en welke niet, degene met de meeste negatieve zijn ‘reversed coded’. Output met pearson
is enorm groot: om dit te vermijden zet je in je SYNTAX achter het laatste item ‘WITH score’ om
deze output aanzienlijk te verkleinen. Hierna gaan we hercoderen en opnieuw een correlatie
uitvoeren, tot dat deze positief is.
Om verbanden tussen bepaalde gegevens/veranderlijke na te gaan zijn er twee manieren:
1. grafisch: graphs → legacy dialogs → scatter/dot → matrix scatter
2. correlatiecoëfficiente: analyze → correlate → bivariate
Maar aangezien reliability analysis ze allemaal tegelijk geeft, is deze methode veel effectiever!
STAP 2:
Likertschaal aanmaken!
transform → compute variable → target variable een naam geven → statistics: functions and special
variables → SUM dubbelkik → items groeperen: gehercodeerde zijn bv. item 1, 5 en 8, je hebt 20
items. Dus je hercodeerd met SUM(item2 to item4, item6 to item 7, item9 to item20, rec1 to rec8)
Hercoderen kan ook met ‘MEAN’ of andere à kijk naar opgave!
→ NU KAN JE DUS GEMIDDELDEN ENZOVOORT BEREKENEN
8
,1.4 Correlaties (invloed/verband = correlatie)
Correlaties: door de correlatie r te kwadrateren, krijg je het procent verklaarde variantie. Vanaf een
correlatie van 0.7 spreken we van een sterke correlatie. Let op voor uitschieters!
! interpreteer nooit een correlatiecoëfficient zonder eerst het spreidingsdiagram te bekijken
(scatterplot), ze zijn namelijk zeer gevoelig voor outliers.
1.5 Outliers en extremes
Buitenbeetjes en uitschieters (outliers en extremes): je kan deze verwijderen (als het atypische
gevallen zijn) of behouden (als je een representatieve steekproef hebt, om de
betrouwbaarheidsintervallen niet te overschatten).
• om algemene tendensen te beschrijven kunnen ze beter geweerd worden
1.6 Werkhypothesen
Werkhypothesen die je bij bepaalde analyses EERST moet nagaan:
• Lineariteit:
• nagaan via pearson correlatie of scatterplot
• Normaliteit: enkel nagaan wanneer steekproeven kleiner < 30 (> 30 is oke volgens centrale
limietstelling)
• Indien n < 30: normaliteit nagaan via de Kolomogorov-Smirnov
• analyze → nonparametric tests → legacy dialogs → one sample KS
OUTPUT:
H0: Normaal verdeeld
HA: niet normaal verdeeld
→ indien p < .05 H0 verwerpen, dus niet normaal verdeeld
• grafisch nagaan via P-P en Q-Q plots (of eventueel histogram):
• analyze → descriptive statistics → Q-Q en/of P-P plots (of met explore: dan
krijg je ze beiden)
9
, normal Q-Q plot = normaal-kwantiel diagrammen (meetwaarden standaardiseren) → waarnemingen
rond de diagonaal wijst op normaliteit. Daaronder staat in SPSS de detrended normal Q-Q plot, waar
je kan zien of de waarneming boven of onder de normaalverdeling liggen
Normal probability plot = P-P plot → werkt met cumulatieve frequenties. Opnieuw moeten de
waarnemingen rond de diagonaal liggen voor normaliteit, met daaronder een grafiek die aangeeft of
de waarnemingen boven of onder normaalverdeling liggen (zelfde principe als Q-Q plot, maar dan met
cumulatieve waarden)
• Homoscedasticiteit: gelijke spreiding → zijn de varianties in de vergeleken populaties
ongeveer gelijk? Nagegaan via Levene’s test for equality of variances (deze krijg je in spss
altijd).
H0: variantie1 = variantie 2
Ha: variantie 1 ≠ variantie2
p < alpha (.05) → H0 verwerpen: geen homoscedasticiteit (= heteroscedasticiteit)
Ook hier: nadeel = kleine steekproeven vaak normaal en grote steekproeven niet vaak
normaal → kijken naar grafieken:
• Boxplot: kijken naar interkwartielafstand en (in mindere mate) variatiebreedte
10