100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting SPSS en R multi-variate data-analyse (MDA) €6,99   In winkelwagen

Samenvatting

Samenvatting SPSS en R multi-variate data-analyse (MDA)

17 beoordelingen
 1212 keer bekeken  95 keer verkocht

VUB 3e BACH: Samenvatting voor het vak multi-variate data-analyse, gedoceerd in door Prof. Van Overwalle en Prof. Alain. Belangrijkste theorie uit het HOC/handboek om output te interpreteren, samen met een stappenplan per hoofdstuk om in te voeren in SPSS en R (met bijbehorende interpretatie van d...

[Meer zien]
Laatste update van het document: 4 jaar geleden

Voorbeeld 10 van de 103  pagina's

  • 9 mei 2020
  • 29 juni 2020
  • 103
  • 2019/2020
  • Samenvatting
Alle documenten voor dit vak (16)

17  beoordelingen

review-writer-avatar

Door: jessecoolen • 1 jaar geleden

review-writer-avatar

Door: yk1510 • 2 jaar geleden

review-writer-avatar

Door: ghislaineadabakrim • 2 jaar geleden

review-writer-avatar

Door: mariamhfz • 2 jaar geleden

review-writer-avatar

Door: CarolineV1995 • 3 jaar geleden

review-writer-avatar

Door: gerddeblo • 3 jaar geleden

review-writer-avatar

Door: Wayne06 • 3 jaar geleden

Bekijk meer beoordelingen  
avatar-seller
monasamenvattingen
SAMENVATTING MDA SPSS + belangrijkste theorie, R + belangrijkste theorie
2019-2020

Inhoudstafel

HOOFDSTUK 1: verkennen van data
Variabelen bekijken 4
Standaard descriptives, uitgebreid 4
Z-waarden bekijken 4
Boxplot opvragen 4
Output verkennen van data 6
Standaardfout berekenen 6
Skewness en kurtosis interpreteren 6
Histogram en loofdiagram 6
Boxplot interpreteren 7
Missing values 8
Interne consistentie van een vragenlijst 8
Chronbach’s alpha 8
Hercoderen van items 8
Likertschaal maken 9
Correlaties interpreteren 10
Outliers en extremes 10
Werkhypothesen nagaan 10
Q-Q plot 11
P-P plot 11
Homoscedastiteit 11
Spreidingsdiagrammen of scatterplot 12

HOOFDSTUK 2: meervoudige regressie
Meervoudige regressie 13
Theorie en extra 13
SPSS invoer 14
Output interpreteren 15
Correlatiematrix 16
R en R2 interpreteren 16
Anova 17
Coëfficienten interpreteren 18
Collinearity statistics (VIF en TOL) 19
Werkhypothesen nagaan 20
Homo- of heteroscedasticiteit? 21
KS-toets voor normaliteit 22
Logistische regressie 23
SPSS invoer 23
Output 23
Block 0 interpreteren 24
Block 1 interpreteren 25
Hosmer en Lemeshow test 25
Wald Statistic 27
Model verfijnen 27
“Wat is de kans?” 28
BI opvragen 28



1

,HOOFDSTUK 3: VARIANTIEANALYSE
ONE-WAY ANOVA 29
Theorie 29
SPSS invoer 31
Post-hoc of contrast? 31
Anova? 31
Contrasten invoeren 32
Werkhypothesen bij one-way anova 33
Output interpreteren 33
Vuistregel werkhypothese homoscedasticiteit 34
Anova-tabel handmatig rekenen 35
Contrast versus F-test 35
Post hoc test 36
Werkhypothesen nagaan 37
TWEE-FACTOR VARIANTIEANALYSE 38
Theorie 38
SPSS invoer 39
Output interpreteren 39
Maatstaf voor effect 40
Interactie-of hoofdeffect? 41
Werkhypothesen nagaan 42
Contrasten testen bij twee-factor 43
variantieanalyse
Post-hoc testen 45
VARIANTIEANALYSE MET HERHAALDE 45
METINGEN
Theorie 45
SPSS invoer 46
“Gewoon model” 46
Output gewoon model 47
Mauchly’s test of sphericity 47
Huynh Feldt en Greenhouse-Geisser 48
van Huyn Feldt en Greenhouse Geisser 48
handmatig rekenen
Contrasten 49
“Gemengd model” 49
Output gemend model 50
Mauschly’s test of sphericitity 51
Post hoc test 52

HOOFDSTUK 4: FACTORANALYSE
Theorie 53
SPSS invoer 55
Output interpreteren 56
KMO’s and Bartlett’s test 57
Extractie of geen extractie? 60
Voorwaarden extractie 60
Scree plot 61
Component plot 63
Extractie uitvoeren 64
Output na extractie 64
Eigenwaardes veranderd of niet? 65


2

,HOOFDSTUK 5: CLUSTERANALYSE
Theorie 66
Hiërarchische clustering 66
SPSS invoer 68
Output 70
Manhattan/city-block afstand handmatig 70
berekenen
Single linkage 71
Complete linkage 72
Methode between groups 73
Methode van Ward 74


R
Padanalyse 75
Confirmatorische factoranalyse 87

EXTRA
beslissingstabel 97
Handmatige berekeningen 98




3

,HOOFDSTUK 1: VERKENNEN VAN DATA
1.2 Een kijk op variabelen




: overzicht van alle variabelen


: in data view cijfers of ‘value labels’ bekijken (wisselen tussen beide)

1e MANIER om variabelen te bekijken:

• om te kijken naar de ‘standaard’ beschrijvingen zoals gemiddelde en standaardafwijking


• Analyze → descriptive statistics → descriptives → options (gemiddelde, sd, minimum,
maximum, skewness (scheefheid), kurtosis (gepiektheid))

! Z-waarden opvragen: ‘save standardized variables as values’
OUTPUT INTERPRETEREN:
• KIJK GOED NAAR JE SCHAAL: indien bv. ordinaal van 0 tot 6, kan minimum en
maximum hier nooit overgaan
• Gemiddelde bij een nominale schaal is de proportie van het getal dat 1 is (bv.

vrouw = 1 en man = 0 → )
• ‘n listwise’: aantal cases met geldige waarnemingen; N-‘nlistwise’ = cases met
missings
2e MANIER om te kijken naar inhoud van variabelen:
• om een uitgebreider overzicht te krijgen, met GRAFIEKEN

• Analyze → descriptive statistics → explore → dependent list (variabelen waarvan je
een overzicht wil), statistics (descriptives, outliers, percentielen), plots (histogram,
stam-loofdiagram, boxplot), factor list (variabele kan ingevoerd worden die de cases
opdeeld in groepen (bv. factor geslacht: mannen en vrouwen))

• boxplot opvragen op een andere manier (dus zonder explore, enkel de boxplot)

• Graphs → legacy dialogs → boxplot
• simple: verschillende variabelen vergelijken
• summaries of groups of cases: frequentieverdeling van verschillende groepen
cases voor één variabele vergelijken




4

,OUTPUT INTERPRETEREN
• Er komt een kadertje ‘case processing summary’ → geeft samenvatting van het aantal
cases
• Output descriptives
• standaardfout berekenen = standaardafwijking/N
• betrouwbaarheidsinterval (95% confidence interval for mean) = gemiddelde
+/- standaardfout
• 5% trimmed mean: vijf procent extreemste waarden worden niet
meegerekend in het gemiddelde
• indien dit gemiddelde niet veel verschilt van het oorspronkelijke zijn
er weinig extreme waardes (weinig outliers)
• skewness (scheefheid) en kurtosis (gepiektheid)




linksscheef, rechts
assymetrisch




Rechtsscheef, links
assymetrisch




• Tabel extreme values: hoogste en laagste outliers en bijbehorend case
nummer
• Histogram: snel overzicht verdeling van de waarnemingen, geeft zicht op:
normaliteit, positie, spreiding en symmetrie. Eventueel curve toevoegen
(dubbelklik: show distribution curve → normal)
• Stam-loof diagram: frequentieverdeling




5

,• Boxplot: info over: positie, spreiding en symmetrie




LA: links assymetrisch
RA: rechts assymetrisch
Als de mediaan ongeveer in het middel ligt wijst dit op symmetrie




Extreme waarden = sterretje: meer dan 3 interkwartielafstanden van de box
Gewone outlier/buitenbeentje=bolletje: 1,5 interkwartielafstanden verwijderd
van de box
IKA = Q3-Q1
gewoon= Q1-1,5IKA / Q3+1,5IKA extreem: Q1-3IKA / Q3+3IKA
!!! bv. 141 is het casenummer, niet de waarde




6

,Indien missing values:
Transform à replace missing values: voer items in waar missings voor zijn




Dan krijg je deze tabel te zien

1.3 De interne consistentie van een vragenlijst
Om van ordinale variabelen berekeningen te kunnen doen, moeten we de ordinale schalen omzetten
naar op zijn minst een interval niveau (hier kan je ipv enkel mediaan ook gemiddelde etc bij
berekenen).
STAP 1:
Hiervoor moeten we eerst twee voorwaarden nagaan:
1. Interne consistentie hoog genoeg?

analyze → scale → reliability analysis → statistics: scale en scale if item is deleted aanduiden

! Chronbach’s alpha moet groter zijn dan .80




→ kijk hoe je alpha stijgt als je kijkt naar chronbach’s alpha if item is deleted (je hebt er
minstens 3 nodig! Dus uitsmijten met maar 3 gaat niet!!)
Kijk naar corrected items total correlations: indien deze in tabel negatief zijn, deze moeten
gehercodeerd worden in stap 2 (schrijf op welke items dit waren om in stap 2 te gebruiken)
2. Staan de items in eenzelfde richting gecodeerd?
hercoderen van items die je in vorige berekening eruit hebt gehaald:


7

, transform → recode into different variables → items nieuwe naam geven ‘name: rec... +
change’ voor elk item → old and new values → hercoderen old value + new value → het is een
ordinale in de verkeerde richting voor die items, dus omkeren (!) bv. 0 wordt 6, 1 wordt 5, 2
wordt 4, 3 blijft 3, 4 wordt 2, 5 wordt 1, 6 wordt 0 system or user missing wordt ‘system
missing’ (duidt dit aan)
→ Tip: maakt eigenlijk niet uit dat je system or user missing veranderd in ‘system
missing’, dit wordt vaak gedaan bij ‘ranges’, maar het kan geen kwaad om dit altijd
aan te duiden.
Chronbach’s alpha opnieuw berekenen met gehercodeerde items !! let op dat je dus
de juiste items gebruikt, en niet de ‘oude’. Nu zou chronbach’s alpha gestegen
moeten zijn (idealiter ≥ .80!) en staan ze allemaal in dezelfde richting gecodeerd (geen
negatieve waarden meer bij corrected items if item is deleted.
Je zou ook voor elk item apart je correlatie (analyze → correlate → bivariate →
pearson) kunnen berekenen en indien negatief kan je hieruit afleiden welke correct gecodeerd
zijn en welke niet, degene met de meeste negatieve zijn ‘reversed coded’. Output met pearson
is enorm groot: om dit te vermijden zet je in je SYNTAX achter het laatste item ‘WITH score’ om
deze output aanzienlijk te verkleinen. Hierna gaan we hercoderen en opnieuw een correlatie
uitvoeren, tot dat deze positief is.
Om verbanden tussen bepaalde gegevens/veranderlijke na te gaan zijn er twee manieren:
1. grafisch: graphs → legacy dialogs → scatter/dot → matrix scatter
2. correlatiecoëfficiente: analyze → correlate → bivariate
Maar aangezien reliability analysis ze allemaal tegelijk geeft, is deze methode veel effectiever!
STAP 2:
Likertschaal aanmaken!
transform → compute variable → target variable een naam geven → statistics: functions and special
variables → SUM dubbelkik → items groeperen: gehercodeerde zijn bv. item 1, 5 en 8, je hebt 20
items. Dus je hercodeerd met SUM(item2 to item4, item6 to item 7, item9 to item20, rec1 to rec8)
Hercoderen kan ook met ‘MEAN’ of andere à kijk naar opgave!


→ NU KAN JE DUS GEMIDDELDEN ENZOVOORT BEREKENEN




8

,1.4 Correlaties (invloed/verband = correlatie)




Correlaties: door de correlatie r te kwadrateren, krijg je het procent verklaarde variantie. Vanaf een
correlatie van 0.7 spreken we van een sterke correlatie. Let op voor uitschieters!
! interpreteer nooit een correlatiecoëfficient zonder eerst het spreidingsdiagram te bekijken
(scatterplot), ze zijn namelijk zeer gevoelig voor outliers.
1.5 Outliers en extremes

Buitenbeetjes en uitschieters (outliers en extremes): je kan deze verwijderen (als het atypische
gevallen zijn) of behouden (als je een representatieve steekproef hebt, om de
betrouwbaarheidsintervallen niet te overschatten).
• om algemene tendensen te beschrijven kunnen ze beter geweerd worden
1.6 Werkhypothesen
Werkhypothesen die je bij bepaalde analyses EERST moet nagaan:
• Lineariteit:
• nagaan via pearson correlatie of scatterplot

• Normaliteit: enkel nagaan wanneer steekproeven kleiner < 30 (> 30 is oke volgens centrale
limietstelling)
• Indien n < 30: normaliteit nagaan via de Kolomogorov-Smirnov
• analyze → nonparametric tests → legacy dialogs → one sample KS

OUTPUT:
H0: Normaal verdeeld
HA: niet normaal verdeeld
→ indien p < .05 H0 verwerpen, dus niet normaal verdeeld

• grafisch nagaan via P-P en Q-Q plots (of eventueel histogram):
• analyze → descriptive statistics → Q-Q en/of P-P plots (of met explore: dan
krijg je ze beiden)




9

, normal Q-Q plot = normaal-kwantiel diagrammen (meetwaarden standaardiseren) → waarnemingen
rond de diagonaal wijst op normaliteit. Daaronder staat in SPSS de detrended normal Q-Q plot, waar
je kan zien of de waarneming boven of onder de normaalverdeling liggen




Normal probability plot = P-P plot → werkt met cumulatieve frequenties. Opnieuw moeten de
waarnemingen rond de diagonaal liggen voor normaliteit, met daaronder een grafiek die aangeeft of
de waarnemingen boven of onder normaalverdeling liggen (zelfde principe als Q-Q plot, maar dan met
cumulatieve waarden)

• Homoscedasticiteit: gelijke spreiding → zijn de varianties in de vergeleken populaties
ongeveer gelijk? Nagegaan via Levene’s test for equality of variances (deze krijg je in spss
altijd).
H0: variantie1 = variantie 2
Ha: variantie 1 ≠ variantie2
p < alpha (.05) → H0 verwerpen: geen homoscedasticiteit (= heteroscedasticiteit)
Ook hier: nadeel = kleine steekproeven vaak normaal en grote steekproeven niet vaak
normaal → kijken naar grafieken:

• Boxplot: kijken naar interkwartielafstand en (in mindere mate) variatiebreedte




10

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

√  	Verzekerd van kwaliteit door reviews

√ Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper monasamenvattingen. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €6,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 72042 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€6,99  95x  verkocht
  • (17)
  Kopen