VUB 3e BACH: Samenvatting voor het vak multi-variate data-analyse, gedoceerd in door Prof. Van Overwalle en Prof. Alain. Belangrijkste theorie uit het HOC/handboek om output te interpreteren, samen met een stappenplan per hoofdstuk om in te voeren in SPSS en R (met bijbehorende interpretatie van d...
! Z-waarden opvragen: ‘save standardized variables as values’
OUTPUT INTERPRETEREN:
• KIJK GOED NAAR JE SCHAAL: indien bv. ordinaal van 0 tot 6, kan minimum en
maximum hier nooit overgaan
• Gemiddelde bij een nominale schaal is de proportie van het getal dat 1 is (bv.
vrouw = 1 en man = 0 → )
• ‘n listwise’: aantal cases met geldige waarnemingen; N-‘nlistwise’ = cases met
missings
2e MANIER om te kijken naar inhoud van variabelen:
• om een uitgebreider overzicht te krijgen, met GRAFIEKEN
• Analyze → descriptive statistics → explore → dependent list (variabelen waarvan je
een overzicht wil), statistics (descriptives, outliers, percentielen), plots (histogram,
stam-loofdiagram, boxplot), factor list (variabele kan ingevoerd worden die de cases
opdeeld in groepen (bv. factor geslacht: mannen en vrouwen))
• boxplot opvragen op een andere manier (dus zonder explore, enkel de boxplot)
• Graphs → legacy dialogs → boxplot
• simple: verschillende variabelen vergelijken
• summaries of groups of cases: frequentieverdeling van verschillende groepen
cases voor één variabele vergelijken
4
,OUTPUT INTERPRETEREN
• Er komt een kadertje ‘case processing summary’ → geeft samenvatting van het aantal
cases
• Output descriptives
• standaardfout berekenen = standaardafwijking/N
• betrouwbaarheidsinterval (95% confidence interval for mean) = gemiddelde
+/- standaardfout
• 5% trimmed mean: vijf procent extreemste waarden worden niet
meegerekend in het gemiddelde
• indien dit gemiddelde niet veel verschilt van het oorspronkelijke zijn
er weinig extreme waardes (weinig outliers)
• skewness (scheefheid) en kurtosis (gepiektheid)
linksscheef, rechts
assymetrisch
Rechtsscheef, links
assymetrisch
• Tabel extreme values: hoogste en laagste outliers en bijbehorend case
nummer
• Histogram: snel overzicht verdeling van de waarnemingen, geeft zicht op:
normaliteit, positie, spreiding en symmetrie. Eventueel curve toevoegen
(dubbelklik: show distribution curve → normal)
• Stam-loof diagram: frequentieverdeling
5
,• Boxplot: info over: positie, spreiding en symmetrie
LA: links assymetrisch
RA: rechts assymetrisch
Als de mediaan ongeveer in het middel ligt wijst dit op symmetrie
Extreme waarden = sterretje: meer dan 3 interkwartielafstanden van de box
Gewone outlier/buitenbeentje=bolletje: 1,5 interkwartielafstanden verwijderd
van de box
IKA = Q3-Q1
gewoon= Q1-1,5IKA / Q3+1,5IKA extreem: Q1-3IKA / Q3+3IKA
!!! bv. 141 is het casenummer, niet de waarde
6
,Indien missing values:
Transform à replace missing values: voer items in waar missings voor zijn
Dan krijg je deze tabel te zien
1.3 De interne consistentie van een vragenlijst
Om van ordinale variabelen berekeningen te kunnen doen, moeten we de ordinale schalen omzetten
naar op zijn minst een interval niveau (hier kan je ipv enkel mediaan ook gemiddelde etc bij
berekenen).
STAP 1:
Hiervoor moeten we eerst twee voorwaarden nagaan:
1. Interne consistentie hoog genoeg?
analyze → scale → reliability analysis → statistics: scale en scale if item is deleted aanduiden
! Chronbach’s alpha moet groter zijn dan .80
→ kijk hoe je alpha stijgt als je kijkt naar chronbach’s alpha if item is deleted (je hebt er
minstens 3 nodig! Dus uitsmijten met maar 3 gaat niet!!)
Kijk naar corrected items total correlations: indien deze in tabel negatief zijn, deze moeten
gehercodeerd worden in stap 2 (schrijf op welke items dit waren om in stap 2 te gebruiken)
2. Staan de items in eenzelfde richting gecodeerd?
hercoderen van items die je in vorige berekening eruit hebt gehaald:
7
, transform → recode into different variables → items nieuwe naam geven ‘name: rec... +
change’ voor elk item → old and new values → hercoderen old value + new value → het is een
ordinale in de verkeerde richting voor die items, dus omkeren (!) bv. 0 wordt 6, 1 wordt 5, 2
wordt 4, 3 blijft 3, 4 wordt 2, 5 wordt 1, 6 wordt 0 system or user missing wordt ‘system
missing’ (duidt dit aan)
→ Tip: maakt eigenlijk niet uit dat je system or user missing veranderd in ‘system
missing’, dit wordt vaak gedaan bij ‘ranges’, maar het kan geen kwaad om dit altijd
aan te duiden.
Chronbach’s alpha opnieuw berekenen met gehercodeerde items !! let op dat je dus
de juiste items gebruikt, en niet de ‘oude’. Nu zou chronbach’s alpha gestegen
moeten zijn (idealiter ≥ .80!) en staan ze allemaal in dezelfde richting gecodeerd (geen
negatieve waarden meer bij corrected items if item is deleted.
Je zou ook voor elk item apart je correlatie (analyze → correlate → bivariate →
pearson) kunnen berekenen en indien negatief kan je hieruit afleiden welke correct gecodeerd
zijn en welke niet, degene met de meeste negatieve zijn ‘reversed coded’. Output met pearson
is enorm groot: om dit te vermijden zet je in je SYNTAX achter het laatste item ‘WITH score’ om
deze output aanzienlijk te verkleinen. Hierna gaan we hercoderen en opnieuw een correlatie
uitvoeren, tot dat deze positief is.
Om verbanden tussen bepaalde gegevens/veranderlijke na te gaan zijn er twee manieren:
1. grafisch: graphs → legacy dialogs → scatter/dot → matrix scatter
2. correlatiecoëfficiente: analyze → correlate → bivariate
Maar aangezien reliability analysis ze allemaal tegelijk geeft, is deze methode veel effectiever!
STAP 2:
Likertschaal aanmaken!
transform → compute variable → target variable een naam geven → statistics: functions and special
variables → SUM dubbelkik → items groeperen: gehercodeerde zijn bv. item 1, 5 en 8, je hebt 20
items. Dus je hercodeerd met SUM(item2 to item4, item6 to item 7, item9 to item20, rec1 to rec8)
Hercoderen kan ook met ‘MEAN’ of andere à kijk naar opgave!
→ NU KAN JE DUS GEMIDDELDEN ENZOVOORT BEREKENEN
8
,1.4 Correlaties (invloed/verband = correlatie)
Correlaties: door de correlatie r te kwadrateren, krijg je het procent verklaarde variantie. Vanaf een
correlatie van 0.7 spreken we van een sterke correlatie. Let op voor uitschieters!
! interpreteer nooit een correlatiecoëfficient zonder eerst het spreidingsdiagram te bekijken
(scatterplot), ze zijn namelijk zeer gevoelig voor outliers.
1.5 Outliers en extremes
Buitenbeetjes en uitschieters (outliers en extremes): je kan deze verwijderen (als het atypische
gevallen zijn) of behouden (als je een representatieve steekproef hebt, om de
betrouwbaarheidsintervallen niet te overschatten).
• om algemene tendensen te beschrijven kunnen ze beter geweerd worden
1.6 Werkhypothesen
Werkhypothesen die je bij bepaalde analyses EERST moet nagaan:
• Lineariteit:
• nagaan via pearson correlatie of scatterplot
• Normaliteit: enkel nagaan wanneer steekproeven kleiner < 30 (> 30 is oke volgens centrale
limietstelling)
• Indien n < 30: normaliteit nagaan via de Kolomogorov-Smirnov
• analyze → nonparametric tests → legacy dialogs → one sample KS
OUTPUT:
H0: Normaal verdeeld
HA: niet normaal verdeeld
→ indien p < .05 H0 verwerpen, dus niet normaal verdeeld
• grafisch nagaan via P-P en Q-Q plots (of eventueel histogram):
• analyze → descriptive statistics → Q-Q en/of P-P plots (of met explore: dan
krijg je ze beiden)
9
, normal Q-Q plot = normaal-kwantiel diagrammen (meetwaarden standaardiseren) → waarnemingen
rond de diagonaal wijst op normaliteit. Daaronder staat in SPSS de detrended normal Q-Q plot, waar
je kan zien of de waarneming boven of onder de normaalverdeling liggen
Normal probability plot = P-P plot → werkt met cumulatieve frequenties. Opnieuw moeten de
waarnemingen rond de diagonaal liggen voor normaliteit, met daaronder een grafiek die aangeeft of
de waarnemingen boven of onder normaalverdeling liggen (zelfde principe als Q-Q plot, maar dan met
cumulatieve waarden)
• Homoscedasticiteit: gelijke spreiding → zijn de varianties in de vergeleken populaties
ongeveer gelijk? Nagegaan via Levene’s test for equality of variances (deze krijg je in spss
altijd).
H0: variantie1 = variantie 2
Ha: variantie 1 ≠ variantie2
p < alpha (.05) → H0 verwerpen: geen homoscedasticiteit (= heteroscedasticiteit)
Ook hier: nadeel = kleine steekproeven vaak normaal en grote steekproeven niet vaak
normaal → kijken naar grafieken:
• Boxplot: kijken naar interkwartielafstand en (in mindere mate) variatiebreedte
10
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller monasamenvattingen. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.48. You're not tied to anything after your purchase.