Dit is een samenvatting van alle werkcollege's voor het vak multivariate data-analyse, derde bachelor psychologie aan de VUB.
De samenvatting bevat alle oefeningen weergegeven door de output van SPSS.
Daarnaast bevat de samenvatting ook uitleg over hoe je aan de slag gaat met SPSS en hoe je zaken...
WPO I: verkennen van data.
Voor dit WPO wordt er gebruik gemaakt van de dataset stress.
informatie over dit werkoollege staat uitgesorreven in roofdstuk van de oursus met dezelfde
dataset.
. Een kijk op variabelen.
Allereerst is het belangrijk om de data zelf te bekijken.
Je krijgt een overzicht van alle variabelen in variable view in SPSS.
In de Dataset van stress zie je dat je verschillende item variabelen hebt gaande van 116 tot en met
137. Dit zijn items uit een vragenlijst over stress gescoord op een 7-puntenschaal.
Onder deze variabelen vind je ook algemene variabelen terug zoals geslacht, leefijd etc.
als je vanboven op de knop variables drukt, krijg je ook een overzicht van alle variabelen
(tabel met drie kleurtjes in balk waar de printknop staat)
Om een snel overzicht te krijgen op de variabelen gebruiken we ‘Descriptives’.
hier kunnen we een aantal statsteken van de verschillende variabelen opvragen.
Via optons kan je nog bijkomende statsteken opvragen zoals z-waarden.
Na het uitvoeren krijg je het aantal geldige waarnemingen, het minimum en maximum, het
gemiddelde, de standaardafwijking, scheefeid en gepiektheid.
Minimum en Maximum in output.
Via descriptves kan je nagaan wat de minimum en maximum zijn, kan je zaken opzoeken die
verkeerd zijn.
Je weet dat de items verdeeld zijn op een zeven puntenschaal (ordinaal) gaande van 0 tot 6. Het
minimum moet dus bij deze items 0 zijn in de output en het maximum altjd 6.
Bij item 125 zie je dat met maximum 33 is dit is te groot, kan te wijten zijn aan een ingavefout.
Aangezien het maximum enkel 6 kan zijn.
Bij geslacht zie je een gemiddelde van 0.45, dat is de proporte van vrouwen.
45% van de steekproeven is vrouwen.
32% is gehuwd als je naar het gemiddelde kijkt.
Voor de rest zijn hier geen vreemde zaken te zien.
Een tweede manier om te kijken naar de inhoud van variabelen, dat meer statsteken geef en een
aantal grafeken is via explore
Bij de dependent list geef je de variabelen waarvan je een overzicht wil zien
Bij statistics kan je ook oltliers opvragen.
Explore heef veel output, hebben hier niet alles van nodig.
,In dit voorbeeld doen we dit voor de variabele bedranc (bedrijfsanncieniteit)
In de case processing slmmary krijgen we een samenvatng van het aantal cases. We zien dat er
196 cases worden opgenomen terwijl en er 3 missing values zijn, waardoor deze cases niet werden
opgenomen.
Hiernaast krijgen we ook een oltplt descriptives met beschrijvende statsteken van de variabele
bedranc.
Op het examen moet je de standaardfolt hiervan kunnen berekenen.
- dat is de standaardafwijking gedeeld door de vierkantswortel N
de output geef ook het betrolwbaarheidsinterval (95% confdence interval for mean)
5% trimmed mean,
- de vijf procent extreme waarden worden uit dataset verwijderd en het gemiddelde
wordt opnieuw berekend in de output tabel.
- Het verschil tussen gewoon gemiddelde en dit gemiddelde is niet groot. Dit betekend dat
er dus weinig extreme waarden zijn.
- Het gemiddelde is echter gevoelig voor outliers. Wanneer er veel outliers zijn zou er een
groter verschil zijn tussen het gewone gemiddelde en dit gemiddelde.
Geef ook de scheefheid weer en de klrtosis.
- De scheefeid is licht positef dus licht rechtsscheef.
- De kurtosis is negatef. -1.365 dus dit is platykurts.
Daarnaast geef de ouput van explore ook een tabel extreme values weer
Je ziet de hoogste outliers en de laagste met hun bijhorend case nummer
Daarnaast krijgen we ook een histogram.
Ziet ook dat het lichtjes rechtsscheef is.
Je kan ook kijken of dit normaal verdeeld is door te klikken op het histogram in de output, je
krijgt dan een nieuw werkblad dan klik je bij elements en kan je een curve toevoegen.
- De afwijkingen zijn te groot, dit zal niet normaal verdeeld zijn.
Krijgt ook een stam en leaf plot.
In de legende zien we dat de stam 10 is, zijn dus tentallen en elk blad is één case.
De onderste drie zijn dus 30. 36 jaar komt 1 keer voor 34 jaar komt twee keer voor. Etc.
Dan in de output krijgen we ook een boxplot.
Er zijn geen extreme waarden want geen bolletjes en sterretjes.
Zien het minimum en maximum (0 tot 36) ziet ook de drie kwartelen.
De lengte van de box de interkwartelafstand.
Ziet ook dat deze rechtscheef is. Box ligt meer vanonder.
,Er is ook een andere manier om een Box-Plot op te vragen. Dit doen we via graprs.
GRAPHS LEGACY DIALOGS BOXPLOT (simple -summaries of group oases)
In dit voorbeeld doen we dit voor het aantal gemiddelde uren dat men werkt per week (variable)
voor mannen en vrouwen (geslact op category axis)
zien dat het bij de mannen rechtsscheef is en bij vrouwen eerder linksscheef is.
Ziet ook de outliers aangeduid en extreme waarden.
2. De interne consistente van een vragenlijst
In de vragenlijst hebben we een aantal items deze zijn allemaal bevraagd op ordinale schaal.
Hier kunnen we enkel de mediaan voor berekenen.
Om hier wel een gemiddelde op te kunnen berekenen, gaan we een totale likertschaal berekenen.
Dit kunnen we door alle items op te tellen
Voordat we dit kunnen doen moeten we rekening rouden met een aantal voorwaarden.
1) We moeten kijken of alle items in eenzelfde richting gecodeerd staan.
- Vragenlijsten hebben soms vragen die negatef gesteld worden.
- Deze moeten we er uit halen en hercoderen.
2) Is of de interne consistentie van deze vragenlijst hoog genoeg is
- Doen we met met een chronbachs alpha.
Allereerst maken we de nielwe variabele score aan dit doen we door
TRANSFORM – COMPUTE
Target variable = score
SUM (item116 to item137) totaalscore te nemen van de item variabelen
Met deze variabele kunnen we dan nagaan of de items in éénzelfde richtng gecodeerd staan.
Om dit na te gaan, gaan we een correlate opvragen.
Hierbij is het belangrijk om enkel te leten op de tekens van de correlates.
Als dit positef is zijn de items in een jusite richtng gecodeerd, Als ze negatef zijn, staande items
omgekeerd gecodeerd je ziet dan dat het eerste item anders gecodeerd is.
Een correlate vraag je op door: ANALYZE CORRELATE BIVARIATE
In dit voorbeeld selecteren we alle items van de vragenlijst en drukken dan op paste om een SYNTAX
op te vragen. We passen de syntax dan aan om een correlate op te vragen tussen alle items en de
totale score.
CORRELATIONS item 6 TO item 37 WITH soore.
Je ziet dan alle correlates per item.
de items die negateve correlates hebben, moeten we hercoderen.
vb. bij item 120 moet worden gehercodeerd. Via transform recode into diferent variables. (zijn
er vier in totaal) dit voor ITEMS 116, 120, 134 en 137. Dan kan je opnieuw een correlate uitvoeren
met deze met score zie je dat het positef is.
, Een andere methode om de interne consistente gemakkelijk na te gaan is door het opvragen van de
Chronbachs Alpha.
ANALYZE SCALE RELIABILITY ANALYSIS.
Bij statstcs vinken we aan scale if item is deleted.
In de output zien we bij de cases dat men listwise gebruikt.
We hebben 182 cases en 17 eruit gelaten
De CB alpha is .785. is nipt.
Bij item total statistics kan je ook zien waar de inverse gecodeerde staan (de negateve
getallen).
In de laatste kolom zie je de chronbachs alpha als je dat item weg zou laten, om deze naar
boven te halen. Als je de eerste er uit haalt heb je een CB alpha van . 822.
Tot slot kunnen oorrelaties ook opvragen worden via een soaterplot, beter gezegd een matrix
wanneer er meerde variabelen tegelijkertjd worden opgevraagd.
GRAPHS LEGACY DIALOGS SCATTER (kan dan kiezen voor matrix)
3. Outliers
Om ontbrekende data, kunnen we vervangen door gelijkaardige cases, imputate, voorspellingen aan
de hand van regressie en de rest van de reeks opvullen door gemiddelden van de anderen.
Je kan de missing values nagaan via descriptves.
In dit voorbeeld gaan de de eerste 60 cases uitwissen bij het aantal uren. In dit voorbeeld gaan we
een gemiddelde berekenen op basis van de andere cases en deze vervolgens te imputeren.
TRANSFORM REPLACE MISSING VALUES.
Kiezen dan bij method: series mean.
Je krijgt dan automatsch een nieuwe variabele
dan kan je het gemiddelde daarvan opnieuw opvragen, je ziet dat het gemiddelde niet wordt
beïnvloed maat de standaardafwijking zal dalen.
4. Werkhypothesen
Om bepaalde analyses te mogen uitvoeren moet er worden voldaan aan één of meer
werkhypothesen. Deze drie worden hieronder besproken
) Lineariteit
- Pearson correlate gebruiken we om lineare afankelijkheid na te gaan.
- Dit kan ook grafsch worden nagegaan aan de hand van een scaterplot
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller laurenmulkers. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $8.68. You're not tied to anything after your purchase.