Uitwerkingen van SPSS sessie 1/4. Daarnaast bevat de samenvatting nog een korte conclusie met de belangrijkste spss stappen. Ik heb voor dit tentamen een 9.5 gehaald.
1. Bivariate relaties & eenvoudige regressie
1A. Open het gegevensbestand 'skinfold.sav'. Maak een scatterplot van de dikte van de huidplooi
(SKIN) (x-as) en lichaamsmassa (DEN) (y-as).
Graphs > Legacy Dialogs > Scatterplot > Simple scatter > X-as: SKIN, Y-as: DEN > ok.
Voor regressielijn door plot heen: Dubbelklik op output > Add fit line at total > ok.
1B. Beschrijf de relatie tussen huidplooi en lichaamsmassa:
- Lineair of niet-lineair? Lineair (geen gekke vormen)
- Zwak of sterk? Sterk (punten liggen dicht op de lijn)
- Positief of negatief? Negatief (lijn loopt naar beneden)
1C. Voer een regressieanalyse uit om de lichaamsmassa (DEN) uit de huidplooi (LSKIN) te
voorspellen. Wat is de regressievergelijking? Wat is de waarde van R2 en wat betekent dit?
Analyse > Regression > Lineair > dependent: DEN, independent: LSKIN > ok.
Regressievergelijking:
R2 = .72, dus 72% van de variantie in lichaamsmassa wordt verklaard door de dikte van de huidplooi.
Dit wijst op een sterke relatie.
> Vuistregels voor het interpreteren van het r-effect:
- r = .10 (klein effect → r2 = .01)
- r = .30 (gemiddeld effect → r2 = .09)
- r = .50 (groot effect → r2 = .25)
1D. Formuleer de hypothesen betreffende de regressiecoëfficiënt
- H0 : β1 = 0
- Ha : β1 ≠ 0
Hypotheses verwijzen altijd naar de populatie, vandaar dat we gebruik maken van de Griekse cijfers
die horen bij de populatie. Als we verwijzen naar een steekproef, gebruiken we de b-value.
1E. Wat is je conclusie met betrekking tot deze hypothesen?
,De regressiecoëfficiënt van LSKIN is significant (t (90) = -15.23, p <.01). Uit de b-waarde van LSKIN
kunnen we afleiden dat een toename van de dikte van de huidplooi gepaard gaat met een afname
van de lichaamsmassa (b = −.06).
1F. Voer de analyse opnieuw uit en sla (gebruik de optie Opslaan) de voorspelde waarden voor
lichaamsgewicht op. Zoek de nieuwe variabele op in de dataeditor.
Analyze > Regression > Linear > dependent: DEN, independent: LSKIN > save > predicted values;
unstandardized > ok.
1G. Maak een scatterplot van huidplooidikte (LSKIN) (x-as) en de voorspelde waarden voor
lichaamsmassa (y-as). Vergelijk deze scatterplot met die gemaakt in a. Leg het verschil tussen de
twee plotten uit en neem de term "rest" op in deze uitleg.
Graphs > Legacy dialogs > Scatterplot > Simple scatter > x-as: LSKIN, y-as: Predicted DEN > ok.
De voorspelde waarden zijn perfect gecorreleerd met de onafhankelijke variabele. De voorspelde
waarden liggen op een rechte lijn (de regressielijn). De geobserveerde (lichaamsgewicht) waarden
staan verspreid over deze lijn. Hoe dichter de geobserveerde waarden bij de lijn liggen, hoe beter de
voorspelling.
2 Regressieanalyse: lineariteit-assumptie controleren
Open het databestand ‘MM02_060.SAV’, een fictieve dataset met vier verschillende afhankelijke
variabelen Y1 tot Y4 en vier voorspellende variabelen X1 tot X4. Het doel is om Y1 te voorspellen
uit X1, Y2 uit X2, enzovoort.
2A. Bereken de correlaties en regressiecoëfficiënten voor de 4 variabele paren X1 - Y1 tot en met
X4 - Y4. Wat valt je op aan deze resultaten?
Analyse > Correlate > Bivariate > alle variabelen toevoegen > OK.
,De correlatie voor alle paren X-Y variabelen: X1−Y1, X2−Y2, X3−Y3, X4−Y4 is gelijk aan 82.
Wanneer we een regressieanalyse uitvoeren voor de verschillende paren, blijkt dat de b-waarde voor
elk paar gelijk is: b = .50.
2B. Maak scatterplots (inclusief regressielijnen) voor elk van de vier X-Y variabele paren.
Graphs > Legacy dialogs > Scatterplot > Simple scatter > x-as: X1, y-as: Y1 > ok.
Voor regressielijn door plot heen: Dubbelklik op output > Add fit line at total > ok.
2C. Welke van deze regressielijnen geeft een goede beschrijving van de gegevens?
Alleen voor de relatie tussen y1 en x1 is de (lineaire) regressievergelijking een goed en representatief
model. Voor de relatie tussen x2 en y2 zou een kwadratische functie representatiever zijn; de relatie
tussen x3 en y3, en ook x4 en y4 moet worden berekend na het verwijderen van de outlier .
2D. Bereken het gemiddelde en de standaarddeviatie voor alle acht variabelen (X1-X4 en Y1 - Y4).
Noteer deze waarden. Wat valt je op? Had je dit op basis van eerdere bevindingen kunnen
verwachten?
Analyze > Descriptive statistics > Descriptives > alle variabelen > ok.
, De gemiddelden en standaarddeviaties van X1 tot en met X4 en Y1 tot en met Y4 zijn ook gelijk. >
Deze metingen alleen vertellen je niks over de aanwezigheid van outliers en andere schendingen van
assumpties van regressieanalyse.
2E. Welke eerste stap voor alle soorten data-analyse wordt door deze oefening geïllustreerd?
Onderzoek grafisch de univariate (histogrammen) en bivariate (scatterplots) verdelingen van je
variabelen, voordat je een statistische analyse uitvoert. Op deze manier kom je erachter of het zin
heeft om jouw data te beschrijven aan de hand van een regressievergelijking (lineairiteit).
3 Regressieanalyse: assumpties met betrekking tot residuen controleren
Open het databestand ‘STUDENT.SAV’. We gaan nu proberen de variabele Gewicht te voorspellen
uit de variabele Hoogte.
3A. Voer een analyse uit in SPSS om Weight uit Height te voorspellen. Vraag een plot aan van de
gestandaardiseerde residuen (*ZRESID) versus de gestandaardiseerde voorspelde waarden van
Gewicht (*ZPRED).
Analyze > Regression > Lineair > dependent: weight, independent: height > plots > y-as: zresid, x-as:
zpred > standardized residual plots: histogram, normal probability plot > ok.
3B. Leg uit wat een residu is. Aan welke voorwaarden moeten de residuen in deze analyse
voldoen?
Een residu is de afwijking ten opzichte van het steekproefgemiddelde. De residuen moeten normaal
verdeeld zijn voordat je een regressie mag uitvoeren. Dat houdt grafisch in dat alle residuen zo goed
als op de rechte lijn liggen en dat alle punten in de scatterplot in een wolk bij elkaar liggen. In onze
dataset wordt aan alles voldaan.
3C. Zoek in de output de informatie die je nodig hebt om de regressievergelijking te definiëren.
Schrijf je bevindingen op.
De formule voor een regressie vergelijking is: b0 + b1X1.
In dit geval is dat: -51.33 + 66.63x (x staat hier voor iemands lengte)
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper shannonspork. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,39. Je zit daarna nergens aan vast.