Dit is een samenvatting van alle informatie en opdrachten in de grasple omgeving van VOS (kwantitatieve deel), zowel uitleg als voorbeeldopdrachten en antwoorden.
Grasple 1A: Enkelvoudige lineaire regressieanalyse
Graph > chart builder > scatter/dot > select graph > insert variables > done
Als je een lijn toe wilt voegen, druk je dubbel op de grafiek en bij ‘elements’ druk je dan op ‘fit
line at total’
R2 is de proportie verklaarde variantie van 1 variabele door de lineaire relatie met de andere
variabele.
Regressieanalyse uitvoeren in spss:
Analyze > regression > linear
Controleer de assumptie van homoscedasticiteit, de assumptie van lineariteit en de
afwezigheid van uitschieters:
- Klik op plots
- Plaats *ZPRED (gestandaardiseerde voorspelde waarde) op de x-as
- Plaats *ZRESID (gestandaardiseerde residuen) op de y-as
- Klik op continue/ok
In de bovenste tabel staat info over variabelen. In de 2 e tabel (model summaries) vind
je:
1. Waarde van R > absolute waarde correlatie tussen twee variabelen
2. R2 > proportie verklaarde variantie
3. R2adj > aangepaste waarde R2
4. Std. Er. Est. > standaardschattingsfout, gemiddelde grootte van de fout die je
maakt wanneer je lineaire regressiemodel gebruikt voor het voorspellen van
de afhankelijke variabele. SE wordt gebruikt voor het opstellen van
betrouwbaarheidsinterval en voor toetsingsgrootheid t.
In de ANOVA tabel wordt getest of het model statistisch significant is, oftewel, wordt
een deel van de spreiding in de afhankelijke variabele verklaard door de lineaire relatie
met de onafhankelijke variabele?
Hiervoor wordt de F-waarde gebruikt
In kolom ‘sig.’ Staat de p-waarde die bij de F hoort
In de tabel coefficients wordt info gegeven over predictors:
- Richtingscoefficient b
- Standaardfout van b: SE (b)
- Gestandaardiseerde richtingscoefficient: beta
- Toestingsgrootheid t
- P-waarde
Stel de richtingscoëfficiënt is 0.347, dan geldt: voor elk punt dat x1 groter wordt, voorspellen
we een toename van 0.347 op y gebruik b van de variabele, niet constant.
De t-toets laat zien of de richtingscoëfficiënt significant van nul afwijkt.
Grasple 1B: Enkelvoudige lineaire regressieanalyse
Lineaireit: als de vorm van de puntenwolk niet duidelijk afwijkt van ovaal of rond.
Voor het berekenen van een y-score gebruik je ‘constant’ als b0 en de variabele als b1.
R square toont de verklaarde variantie; de
variabele met de grootste gestandaardiseerde
Beta coëfficiënt is de belangrijkste predictor.
Grasple MR1: Controle assumpties (initieel)
Voordat je een multipele regressieanalyse uit kan voeren, moet je eerst controleren of aan alle
voorwaarden is voldaan.
Om uitschieters te identificeren + verwijderen, ga je in spss naar analyze > descriptive
statistics > explore en dan bij statistical outliers aanvinken en een boxplot maken.
vervolgens kan je die data verwijderen uit de set
Uitschieters beoordelen:
Tabel residuals statistics, min./max. waardes van stand. Res. Mahalanobis., cook’s distance
kijken of er uitschieters in x, y of xy zijn
Standardized residuals kijken of er uitschieters van Y zijn
o Waardes moeten tussen -3,3 en +3,3 liggen
Mahalanobis distance uitschieters in x op een predictor/combinatie van predictoren
o Waardes moeten lager zijn dan 10+2 (#onafhankelijke variabelen)
Dus als er 2 onafhankelijke variabelen zijn dan moet het lager zijn dan
10+2x2=14.
Dit noemen we de kritieke waarde
Cook’s distance uitschieters in xy-ruimte; een extreme combinatie van x(-en) en y-
scores.
o Cook’s distance geeft aan wat de overall invloed is van een respondent op het
model
Waardes moeten lager dan 1 zijn, hoger dan 1 duiden op influential cases
Voor het verwijderen van een uitschieter nagaan:
Hoort deze participant bij de groep waarover je uitspraken wil doen? Zo nee, neem de
participant dan niet mee in de analyses
Is de extreme waarde theoretisch mogelijk? Zo nee, neem de participant dan niet mee
in analyses. Zo ja, draai analyse met en zonder participant, rapporteer beide resultaten
en vergelijk.
Afwezigheid multicollineariteit
Tabel ‘coëfficiënts’ laatste twee kolommen
Multicollineariteit houdt in of de relatie tussen 2 of meer onafhankelijke variabelen te sterk is
(r > .80).
Als je sterk gerelateerde variabelen meeneemt in je model dan heeft dat 3 gevolgen:
1. De richtingscoëfficiënt (B) zijn onbetrouwbaar
2. Beperkt grootte van R (correlatie tussen Y en Y^)
3. Belang individuele onafhankelijke variabele is niet/moeilijk vast te stellen
Je wilt dus geen multicollineariteit want dan zou je twee dezelfde variabelen meenemen in je
analyse.
Vuistregels statistieken:
tolerance <.2 = mogelijk probleem
tolerance <.1 = probleem
VIF is gelijk aan 1/tolerance, dus VIF > 10 = probleem
Homoscedasticiteit
= spreiding residuen per x-waarde moet ongeveer gelijk zijn
Dit kan je beoordelen door gestandaardiseerde residuen te plotten tegen de
gestandaardiseerde voorspelde waarden.
Als voor elke voorspelde waarde (x-as) ongeveer evenveel spreiding is op de y-as, dan is er
voldaan aan de voorwaarde homoscedasticiteit. Dit check je in de scatterplot.
Grasple MR3: Uitvoeren en interpreteren
R2 geeft verklaarde variantie aan in de steekproef. Adjusted R2 is de geschatte verklaarde
variantie in de populatie.
, R2 wordt hiervoor aangepast op basis van steekproefgrootte (n) en aantal predictoren in
model (k). Het is dus altijd iets lager dan R2.
Met de F-toets kijk je of de drie onafhankelijke variabelen samen een significant deel van de
spreiding in tevredenheid kunnen verklaren.
Hiërarchische regressieanalyse (om te kijken of andere factoren meer invloed hebben)
Analyze > regression > linear
Laat de onafhankelijke variabele van het oorspronkelijke model staan
Next (block 1 of 1) > extra variabelen hierin selecteren
Statistics > R squared change
OK
De tabellen maken nu onderscheid tussen model 1 en model 2.
Grasple MR4: Multipele regressie met dummy’s
Voor het omzetten van een variabele naar een dummyvariabele neem je zeven stappen:
1. Tel het aantal groepen van de variabele en trek hier 1 vanaf
2. Creëer dat aantal nieuwe variabelen (dit zijn je dummy variabelen)
3. Kies je referentiegroep o.b.v. de vergelijkingen die het meest relevant en interessant
zijn om te maken (dus bijv. de groep zonder interventie)
4. Geef je referentiegroep waarde 0 bij alle dummy variabelen
5. Voor dummy 1 geef je waarde 1 aan de eerste groep die je wilt vergelijken, alle andere
groepen krijgen waarde 0
6. Voor dummy 2 doe je hetzelfde, herhaal dit totdat alle groepen zijn geweest
Daarna kan je de namen van de dummyvariabelen nog veranderen om het overzichtelijk te
houden.
Maak een codeerschema en gebruik die vervolgens om de dummy variabelen aan te maken in
spss:
Transform > recode into diff. Variables
Selecteer de variabele die je wilt omzetten en verplaats hem naar input variable > output
variable.
Dan verandert de naam in numeric var > output var
Geef de dummy variabele een naam en druk op change:
Geef onder old value de waarde en onder new value waarde 1 > add
Selecteer onder old value de optie system-or-user-missing, en geef onder new value
aan dat de nieuwe var. Missende waarde moet worden (system-missing) > add
Geef vervolgens onder old value aan dat je alle andere woorden (all other values) wilt
hercoderen en onder new value dat deze waarde 0 krijgen > add
Herhaal dit voor elke dummyvariabele.
De regressiecoëfficiënt vertelt hoeveel de afhankelijke variabele verandert bij toename van 1
punt. Die geeft dus aan wat het verschil is tussen de referentiegroep (met waarde 0) en de
dummygroep (waarde 1).
Extra informatie uit de oefentoets regressieanalyse en ANOVA:
Om de invloed van verschillende predictoren te vergelijken, kijk je naar de
gestandaardiseerde beta's, hoe groter de gestandaardiseerde beta hoe beter de voorspeller
(gegeven de overige voorspellers). Dus als we vragen naar de invloed van een predictor
gebruik je de gestandaardiseerde regressiecoëfficiënten.
Hoe groter de beta, hoe meer deze afwijkt van 0 en hoe waarschijnlijker dat je de
nulhypothese zal verwerpen en het resultaat als significant kan worden bestempeld.
Het heeft hier niet te maken met significantie! Als we willen weten of de invloed zoals in de
steekproef ook gegeneraliseerd kan worden naar de populatie dan kijk je naar de p-waarde en
toets je dus of de gevonden invloed significant is (vergelijk p met a).
Als we vragen of een (gestandaardiseerde) regressiecoëfficiënt significant is dan gebruik je de
overschrijdingskans p.
De ongestandaardiseerde regressiecoëfficiënten gebruik je niet om predictoren te gebruiken
maar (onder meer) om de regressievergelijking op te stellen. Als we vragen een
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper pien18. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €4,49. Je zit daarna nergens aan vast.