dit is een samenvatting van een statistiek vak genaamd Advanced Research Methods and Statistics for psychology ARMS. dit vak wordt gegeven aan de universiteit utrecht in het tweede jaar van de bachelor psychologie. dit is het algemene deel (eerste 5 weken). het studiepad specifieke deel KP staat oo...
Advanced Research Methods and Statistics for psychology; KP UU jaar 2
Week 1. Multiple Lineair Regression.
H9.
Om te kijken naar de relatie tussen 2 variabelen kan je gebruik maken van ; outcome i = (b1Xi) + errori
Wanneer je ruwe data gebruikt wordt het : outcome i = (b0 + b1Xi) + errori
outcomei = uitkomst variabele
b0 = parameter (wanneer de predictor 0 is)
b1 = parameter
Xi = predictor variabele
errori = fouten in de meting.
Lineaire model betekent rechte lijn. De formule hierboven is dus voor een rechte lijn. Elke rechte lijn kan worden gedefinieerd door 2
dingen: de slope (richting) b1 en het intercept (waar de lijn de verticale lijn van de graph kruist) b0. Gradiënt b1 verteld hoe de vorm
van het model eruitziet en gradiënt b0 lokaliseert het model in de geometrische ruimte. De outcome i = (antwoord) + errori heet de
predicted value.
Echter zijn er vaak meerdere variabelen; ( γ )outcomei = (b0 + b1X1i + b2X2i) +( ε) errori
Dus: regressie analyse is een term om een lineaire model passend te maken bij data om het te gebruiken voor het voorspellen van een
outcome variabele van een of meerdere predictor variabelen.
- simple regression 1 outcome varibele en 1 predictor variabele. outcome i = (b0 + b1Xi) + errori
- multiple regression 1 outcome variabele en meerdere predictor variabelen.( γ )outcomei = (b0 + b1X1i + b2X2i) +( ε) errori
multiple lineair regression MLR ; outcome variabele is continuous (interval+ratio) en predictor variabelen zijn continuous, kan
categorisch zijn als dummy variabelen.
In een model heb je parameters welke worden geschat door te kijken naar de deviaties, de verticale afstanden tussen wat het model voorspelt
en wat de observeerbare data punten zijn. echter is een model nooit perfect. Het verschil tussen wat het model voorspelt en de
geobserveerde data heet ; residuals (error).
Total error =
de y met dakje is observed en de Y met streep is model.
Wanneer je de waarden van b hebt gevonden ga je kijken hoe goed het model past bij de data goodness of fit. Dit doen we omdat de SSE
de fouten in de voorspellingen geeft maar zegt niet of het model gebruiken beter dan niks is. Je vergelijkt het model met een baseline en kijkt
of je de voorspelling kan verbeteren. Een goede baseline is het gemiddelde van de uitkomst. R2 representeert de hoeveelheid variantie in de
uitkomst verklaard door het model (SSM ) relatief tot hoeveel variantie er was in de eerste plaats (SS T ) .
SS m
R2 =
SS t
Dus wanneer SSM groot is, voorspelt het model een goede verbetering heeft gegeven in de voorspelling en wanneer SS T klein is dan is het
model maar ietsje beter dan het gemiddelde.
Een tweede gebruik van de sum of squares voor het onderzoeken van het model is de F-test. Voor het berekenen van F wordt gebruik gemaakt
van mean squares MS.
MSm
F= het meet hoeveel het model is verbetert in de voorspelling in vergelijking met de inaccuraatheid van het model. Hiervoor
MSr
moet MSM groot zijn en MSR klein zijn.
Het onderzoeken van individuele predictoren: elke predictor in een lineair model heeft een coëfficiënt b. wanneer een predictor geen relatie
heeft met de uitkomst dan is er geen verandering. Dus wanneer een variabele een uitkomst voorspelt dan is de b-waarde anders dan 0.
b observed−b expected
t=
SEb
b expected is wanneer de null hypothese waar zou zijn en dat er dus geen relatie is, dan is de b-waarde 0.
De volgende vraag is of het model wordt beïnvloedt door kleine nummers en of het model kan generaliseren. Het model kan outliers niet goed
voorspellen. Je kijkt dan naar residuals die een grote waarde hebben, waarden die het model niet goed kan voorspellen. Wanneer het model
goed bij een sample data past, zijn de residuals lage waarden. Tot nu toe hebben we gekeken naar unstandardized residuals en hierdoor kun
je alleen outliers vinden door te kijken naar grote waarden. Echter kan je dit probleem verhelpen door te werken met standardized residuals
(geconverteerd naar Z-scores).p. 382.
Beïnvloedbare zaken:
Cook’s distance; is een meting van de gehele invloed van een zaak van een model waarbij waarden groter dan 1 een zorg kunnen zijn. de
leverage (hat values) meet de hoeveelheid invloed van de geobserveerde invloed van de outcome variabele over de voorspelde waarden. Het
gemiddelde leverage waarde is (K + 1)/ n.
Mahalanobis distances meten de afstand van zaken van het gemiddelde(n) van de predictor variabele(n). p. 383.
Om het model te kunnen generaliseren moet het voldoen aan een aantal voorwaarden.
- Additivity en linearity: de outcome variabele zou lineair gerelateerd zijn aan de predictoren .
- Independent errors; voor elke 2 observaties zijn de residual terms ongecorreleerd.
- Homoscedasticity: het residual op elk level van de predictor(en) heeft dezelfde variantie.
- Normally distributed errors.
- Predictoren zijn niet gerelateerd aan externe variabelen.
- Alle predictoren zijn kwantitatief of categoriaal (2 categorieën), en de outcome variabele is interval, continue en niet begrensd op
variantie.
- Geen perfecte multicollineairity: de predictor variabelen mogen niet te hoog correleren met elkaar.
- Non-zero variance: geen variantie van 0 in de predictoren.
, Cross-validation: je kijkt hoe goed je model de uitkomst kan voorspellen in een andere sample. Wanneer het model deze voorspelling niet
goed kan maken kan het dus ook niet worden gegeneraliseerd. Er zijn 2 methodes voor cross-validation:
1. Adjusted R2 : het verteld hoeveel variantie in de dependent variabele verantwoordelijk is van het model, verkregen uit de populatie
waaruit de sample is gehaald. Het is een indicatie voor het verlies van voorspellende power, shrinkage.
2. Data splitting: je split random samples en schat het model in beide helften, waarna je het vergelijkt.
Sample size: er zijn veel regels maar de meest voorkomende is 10 cases of data voor elke predictor in het model of 15 cases of data per
predictor. Des te groter de sample size, des te beter.
- Klein deel in het boek gaat over het interpreteren van de SPSS output met Beta en b parameters. Echter heb je dit al geleerd. P. 394-
396.
Lineair model met meerdere predictoren (multiple regression); hierbij is het belangrijk dat je de juiste variabelen kiest om in het model te
stoppen. Wanneer deze zijn gekozen is de volgorde van belang, omdat zij ook gecorreleerd zijn. gebruik een hierarchical regression; de
bekende predictoren eerst (bijv. van voorgaand onderzoek) en daarna de nieuwe erbij. Een andere methode is forced entry (confirmatory
MLR); hierbij gaan ze tegelijkertijd. Een laatste optie kan zijn de stepwise regression (exploratory MLR): het gebruikt mathematica om de
predictoren te kiezen. Bij de forward methode wordt eerst de constante toegevoegd en daarna de predictoren die het meest voorspellen. De
backward methode is het tegenovergestelde. De stepwise methode kan het beste worden vermeden, maar gebruik je het toch, kun je het
beste de backwards methode gebruiken om suppressor effects te minimaliseren.
Een laatste consideratie voor modellen met meerdere predictoren is multicollinearity; de predictoren zijn sterk aan elkaar gecorreleerd. Dit is
een probleem want:
- Wanneer collineariteit toeneemt, worden de standaard fouten groter van de b coëfficiënten.
- Het limiteert de grote van R.
- Het maakt het moeilijk te onderzoeken wat de individuele belangrijkheid is van een predictor.
In SPSS kun je kijken naar sterke correlaties door gebruik te maken van VIF (groter dan 10 of de tolerantie is kleiner dan 0.2 en het gemiddelde
is niet (veel) groter dan 1).
- Op p. 403-408 zie je hoe uitleg over de SPSS hiervan.
Interpretatie van de output: de R 2 geeft aan hoeveel variabiliteit komt door de predictoren. De adjusted R 2 geeft aan hoe goed het model kan
generaliseren en dit getal is ideaal wanneer het dicht bij de R 2 is. p. 410-411.
- P. 414- 416 gaat over de equation van de b parameters. Dependent variabele= b1 + error (het telt mee onder de 0.05)
De laatste stap is te kijken naar bewijs van bias. Je hebt een interval van 95% en een standardized residual valt tussen -2 en +2. Als meer dan
5% daarbuiten valt kan het zijn dat er een bias is. verder mag er niet meer dan 1% boven 2.5 zitten. Kijk voor de waarden van Cook’s distance,
mag niet boven 1. Voor de Mahalanobis kijk je naar waarden boven 25 bij een grote sample(500+) en bij een kleine sample (100) voor waarden
boven 15. Kijk voor DFBeta groter dan 1. Bereken de upper en lower limits van CVR.
- Andere assumpties zijn heretoscedasticity en non-linearity. Dit bekijk je door graphs, zoals een scatterplot. P.425.
Rapporteren van lineaire modellen: als minimum rapporteer je de betas met standaard errors en confidence intervals. Voor
gestandaardiseerde Betas, p-waarden en R2 zet je geen 0 voor de komma.
Output aflezen:
- R2 versus adjusted R2 (sample value versus estimated population value)
- R2 versus R2 -change (fit of model versus improvement of fit compared to previous model)
- Standardized coëfficiënten zijn handig voor vergelijking en unstandardized voor interpretatie.
H11.5
Categorische predictoren in regressies:
In een lineair model kunnen 2 categorieën worden toegevoegd als categorische predictor. Vaak heb je meerdere van deze voorspellers, maar
je mag dus maar 2 categorieën hebben. Je moet ze converteren en dit kan op meerdere manieren.
Dummy coding:
Dit is hoe het eerst is gecodeerd, echter mag je dus maar 2 categorieën hebben.
Religion Code Religion Christian Muslim Atheist
Christian 1 Christian 1 0 0
Muslim 2 Muslim 0 1 0
Atheist 3 Atheist 0 0 1
Dus….
The number of dummy-coded variables needed is one less than the number of categories. Het hangt er vanaf wat je wilt onderzoeken. je zou
het op de eerste manier kunnen doen of op de tweede manier:
Religion Christian Muslim Religiosity Code
Christian 1 0 Atheism 0
Muslim 0 1 Religious 1
Atheist 0 0
- Op p. 510-512 uitleg hoe te doen op SPSS. En op p. 514- 516 uitleg over de interpretatie.
Week 2. Mediation and moderation.
H11.
Moderation (interaction effect): een statistisch model met een gecombineerd effect van 2 of meer predictor variabelen. Bijv. een voorspeller
voor agressief gedrag in jeugdigen is CU traits, videogames. Dus videogames agressie.
Moderator: een variabele die effect heeft op de relatie tussen die 2. Bijv. CU traits. Je kan dit categoriseren; tussen het wel hebben van deze
traits en niet hebben van deze traits. Dus dat betekent dat er een negatieve relatie is tussen videogames en agressie voor mensen zonder deze
CU traits, maar positief voor mensen met die CU traits. P. 485. De functie van de relatie tussen videogames en agressie verandert door de
moderator CU traits.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper HannekeB4. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,48. Je zit daarna nergens aan vast.