Advanced Research Methods and Statistics for psychology
Institution
Universiteit Utrecht (UU)
Book
Discovering Statistics Using IBM SPSS
dit is een samenvatting van een statistiek vak genaamd Advanced Research Methods and Statistics for psychology ARMS. dit vak wordt gegeven aan de universiteit utrecht in het tweede jaar van de bachelor psychologie. dit is het algemene deel (eerste 5 weken). het studiepad specifieke deel KP staat oo...
advanced research methods and statistics for psychology
Connected book
Book Title:
Author(s):
Edition:
ISBN:
Edition:
More summaries for
Exam Guide for Applied Multivariate Data Analysis – Get yourself a Wonderful Grade!
Summary of Statistics (IBC), Radboud University
Answers assignment 3 business research methods
All for this textbook (117)
Written for
Universiteit Utrecht (UU)
Psychologie
Advanced Research Methods and Statistics for psychology
All documents for this subject (9)
2
reviews
By: floorvmunster • 2 year ago
Translated by Google
A lot of reference to the book, little unstructured
By: wbabtist • 3 year ago
Seller
Follow
HannekeB4
Reviews received
Content preview
Advanced Research Methods and Statistics for psychology; KP UU jaar 2
Week 1. Multiple Lineair Regression.
H9.
Om te kijken naar de relatie tussen 2 variabelen kan je gebruik maken van ; outcome i = (b1Xi) + errori
Wanneer je ruwe data gebruikt wordt het : outcome i = (b0 + b1Xi) + errori
outcomei = uitkomst variabele
b0 = parameter (wanneer de predictor 0 is)
b1 = parameter
Xi = predictor variabele
errori = fouten in de meting.
Lineaire model betekent rechte lijn. De formule hierboven is dus voor een rechte lijn. Elke rechte lijn kan worden gedefinieerd door 2
dingen: de slope (richting) b1 en het intercept (waar de lijn de verticale lijn van de graph kruist) b0. Gradiënt b1 verteld hoe de vorm
van het model eruitziet en gradiënt b0 lokaliseert het model in de geometrische ruimte. De outcome i = (antwoord) + errori heet de
predicted value.
Echter zijn er vaak meerdere variabelen; ( γ )outcomei = (b0 + b1X1i + b2X2i) +( ε) errori
Dus: regressie analyse is een term om een lineaire model passend te maken bij data om het te gebruiken voor het voorspellen van een
outcome variabele van een of meerdere predictor variabelen.
- simple regression 1 outcome varibele en 1 predictor variabele. outcome i = (b0 + b1Xi) + errori
- multiple regression 1 outcome variabele en meerdere predictor variabelen.( γ )outcomei = (b0 + b1X1i + b2X2i) +( ε) errori
multiple lineair regression MLR ; outcome variabele is continuous (interval+ratio) en predictor variabelen zijn continuous, kan
categorisch zijn als dummy variabelen.
In een model heb je parameters welke worden geschat door te kijken naar de deviaties, de verticale afstanden tussen wat het model voorspelt
en wat de observeerbare data punten zijn. echter is een model nooit perfect. Het verschil tussen wat het model voorspelt en de
geobserveerde data heet ; residuals (error).
Total error =
de y met dakje is observed en de Y met streep is model.
Wanneer je de waarden van b hebt gevonden ga je kijken hoe goed het model past bij de data goodness of fit. Dit doen we omdat de SSE
de fouten in de voorspellingen geeft maar zegt niet of het model gebruiken beter dan niks is. Je vergelijkt het model met een baseline en kijkt
of je de voorspelling kan verbeteren. Een goede baseline is het gemiddelde van de uitkomst. R2 representeert de hoeveelheid variantie in de
uitkomst verklaard door het model (SSM ) relatief tot hoeveel variantie er was in de eerste plaats (SS T ) .
SS m
R2 =
SS t
Dus wanneer SSM groot is, voorspelt het model een goede verbetering heeft gegeven in de voorspelling en wanneer SS T klein is dan is het
model maar ietsje beter dan het gemiddelde.
Een tweede gebruik van de sum of squares voor het onderzoeken van het model is de F-test. Voor het berekenen van F wordt gebruik gemaakt
van mean squares MS.
MSm
F= het meet hoeveel het model is verbetert in de voorspelling in vergelijking met de inaccuraatheid van het model. Hiervoor
MSr
moet MSM groot zijn en MSR klein zijn.
Het onderzoeken van individuele predictoren: elke predictor in een lineair model heeft een coëfficiënt b. wanneer een predictor geen relatie
heeft met de uitkomst dan is er geen verandering. Dus wanneer een variabele een uitkomst voorspelt dan is de b-waarde anders dan 0.
b observed−b expected
t=
SEb
b expected is wanneer de null hypothese waar zou zijn en dat er dus geen relatie is, dan is de b-waarde 0.
De volgende vraag is of het model wordt beïnvloedt door kleine nummers en of het model kan generaliseren. Het model kan outliers niet goed
voorspellen. Je kijkt dan naar residuals die een grote waarde hebben, waarden die het model niet goed kan voorspellen. Wanneer het model
goed bij een sample data past, zijn de residuals lage waarden. Tot nu toe hebben we gekeken naar unstandardized residuals en hierdoor kun
je alleen outliers vinden door te kijken naar grote waarden. Echter kan je dit probleem verhelpen door te werken met standardized residuals
(geconverteerd naar Z-scores).p. 382.
Beïnvloedbare zaken:
Cook’s distance; is een meting van de gehele invloed van een zaak van een model waarbij waarden groter dan 1 een zorg kunnen zijn. de
leverage (hat values) meet de hoeveelheid invloed van de geobserveerde invloed van de outcome variabele over de voorspelde waarden. Het
gemiddelde leverage waarde is (K + 1)/ n.
Mahalanobis distances meten de afstand van zaken van het gemiddelde(n) van de predictor variabele(n). p. 383.
Om het model te kunnen generaliseren moet het voldoen aan een aantal voorwaarden.
- Additivity en linearity: de outcome variabele zou lineair gerelateerd zijn aan de predictoren .
- Independent errors; voor elke 2 observaties zijn de residual terms ongecorreleerd.
- Homoscedasticity: het residual op elk level van de predictor(en) heeft dezelfde variantie.
- Normally distributed errors.
- Predictoren zijn niet gerelateerd aan externe variabelen.
- Alle predictoren zijn kwantitatief of categoriaal (2 categorieën), en de outcome variabele is interval, continue en niet begrensd op
variantie.
- Geen perfecte multicollineairity: de predictor variabelen mogen niet te hoog correleren met elkaar.
- Non-zero variance: geen variantie van 0 in de predictoren.
, Cross-validation: je kijkt hoe goed je model de uitkomst kan voorspellen in een andere sample. Wanneer het model deze voorspelling niet
goed kan maken kan het dus ook niet worden gegeneraliseerd. Er zijn 2 methodes voor cross-validation:
1. Adjusted R2 : het verteld hoeveel variantie in de dependent variabele verantwoordelijk is van het model, verkregen uit de populatie
waaruit de sample is gehaald. Het is een indicatie voor het verlies van voorspellende power, shrinkage.
2. Data splitting: je split random samples en schat het model in beide helften, waarna je het vergelijkt.
Sample size: er zijn veel regels maar de meest voorkomende is 10 cases of data voor elke predictor in het model of 15 cases of data per
predictor. Des te groter de sample size, des te beter.
- Klein deel in het boek gaat over het interpreteren van de SPSS output met Beta en b parameters. Echter heb je dit al geleerd. P. 394-
396.
Lineair model met meerdere predictoren (multiple regression); hierbij is het belangrijk dat je de juiste variabelen kiest om in het model te
stoppen. Wanneer deze zijn gekozen is de volgorde van belang, omdat zij ook gecorreleerd zijn. gebruik een hierarchical regression; de
bekende predictoren eerst (bijv. van voorgaand onderzoek) en daarna de nieuwe erbij. Een andere methode is forced entry (confirmatory
MLR); hierbij gaan ze tegelijkertijd. Een laatste optie kan zijn de stepwise regression (exploratory MLR): het gebruikt mathematica om de
predictoren te kiezen. Bij de forward methode wordt eerst de constante toegevoegd en daarna de predictoren die het meest voorspellen. De
backward methode is het tegenovergestelde. De stepwise methode kan het beste worden vermeden, maar gebruik je het toch, kun je het
beste de backwards methode gebruiken om suppressor effects te minimaliseren.
Een laatste consideratie voor modellen met meerdere predictoren is multicollinearity; de predictoren zijn sterk aan elkaar gecorreleerd. Dit is
een probleem want:
- Wanneer collineariteit toeneemt, worden de standaard fouten groter van de b coëfficiënten.
- Het limiteert de grote van R.
- Het maakt het moeilijk te onderzoeken wat de individuele belangrijkheid is van een predictor.
In SPSS kun je kijken naar sterke correlaties door gebruik te maken van VIF (groter dan 10 of de tolerantie is kleiner dan 0.2 en het gemiddelde
is niet (veel) groter dan 1).
- Op p. 403-408 zie je hoe uitleg over de SPSS hiervan.
Interpretatie van de output: de R 2 geeft aan hoeveel variabiliteit komt door de predictoren. De adjusted R 2 geeft aan hoe goed het model kan
generaliseren en dit getal is ideaal wanneer het dicht bij de R 2 is. p. 410-411.
- P. 414- 416 gaat over de equation van de b parameters. Dependent variabele= b1 + error (het telt mee onder de 0.05)
De laatste stap is te kijken naar bewijs van bias. Je hebt een interval van 95% en een standardized residual valt tussen -2 en +2. Als meer dan
5% daarbuiten valt kan het zijn dat er een bias is. verder mag er niet meer dan 1% boven 2.5 zitten. Kijk voor de waarden van Cook’s distance,
mag niet boven 1. Voor de Mahalanobis kijk je naar waarden boven 25 bij een grote sample(500+) en bij een kleine sample (100) voor waarden
boven 15. Kijk voor DFBeta groter dan 1. Bereken de upper en lower limits van CVR.
- Andere assumpties zijn heretoscedasticity en non-linearity. Dit bekijk je door graphs, zoals een scatterplot. P.425.
Rapporteren van lineaire modellen: als minimum rapporteer je de betas met standaard errors en confidence intervals. Voor
gestandaardiseerde Betas, p-waarden en R2 zet je geen 0 voor de komma.
Output aflezen:
- R2 versus adjusted R2 (sample value versus estimated population value)
- R2 versus R2 -change (fit of model versus improvement of fit compared to previous model)
- Standardized coëfficiënten zijn handig voor vergelijking en unstandardized voor interpretatie.
H11.5
Categorische predictoren in regressies:
In een lineair model kunnen 2 categorieën worden toegevoegd als categorische predictor. Vaak heb je meerdere van deze voorspellers, maar
je mag dus maar 2 categorieën hebben. Je moet ze converteren en dit kan op meerdere manieren.
Dummy coding:
Dit is hoe het eerst is gecodeerd, echter mag je dus maar 2 categorieën hebben.
Religion Code Religion Christian Muslim Atheist
Christian 1 Christian 1 0 0
Muslim 2 Muslim 0 1 0
Atheist 3 Atheist 0 0 1
Dus….
The number of dummy-coded variables needed is one less than the number of categories. Het hangt er vanaf wat je wilt onderzoeken. je zou
het op de eerste manier kunnen doen of op de tweede manier:
Religion Christian Muslim Religiosity Code
Christian 1 0 Atheism 0
Muslim 0 1 Religious 1
Atheist 0 0
- Op p. 510-512 uitleg hoe te doen op SPSS. En op p. 514- 516 uitleg over de interpretatie.
Week 2. Mediation and moderation.
H11.
Moderation (interaction effect): een statistisch model met een gecombineerd effect van 2 of meer predictor variabelen. Bijv. een voorspeller
voor agressief gedrag in jeugdigen is CU traits, videogames. Dus videogames agressie.
Moderator: een variabele die effect heeft op de relatie tussen die 2. Bijv. CU traits. Je kan dit categoriseren; tussen het wel hebben van deze
traits en niet hebben van deze traits. Dus dat betekent dat er een negatieve relatie is tussen videogames en agressie voor mensen zonder deze
CU traits, maar positief voor mensen met die CU traits. P. 485. De functie van de relatie tussen videogames en agressie verandert door de
moderator CU traits.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller HannekeB4. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.88. You're not tied to anything after your purchase.