Lectures Advanced Research Methods and Statistics
Nominaal (geslacht, bloedgroep) + ordinaal (soort onderwijs, inkomen) = categorisch / kwalitatief
Interval (IQ, temperatuur) + ratio (gewicht, leeftijd) = continu / kwantitatief / numeriek
1
,Constructvaliditeit: zijn alle aspecten van het beoogde begrip gemeten? Sociale wenselijkheid?
Validiteit van de meetinstrumenten bijv. Cronbach’s Alpha? Bijv. niet alleen sociale eenzaamheid,
maar ook emotionele eenzaamheid meten
Interne validiteit: klopt de veronderstelde relatie? Zijn er alternatieve verklaringen (methodological
confounds)? Bijv. bij causaal verband: is X echt de oorzaak van Y? uitsluiten van derde variabele
(bijv. tijd, placebo, sociale wenselijkheid). Is er gecontroleerd voor bepaalde variabelen? Juiste
meetinstrument, onderzoeksdesign? Experimenteel design / randomisatie is goed voor de interne
validiteit.
Statistische validiteit: grootte van de effect size, alpha is het verband niet toevallig gevonden, is de
goede analyse uitgevoerd, is voldaan aan de assumpties (lineaire relatie, uitsluiten van derde variabele,
eerst X dan Y, uitschieters uitgesloten, normaal verdeeld, dichotome variabelen). Kans op Type 1 fout.
Veel transparantie worden de assumpties/analyses genoemd?
Externe validiteit: is de hele doelpopulatie gerepresenteerd? Attritie, steekproefwijze (selectie),
locatie/natuurlijke situatie (is bijv. het lab te generaliseren naar een normale situatie) representeren
naar andere populaties, settings en tijden.
Lecture 1: Multiple Lineair Regression
Correlatie: lineaire relatie tussen X en Y beide continue variabelen. Altijd tussen -1 en 1. Een lage
correlatie betekent niet per se dat er geen relatie is tussen de variabelen de relatie kan ook niet-lineair
zijn.
- Hoge positieve correlatie: als X toeneemt, neemt Y ook toe
- Hoge negatieve correlatie: als X toeneemt, daalt Y
Lineaire regressie: Pearson correlatiecoëfficiënt (R) geeft de sterkte van de lineaire relatie weer kun
je met andere R’s vergelijken. Formule: y = b0 + b1x + e. B0 = intercept punt waar de lijn de Y-as
snijdt. B1 = hellingsgetal. E = Residu: verschil tussen voorspelde Y^ en geobserveerde Y afstand van
puntje tot residulijn. Assumpties:
- Y is continu, X kan continu of categorisch zijn
- Lineaire relatie tussen X en Y scatter plot: puntjes moeten niet ovaal zijn
- Residuen zijn normaal verdeeld
- Residuen zijn evenredig verspreid homoscedasticiteit
- Geen uitschieters
Totale variantie = verklaarde variantie (R2) + onverklaarde variantie (andere factoren). Hoe groter R2,
hoe dichter de puntjes bij de regressielijn.
Multipele lineaire regressie (MLR): meerdere onafhankelijke variabelen (bijv. ook leeftijd, geslacht)
worden geschat y = b0 + b1x + b2x + b3x + e lineair additive effect. De meerdere voorspellers
in het model kunnen verschillende relaties hebben met de uitkomst Y. Hoogste standardized bèta =
beste voorspeller. Hoe groter B1, hoe steiler de regressielijn. MLR vereist continue variabelen, maar
categorische voorspellers kunnen ook worden ingezet als dummy variabelen alleen waarden van 0 en
2
, 1 (bijv. vrouw = 0, man = 1), B1 geeft in deze het verschil tussen mannen en vrouwen weer.
Assumpties:
- Y is continu, X is continu of dichotoom (nominaal met 2 categorieën geslacht omzetten
naar dummy variabele)
- Lineariteit: lineaire relatie tussen Y en alle X’en scatter plot: niet ovaal
- Geen uitschieters scatter plot / Residuals Statistics tabel:
o Uitschieters y-as: Standardized Residuals moeten +/- tussen de -3.3 en 3.3 zijn
o Uitschieters x-as: Mahalanobis distance moet lager zijn dan 10 + 2(aantal
onafhankelijke variabelen)
o Uitschieters in zowel X als Y: Cook’s distance moet lager dan 1 zijn. Hogere waarden
impliceren invloedrijke respondenten (influential cases)
- Homoscedasticiteit (residuen zijn evenredig verspreid) scatter plot: moeten niet in een
driehoek, maar in een rechthoek passen the variance in the dependent variable should be
the same for all values of the independent variable
- Residuen zijn normaal verdeeld histogram
- Geen perfecte multicollineariteit (geen twee of meer verklarende variabelen die heel sterk
gecorreleerd zijn / the relationship between the predictors should not be too strong)
anders worden B en R minder betrouwbaar het belang van individuele voorspellers wordt
moeilijk te bepalen. Checken met VIF Tolerance moet groter dan 0.2 zijn.
SPSS: output interpreteren
- P-values are influenced by sample size and should never be used to evaluate the
importance/relevance of an effect
- R = multipele correlatiecoëfficiënt correlatie tussen de voorspelde Y^ en de geobserveerde
Y zegt iets over hoe goed het model kan voorspellen
- R Squared = proportie variantie van Y (spreiding van de waarden) wordt in de steekproef
door de voorspellers verklaard. Waarde tussen 0 en 1. Laat zien of het een goed model is. Als
R2 heel klein is, betekent dit niet per se dat er geen betekenisvolle relatie tussen de variabelen is.
Als R2 heel hoog is, betekent dit ook niet per se dat het model ook een goede voorspeller is voor
nieuwe observaties. Maar: de waarde is bij MLR altijd een beetje te hoog meer
verklarende variabelen kunnen altijd meer van de variantie verklaren.
- Adjusted R Squared = gecorrigeerd voor deze bias aangepast a.d.h.v. de steekproefgrootte
(n) en het aantal voorspellers (k). Gebruiken als je iets wil zeggen over de gok van de
verklaarde variantie in de populatie
- R square change = verbetering van de verklaarde variantie i.v.t. het vorige model
checken of het significant is
- B (unstandardized regression coefficient): absolute waarde hoeveel waarden Y verandert
als X met 1 eenheid toeneemt. Gebruiken als je hetzelfde construct meet, om de score van Y te
voorspellen. B-values are influenced by the scale on which the variable is measured so should
not be used to evaluate the importance/relevance of an effect.
o Constant = B0 startgetal
o X1 (bijv. leeftijd) = hellingsgetal (bijv. -1.727) als jaren onderwijs vaststaat persoon
A die 1 jaar ouders is dan persoon B heeft 1.727 minder levenstevredenheid, terwijl het
aantal jaren onderwijs bij hen hetzelfde is. Negeert dus de andere variabele.
3