4.4C Applied
Multivariate Data
Analyses
SAMENVATTING H2, H5, ARTIKEL SIMMONS (2011), H7, H8,
H10, H11, H12, H13, H14 EN H15 UIT HET BOEK VAN A. FIELD
(4TH EDITION)
-
MASTER PEDAGOGISCHE WETENSCHAPPEN – ORTHOPEDAGOGIEK |
ERASMUS UNIVERSITEIT ROTTERDAM
,Inhoudsopgave
H2 Everything you never wanted to know about statistics
H5 The beast of bias
Artikel Simmons, Nelson, & Simmonsohn (2011)*
H7 Correlation
H8 Regression
H10 Moderation, mediation and more regression
H11 Comparing several means: ANOVA (GLM 1)
H12 Analysis of covariance, ANCOVA (GLM 2)
H13 Factorial ANOVA (GLM 3)
H14 Repeated-measures designs (GLM 4)
H15 Mixed design ANOVA (GLM 5)
1
,Hoofdstuk 2: Everything you never wanted to know about
statistics
2.1. What will this chapter tell me?
Dit hoofdstuk gaat over de fit van modellen. Modellen met een goede fit zijn in staat om een
aan de hand van de observeerde data een accurate reflectie te geven van de waarde in de
populatie, welke belangrijk is om vast te stellen of een bepaalde theorie klopt.
2.2. Building statistical models
Onderzoekers willen een fenomeen onderzoeken wat in de échte wereld bestaat. Er wordt
data verzameld om een hypothese te toetsen. Hierbij hoort dat er een statistisch model
gemaakt worden. De bedoeling hiervan is dat dit model het beste bij de beschikbare data
past, het beste de beschikbare data weergeeft. Dit wordt ook wel de ‘fit’ van het model
genoemd. Aan de hand van dit model worden voorspellingen gedaan over de echte wereld.
Om een goede voorspelling voor de echte wereld te kunnen maken, moet het model dus
representatief zijn.
Figuur 2.2. Fitting models to real-world data
2.3. Populations and samples
De interesse ligt dus bij het vinden van resultaten die toepasbaar zijn op een bepaalde
populatie. Je kunt het begrip populatie heel breed zien (als alle mensen), maar het kan ook
meer specifiek gezien worden (alle roodharigen). Onderzoekers willen de populatie graag zo
breed mogelijk zien, zodat er over zoveel mogelijk subgroepen een voorspelling gedaan kan
worden. Omdat het niet mogelijk is om bij alle leden van een populatie informatie te
verzamelen, probeert men data te verzamelen van een kleinere subset van de populatie
(ook wel een sample/steekproef) genoemd. Hierbij geldt in het algemeen; hoe groter de
sample, hoe meer kans dat deze sample representatief is voor de gehele populatie.
2
, 2.4. Statistical models
Alles in dit boek (en van statistiek in het algemeen) zou samengevat kunnen worden met de
volgende formule:
Dit komt er op neer dat de geobserveerde data (outcome) voorspeld kan worden vanuit het
statistische model (model) dat we hebben gekozen als beste ‘fit’ voor de data + een
bepaalde hoeveelheid ruis/error (error). Het model voorspelt namelijk niet perfect,
waardoor er nog wat error overblijft.
Statistische modellen bestaan uit variabelen en parameters.
Variabelen = zijn gemeten constructen die verschillen over de participanten in de sample.
We willen vaak een voorspelling maken van de uitkomst van een variabele. Omdat het
gebruikelijk is om een voorspellende variabele te noteren met de letter X, wordt het model:
Parameters = worden niet gemeten maar geschat via de data. Het zijn constanten die dienen
als representatie van de relatie tussen variabelen in het model. Voorbeelden van parameters
zijn: het gemiddelde, de mediaan, de correlatiecoëfficiënt en de regressiecoëfficiënt. Als je
aan de hand van parameters voorspellingen wil doen, wordt het model:
(waarbij X de voorspellende variabele is en b de
parameter). De parameters vormen een schatting van de populatie (parameter estimates).
2.4.1. The mean as a statistical model
Het gemiddelde is een hypothetische waarde, omdat het een waarde is die niet noodzakelijk
ook daadwerkelijk geobserveerd is in de data. Het gemiddelde is een statistisch model voor
het samenvatten van de uitkomstvariabele. Het gemiddelde is de waarde met de minste
error. Het model is:
(waarbij de parameter, b, het gemiddelde is).
2.4.2. Assessing the fit of a model: sums of squares and variance revisited
Om na te gaan of het model een goede fit heft, kijkt men naar de mate waarop het model
verschilt van de daadwerkelijke data. De error wordt ook wel de deviantie of afwijking
genoemd. Het model maakt dus voorspellingen voor de populatie, maar kan dit
onderschatten of overschatten. Om de fit van het gehele model te beoordelen, kijkt men
naar alle errors bij elkaar, ook wel de sum of errors genoemd. Echter kunnen we
errors/afwijkingen/devianties niet simpelweg bij elkaar optellen, omdat positieve en
negatieve afwijkingen samen uitkomen op 0. Om dit op te lossen, kwadrateren we de errors
→ sum of squared errors (SS).
3