Hoofdstuk 2
Maken van statistische modellen
Onderzoekers maken (statistische) modellen van processen uit de ‘echte wereld’ om proberen te
voorspellen hoe deze processen werken onder bepaalde condities. Maar ze hebben geen toegang tot
de situatie in de echte wereld en kunnen daarom alleen dingen concluderen over psychologische,
maatschappelijke, biologische en economische processen gebaseerd op modellen die ze maken. Maar
men wilt dat dit model zo accuraat mogelijk is zodat men er zeker van is dat de voorspellingen die
gedaan worden over de echte wereld ook accuraat zijn→ het statistische model moet de
geobserveerde data (verzamelde data) zo goed mogelijk representeren. De mate waarin een
statistisch model de verzamelde data representeert wordt ook wel de fit van een model genoemd.
- Good fit: als een model de data heel goed representeert is het een good fit→ je
voorspellingen zullen accuraat zijn.
- Moderate fit→ er zijn bepaalde overeenkomsten met de werkelijkheid, maar ook belangrijke
verschillen→ voorspellen kunnen niet accuraat zijn, je kan een beetje vertrouwen hebben
maar niet volledig in de voorspellingen van zo’n model.
- Poor fit: dit model is totaal verschillend van de werkelijke situatie→ voorspellingen op basis
van dit model zijn waarschijnlijk compleet inaccuraat.
Populaties en samples
Als onderzoeker wil je resultaten vinden die toe te passen zijn op een hele populatie. Onderzoekers
hebben zelden toegang tot iedereen van de populatie. Daarom verzamelt men data van een kleine
subset van de populatie→ een steekproef (sample) en gebruikt data hiervan om dingen te
concluderen over de populatie als geheel. Hoe groter de sample, hoe eerder het de hele populatie
reflecteert.
Lineaire modellen: modellen gebaseerd op een rechte lijn.
Statistische modellen
Outcome= (model)+ error → de data die we observeren kan voorspeld worden door het model die
gekozen wordt om de data te fitten en een bepaalde hoeveelheid error. Het model varieert afhankelijk
van het design van je studie, het type data dat er is en wat men wilt bereiken met het model.
Statistische modellen bestaan uit variabelen en parameters. Variabelen zijn gemeten constructen die
verschillen over entiteiten in de steekproef. Parameters worden geschat van de data (en dus niet
gemeten) en zijn constanten die een fundamentele waarheid representeren over de relatie tussen
variabelen in een model. Voorbeelden van parameters zijn het gemiddelde, de mediaan, de correlatie
en regressie coëfficiënten. De letter b staat voor parameters. Wanneer je een uitkomst wilt
samenvatten, bijvoorbeeld bij het uitrekenen van een gemiddelde, zijn er geen variabelen in het
model, maar alleen een parameter. De vergelijking is dan:
Outcome= (b)+ error
Bij het voorspellen van een uitkomst van een variabele worden voorspeller variabelen aangegeven
met de letter X:
Uitkomst= (bX) + error
De waarde van de uitkomst voorspellen voor een bepaalde entiteit= i door de score op de voorspeller
variabele (X). De voorspeller variabele heeft een parameter (b) en deze vertelt ons iets over de relatie
tussen de voorspeller en de uitkomst. Als je een uitkomst wilt voorspellen van 2 voorspellers kan je
een andere voorspeller toevoegen aan het model.
1
,Wat in de haakjes staat in bovenstaande vergelijkingen is het model.
Het gemiddelde als statistisch model
Het gemiddelde is een hypothetische waarde en niet iets dat perse geobserveerd is in de data. Het is
een model die gemaakt is om de data samen te vatten. Het is een samenvatting van de
uitkomstvariabele. Het model is:
Uitkomst= (b)+error → hierbij is b het gemiddelde. Men neemt aan dat de waarde van het gemiddelde
in de steekproef hetzelfde is als de waarde in de populatie.
Beoordelen van de fit van een model: sums of squares en variantie
Om te kijken of een model fit, kun je kijken naar hoe verschillend de werkelijkheid is van de echte
wereld. Je kijkt dan naar het verschil tussen de geobserveerde data en het model dat je gefit hebt.
Deviantie/residual/deviatie zijn andere woorden voor error. Error is de voorspelde score door het
model voor iemand min de geobserveerde score voor die persoon. Een negatieve error geeft aan dat
het model iets overschat.
De fit van een model is ook wel de accuraatheid van een model.
De totale error is de som van errors
De som van gekwadrateerde errors (SS):
Om de gemiddelde error te berekenen, deel je de SS (totale error) door N. Om de gemiddelde error in
de populatie te berekenen, moet je de SS delen door de df. Dit is het aantal scores die gebruikt wordt
om het totaal te berekenen en waarbij gecontroleerd is voor het feit dat je schat van een populatie
waarde.
Degrees of freedom zijn het aantal observatie die vrij zijn om te variëren. Als de parameter constant is,
moet de df 1 minder zijn dan het aantal scores die gebruikt worden om de parameter te berekenen.
DUS: je kan de sum of squared error en de mean squared error gebruiken om de fit van een model te
beoordelen. Als het om het gemiddelde gaat, heeft de mean squared error een speciale naam→ de
variantie.
Standaard error
Sampling variatie: steekproeven variëren omdat ze verschillende leden van de populatie bevatten. Een
symmetrische verdeling is een sampling distributie. Dit is een frequentie verdeling van gemiddelde van
steekproeven (of andere parameters). Als je het gemiddelde neemt van alle steekproef gemiddelden,
krijg je de waarde van het populatie gemiddelde. De SD van steekproef gemiddelde zou ons vertellen
2
,hoe breed steekproef gemiddelden verspreid zijn over het populatie gemiddelde→ het vertelt ons of
de steekproefgemiddelden representatief zijn voor het populatie gemiddelde.
De SD van steekproefgemiddelden is ook wel bekend als de standaard error van het gemiddelde (SE)
of de standaard error. Een grote SE betekent dat er veel variabiliteit is tussen de gemiddelden van de
verschillende steekproeven en dus is de steekproef mogelijk niet representatief voor de populatie. Een
kleine SE betekent dat de meeste steekproefgemiddelden hetzelfde zijn als het populatie gemiddelde
en dat de sample een accurate reflectie is van de populatie.
Central limit theorem→ wanneer steekproeven groot zijn (groter dan 30), heeft de sampling verdeling
een normale verdeling met een gemiddelde die gelijk is aan het populatie gemiddelde en een SD van:
Als een sample kleiner is dan 30, is de verdeling niet normaal→ het heeft een andere vorm en wordt
de t-verdeling genoemd.
Betrouwbaarheidsintervallen
Een CI zijn grenzen waartussen de populatie valt. CI vertellen ons de waarschijnlijkheid dat ze een
echte (true) waarde bevatten van de parameter die men probeert te schatten. Er zijn grenzen zodat
van een bepaald percentage van steekproeven (bijv. 95%) de echte waarde van de populatie
parameter valt tussen deze grenzen.
Als CI overlappen, kan dat betekenen dat de gemiddelden uit dezelfde populatie komen.
NHST= nul hypothese significantie testen.
Fisher’s p-waarde→ 5%.
De hypothese of voorspelling van jouw theorie is vaak dat er een effect aanwezig is→ alternatieve
hypothese of H1. Dit wordt ook wel de experimentele hypothese genoemd. Er is ook een nul
hypothese H0. Deze is het tegenovergestelde van de alternatieve hypothese en zegt vaak dat er geen
effect is.
Directional hypothese→ effect zal plaatsvinden en het de richting van het effect wordt ook gegeven
(one-tailed).
Non-directional hypothese→ er zal een effect plaatsvinden, maar geen richting van het effect (two-
tailed).
NHST
- We nemen aan dat de nulhypothese waar is (geen effect)
- Je fit een statistisch model aan je data die de alternatieve hypothese representeert en kijkt
hoe goed het fit (in termen van de variantie die het verklaart)
- Om te bepalen hoe goed het model de data fit, berekenen we de kans (p-waarde) van het
krijgen van dat model als de nulhypothese waar is.
- Als die kans heel klein is (<.05) nemen we aan dat het model goed bij de data fit (het verklaart
veel variatie in scores) en nemen we aan dat de alternatieve hypothese waar is.
Je kan nooit compleet zeker zijn dat een van de hypothesen waar is→ je kunt alleen de kans
berekenen dat het model zou fitten als er geen effect zou zijn de populatie (nulhypothese waar).
3
, Wanneer deze kans vermindert, is er meer vertrouwen dat de alternatieve waar is en de nul verwezen
wordt.
Systematische variatie is variatie die verklaard kan worden door het model die we gefit hebben aan de
data.
Onsystematische variatie is variatie die niet verklaard kan worden door het model dat we gefit
hebben.
De makkelijkste manier om te kijken of het model de data fit is door het vergelijken van systematische
variatie met de onsystematische variatie. Je kijkt dan naar signal-to-noise ratio: je vergelijkt hoe het
model/de hypothese is tegenover hoe slecht het is (de error).
Hoe meer variantie een model kan verklaren vergeleken met de variantie die het niet kan verklaren,
hoe groter de test statistiek en hoe minder waarschijnlijk het per toeval plaatsvindt. Wanneer een test
statistiek groter wordt, wordt de kans dat het voorkomt kleiner.
Als het resultaat van een one tailed test in de tegenovergestelde richting is van wat je verwacht, kan
en moet je niet de nulhypothese verwerpen!!
Type I error: wanneer je gelooft dat echt een effect in de populatie is, wanneer deze er in
werkelijkheid niet is. De kans hierop is vaak 5% wanneer er geen effect is in de populatie→
significantieniveau.
Type II error: wanneer men gelooft dat er geen effect is in de populatie wanneer deze er in
werkelijkheid wel is. De maximaal acceptabele kans op een type II error is .2 (20%)→ dit is het β-level.
Familywise of experimentwise error rate. Bonferroni correctie.
Statistische power is de vaardigheid/mogelijkheid van een test om een effect te vinden. De power van
een test is de kans dat een test een effect vindt en je kan aannemen dat deze ook echt bestaat in de
populatie. De power van de test kan ook wel aangeduid worden als 1-β. Vaak is dit .2, dus de power
van een test moet .8 zijn.
In grote samples kunnen kleine verschillen significant zijn en in kleine samples kunnen grote
verschillen niet significant zijn. Dit komt door power→ grote steekproeven hebben meer power om
effecten te detecteren. Een verschil die bijna 0 is, kan significant zijn als de sample size groot genoeg
is. Hoe groter de steekproef, hoe kleiner de standaard error. Grotere samples hebben minder noise en
een klein signaal kan daardoor ook gedetecteerd worden.
Statistisch significant betekent niet perse dat iets belangrijk is. Een niet significant resultaat betekent
niet perse dat de nulhypothese waar is.
Een effectgrootte is een objectief gestandaardiseerde meting van de omvang van het geobserveerde
effect.
Cohen’s d
4