Hoofdstuk 2
SPINE of statistics
● Standard error
● Parameters
● Interval estimates (confidence intervals)
● Null hypothesis significance testing
● Estimation
Statistische modellen
We bouwen statische modellen van processen uit de echte wereld om te zien hoe ze opereren in de
echte wereld. We kunnen enkel dingen infereren over de psychologische en sociale processen op
basis van onze modellen, omdat we geen toegang hebben tot de gehele echte wereld. We willen een
zo goed mogelijke fit: het statistische model moet de geobserveerde data zo goed mogelijk
weergeven. Een goede fit betekent dat het model de situatie uit de echte wereld goed weergeeft. Je
kan dan redelijk zeker zijn van accurate voorspellingen over de echte wereld op basis van het model.
Bij een slechte fit is het model geen goede weergave van de realiteit en kun je op basis van het model
geen accurate voorspellingen doen.
Er wordt vaak een lineair model gebruikt (ANOVA en regressie zijn lineair) en ook dit boek behandelt
alleen lineaire modellen. Echter, wees alert dat je altijd eerst je data moet plotten en dat een lineair
model niet per se de beste fit is met de data.
Dé oplossing
Elk statistisch model (regressie, anova, etc) komt neer op de volgende formule:
We voorspellen een uitkomst op basis van het model en houden er rekening mee dat er ook error is.
De kleine i betekent de ie score, en kan je ook vervangen door een naam. De i geeft aan dat de
uitkomst en error voor elk individu verschilt.
Model = regressie, t-test, anova, multilevel model
Populatie en sample
Onthoud dat je data van een sample gebruikt om iets te zeggen over de populatie. Hoe groter je
sample, hoe beter je schatting van de populatie.
P is for parameters
Je spreekt altijd over de schatting van de parameter, omdat je de parameters van de populatie niet
werkelijk weet.
,Variabelen zijn gemeten constructen die variëren tussen entiteiten in de steekproef. Daarentegen
worden parameters niet gemeten (omdat ze van een populatie zijn) en zijn het (meestal) constanten
die verondersteld worden enige fundamentele waarheid over de relaties tussen variabelen in het
model te vertegenwoordigen.
Voorbeelden van parameters: gemiddelde en de mediaan (die het midden van de verdeling
schatten) en de correlatie- en regressiecoëfficiënten (die de relatie tussen twee variabelen schatten).
Er worden verschillende symbolen gebruikt (bijvoorbeeld μ voor het gemiddelde, r voor de correlatie,
b voor regressiecoëfficiënten), maar het is veel minder verwarrend als we gewoon de letter b
gebruiken.
Let op: er wordt hier dus b gebruikt voor alle modellen (bijv. gemiddelde).
Het model wordt tussen haakjes weergegeven.
Als we alleen geïnteresseerd zijn in het samenvatten van de uitkomst, zoals bij het berekenen van
een gemiddelde, hebben we geen variabelen in het model, alleen een parameter. We kunnen onze
vergelijking dan schrijven als:
Vaak willen we echter een uitkomst voorspellen aan de hand van een variabele. Als we dit doen,
breiden we het model uit om deze variabele op te nemen (voorspellende variabelen worden meestal
aangeduid met de letter X). Ons model wordt dan:
Nu voorspellen we de waarde van de uitkomst voor een bepaalde entiteit (i) niet alleen op basis van
de waarde van de uitkomst wanneer er geen voorspellers zijn ( \( b_0 \)), maar ook op basis van de
score van de entiteit op de voorspellende variabele ( \( X_i \)). De voorspellende variabele heeft een
parameter ( \( b_1 \)) eraan gekoppeld, die iets zegt over de relatie tussen de voorspeller (\( X_i \)) en
de uitkomst.
Je gebruikt een dakje omdat het altijd gaat om een estimate.
Assessing the fit of a model: sum of squares and analysis of variance
Error = residual = deviance = deviation
Je berekent error door uitkomst - model.
Bijvoorbeeld: John heeft 1 vriend. Het gemiddeld aantal vrienden (model van gemiddelde van alle
lecturers) voorspelt 2.6. De error is dan 1 - 2.6 = -1.6. Het model overschat het aantal vrienden van
John met 1.6
,Echter, we willen de fit van het hele model weten voor iedereen, niet alleen voor John. We moeten de
Sum of Squares nemen, want als je het niet in het kwadraat doet, kom je uit op 0.
De formule is
Deze formule van de SS is dus hetzelfde als de totale error van een model.
Nadeel van Sum of squared errors (SS): hangt af van de kwantiteit van de data - hoe meer
datapunten, hoe hoger de SS.
Dit probleem kan worden opgelost door de gemiddelde error in plaats van totale error te berekenen.
Je berekent daarom de mean squared error (variantie)
, Dus: de sum of squared errors en de mean of squared errors (= variance) kunnen worden gebruikt
om de fit van een model te beoordelen. Hoe hoger dit getal, hoe slechter de fit met het model (omdat
er dan dus veel spreiding is rond het gemiddelde).
E is for estimating parameters
De berekening voor het gemiddelde is zo ontworpen om de parameter te schatten die de error
minimaliseert; de waarde met de minste error.
In dit boek kom je vele parameters, andere dan het gemiddelde tegen, maar het principe van het
minimaliseren van error is overal hetzelfde: je krijgt de parameter met de minste error. Let op: dit
betekent niet dat de fit met data goed is, dat het accuraat is, unbiased of representatief, het wil alleen
zeggen dat het de beste schatting met de minst mogelijke error is op basis van je data.
Principe principle of minimizing the sum of squared errors heet ook wel de methode van least squares
or ordinary least squares OLS.
S is for standard error
De standaarddeviatie vertelt ons hoe goed het gemiddelde de data van de sample representeert.
Echter, als we het sample gemiddelde gebruiken om de parameter in de populatie te schatten,
moeten we weten hoe goed het de waarde in de populatie representeert, omdat de samples van een
populatie verschillen. Dan heb je het over de standaard error.
Je neemt verschillende samples uit de populatie die allemaal anders zijn (sampling variety). Je krijgt
uiteindelijk een sampling distributie van de verschillende gemiddelden van alle samples uit de
populatie.
Het gemiddelde van de sample means is hetzelfde als het populatiegemiddelde. De standaarddeviatie
van de samplegemiddelden vertelt ons hoe de sample gemiddelden verspreid zijn rondom het
populatiegemiddelde.
Standaarddeviatie van sample means = standard error of the population mean (SE) / standard error
Central limit theorem = bij samples groter dan 30 heeft de sampling verdeling een normale verdeling
met een gemiddelde gelijk aan het gemiddelde van de populatie.
Je berekent dan de standaarddeviatie van de sampling distrubutie (oftewel de SE) zo:
Bij sample kleiner dan 30 is sprake van een t-verdeling.
De standaardfout van het gemiddelde (SE) = de standaarddeviatie van de
steekproefgemiddelden. Het toont je hoe representatief het gemiddelde van alle samples is voor de
populatie.
→ Grote SE: veel variabiliteit van de verschillende steekproefgemiddelden, mogelijk is
gemiddelde van alle samples niet representatief voor gemiddelde populatie