Samenvatting Field
Discovering Statistics Using IBM SPSS Statistics
5th edition
Antwoorden op vragen aan het einde van het hoofdstuk bekijken!!
https://edge.sagepub.com/field5e
1
,Chapter 2 – The spine of statistics
2.2 – The SPINE of statistics – vijf sleutelconcepten van statistiek,
• S = standard error
• P = parameters
• I = interval estimates
• N = null hypothesis significance testing
• E = estimation
2.3 – Statistische modellen
Een statistisch model moet de data die is verzameld zo goed mogelijk representeren. De mate waarin dit
lukt is de fit.
Onderzoekers willen graag lineaire modellen gebruiken, dat zijn modellen die gebaseerd zijn op een
rechte lijn.
Outcomei = (model) + errori
De kleine i refereert naar de i’ste score
Deze vergelijking betekent dat we data die we observeren voorspeld kan worden vanuit het model dat we
kiezen plus een beetje error, want je voorspelt nooit perfect. Dat model verschilt met welk design je kiest.
2.4 – populaties en parameters
Je wil als onderzoeker een effect vinden dat voor een hele populatie geldt. Zo’n populatie kan heel breed,
maar ook heel smal zijn. Je hebt eigenlijk nooit toegang tot elke lid van een populatie, daarom trek je
steekproeven. Een sample is een dataverzameling op basis waarvan je dingen gaat infereren naar de
bredere populatie. Hoe groter de sample, hoe waarschijnlijker het is dat het je populatie reflecteert.
2.5 – P is voor parameters
Statistische modellen bestaan uit variabelen en parameters. Variabelen zijn gemeten constructen die
variëren tussen wezens in je sample. Parameters zijn niet gemeten en zijn meestal constante waardes die
een bepaalde waarheid representeren (mean 𝑋̅, median, correlatiecoëfficiënt r, regressiecoëfficiënt b).
Bij voorspellingen is je model als volgt:
Outcome berekenen met 1 parameter, geen andere variabelenà
𝑂𝑢𝑡𝑐𝑜𝑚𝑒 𝑖 = (𝑏̂0 ) + 𝑒𝑟𝑟𝑜𝑟𝑖
Vaak voorspel je met meerdere variabelen à
̂
𝑂𝑢𝑡𝑐𝑜𝑚𝑒 𝑖 = (𝑏0 + 𝑏1 𝑋𝑖 ) + 𝑒𝑟𝑟𝑜𝑟𝑖
b1 zegt hier iets over de relatie tussen de predictor (Xi) en de outcome.
Je kan de outcome voorspellen op basis van een model. De vorm van dat model verandert, maar er zal
altijd een beetje error zijn in de voorspelling en er zullen altijd parameters zijn die vertellen wat de vorm
is van het model.
Je gebruikt altijd de sample data om te voorspellen wat de populatieparameterwaardes waarschijnlijk
zullen zijn.
Het gemiddelde als statistisch model
Het gemiddelde is een model, omdat je deze niet meet in de data, maar schat vanuit een steekproef. Het
is een hypothetische waarde: het is een model, dat is gemaakt om de data samen te vatten en er is error
in deze voorspelling.
Schattingen in een model geef je een dakje, omdat ze geen true values zijn.
2
,De fit van een model bepalen: sums of squares en variantie
Om te kijken hoe goed het model de data representeert, kan je kijken naar hoe verschillend de scores zijn
die je in de data hebt geobserveerd van de scores die het model voorspelt. Je kan de deviantie (error)
berekenen.
Deviantie = outcomei – modeli
Je kan de devianties kwadrateren en optellen, dan heb je de sum of squares. Hoe groter je sample, hoe
groter je SS.
𝑛 𝑛
𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 𝑒𝑟𝑟𝑜𝑟𝑠 = ∑(𝑜𝑢𝑡𝑐𝑜𝑚𝑒𝑖 − 𝑚𝑜𝑑𝑒𝑙𝑖 ) = ∑(𝑥𝑖 − 𝑥̅ )2
2
𝑖=1 𝑖=1
De totale error kan berekend worden met:
𝑛
𝑡𝑜𝑡𝑎𝑙 𝑒𝑟𝑟𝑜𝑟 = ∑(𝑜𝑏𝑠𝑒𝑟𝑣𝑒𝑑𝑖 − 𝑚𝑜𝑑𝑒𝑙𝑖 )2
𝑖=1
Om de gemiddelde error berekenen door SS te delen door het aantal waardes – 1 (df). De degrees of
freedom gebruik je wanneer je een waarde in het model van de populatie wil schatten.
𝑆𝑆 ∑𝑛𝑖=1(𝑜𝑏𝑠𝑒𝑟𝑣𝑒𝑑𝑖 − 𝑚𝑜𝑑𝑒𝑙𝑖 )2
𝑚𝑒𝑎𝑛 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 𝑒𝑟𝑟𝑜𝑟 (𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒) = =
𝑑𝑓 𝑁−1
2.6 – E is van estimating parameters
Je kan de formule omgooien om de error voor elke persoon te berekenen. Die kan je optellen en dan kan
je iets zeggen over de fit van je model.
𝑂𝑢𝑡𝑐𝑜𝑚𝑒 𝑖 = (𝑏̂0 ) + 𝑒𝑟𝑟𝑜𝑟𝑖
De parameter met de minste error hoeft niet een parameter te zijn die accuraat is, unbiased is of
representatief voor de populatie. Het kan het beste zijn uit een reeks slechte. Het gaat omm het
minimaliseren van de sum of squared errors, oftewel de method of least squares of ordinary least
squared OLS.
2.7 – S is voor Standaard Error
Als je met je dataset iets wil zeggen over een bredere populatie, moet je kijken hoe goed je sample de
populatie representeert. dan kijk je naar de standaard error.
Als je meerder samples uit een populatie trekt, zullen ze allemaal net een ander gemiddelde hebben.
Deze verschillen laten sampling variation zien: samples variëren, doordat zij verschillende leden van de
populatie bevatten. Als je alle sample means in een plot zet, krijg je een sampling distribution, die
normaal verdeeld zal zijn. Het is de frequentiedistributie van de sample means. Als je het gemiddelde
neemt van de sample means, heb je de population mean. Je kan met sampling distribution kijken hoe
representatief je sample is, door naar de standaarddeviatie te kijken. De standaarddeviatie van de sample
means is de standard error of te mean (SE), of in kort: standaard error.
Het is niet mogelijk om honderden samples te nemen. Daarom maken we gebruik van de central limit
theorem, die vertelt dat als samples groter worden (>30), de sampling distribution met een gemiddelde
𝑠
gelijk aan de populatie een standaarddeviatie heeft van: 𝜎𝑋̅ = 𝑁
√
Een kleine sample heeft vaak geen normaal verdeelde sampling distribution, maar een t-verdeling.
3
, 2.8 – I is van (confidence) intervals
De schatting van een parameter verschilt tussen samples, en je kan de SE gebruiken om een idee te
krijgen hoe groot dit verschil is. Deze informatie kan je gebruiken om het 95% confidence interval te
berekenen.
Het berekenen van confidence intervals
Omdat je niet weet wat de true value is van de parameter, weet je niet precies hoe goed je schatting is.
Dus het is beter om een interval estimate te maken dan een point estimate. Je sample waarde is je
middelpunt en neemt een lagere en hogere grens.
Je moet het interval zo maken dat het iets bruikbaars vertelt. Alle intervals hebben dezelfde interpretatie:
als we 100 samples hadden en voor elke sample de mean en het confidence interval berekenen, dan zou
in 95 van deze intervallen de true mean vallen.
Om het confidence interval te berekenen, moet je de grenzen weten waarbinnen 95% van de sample
means valt. Je weet dat grote samples een normaal verdeelde sampling distribution hebben van de
means, en de normale verdeling een gemiddelde heeft van 0 en een standaarddeviatie van 1. Dit kan je
gebruiken om het interval te berekenen. 95% van de z-scores valt tussen -1.96 en 1.96, dus als je een
sample hebt met mean 0 en SE van 1 dan is je interval
[-1.96, 1.96].
We weten dat in grote (30+) samples je een normale verdeling hebt, dus dan hoef je alleen je mean en sd
𝑋−𝑋̅
om te rekenen naar 0 en 1, met 𝑧 = . Je weet dat je grenzen -1.96 en 1.96 zijn, dus die vul je in voor z
𝑠
en dan krijg je je lower boundary en upper boundary als je je mean en sd invult. MAAR je bent
geïnteresseerd in de variabiliteit van sample means, niet van scores binnen de sample, dus je gebruikt de
SE in plaats van sd.
𝑙𝑜𝑤𝑒𝑟 𝑏𝑜𝑢𝑛𝑑𝑎𝑟𝑦 = 𝑋̅ − (1.96 𝑥 𝑆𝐸)
𝑢𝑝𝑝𝑒𝑟 𝑏𝑜𝑢𝑛𝑑𝑎𝑟𝑦 = 𝑋̅ + (1.96 𝑥 𝑆𝐸)
Als je interval smal is, zal je sample mean dichtbij je popuatie mean liggen.
LET OP: je kan niet zeggen dat een 95% CI 95% kans heeft om de populatie parameter te bevatten, want
de 95% staat voor een lange termijn. Als je herhaalde samples trekt en confidence itervals berekent, dan
zal 95% van die intervals de true parameter bevatten. Dat is iets heel anders dan dat 1 bepaald interval
95% kans heeft om die waarde te bevatten. Elk specifiek interval heeft eigenlijk een kans van 0 (bevat
hem niet) of 1 (bevat hem wel) om die waarde te hebben, je weet alleen niet welke.
➔ Dit is belangrijk als je error wil controleren. Gebruik daarom Bayesian benaderingen.
Berekenen van andere confidence intervals
Als je een confidence interval berekent voor een andere waarde dan 95%, dan moet je eerst de
bijbehorende z opzoeken.
Over het algemeen kunnen confidence intervals als volgt berekend worden:
𝑙𝑜𝑤𝑒𝑟 𝑏𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑜𝑓 𝐶𝐼 = 𝑋̅ − (𝑧1−𝑝 𝑥 𝑆𝐸)
2
𝑢𝑝𝑝𝑒𝑟 𝑏𝑜𝑢𝑛𝑑𝑎𝑟𝑦 𝑜𝑓 𝐶𝐼 = 𝑋̅ + (𝑧1−𝑝 𝑥 𝑆𝐸)
2
Hierin is p de kanswaarde voor het confidence interval. Dus bij een 95% CI wil je de waarde van z voor (1-
0.95)/2-0.025. Dat zoek je op in de tabel van de standaard normaal verdeling. Dan vind je 1.96. Dat vul je
in in de formule.
4