Verkennen van data
Doel (1) Data organiseren (grafieken, …)
(2) Data beschrijven (beschrijvende/deductieve statistiek, samenvatten)
(3) Uitspraken doen o.b.v. data (inferentiële/inductieve statistiek, verklaren)
Uitspraken doen over populatie? → inferentiële statistiek (algemeen)
Uitspraken doen over steekproeven? → beschrijvende statistiek (specifiek)
Basisbegrippen Steekproefverdeling (sample distribution)
= frequentieverdeling/omvang van de uitkomsten van de steekproef.
= empirisch, gekend.
Steekproevenverdeling (sampling distribution)
= kansverdeling van alle mogelijke waarden die een steekproefgrootheid
(voor alle mogelijke verschillende steekproeven) kan aannemen.
= theoretisch, benadering.
Centrale limietstelling
= herhaaldelijk toevallige steekproeven met grootte n trekken uit een willekeurig
verdeelde populatie met gemiddelde µ en standaardafwijking ; indien n
voldoende groot is (n ≥ 30), dan benadert de steekproevenverdeling van het
steekproefgemiddelde een normaalverdeling.
Missing data
= gegevens of datapunten van een variabele die ontbreken.
➔ kan praktische impact hebben.
Outliers
= buitenbeentjes of uitbijters die duidelijk anders zijn dan andere observaties
➔ kunnen grote impact hebben op analyse en interpretatie
➔ steeds grondig afwegen of je ze behoudt of verwijdert.
1
, Voorwaarden voor het uitvoeren van multivariate analyses
(1) Normaliteit → Typisch gevormde Gauss curve
→ Indien afwijking voldoende groot, zijn alle statistische tests ongeldig
omdat normaliteit vereist is om F en t statistieken te kunnen gebruiken.
→ Mogelijke afwijkende vormen
(1) Kurtosis: gepiektheid of platheid t.o.v. NVD (hoogte)
(2) Scheefheid: balans van de distributie (rechts of links)
→ Hoe normaliteit bepalen?
(1) Skewness/kurtosis bekijken
(2) Kolmogorov-Smirnov test
(3) Grafisch: Normal Probability Plot
(2) Homoscedasticiteit → De variantie in waarden van de afhankelijke variabele moet
ongeveer gelijk zijn voor elke waarde van de onafhankelijke variabele.
→ Indien dit niet het geval is, spreekt men van heteroscedasticiteit.
(= predicties zijn beter voor sommige waarden van de onafhankelijke
variabele dan voor anderen)
(3) Lineariteit → Recht evenredig en gelijkvormig veranderen met de variatie van een
tweede grootheid (liefst zo sterk mogelijk verband tussen variabelen).
2
, Enkelvoudige lineaire regressie
Doel Lineaire relatie beschrijven tussen afhankelijke/endogene variabele Y en één
onafhankelijke/exogene variabele Xi.
(wat is het verband tussen beiden?)
OPMERKING:
Om regressie-analyse te mogen toepassen zijn er drie voorwaarden
(= werkhypothesen):
(1) Normaliteit: waarden van afhankelijke variabele y zijn normaal verdeeld.
(2) Homoscedasticiteit: gelijke spreiding waarin standaardafwijking in elke
deelpopulatie hetzelfde is.
(3) Lineariteit: recht evenredig en gelijkvormig veranderen met de variatie van
een tweede grootheid (liefst zo sterk mogelijk verband tussen variabelen).
Voordelen (1) Variantie in Y te beschrijven/verklaren i.f.v. variantie in X.
(2) Y te voorspellen o.b.v. (nieuwe) waarden voor X.
(3) Relatieve impact van X op Y na te gaan.
VOORBEELDOEFENING DIE JE MOET KUNNEN MET DE HAND
→ ZIE FORMULARIUM VOOR FORMULES + STATISTISCH MODEL
Op basis van deze ANOVA-output willen we nagaan hoe goed we het wiskundecijfer kunnen
voorspellen aan de hand van de gekende IQ-score.
→ We gaan dus kijken of er een verband bestaat tussen wiskundecijfer en IQ.
B en Std. Error → nemen we op in de formule om het betrouwbaarheidsinterval te berekenen
Mean square, df’s en F-toets zelf kunnen berekenen
3
, SSM = 16,942 (wordt gegeven op het examen in SPSS-output)
SSE = 317,632 (wordt gegeven op het examen in SPSS-output)
SST = SSM + SSE
= 334,574
Hypothese
β1 = 0
β1 ≠ 0
F-toets berekenen (= MSM/MSE)
F(1, 113) = 16,942 / (317,)
= 6,027 → kijken in tabel E: p < 0,05
→ H0 verwerpen
R² (goodness-of-fit van het model) → hoe hoger, hoe beter
R² = 16,,574
= 0,051
➔ Het model verklaart slechts 5,10% van de variantie
➔ Geen goed model
Betrouwbaarheidsinterval berekenen (α = 95% → α = 0,05)
→ BI = 0,021 + (1,98 * 0,008) → α/2 (0,5/2 = 0,025) voor 113 (= DFE) opzoeken in t-tabel ➔ 1,984
= 0,021 - (1,98 * 0,008)
= [0,0052; 0,0368]
Standaard antwoord volgens APA-normen
Enkelvoudige lineaire regressie toonde aan dat er een significant positief lineair verband bestaat
tussen het wiskundecijfer en de IQ-score (β1 = 0,021, t(113) = 2,455, p < 0,05). De IQ-score verklaart
echter slechts een klein deel van de variantie in het wiskundecijfer (R² = 0,051, F(1,113) = 6,027,
p < 0,05).
4