Inhoud
Week 1 Data, data locaties en data verdelingen................................................................................2
Week 2 Kansverdelingen....................................................................................................................5
Week 3 standaard regels en hypothese testing..................................................................................6
Week 4 Correlatie en Chi-square test.................................................................................................8
Week 5 CLT, Kolmogorov-smirnov, independent sample t-test en paired sample t-test..................11
, Week 1 Data, data locaties en data verdelingen
Data bestaat uit variabelen die onderverdeeld worden in kolommen. De metingen vormen eenheden
(units).
In bovenstaand overzicht zijn de eerste 3 kollommen categoriaal en de laatste 4 numeriek.
Categorical
o Binary variable (met twee uitkomsten) – dood of levend (300 samples)
o Nominal variable - iemand is een omnivore of een vegetariër
o Ordinal variable – Slecht, gemiddeld, goed. (30-300 samples)
Numercial
o Discrete data – aantallen.
o Continuous – met tussenwaardes zoals temperatuur.
Scale (+ & -)
Ratio (+, -, :, x)
Wanneer data geconverteerd wordt naar een lager niveau verlies je informatie. Hoe minder
informatie je hebt, hoe meer samples je moet nemen.
Voor een onderzoek is het van belang dat de steekproef representatief is. Daarom is het van belang
wat je doel is van je onderzoek om zo te bepalen wat de populatie is en of de steekproef
representatief is voor deze populatie. Over het algemeen is een aselecte steekproef van 30 samples
een redelijk startpunt.
Daarnaast moet je checken of de data valide is. Er kunnen bijvoorbeeld fouten in de data zitten,
zogenaamde outliers.