1
SAMENVATTING MASTER SELECTIE ASSESSMENT
Statistiek I
College 2
Statistiek en data
- Recognize the patterns & the randomness: the variability in
data… “the science of understanding data and making decisions in
face of variability”
- Datasets bestaan uit:
o Case of unit: subjecten of objecten in een dataset
o Variabelen: kenmerk van een case, kan verschillende waarden
aannemen voor verschillende cases of units
o Label
Variabelen
- Categorisch/kwalitatief geen numerieke waarde of arbitraire numerieke
waarde
o Leeftijdsgroep (kleuter, volwassene)
o Plaats in gezin (jongste, middelste, oudste)
o LVS Citoscore (A t/m D)
- Kwantitatief getallen vertegenwoordigen betekenisvolle waarde
o Leeftijd (1-10 jaar)
o Aantal kinderen in gezin (0-4)
o Percentage die toets haalt
o IQ-score
o Eindscore cito
Meetniveaus
- Nominaal (categorisch): geen volgorde, geen meeteenheid en geen nulpunt
(bijv. sekse)
- Ordinaal (categorisch): wel een volgorde, geen meeteenheid en geen nulpunt
(bijv. SES as laag, middel, hoog)
- Interval (kwantitatief): wel een volgorde, wel een meeteenheid en geen vast
nulpunt (gelijke afstanden tussen de intervallen: bijv. temperatuur (Fahrenheit en
Celsius hebben een ander nulpunt))
- Ratio (kwantitatief): wel een volgorde, wel een meeteenheid en een vast nulpunt
(bijv. leeftijd, aantal vragen correct)
Verdelingen: verschillende weergaven
Pie chart & Bar graph (nominal & ordinal)
- Bij een verdeling van een
nominale/ordinale variabele
worden de categorie-en
aangegeven plus tellingen of
proporties per categorie.
, 2
o Taart diagram nadeel: je moet alle categorie-en kennen (100%)
o Staafdiagrammen flexibeler.
Stem-plot/steelblad en histogram (interval & ratio)
- Steelbladdiagram
o Gebruik je alleen bij kleine
steekproeven
o De laatste cijfers vormen het blad, en
die daarvoor vormen de steel
o De laatste cijfers zijn eenheden, en
die daarvoor honderdtallen en
tientallen
140 is 14 + 0, 143 is 14 + 3…
In de 160 zitten best wat scores, daarna vlakt de verdeling af, en
daarna stijgt deze verdeling
weer
o Soms heb je te veel cijfers per
steel, dus soms trim je
Bv: scores 0-4 komen bij
één stil, en 5-9 van de
andere steel
- Histogram
o Geeft snel veel informatie over de
data
o Verdeling van scores, spreiding:
Scheef naar links/rechts of
juist symmetrisch,
Outliers
Verschillende vormen van een histogram
Verdelingen: beschrijven met cijfers
Centrummaten
- Modus en mediaan
o Modus = meest
voorkomende score
(kunnen er meerdere zijn)
o Mediaan = middelste
score (50e percentiel, Q2
(2e kwartiel))
, 3
Boxplot
- Weergave empirische verdeling
o 1e kwartiel (Q1) = 25e percentiel
o Mediaan (Q2) = 50e percentiel
o 3e kwartiel (Q3) = 75e percentiel
o Interkwartiel range (IQR) = verschil 3e en
1e kwartiel
(Outliers: < Q1 – 1,5 x IQR; > Q3
+ 1,5 x IQR)
- Kwartielen
o Maximum (Whiskers (T) niet outlier)
T rijkt niet naar maximum, maar
naar eerste score die geen outlier
is
o Q3
Q2 (=mediaan)
Q1
o Minimum (Whiskers (T) niet outlier)
T rijkt niet naar minimum, maar naar
eerste score die geen outlier is
Five number summary
- Min, Q1, M, Q3, Max
o Eerst data sorteren
o Q1 is midden van de eerste helft
o Q3 is midden van de tweede helft
Centrummaten
- Gemiddelde (x̄ )
Variantie en standaarddeviatie (SD of S)
- Variantie maat voor spreiding rondom gemiddelde
- Standaarddeviatie à ook maar voor spreiding
rondom gemiddelde
o Alleen gebruikt als gemiddelde als centrummaat
is gekozen
o Beïnvloedbaar door outliers
, 4
Kansdichtheidsfunctie (density curves)
- Voorbeeld: histogram taalscores van
947 studenten
- Over een histogram kan een smooth
curve getekend worden aan de hand
van een mathematisch model
- Dichtheidsfunctie
o Beschrijft patroon van verdeling
o Bevindt zich op horizontale as
o Oppervlakte onder de curve is 1
o De oppervlakte = proportie
Normale verdelingen
- Alle normale verdelingen zijn
symmetrisch, met een piek en bel-
vormig
- De functie van een normale verdeling
wordt bepaald door het gemiddelde μ en
de standaarddeviatie σ N(μ, σ)
- Handige eigenschappen van de
normaalcurve
o Geeft soms een redelijk goede beschrijving van echte data
o Geeft een goede benadering van de resultaten die worden verkregen op
basis van kans
o Statistische conclusies gelden ook voor andere grofweg symmetrische
verdelingen
Vorm van de normale verdeling
68% van de observatie bevinden zich
tussen σ en μ
95% van de observatie bevinden zich
tussen 2σ en μ
99.7% van de observatie bevinden zich
tussen 3σ en μ
Standaardiseren
- Scores vergelijken in termen van afwijking van het gemiddelde (Z-scores) en
bijbehorende kansen (uitgaande van een normaalverdeling)
- Standaardisatie: trek een score van het
gemiddelde van de verdeling af en deel door de
standaarddeviatie