College 2: Wat is statistiek?
“The science of understanding data and making decisions in face of variability”
- Het begrijpen van data en het weergeven van data
- Waardeoordelen weergeven, je moet het dus goed begrijpen en kunnen gebruiken
- Zelf beslissingen maken op basis van data, een score op de CITO en schooladvies
- Datasets: cases of units, subjecten (deelnemers) of objecten (dingen) die beschreven worden
door het onderzoek. Data wordt gebruikt om de onderzoeksvraag te beantwoorden.
o Wie? à Wie worden er beschreven? Patiënten
o Wat? à Wat wordt er gemeten? Variabelen verzameld zoals leeftijd, IQ etc.
o Waarom? à Waarom is dat gebeurt?
- Variabelen: een kenmerk van een case, kan verschillende waarde aannemen voor
verschillende cases of units
o Categorische: behorende tot een bepaalde categorie, geen cijfertje aan gekoppeld
Meetniveaus:
Nauwkeurig? Volgorde Meeteenhei Nulpunt vast Voorbeeld
d
Nominaal - - - - - Sekse
Ordinaal - X - - SES is laag
Voorbeelden
Leeftijdsgroep
Plaats in het gezin
LVS citoscore
o Kwantitatief: een bepaalde hoeveelheid van iets, de waarde is in een betekenisvolle
manier in een getal uitgedrukt.
Meetniveaus:
Nauwkeurig Volgorde Meeteenheid Nulpunt vast Voorbeeld
?
Interval + X X - Tempratuur
(van -2 naar 2)
Ratio ++ X X X Leeftijd
Voorbeelden:
Leeftijd
Aantal kinderen in een gezin
IQ-score
- Label: Cases of units uniek van elkaar te beschrijven, geen inhoudelijke betekenis
,Verdeling van een variabele: de grafische weergave
- Welke waarde voorkomen en hoe vaak deze voorkomen
- Deze geef je vaak grafisch weer, afhankelijk van de variabele:
- Categorische: de categorieën geef je weer in combinatie met de tellingen
Staafdiagram, flexibeler, x=categorie en y=telling
Taartdiagram, nadeel is dat je alle categorieën moet kennen (100%)
o Kwantitatief:
Histogram, geeft snel veel en duidelijke informatie .
Steelblad:
De bovenste tabel geeft de metingen weer overzichtelijk geordend.
Dan zet je “stelen” vast zoals bijvoorbeeld tientallen, daarna trek je
een lijn en zoek je de eenheden erbij.
Je zit makkelijk een top en dal.
Twee varianten: gesplitst en niet gesplitst, de gesplitste maakt
bijvoorbeeld onderscheid in hele en halve tientallen door twee
stelen toe te kennen aan een waarde van één tiental.
, Variabele: beschrijven met cijfers
- Modus, het meest voorkomende score
- Mediaan, de mediaan het midden van een verdeling of gegevensverzameling; de mediaan is
( n+1 )
een centrummaat, 50% van de scores is hoger en 50% van scores is lager. x=
2
o Weergave maken van een empirische verdeling :
1e percentiel: 25% heeft dezelfde score of lager
Mediaan: 50e percentiel
3e percentiel: 75% heeft dezelfde score of lager
Interkwartiel range (IQR) = verschil tussen het 3 e en het 1e kwartiel, kan ook
gebruikt worden om outliers te bepalen.
Outliers: (Q3 + 1.5 x IQR of Q1- 1.5 * IQR ) dus in dit geval:
Q3 + 1.5 x IQR à 7.1+1.5 * 1.8= 9.8
Q1- 1.5 * IQR à 5.3 – 1.5 * 1.8 = 2.6
1 x 1+ x 2 +…+ x n
- Gemiddelde: x= ∑ x i of x=
n n
Grens van
het derde
kwartiel
Q3
Mediaan
Q2
Grens van
het eerste
kwartiel
Q1
-
Aanpak van een five number summary
1. Soorteer de data.
2. Stel het volgende vast:
a. De minimum, de kleinste data
b. Q1, het eerste kwartiel
c. Mediaan, de middelste waarde, bij even tussen twee waarde, denk aan de formule!
d. Q3, het derde kwartiel
e. Maximum
3. Bepaal de outliers m.b.v. de 1.5 IQR formule
4. Bepaal de maximum, de waarde net onder de outlier