Samenvatting OvI voor het tentamen
ZS1
Kengetallen: zijn bijvoorbeeld gemiddelde, mediaan, Q1, Q3, standaarddeviatie/standaardafwijking,
interkwartielafstand
Kwantitatieve/numerieke data: data bestaat uit getallen en kun je mee rekenen.
- Continue data: kan alle waarden hebben binnen het interval dat bij de maat past. Mensen
kunnen bijv. geen negatieve lengte hebben en er is een bovengrens aan hoe lang een mens
kan zijn.
- Discrete data: kunnen alleen bepaalde waarden hebben die eindig zijn. Welke waarden dat
zijn, hangt af van het begrip of het construct dat gemeten is: ouders kunnen bijv. niet 2,5
kinderen hebben
Kwalitatieve data: geen getallen
Nominale of categorische variabelen zijn discreet en kwalitatief: je maakt er onderscheid mee
tussen categorieën of groepen die zich niet met cijfers laten beschrijven. Je kan daarna de data wel
nummers toekennen zoals 0 en 1, maar deze hebben geen inherente betekenis en de volgorde van
die nummers betekent niks in relatie tot wat gemeten is. bijv. geslacht man/vrouw/anders 0/1/2
Ordinale variabelen komen na nominale variabelen, één meetniveau hoger. Hier zit een logische
volgorde in de waarden die de variabele kan hebben. zoals opleidingsniveau van laag naar hoog:
basisschool (1), voortgezet onderwijs (2), MBO (3), HBO (4), universiteit (5), PhD (6). Maar ook met
deze getallen kan je niet rekenen.
Interval en ratio meetniveau kun je wel rekenen met afstanden/verschillen tussen getallen. Het
enige wat ratio nog heeft bovenop interval is een absoluut nulpunt. Bijvoorbeeld lengte, duur,
hoogte, of temperatuur in graden Kelvin.
- Interval variabelen: voorbeelden zijn IQ en temperatuur in graden Celsius: het verschil
tussen een IQ van 70 en 80 is even groot als het verschil tussen 105 en 115. Maar IQ van 120
is niet twee keer zo intelligent als een IQ van 60. Dus je kan niet delen en vermenigvuldigen
hiermee.
- Ratio variabelen: voorbeelden zijn lengte en leeftijd. Iemand van 90 cm is half keer zo klein
als iemand van 180 cm. Hiermee kun je wel delen en vermenigvuldigen.
Dichotomiseren: Soms wordt van een continue variabele een discreet variabele gemaakt, bijv. als je
wilt rekenen in leeftijdsgroepen dan kun je alle leeftijden van de onderzoeken splitsen in jonger dan
50 en ouder dan 50, dit heet dichotomiseren.
1
,Gemiddelde van een steekproef: tel alle waarden bij elkaar op en deel door het aantal
waarnemingen.
Mediaan (Q2) van een steekproef: alle waarnemingen op volgorde van laag naar hoog. De middelste
waarde is Q2.
- Bij een symmetrische verdeling heb je vaak dat de mediaan en gemiddelde waarde gelijk zijn
aan elkaar.
Eerste kwartiel (Q1): hieronder bevindt zich 25% van de waarnemingen
Derde kwartiel (Q3): hieronder bevindt zich 75% van de waarnemingen
Interkwartielafstand (IQR): IQR = Q3 – Q1
Standaard deviatie ofwel standaardafwijking (SD): ongeveer de gemiddelde afstand tot het
gemiddelde
(Eigenlijk individuele waarde – gemiddelde)^2
Delen door waarnemingen – 1
Boxplot:
Frequentietabel en staafdiagram:
voorbeeld voor bloedgroepen: 26 O, 21 A, 7 B en 3 AB. Totaal 57 mensen.
2
, Vaak is het handiger om de relatieve frequentie te gebruiken: welk deel van het totale aantal
observaties zit in de verschillende categorieën. Dit geef je weer in proporties of in percentages.
- Proporties: aantal specifieke delen door het totaal. Dus bijv. 21/57 = 0,368
- Percentages: proportie * 100%. Dus bijv. 21/57 = 0,368 * 100% = 36,8%
Soms wanneer je de percentages bij elkaar optelt kan dit iets over de 100% komen omdat we de
waarden hebben afgerond. Dit noem je de afgeronde error.
In de medische literatuur worden prevalentie en incidentie gebruikt om aan te geven hoe vaak een
ziekte voorkomt. Prevalentie geeft aan hoeveel mensen op een bepaald moment de ziekte hebben,
incidentie geeft aan hoeveel mensen in een bepaalde periode de ziekte krijgen.
- Prevalentie: iemand heeft de ziekte al
- Incidentie: iemand krijgt de ziekte
Bijv. prevalentie van patiënten met astma bij een huisartsenpraktijk is 50/2500 = 2%. Dus 2% heeft
de ziekte astma. Daarentegen weten we dat de 1-jaars incidentie van borstkanker bij Nederlandse
vrouwen van 50 tot 54 jaar 2.5 per 1000 vrouwen was in het jaar 2020. Dus 2.5 op de 1000 vrouwen
krijgt de ziekte borstkanker.
Histogram: de meest voorkomende figuur voor de verdeling van een kwantitatieve variabele is een
histogram.
histogram A histogram B
150
80
Frequency
Frequency
40
0 50
0
0 5 10 15 20 0 5 10 15 20
histogram C histogram D
150
40
Frequency
Frequency
20
50
0
0
0 5 10 15 20 0 5 10 15 20
Boxplot hoort bij histogram B:
mediaan is 50% van de waarnemingen erboven en 50% eronder. Kijk naar het minimum en maximum! Minimum
is 0 en maximum is 20. Boxplot is erg breed. Dat betekent dat er rondom de mediaan niet veel waarnemingen
liggen, maar dat de meeste waarnemingen in de liggen in de beide extremen van de verdeling.
0 5 10 15 20
Bij B is de variantie het grootst want hoe verder een waarneming van het gemiddelde afligt hoe groter de
variantie.
Bij D is de IQR het kleinst omdat de waarnemingen hier het meest bij elkaar liggen.
3