Hoorcollege 2: Basisbegrippen in de statistiek
Deze week: gemiddelde, mediaan, modus, variantie, standaarddeviatie, empirische verdeling,
covariantie en correlatie (is niet gelijk aan causaliteit!).
We gaan kijken naar wat deze begrippen betekenen en hoe je ze uitrekent.
Het gaat er weer om dat we getallen in context plaatsen, want zonder context betekent een getal
niet zo veel.
VB: is het getal 4 veel? dat kunnen we alleen bepalen als we dat getal in een context plaatsen.
4 kinderen op een bank (vriendjes van je zoon op bezoek) is niet veel want niet zo bijzonder bij
gezinnen met kleine kinderen, maar 4 Ferrari’s voor de deur is wel veel want dat komt niet veel
voor.
DUS: de manier waarop we dat getal meten en de mate van bijzonderheid plaatst dat getal in
context.
Gemiddelde
Om de context te bepalen hebben we bijv. het gemiddelde (bijv. gemiddeld aantal kinderen op de
bank / Ferrari’s dat mensen hebben).
De uitkomst is dus gemiddeld 2,1 kind per huishouden.
Een variabele is een eenheid die een andere waarde kan hebben, waarvan de waarde dus niet constant
maar variabel is. Bijv. a = 3, a is een variabele waar je steeds iets anders voor in kunt vullen.
Bij statistisch onderzoek worden antwoorden op onderzoeksvragen of resultaten op metingen
waarnemingen genoemd waarnemingen moeten ingedeeld, geteld en/of gesorteerd worden.
Mediaan
De mediaan bereken je door de getallen op volgorde te leggen van klein naar groot of van groot
naar klein het middelste getal/waarneming is dan de mediaan. VB:
1, 3, 2, 3, 1, 2, 2, 4, 2, 1
wordt dan
1, 1, 1, 2, 2, 2, 2, 3, 3, 4
In het geval van een even aantal getallen, zoals hier tien, zijn er twee middelste getallen (hier 2
en 2) dan neem je het gemiddelde v.d. middelste twee getallen om de mediaan te berekenen: (2
+ 2) / 2 = 2.
, Ook hier geldt dat de mediaan niet per se een waarneming hoeft te zijn, maar dat komt wel vaak
voor.
De mediaan is nuttig als je waarnemingen hebt met mogelijk een aantal flink afwijkende getallen.
Stel de getallen/waarnemingen v.d. huishoudens waren:
1, 3, 2, 3, 1, 2, 2, 4, 2, 10 (laatste huishouden dus 10 i.p.v. 1 kind)
1+3+ 2+ 3+1+2+2+4 +2+10 30
Dan verandert het gemiddelde flink: Gemiddelde= = =3
10 10
MAAR de mediaan is nog steeds 2! De mediaan is dus minder gevoelig voor sterk afwijkende
waarnemingen, daarom is deze nuttig.
Als je dus getallen hebt waarvan je van tevoren kan vermoeden dat er een paar gekke tussen
kunnen zitten, dan is de mediaan een makkelijkere manier om de data (een benchmark) te hebben
dan het gemiddelde.
Modus
De modus is de meest voorkomende waarneming.
Van deze 10 waarnemingen is dat 2, want
Getal Aantal keer waargenomen
1 3
2 4
3 2
4 1
De modus komen we vaker tegen, bijv. als we het hebben over het modale inkomen. VB:
Het bruto modale inkomen was volgens het CPB (schatting) in 2017 € 34.000 (vakantietoeslag
meegerekend), per maand is dat € 2.623 (bruto, exclusief 8% vakantietoeslag). Voor 2018 werd dit
bedrag op € 35.000 geschat, voor 2019 op € 36.000.
Waarom neemt men hier het modale inkomen en niet het gemiddelde inkomen?
Je neemt hier het modale inkomen om niet afhankelijk te zijn van een paar bijzondere
inkomsten van hele rijke mensen met bijv. een miljard dan schuift dat gemiddelde enorm
op richting dat miljard. Modaal is simpelweg het meest voorkomende inkomen.