STATISTIEK KENNISCLIPS
0.1: Introductie
0.1 Inleiding - Waar gaat de cursus over?
Statistiek gaat over de methoden om gegevens (data) te verzamelen, bewerken,
interpreteren en presenteren.
● Doel: door middel van data kennis vergaren over de wereld om ons heen.
Twee soorten statistiek
1. Beschrijvende statistiek: samenvatting van de verkregen data (Gemiddelde,
antwoorden, bijvoorbeeld opiniepeiling)
2. Inferentiële statistiek: uitspraken en voorspellingen doen over hele populatie op
basis van de verkregen data, ofwel de steekproef. (Wat kan ik met mijn onderzoek
met 10 studenten, zeggen over alle studenten?) → infer: concluderen uit/ opmaken
uit.
Voorbeeld beschrijvende statistiek
Voorbeeld inferentiële statistiek
● Is dit verschil significant?
● Wat is op basis van deze steekproef een plausibele populatieparameter voor alle
oudere werknemers?
0.2: Statistische concepten
1. Hoe zien kwantitatieve data eruit?
● Variabelen → kenmerken van iets of iemand, het moet variëren.
○ Voorbeeld: kleur haar, leeftijd, gewicht.
● Cases → mensen of dingen
○ Voorbeeld: kappers, boeken, voetbalspelers, teams
● Constant → wanneer er in de kenmerken geen variatie is.
○ Voorbeeld: de voetbalclubs komen allemaal uit Spanje.
Categoriale variabelen
Nominale variabele = verschillende categorieën, zonder volgorde
● Bijvoorbeeld nationaliteit (Spaans, Mexicaans, Zweeds), dit verschilt van elkaar, maar
de volgorde van de nationaliteiten doet er niet toe.
Ordinale variabele = verschillende categorieën en volgorde.
● Bijvoorbeeld de volgorde voetbalwedstrijd: je hebt een eerste, tweede, derde plaats.
Maar je weet niet hoeveel de eerste en tweede van elkaar verschillen.
1
,Kwantitatieve variabelen
Het onderscheid tussen interval en ratio is in deze cursus niet erg belangrijk.
Interval niveau = verschillende categorieën, verschillende volgorde, vergelijkbare intervallen
tussen de categorieën.
● Voorbeeld: leeftijd spelers → Speler 1 (18) en speler 2 (16). We kunnen nu zeggen:
○ Ze verschillen twee jaar
○ Speler 1 is ouder
○ Het verschil tussen speler 1 (18) en speler 2 (16) is gelijk aan spelers die 14 en
spelers die 12 zijn.
● Voorbeeld: Een beter voorbeeld van een interval variabele (in plaats van leeftijd) is
temperatuur. Een tip om te onthouden of er sprake is van een betekenisvol nulpunt:
als het gisteren 10 graden Celsius was en vandaag 20 graden is, kun je dan zeggen
dat het buiten "twee keer zo warm" is? (10 * 2 = 20).Nee, want als we dit zouden
omrekenen naar graden Fahrenheit (deze schaal heeft een ander nulpunt), dan is er
slechts een temperatuurstijging van 50°F naar 68°F.
Rationiveau = verschillende categorieën, verschillende volgorde, vergelijkbare intervallen
tussen de categorieën, nulpunt heeft betekenis.
● Voorbeeld: lengte in cm van speler. Een lengte van 0 cm betekent dat er geen lengte
is.
● In tegenstelling zullen veel andere docenten leeftijd gewoon een ratio variabele
noemen ipv interval. Als je bijvoorbeeld iemand van 2 jaar oud vergelijkt met iemand
van 1 jaar, zullen de meeste mensen zeggen dat deze persoon "twee keer zo oud is".
Tenzij je de filosofische vraag opwerpt wat eigenlijk precies het nulpunt is van
"leven". Je zou ook -9 maanden als nulpunt kunnen kiezen. Maar dan geldt dus niet
meer dat iemand van 2 jaar (nieuwe score van leeftijd wordt dan: 2 jaar + 9
maanden) twee keer zo oud is als iemand van 1 jaar (nieuwe score wordt dan: 1 jaar
+ 9 maanden)!
Kwantitatieve variabelen kunnen discreet of continu zijn:
Discreet = als het mogelijk is dat categorieën een set aparte nummers vormen
● Voorbeeld: Het aantal gescoorde doelpunten door een speler (hele getallen: 1/2/3)
Continu= als het mogelijk is dat de waarden een interval vormen
● Voorbeeld: lengte van een persoon (getal achter de komma: 170,83/169,91)
2
,1.1 Data beschrijven
1.1.1. Tabellen
Data → om het te ordenen kan je het in een datamatrix zetten. Datamatrix is het
kernelement van elke statische studies. De getallen noemen we observaties.
Een frequentietabel laat zien hoe de waarden van een variabel zijn verdeeld over de cases.
● Een lijst met alle mogelijke waarden. Dit is een getal.
Cumulatieve percentage = opgetelde procentuele getallen. Zie onderstaand voorbeeld
(rechterkolom):
Intervals = grotere groepen om data overzichtelijke te maken. Bijvoorbeeld: 30- 40 jaar i.p.v.
30,31,32, etc.. Hercoderen van kwantitatieve variabele naar ordinale variabele.
● Let op: andersom is dit niet mogelijk.
Samenvatting:
Je gebruikt een datamatrix als de bron van al je statistische analyses. Het is het overzicht van
je data. Echter, als je bevindingen wil presenteren aan anderen, dan maakt je gebruik van
samenvattingen van je data. Een goede manier om samen te vatten is het maken van een
frequentietabel. Als het nodig is, kun je kwantitatieve variabelen hercoderen in ordinale.
1.1.2 Grafieken
Categorische (/nominale) variabele
Cirkeldiagram = de categorieën van de variabele die je wilt samenvatten in punten
van een taart. De punten zijn het percentages aan observaties in elke categorie.
● Voordeel: je ziet meteen het procentuele aandeel.
● Nadeel: het exacte aantal kan je niet aflezen.
Staafdiagram = de hoogte van de staven staat voor een percentages observaties
van elke categorie.
● Voordeel: je kan meteen het exacte aandeel aflezen, soms handiger
naarmate het aantal categorieën in een variabele toeneemt.
● Nadeel: je kan het procentuele aandeel niet aflezen.
3
, Kwantitatief:
Dotplot = handig wanneer je maar een paar observaties hebt.
● De horizontale lijn: mogelijke waarden in gelijke intervallen.
● De verticale lijn: voor elke observatie plaats je een punt op de
horizontale lijn.
Histogram = handig wanneer je meerdere observaties hebt. Met een histogram
maak je gebruik van staven, deze staven raken elkaar aan. Dit staat voor dat de
waarden van interval ratio variabele een onderliggende continue schaal
representeren.
● Voorbeeld we hebben gewicht van verschillende spelers: 82,5 en 84,7 en
86,8. Je kan dan intervallen maken, dat zijn in dit geval kleine reeksen aan
kg, voorbeeld: 80 - 85, 85 - 90. Je zet dan tussen deze reeksen het midden in van de
reeks, dus in het geval van 80 - 85 zet je neer: 82,5. Belangrijk is dat de intervallen
altijd dezelfde grootte moeten hebben.
Verschillende vormen histogrammen:
Klokvorm - unimodel Twee pieken (bv. Kinderen en ouders leeftijd) -bimodal
Skew to the left Skew to the right (bv: verdeeldheid salaris)
Samenvatting:
Het is altijd een goed idee om je data samen te vatten in grafieken. Als we met een nominale
of ordinale variabele werken, dan maak je een cirkeldiagram of staafdiagram. Werk je met
interval ratio variabele, dan gebruik je histogram. Kijk naar de vorm of je histogram.
(unimodal/ bimodal/ Skew to the left/ Skew to the right)
4