Beschrijvende en inferentiële statistiek
Week 1: College modules 0, 1 & 2
Module 0: enkele statistische basisbegrippen
• Meetniveaus van variabelen: categorisch en kwantitatief
Module 1: het beschrijven van één variabele (beschrijvende univariate statistiek)
• Standaarddeviatie: hoe reken je deze uit en wat is het nut ervan?1
• Z-score: hoe reken je deze uit en wat is het nut ervan?
1.1: Data beschrijven
Tabellen
Je hebt een datamatrix nodig voor al je statistische analyses, het is een overzicht van je data.
Om de resultaten te presenteren, maak je gebruik van samenvattingen van de data. Een goede
manier van samenvatten, is het gebruiken van frequentietabellen.
Een frequentietabel laat zien hoe waarden van de variabelen verdeeld zijn over de cases.
Indien nodig kan je de waardes hercoderen van kwantitatieve waardes (exact) naar ordinale
categorieën (andersom hercoderen kan niet).
Grafieken
Voor het samenvatten van categoriale (ordianale)/nominale variabelen kan je het volgende
gebruiken:
Cirkeldiagram
• Voordeel: je kan onmiddelijk de percentages afleiden
Staafdiagram
• Voordeel: je kan eenvoudiger de exacte aantallen afleiden
Naarmate de categorieën in een variabele toeneemt, is een staafdiagram overzichtelijker dan een
cirkeldiagram.
Voor het samenvatten van kwantitatieve (interval/ratio) variabelen kan je het volgende gebruiken:
• Puntplot
• Histogram (als er veel observaties zijn), maakt gebruik van intervallen
, o Meest voorkomend: Klokvorm met 1 piek en redelijk symmetrisch (unimodel)
o Kan ook scheef zijn, scheef naar linkt is dat de linkerkant platter is, scheef naar rechts
is dat de rechterkant platter is.
o 2 pieken is ook mogelijk (bimodel)
Het beoordelen van de vorm is essentieel omdat het de statistische methode kan
beïnvloeden die je later gaat gebruiken.
1.2: Maten van centraliteit
Modus, mediaan en gemiddelde
Manieren om het centrum (centrale tendens) van je distributie te beschrijven/meten:
• Modus: waarde die het vaakst voorkomt
o Wordt vaak gebruikt wanneer een variabel op een nominaal of ordinaal niveau wordt
gemeten
o Er kan meer dan 1 modus zijn (bijv. bimodel histogram)
• Mediaan: de middelste waarde van de observaties wanneer ze gerangschikt zijn van klein
naar groot
o In het geval van een even aantal observaties, gemiddelde van de middelste 2
waarden
• Gemiddelde: de som van alle waardes delen door het aantal observaties
o Meest gebruikte maatstaf.
Wanneer welke manier gebruikt wordt, hangt deels af van de meetniveau van je variabele.
Als het categorisch (ordinaal)/ nominaal is, is het onmogelijk om de mediaan en gemiddelde te
berekenen. Je kan ze niet ordenen of een numeriek berekening uitvoeren, dus dan is de modus de
enige optie.
Wanneer er een “outliner” aanwezig is, is het beter om de mediaan te gebruiken i.p.v. het
gemiddelde, omdat het gemiddelde dat ver afwijkt. (voorbeeld inkomen voetballer)
1.3: Maten van variantie
Bereik, interkwartielafstand en boxplot
Dit zijn belangrijke maten van de spreiding van een dataverdeling, of manieren om die te laten zien.
Om de verdeling exacter te beschrijven, is er meer nodig dan de centrale tendens maten.
2 maten voor de variabiliteit van de data: bereik en interkwartielafstand.
Simpelste maat van variabiliteit is het bereik.
Bereik: het verschil tussen de hoogste en de laagste waarde.
Het bereik is een maat van de variabiliteit die eenvoudig te begrijpen en berekenen is. Het geeft in
veel gevallen echter geen goede indruk van de variabiliteit van de data. De reden is dat het alleen de
extreme waarden meeneemt.
Interkwartielafstand is een betere maat van dispersie, omdat het de extreme waarden buiten
beschouwing laat. Het verdeelt je verdeling in 4 gelijke delen (kwartielen).
Middelpunt (Q2) is hierdoor gelijk aan de mediaan. De interkwartielafstand is het verschil tussen Q3
en Q1.
Voordeel: Wordt niet beïnvloed door de outliers, omdat het de waardes onder Q1 en boven Q3 niet
meeneemt.
Als vuistregel kunnen observaties worden beschouwt als outliers als ze 1,5*IKR onder Q1 zitten of
1,5*IKR boven Q3.
,De boxplot is een handige grafiek die een goede beschrijving geeft van het centrum, de variabiliteit
en het opsporen van outliers, hoe de waarden in de verdeling verdeeld zijn. Het laat zien:
• Q1, Q2 en Q3
• De minimum en maximum waarde dat geen outlier is
• De outliers
De box zelf betreft de centrale 50% van de verdeling (Q1 tot Q3).
De lengte van de box is dan ook de IKR (Q3 – Q1)
De horizontale lijn binnen de box in de mediaan (Q2)
De verticale lijnen heten snorren (whiskers), deze bevatten de overige waarden behalve de outliers.
Outliers worden apart aangetoond d.m.v. stippen
Variantie en standaarddeviatie
2 andere maten van variabiliteit die vaak worden gebruikt in statistisch onderzoek: variantie en
standaarddeviatie.
Voordeel: ze houden rekening met alle waarden van de variabele.
Formule variantie:
Variantie is de standaarddeviatie in het kwadraat
Variantie (𝑠 2 ) is “de som van de kwadraten van (observatie min gemiddelde)” delen door “de sample
grootte (n) min 1”
We moeten kwadrateren, omdat de som van alleen de deviaties gelijk is aan 0.
Hoe groter de variantie, hoe groter de variabiliteit, hoe meer de waardes zijn verspreid rondom het
gemiddelde.
Belangrijk nadeel van variantie: het is een gekwadrateerde maat.
Simpele oplossing voor dit probleem: de wortel trekken van de variantie, dan krijg je de
standaarddeviatie.
De standaarddeviatie geeft aan hoeveel de data gemiddeld afwijkt van het gemiddelde.
Hoe groter de standaarddeviatie, hoe groter de variabiliteit van de data.
Dus formule:
De standaarddeviatie is de meest gebruikte dispersiemaat.
z-scores
De z-score geeft aan hoeveel standaarddeviaties een bepaalde observatie van het gemiddelde afligt.
Hieruit kan worden afgeleid hoe vaak een observatie voorkomt of niet.
Omdat het gemiddelde het balanspunt is van de verdeling, zijn de Z-scores bij elkaar opgeteld gelijk
aan 0.
, Of de Z-score hoog of laag is, hangt af van de verdeling en de context. Een goede vuistregel is dat als
de histogram van je variabele een klokvorm heeft, valt 68% van de waarden tussen de z-scores 1 en -
1, 95% tussen 2 en -2, 99% tussen 3 en -3. (Empiracal rule zoals genoemd in het college)
Een z-score hoger dan 3 of lager dan -3 kan worden gezien als nogal uitzonderlijk.
Als de grafiek scheef staat naar rechts, komen hoge positieve z-scores vaker voor, omdat er meer
extreme waarden zijn aan de rechterkant van de verdeling.
Als de grafiek scheef staat naar links, komen lage negatieve z-scores vaker voor, omdat er meer
extreme waarden zijn aan de linkerkant van de verdeling.
Een regel die voor elke verdeling van toepassing is, ongeacht de vorm, is dat 75% van de data tussen
een z-score van 2 en -2 moet liggen. En 89% van de data tussen een z-score van 3 en -3 moet liggen.
Dus op zichzelf geeft een z-score je, tot een bepaalde hoogte, informatie over hoe extreem een
observatie is. Z-scores zijn nog nuttiger als je verschillende verdelingen wilt vergelijken.
Als we originele waardes hercoderen naar z-scoren, noemen we dat het standaardiseren van een
variabele. Standaardiseren betekent dat we de gemeten waarden vervangen door scores uitgedrukt
in het aantal standaarddeviaties van het gemiddelde. Het voordeel is dat we in één oogopslag kunnne
zien of een bepaalde score vaak voorkomt of niet.