1
Statistiek 1
Hoorcollege 1:
- Kansberekening gaat uit van deductie:
o We weten de details van een bepaalde populatie, maar niet van een steekproef.
o Algemeen → specifiek.
o Voorbeeld:
▪ 30 rode, 20 blauwe en 50 zwarte sokken. Wat is de kans dat als je zonder te kijken 4 sokken pakt er twee
blauw zijn en twee rood?
- Statistiek gaat uit van inductie:
o We geven een bepaalde (steekproef)uitkomst, wat kunnen we dan zeggen over de populatie?
o Specifiek → algemeen.
o Voorbeeld:
▪ Pak een willekeurige steekproef van 10 sokken. Als we 1 rode, 4 blauwe en 5 zwarte sokken pakken, wat
is dan de verdeling van sokken in de lade?
- Overeenkomsten van statistiek en kansberekening:
o Rekenen met toeval (randomness).
o Statistische technieken worden gebruikt om hele populatie te beschrijven (bijvoorbeeld gemiddelde leeftijd van alle
Olympische sporters).
o Sommige statistische technieken maken eerst bepaalde aannames over de populatie om vervolgens op basis van een
steekproef te bepalen hoe onwaarschijnlijk het is dat de aannames opgaan.
Machine Learning vs. Statistiek:
- Machine Learning: voorspellingen.
o Maken van voorspellingen voor individuen/populaties gebaseerd op (voorgaande) resultaten van deze (of
vergelijkbare) individuen/populaties.
▪ Gebeurt bij Netflix (‘’deze serie is ook wat voor jou!’’, reclames op computer (aanbevelingen door middel
van producten die je hebt bekeken) etc.
- Statistiek: beschrijvingen en inferenties.
o Geef een beschrijving van een bepaalde steekproef/populatie op basis van data verzameld voor deze
steekproef/populatie.
o Trek een conclusie (inferentie) over een bepaalde populatie op basis van data verzameld voor een steekproef uit
deze populatie.
Definitie statistiek:
‘’Statistiek is de wetenschap van het verzamelen, organiseren en interpreteren van numerieke feiten, die gegevens of data worden
genoemd’’.
- Beschrijvende/ deductieve statistiek: berekening en interpretatie van samenvattende statistische maten, zoals indexcijfer,
gemiddelde etc.
- Inferentiële/ inductieve statistiek: verklarende statistiek. Maakt voorspellingen over populaties gebaseerd op sample data.
Statistiek vs. Methodologie:
- Methodologie: systematische wijze van hoe je het onderzoek zou moeten uitvoeren.
- Statistiek: het instrument om het onderzoek te kunnen uitvoeren.
→ Kunnen niet zonder elkaar.
Voorbeeld onderzoeksvraag: Hoe kunnen we succes in statistiekonderwijs verhogen?
- Populatie: de totale set van deelnemers, relevant voor de onderzoeksvraag.
o Voorbeeld: populatiegrootheid (parameter): gemiddeld aantal uren online zelfstudie per week.
- Steekproef: een deel van de populatie waarover data verzameld is.
o Voorbeeld: steekproefgrootheid (statistic): gemiddeld aantal uren online zelfstudie per week.
- Goede data nodig om deze onderzoeksvraag te beantwoorden.
o Betrouwbaarheid en validiteit.
Variabelen, Meetschalen en Meetniveaus.
- Variabele: gemeten karakteristiek die kan verschillen tussen subjecten.
▪ Soorten: gedrags-, stimulus-, fysiologische- variabelen.
o Meetschalen (NOIR):
▪ Kwalitatief/ categorisch:
• Nominaal. Man/vrouw.
• Ordinaal. Goud, zilver, brons.
▪ Kwantitatief/ numeriek:
• Interval. Temperatuur.
• Ratio. Percentages, inkomen.
o Bereik:
▪ Discreet: meeteenheid die ondeelbaar is.
• Broers/zussen.
▪ Continu: oneindig deelbare meeteenheid.
• Lichaamslengte.
, 2
Inferentiële statistiek:
- Op basis van een steekproef uitspraken doen over gehele (doel)populatie.
o Verschil tussen gemeten steekproefgrootheid en populatiegrootheid:
▪ Door natuurlijk variatie (toeval) tussen steekproeven.
▪ Door problemen/fouten met/binnen de steekproef.
• Steekproefproblemen bij inferentiële statistiek:
o Steekproeffout: sampling error.
▪ ‘’toevallige steekproefverschillen’’.
o Steekproefvertekening: sampling bias.
▪ ‘’selectieve werving’’.
o Meetfout: response bias.
▪ ‘’incorrect antwoord’’.
o Selectieve respons: (non-response bias).
▪ ‘’selectieve deelname’’.
• → Oplossing:
o Een aselecte steekproef van voldoende omvang die informatie (data) oplevert over
iedereen die benaderd is, met correcte responses voor alle subjecten op alle items.
, 3
Hoorcollege 2
Inferentiële statistiek:
- Op basis van een steekproef uitspraken doen over gehele (doel-)populatie.
o Verschil tussen gemeten steekproefgrootheid en populatiegrootheid:
▪ Door natuurlijke variatie (toeval) tussen steekproeven.
▪ Door problemen/fouten met/binnen de steekproef.
- Steekproefproblemen bij inferentiële statistiek:
o Doel: betrouwbare en valide uitspraken over populatie op basis van een steekproef.
▪ Steekproefgrootheden dienen van niet te verschillen van populatiegrootheden.
o Problemen:
▪ Steekproeffout (sampling error).
• Toevallige steekproefverschillen.
▪ Steekproefvertekening (sampling bias).
• Selectieve werving.
▪ Meetfout (response bias).
• Incorrect antwoord.
▪ Selectieve respons (non-response bias).
• Selectieve deelname.
o → Oplossing:
▪ Een aselecte (of andere probabilistische) steekproef van voldoende omvang die informatie (data) oplevert
over iedereen die benaderd is, met correcte responses voor alle subjecten op alle items.
Steekproefmethoden: (kiezen tussen de steekproefmethoden hangt af van samenstelling doelpopulatie, onderzoeksvraag en haalbaarheid
van de te vormen steekproef).
1. Enkelvoudige aselecte steekproef (simple random sampling).
o De ‘’moeder’’ van alle steekproef methoden.
o Hierbij hoef je het minste voorwerk vooraf te doen.
o Elke combinatie van deelnemers heeft evenveel kans om de steekproef te vormen.
o Iedereen heeft hierbij dezelfde kans om getrokken te worden om deel te nemen aan je steekproef.
▪ Stap 1: stel steekproefkader vast (sampling frame).
• Bijvoorbeeld een lijst met alle studentnamen uit de studentadministratie.
• Je moet je populatie zien (op die lijst bijvoorbeeld). Wie er allemaal bestaan.
▪ Stap 2: trek willekeurig/aselect een steekproef van N-personen.
• Bijvoorbeeld nummer toewijzen aan iedere student en dan met N willekeurige getallen
studenten kiezen voor een steekproef.
o De eenvoudigste maar lang niet altijd de beste wijze.
2. Systematisch aselecte steekproef (systematic random sampling).
o Handig omdat ie wat sneller werkt. Je hoeft maar één willekeurig getal te bepalen en dan weet je wie er in je
steekproef zit.
o Verschil met aselect: niet elke combinatie van deelnemers heeft evenveel kans om de steekproef te vormen.
o Eenvoudiger en vaak goede representativiteit.
▪ Je hebt een populatie van 20 studenten maar je hebt maar de middelen en het geld om 4 studenten te
selecteren.
• Stap 1: stel steekproefkader vast (sampling frame).
• Stap 2: bepaal stapgrootte K =N/n ‘’skip number’’ (het nummer waarmee je iedere keer verder
springt door je populatie heen).
o Bijvoorbeeld steekproef n=4, populatie n=20. K=20/4=5.
• Stap 3: dan kies je willekeurig de eerste persoon uit je steekproef en vervolgens schuif je
gewoon elke keer vijf plekken op in de populatie en die mensen komen dan ook in de
steekproef.
o Was het willekeurige getal 1 (betekent dat iedere 1ste in de rij mee doet) en zaten er
5 mensen tussen dan hadden persoon 1, 6, 11 en 16 meegedaan.
o Was het willekeurig getal 2 (betekent dat iedere 2e in de rij mee doen) en zaten er 5
mensen tussen dan hadden persoon 2, 7, 12 en 17 meegedaan.
3. Gestratificeerde steekproef (stratified random sampling).
o Soms wil je er juist voor kiezen om iets meer voorwerk te doen voordat je je steekproef trekt.
o Binnen ieder stratum wordt steekproef getrokken.
o Kan proportioneel of disproportioneel:
▪ Stel je hebt iets wat 10% voorkomt in de populatie en je wil dus ook zeker weten dat 10% uit die groep
(dat stratum) komen. Dan kun je proportioneel gestratificeerd trekken. Als je dan een steekproef zou
trekken van 100 personen. Dan trek je uit de mensen die die aandoening wel hebben 10 personen en uit
de mensen die de aandoening niet hebben 90. Dan is je steekproef proportioneel vergelijkbaar met de
populatie.
• Maar dan heb je maar 10 personen uit die ene groep. Dat is niet zo veel.
o Soms wil je juist disproportioneel selecteren. Bijvoorbeeld ook al is de verdeling
10% en 90% in de populatie. Ik wil een steekproef waarin de helft van de ene groep
is en de helft van de andere groep. Want dan zijn er genoeg mensen waarover ik
iets kan zeggen.
▪ Je moet er dan wel rekening mee houden dat als je iets wil zeggen over
de populatie, je dan wel weer terugrekent.
, 4
• Als je twee keer zoveel mensen hebt gesampled dan dat ze
eigenlijk voorkomen in de populatie, dan moet je op het
moment dat je het populatiegemiddelde gaat schatten,
iedereen maar voor de helft laten meetellen.
o Een reden om deze te doen is dat je van beide soort groepen mensen in je steekproef wil hebben. Als je bijvoorbeeld
jongens met meisjes wil vergelijken.
▪ Stap 1: stel steekproefkader op.
▪ Stap 2: verdeel populatie in strata:
• Bijvoorbeeld jongens en meiden.
▪ Stap 3: trek aselect uit ieder stratum.
• Bijvoorbeeld 2 jongens en 2 meisjes.
• Handig wanneer er duidelijke categorieën zijn en wanneer deze verschillen in omvang.
o Verschil met cluster:
▪ Je wil ervoor zorgen dat die in je steekproef zitten zodat je die kan vergelijken. Jongens met meiden of
bijvoorbeeld kinderen met of zonder autisme.
▪ Bij cluster ga je juist geen clusters met elkaar vergelijken. Je gebruikt clusters dan om een andere reden.
4. Cluster seteekproef (cluster sampling).
o Twee redenen om deze uit te voeren:
▪ Het is simpelweg niet te doen om iedereen te samplen. Dan doe je cluster sampling.
• Je wil 5000 leerlingen uit Rusland laten meedoen aan een onderzoek, dan loop je het risico dat
als je gewoon aselect trekt dat ze alle 5000 op een andere school zitten. Dan moet je naar
5000 verschillende scholen. Dat is soms gewoon qua tijd en geld bijvoorbeeld niet mogelijk.
▪ Of handig wanneer je geen steekproefkader hebt.
• Stel je wilt iets weten over wat mensen in de stad vinden over reizen met het openbaar
vervoer. Stel dat die stad Istanbul is. Er is geen lijst waar alle mensen die in Istanbul wonen op
staan. Dus je hebt geen lijst met mensen waar je willekeurig 100 mensen van kan kiezen.
o Wat je dan kan doen, is zeggen: ik leg een rooster op. In de lengte en
breedtegraden zodat ik Istanbul verdeel in een miljoen vierkantjes. Vervolgens trek
ik willekeurig 100 van die vierkantjes (clusters) en dan ga ik iedereen die in dat
vierkantje woont ga ik interviewen over openbaar vervoer. Dan weet je zeker dat
die 100 clusters dat die representatief zijn voor heel Istanbul.
▪ Je hebt niet alleen maar wijken gekozen die makkelijk bereikbaar zijn, je
hebt niet alleen maar wijken gekozen die in het centrum liggen etc. Je
hebt willekeurig 100 clusters gekozen.
• Maar je gaat die 100 wijken niet met elkaar vergelijken. Je
gebruikt die alleen maar om iets te zeggen over de populatie.
▪ Je kan ook uit die 100 clusters weer aselect bijvoorbeeld 2 clusters
kiezen.
▪ Je kan ook nadat je je clusters hebt bepaald, willekeurig nog een keer
een steekproef trekken. → Getrapte steekproef (multi-stage sampling).
o Kies een steekproef van clusters.
▪ Stap 1: stel steekproefkader op.
▪ Stap 2: verdeel de populatie in clusters.
• Bijvoorbeeld scholen.
▪ Stap 3: trek aselect een aantal clusters.
▪ Stap 4: kies alle subjecten van getrokken clusters.
5. Getrapte steekproef (multi-stage sampling).
o De eerste ‘’trap’’ bestaat uit cluster sampling.
▪ De tweede ‘’trap’’ is een simpele aselecte steekproef binnen de scholen (bijvoorbeeld) die geclusterd
gekozen waren.
o Kies een steekproef van clusters.
▪ Stap 1: stel steekproef kader op.
▪ Stap 2: verdeel populatie in clusters.
• Bijvoorbeeld scholen.
▪ Stap 3: trek aselect een aantal clusters.
▪ Stap 4: vervolgens ga je binnen een cluster een aantal leerlingen selecteren om mee te doen met jouw
onderzoek.
• Handig wanneer het moeilijk is om alle clusters te bereiken voor een steekproef en duur is om
heel veel subjecten te ondervragen.
o Voorbeeld PISA-onderzoek naar prestaties van 15-jarigen.
Getrapte steekproef: PISA-voorbeeld.
- PISA: driejaarlijks internationaal peilingonderzoek naar de kennis en vaardigheden van 15-jarigen.
- Het doel van PISA is vast te stellen in hoeverre het onderwijsstelsel in de deelnemende landen leerlingen opleidt tot
zelfstandige burgers.
- Een van de grootste dataverzameling die er plaats vindt op dit moment.
- Hoe is dit gesampled?
o Er is een steekproef kader. Een populatie van alle scholen die in aanmerking komen om mee te doen aan het PISA-
onderzoek.
o Die worden ingedeeld op basis van verschillende strata.
▪ Basisscholen, scholen met hoge inkomen en lage inkomen, in stedelijke- en niet stedelijke gebieden etc.
, 5
▪ → stratified sampling.
o Dan worden uit elke strata scholen geselecteerd zodat je na de eerste ronde over blijft met 150 scholen.
▪ Dan wordt uit elke school 35 leerlingen getrokken.
• Dan heb je ongeveer 5000 leerlingen per land.
o De kans dat je als school als steekproef beland is proportioneel van belang.
▪ Hoe groter de school, hoe groter de kans dat hij gekozen wordt.
▪ Waarom is dit zo?
• Als je de kans van leerlingen gelijk wil houden dan moet je ervoor zorgen dat grotere scholen
vaker worden gekozen dan kleinere scholen.
o Stel er zijn maar twee scholen. School a met 10 leerlingen en school b met 20
leerlingen.
▪ Eerst ga je willekeurig 1 school kiezen en dan daar 1 leerling van trekken.
▪ Als je elke school met een kans van 50% zou kiezen, en vervolgens uit
elke school 1 leerling willekeurig trek.
• Als je als leerling in school a zit is dat 0,5x1/10 = 1/20.
• Als je als leerling in school b zit is dat 0,5x1/20 = 1/40.
▪ Dat los je op door school A een kans te geven van 1/3 en school B een
kans van 2/3.
• Dan is a 1/3 x 1/10 = 1/30.
• Dan is b 2/3 x 1/20 = ook 1/30.
▪ → Dus nu heeft iedereen dezelfde kans.
Beschrijvende statistiek:
- In het beschrijven van data zijn 3 dimensies van belang:
o Centrum (centre).
▪ Typische waarneming.
• Centrummaten.
o Variatie (variability).
▪ Spreiding van observaties.
• Spreidingsmaten.
o Positie (position).
▪ Waar bevindt iemand zich in de verdeling.
• Zit iemand hoog qua percentielscore? Of laag etc.
▪ Relatieve positie van observaties.
• Positiematen.
Beschrijvende statistiek bij categorische/kwalitatieve variabelen:
- Tabel: frequentieverdeling (frequency distribution).
o Je laat zien hoeveel van elke uitkomst je waarneemt. Zoveel mensen zeggen dit, zoveel mensen zeggen dat etc.
▪ Je kan dan kiezen uit een absolute frequentie.
▪ Of een relatieve frequentie.
▪ Of Cumulatieve percentages (bij ordinale variabele interessant).
• 40% van de mensen zegt oneens of zeer oneens. Deze percentages zijn de percentages van de
losse groepen bij elkaar op geteld.
- Grafiek: staafdiagram (bar graph).
o De meestgebruikte is de staafdiagram.
▪ Bij bijvoorbeeld je favoriete ijsjessmaak.
▪ Je laat de frequentie van de gekozen scores zien.
- Centrummaat: modus (mode).
o De meest voorkomende waarde of antwoord.
▪ Bijvoorbeeld meest gekozen groep.
- Spreidingsmaat: variantie-ratio (variance ratio).
o Fm = de frequentie van de meest voorkomende waarneming.
o N = steekproefgrootte.
▪ Stel dat iedereen in een sample de smaak aardbei kiest. Dan is de frequentie van de meest voorkomende
gelijk aan je steekproef omvang. Wat krijg je dan? 1-36/36 = 0.
• Een variantie van 0. Dat klopt. Want iedereen koos aardbei.
Beschrijvende statistiek bij kwantitatieve variabelen:
- Tabel: frequentieverdeling.
- Grafiek: histogram (histogram).
o Waarin je bijvoorbeeld leeftijden in ‘groepen’ van 10 jaar zet. Dus mensen tussen de 0-10 en mensen tussen de 10-
20. Zo krijg je een idee van de verdeling.
▪ Verschil met staafdiagram is dat hier een ordening in zit en dat soms variabelen met verschillende
waarden bij elkaar clustert in zo’n ‘groep’.
- Tabel/grafiek: stamdiagram (stem-and-leaf plot).
o Zowel een tabel als een grafiek.
o Laat hele dataset zien. Maar dan op een gestructureerde wijze.
o Je hebt vrij snel een idee over de verdeling.
▪ Als je deze 90 graden tegen de klok in draait heb je
, 6
Ineens een X-as met de ‘groepen’ en hoe hoger de balk is hoe meer waarnemingen erin zitten. Een soort
histogram op zijn zij.
o Werkt alleen als je een kleine dataset hebt anders is het een veel te groot schema.
- Centrummaten:
o Gemiddelde.
▪ Soms waarnemingen/ N.
o Mediaan.
▪ Precies de middelste score.
o Modus.
▪ Meest voorkomende score.
- Spreidingsmaten:
o Bereik (range).
▪ Het verschil tussen de hoogste en laagste waarneming.
o Standaarddeviatie.
o Interkwartiel-afstand (interquartile range).
▪ Vooral fijn bij datasets met uitbijters.
• Hij is hier namelijk niet gevoelig voor.
- Positiematen: waar je relatief zit in een verdeling.
o Percentielscore (percentile).
▪ Ben je de laagste is je percentielscore 0. De hoogste 100. Zit je op een kwart dan 25.
o De inter-quartiel afstand. Is de afstand tussen de 25e percentielscore en de 75e percentielscore en bevat dus de
middelste 50% van waarnemingen.
o Minimum/maximum.
o Mediaan.
o Z-score.
▪ Aantal standaarddeviaties dat je afwijkt t.o.v. het gemiddelde.
Boxplot:
- Combineert heel veel dingen.
o Je ziet de mediaan.
o Je ziet de 25e en 75e percentielscore.
o De lengte van deze doos is je inter-quartiel afstand.
o Als ik nou 1,5 keer de interquartiel afstand verder ga, t.o.v. 75%. Wat is dan de grootste waarneming die daar nog
binnen valt. Dat is dan nog geen outlier. Dat doe je hetzelfde aan de onderkant. Dat is dan de non-outlier range. De
niet uitbijters range. Alle waarnemingen waarvan ik vind dat het geen outliers zijn.
▪ Iedere waarneming die meer dan 1,5 interquertiel afstand hoger is dan ofwel de 75 percentielscore of
lager dan de 25 percentielscore. Dat noem ik outliers en die geef ik aan met een sterretje of een rondje.
• De rondjes zijn de outliers. Die zitten ergens tussen de 1,5 keer de quartielafstand en 3 keer de
interquartiel afstand.
o En is het nou nog extremer dan ben je een sterretje.
Welke figuur en maat kiezen?
- Van belang:
o Meetschaal van de variabele.
o Scheefheid van de verdeling.
o Uitbijters (outliers) in data.
Bivariate statistieke geven de mate van samenhang (association) tussen twee variabelen weer:
- Tabel/figuur:
o 2 categorische variabelen: kruistabel (contingency table).
o 2 kwantitatieve variabelen: spreidingsdiagram (scatter plot).
- Maten:
o 2 categorische variabelen: relative risk (H7) en odds ratio (H8).
o 2 kwantitatieve variabelen: covariantie (H9), correlatie (H7) en regressie-coëfficiënt (H9).