Hoofdstuk 1: Steekproevenverdeling
Belangrijke concepten: inferentiële statistiek, generalisatie, populatie, random (aselecte) steekproef,
steekproefuitkomst/grootheid, steekproefruimte, random variabele, steekproefverdeling, kans,
kansverdeling, discrete kansverdeling, verwachte waarde, zuivere schatter, parameter, onzuiver,
representatieve steekproef, continue variabele, continue kansverdeling, kansdichtheid, (links-
eenzijdige, rechts-eenzijdige) p-waarde
1.1 Statistical inference
Wetenschappelijk onderzoek streeft naar algemene uitspraken. Dat houdt in dat de uitspraken
toe te passen zijn op verschillende situaties.
Men probeert zo weinig mogelijk data te verzamelen, om vervolgens alsnog conclusies te
kunnen trekken over een zo groot mogelijke groep. Het verzamelen van data is namelijk duur
en kost veel tijd.
Door middel van inferentiële statistiek kunnen uitspraken gedaan worden over een grotere
groep (populatie) op basis van data dat verzameld is uit een kleine set van observaties
(steekproef).
o Populatie: de grote set van observaties waarover we een uitspraak willen doen.
o Steekproef: de kleinere set van observaties.
1.2 A discrete random variable: how many yellow candies in my bag?
1.2.1 Sample statistic
Meestal zijn we geïnteresseerd in één bepaald kenmerk van de steekproef, bijvoorbeeld het
aantal gele snoepjes in een snoepzakje.
Steekproefruimte (sampling space )= de verzameling van alle mogelijke uitkomsten.
Bijvoorbeeld: in een zak van tien snoepjes, kunnen 0 tot 10 snoepjes geel zijn 0, 1, 2, …, 9,
10 = sampling space.
Steekproefgrootheid (sample statistic)= een getal dat het kenmerk van de steekproef
omschrijft, bijvoorbeeld ‘vier’, wanneer een zakje vier gele snoepjes bevat.
Dit wordt ook wel een random variabele (kansvariabele) genoemd: de waarde van de
variabele varieert tussen verschillende steekproeven. Bijvoorbeeld: het aantal rode snoepjes in
de steekproef. De uitkomst hangt af van kans. Een random variabele gaat niet over de
populatie, maar over de steekproef.
1.2.2 Sampling distribution
Steekproevenverdeling: de verzameling van uitkomsten van de verschillende getrokken
steekproeven uit de populatie. Let op: een steekproefverdeling gaat om hoe het eruit ziet in
één steekproef, terwijl een steekproevenverdeling gaat om meerdere steekproeven.
Op een gegeven moment neemt de steekproevenverdeling de vorm van een normale verdeling
aan, naarmate er steeds meer steekproeven getrokken worden. Hiermee kunnen kansen
berekend worden.
De getallen op de horizontale as bestaan uit de steekproefruimte, dus alle mogelijke
uitkomsten dat de steekproefgrootheid ‘aantal gele snoepjes’ kan hebben.
De verticale as bestaat uit het aantal steekproeven die een bepaalde waarde van gele snoepjes
had. Bijvoorbeeld: de waarde ‘3’ op de horizontale as, heeft een waarde van 230 op de
verticale as, wat betekent dat van de 1000 steekproeven, 230 keer een steekproef (zakje) drie
gele snoepjes had.
1
,1.2.3 Probability and probability distribution
De kans om een steekproef met exact vijf gele snoepjes als steekproefuitkomst, hangt af van
de verdeling van gele snoepjes in de populatie. Wanneer de verhouding van gele snoepjes in
de populatie 0,2 is, is de kans op twee gele snoepjes in de populatie het grootst.
De steekproevenverdeling kan gebruikt worden om de kans uit te rekenen dat een snoepzakje
exact vijf gele snoepjes bevat het aantal steekproeven met vijf gele snoepjes wordt gedeeld
door het totaal aantal getrokken steekproeven.
Wanneer we de absolute frequenties van de steekproefverdeling veranderen in relatieve
frequenties, krijgen we de kansverdeling. Dit is een steekproefruimte met een kans tussen 0
en 1 voor elke uitkomst.
Bij een discrete kansverdeling heeft de variabele een telbaar aantal uitkomsten. Wanneer
gekeken wordt naar het aantal gele snoepjes in een zak van tien snoepjes, kan de waarde
variëren van 0 tot 10 (maar niet 4,2 o.i.d.).
Een steekproevenverdeling waarbij gebruik gemaakt is van een kansverdeling, bevat
belangrijke informatie. Het vertelt welke uitkomsten we kunnen verwachten en het vertelt wat
de kans is dat een bepaalde uitkomst plaats zal vinden.
1.2.4 Expected value or expectation
Verwachte waarde = het gemiddelde van een steekproevenverdeling; de waarde die verwacht
wordt als je een steekproef trekt. Als je bijvoorbeeld weet dat in de populatie de kans op een
geel snoepje 20% is, dan is de verwachte waarde in een steekproef (zakje met tien snoepjes)
twee gele snoepjes.
De verwachtingswaarde moet verband houden met hoe de verdeling er in de populatie uit ziet.
Wanneer de verdeling van gele snoepjes in de populatie 0,20 (of 20%) is, verwachten we dat
één op de vijf snoepjes in een zak geel is. In een zak van tien snoepjes, verwachten we dus
twee gele snoepjes.
De verwachtingswaarde van de verhouding gele snoepjes in een steekproef, komt dus overeen
met de verhouding van gele snoepjes in de populatie.
De verwachtingswaarde is ook gelijk aan het gemiddelde van de steekproefverdeling. De
verwachtingswaarde is dus het gemiddelde van de steekproefverdeling van een random
variabele (= bijvoorbeeld het aantal gele snoepjes).
1.2.5 Unbiased estimator
Een zuivere schatter houdt in dat een schatter gemiddeld (over alle steekproeven) genomen
precies de juiste waarde heeft als de werkelijke onbekende eigenschap (populatie). De schatter
is dus in verwachting gelijk aan de gezochte parameter (= populatiegemiddelde).
Op basis van de steekproefwaarde kan een goede indictie gegeven worden van de hele
populatie. Een voorwaarde hiervoor is dat de steekproef groot genoeg is.
1.2.6 Representative sample
Een steekproef is representatief voor de populatie als de variabelen in de steekproef op
dezelfde manier verdeeld zijn als in de populatie.
De steekproef komt natuurlijk nooit helemaal overeen met de populatie, maar we gaan er
vanuit dat de steekproef in principe representatief is voor de populatie.
1.3. Continuous variable
Een continue variabele kan in een bepaald interval iedere waarde aannemen. Voorbeelden
zijn lengte, temperatuur of gewicht (van bijvoorbeeld snoepjes in een zak). Dit kan 2,8 of 2,81
zijn, maar daartussen kan ook nog een waarde zitten.
2
, Een variabele is dus continue, wanneer er altijd een nieuwe waarde aangenomen kan worden
tussen twee waarden.
1.3.2 Continuous sample statistic
Stel, er wordt gekeken naar het gemiddelde gewicht van snoepjes in een zak (=
steekproefgrootheid). Dit wordt gebruikt om iets te zeggen over het gemiddelde gewicht in de
populatie.
Het gemiddelde gewicht van snoepjes in de populatie is hetzelfde als het gemiddelde in de
steekproefverdeling. Het steekproefgemiddelde is namelijk een zuivere schatter van het
populatiegemiddelde. De verwachtingswaarde van de steekproef is dus ook hetzelfde als het
gemiddelde gewicht van de steekproef.
1.3.3 Continuous probabilities
Bij de kansverdelingen bij een continue variabele ontstaat er een probleem: als je de kans wilt
weten op een zak met een gemiddeld gewicht van 2,8 gram, worden gemiddelden van 2,81
gram of 2,801 gram daar niet toe gerekend.
Het is zeer onwaarschijnlijk dat er een zak is met een exact gewicht van 2,8000 gram de
kans is nul; dit geldt voor elk gemiddeld snoepgewicht.
1.3.4 p Values
Om dit probleem op te lossen, wordt gekeken naar een range van waarden in plaats van één
enkele waarde. Er wordt een drempel gekozen, bijvoorbeeld 2,8 gram en vervolgens wordt
bepaald wat de kans is dat een snoepje 2,8 gram of meer weegt of 2,8 gram of minder.
Er kan ook gekozen worden voor twee drempels: bijvoorbeeld de kans op een gemiddeld
gewicht tussen 2,75 en 2,85 gram.
De kans wordt weergegeven op een horizontale as en een curve. Bij de curve wordt dan
gesproken van kansdichtheid (probability density function) genoemd, bijvoorbeeld wat de
kans is dat het gewicht tussen twee en drie gram ligt. Bij een discrete variabele wordt
gesproken over ‘kans’ (in plaats van kansdichtheid) op de verticale as.
De kans op waarden tot de drempel of de kans op een waarde van de drempel of hoger worden
p-waarden genoemd.
o Left-handed p-waarde: de kans op waarden tot en met de drempel, dus bijvoorbeeld de
kans op een gemiddeld gewicht van 2,8 gram of lager.
o Right-handed p-waarde: de kans op waarden van de drempel of hoger, dus
bijvoorbeeld de kans op een gemiddeld gewicht van 2,8 gram of hoger.
1.4.1 Samples characteristics as observations
Belangrijk om te onthouden is dat bij een steekproevenverdeling de steekproeven de analyse-
eenheden zijn en de steekproefkenmerken de observaties. Elke steekproef voegt een observatie
toe aan de steekproevenverdeling.
1.4.2 Means at three levels
Er zijn drie niveaus van gemiddelden:
1. Het gemiddelde van de populatie = het ware gemiddelde. Deze ken je bijna nooit, tenzij de
populatie zo klein is dat iedereen ondervraagd kan worden. Dit
gemiddelde verandert niet.
o Onderzoekseenheden: gele snoepjes
2. Het gemiddelde van de steekproevenverdeling = naarmate er meer
steekproeven getrokken worden uit de populatie, zal het gemiddelde
steeds vaker in het midden van de normale verdeling liggen en steeds
3
, meer lijken op het gemiddelde van de populatie. Bij deze curve staat kansdichtheid, omdat het
een continue variabele is en er dus geen exacte waarden bestaan.
o Onderzoekseenheden: steekproeven
3. Het gemiddelde van de steekproefverdeling = het resultaat van één steekproef uit de populatie.
Dit gemiddelde kan erg uiteenlopen.
o Onderzoekseenheden: gele snoepjes
Het gemiddelde van de populatie is hetzelfde als het gemiddelde van de steekproevenverdeling, want
een steekproefgemiddelde is een zuivere schatter van het populatiegemiddelde.
De steekproevenverdeling verbindt de populatie met de steekproef en is de vitale schakel om
uitspraken te doen over de populatie op basis van de steekproef.
Hoofdstuk 2: Kansmodellen
Belangrijke concepten: bootstrappen, trekken met terugleggen, exacte aanpak, benadering met een
theoretische kansverdeling, binomiale verdeling, (standaard)normale verdeling, (student) t verdeling,
F verdeling, Chi-kwadraat verdeling, controles op voorwaarden voor theoretische kansverdelingen,
steekproefomvang, gelijke populatievarianties, verwachte waarden, onafhankelijke steekproeven,
afhankelijke/gepaarde steekproeven.
“Hoe krijgen we een steekproevenverdeling zonder zelf veel steekproeven te moeten trekken?”
Het kost veel tijd en geld om zelf iedere keer een steekproef te trekken en de steekproefuitkomst te
noteren in de steekproevenverdeling er zijn drie manieren om een steekproevenverdeling te maken,
terwijl er data verzameld is van slechts één steekproef:
1. Bootstrappen
2. Exacte aanpak
3. Benadering met een theoretische kansverdeling
2.1 The Bootstrap Approximation of the Sampling Distribution
Bootstrap: er wordt één steekproef getrokken uit de populatie, waarna vervolgens een groot
aantal steekproeven getrokken worden uit deze eerste steekproef. De kansverdeling van deze
ene steekproef is dus het startpunt en er worden vervolgens uitkomsten van een nieuwe
steekproef gesimuleerd. Meestal worden er ongeveer 5000 bootstrap steekproeven gebruikt.
Het is belangrijk dat een bootstrap steekproef net zo groot is als de oorspronkelijke steekproef.
De ‘ware’ steekproevenverdeling blijft hetzelfde, omdat het aantal gele snoepjes in de
populatie hetzelfde blijft (20%). Wanneer het percentage gele snoepjes in de steekproef dicht
bij 20% ligt, dan komt de bootstrap steekproevenverdeling overeen met de ware
steekproevenverdeling.
Maar: wanneer er meer of minder dan 20% gele snoepjes in de steekproef zitten, verschilt de
bootstrap steekproevenverdeling van de ware steekproevenverdeling. Het gemiddelde is dan
ook niet hetzelfde.
2.1.1 Sampling with and without replacement
De grootte van de steekproef is belangrijk voor de vorm van de steekproevenverdeling. Zo kan
een steekproevenverdeling van steekproeven met 20 gevallen sterk afwijken van de
steekproevenverdeling van steekproeven met 40 gevallen. Om een steekproevenverdeling te
maken van bootstrap steekproeven, moet de bootstrap steekproeven exact even groot zijn als
de originele steekproef.
4