Onderzoek en Statistiek II: Cijfers Spreken
Toegepaste Psychologie
Samenvatting H8 (§8 & §12), H9 (§1, §2, §4, §5 & §8) en H10 (m.u.v. §6 & §12)
Inductieve statistiek: Van deel naar algemeen redeneren, dus van steekproef naar populatie
8.8: Binomiale verdelingen nader bekeken
In theorie bestaan er oneindig veel binomiale verdelingen. Elk daarvan wordt getypeerd door
een combinatie van n en . Voor een aantal waarden van n, in combinatie met een aantal
‘mooie’ waarden voor , bestaan er tabellen van de kansverdeling. Om dergelijke tabellen te
kunnen hanteren, is het nodig het begrip overschrijdingskans, weergegeven met de kleine
letter p, te kennen. Dit begrip is overigens ook van toepassing op andere kansverdelingen.
Je onderscheidt de linker- en de rechteroverschrijdingskans.
De linkeroverschrijdingskans van een bepaalde uitkomst van een kansproces is de kans op
die uitkomst of een nog lagere uitkomst. Dit is ook gelijk de cumulatieve kans.
Voor de berekeningen van een rechteroverschrijdingskans kijk je juist naar de uitkomsten die
hoger zijn. Om de rechteroverschrijdingskans voor 16 te bepalen, moet je kennelijk de
cumulatieve kans (= linkeroverschrijdingskans) van 15 opzoeken en deze van 100%
aftrekken.
p(k..) -> linkeroverschrijdingskans
p(k..) -> rechteroverschrijdingskans (dus berekening uitvoeren)
Tabel B uit het boek is de tabel met de cumulatieve waarden (linkeroverschrijdingskansen)
Bij de vraag van de kans op een precies getal, p(k=..), trek je de linkeroverschrijdingskans
van 1 minder dan k af van de linkeroverschrijdingskans van k. Om het wat duidelijker te
maken:
Wat is de kans op precies 15x munt gooien?
P(k=15) -> p(k15) – p(k14)
Tabel B: opzoekregels
- De linkeroverschrijdingskans: direct opzoeken bij de betreffende k
- De rechteroverschrijdingskans: de kans opzoeken bij k-1; deze kans aftrekken van 100%
- De kans op precies een bepaalde k:
a) De linkeroverschrijdingskans opzoeken van k
b) Dan de linkeroverschrijdingskans opzoeken van k-1
c) De kans van b aftrekken van a.
8.12: Steekproefgegevens als uitkomst van een kansproces
De populatieproportie () bepaalt de kans dat de steekproefproportie (p) zus of zo groot
uitvalt. De omvang van grootheden in de populatie bepaalt dus de kansverdeling van die
grootheden in een steekproef. Dit is de reden dat grootheden in de populatie met andere
symbolen worden aangeduid dan grootheden in de steekproef. Over het algemeen geven
Griekse letters populatiegrootheden aan, ook wel parameters (Parameters = Populatie)
genoemd, bijv.: , , , . ‘Gewone’ Romeinse letters gebruik je voor de grootheden zoals
gevonden binnen een steekproef. De steekproefgrootheden X(gem), s2, s, p en r zijn geen
parameters, maar noem je stochasten (Stochasten = Steekproef). Doorgaans ken je de
waarden van de parameters niet, maar wel van de stochasten. Op grond van de
steekproefgegevens probeer je een schatting te maken van de omvang van de parameters.
9.1: Inductieve statistiek en kansrekening
De kansrekening gaat uit van bekende gegevens over de populatie (parameters) om van
daaruit de kans op waarden in de steekproef (stochasten) te berekenen. Met behulp van de
, inductieve statistiek probeer je daarentegen parameters te schatten op basis van stochasten.
Stochasten gedragen zich als kansvariabelen, want ze zijn aan toevalsfactoren onderhevig.
Voorbeelden van zulke dergelijke stochasten zijn:
- het (steekproef)gemiddelde X(gem)
- de (steekproef)standaarddeviatie s
- de (steekproef)variantie s2
- de (steekproef)proportie p
- de (steekproef)PM-correlatiecoëfficiënt r
Je wilt de voor de steekproef berekende waarden gebruiken als schatters voor de
overeenkomstige parameters. Wanneer je de waarde die je in een steekproef vindt zonder
meer gebruikt als geschatte waarde van een parameters, maak je een puntschatting.
Een puntschatting staat tegenover een intervalschatting.
9.2: Het principe van betrouwbaarheidsintervallen
Door de toevalsfactoren die altijd meespelen in steekproeven, zou het zeer afzonderlijk zijn
als je in een steekproef een gemiddelde vindt dat exact gelijk is aan het gemiddelde in de
populatie. Een onderzoeker houdt bij een schatting altijd een slag om de arm. Hij schat de
populatie niet precies op wat hij in de steekproef vindt, maar met een bepaalde marge
daaromheen. Zo kun je bijvoorbeeld zeggen dat het populatiegemiddelde van de sporttijd
ergen ligt tussen zeven en de negen uur per week. Die uitspraak komt dan neer op:
7 uur per week ≤ μ ≤ 9 uur per week
Iets dergelijks noem je een betrouwbaarheidsinterval.
Een betrouwbaarheidsinterval geeft overigens nooit volledige zekerheid: bij de berekening
ervan hoort een percentage dat aangeeft hoe groot de kans is dat de parameter werkelijk in
dat interval ligt. Je kan bijvoorbeeld een betrouwbaarheidsinterval van 95% hebben. Er is
dan 5% kans dat je het met het betrouwbaarheidsinterval mis hebt. Die foutkans wordt wel
aangegeven met , alfa. Acceptabele betrouwbaarheidsintervallen zijn 95%, 99% en 90%.
De breedte van het interval is de nauwkeurigheid.
Het percentage (bijvoorbeeld 99% is de betrouwbaarheid.
Betrouwbaarheid en nauwkeurigheid zijn communicerende vaten: Wat je win aan het ene,
verlies je aan het andere.
Hoe breder het interval, dus hoe minder nauwkeurig, hoe betrouwbaarder je een uitspraak
kan doen. Omgekeerd hoe kleiner het interval, dus hoe nauwkeuriger, hoe minder
betrouwbaar je een uitspraak kan doen, dus hoe kleiner de betrouwbaarheid.
Naarmate een steekproef groter is kun je beter schatten. Door een grotere steekproef te
trekken maak je de schatting nauwkeuriger of betrouwbaarder. Er bestaat ook een verband
tussen de spreiding van de variabele en de kwaliteit van een betrouwbaarheidsinterval.
Naarmate de spreiding groter is, hebben toevalligheden en uitbijters meer kans de
steekproef te beïnvloeden en kun je met minder zekerheid schatten.
9.4: Een populatiegemiddelde schatten
Bij een steekproef met een omvang boven de 120 kun je deze formule gebruiken voor het
berekenen van het betrouwbaarheidsinterval:
X(gem)-zs/√ n X(gem) + zs/√ n
Bij een betrouwbaarheidsinterval voor 95% is de z=1,96.
Bij een betrouwbaarheidsinterval voor 99% is de z=2,58.
9.5: Een populatieproportie schatten
Een proportie is de relatieve frequentie van een meetwaarde en komt dus neer op het deel
objecten dat de een of andere eigenschap heeft. Meestal geef je proporties aan met een
decimaalgetal of in procenten, soms ook met een breuk. Je vindt de proportie door het deel
te delen door het geheel.