Onderzoek en statistiek II
Week 1:
Flitscolleges
Inductieve statistiek
Inductie: op basis van een beperkt aantal gevallen tot een algemene regel komen.
Inductie statistiek: gaat om de relatie tussen steekproeven (gegevens over een beperkt aantal) en
populatie.
8.8 binomiale verdeling nader bekeken
In theorie bestaan er oneindig veel binomiale verdelingen. Elk daarvan wordt getypeerd door een
combinatie n en π.
Om dergelijke tabellen te kunnen hanteren, is het nodig het begrip overschrijdingskans, weergegeven
met de kleine letter p, te kennen.
Je onderscheidt de linker- en de rechteroverschrijdingskans. De linkeroverschrijdingskans van een
bepaalde uitkomst van een kansproces is de kans op die uitkomst of een nog lagere uitkomst. (P(k<4)
Voor de berekening van een rechteroverschrijdingskans kijk je juist naar de uitkomsten die hoger zijn.
(P(k>16)
Cumulatieve kans = linkeroverschrijdingskans
Rekenvoorbeelden:
1) Probleem: iemand vult een toets van dertig drie keuzevragen in door alleen maar te gokken. Wat
is de kans dat hij vijftien of minder vragen goed heeft?
Oplossing: het gaat hier om een binomiale verdeling met n=30 en π= 1/3
Gevraagd wordt naar P(k<15). Dit is de cumulatieve kans ofwel linkeroverschrijdingskans die
hoort bij een k van 15. Deze kun je direct opzoeken in tabel B: 98,12%.
2) Probleem: wat is de voorgaande situatie de kans dat hij vijftien of meer vragen goed gokt?
Oplossing: gevraagd wordt nu de rechteroverschrijdingskans P(k>15). Deze staat niet direct in de
tabel, maar je weet dat de kans op vijftien of meer staat tegenover de kans op veertien of
minder: P(k>15) = 100% - P(k<14). Deze P(k<14) staat wel in de tabel, en bedraagt 95,65%. De
gevraagde kans is daarom 4,35%. 100 – 95,65 = 4.53
3) Probleem: wat is in de voorgaande situatie de kans dat hij precies 15 vragen goed heeft?
Oplossing: de gevraagde kans, P(k=15), kan worden berekend met de binomiaalformule. Met wat
redeneerwerk kun je echter ook tabel B gebruiken.
Om P(k=15) te berekenen moet je de cumulatieve kans P(k<14) blijkbaar aftrekken van de
cumulatieve kans P(k<15). Dit levert op 98,12% - 95,65% = 2,47%.
,Tabel B: opzoekregels
- De linkeroverschrijdingskans: direct opzoeken bij de betreffende k.
- De rechteroverschrijdingskans: de kans opzoeken bij K-1; deze kans aftrekken van 100%
- De kans op precies een bepaalde k:
a) de (linkeroverschijdings)kans opzoeken van k.
b) dan de (linkeroverschrijdings(kans) opzoeken k-1.
c) de kans van b aftrekken van de kans van a.
Binominale verdeling: uitleg
Je werpt 8 maal een muntje.
Wat is de kans dat je in totaal 8 maal kruis werpt?
P= ½ x ½ x ½ x ½ x ½ x ½ x ½ x ½
(½ )8 = 1:256 = ± 0,004 = 0,4%
Wat is de kans dat je in 8 keer één keer munt gooit en de andere zeven kruis gooit?
Kans P= 8 x (½)8 = 8/256 = 1/32 = ± 0,031 = 3,1%
Symbolen:
n = hoe vaak/hoeveel
π = de kans op succes
Kans P op k keer …
8.12 steekproefgegevens als uitkomst van een kansproces
De frequentieverdeling van een variabele in een populatie biedt de kansverdeling van de waarden van
een willekeurig steekproefelement op die variabele.
Steekproefgegevens zijn dan ook het resultaat van een kansproces, waarbij de stand van zaken in de
populatie de kansen op bepaalde uitkomsten bepaalt.
Over het algemeen geven Griekse letters populatiegrootheden aan. Voor grootheden in een populatie
gebruik je ook wel de term parameters.
De steekproefgrootheden s2, s, p en r zijn geen parameters, maar noem je stochasten: gewone letters
schatting.
9.1 inductieve statistiek en kansrekening
De kansrekening gaat uit van bekende gegevens over de populatie (de parameters) om van daaruit de
kans op waarden in de steekproef te berekenen (de stochasten). Met behulp van de inductieve statistiek
probeer je daarentegen parameters te schatten op basis van stochasten. Dat gebeurt overigens juist door
gebruik te maken van de kansrekening.
Stochasten gedragen zich als kansvariabelen, want ze zijn aan toevalsfactoren onderhevig.
,10.1 intuïtieve inleiding op het begrip significantie
Wanneer Marie zó vaak heeft gewonnen dat je ervan overtuigd bent geraakt dat ze werkelijk per spel een
grotere kans heeft om te winnen dan Jan, zeg je dat ze significant vaker heeft gewonnen. Dat betekent
dat deze kan zich onderscheidt van het toeval. Wanneer een uitkomst significant is, houdt dat in dat deze
bijna geen toeval meer kan zijn. Uit de voorzichtige formulering, ‘bijna’, blijkt al dat je nooit met volle
zekerheid kunt bewijzen dat er meer is dan alleen maar toeval.
10.2 de binomiaaltoets
Wanneer is de overschrijdingskans klein genoeg om te mogen concluderen dan de uitkomst significant is?
Het is steeds een individuele keuze welk kanspercentage voor de onderzoeker aanvaardbaar is om tot die
beslissing te komen.
Het is een goed gebruik onder onderzoeker om vóór het verzamelen van de gegevens een kanspercentage
als criterium te kiezen. Dit noem je significantieniveau, dat je aangeeft met de Griekse letter α (alfa).
Voor α kies je een rond getal.
Binomiaaltoets gaat om de toepassing van de binomiale verdeling.
De binomiaaltoets gaat uit van een frequentieverdeling van een dichotome variabele, dat is een nominale
variabele met slechts twee meetwaarden.
Binominale verdeling: overschrijdingskans (p), grenskans (a)
Grenskans vaststellen. Deze grens is a (alfa)
Significant: de moeite waard; voldoende onderscheid van toeval
a kies je p vindt je
Oefenvraag: n= 40, k=27 goede antwoorde, a=5%
P=P(k>27)
= 100% - P(k<26) (opzoeken tabel B, n=40)
= 100% - 98,08% = 1,92%
Dus p<a resultaat is significant, er zal waarschijnlijk niet alleen gegokt zijn.
, Huiswerk week 1:
Opgave 1
a. Pak de bovenste tabel van bladzijde 360 van het boek erbij. De gegevens daarin slaan op de
kansverdeling van n = 20. Boven de tweede kolom vind je de letter k. Boven ongeveer de middelste
kolom staat, onder de regel met daarin de letter π, het getal 0,50. Lees nu af wat de kans is op (k =) 5
of minder keer kruis gooien als je 20 keer een munt werpt.
Merk op dat als de ene persoon 5 of minder keer wint de ander dan dus 15 of meer keer moet
winnen. De kans die je zojuist hebt opgezocht is dus gelijk aan de rechter overschrijdingskans bij k =
15 in tabel 10.1 in het boek op pagina 291.
2,07%
b. Stel dat iemand op 40 vierkeuzevragen alleen maar gokt, dan is de kans per vraag deze goed te
hebben 1/4 = 0,25. Kijk nu op bladzijde 362 van het boek. Daar staat de tabel voor n = 40. Zoek in de
kolom bij π = 0,25. Lees de kans af om (k =) 9 vragen of minder goed te hebben. Wat zal nu de kans
zijn op 10 of meer vragen goed?
100% - 43,95% = 56,05%
Opgave 2
Zoek en/of bereken met behulp van tabel B achter in het boek de volgende kansen, uitgaande van een
binomiale verdeling met n = 10.
a. de kans op 6 of minder, terwijl π = 1/3
98,03%
b. de kans op 7 of minder, terwijl π = 1/3
99,66%
c. de kans op 7 of meer, terwijl π = 1/3
100% - 98,03 = 1,97%
d. de kans op 7, terwijl π = 1/3
99,66% - 98,03% = 1,63% (kans van 6 en minder, kans van 7 en minder)
e. de kans op 3 of minder, terwijl π = 2/3
1,97%
Opgave 3
Iemand trekt 12 keer achter elkaar een kaart uit een compleet kaartspel (en legt de betrokken kaart
steeds weer terug, waarna goed wordt geschud). Bepaal nu:
n= 12
a. de kans op 4 of minder hartenkaarten
84,24%
b. de kans op 8 of meer zwarte kaarten
100% - 80,62% = 19,38% (100 - <7)
c. de kans op 6 ruitenkaarten
98,57% - 94,56% = 4,01% (kans 6 en minder, kans 5 en minder)