STATISTIEK II
Prof. Dr. Peter Theuns
AJ 2021-2022
,Inhoudsopgave
INTRO ...................................................................................................................................................................................... 1
1. BESCHRIJVENDE VS. INFERENTIËLE STATISTIEK.................................................................................................................. 1
1.1 DEDUCTIEVE OF BESCHRIJVENDE STATISTIEK .................................................................................................................................. 1
1.2 INDUCTIEVE OF INFERENTIËLE STATISTIEK ...................................................................................................................................... 1
1.2.1 Steekproef: informatie over de populatie ................................................................................................................... 1
1.2.2 Kans en inferentie ....................................................................................................................................................... 2
2. VERZAMELINGEN EN COMBINATIELEER ............................................................................................................................ 3
2.1 VERZAMELINGEN: EEN BEKNOPT OVERZICHT .................................................................................................................................. 3
2.1.1 Unie en doorsnede ...................................................................................................................................................... 4
2.1.2 Verschil........................................................................................................................................................................ 4
2.1.3 Partitie ........................................................................................................................................................................ 5
2.1.4 Complement van een deelverzameling ....................................................................................................................... 5
2.2 COMBINATIELEER ..................................................................................................................................................................... 5
2.2.1 Verschillende ‘codes’ ................................................................................................................................................... 6
2.2.2 Permutaties................................................................................................................................................................. 6
2.2.3 Variaties ...................................................................................................................................................................... 6
2.2.4 Combinaties ................................................................................................................................................................ 7
2.2.5 Samenvattend ............................................................................................................................................................. 8
HOOFDSTUK 4: KANSSREKENING - STUDIE VAN TOEVAL (RANDOMNESS) ................................................................................. 9
1. TOEVAL (RANDOMNESS) ................................................................................................................................................... 9
1.1 VOORBEELDEN VAN TOEVALSVERSCHIJNSELEN ............................................................................................................................... 9
1.2 BEGRIPPEN BIJ KANSREKENING .................................................................................................................................................... 9
1.3 FOCUSVOORBEELD: MUNT OPGOOIEN .......................................................................................................................................... 9
1.4 TOEVAL … OF NIET? ............................................................................................................................................................... 10
2. KANSMODELLEN ..............................................................................................................................................................11
2.1 WAT ................................................................................................................................................................................... 11
2.2 UITKOMSTENRUIMTE (SAMPLE SPACES) ...................................................................................................................................... 11
2.3 BASISREGELS VOOR KANSEN ..................................................................................................................................................... 11
2.4 MUNTSTUKKEN EN DOBBELSTENEN ALS ‘MODEL’?! ....................................................................................................................... 12
2.5 TOEKENNEN VAN KANSEN: EVEN WAARSCHIJNLIJKE UITKOMSTEN ..................................................................................................... 12
2.6 ONAFHANKELIJKHEID EN DE PRODUCTREGEL ............................................................................................................................... 12
3. STOCHASTISCHE VARIABELEN (RANDOM VARIABLES) ......................................................................................................12
4. VERWACHTING EN VARIANTIE VAN STOCHASTISCHE VARIABELEN ...................................................................................12
5. WETTEN VAN KANSREKENING .........................................................................................................................................13
5.1 DEFINITIE VAN KANS ............................................................................................................................................................... 13
5.1.1 Klassieke definitie van kans ...................................................................................................................................... 13
5.1.2 Frequentiële definitie van kans ................................................................................................................................. 13
5.2 REGELS VOOR KANSREKENING .................................................................................................................................................. 13
5.2.1 Venn-diagrammen voor kansen ................................................................................................................................ 13
5.2.2 Algemene optelregels ............................................................................................................................................... 14
5.2.3 Basisregels voor kansen ............................................................................................................................................ 14
5.2.4 Somregel voor 3 gebeurtenissen ............................................................................................................................... 14
5.3 VOORWAARDELIJKE KANS ........................................................................................................................................................ 15
5.4 ALGEMENE PRODUCTREGELS .................................................................................................................................................... 16
5.4.1 Algemene regel ......................................................................................................................................................... 16
Statistiek II: Kansrekening en Inferentiële Statistiek 1
, 5.4.2 Productregel voor 3 gebeurtenissen ......................................................................................................................... 16
5.4.3 Stochastische onafhankelijkheid ............................................................................................................................... 16
5.4.4 Productregel voor 2 onafhankelijke gebeurtenissen ................................................................................................. 17
5.5 BOOMDIAGRAM .................................................................................................................................................................... 17
5.6 REGEL VAN BAYES .................................................................................................................................................................. 19
3. STOCHASTISCHE VARIABELEN (TOEVALSVARIABELEN) .....................................................................................................21
3.1 STOCHASTISCHE VARIABELEN .................................................................................................................................................... 21
3.2 DISCRETE STOCHASTISCHE VARIABELEN....................................................................................................................................... 21
3.2.1 Wat zijn discrete stochastische variabelen? ............................................................................................................. 21
3.2.2 Kansen en a-selecte steekproeven ............................................................................................................................ 22
3.2.3 Theoretische steekproevenverdeling ........................................................................................................................ 23
3.3 CONTINUE STOCHASTISCHE VARIABELEN ..................................................................................................................................... 24
3.3.1 Oppervlakte onder een curve .................................................................................................................................... 24
3.4 NORMAALVERDELINGEN ALS KANSVERDELINGEN .......................................................................................................................... 25
4. VERWACHTING EN VARIANTIE VAN STOCHASTISCHE VARIABELEN...................................................................................26
4.1 VERWACHTING VAN EEN DISCRETE STOCHASTISCHE VARIABELE ........................................................................................................ 26
4.2 VERWACHTING VAN EEN CONTINUE STOCHASTISCHE VARIABELE ...................................................................................................... 27
4.3 STATISTISCHE SCHATTING EN DE WET VAN DE GROTE GETALLEN ..................................................................................................... 27
4.3.1 Wet van de Grote Getallen ....................................................................................................................................... 27
4.3.2 Statistische schatting ................................................................................................................................................ 28
4.4 REGELS VOOR VERWACHTINGEN ............................................................................................................................................... 28
4.5 VARIANTIE VAN EEN STOCHASTISCHE VARIABELE ........................................................................................................................... 29
4.5.1 Variantie van een discrete vs. continue stochastische variabele .............................................................................. 30
4.6 REGELS VOOR VARIANTIES ....................................................................................................................................................... 30
Statistiek II: Kansrekening en Inferentiële Statistiek 2
, INTRO
1. B ESCHRIJVENDE VS . I NFERENTIËLE S TATISTIEK
1.1 Deductieve of Beschrijvende Statistiek
Doel = globale patronen, gegevens tonen en samenvatten in figuren of in cijfers
o Kengetallen = karakteristieke waarden = beschrijvende maten (gemiddelde, standaardafwijking,
correlatiecoëfficiënt, etc.)
o Figuren (histogram, spreidingsdiagram, …)
1.2 Inductieve of Inferentiële statistiek
Verklarende statistiek: vergelijkt onderzoeksgegevens met wat mogelijk is door TOEVAL, gebaseerd op kansrekening
• Op basis van een beperkt aantal gegevens wordt getracht om algemene uitspraken te formuleren over de gehele
populatie.
• Je gaat een vergelijking maken tussen de gegevens die je verzameld hebt en dingen die je kan verklaren door toeval.
Je wil dus nagaan of dingen die vastgesteld worden verklaard kunnen worden door toeval, of of er iets speciaals aan
de hand is.
1.2.1 Steekproef: informatie over de populatie
• Er wordt een populatie gekozen, waarvoor een steekproef bepaald wordt. In de beschrijvende statistiek zal je
beschrijven wat je hebt. In deze cursus ga je kijken naar de steekproef, de beschrijvingen ervan (gemiddelde, sd …), en
dan meer specifiek wat de steekproef vertelt over de hele populatie. Je werkt dus met inductie.
In een steekproef van 21 studenten 1BA zijn er 19 Nee! Stel dat je een populatie hebt met 50-50
meisjes. Kan je dan besluiten dat minstens 75% van jongens/meisjes. Als je daaruit een steekproef trekt, kan je
1BA meisjes zijn? bv. één hebben ook met 50-50. Je hebt dus twee
onderzoekers die alle twee een steekproef getrokken
hebben, maar een andere steekproef uitkomen!
De inferentiële statistiek gaat zich afvragen: wat kan je
verwachten op het niveau van de populatie? En hoe zeker
zijn we daarover?
Statistiek II: Kansrekening en Inferentiële Statistiek 1
,1.2.2 Kans en inferentie
Waarom doen we kansrekening? Je gaat je afvragen als de populatie eruit ziet als X, hoe groot is dan de kans dat je een
steekproef trekt met 50-50 jongens/meisjes, of enkel meisjes, bijvoorbeeld. Of, als je steekproef X trekt, wat kan je dan
verwachten van de populatie?
Situatie:
Er is een hok met een rat in. Aan de andere kant van het hok zijn er 4
deurtjes waarop fotootjes staan. Er zijn er van jonge meisjes en
jongens, en van volwassen vrouwen en mannen. Er zijn 4
categorieën, maar honderden foto’s.
Vraag: zou een rat in staat zijn om foto’s van jonge meisjes te
herkennen wanneer je iedere keer andere fotootjes op de deur
hangt. Stel je voor dat een rat dit kan, wat moet die dan doen om
ons te tonen dat hij het kan?
Methodiek: er is een trial run. Iedere keer de rat het deurtje met het jonge meisjes aanduidt, ligt er een graantje achter de deur
(en krijgt het eten). De keuze voor meisjes wordt dus beloond.
Indien de rat kiest op basis van toeval:
• 20 pogingen
• Per poging 1 kans op 4 op correcte keuze
• Gemiddeld verwachten we 5 correcte keuzen (1/4 van 20 trials) => de ondergrens (drempelwaarde) tot slagen? 25%, ¼
is toeval. Een toevalsprestatie is dus ¼.
Dit kunnen we nabootsen met een computer, met de kansen van 0-0,20.
Je kan dit vergelijken met een zakje met 4 pingpongballetjes. Je hebt 3
witte balletjes, en 1 fluo balletje. Om dit experiment na te bootsen, ga je
één balletje uit het zakje nemen. Als het het fluo balletje is, heeft de rat
het jonge meisje gevonden. Dit is 1000 keer gedaan, met deze (zie figuur)
frequenties. Deze verdeling gelijkt op een normaalverdeling, maar is niet
volledig glad (er zijn trappen). De verdeling is eigenlijk licht rechts scheef.
Zelfs ratten die enkel op toeval werken, vinden 11 keer het juiste deurtje.
Vanaf dat een rat beter doet dan 5/20 is het geen toeval, klopt dat? Nee!
Ook ratten die zuiver op basis van toeval naar de deurtjes lopen, kunnen
meer dan 5 keer het juiste deurtje vinden.
Stel, je bent geslaagd met 10/20. Hier betekent dit dat de afkapwaarde ‘minder dan 10’ is. Hier zie je de gegevens van 1000
ratten die enkel toeval gebruikt hebben, er zijn er bv. 10 geslaagd op het examen. Dit is het risico wanneer je als criterium 10/20
gebruikt. Dit is de p-waarde, of overschrijdingskans. Dit betekent dat je 10 kansen hebt op 1000 en dat de nulhypothese
verworpen wordt (dat de rat niet weet wat hij aan het doen is).
De nulhypothese stelt hier dat de rat het niet kan. Je zal dit verwerpen in 1% van de keren. Vanaf dat een rat er 10 kan, ga je
zeggen dat hij het kan. Met de drempel op 10 te zetten loop je een risico van 10 op 1000 dat je een verkeerd besluit neemt.
Een rat die het niet kan, kan toch wel geluk hebben en 10 keer de juiste deur opendoen. Dit kan theoretisch wel, maar is zeer
onwaarschijnlijk. Op de grafiek zie je dat 0 en 11 zeer onwaarschijnlijk is, het is verwaarloosbaar klein. De kansrekening zal
tonen hoe onwaarschijnlijk dit is. Je gaat dus bepaalde risico’s moeten nemen. Je gaat ervan uit dat het niet klopt, dat de rat
het niet kan, en dan ga je kijken naar welke prestaties verklaard kunnen worden toeval. Hetgeen het meest voorkomt is die 5,
dat is 1 kans op 4 in de 20 pogingen.
Statistiek II: Kansrekening en Inferentiële Statistiek 2
,De drempelwaarde zal meestal 5% zijn. Dit
In de simulatie zie je ratten die tot 15 keer het juiste deurtje open gedaan
betekent dat je een oppervalakte van 5%
hebben. Deze figuur is ook regelmatiger en gladder geworden. Het is nog meer
moet afhakken. Vanaf dat de rat minstens 8
rechts scheef.
keer het juiste deurtje opent, kan hij het.
Er zijn dus vrij veel ratten die 8 of minder keren het juiste deurtje aangeduid
Besluit: we hebben voorgesteld wat ratten hebben. Weinig deden dit 9 of meer keer? Waar moet je de grens leggen dat
kunnen (het histogram). Stel dat je het
ratten het wel/niet kunnen? Als je weinig fouten wil lopen, dan moet je de lat
experiment echt doet, en dat een echte rat
leggen voorbij de 15. Ratten die meer dan 15 keer het juiste aanduiden, hebben
10 keer het juiste deurtje vindt, dan kan je
het meeste kans dat ze het geleerd hebben. Je bent dan wel zéér streng! Je kan
besluiten dat de rat het kan, maar je weet de grens verleggen, bv. vanaf 5 is het goed (ze kunnen meisjes herkennen). Die
dat je niet zeker bent dat hij het écht kan. oppervlakte is nog steeds groot, 30% zou het dan kunnen. Afhankelijk van waar
Met die uitspraak loop je dus een risico, met
je je criterium legt, zal je meer of minder fouten maakt.
de grootte van de blokjes dat je een
verkeerd besluit trekt. Als de rat 15 keer de
De logica is; stel dat ze het niet kunnen, wat kan je verwachten van toeval?
juiste deur opendoet, komt dit bijna nooit
voor. Je weet dus als jouw rat dat deed, dat
het geen toeval is.
2. V ERZAMELINGEN EN COMBINATIELEER
2.1 Verzamelingen: een beknopt overzicht
Een verzameling is een opsomming van elementen. Het wordt
genoteerd tussen accolades, en in een Venn-diagram. Dit diagram
moet een gesloten figuur zijn. De puntjes zijn de elementen, je
mag die een naam geven. De vorm (hier een ellips) is niet
belangrijk. Binne nde verzameling kan je een deelverzameling (B)
maken.
De kleinste staat links, dit gelijkt aan een ‘kleiner dan’ teken: B <
A
Wat kan je nu allemaal doen met verzamelingen?
Statistiek II: Kansrekening en Inferentiële Statistiek 3
,2.1.1 Unie en doorsnede
UNIE DOORSNEDE
Alle elementen die of in A, of in B, of in allebei zitten. De doorsnede zijn de elementen die in beide verzamelingen
zitten.
A OF B: er is een onderscheid tussen een
- Inclusieve ‘of’: met doorsnede (middenste stuk)
- Exclusieve ‘of’: zonder gemeenschappelijk (twee
witte stukken)
Speciale situatie
Die verzamelingen die elkaar niet overlappen:
De unie bestaat uit 2 stukken. Je kan er ook nog een ellips rond tekenen
waardoor je de 2 groepeert, zolang er in het stuk tussen A en B geen
elementen zitten.
2.1.2 Verschil
De verzameling E is verzameling A – verzameling B.
Voorbeeld: dagen van de week
Je kan deelverzamelingen maken: bijvoorbeeld de werkdagen,
weekenddagen, weekdagen, dagen geschreven met 8 letters … Je
mag dit allemaal tekenen.
Statistiek II: Kansrekening en Inferentiële Statistiek 4
, 2.1.3 Partitie
Dit is een opdeling van een grotere verzameling, in een aantal deelverzamelingen.
Door de som te nemen van de deelverzamelingen, kom je het oorspronkelijk
aantal uit. Er mogen dus geen overlappingen zijn! De doorsnedes moeten leeg zijn.
De unie van alle verzamelingen samen moeten het oorspronkelijk aantal zijn.
2.1.4 Complement van een deelverzameling
Het complement van B binnen A: dit is alles van A, zonder B. Zo kan je
verschillende delen van de verzameling aanduiden.
2.2 Combinatieleer
Op hoeveel manieren kan je bepaalde dingen samennemen?
Cijferslot: Je kan dit bijvoorbeeld bekijken met een cijferslot: hoeveel codes kan je maken?
Verschillende codes Permutaties Variaties Combinaties
Hoeveel codes kan je maken? # volgorden (van ganse # geordende # deelverzamelingen
verzameling) deelverzamelingen
In elk van de 4 opties heb je 10 Met 10 cijfers (0 – 9), hoeveel Hoeveel getallen van 3 Met de 10 cijfers (0 – 9), hoeveel deelverzamelingen
opties (0-9). codes van 10 verschillende verschillende cijfers? van 3 verschillende cijfers kan men maken ?
cijfers kan men maken ?
10×10×10×10=104=10000 10 x 9 x 8
10×9×8×7×6×5×4×3×2×1
Je hebt 20 kindjes en je wil een groepswerk
Dit zijn volgorden, of organiseren met groepen van 4 kindjes. Hoeveel
faculteiten*, die gaan tot 1. combi’s kan je maken? Of je nu 1e of 4e gekozen bent,
de samenstelling blijft hetzelfde.
Het gaat dus niet over het aantal getallen je kan
maken, maar wel de deelverzamelingen!
Herhalen van cijfers mag Herhalen van cijfers mag niet De volgorde is belangrijk De volgorde heeft geen belang
Faculteit: Dit is een herhaalde vermenigvuldiging waarbij je iedere keer één cijfer lager gaat, tot je uitkomt op 1.
Bij getallen is de volgorde belangrijk! Als je cijfers in een verschillende volgorde zet, worden dit andere getallen. 123 is niet
hetzelfde als 321. Als je uit je vrienden er 5 kiest om op vakantie te gaan, dan doet de volgorde er niet toe (eerst Paul kiezen en
dan Laura, of eerst Paul en dan Laura). Belangrijk is om de situatie voor te stellen.
Statistiek II: Kansrekening en Inferentiële Statistiek 5