Hoorcollege 4: Twee stromingen in de statistiek
Er zijn twee verschillende manieren om naar de analyse van data te kijken, waarbij eentje niet
beter is dan de ander. Het is belangrijk om je af te vragen welke aanpak degene die jou adviseert
of een oordeel geeft, heeft gehanteerd. Ook in de juridische praktijk wordt de Bayesiaanse
methode uitgelegd en toegepast.
Deze week:
- Klassieke statistiek (frequentistisch). Dit is eigenlijk wat we tot nu toe hebben gedaan.
Frequentistisch zegt zoiets als we turven het aantal waarnemingen en gegeven dat passen
we dat bij een verdeling en we doen alsof we die waarnemingen als het ware opnieuw
zouden kunnen verzamelen het stelt dus dat een waarneming een resultaat is van een
experiment en dat er ook een andere waarneming had kunnen zijn.
VB: ‘het is vandaag 18 graden, maar het had ook 17 of 19 kunnen zijn’ je doet dan als het ware alsof je even zou kunnen
wegkijken, en daarna weer de thermometer bekijkt en wow opeens is het nu 17 graden.
- Dat heeft voordelen en nadelen, vooral ook als we meerdere testen gaan gebruiken.
- Ook gaan we kijken naar de valkuilen.
- Die valkuilen heeft de Bayesiaanse statistiek niet die heeft het uitgangspunt dat de
data maar één keer zijn verzameld en dat je het daarmee moet gaan doen (dat klinkt op
zich wel plausibel). Het gaat er dus vanuit dat de waarnemingen zijn zoals ze zijn en dat de
kans waarmee ze voorkomen kan worden ingeschat.
VB: wat is de kans dat bij een Formule 1-race Verstappen wint? die kans kan je afhankelijk maken v.d. resultaten uit het
verleden. Stel, Verstappen heeft 9x gewonnen en Hamilton 90x, dan zou je kunnen stellen dat de kans dat Verstappen wint is
9/99, oftewel 1/11. Naarmate de race dichterbij komt en de kwalificatie wordt gereden, zou je die kans willen updaten en dus
kleiner of groter laten worden. Je hebt dus een kans vooraf en met extra informatie kan de kans een nieuwe waarde krijgen.
- De Bayesiaanse statistiek heeft ook z’n voordelen en nadelen.
- Evaluatie.
Frequentistische statistiek
Het idee: de data zijn willekeurig (hadden ook iets anders kunnen zijn, een andere steekproef),
maar de parameters zijn vast.
DUS: de waarnemingen zijn willekeurige trekkingen uit een verdeling en de analist moet de
eigenschappen van die verdeling vinden.
Bijv. je stelt dat de inkomensverdeling kan worden beschreven d.m.v. een Lognormale
verdeling met parameters μ en σ 2 en dat je met echte gegevens voor een land of stad die
parameters inschat je zegt dan als het ware dat de waargenomen waarnemingen
‘gegenereerd worden’ door een verdeling met vaste parameters.
Voorbeeld ter illustratie: Munt opgooien
Stel je hebt een munt en die gooi je op. Dit doe je 12 keer. Je vindt kop (K), en munt (M) als volgt
K: 3
M: 9
Wat is de kans op M als je nog een dertiende keer gooit?
Als er met de munt verder niets aan de hand is, is de kans op Kop en de kans op Munt gelijk aan
1 1 1
. Dus, bij een dertiende keer gooien is de kans een op Kop en een op Munt, onafhankelijk
2 2 2
van die 3 en 9.
Dit is een voorbeeld van het geval dat de parameter (de kans op K of op M) al vaststaat, en
eigenlijk dat wat je in je experiment hebt gevonden er niet specifiek toe doet. De Bayesiaanse
statistiek neemt daarentegen de resultaten van het experiment wel direct mee in de analyse.
, Voordelen, nadelen?
Wat betekent nu eigenlijk een kans van een half of 50%? De interpretatie is dat de kans van 50%
op Kop of Munt is gebaseerd op het idee dat je dit eindeloos vaak zou kunnen doen.
Bij een munt opgooien kun je je voorstellen dat je in beginsel oneindig vaak een munt kan
opgooien, en als je dat zou doen dat je dan in theorie in 50% v.d. gevallen Kop en in 50% v.d.
gevallen Munt vindt. In het echt kan het niet natuurlijk niet oneindig, en dan vind je dus ongeveer
50% als je vaak gooit.
Dus het gaat hierbij om het idee dat je het eindeloos vaak zou kunnen herhalen en dat zou bij Kop
en Munt evt. wel kunnen, maar dit wordt misschien wel anders bij bijv. het aantal races gewonnen
door Verstappen en het aantal races gewonnen door Hamilton, dan is het misschien niet meer dat
je dat eindeloos vaak kan doen. Dus hierin zit ook een beetje de subtiliteit.
Maar wat betekent nu eigenlijk: ‘de kans dat het morgen gaat regenen is 70%’ ?
Letterlijk betekent dit dat als er een miljoen “morgens” zouden zijn, dat het dan in 700.000 van die
“morgens” zou regenen. Volgens de frequentistische aanpak zou je dan moeten gaan tellen/turven,
maar je kunt je afvragen of dit een redelijke of zinvolle uitspraak is. We zijn hier wel aan gewend
want dit zien we dagelijks, bijv. weersvoorspellingen zijn allemaal op deze manier vertaald en
gedefinieerd.
Interpretatie van meerdere testen (een mogelijk probleem bij frequentistische aanpak):
Een ander mogelijk nadeel wordt duidelijk als je niet een enkele test doet, maar veel meer. De fout
van het type 1 gaat dan een prominente rol spelen (die fout is nooit 0, er is altijd wel een fout
mogelijk).
Voorbeeld aan de hand waarvan je kunt zien hoe snel je een vergissing kan begaan:
Er is een plaats delict en er is DNA-materiaal gevonden van een mogelijke dader (op dat plaats
delict wordt dus een DNA monster genomen). Dit monster wordt vergeleken met het DNA van
20.000 mannen in de wijde omtrek rondom het plaats delict.
Stel dat de DNA test slechts in 1 v.d. 10.000 vergelijkingen onterecht een match geeft (dit is een
hele kleine fout van type 1, beter gezegd: het ‘lijkt klein’).
(die 1 op 10.000 zou best redelijk kunnen zijn gegeven de huidige kwaliteit van forensisch onderzoek. Die 1 wordt nooit een 0, wel
mogelijk is 1 op 100.000, maar niet 0 op 100.000. Er is altijd kans op een fout)
Stel verder: Er wordt een match gevonden bij 1 van die 20.000 mannen. Is deze man nu schuldig
omdat de test maar in 9999 van de 10.000 gevallen er niet naast kan zitten? het misschien
verassende antwoord is ‘nee’. Dit is als volgt te zien:
Stel dat in werkelijkheid niemand van die 20.000 mannen in de database een DNA-spoor heeft
achter gelaten, en dat dus in werkelijkheid niemand van hen op de plaats delict is geweest.
Wat is dan de kans dat je toch een match vindt?
1
- De kans op match door toeval is dit is het gevolg v.d. fout van het type 1.
10.000
1 9999
- De kans op geen match door toeval is 1− =
10.000 10.000
( )
20.000
1
- De kans op geen match door toeval na 20.000 keer proberen is 1− =0,135(13,5 %)
10000
Die test doe je niet slechts bij 1 man, maar bij maar liefst 20.000 mannen. Het zijn onafhankelijk
van elkaar geobserveerde mannen / die testen zijn allemaal onafhankelijk want DNA van ene man
hangt niet samen met DNA van willekeurige andere man.