Leerpaden Statistiek II (2021-2022)
P-waarde
Analogie tussen hypothesetoetsen en rechtspraak
Ondanks dat er in het gerecht niet vaak wordt gewerkt met getallen, zijn er een aantal
overeenkomsten tussen een rechtszaak en het statistisch toetsen van een hypothese. Er
zijn op z’n minst vier gelijkenissen:
1. Een nulhypothese: dit is het vermoeden van onschuld in de rechtspraak. Tenzij er
heel sterke aanwijzingen zijn dat de verdachte de misdaad heeft begaan, zal er geen
straf gegeven worden (ook al kan de verdachte in realiteit toch schuldig zijn). Bij het
toetsen van hypothesen behouden we de nulhypothese (die impliceert dat er geen
verschil of effect is), tenzij er een sterke aanwijzing is dat ze verworpen moet
worden. Met andere woorden: we gaan tijdens de rechtspraak en de hypothesetoets
ervan uit dat de nulhypothese juist is tot er (genoeg) bewijs is verzameld voor het
tegendeel.
2. Een alternatieve hypothese: dit is de reden dat het proces plaatsvindt in de
rechtspraak, de verdenking. Bij een statistische toets is dit het vermoeden van een
bepaald verschil of effect. In Statistiek testen we bijvoorbeeld de hypothese van een
wetenschapper, die een verband kan vermoeden tussen twee constructen.
3. Het oordeel: het resultaat van de rechtspraak en de statistische toets is het al dan
niet verwerpen van de nulhypothese. Hiervoor moet er op een zo correct mogelijke
manier een keuze gemaakt worden. Bij justitie is de ‘redelijke twijfel’ over schuld
(door het voorleggen van bewijs) de standaard die wordt gebruikt. In statistiek wordt
er gewerkt met een significantieniveau α, waarvoor meestal de waarde 0.05 (of 5%)
wordt gekozen. Wanneer de p-waarde (a) kleiner of gelijk aan / (b) groter is
dan α wordt de nulhypothese (a) wel / (b) niet verworpen. Het significantieniveau is
tevens de frequentie waarmee we, wanneer het onterecht is, de nulhypothese (=
type I fout) verwerpen. Door een waarde voor α kiezen, kunnen we de frequentie van
type I fouten controleren en beperken.
4. Een dataset: om tot een beslissing te kunnen komen omtrent het al dan niet
verwerpen van de nulhypothese, moet er in beide gevallen data worden verzameld.
In de rechtszaak worden hiervoor allerlei aanwijzingen verzameld zoals een motief,
een alibi, DNA-sporen, getuigenissen. In het toetsen van een hypothese in Statistiek
wordt een dataset verzameld, meestal gebruiken we meer geordende datasets met
numerieke en/of categorische data. In beide gevallen zijn er ook bepaalde
standaarden voor het verzamelen van de data.
H0: de verdachte is onschuldig (het is een soort startpunt of default en dan gaan we
gaan kijken is dit nog compatibel met de data kunnen we daar nog in geloven? Zonder
bewijs van het tegendeel, wordt het onschuld bewezen)
HA: de verdachte is schuldig
Er zijn ruwweg drie verschillende mogelijkheden voor de getuigenis:
1. De getuigenis kan op een overtuigende manier beschrijven dat de verdachte het
misdrijf heeft gepleegd
2. De getuigenis kan op een overtuigende manier het omgekeerde beweren van wat we
zouden verwachten.
3. De getuigenis is reddelijk vaak.
,We gaan werken met een nuldistrubitie = dat is een kansverdeling voor de
toetsingsgrootheid à hoe bezwarend de getuigenis is in de verondersteling dat de H0
klopt (de verdacht is onschuldig) rechts ( kleine kans dat de verdachte schuldig is dan)
Onderscheid donker rood en licht rood?
We zien dat het rode maar aan 1 kant is = enkel die kant gelinkt aan de HA = we zitten
met alternatieve hypothese, we kunnen aan die kant de p-waarde gaan berekenen!
In dit geval is de p-waarde, de kans om een meer bezwarende getuigenis te hebben dan
dat we effectief hebben in de veronderstelling van onschuld! = GROENE OPP!
Als die getal heel klein is dan moet er iets heel toevallig gebeurt zijn als deze
daadwerkelijk onschuldig is!
p-waarde is een maat van als we het aan toeval willen wijten aan hoeveel toeval moeten
we het dan wijten? Als dat te klein is die kans = we geloven H0 niet meer en dan gaan
we HA gebruiken.
,P>a: we behouden H0
P<a: we verwerpen H0 ten voordele van HA
Er wordt heel vaak 5% als a gebruikt worden à in gerecht ook 5% die onschuldig was
beschuldigd worden, dus nog veel in het gerecht zullen een andere waarde gebruiken
Oefening 1
o De p-waarde is de kans dat de nulhypothese waar is
à Vals. Uiteraard zouden we heel graag weten wat de kans is dat de nulhypothese mocht
deze goed gedefinieerd en berekenbaar zijn. Dit is helaas gewoonlijk niet het geval.
Daarom moeten we dus op een andere manier een uitspraak proberen doen. De p-
waarde is de kans dat als de nulhypothese waar is, we iets minstens even extreem
zouden zien als wat we zien. Hoe lager de p-waarde, hoe meer argumentatie de data ons
geeft om de nulhypothese te verwerpen, maar dit laat ons nog niet toe de kans dat de
nulhypothese klopt te berekenen.
o Indien de p-waarde heel klein is, is er ofwel iets héél toevallig gebeurd,
ofwel was de nulhypothese niet waar
à Waar. De p-waarde is de kans dat als de nulhypothese klopt, we iets minstens zo
extreem anders als wat we zouden verwachten, zien. Indien de nulhypothese klopt, is de
afwijking tussen wat we verwachten onder de nulhypothese en wat we zien, puur te
wijten aan toeval.
o 1-p is de kans dat de alternatieve hypothese waar is.
à Ofwel is de nulhypothese waar, ofwel de alternatieve hypothese. Deze uitspraak is dus
heel gelijkaardig aan de eerste stelling hierboven. Omwille van dezelfde redenen klopt ze
niet.
Oefening 2
Een onderzoek wil het effect van een bepaald filmpje op vaccinatiebereidheid
onderzoeken. Hij meet dit daarom in een groep voor (komt overeen met het
gemiddelde van x) en vlak na (komt overeen met het gemiddelde van y) het
bekijken van een filmpje. Hieronder enkele R commando’s en de
overeenkomende output.
, De p-waarde is kleiner dan 2.2e-16. Wat representeert deze kans?
A. De kans, als H0 correct is en als we het experiment repliceren, dat de toename
van de vaccinatiebereidheid na het kijken naar het filmpje minstens 45.05 is.
B. De kans, als H0 correct is en als we het experiment repliceren, dat de verwachte
vaccinatiebereidheid hoger is na het kijken naar het filmpje.
C. De kans, als H0 correct is en als we het experiment repliceren, dat de verwachte
vaccinatiebereidheid lager is na het kijken naar het filmpje.
D. De kans, als H0 correct is en als we het experiment repliceren, dat de toename
van de vaccinatiebereidheid na het kijken naar het filmpje minstens 20.583 is.
We focussen we op het verschil van vaccinatiebereidheid tussen voor en na het
filmpje. Welke waarde observeren we hiervoor als gemiddelde in de steekproef? Bij
“mean of differences”, zien we een waarde van -45.05 is en de alternatieve
hypothese is “minder”. Dit komt door stand door x−y te berekenen. Dus als we het
verschil van na minus voor het filmpje willen berekenen, moeten we dit omkeren, ook
het teken van de alternatieve hypothese. Dan zien we dat het gemeten verschil 45.05
is, en “extremer” is dus volgens de nulhypothese meer dan 45.05. Dan zien we dus
dat de gerapporteerde p-waarde inderdaad is de kans dat als de nulhypothese klopt
en we heralen het experiment, de toename 45.05 is of meer. De andere uitspraken
kloppen niet.
Type I fouten, type II fouten en power van een toets
Dossier L.V.
Herinner je dat we het in het eerste leerpad hadden over een moordonderzoek. In dit
tweede leerpad zullen we opnieuw een moordzaak bestuderen, namelijk het dossier L.V.
De verdachte L.V. wordt verdacht van moord op haar schaatsinstructeur.
Vooronderzoek
In ons rechtssysteem is iemand onschuldig tot het tegendeel bewezen wordt.
Onderzoekers zullen dus op zoek gaan naar evidentie om de hypothese van onschuld te
verwerpen. Probeer nu zelf eens na te denken wat in deze casus de nulhypothese en de
alternatieve hypothese zal zijn:
H0: De verdachte L.V. is onschuldig/schuldig
HA: De verdachte L.V. is onschuldig/schuldig
Gezien we (bijna?) nooit volledig en sluitend kunnen bewijzen of iemand schuldig dan wel
onschuldig is, wordt er vaak een zekere ‘maatstaf’ gezet om iemands schuld of onschuld
tegen af te wegen. Wat bedoelen we hiermee? Enkel wanneer er ‘genoeg’ of ‘duidelijk’
bewijs wordt gevonden en er dus ‘aannemelijke reden’ is om te twijfelen aan iemands
onschuld, zal een verdachte veroordeeld worden. Ontbreekt dit bewijs, dan zal een
verdachte onschuldig bevonden worden. In de wetenschappen zetten we deze ‘maatstaf’
vaak op alfa. Als de p-waarde kleiner is dan de gekozen alfa, kan de onderzoeker
besluiten dat er genoeg bewijs is tegen de nulhypothese. Net zoals in een strafproces,