Hoorcollege 6, toetsen
Meerdere steekproeven, met de t-toets kan je maximaal 2 steekproeven met elkaar vergelijken en
als we meerdere steekproeven willen vergelijken, zullen we dus een andere methode toe moeten
passen. Als je je bijvoorbeeld afvraagt of de dichtheid van zeeslakken invloed heeft op het aantal
eieren dat een slak produceert, wil je kijken naar velden met 8, 15, 30 en 45 volwassenen per 225
cm2. Dan heb je al 4 groepen/condities die je met elkaar wilt vergelijken.
t-toets, als je nu een onderzoek hebt met 3 groepen, zou je voor kunnen stellen om 3 keer t-toetsen
voor twee steekproeven uit te voeren:
- 𝐻0 : 𝜇1 = 𝜇2 ; 𝐻𝐴 : 𝜇1 ≠ 𝜇2 ;
- 𝐻0 : 𝜇1 = 𝜇3 ; 𝐻𝐴 : 𝜇1 ≠ 𝜇3 ;
- 𝐻0 : 𝜇2 = 𝜇3 ; 𝐻𝐴 : 𝜇2 ≠ 𝜇3 ;
19∗20
Hier zitten echter nadelen aan, want als je bijvoorbeeld 20 groepen hebt, moet je maar liefst 2
paarsgewijze vergelijkingen doen. Daarnaast:
- Is de gepoolde steekproefvariantie gebaseerd op de 2 steekproeven die betrokken zijn in de
hypothese; het blijkt dat daardoor inconsistente resultaten mogelijk zijn.
- Maken meerdere toetsen de kans op een type I fout veel groter dan de fout 𝛼 per toets. Als
je heel veel toetsen doet is de kans op een type I fout dus veel groter. Dit wordt geïllustreerd
aan de hand van onderstaand voorbeeld.
Type I fout, in de strip van xkcd.com zie je dat iemand heeft gehoord
dat jelly beans acne veroorzaken. Uit onderzoek blijkt dit niet zo te
zijn, want 𝑃 > 0,05. Vervolgens komt ze met een opmerking dat het
een specifieke kleur blijkt te zijn die het veroorzaakt. Er zijn
vele kleuren jelly beans (20) en bij de groene jelly beans
vinden de onderzoekers een P-waarde die kleiner is dan
0,05. Dit levert een krantenartikel op waarin staat dat
groene jelly beans gelinkt worden aan acne met een 95%
betrouwbaarheid en 5% kans op toeval. Hier gaat echter iets mis, want als je 20 kleuren onderzoekt,
verwacht je 1 keer een vals resultaat te krijgen. Hier is ook sprake van publication bias, want de
andere 19 kleuren die negatieve resultaten hadden, zijn niet gepubliceerd. Als je een methode
uitvoert met heel veel toetsen, zal je dus streng moeten zijn, omdat je door toeval een false positive
verwacht.
1-weg ANOVA, hiermee kan je één toets uitvoeren die alle behandelingsgroepen in één
keer met elkaar vergelijkt. Hierbij gebruik je de volgende hypotheses 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 en
𝐻𝐴 : 𝑡𝑒𝑛𝑚𝑖𝑛𝑠𝑡𝑒 éé𝑛 𝑔𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒 𝑤𝑖𝑗𝑘𝑡 𝑎𝑓. Als 𝐻0 wordt verworpen, dan kunnen de
groepen alsnog paarsgewijs met elkaar vergeleken worden, waarbij gebruik wordt
gemaakt van:
i. Een correctie op de P-waarde zodanig dat de totale 𝛼 onder controle blijft;
ii. Een gepoolde steekproefvariantie gebaseerd op alle waarnemingen.
Met 1-weg ANOVA kunnen we nu gaan kijken of de eiproductie van zeeslakken bij
verschillende dichtheden verschilt. De ruwe gegevens en beschrijvende statistiek zijn
rechts weergegeven. Je ziet dat het gemiddelde en de mediaan kleiner worden
naarmate de dichtheid groter wordt. Als je zelf op het oog data beoordeelt, kijk je
niet alleen naar de gemiddelden van de groepen en hoe die zich tot elkaar
verhouden, maar ook kijk je naar de variatie binnen de groepen. Zie hiervoor ‘variatie
binnen & tussen groepen’. Als er namelijk veel variatie in een groep zit, heb je minder
vertrouwen in het gemiddelde. Dit idee zit ook achter ANOVA, alleen is ANOVA dan
wiskundig.
Variatie binnen & tussen groepen, als je kijkt naar de twee figuren die rechts zijn
weergegeven zou je waarschijnlijk zeggen dat er een groter verschil in dichtheid en
eieren is in het 1e figuur dan in het 2e figuur. De gemiddeldes van de dichtheden
zijn echter in beide figuren hetzelfde. Dat wil zeggen dat het gemiddeld aantal
, eieren bij een dichtheid van 8 in het eerste figuur hetzelfde is als het aantal eieren bij een dichtheid
van 8 in het tweede figuur. De variatie tussen de groepen is dus hetzelfde, maar de variatie binnen
de groepen is anders. Volgens je intuïtie neem je het verschil in gemiddelden bij het tweede figuur
niet meer serieus, omdat de spreiding zo groot is en het toevoegen of verwijderen van een datapunt
het gemiddelde al heel erg zou veranderen.
Aannames ANOVA, om een 1-weg ANOVA uit te voeren, moet je een aantal aannames maken:
1. De waarnemingen in alle groepen zijn normaal verdeeld. De variabele moet in iedere groep
dus normaal verdeeld zijn;
2. De varianties van alle groepen zijn gelijk. De groepen moeten dus normaal verdeeld zijn met
dezelfde variantie;
3. Alle waarnemingen zijn onafhankelijk. Dit wil zeggen dat je een aselecte steekproef hebt
gedaan.
Dit kan je ook op een andere manier zeggen:
- De residuen (zie begrip ‘residu’) van alle groepen zijn:
1. Onafhankelijk;
2. Normaal verdeeld met gemiddelde 0 en een zekere variantie 𝜎 2 .
Residu, in de afbeelding zie je drie groepen weergegeven waarvan voor elk het
gemiddelde is berekend. Vervolgens kan je van ieder punt (dus elke meting) een lijntje
trekken naar het gemiddelde en dat representeert dan de afwijking van dat ene punt
tot het groepsgemiddelde. De lengte van die lijn is dan het residu. Een residu kan
positief of negatief zijn.
Als iedere groep normaal verdeeld is, hoeft het niet zo te zijn dat je een normaalverdeling krijgt als je
alle groepen samen gooit.
1-weg ANOVA2, met deze kennis kunnen we weer verder met ons voorbeeld over de slakken. De
beschrijvende statistiek daarover vind je bij ‘1-weg ANOVA1’. Als nulhypothese hebben we in dit
geval: 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇. Vervolgens kunnen we 𝜎 schatten door 𝑠1 , 𝑠2 , 𝑠3 en 𝑠4 te
berekenen en daar het gewogen gemiddelde van te nemen, omdat we aan hebben genomen dat de
varianties van alle groepen gelijk zijn. Verder weten we ook dat onder 𝐻0 , het steekproefgemiddelde
𝜎 2 𝜎 2𝜎 2
𝑌̅𝑖 van iedere groep normaal verdeeld is met variantie 𝑛 , want 𝜎𝑌̅2 = ( 𝑛) = 𝑛 . We kunnen 𝜎 dus
√
ook schatten door naar de variatie in de groepsgemiddelden te kijken. Je gaat er namelijk vanuit dat
ze elk hetzelfde gemiddelde hebben en dat die verschillen door toeval komen in samenstelling van de
steekproef (doordat er dus variantie in de groepen is). De vraag is nu of deze twee schattingen
compatibel zijn. Met de aanname dat de groepsgemiddelden gelijk zijn, vraag je je dus af of de
gevonden variatie tussen de groepen hetzelfde is als de variatie binnen de groepen. Als je veel meer
variatie in de gemiddelden tussen de groepen ziet dan je zou verwachten op basis van variatie binnen
de groepen, ga je 𝐻0 verwerpen.
Kwadratensom, een manier om bovenstaande
schattingen te vergelijken, is door het
opsplitsen van de kwadratensom. Als je alle
data van je verschillende steekproeven op een
hoop gooit en daar de variantie van wil
berekenen, doe je dat als volgt:
2
2
∑𝑖,𝑗(𝑌𝑖𝑗 − 𝑌̅)
𝑠 =
𝑁−1
Hierbij refereren we naar de teller als de totale kwadratensom (SStot) en dit is een dubbele som,
aangezien je zowel i als j bij de som ziet staan. Hiermee wordt bedoeld dat je verschillende groepen
hebt en binnen die groepen verschillende punten hebt. Hierbij staat i voor alle groepen en j voor alle
datapunten binnen een groep. Datapunt 𝑌1,3 is dus het 3e datapunt uit groep 1. In de formule zie je
𝑌𝑖𝑗 − 𝑌̅ en dat is de afstand van elk punt tot het totale gemiddelde (zie afbeelding hierboven voor
extra duidelijkheid). In de noemer zie je 𝑁 staan en dat staat voor 𝑁 = 𝑛1 + 𝑛2 + 𝑛3 .
Opsplitsen kwadratensom, de kwadratensom, ook wel sum of squares, kan je opdelen in twee delen: