HCO4, probability models
Analyses, als we properties analyseren, hebben we vaak een model in gedachte.
Kansmodel, vertelt je wat de kansen op verschillende mogelijke uitkomsten zijn. Het specificeert de
proporties van de mogelijke uitkomsten.
Nul model, is een kansmodel dat je gebruikt als 0 hypothese. Er zijn allerlei soorten kansmodellen die
je als 0 model kan gebruiken:
- Uniform model, hierbij hebben alle uitkomsten een even grote kans om voor te komen. Bij
de volgende vraag kan je een uniform model als 0 hypothese gebruiken: Worden baby’s met
gelijke kans op elke dag van de week geboren? De proportie geboortes is dan elke dag van de
week hetzelfde: 𝑝1 , 𝑝2 , … , 𝑝7 = 1/7 en dat kan je testen. Een voorbeeld waarbij een uniform
model van toepassing is, is het rollen van een dobbelsteen.
- Proportioneel model, is erg vergelijkbaar aan een uniform model, maar de kans op elke
uitkomst is hierbij proportioneel aan het aantal mogelijke uitkomsten in je steekproef. Zo
waren er in 1999 53 vrijdagen en 52 maandagen. Als je dan een sample aan baby’s neemt die
in 1999 geboren zijn, is de kans dat een random gekozen baby op maandag is geboren
52/356 volgens het proportionele model, terwijl de kans op vrijdag 53/356 is. Er zijn meer
mogelijkheden dat een baby op vrijdag is geboren dan op maandag en daar pas je je model
op aan in het geval van een proportioneel model.
- Geometrisch, hierbij neemt de kans op uitkomsten 0, 1, 2, etc. exponentieel af. Denk hierbij
bijvoorbeeld aan het aantal opeenvolgende G’s in een DNA sequentie. Je kan je bijvoorbeeld
afvragen of 8 opeenvolgende G’s vaker voorkomt dan verwacht (volgens een geometrisch
kansmodel als 0 hypothese), omdat het misschien een functie heeft.
- Binomiaal verdeling, als je kijkt naar het aantal dochters in gezinnen met 4 kinderen kan je
dat met een binomiaal verdeling vergelijken (dochter is dan succes en zoon is failure).
- Poisson proces, stelt dat de kans op een gebeurtenis op elk tijdstip of op elke locatie even
groot is. Je hebt de volgende onderzoeksvraag: ‘Zijn spinnen random verdeeld over de
bosgrond (of hebben ze de neiging om te clusteren)?’. Hierbij kan je de Poisson verdeling als
nulhypothese gebruiken en als je hem dan kan verwerpen, blijkt de verdeling niet random te
zijn. Een ander voorbeeld is het aantal telefoontjes naar een call center. Als je verwacht dat
de kans op een telefoontje elk moment van de dag even groot is, zal het aantal telefoontjes
in een bepaalde minuut tussen 2 en 3 een Poisson verdeling volgen. Vervolgens kan je
toetsen of dit echt zo is.
- Specifieke biologische theorieën, biologische theorieën kunnen een kansmodel voorstellen.
Denk bijvoorbeeld aan Mendel’s wet. Er wordt dan bijvoorbeeld verwacht dat de proportie
van gele en groene erwten na het kruisen van 2 heterozygote planten gelijk is aan ¾ en ¼. In
dat geval is je ‘H0: de proportie van groen is ¼.’
2
χ -goodness-of-fit test, met deze test kan je toetsen of jouw data de nulhypothese volgt. Met deze
toets vergelijk je proporties van categoriale of discrete variabelen met de kansen van een nulmodel.
Je gaat dus kijken of je data/uitkomsten overeen komen met hetgeen wat je verwacht op basis van je
nulmodel.
Teststatistiek χ2, als je een variabele hebt met k categorieën/klassen/levels, zal je in een steekproef
met een grote van n de volgende frequenties observeren: O1, O2, …, Ok. Je teststatistiek, χ2, bereken
je dan als volgt:
𝑘
2
(𝑂𝑖 − 𝐸𝑖 )2
𝜒 =∑ 𝐸𝑖 = 𝑛 ∗ 𝑝𝑖
𝐸𝑖
𝑖=1
Hierbij geeft 𝑂𝑖 de geobserveerde frequentie en 𝐸𝑖 de verwachte frequentie. Voor iedere mogelijke
uitkomst kijk je naar verschil in hetgeen wat je observeert en hetgeen wat je verwacht volgens je 0
hypothese (de kans/proportie, 𝑝𝑖 , is afhankelijk van je nul model). Zodra er een afwijking is, draagt
deze bij aan de waarde van chi kwadraat. Hoe meer observaties je doet, hoe groter de toevallige