Hoofdstuk 9
9.1 Inferentie voor kruistabellen
o Chi-kwadraat test is bij frequenties op maar één variabele. Het verteld ons over de relatie
tussen twee nominale variabelen.
o Variabelen:
▪ Afhankelijke variabele → kwalitatief
▪ Onafhankelijke variabele → kwalitatief
Verschillende verdelingen:
1) Marginaal
▪ De marginale verdeling van één van de categorische variabelen in een kruistabel, is
de verdeling van de waarden van die variabele over alle individuen in de tabel. Je
kiest dus een variabele (bv. friet) en kijkt hoeveel procent van iedereen dit het
lekkerste vindt. Hierbij negeer je de verdeling mannen en vrouwen. Dit herhaal je
vervolgens bij alle soorten eten. Bij de andere variabele kijk je juist alleen naar
mannen of vrouwen, en negeer je het eten dat ze het lekkerste vinden. Percentages
zijn hierbij informatiever.
▪ Marginale verdelingen vertellen ons dus niets over de relatie tussen twee variabelen!
Je kijkt namelijk steeds naar maar een variabele en vergelijkt deze met het totaal.
▪ Dus: deel het totaal van één variabele door de totale waarde.
2) Conditioneel
▪ De conditionele verdeling van een variabele beschrijft de waarden van die variabele
over de individuen die een specifieke waarde hebben op andere variabelen. Je kiest
dus een variabele (bv. friet) en kijkt naar man & vrouw. Stel dat 26% het totaal aantal
gekozen x friet is, hoeveel procent hiervan is een man en hoeveel is een vrouw die
dit gekozen hebben? En andersom, als je kijkt naar man (in totaal 55% is man),
hoeveel van hen hebben gekozen voor friet? Bv 20% : 55% (0.2:0.55).
▪ Dit is interessant, omdat je de verdeling van mannen (hoeveel procent van hen koos
voor friet, hamburger of pasta) vergelijken met de verdeling van de vrouwen. Bv. als
10% van de mannen voor friet koos, terwijl 70% van de vrouwen dit deed, zie je een
relatie tussen de variabelen.
▪ Er is een relatie tussen de variabelen als de verdeling van groep 1 verschilt met groep
2. Hoe meer verschil, hoe groter de kans op een relatie.
▪ Hoe? Selecteer de rijen en kolommen die je wil hebben en gebruik de data van de
tabel om de conditionele verdeling te berekenen in percentages. Maak vervolgens
een grafiek om deze verdeling weer te geven. Gebruik hiervoor een side-by-side
staafdiagram of een ‘segmented’ histogram.
▪ Nadat je in dit voorbeeld voor zowel de vrouwen als de mannen de conditionele
verdeling hebt berekent kan je deze met elkaar vergelijken. Bv ‘’no chance’’, hebben
mannen hier meer procent, vrouwen meer procent of komen de percentages
overeen?
Chikwadraat toets onafhankelijkheid/ vergelijken populaties
o De nulhypothese voor r X c tabellen van getelde data is als volgt: Er is geen relatie/verband
tussen de rij variabele en de kolomvariabele.
o Verwachte cel tellingen onder de nulhypothese worden berekend door de volgende formule
→
rij totaal x kolom totaal
Verwachte telling = n
, o De nulhypothese wordt getest door de chi-kwadraat statistiek. Deze vergelijkt de
geobserveerde tellingen met de verwachte tellingen.
(geobserveerde−verwachtte)2
X2 = ∑ verwachtte
Stappen:
1) Neem het verschil tussen de geobserveerde telling en de verwachte telling en
kwadrateer deze.
2) Grote verschillen betekenen minder als ze van een cel komen waarbij verwacht
wordt dat er een groot getal is. Deel daarom elk gekwadrateerd verschil door de
verwachte telling. Hiermee standaardiseer je.
3) Tel alle waardes bij elkaar op.
Onder de nulhypothese heeft X2 ongeveer de 𝝌2 verdeling met (r-1)(c-1) vrijheidsgraden.
De P-waarde voor de test is P (𝝌2 ≥ X2).
Hierbij is 𝝌2 een random variabele met de 𝝌2(df) verdeling met df= (r-1)(c-1).
De chi-kwadraat test gebruikt altijd de rechterstaart van de verdeling.
o De chi-kwadraat benadering is passend bij praktisch gebruik, waarbij:
▪ De gemiddelde verwachte cel telling 5 of hoger is &
▪ Alle individuele verwachte tellingen 1 of hoger zijn.
▪ ! Behalve bij 2x2 tabellen! Alle vier verwachte tellingen in een 2x2 tabel moeten 5 of
hoger zijn.
o Bij kruistabellen tabellen geldt dat de percentages van de proporties die de betreffende
relatie beschrijven eerst worden berekend. Hierna worden de verwachte waardes, de X2
statistiek en de P-waarde berekend.
o Twee andere modellen om r X c tabellen te genereren leiden tot de chi-kwadraattoets.
1) In het eerste model, worden onafhankelijke SRS’s getrokken uit elke c populatie.
Elke observatie wordt geclassificeerd volgens een categoriale variabele met r
mogelijke waardes. De nulhypothese is dat de verdeling van rij categorische
variabelen hetzelfde zijn voor alle c populaties.
2) In het tweede model, wordt één SRS getrokken uit een populatie. De observaties
worden geclassificeerd volgens twee categorische variabelen met r en c mogelijke
waardes. In dit model stelt de nulhypothese dat de rij en kolom variabelen
onafhankelijk zijn.
Stappen voor een chi-kwadraat toets
1. Maak in SPSS een kruistabel.
2. Stel de hypothese op. Er zijn twee varianten:
o H0 = A hangt niet samen met B → Ha = A hangt wel samen met B
o H0 = A is gelijk aan B → Ha = A is niet gelijk aan B
3. Marginale verdeling & conditionele verdeling.
4. Chi-kwadraat toets
o Teken de H0. Op basis van de steekproefgegevens kan de referentieverdeling die gebruikt
wordt om de hypothese te toetsen opgesteld worden. De H0 stelt hier dat A niet samenhangt
met B. In het voorbeeld stel je dus dat de bloktoets wel of niet halen, los staat van je
aanwezigheid bij colleges.
,o De waardes van de oranje blokjes kan je berekenen middels de marginale verdeling. De H0
stelt dat het percentage ‘’geslaagd, ja’’ bij college ja & nee hetzelfde is + ‘’geslaagd, nee’’ is
bij college ja & nee hetzelfde.
▪ Iedereen die geslaagd is = 75%
Iedereen die niet geslaagd is = 25%
Hierbij wordt niet gekeken naar de aanwezigheid in het college!
o De nulhypothese stelt dus dat de aanwezigheid in het college geen invloed heeft.
Daarom stel je dus dat van alle mensen die komen 75% slaagt en 25% niet. Van alle
mensen die niet komen slaagt ook 75% wel en 25% niet (volgens de H0!) In totaal zijn er
40 mensen naar het college gekomen, dus 30 van hen slagen en 10 niet.
rij totaal x kolom totaal
▪ De cijfers die rood omrand zijn bereken je als volgt: n
▪ De cijfers die rood omrand zijn zijn de referentieverdeling. Deze getallen ga je
vergelijken met datgeen dat je ziet in de steekproef.
o Vergelijk vervolgens dus de cijfers uit de rode vakjes met de daadwerkelijke getallen
(count). Je ziet dan bv. bij ‘’geslaagd, ja college, ja’’ dat de verwachte waarde 30 is, terwijl
er in de steekproef 35 mensen zijn. Je ziet dus dat het verschilt, maar weet niet of deze
verschillen significant zijn.
o Je test de significantie met de 𝝌2 (chi-kwadraat) test
(geobserveerde−verwachtte)2
X2 = ∑ verwachtte
, o De uitgerekende score (5.556) moet je vergelijken met een chi-kwadraat verdeling. Deze
verdeling is nooit onder de nul! Hoe groter het getal, hoe meer de steekproef afwijkt van
de nulhypothese.
o De referentieverdeling kan op twee manieren: in een tabel of SPSS
o Tabel:
▪ Je moet bij de tabel vrijheidsgraden aangeven → (aantal rijen -1) * (aantal
kolommen -1)
▪ Bij een 2x2 tabel is het aantal vrijheidsgraden dus altijd 1!
▪ In de tabel zie je dat de kans op 5.556 kleiner is dan 5%, daarom verwerp je de
H0.
o SPSS
▪ SPSS geeft de chi-kwadraat score en de kans (tweezijdig).
5. Maak de beslissing
o Je hebt de H0 verworpen. Deze relatie betekend niet direct een verklaring. Je weet dat er
een samenhang is, maar of X invloed heeft op Y of juist andersom weet je niet. Je weet
de richting dus niet. Verder weet je niet of er nog andere dingen zijn die van invloed zijn.
o Omdat de colleges er eerst waren en daarna pas de toets denken veel mensen dat dit de
volgorde is van de relatie. Dit betekend echter niet dat er sprake is van een verband. Er
kan bijvoorbeeld ook sprake zijn van de variatie slimheid. Als je slim bent ga je naar het
college en haal je de toets.
9.2 Chi-kwadraat: Goodness of fit
o Bij frequenties van maar één variabele (bv. m&m kleuren). Het verteld ons hoe goed onze
aantallen passen bij het idee.
o De chi-kwadraat goodness-of-fit test wordt gebruikt om een vergelijking te maken tussen de
steekproefverdeling van een categorische variabele en de populatie met een veronderstelde
verdeling.
o De data voor n observaties met k mogelijke uitkomsten worden samengevat als
geobserveerde tellingen, n1, n2 ….nk in k cellen.
o De nulhypothese specificeert kansen p1, p2,…..pk voor de mogelijke uitkomsten.
o De analyse van deze data is hetzelfde als de analyse van de kruistabellen behandeld in 9.1. Bij
elke cel wordt de verwachte telling bepaald door het totale aantal observaties n te
vermenigvuldigen met de specifieke kans pi.
o De nulhypothese wordt getest door de gebruikelijk chi-kwadraat statistiek. Deze vergelijkt de
geobserveerde tellingen, ni, met de verwachte tellingen. Onder de nulhypothese heeft X2
ongeveer een 𝝌2 verdeling met df= k-1