Er is een associatie tussen twee variabelen als de verdeling van de afhankelijke variabele veranderd,
wanneer de variabele van de onafhankelijke variabele veranderd. Bij het vergelijken van twee groepen
is er een associatie als de populatiegemiddelden of proporties verschillen tussen de twee groepen.
Data van de analyse van categorische variabele wordt weergegeven in een contigentie(kruis) tabel.
Een kruistabel beschrijft aantallen observaties voor alle combinaties van niveaus van twee (of meer)
categorische variabelen. Bijvoorbeeld: Man/vrouw (niet afhankelijke variabele) democrat,
independent of republican (afhankelijk, van sekse). De rij- en kolomtotalen heten de marginale
verdelingen. De kolomvariabele (variabele B) is de afhankelijke variabele en de rijvariabele (variabele
A).
Een conditionele verdeling is een verdeling van variabele B(de kolomvariabele) gegeven niveau van
A (rijvariabele). In het voorbeeld is een conditionele verdeling dus bijvoorbeeld het percentage vrouwen
(of mannen) dat democartic, independend of republican is. Een joint verdeling (gezamenlijke,
simultane verdeling) stelt de steekproefgrootte op 100% en berekent de proportie per cel. Het is
gebruikelijk voor het vergelijken van relatieve frequenties of gebeurtenissen voor combinaties van
variabele niveaus. Wanneer we onderscheid maken tussen response en verklarende variabelen zijn
conditionele verdelingen meer informatief dan gezamenlijke verdelingen.
Twee variabelen zijn statistisch onafhankelijk als de conditionele verdelingen van een variabele in de
populatie gelijk zijn voor de niveaus van de andere variabele. Bijvoorbeeld: Democraten zijn bij zowel
witte groepen als zwarte groepen beiden 44%. Twee variabelen zijn statistisch afhankelijk als de
conditionele verdelingen in de populatie niet gelijk zijn. We gebruiken onafhankelijk vaker dan
afhankelijk.
Nulhypothese: De variabelen zijn statistisch onafhankelijk
Alternatieve hypothese: De variabelen zijn statistisch afhankelijk
De verwachte frequentie (fe) is de verwachte waarde in een cel als de variabelen onafhankelijk
zouden zijn. De geobserveerde frequentie wordt aangegeven met fo. De verwachte frequentie wordt
berekend door het rijtotaal en kolomtotaal vermenigvuldigen, en delen door de totale
steekproefgrootte.
De toetsingsgrootheid voor H0: onafhankelijkheid vat samen hoe dicht de verwachte frequenties vallen
binnen de geobserveerde frequenties. De chi-kwadraat-steekproefgrootheid ((fo-fe)^2 / fe is de
berekening per cel) wordt voor elke cel van de kruistabel berekend. Wanneer H0 waar is (onafhankelijk)
is de chi-kwadraad redelijk klein. Hoe groter de waarde van Chi, hoe groter het bewijs tegen H0.
Voor grote steekproefgrootten is de steekproevenverdeling de chi-kwadraat
waarschijnlijkheidsverdeling. Een chi-kwadraat verdeling is geconcentreerd op het positieve gedeelte
van de echte lijn (de toetsingsgrootheid kan niet negatief zijn vanwege het kwadrateren van de
verschillen) en is scheef naar rechts. Als X 0 is, is fo gelijk aan fe.
De precieze vorm hangt af van de vrijheidsgraden (df). Het gemiddelde μ = df en de standaarddeviatie
σ = wortel 2 df. Als het aantal vrijheidsgraden toeneemt neigt de verdeling zich te verplaatsen naar
rechts en meer uit te spreiden. Als het aantal vrijheidsgraden toeneemt wordt de verdeling meer bell
shaped. Df is het gelijk aan het aantal vrij te schatten parameters (bv. het aantal vrij te schatten
verwachte frequenties, gegeven de randtotalen) en wordt berekend door (r− 1)x(c − 1) (waarbij r staat
voor aantal rijen en c voor aantal kolommen)
De p waarde is de kans in de rechterstaart dat Chi overschreden wordt in de verdeling van de Chi
kwadraat. Het meet de waarschijnlijkheid, veronderstellend dat H0 waar is, dat Chi ten minste even
groot is als de geobserveerde waarde. De chi-kwadraat verdeling is enkel de steekproevenverdeling
van de toetsingsgrootheid als de steekproefgrootte groot is. Een richtlijn voor deze vereiste is dat de
verwachte frequentie (fe) in elke cel minimaal 5 moet zijn. Bij een kleine sample test (bijvoorbeeld 2 bij
2 kruistabellen) wordt de fisher’s exact test gebruikt.
H0 mag verworpen worden als P < α. P kan opgezocht worden in tabel C. Wanneer en responsvariabele
geïdentificeerd is en de populatie conditionele verdelingen identiek zijn, worden ze homogeen
genoemd. De chi-kwadraat toets van onafhankelijkheid wordt dan vaak een test van homogeniteit
1
, genoemd. Bij een P-waarde van gematigde grootte (bv. P > 0.10) is het plausibel dat de variabelen
onafhankelijk zijn. Als de P-waarde erg klein is, is er sterke evidentie dat de variabelen geassocieerd
zijn, en mag de nulhypothese dus verworpen worden.
Het verschil tussen een geobserveerde (fo) en verwachte (fe) frequentie heet een residu. Het residu is
negatief wanneer de geobserveerde frequentie kleiner is dan de verwachte frequentie. Het
gestandaardiseerde residu voor iedere cel is gelijk aan: z= fo-fe/se waarvan se: wortel fe( 1-
rijproportie) 1- (kolomproportie)
Z-waardes onder de -3 en boven de +3 zijn erg sterk bewijs tegen een effect in de cel.
Bij een 2x2 tabel relateerde de Chi kwadraad aan de z-waarde. Maar waarom doen we dan nog een z-
test, als we het zelfde resultaat kunnen verkrijgen met de Chi-test. Een voordeel van de z-test is dat het
eenzijdig alternatieve hypothesen kan testen. Maar waarom hebben we dan de Chi test? Een z-test kan
alleen een 2x2 tabellen interpreteren, en niet groter.
Associatiematen (effectgrootte)
Een associatiemaat (effectgrootte) is een steekproefgrootheid of parameter die de sterkte van de
afhankelijkheid tun twee variabelen samenvat.
In een 2x2 kruistabel is een goede associatiemaat het verschil in proporties voor een bepaalde
response categorie. Dit wordt berekend door twee cellen uit dezelfde rij (of kolom) te nemen. Cel 1 deel
je door het kolomtotaal (rijtotaal) van cel 1; cel 2 deel je door het kolomtotaal (rijtotaal) van cel 2. Het
eerste getal minus het tweede getal. Deze maat valt tussen -1 en 1. Bij 0 is er onafhankelijkheid en bij
-1 en 1 de sterkste associatie. Hoe sterker de associatie, hoe groter de waarde van het verschil tussen
de proporties. Wanneer de proporties geen verschil kennen zijn de proporties onafhankelijk, en zal de
afhankelijkheid dus laag zijn.
Een grote waarde van Chi in de toets van onafhankelijkheid suggereert dat de variabelen geassocieerd
zijn, maar dit zegt niets over de sterkte van de associatie. De waarde van chi neemt bijvoorbeeld ook
toe bij een grotere steekproefgrootte. Wanneer de cel verdubbeld, verdubbeld ook de Chi.
The odds ratio
Voor een binaire variabele wordt onder succes de uitkomst van interesse verstaan, en onder failure de
andere uitkomst. De odds van het succes wordt berekend door de kans van het succes, te delen door
de kans van het falen. Als de kans op succes 0,75 is, is de kans op valen 1-0.75. De odds van succes is
dan 0,75/0,25=3.0. Odds krijgt een waarde boven de 1, wanneer succes meer waarschijnlijk is dan
falen.
De waarschijnlijkheid/kans van een uitkomst wordt berekend door odds/odds+1. Wanneer de odds
bijvoorbeeld 3 is, is de kans: 3/ (3+1)=0.75.
De odds ratio is de ratio/verhouding van de twee rijen van een 2x2 tabel. Het vergelijkt de odss in de
eerste rij, met de odds uit de tweede rij. De keuze van de afhankelijke variabele heeft geen invloed op
de odds ratio (dezelfde waarde). De odds ratio is gelijk aan de ratio van een kruisproduct van diagonale
cellen. Daarom wordt de odds ratio ook wel de cross-product ratio genoemd. De odds ratio is gelijk aan
een willekeurig positief nummer (kan niet negatief zijn)
Wanneer de kansen op succes gelijk zijn in beide rijen van een 2x2 tabel, is θ (odd ratio) gelijk aan 0.
Wanneer θ>1 is de odds van succes hoger in rij 1 dan in rij 2; wanneer θ<1 is de odds van succes lager
in rij 1 dan in rij 2. Waarden van θ die verder van 1.0 wijken in een bepaalde richting geven sterkere
associaties weer. De steekproevenverdeling van de steekproef odds ratio is heel scheef (tenzij de
steekproefgrootte extreem groot is; dan benadert de verdeling een normale verdeling)
De odds ratio:
Odds in rij 1 ( pi x 1-pi) / odds in rij 2 (pi x 1-pi)
Of: kruislinks vermenigvuldigen en delen door de andere kruislinkse vermenigvuldiging
Relatieve risk/ratio:
Pi1/pi2
Voor kruistabellen met meer dan twee rijen of meer dan twee kolommen. Bij een 2x3 tabel bepalen de
eerste twee odds ratio’s de laatste.
Concordance and discordance
2
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper studienerd. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €3,99. Je zit daarna nergens aan vast.