Er is een associatie tussen twee variabelen als de verdeling van de afhankelijke variabele veranderd,
wanneer de variabele van de onafhankelijke variabele veranderd. Bij het vergelijken van twee groepen
is er een associatie als de populatiegemiddelden of proporties verschillen tussen de twee groepen.
Data van de analyse van categorische variabele wordt weergegeven in een contigentie(kruis) tabel.
Een kruistabel beschrijft aantallen observaties voor alle combinaties van niveaus van twee (of meer)
categorische variabelen. Bijvoorbeeld: Man/vrouw (niet afhankelijke variabele) democrat,
independent of republican (afhankelijk, van sekse). De rij- en kolomtotalen heten de marginale
verdelingen. De kolomvariabele (variabele B) is de afhankelijke variabele en de rijvariabele (variabele
A).
Een conditionele verdeling is een verdeling van variabele B(de kolomvariabele) gegeven niveau van
A (rijvariabele). In het voorbeeld is een conditionele verdeling dus bijvoorbeeld het percentage vrouwen
(of mannen) dat democartic, independend of republican is. Een joint verdeling (gezamenlijke,
simultane verdeling) stelt de steekproefgrootte op 100% en berekent de proportie per cel. Het is
gebruikelijk voor het vergelijken van relatieve frequenties of gebeurtenissen voor combinaties van
variabele niveaus. Wanneer we onderscheid maken tussen response en verklarende variabelen zijn
conditionele verdelingen meer informatief dan gezamenlijke verdelingen.
Twee variabelen zijn statistisch onafhankelijk als de conditionele verdelingen van een variabele in de
populatie gelijk zijn voor de niveaus van de andere variabele. Bijvoorbeeld: Democraten zijn bij zowel
witte groepen als zwarte groepen beiden 44%. Twee variabelen zijn statistisch afhankelijk als de
conditionele verdelingen in de populatie niet gelijk zijn. We gebruiken onafhankelijk vaker dan
afhankelijk.
Nulhypothese: De variabelen zijn statistisch onafhankelijk
Alternatieve hypothese: De variabelen zijn statistisch afhankelijk
De verwachte frequentie (fe) is de verwachte waarde in een cel als de variabelen onafhankelijk
zouden zijn. De geobserveerde frequentie wordt aangegeven met fo. De verwachte frequentie wordt
berekend door het rijtotaal en kolomtotaal vermenigvuldigen, en delen door de totale
steekproefgrootte.
De toetsingsgrootheid voor H0: onafhankelijkheid vat samen hoe dicht de verwachte frequenties vallen
binnen de geobserveerde frequenties. De chi-kwadraat-steekproefgrootheid ((fo-fe)^2 / fe is de
berekening per cel) wordt voor elke cel van de kruistabel berekend. Wanneer H0 waar is (onafhankelijk)
is de chi-kwadraad redelijk klein. Hoe groter de waarde van Chi, hoe groter het bewijs tegen H0.
Voor grote steekproefgrootten is de steekproevenverdeling de chi-kwadraat
waarschijnlijkheidsverdeling. Een chi-kwadraat verdeling is geconcentreerd op het positieve gedeelte
van de echte lijn (de toetsingsgrootheid kan niet negatief zijn vanwege het kwadrateren van de
verschillen) en is scheef naar rechts. Als X 0 is, is fo gelijk aan fe.
De precieze vorm hangt af van de vrijheidsgraden (df). Het gemiddelde μ = df en de standaarddeviatie
σ = wortel 2 df. Als het aantal vrijheidsgraden toeneemt neigt de verdeling zich te verplaatsen naar
rechts en meer uit te spreiden. Als het aantal vrijheidsgraden toeneemt wordt de verdeling meer bell
shaped. Df is het gelijk aan het aantal vrij te schatten parameters (bv. het aantal vrij te schatten
verwachte frequenties, gegeven de randtotalen) en wordt berekend door (r− 1)x(c − 1) (waarbij r staat
voor aantal rijen en c voor aantal kolommen)
De p waarde is de kans in de rechterstaart dat Chi overschreden wordt in de verdeling van de Chi
kwadraat. Het meet de waarschijnlijkheid, veronderstellend dat H0 waar is, dat Chi ten minste even
groot is als de geobserveerde waarde. De chi-kwadraat verdeling is enkel de steekproevenverdeling
van de toetsingsgrootheid als de steekproefgrootte groot is. Een richtlijn voor deze vereiste is dat de
verwachte frequentie (fe) in elke cel minimaal 5 moet zijn. Bij een kleine sample test (bijvoorbeeld 2 bij
2 kruistabellen) wordt de fisher’s exact test gebruikt.
H0 mag verworpen worden als P < α. P kan opgezocht worden in tabel C. Wanneer en responsvariabele
geïdentificeerd is en de populatie conditionele verdelingen identiek zijn, worden ze homogeen
genoemd. De chi-kwadraat toets van onafhankelijkheid wordt dan vaak een test van homogeniteit
1
, genoemd. Bij een P-waarde van gematigde grootte (bv. P > 0.10) is het plausibel dat de variabelen
onafhankelijk zijn. Als de P-waarde erg klein is, is er sterke evidentie dat de variabelen geassocieerd
zijn, en mag de nulhypothese dus verworpen worden.
Het verschil tussen een geobserveerde (fo) en verwachte (fe) frequentie heet een residu. Het residu is
negatief wanneer de geobserveerde frequentie kleiner is dan de verwachte frequentie. Het
gestandaardiseerde residu voor iedere cel is gelijk aan: z= fo-fe/se waarvan se: wortel fe( 1-
rijproportie) 1- (kolomproportie)
Z-waardes onder de -3 en boven de +3 zijn erg sterk bewijs tegen een effect in de cel.
Bij een 2x2 tabel relateerde de Chi kwadraad aan de z-waarde. Maar waarom doen we dan nog een z-
test, als we het zelfde resultaat kunnen verkrijgen met de Chi-test. Een voordeel van de z-test is dat het
eenzijdig alternatieve hypothesen kan testen. Maar waarom hebben we dan de Chi test? Een z-test kan
alleen een 2x2 tabellen interpreteren, en niet groter.
Associatiematen (effectgrootte)
Een associatiemaat (effectgrootte) is een steekproefgrootheid of parameter die de sterkte van de
afhankelijkheid tun twee variabelen samenvat.
In een 2x2 kruistabel is een goede associatiemaat het verschil in proporties voor een bepaalde
response categorie. Dit wordt berekend door twee cellen uit dezelfde rij (of kolom) te nemen. Cel 1 deel
je door het kolomtotaal (rijtotaal) van cel 1; cel 2 deel je door het kolomtotaal (rijtotaal) van cel 2. Het
eerste getal minus het tweede getal. Deze maat valt tussen -1 en 1. Bij 0 is er onafhankelijkheid en bij
-1 en 1 de sterkste associatie. Hoe sterker de associatie, hoe groter de waarde van het verschil tussen
de proporties. Wanneer de proporties geen verschil kennen zijn de proporties onafhankelijk, en zal de
afhankelijkheid dus laag zijn.
Een grote waarde van Chi in de toets van onafhankelijkheid suggereert dat de variabelen geassocieerd
zijn, maar dit zegt niets over de sterkte van de associatie. De waarde van chi neemt bijvoorbeeld ook
toe bij een grotere steekproefgrootte. Wanneer de cel verdubbeld, verdubbeld ook de Chi.
The odds ratio
Voor een binaire variabele wordt onder succes de uitkomst van interesse verstaan, en onder failure de
andere uitkomst. De odds van het succes wordt berekend door de kans van het succes, te delen door
de kans van het falen. Als de kans op succes 0,75 is, is de kans op valen 1-0.75. De odds van succes is
dan 0,75/0,25=3.0. Odds krijgt een waarde boven de 1, wanneer succes meer waarschijnlijk is dan
falen.
De waarschijnlijkheid/kans van een uitkomst wordt berekend door odds/odds+1. Wanneer de odds
bijvoorbeeld 3 is, is de kans: 3/ (3+1)=0.75.
De odds ratio is de ratio/verhouding van de twee rijen van een 2x2 tabel. Het vergelijkt de odss in de
eerste rij, met de odds uit de tweede rij. De keuze van de afhankelijke variabele heeft geen invloed op
de odds ratio (dezelfde waarde). De odds ratio is gelijk aan de ratio van een kruisproduct van diagonale
cellen. Daarom wordt de odds ratio ook wel de cross-product ratio genoemd. De odds ratio is gelijk aan
een willekeurig positief nummer (kan niet negatief zijn)
Wanneer de kansen op succes gelijk zijn in beide rijen van een 2x2 tabel, is θ (odd ratio) gelijk aan 0.
Wanneer θ>1 is de odds van succes hoger in rij 1 dan in rij 2; wanneer θ<1 is de odds van succes lager
in rij 1 dan in rij 2. Waarden van θ die verder van 1.0 wijken in een bepaalde richting geven sterkere
associaties weer. De steekproevenverdeling van de steekproef odds ratio is heel scheef (tenzij de
steekproefgrootte extreem groot is; dan benadert de verdeling een normale verdeling)
De odds ratio:
Odds in rij 1 ( pi x 1-pi) / odds in rij 2 (pi x 1-pi)
Of: kruislinks vermenigvuldigen en delen door de andere kruislinkse vermenigvuldiging
Relatieve risk/ratio:
Pi1/pi2
Voor kruistabellen met meer dan twee rijen of meer dan twee kolommen. Bij een 2x3 tabel bepalen de
eerste twee odds ratio’s de laatste.
Concordance and discordance
2
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller studienerd. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.27. You're not tied to anything after your purchase.