18.2 ANALYSING CATEGORIAL DATA
in dit hoofdstuk wordt gekeken naar hoe je categorische uitkomst variabelen voorspelt; we willen
voorspellen in welke categorie een eenheid valt. (vb. we willen voorspellen of iemand zwanger is of
niet, voor welke politieke partij iemand heeft gestemd etc).
18.3 THEORY OF ANALYSING CATEGORICAL DATA
Als we alleen categorische variabelen meten, analyseren we het aantal keer dat dingen vallen in elke
combinatie van categorieën (de frequenties).
er wordt dus alleen gekeken naar de relatie tussen twee categorische variabelen.
Door het combineren van categorieën krijgen we verschillende categorieën; contingency table
18.3.1. Pearson chi-square test
Als we willen kijken of er een relatie is tussen twee categorische variabelen kunnen we de Pearson’s
chi-square test gebruiken; simpele idee van het vergelijken van de frequenties die je observeert in
bepaalde categorieën met de frequenties die je zou verwachten in die categorieën door kans.
Total error = ∑( 𝑔𝑒𝑜𝑏𝑠𝑒𝑟𝑣𝑒𝑒𝑟𝑑 − 𝑚𝑜𝑑𝑒𝑙)2
deze vergelijking is de basis van onze som van kwadraten (sum of squares) in regressie en ANOVA.
Om de Pearson chi-square te krijgen moet je eerst nog de deviatie van elke observatie
standaardiseren.
Bij expected model bedenken. En de ij erachter. De i representeert de rijen in de contingency
tabel en de j de kolommen.
De verwachte waarde bereken je als volgt:
modelij=Eij= rij totaali x kolom totaali/ n
Deze statistieken kunnen dan gecontroleerd worden tegen de verdeling met de bekende proporties
genaamd; chi-square distribution (staat achter in het boek)
Het enige wat we dan moeten weten zijn het aantal vrijheidsgraden: df=(r-1)(c-1)
18.3.2. Fischer’s exact test
Een probleem met de chi-square test is dat de chi-square verdeling een benadering is; hoe groter de
steekproef hoe beter de benadering wordt, en in grotere steekproeven is de benadering goed
genoeg om je niet druk te maken over deze benadering.
kleine steekproeven maken de significantie van de chi-square inaccuraat; de verwachte
frequenties in elke cel moeten groter dan 5 zijn.
Fischer kwam met een methode voor het berekenen van de exacte kansen van de chi-square
statistiek die accuraat is bij kleine steekproeven; fisher’s exact test
18.3.3 The likelihood ratio
Een alternatief voor de Pearson’s chi square is de likelihood ratio statistic; je verzamelt data en
creëert een model waarin de kans van het verkrijgen van de geobserveerde set van data is
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper sybbelr. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,49. Je zit daarna nergens aan vast.