Samenvatting

Samenvatting 2.2 Statistiek volledig (H9 t/m 14) + Passer (H5,8,9,10)

40 keer bekeken 3 keer verkocht

Vak
2.2 Statistiek II

Instelling
Erasmus Universiteit Rotterdam (EUR)

Volledige samenvatting, inclusief formules, afbeeldingen en voorbeelden uit het college. Aangevuld met een samenvatting van Passer H5,8,9,10

[Meer zien]

Voorbeeld 4 van de 37 pagina's

Bekijk voorbeeld

Heel boek samengevat? Nee
Wat is er van het boek samengevat? H9 t/m h14
Geupload op 18 juni 2021
Aantal pagina's 37
Geschreven in 2020/2021
Type Samenvatting

Volgen

madelieflambregts Lid sinds 3 jaar 206 documenten verkocht

Hoofdstuk 9
9.1 Inferentie voor kruistabellen
o Chi-kwadraat test is bij frequenties op maar één variabele. Het verteld ons over de relatie
tussen twee nominale variabelen.
o Variabelen:
▪ Afhankelijke variabele → kwalitatief
▪ Onafhankelijke variabele → kwalitatief

Verschillende verdelingen:
1) Marginaal
▪ De marginale verdeling van één van de categorische variabelen in een kruistabel, is
de verdeling van de waarden van die variabele over alle individuen in de tabel. Je
kiest dus een variabele (bv. friet) en kijkt hoeveel procent van iedereen dit het
lekkerste vindt. Hierbij negeer je de verdeling mannen en vrouwen. Dit herhaal je
vervolgens bij alle soorten eten. Bij de andere variabele kijk je juist alleen naar
mannen of vrouwen, en negeer je het eten dat ze het lekkerste vinden. Percentages
zijn hierbij informatiever.
▪ Marginale verdelingen vertellen ons dus niets over de relatie tussen twee variabelen!
Je kijkt namelijk steeds naar maar een variabele en vergelijkt deze met het totaal.
▪ Dus: deel het totaal van één variabele door de totale waarde.

2) Conditioneel
▪ De conditionele verdeling van een variabele beschrijft de waarden van die variabele
over de individuen die een specifieke waarde hebben op andere variabelen. Je kiest
dus een variabele (bv. friet) en kijkt naar man & vrouw. Stel dat 26% het totaal aantal
gekozen x friet is, hoeveel procent hiervan is een man en hoeveel is een vrouw die
dit gekozen hebben? En andersom, als je kijkt naar man (in totaal 55% is man),
hoeveel van hen hebben gekozen voor friet? Bv 20% : 55% (0.2:0.55).
▪ Dit is interessant, omdat je de verdeling van mannen (hoeveel procent van hen koos
voor friet, hamburger of pasta) vergelijken met de verdeling van de vrouwen. Bv. als
10% van de mannen voor friet koos, terwijl 70% van de vrouwen dit deed, zie je een
relatie tussen de variabelen.
▪ Er is een relatie tussen de variabelen als de verdeling van groep 1 verschilt met groep
2. Hoe meer verschil, hoe groter de kans op een relatie.
▪ Hoe? Selecteer de rijen en kolommen die je wil hebben en gebruik de data van de
tabel om de conditionele verdeling te berekenen in percentages. Maak vervolgens
een grafiek om deze verdeling weer te geven. Gebruik hiervoor een side-by-side
staafdiagram of een ‘segmented’ histogram.
▪ Nadat je in dit voorbeeld voor zowel de vrouwen als de mannen de conditionele
verdeling hebt berekent kan je deze met elkaar vergelijken. Bv ‘’no chance’’, hebben
mannen hier meer procent, vrouwen meer procent of komen de percentages
overeen?

Chikwadraat toets onafhankelijkheid/ vergelijken populaties
o De nulhypothese voor r X c tabellen van getelde data is als volgt: Er is geen relatie/verband
tussen de rij variabele en de kolomvariabele.

o Verwachte cel tellingen onder de nulhypothese worden berekend door de volgende formule
→
rij totaal x kolom totaal
Verwachte telling = n

, o De nulhypothese wordt getest door de chi-kwadraat statistiek. Deze vergelijkt de
geobserveerde tellingen met de verwachte tellingen.

(geobserveerde−verwachtte)2
X2 = ∑ verwachtte

Stappen:
1) Neem het verschil tussen de geobserveerde telling en de verwachte telling en
kwadrateer deze.
2) Grote verschillen betekenen minder als ze van een cel komen waarbij verwacht
wordt dat er een groot getal is. Deel daarom elk gekwadrateerd verschil door de
verwachte telling. Hiermee standaardiseer je.
3) Tel alle waardes bij elkaar op.

Onder de nulhypothese heeft X2 ongeveer de 𝝌2 verdeling met (r-1)(c-1) vrijheidsgraden.
De P-waarde voor de test is P (𝝌2 ≥ X2).
Hierbij is 𝝌2 een random variabele met de 𝝌2(df) verdeling met df= (r-1)(c-1).
De chi-kwadraat test gebruikt altijd de rechterstaart van de verdeling.

o De chi-kwadraat benadering is passend bij praktisch gebruik, waarbij:
▪ De gemiddelde verwachte cel telling 5 of hoger is &
▪ Alle individuele verwachte tellingen 1 of hoger zijn.
▪ ! Behalve bij 2x2 tabellen! Alle vier verwachte tellingen in een 2x2 tabel moeten 5 of
hoger zijn.

o Bij kruistabellen tabellen geldt dat de percentages van de proporties die de betreffende
relatie beschrijven eerst worden berekend. Hierna worden de verwachte waardes, de X2
statistiek en de P-waarde berekend.

o Twee andere modellen om r X c tabellen te genereren leiden tot de chi-kwadraattoets.
1) In het eerste model, worden onafhankelijke SRS’s getrokken uit elke c populatie.
Elke observatie wordt geclassificeerd volgens een categoriale variabele met r
mogelijke waardes. De nulhypothese is dat de verdeling van rij categorische
variabelen hetzelfde zijn voor alle c populaties.
2) In het tweede model, wordt één SRS getrokken uit een populatie. De observaties
worden geclassificeerd volgens twee categorische variabelen met r en c mogelijke
waardes. In dit model stelt de nulhypothese dat de rij en kolom variabelen
onafhankelijk zijn.

Stappen voor een chi-kwadraat toets
1. Maak in SPSS een kruistabel.
2. Stel de hypothese op. Er zijn twee varianten:
o H0 = A hangt niet samen met B → Ha = A hangt wel samen met B
o H0 = A is gelijk aan B → Ha = A is niet gelijk aan B
3. Marginale verdeling & conditionele verdeling.
4. Chi-kwadraat toets
o Teken de H0. Op basis van de steekproefgegevens kan de referentieverdeling die gebruikt
wordt om de hypothese te toetsen opgesteld worden. De H0 stelt hier dat A niet samenhangt
met B. In het voorbeeld stel je dus dat de bloktoets wel of niet halen, los staat van je
aanwezigheid bij colleges.

,o De waardes van de oranje blokjes kan je berekenen middels de marginale verdeling. De H0
stelt dat het percentage ‘’geslaagd, ja’’ bij college ja & nee hetzelfde is + ‘’geslaagd, nee’’ is
bij college ja & nee hetzelfde.

▪ Iedereen die geslaagd is = 75%
Iedereen die niet geslaagd is = 25%
Hierbij wordt niet gekeken naar de aanwezigheid in het college!
o De nulhypothese stelt dus dat de aanwezigheid in het college geen invloed heeft.
Daarom stel je dus dat van alle mensen die komen 75% slaagt en 25% niet. Van alle
mensen die niet komen slaagt ook 75% wel en 25% niet (volgens de H0!) In totaal zijn er
40 mensen naar het college gekomen, dus 30 van hen slagen en 10 niet.

rij totaal x kolom totaal
▪ De cijfers die rood omrand zijn bereken je als volgt: n
▪ De cijfers die rood omrand zijn zijn de referentieverdeling. Deze getallen ga je
vergelijken met datgeen dat je ziet in de steekproef.
o Vergelijk vervolgens dus de cijfers uit de rode vakjes met de daadwerkelijke getallen
(count). Je ziet dan bv. bij ‘’geslaagd, ja college, ja’’ dat de verwachte waarde 30 is, terwijl
er in de steekproef 35 mensen zijn. Je ziet dus dat het verschilt, maar weet niet of deze
verschillen significant zijn.
o Je test de significantie met de 𝝌2 (chi-kwadraat) test
(geobserveerde−verwachtte)2
X2 = ∑ verwachtte

, o De uitgerekende score (5.556) moet je vergelijken met een chi-kwadraat verdeling. Deze
verdeling is nooit onder de nul! Hoe groter het getal, hoe meer de steekproef afwijkt van
de nulhypothese.

o De referentieverdeling kan op twee manieren: in een tabel of SPSS
o Tabel:
▪ Je moet bij de tabel vrijheidsgraden aangeven → (aantal rijen -1) * (aantal
kolommen -1)
▪ Bij een 2x2 tabel is het aantal vrijheidsgraden dus altijd 1!
▪ In de tabel zie je dat de kans op 5.556 kleiner is dan 5%, daarom verwerp je de
H0.
o SPSS
▪ SPSS geeft de chi-kwadraat score en de kans (tweezijdig).

5. Maak de beslissing
o Je hebt de H0 verworpen. Deze relatie betekend niet direct een verklaring. Je weet dat er
een samenhang is, maar of X invloed heeft op Y of juist andersom weet je niet. Je weet
de richting dus niet. Verder weet je niet of er nog andere dingen zijn die van invloed zijn.
o Omdat de colleges er eerst waren en daarna pas de toets denken veel mensen dat dit de
volgorde is van de relatie. Dit betekend echter niet dat er sprake is van een verband. Er
kan bijvoorbeeld ook sprake zijn van de variatie slimheid. Als je slim bent ga je naar het
college en haal je de toets.

9.2 Chi-kwadraat: Goodness of fit
o Bij frequenties van maar één variabele (bv. m&m kleuren). Het verteld ons hoe goed onze
aantallen passen bij het idee.
o De chi-kwadraat goodness-of-fit test wordt gebruikt om een vergelijking te maken tussen de
steekproefverdeling van een categorische variabele en de populatie met een veronderstelde
verdeling.
o De data voor n observaties met k mogelijke uitkomsten worden samengevat als
geobserveerde tellingen, n1, n2 ….nk in k cellen.
o De nulhypothese specificeert kansen p1, p2,…..pk voor de mogelijke uitkomsten.
o De analyse van deze data is hetzelfde als de analyse van de kruistabellen behandeld in 9.1. Bij
elke cel wordt de verwachte telling bepaald door het totale aantal observaties n te
vermenigvuldigen met de specifieke kans pi.
o De nulhypothese wordt getest door de gebruikelijk chi-kwadraat statistiek. Deze vergelijkt de
geobserveerde tellingen, ni, met de verwachte tellingen. Onder de nulhypothese heeft X2
ongeveer een 𝝌2 verdeling met df= k-1

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper madelieflambregts. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €4,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 73918 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen

Laatst bekeken door jou

Samenvatting ·

(1)

Samenvatting

Samenvatting 2.2 Statistiek volledig (H9 t/m 14) + Passer (H5,8,9,10)

Document informatie

Onderwerpen

Gekoppeld boek

Meer samenvattingen voor studieboek

Geschreven voor

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud