KM Samenvatting
zaterdag 6 maart 2021 12:36
Chi-square test
De Chi square toets kun je gebruiken om te testen of groepen van elkaar verschillen (bijvoorbeeld leden van drie politieke partijen) op basis van een
categorische variabele (bijvoorbeeld twee categorieën over de aanleg van een vliegveld: voor en tegen). De vraag is dan: is er verschil in de
verhouding voor’s en tegen’s tussen de drie politieke partijen?
Bij atletiek kampioenschappen tussen drie landen waren de gouden medailles als volgt verdeeld:
U.K Germany France total
Females 15 10 5 30
Males 5 10 15 30
Total 20 20 20 60
Vraag:
We gebruiken een daartoe geschikte toets met (α=5%) om uit te vinden of de verdeling tussen mannen en vrouwen afhangt van de nationaliteit.
Geef het verwachte aantal vrouwelijke winnaars met de Franse nationaliteit onder de gebruikelijke nul-hypothese.
Antwoord:
Chi-square test: expected
Totaal vrouwen x Totaal France / Total =
30 x = 10
Vraag:
We gebruiken een daartoe geschikte toets met (α=5%) om uit te vinden of de verdeling tussen mannen en vrouwen afhangt van de nationaliteit.
Geef de kritieke waarde van de gebruikelijke toetsgrootheid.
Antwoord:
Chi-square table met df: (c-1)(r-1) = (3-1)(2-1)=2*1=2
D.f. 2, α= 0.05
Zie tabel --> 5,991
T toets voor correlatie
Met deze toets ga je na of de correlatie tussen twee variabelen in de steekproef voldoende sterk is om te mogen concluderen dat er ook een
correlatie is in de populatie waaruit de steekproef is getrokken.
Vraag:
Van een steekproef van 100 studenten hebben we de tentamencijfers van Wiskunde en Statistiek. Gaat een hoog Wiskunde cijfer vaak samen met
een hoog Statistiek cijfer? We willen onderzoeke nof er een significant verband is tussen de Wiskunde en de Statistiek cijfers. Welke toets kunnen
we daarvoor gebruiken?
Chi kwadraat toets voor afhankelijkheid
T-toets voor gepaarde waarnemingen
T-toets voor onafhankelijke steekproeven
T-toets voor correlatie
Z-toets voor onafhankelijke steekproeven
Wilcoxon rangsom toets
Antwoord:
T-toets voor correlatie. De Chi kwadraat toets kan alleen geruikt worden voor categorische gegevens (tellingen). Van de andere tests is de t-test voor
correlatie de enige test over een relatie in een tweedimensionale dataset.
Studie Page 1
, Dobbelstenen
P(AᴖB) = P (A en B)
P(AᴗB)= P (A of B)
P(A|B) = P(AᴖB)/ P(B), | --> hoe groot is de kans dat A optreedt als ik al weet dat B is opgetreden?
Vraag:
We verwerpen een zuivere dobbelsteen tweemaal en geven de uitkomsten met Y1 en Y2. Bereken P((Y1 + Y2 <6) | (Y1=3))
P(A|B) = P(AᴖB)/ P(B)
P((Y1+Y2 <6) | (Y1=3)) =
P((Y1+Y2 <6) ᴖ (Y1=3)) / (Y1=3)
Uit 36 uitkomsten voor Y1 en Y2 zijn er voor P((Y1+Y2 <6) ᴖ (Y1=3)) alleen de volgende uitkomsten:
(3,1), (3,2) want Y1 moet 3 zijn
Dus P(Y1 + Y2 <6) ᴖ (Y1=3) = 1/18=0,0556
Y1=3 heeft 6 verschillende mogelijkheden (3,1), (3,2), (3,3), (3,4), (3,5), (3,6) --> 1/6=0,1667
Dus P((Y1+Y2 <6) ᴖ (Y1=3)) / (Y1=3) = 0,0556/0,1667 =0,3335
Vraag:
We werpen een zuivere dobbelsteen tweemaal en geven de uitkomsten aan met Y1 en Y2. Bereken P((Y1+Y2 <5) ᴖ (Y1 x Y2 >2))
Y1 en Y2 moet kleiner zijn dan 5 en deze twee combinaties moeten daarnaast wanneer deze vermenigvuldigt worden groter zijn dan 2.
(1,3), (2,2), (3,1) zijn de enige opties.
Er zijn 36 verschillende mogelijkheden (want 6 x 6=36)
Dus 3/36=0,0833
Wilcoxon Rank Sum test
Het is een niet-parametrische test die twee populaties vergelijkt waarvan wordt aangenomen dat de verdelingen hetzelfde zijn, met uitzondering
van een locatieverschuiving (bijv. Alle X-waarden zijn met een bepaald bedrag verschoven). Het veronderstelt geen normaliteit. Ervan uitgaande dat
de populaties verschillen in centraliteit (d.w.z. locatie), is het een test voor gelijkheid van medianen. Het is analoog aan de t-test voor twee
onafhankelijke steekproefgemiddelden.
Ervan uitgaande dat het enige verschil in de populaties de locatie is, zouden de hypothesen voor een tweezijdige test van de populatiemediaan zijn
H0: M1-M2=0 (geen verschil in medianen)
H1: M1-M2 ≠ 0 (de medianen van de twee groepen verschillen van elkaar)
Voorbeeld youtube
Vraag:
Researchers measured the bursting strengt of two different bottle designs (old vs. New) At the 5% significance level, test the claim that the
probability distributions associated with the two bottle designs are equivalent.
Old design 210 212 211 211 190 213 212 211 164 209
New design 216 214 162 137 219 218 179 153 152 217
Claim: Nold = Nnew
H0:Nold = Nnew
H1:Nold≠Nnew
Uitwerking:
Rank de cijfers op volgorde
9 14 10 11 7 15 13 12 5 8
Old design 210 212 211 211 190 213 212 211 164 209
New design 216 214 162 137 219 218 179 153 152 217
17 16 4 1 20 19 6 3 2 18
211 is 3 keer genoemd, 212 is 2 keer genoemd. De ranking moet daarom worden aangepast. Zie hieronder.
211 heeft als rank: 10, 11 en 12. 211 moet allemaal dezelfde rank hebben, want het is hetzelfde getal. Dus:
10 + 11 +12 = 33
= 11
211 krijgt dus allemaal als rank: 11
212 heeft als rank 13 en 14. Zelfde geldt hiervoor.
13 + 14 = 27
= 13,5
9 13,5 11 11 7 15 13,5 11 5 8
Studie Page 2