10. Comparing two groups
Bivariate analyses: a response variable and a binary explanatory variable
De reactie variabele (response variable) heeft de uitkomsten ‘ja’ en ‘nee’.
• Is de variabele op basis waarvan vergelijkingen worden gemaakt.
De verklarende variabele (explanatory variable) definieert de twee groepen die
worden vergeleken.
Univariate anaylse een analyse met slechts één variabele.
Bivariate analyse een analyse die kijkt naar een relatie van enige soort tussen twee
variabelen.
• Wanneer de verklarende variabele binair is (d.w.z. heeft slechts twee mogelijke
uitkomsten, zoals man of vrouw) dan hebben we te maken met een speciale vorm
van een bivariate analyse. Dan willen we namelijk onderzoeken hoe de
uitkomsten van de reactie variabelen verschillen tussen de twee groepen die
worden gedefinieerd door de verklarende variabele.
Dependent and independent samples
Onafhankelijke steekproeven (independent samples) de observaties in de ene
steekproef zijn onafhankelijk van de observaties in de andere steekproef.
Afhankelijke steekproeven (dependent samples) wanneer de twee steekproeven
dezelfde subjecten bevatten.
• Dit betekent dus dat als we hetzelfde subject twee keer meten, dat dit leidt tot
afhankelijke steekproeven (bijv. voor en na het volgen van een dieet).
• We krijgen ook afhankelijke steekproeven wanneer de data gematchte paren
(mached pairs) zijn elk subject in de ene steekproef is gematchte met een
subject in de andere steekproef (bijv. getrouwde stellen, de man zit in de ene
steekproef en de vrouw zit in de andere steekproef).
10.1 Categorical response: comparing two proportions
Voor een categorische reactie variabele worden voorspellingen over groepen
vergeleken in termen van hun populatie proporties in een specifieke categorie.
• 𝑝1 staat voor de populatie proportie in de eerste groep en 𝑝2 staat voor de
populatie proportie in de tweede groep.
We kunnen de groepen vergelijken door hun verschil (𝑝1 − 𝑝2 ) dit is
voorspelt door het verschil tussen steekproef proporties (𝑝̂1 − 𝑝̂ 2 ).
𝑛1 en 𝑛2 noteren de steekproefgroottes voor deze twee groepen.
Een meta-analyse combineert de resultaten van verschillende onderzoeken die gaan
over een set van gerelateerde statistische vragen.
Om een voorspelling te kunnen maken over het verschil van de populatie proporties
(𝑝1 − 𝑝2 ), moeten we leren hoe groot het verschil (𝑝̂1 − 𝑝̂ 2 ) tussen de
steekproefproporties neigt te variëren van onderzoek tot onderzoek.
• Dit wordt beschreven door de standaard error.
Sampling distribution of the difference between two sample proportions
De steekproefverdeling van het verschil tussen de steekproefproproporties heeft:
, • gemiddelde = 𝑝1 − 𝑝2
(𝑝1 (1−𝑝1 ) (𝑝2 (1−𝑝2 )
• standaard deviatie = √ +√
𝑛1 𝑛2
In de praktijk zullen we de standaard deviatie moeten schatten, omdat het
afhangt van de onbekende populatie proporties. Dit geeft de standaard error
van het verschil, die we nodig hebben om het betrouwbaarheidsinterval te
maken.
Het wordt verkregen door de onbekende populatie proporties 𝑝1en 𝑝2 in de
formule te vervangen door de standaard deviatie van de corresponderende
steekproefproporties.
De standaard error verteld ons hoe variabel de voorspelling (𝑝̂1 − 𝑝̂ 2 ) is
van het ene gerandomiseerde experiment van dezelfde grote naar de andere.
Het beschrijft in het algemeen hoe ver de geschatte verschillen voor vele van
zulke experimenten liggen van het werkelijke verschil (𝑝1 − 𝑝2 ) in de
populatie.
De formule voor de standaard error van (𝑝̂1 − 𝑝̂2 ) is:
(𝑝̂1 (1−𝑝̂1 ) (𝑝̂2 (1−𝑝̂2 )
• 𝑠𝑒 = √ +√
𝑛1 𝑛2
Als je een van de twee steekproeven zou negeren en dus slechts de helft van
de formule zou gebruiken, krijg je de formule voor de gewonde standaard
error van een proportie.
Confidence interval for the difference between two population proportions
Om het betrouwbaarheidsinterval voor (𝑝1 − 𝑝2 ) te verkrijgen, nemen we het geschatte
verschil en tellen we de foutmarge gebaseerd op de standaard error op en trekken we
die af.
• Het betrouwbaarheidsinterval ziet er als volgt uit: 𝑝̂1 − 𝑝̂2 ± 𝑧(𝑠𝑒)
(𝑝̂1 (1−𝑝̂1 ) (𝑝̂2 (1−𝑝̂2 )
• 𝑠𝑒 = √ +√
𝑛1 𝑛2
• De z-score is afhankelijk van het betrouwbaarheidsinterval, zoals z = 1.96 voor
95% zekerheid.
• Om deze methode te kunnen gebruiken, moet aan het volgende worden voldaan:
Een categorische reactie variabele is in elk van de twee groepen
waargenomen.
Onafhankelijke willekeurige steekproeven zijn getrokken voor de twee
groepen, door random sampling of een gerandomiseerd experiment.
De steekproefomvang van n1 en n2 moet de juiste grootte hebben, dat wil
zeggen dat er minstens 10 successen en 10 mislukkingen moeten zijn.
Een 99% betrouwbaarheidsinterval maakt gebruik van z = 2.58 en staat gelijk aan:
• 𝑝̂1 − 𝑝̂ 2 ± 2.58(𝑠𝑒)
Interpreting a confidence interval that compares proportions
Of een bepaalde groep, ‘Groep 1’ of ‘Groep 2’ wordt genoemd is volledig willekeurig.
• Wanneer het betrouwbaarheidsinterval voor het verschil tussen de twee
proporties 0 bevat, is het mogelijk dat (𝑝1 − 𝑝2 ) = 0, dat betekent 𝑝1 = 𝑝2 het
kan zo zijn dat de populatie proporties gelijk zijn aan elkaar. In zo’n geval is er
onvoldoende bewijs om te concluderen welke van de twee, 𝑝1 of 𝑝2 , groter is.
, • Een negatieve waarde voor(𝑝1 − 𝑝2 ) zoals -0.005 betekent dat 𝑝1 onder 𝑝2
kan liggen.
• Een positieve waarde voor (𝑝1 − 𝑝2 ) zoals +0.034 betekent dat 𝑝1 boven 𝑝2
kan liggen.
• De omvang van de waarden van het betrouwbaarheidsinterval vertellen ons hoe
groot elk werkelijk verschil is wanneer alle waarden van het interval rond de 0
liggen, dan kan het werkelijke verschil in praktische termen relatief klein zijn.
Significance tests comparing population proportions
• De nulhypothese is 𝐻0 : 𝑝1 = 𝑝2 de populatie proporties nemen dezelfde
waarde aan voor elke groep, oftewel, er is geen effect.
• Onder de veronderstelling dat 𝐻0 : 𝑝1 = 𝑝2 , schatten we de gemeenschappelijke
waarde van 𝑝1 en 𝑝2 door de proportie van de totale steekproef in de categorie
waarin we geïnteresseerd zijn. We noteren dit als 𝑝̂ .
Gepoolde schatting (pooled estimate) het brengt het totale aantal successen en totale
aantal observaties van de twee steekproeven samen.
• Wanneer de steekproefomvangen 𝑛1 en 𝑛2 ongeveer gelijk zijn, valt die ongeveer
halverwege tussen p̂ 1 en p̂ 2 anders valt het dichter bij de steekproefproportie
die de grotere steekproefomvang heeft.
De teststatistiek meet het aantal standaard errors dat de geschatte steekproef (p̂ 1 - p̂ 2)
van (p1 – p2), valt van de waarde van de nulhypothese van 0:
(𝑝̂ −𝑝̂ )−0
• 𝑧 = 1 𝑠𝑒 2
0
De standaarderror voor de test, aangeduid als se0, is gebaseerd op de
aanname die genoteerd is onder H0 dat p1 = p2. Als dit het geval is, dan kunnen
we de gepoolde schatting p̂ gebruiken om elke populatie proportie te
schatten, in plaats van deze allemaal apart te schatten. Deze standaard error
wordt gevonden door p1 en p2 te vervangen door de standaard deviatie
formule van p̂ :
(𝑝̂1 (1−𝑝̂1 ) (𝑝̂2 (1−𝑝̂2 )
se0 = √ +√
𝑛1 𝑛2
Net als bij de enkele steekproef, gebruiken we het onderschrift 0 om aan te
geven dat dit de standaard error is wanneer we aannemen dat de
nulhypothese waar is.
In de praktijk wanneer de steekproefproportie dicht bij elkaar liggen, dan
ligt se0 erg dicht bij se die gebruikt wordt in het betrouwbaarheidsinterval, dit
veronderstelt geen gelijke proporties.
Zoals gewoonlijk, is de P-waarde voor H0: p1 = p2 afhankelijk van of er sprake
is van een enkelzijdige hypothese of een tweezijdige hypothese.
, Samenvatting van deze paragraaf:
1. Aannames
• Een categorische reactie variabele is in elk van de twee groepen waargenomen.
• Onafhankelijke willekeurige steekproeven zijn getrokken voor de twee groepen,
door random sampling of een gerandomiseerd experiment.
• De steekproefomvang van n1 en n2 moet de juiste grootte hebben, dat wil zeggen
dat er minstens 10 successen en 10 mislukkingen moeten zijn.
2. Hypotheses
Nul H0: p1 = p2
Alternatief Ha: p1 ≠ p2
3. Test statistiek
(𝑝̂1 −𝑝̂2 )−0 (𝑝̂1 (1−𝑝̂1 ) (𝑝̂2 (1−𝑝̂2 )
• 𝑧= met se0 = √ +√
𝑠𝑒0 𝑛1 𝑛2
4. P-waarde
P-waarde = tweezijdige kans van de standaard normale verdeling (Tabel A) van
waarden die nog extremer zijn dan de geobserveerde z test statistiek met de
veronderstelling dat de nulhypothese waar is.
5. Conclusie
Kleinere P-waarden leveren sterker bewijs tegen H0 en ondersteunen Ha. Interpreteer
de P-waarde in de context. Wanneer een beslissing nodig is, wijs H0 af als de P-waarde ≤
significantie niveau (zoals 0.05).
Wanneer de test een verwerping van H0 indiceert noemen we de resultaten van de
test statistisch significant.
• In de context van het vergelijken van twee groepen spreken we van significant
verschil.
Dat een verschil statistisch significant is, betekent niet dat het praktisch
relevant is.
The standard error for comparing two statistics
Voor twee schattingen van onafhankelijke steekproeven, is de standaard error:
• 𝑠𝑒(schatting 1 − schatting 2) = √𝑠𝑒(𝑠𝑐ℎ𝑎𝑡𝑡𝑖𝑛𝑔 1)2 + 𝑠𝑒(𝑠𝑐ℎ𝑎𝑡𝑡𝑖𝑛𝑔2)2
Let erop dat we kwadraten toevoegen aan de standaard errors onder het
wortelteken wanneer we twee proporties vergelijken, dan is het verschil
van de standaard error groter dan de standaard error van beide
steekproefproporties op zichzelf.
Small-sample inference for comparing proportions
Het betrouwbaarheidsinterval voor het verschil van de proporties specificeert dat elke
steekproef minstens 10 uitkomsten van elke soort moet hebben. Voor kleinere
steekproeven werkt de methode misschien niet goed de steekproefverdeling van
(p̂ 1 - p̂ 2) ligt misschien niet dicht bij een normale verdeling en de schatting van de
standaard error kan misschien verkeerd zijn.
10.2 Quantitative response: comparing two means
We kunnen twee groepen met een kwantitatieve reactie variabele vergelijken door hun
gemiddelden te vergelijken.