Statistics: The Art and Science of Learning from Data
Uitgebreide samenvatting van Hoofdstuk 10 (2 groepen vergelijken) t/m Hoofdstuk 15 (non parametrische testen) met vele voorbeelden, alle formulen, tabellen en uitwerkingen ter verduidelijking
, 15.2 Niet parametrische methoden voor verschillende groepen en voor matched pairs...............100
Hoofdstuk 10: Vergelijking van twee groepen
Voorbeeld 1
Zinvol maken van studies die twee groepen vergelijken
Stel het scenario voor
In de afgelopen jaren wordt het voor ons steeds belangrijker om onze tanden zo veel mogelijk te laten
schijnen en zo wit mogelijk te maken, zoals mensen die op televisie komen of in bladen. Producten
om tanden te witte kan je tegenwoordig zowel bij de tandarts laten doen of bij een apotheek halen.
Er zijn zoveel producten op de markt dat er heel veel claims/beweringen zijn over dat een bepaald
product het beste is. Sommige beweringen zijn gebaseerd op schijn wetenschappelijk onderzoek,
hierdoor is het moeilijk om de producten te sorteren of zij goed werken of helemaal niet.
Studies die claims/beweringen onderzoeken zoals gewichtsverlies, tanden witten of drinkgedrag
hebben betrekking op twee groepen of twee behandelingen, zoals (voor en na gewicht, voor en na
tanden witten, of vergelijken van mannen en vrouwen hun drinkgedrag).
Vragen om te onderzoeken:
Hoe kunnen we gegevens uit een experiment gebruiken, om het bewijsmateriaal van de
claims/beweringen van tandbleek fabrikanten samen te vatten?
Hoe kunnen we op basis van de gegevens beslissen of de claims/beweringen al dan niet
geloofwaardig zijn.
Vooruit denken
Dit hoofdstuk laat zien hoe je twee groepen kunt vergelijken op een categorische of kwantitatieve
uitkomst. Om dit te doen, zullen we de inferentiële statistische methoden gebruiken -
betrouwbaarheidsintervallen en significantietests.
Voor categorische variabelen, vergelijken de inferenties verhoudingen/ proporties.
Voor kwantitatieve variabelen, vergelijken de inferenties gemiddelden.
Hoeveel geloofwaardigheid je moet geven aan claims die in verhalen in de krant zijn gedaan?
Dergelijke verhalen rapporteren bijna altijd alleen 'statistisch significante' resultaten.
Zo nu en dan kan een dergelijk rapport een type 1-fout zijn, waarbij een effect wordt
beweerd dat feitelijk niet bestaat in de populatie.
Sommige voorspellen mogelijk dat effecten groter zijn dan ze in die populatie zijn.
Bivariate analyses: een responsvariabele en een binaire verklarende variabele
Overweeg een studie die vrouwelijke en mannelijke studenten vergelijkt met de proporties die zegt
dat ze hebben deelgenomen aan alcoholmisbruik. De twee groepen die worden vergeleken, vrouwen
en mannen, zijn de categorieën van een binaire variabele (twee vergelijkingen die elkaar uitsluiten/
waar/ niet waar, ja/nee, man/vrouw) . De algemene categorie statistische methode die wordt
gebruikt wanneer we twee variabelen hebben, wordt bivariate methoden genoemd. Hier worden
,twee groepen vergeleken, waarbij een van de twee variabelen de uitkomstvariabele is en de andere
een binaire variabele die de categorieën specificeert.
De uitkomstvariabele waarop vergelijkingen worden gemaakt, wordt de responsvariabele
genoemd. De binaire variabele die de groepen specificeert, is de verklarende variabele. Herhaal dat
een binaire variabele twee mogelijke uitkomsten heeft. In het vorige voorbeeld, met geslacht,
zouden de twee uitkomsten mannelijk of vrouwelijk zijn. Statistische methoden analyseren hoe de
uitkomst van de respons variabel is of wordt verklaard door de waarde van de verklarende variabele.
In ons voorbeeld is deelname aan binge drinking (ja of nee) de responsvariabele en is gender de
verklarende variabele. Onze interesse ligt in het bestuderen van hoe binge-drinken afhangt van
gender, niet hoe geslacht afhankelijk is van binge drinkig.
Response variabele: de constante, afhankelijk hier wordt een antwoord op gebaseerd
Explanatory verklarende variabele:binaire variabele die de groepen specificeert,
onafhankelijk
Afhankelijke en Onafhankelijke steekproef
Onafhankelijke steekproef:
De meeste vergelijkingen van groepen gebruiken onafhankelijke steekproeven uit de groepen. De
waarnemingen in één steekproef zijn onafhankelijk van die in de andere steekproef.
- Gerandomiseerde experimenten die willekeurig onderwerpen aan twee behandelingen
toewijzen (placebo/ geen placebo)
- Observatie studie scheidt onderwerpen in groepen op basis van hun waarde voor een
verklarende variabele (onafhankelijke), zoals de rookstatus (rokers/ niet rokers).
Afhankelijke steekproef:
Wanneer de twee steekproeven dezelfde onderwerpen hebben zijn ze afhankelijk.
- Matched pairs/ overeenkomende paren
elke proefpersoon in één steekproef is gematcht met een proefpersoon in het andere
steekproef. Een voorbeeld zijn getrouwde stellen, waarbij de mannen in een steekproef zijn
en de vrouwen in de andere.
- Als het onderwerp tweemaal wordt waargenomen, dus de steekproeven hebben dezelfde
persoon (dieetstudie waarin het gewicht van de proefpersonen voor en na het dieet wordt
gemeten. Het gewicht van een bijzonder persoon voor en na het dieet, zoals (144 lb, 127 lb),
vormt een gekoppeld paar.
Gegevens van afhankelijke samples hebben verschillende statistische methoden nodig dan gegevens
uit onafhankelijke samples.
10.1 Categorische respons: het samenbrengen van twee verhoudingen
Voor een categorische responsvariabele, vergelijken inferenties groepen in termen van hun
populatieproporties (percentage) in een bepaalde categorie. Laat p1 de populatieproportie voor de
eerste groep voorstellen en p2 de populatieproportie voor de tweede groep. We kunnen de groepen
met hun verschil vergelijken (p1-p2). Dit wordt geschat op basis van het verschil in de steekproef
verhoudingen, ( pp 1 – pp 2). Laat n1 en n2 de steekproefgrootten voor de twee groepen aanduiden.
, Antwoordvariabele: wel/ niet overlijden of aanslaan van een techniek/methode
Voorbeeld 2
Aspirine, het wondermiddel
Stel het scenario voor
Hier zijn twee recente titels van krantenartikelen over gunstige effecten van aspirine:
1. "Kleine dosis aspirine kunnen het risico op hartaanvallen verlagen"
2. "Aspirine kan het risico op darmkanker verlagen"
Een meta-analyse combineert de resultaten van verschillende onderzoeken die een reeks verwante
statistische vragen behandelen.
Na analyse van de afzonderlijke onderzoeken veronderstelden de onderzoekers omtrent de
nuttigheid van aspirine dat de verschillende onderzoeken hetzelfde effect meten. Alle gebruikte
experimentele onderzoeken waren gerandomiseerd en dubbelblind. De gecombineerde resultaten
leverden bewijs dat dagelijkse aspirine het aantal sterfgevallen als gevolg van verschillende algemene
kankers tijdens en na de proeven verminderde.
We zullen enkele van deze resultaten onderzoeken.
Tabel 10.1 toont de studieresultaten.
Van de totaal 25.570 onderzochte personen stierven 347 van degenen in de controle/placebogroep
aan kanker, terwijl 327 in de aspirinebehandeling binnen 20 jaar na het onderzoek aan kanker
stierven.
Tabel 10.1 Patiënt stierf wel of niet-patiënt aan kanker voor behandelingsgroepen voor placebo en
aspirine.
Overleden aan kanker
Group Yes No Total
Placebo 347 11,188 11,535
Aspirin 327 13,708 14,035
a. wat is de responsvariabele en wat zijn de groepen om te vergelijken?
b. wat zijn de twee populatieparameters om te vergelijken? Schat het verschil tussen hen met
behulp van de gegevens in tabel 10.1.
a. In tabel 10.1 is de responsvariabele/proefpersonen al dan niet overleden aan kanker, met de
categorieën ja/nee. Groep 1 zijn de personen die placebo namen en groep 2 die aspirine
heeft ingenomen. Dit zijn de categorieën van de verklarende variabele.
b. Voor de populatie waarvan deze sample werd genomen, wordt het deel dat aan kanker is
overleden weergegeven door p1 voor het nemen van placebo en p2 voor het nemen van
aspirine.
De steekproef verhoudingen van de dood van kanker waar
- p1: Placebo n1 = 11.535
PP1 = 347/11535 = 0.030
- p2: Asprine n2 = 14.035
PP2 = 327/14035 = 0.023
, Door middel van inferentie kunnen we een uitspraak doen over de populatie. Om een inferentie te
krijgen over het verschil in populatie proportie, (p1 - p2), moeten we leren hoeveel verschil ( pp1 – pp2)
tussen de steekproef proporties zou kunnen variëren uit meerdere steekproeven. Dit wordt
beschreven door de standaardfout van de steekproefverdeling voor het verschil tussen de steekproef
proporties.
Probeer oefening 10.2 en 10.3, deel a
De standaardfout voor het vergelijken van twee proporties
- Net als 1 steekproefproportie een standaardfout heeft die
beschrijft hoe goed het een populatieproportie schat, hebben 2
steekproefproporties dit ook (pp 1 – pp2)
- Deze schatting zou van studie tot studie variëren.
- De standaardfout beschrijft de variatie rond het gemiddelde, van
de gemiddelden van de steekproevenverdeling (zie marge figuur)
Het wordt geïnterpreteerd als de standaarddeviatie van de
schattingen (pp 1 – pp 2) van verschillende gerandomiseerde
experimenten met een bepaalde steekproefomvang.
Voorbeeld 3
a. Wat is de standaardfout van deze schatting (zie vorig voorbeeld)?
b. Hoe moeten we deze standaardfout interpreteren?
a. De formule voor de standaardfout van (pp1 – pp2) is:
b. Het verschil (pp 1 – pp 2)tussen de steekproefverhoudingen van sterfgevallen door kanker zou niet
altijd gelijk zijn aan 0.007, maar zou van steekproef tot steekproef verschillen. Samengevat, de
standaarddeviatie van (pp 1 – pp 2)van de steekproeven is 0.002.
Merk nu op dat als je een van de twee voorbeelden (en de helft van deze formule) negeert, je de
gebruikelijke standaardfout krijgt voor één deel:
- SE neemt af/ wordt kleiner naarmate n1 en n2 toenemen.
- SE neemt toe/ wordt groter naarmate n1 en n2 afnemen.
- In bovenstaande voorbeeld is de SE klein omdat de n (steekproeven) groot zijn
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur vveraar. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €5,99. Vous n'êtes lié à rien après votre achat.