Samenvatting van de hoofdstukken 10 t/m 15 uit Agresti & Franklin: The art and science of learning from data. Volledig met uitwerkingen en formules.
Agresti H10 Twee groepen vergelijken
10.1 Categorische antwoord: twee proporties vergelijken
10.2 Kwantitatief antwoord: twee gemiddelden vergelijke...
agresti franklin the art and science of learning from data – hoofdstuk 10 tm 15
agresti franklin
the art and science of learning from data
ts
uva
Geschreven voor
Universiteit van Amsterdam (UvA)
Forensische Orthopedagogiek
Toetsende statistiek
Alle documenten voor dit vak (5)
1
beoordeling
Door: mandymeesterburrie • 7 jaar geleden
Verkoper
Volgen
melaniebakker
Ontvangen beoordelingen
Voorbeeld van de inhoud
Agresti H10 Twee groepen vergelijken
10.1 Categorische antwoord: twee proporties vergelijken
Categorische variabelen: proporties
Kwantitatieve variabelen: gemiddelden
Response variabele: de constante, hierop wordt een antwoord gebaseerd
Explainatory variabele: de verklarende variabele
Als twee steekproeven dezelfde objecten hebben, zijn ze afhankelijk. Dit geldt ook voor gematchte paren:
bijvoorbeeld een getrouwd stel, de mannen in de ene steekproef, de vrouwen in de andere. Ook voor- en na
vergelijkingen tellen als gematcht: bijvoorbeeld bij gewicht of testresultaten van hetzelfde object.
Als er random aan een groep wordt toegewezen hebben we het over een onafhankelijke steekproef:
placebo/geen placebo, wel rokend/niet rokend.
Populatieproportie van groep 1: #$
Populatieproportie van groep 2: #%
Steekproefgrootte van beide groepen: &$ en &%
Antwoordvariabele: wel of niet overlijden, wel of niet aanslaan van een methode etc.
We kunnen deze groepen vergelijken door het verschil te meten (#$ − #% ). Dit wordt bepaald door het verschil
van twee steekproefproporties (#$ − #% ).
Om een uitspraak over de populatie te doen, moeten we ook de
standaardfout van de steekproevenverdeling weten. Deze beschrijft
hoeveel de gevonden proporties uit meerdere steekproeven varieert. Hij
wordt berekend door de standaarddeviatie van #$ − #% .
Standaarddeviatie van: (#$ − #% )
#$ (1 − #$ ) #% (1 − #% )
*+ = +
&$ &%
Betrouwbaarheidsinterval voor het verschil tussen twee populatieproporties:
#$ − #% ± 1(*+)
De z-score hangt af van het betrouwbaarheidsniveau (z = 1.96 bij 95%
betrouwbaarheid). Om deze methode te gebruiken heb je nodig:
× Een categorisch antwoordvariabele voor twee groepen.
× Onafhankelijke willekeurige steekproeven voor twee groepen.
× Steekproeven die groot genoeg zijn zodat &$ en &% op z’n minst 10
successen en 10 mislukkingen bevat.
De *+ wordt kleiner als &$ en &% groter worden.
Voor een 99% betrouwbaarheidsinterval gebruiken we z = 2.85 à
Interpretatie van het betrouwbaarheidsinterval dat proporties vergelijkt:
× Controleer of 0 in het betrouwbaarheidsinterval valt. Zo is het aannemelijk (maar niet noodzakelijk) dat de
populatieverhoudingen gelijk zijn.
× Als de eindpunten van het betrouwbaarheidsinterval positief zijn, dan is #$ > #%
,× Als de eindpunten van het betrouwbaarheidsinterval negatief zijn, dan is #$ < #%
× Hoe dichter de waarde bij 0 ligt, hoe kleiner het werkelijke verschil waarschijnlijk is.
Significantietest voor het vergelijken van populatieproporties
Een andere manier om twee populatieproporties te vergelijken #$ en #% is met een significantietest. De
45 : #$ = #% betekent dat de populatieproportie dezelfde waarde heeft in elke groep. Deze nulhypothese
betekent dus: geen verschil of geen effect. Op een andere manier wordt hij zo geschreven: 45 : (#$ − #% ) = 0
# = proportie van de totale steekproef: pooled estimate.
Voorbeeld:
&$ = 20
&% = 10
8
× Groep 1 had 7x succes: #$ = = 0.35
%5
<
× Groep 2 had 5x succes: #% = = 0.50
$5
8=< $%
× #= = = 0.40
%5=$5 >5
Deze teststatistiek meet het aantal standaardfouten dat de steekproefproportie (#$ − #% ) of (#$ − #% ) van de
waarden uit de nulhypothese of 0 valt.
De standaardfout van de test (*+5 ) is gebaseerd op 45 : #$ = #% . Het gebruikt de gepoolde schatting # om de
populatieproportie te schatten. De standaardfout is:
De p-waarde voor 45 : #$ = #% hangt af van de alternatieve hypothese:
4L : #$ ≠ #% à tweezijdig
4L : #$ > #% à eenzijdig
4L : #$ < #% à eenzijdig
Tweezijdige significantietest voor het vergelijken van twee populatieproporties:
Assumpties
Categorische verklarende variabelen voor twee groepen
Onafhankelijke random steekproeven
Steekproeven die groot genoeg zijn zodat &$ en &% op z’n minst 10 successen en 10 mislukkingen bevat.
P-waarde
Tweezijdige kans van de standaard normaalverdeling van waardes extremer dan de geobserveerde z-score
als de nulhypothese waar is.
Conclusie
Kleinere P-waardes geven een sterker bewijs tegen 45 en supporten 4L . Interpreteer de p-waarde in de
context. Als er een beslissing nodig is, verwerp 45 als de p-waarde ≤ het significantielevel (zoals 0.05).
10.2 Kwantitatief antwoord: twee gemiddelden vergelijken
We schatten (O$ − O% ) door (P$ − P% ). Hoe goed dit verschil past bij de populatiegemiddelden, wordt
beschreven met de standaardfout van de steekproevenverdeling van (P$ − P% ).
Voor een onafhankelijke steekproef is de standaardfout van (P$ − P% ):
*$% *%%
*+ = *+(P$ )% + *+(P% )% = +
&$ &%
Betrouwbaarheidsinterval voor het verschil tussen twee populatiegemiddelden
(P$ − P% ) ± @(*+)
*$% *%%
*+ = *+(P$ )% + *+(P% )% = +
&$ &%
1 = 1.64 WAX 90% WA
1 = 1.96 WAX 95% WA
1 = 2.58 WAX 99% WA
De KU hangt af van de steekproefstandaarddeviaties en de steekproefgroottes. Als *$ = *% en &$ = &% dan:
KU = (&$ + &% − 2)
Als beide stekproeven klein zijn: &$ < 30 en &% < 30, dan kunnen we niet van de central limit theorem uitgaan.
× Als de eindpunten van het betrouwbaarheidsinterval positief zijn dan is O$ > O%
× Als de eindpunten van het betrouwbaarheidsinterval negatief zijn, dan is O$ < O%
× Hoe dichter de waarde bij 0 ligt, hoe kleiner het werkelijke verschil waarschijnlijk is.
Significantietest voor het vergelijken van populatiegemiddelden
P$ − P% − 45 ICCJK+ P$ − P%
@= =
*+ *+
, *$% *%%
*+ = *+(P$ )% + *+(P% )% = +
&$ &%
De p-waarde voor 45 : O$ = O% hangt af van de alternatieve hypothese:
4L : O$ ≠ O% à tweezijdig
4L : O$ > O% à eenzijdig
4L : O$ < O% à eenzijdig
Tweezijdige significantietest voor het vergelijken van twee populatiegemiddelden:
Assumpties
Kwantitatieve verklarende variabelen voor twee groepen
Onafhankelijke random steekproeven
Bij benadering normale populatieverdeling voor elke groep. Dit is met name belangrijk voor kleine
steekproefgroottes.
P-waarde
Tweezijdige kans van de t-verdeling van waarden die extremer zijn dan de geobserveerde teststatistiek met
KU verkregen uit software.
Conclusie
Kleinere P-waardes geven een sterker bewijs tegen 45 en supporten 4L . Interpreteer de p-waarde in de
context. Als er een beslissing nodig is, verwerp 45 als de p-waarde ≤ het significantielevel (zoals 0.05).
10.3 Andere manieren om gemiddelden en proporties te vergelijken
Gemiddelden vergelijken onder de aanname van gelijke populatiestandaarddeviaties:
× Extra aanname: gelijke populatiestandaarddeviaties: \$ = \%
× Deze alternatieve methode schat de meest plausibele waarde \ van \$ en \% door de gepoolde
standaarddeviatie:
(&$ − 1)*$% + (&% − 1)*%%
*=
&$ + &% − 2
De gepoolde standaarddeviatie (*) wordt gebruikt bij het bepalen van de standaardfout (*+):
, *% *% 1 1
*+ = + =* +
&$ &% &$ &%
95% betrouwbaarheidsinterval voor (O$ − O% ):
(P$ − P% ) ± @.5%< (*+)
Teststatistiek voor 45 : O$ = O% :
P$ − P% − 45 ICCJK+ P$ − P%
@= =
*+ *+
KU = (&$ + &% − 2) wordt gebruikt onder de aanname dat er onafhankelijke steekproeven zijn, de verdeling bij
benadering normaal is en er gelijke populatiestandaarddeviaties (\$ = \% ) zijn.
Vergelijken van standaarddeviaties van populaties: vaak wordt de F-test gebruikt bij het toetsen van de
hypothese dat de populatiestandaarddeviaties gelijk zijn, deze test is alleen niet robuust.
Ratio (vooral in de medische wereld, noem je dit het relatieve risico) van een proportie van twee groepen is:
#$
#%
Als #$ = #% dan is het relatieve risico 1.0.
De grootte van de proporties zijn relatief aan elkaar:
#$
= J+EC@A+Q+ JA*A]H
#%
!+EC@A+Q+ JA*A]H ∗ #% = #$
à Welke proportie #$ of #% is, dat haal je uit de context.
Als de getallen uit het betrouwbaarheidsinterval kleiner zijn dan 1.0, kunnen we ervan uitgaan dat:
#$
< 1.0
#%
en
#$ < #%
10.4 Afhankelijke steekproeven analyseren
Bij afhankelijke steekproeven heeft elke observatie uit de ene steekproef een ‘matched’ observatie uit de
andere steekproef: matched pair.
Voor het vergelijken van gemiddelden van matched paris, gebruiken we paren-verschillen: K
K = RJH+# 1 − RJH+# 2
Het steekproefgemiddelde van deze verschilscores is: P_
Bij afhankelijke steekproeven:
Het verschil (P$ − P% ) tussen de gemiddelden van de twee steekproeven is gelijk aan het gemiddelde (P_ ) van
de verschilscores van de matched pairs.
à Hetzelfde geldt voor de populatieparameter: O$ − O% = O_
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper melaniebakker. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €8,99. Je zit daarna nergens aan vast.