Samenvatting van de hoofdstukken 10 t/m 15 uit Agresti & Franklin: The art and science of learning from data. Volledig met uitwerkingen en formules.
Agresti H10 Twee groepen vergelijken
10.1 Categorische antwoord: twee proporties vergelijken
10.2 Kwantitatief antwoord: twee gemiddelden vergelijke...
agresti franklin the art and science of learning from data – hoofdstuk 10 tm 15
agresti franklin
the art and science of learning from data
ts
uva
Written for
Universiteit van Amsterdam (UvA)
Forensische Orthopedagogiek
Toetsende statistiek
All documents for this subject (5)
1
review
By: mandymeesterburrie • 7 year ago
Seller
Follow
melaniebakker
Reviews received
Content preview
Agresti H10 Twee groepen vergelijken
10.1 Categorische antwoord: twee proporties vergelijken
Categorische variabelen: proporties
Kwantitatieve variabelen: gemiddelden
Response variabele: de constante, hierop wordt een antwoord gebaseerd
Explainatory variabele: de verklarende variabele
Als twee steekproeven dezelfde objecten hebben, zijn ze afhankelijk. Dit geldt ook voor gematchte paren:
bijvoorbeeld een getrouwd stel, de mannen in de ene steekproef, de vrouwen in de andere. Ook voor- en na
vergelijkingen tellen als gematcht: bijvoorbeeld bij gewicht of testresultaten van hetzelfde object.
Als er random aan een groep wordt toegewezen hebben we het over een onafhankelijke steekproef:
placebo/geen placebo, wel rokend/niet rokend.
Populatieproportie van groep 1: #$
Populatieproportie van groep 2: #%
Steekproefgrootte van beide groepen: &$ en &%
Antwoordvariabele: wel of niet overlijden, wel of niet aanslaan van een methode etc.
We kunnen deze groepen vergelijken door het verschil te meten (#$ − #% ). Dit wordt bepaald door het verschil
van twee steekproefproporties (#$ − #% ).
Om een uitspraak over de populatie te doen, moeten we ook de
standaardfout van de steekproevenverdeling weten. Deze beschrijft
hoeveel de gevonden proporties uit meerdere steekproeven varieert. Hij
wordt berekend door de standaarddeviatie van #$ − #% .
Standaarddeviatie van: (#$ − #% )
#$ (1 − #$ ) #% (1 − #% )
*+ = +
&$ &%
Betrouwbaarheidsinterval voor het verschil tussen twee populatieproporties:
#$ − #% ± 1(*+)
De z-score hangt af van het betrouwbaarheidsniveau (z = 1.96 bij 95%
betrouwbaarheid). Om deze methode te gebruiken heb je nodig:
× Een categorisch antwoordvariabele voor twee groepen.
× Onafhankelijke willekeurige steekproeven voor twee groepen.
× Steekproeven die groot genoeg zijn zodat &$ en &% op z’n minst 10
successen en 10 mislukkingen bevat.
De *+ wordt kleiner als &$ en &% groter worden.
Voor een 99% betrouwbaarheidsinterval gebruiken we z = 2.85 à
Interpretatie van het betrouwbaarheidsinterval dat proporties vergelijkt:
× Controleer of 0 in het betrouwbaarheidsinterval valt. Zo is het aannemelijk (maar niet noodzakelijk) dat de
populatieverhoudingen gelijk zijn.
× Als de eindpunten van het betrouwbaarheidsinterval positief zijn, dan is #$ > #%
,× Als de eindpunten van het betrouwbaarheidsinterval negatief zijn, dan is #$ < #%
× Hoe dichter de waarde bij 0 ligt, hoe kleiner het werkelijke verschil waarschijnlijk is.
Significantietest voor het vergelijken van populatieproporties
Een andere manier om twee populatieproporties te vergelijken #$ en #% is met een significantietest. De
45 : #$ = #% betekent dat de populatieproportie dezelfde waarde heeft in elke groep. Deze nulhypothese
betekent dus: geen verschil of geen effect. Op een andere manier wordt hij zo geschreven: 45 : (#$ − #% ) = 0
# = proportie van de totale steekproef: pooled estimate.
Voorbeeld:
&$ = 20
&% = 10
8
× Groep 1 had 7x succes: #$ = = 0.35
%5
<
× Groep 2 had 5x succes: #% = = 0.50
$5
8=< $%
× #= = = 0.40
%5=$5 >5
Deze teststatistiek meet het aantal standaardfouten dat de steekproefproportie (#$ − #% ) of (#$ − #% ) van de
waarden uit de nulhypothese of 0 valt.
De standaardfout van de test (*+5 ) is gebaseerd op 45 : #$ = #% . Het gebruikt de gepoolde schatting # om de
populatieproportie te schatten. De standaardfout is:
De p-waarde voor 45 : #$ = #% hangt af van de alternatieve hypothese:
4L : #$ ≠ #% à tweezijdig
4L : #$ > #% à eenzijdig
4L : #$ < #% à eenzijdig
Tweezijdige significantietest voor het vergelijken van twee populatieproporties:
Assumpties
Categorische verklarende variabelen voor twee groepen
Onafhankelijke random steekproeven
Steekproeven die groot genoeg zijn zodat &$ en &% op z’n minst 10 successen en 10 mislukkingen bevat.
P-waarde
Tweezijdige kans van de standaard normaalverdeling van waardes extremer dan de geobserveerde z-score
als de nulhypothese waar is.
Conclusie
Kleinere P-waardes geven een sterker bewijs tegen 45 en supporten 4L . Interpreteer de p-waarde in de
context. Als er een beslissing nodig is, verwerp 45 als de p-waarde ≤ het significantielevel (zoals 0.05).
10.2 Kwantitatief antwoord: twee gemiddelden vergelijken
We schatten (O$ − O% ) door (P$ − P% ). Hoe goed dit verschil past bij de populatiegemiddelden, wordt
beschreven met de standaardfout van de steekproevenverdeling van (P$ − P% ).
Voor een onafhankelijke steekproef is de standaardfout van (P$ − P% ):
*$% *%%
*+ = *+(P$ )% + *+(P% )% = +
&$ &%
Betrouwbaarheidsinterval voor het verschil tussen twee populatiegemiddelden
(P$ − P% ) ± @(*+)
*$% *%%
*+ = *+(P$ )% + *+(P% )% = +
&$ &%
1 = 1.64 WAX 90% WA
1 = 1.96 WAX 95% WA
1 = 2.58 WAX 99% WA
De KU hangt af van de steekproefstandaarddeviaties en de steekproefgroottes. Als *$ = *% en &$ = &% dan:
KU = (&$ + &% − 2)
Als beide stekproeven klein zijn: &$ < 30 en &% < 30, dan kunnen we niet van de central limit theorem uitgaan.
× Als de eindpunten van het betrouwbaarheidsinterval positief zijn dan is O$ > O%
× Als de eindpunten van het betrouwbaarheidsinterval negatief zijn, dan is O$ < O%
× Hoe dichter de waarde bij 0 ligt, hoe kleiner het werkelijke verschil waarschijnlijk is.
Significantietest voor het vergelijken van populatiegemiddelden
P$ − P% − 45 ICCJK+ P$ − P%
@= =
*+ *+
, *$% *%%
*+ = *+(P$ )% + *+(P% )% = +
&$ &%
De p-waarde voor 45 : O$ = O% hangt af van de alternatieve hypothese:
4L : O$ ≠ O% à tweezijdig
4L : O$ > O% à eenzijdig
4L : O$ < O% à eenzijdig
Tweezijdige significantietest voor het vergelijken van twee populatiegemiddelden:
Assumpties
Kwantitatieve verklarende variabelen voor twee groepen
Onafhankelijke random steekproeven
Bij benadering normale populatieverdeling voor elke groep. Dit is met name belangrijk voor kleine
steekproefgroottes.
P-waarde
Tweezijdige kans van de t-verdeling van waarden die extremer zijn dan de geobserveerde teststatistiek met
KU verkregen uit software.
Conclusie
Kleinere P-waardes geven een sterker bewijs tegen 45 en supporten 4L . Interpreteer de p-waarde in de
context. Als er een beslissing nodig is, verwerp 45 als de p-waarde ≤ het significantielevel (zoals 0.05).
10.3 Andere manieren om gemiddelden en proporties te vergelijken
Gemiddelden vergelijken onder de aanname van gelijke populatiestandaarddeviaties:
× Extra aanname: gelijke populatiestandaarddeviaties: \$ = \%
× Deze alternatieve methode schat de meest plausibele waarde \ van \$ en \% door de gepoolde
standaarddeviatie:
(&$ − 1)*$% + (&% − 1)*%%
*=
&$ + &% − 2
De gepoolde standaarddeviatie (*) wordt gebruikt bij het bepalen van de standaardfout (*+):
, *% *% 1 1
*+ = + =* +
&$ &% &$ &%
95% betrouwbaarheidsinterval voor (O$ − O% ):
(P$ − P% ) ± @.5%< (*+)
Teststatistiek voor 45 : O$ = O% :
P$ − P% − 45 ICCJK+ P$ − P%
@= =
*+ *+
KU = (&$ + &% − 2) wordt gebruikt onder de aanname dat er onafhankelijke steekproeven zijn, de verdeling bij
benadering normaal is en er gelijke populatiestandaarddeviaties (\$ = \% ) zijn.
Vergelijken van standaarddeviaties van populaties: vaak wordt de F-test gebruikt bij het toetsen van de
hypothese dat de populatiestandaarddeviaties gelijk zijn, deze test is alleen niet robuust.
Ratio (vooral in de medische wereld, noem je dit het relatieve risico) van een proportie van twee groepen is:
#$
#%
Als #$ = #% dan is het relatieve risico 1.0.
De grootte van de proporties zijn relatief aan elkaar:
#$
= J+EC@A+Q+ JA*A]H
#%
!+EC@A+Q+ JA*A]H ∗ #% = #$
à Welke proportie #$ of #% is, dat haal je uit de context.
Als de getallen uit het betrouwbaarheidsinterval kleiner zijn dan 1.0, kunnen we ervan uitgaan dat:
#$
< 1.0
#%
en
#$ < #%
10.4 Afhankelijke steekproeven analyseren
Bij afhankelijke steekproeven heeft elke observatie uit de ene steekproef een ‘matched’ observatie uit de
andere steekproef: matched pair.
Voor het vergelijken van gemiddelden van matched paris, gebruiken we paren-verschillen: K
K = RJH+# 1 − RJH+# 2
Het steekproefgemiddelde van deze verschilscores is: P_
Bij afhankelijke steekproeven:
Het verschil (P$ − P% ) tussen de gemiddelden van de twee steekproeven is gelijk aan het gemiddelde (P_ ) van
de verschilscores van de matched pairs.
à Hetzelfde geldt voor de populatieparameter: O$ − O% = O_
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller melaniebakker. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $9.64. You're not tied to anything after your purchase.