Dit is een uitgebreide samenvatting voor het vak Methodologie II gegeven in het tweede jaar van de opleiding Gezondheid en Leven aan de VU Amsterdam. De college aantekeningen, dia's, afbeeldingen en informatie ( bijbehorende hoofdstukken) uit het boek heb ik samengevoegd tot een overzichtelijk verh...
HC2 T-toetsen
Toetsen > p-waarde baseren we op basis van de nulhypothese. Een betrouwbaarheidsinterval maak
je niet op basis van de nulhypothese, maar met behulp van de gegevens die je hebt. Dit is alsnog
bruikbaar voor toetsing.
Toetsen gebeurt op basis van beperkte informatie (de steekproef). Een hypothese is al dan niet
correct. De onderzoeker kan er vervolgens iets over zeggen:
Een statistische toets is een objectieve procedure om op grond van beperkt aantal gegevens met
behulp van modellen door middel van kansuitspraken te beslissen of hypothese over populatie
wel/niet door gegevens ondersteund wordt.
Over een populatie willen we een uitspraak doen. De steekproef die we hebben moet een
realistische representatie zijn van de populatie. Met behulp van kansmodellen kunnen we vanuit de
steekproef iets zeggen over de populatie. Resultaat: kansuitspraak over de populatie.
De hypotheses die we vormen gaan altijd over de populatie en niet over de steekproef.
Statistische hypothese: 𝐻0 : 𝜋 ≤ . . 𝑜𝑓𝑤𝑒𝑙 𝑔𝑒𝑒𝑛 𝑒𝑓𝑓𝑒𝑐𝑡 en 𝐻𝑎 : 𝜋 > . . 𝑜𝑓𝑤𝑒𝑙 𝑒𝑓𝑓𝑒𝑐𝑡
Model dat als nulhypothese getest wordt > kansverdeling die hoort bij ware H0.
Toetsingsgrootheid is het getal dat je uit je waarnemingen interpreteert, en waarop als mogelijke
uitkomst van het model onder H0 de (overschrijdings)kans kan worden berekend.
P-waarde: Wat is de kans op je gevonden toetsingsgrootheid, of verder afwijkend (extremer; want
overschrijdingskans) van je verwachting onder de H0?
Bij een overschrijdingskans van 5% (ofwel p-waarde < 0.05) verwerpen we de H0. Deze grenswaarde
noemen we 𝛼.
NHST: NulHypothese Significantie Toetsen
(NHST)
← We zijn zo gewend aan modus tollens
redeneringen dat we ons in de luren laten leggen
door het kans element > we moeten de context van
het wetenschappelijke probleem toevoegen aan
het toetsingsresultaat.
Een statistische (terechte) beslissing is nog geen
wetenschappelijke beslissing. Want daarvoor is een
afweging tegen andere informatie nodig (zoals natuurwetenschappelijke basis).
1
,Dus: Een gevonden p-waarde < 0.05 resulteert het verwerpen van de H0. Maar soms kent dit geen
wetenschappelijke basis. De gevonden p-waarde laat zien dat het gerealiseerde resultaat ook
toevallig kan worden gevonden (tenzij de p-waarde 0 is). De toets structuur forceert echter een
statistische beslissing.
De nulhypothese is een objectief criterium maar het probleem is dat we in de wetenschap
significantie en succes als hetzelfde zien. Dit zorgt ervoor dat je blind raakt voor context van het
onderzoek, blind raakt voor het gebrekkige redeneerschema NHST. Toch wordt het gepresenteerd als
‘bewijs’. Effect: wetenschappelijke literatuur bevat veel van dergelijke fout positieven. Zo wordt de
H0 wel eens geformuleerd na inspectie gegevens en dan is het uitgangspunt niet langer correct (want
de H0 gaat uit van toeval). Wanneer dit gebeurt zie je dit niet terug in de p-waarde en wordt dus
onterecht gezegd dat het resultaat statistisch significant is.
Uit de p-waarde kan je niet de omvang van het effect halen!! Een betrouwbaarheidsinterval zou
inzicht kunnen geven in klinische relevantie van het gevonden effect. Een betrouwbaarheidsinterval
is een interval van waarden voor een populatieparameter, gebaseerd op steekproefuitkomsten, die
op grond daarvan aannemelijk zijn. Daarbij gebruik je geen statistische hypothesen. Het interval ligt
rondom de steekproefparameter (gemiddelde). De standaardfout wordt gebruikt als schatting voor
de variabiliteit van het gemiddelde dat je hebt gevonden. Het percentage betrouwbaarheid bepaalt
de capture rate = het percentage van alle mogelijk te verkrijgen intervallen dat de populatie
verwachting inderdaad omvat. Interpretatie: als je een proef eindeloos herhaalt bij steeds nieuwe
steekproeven, dan zal 95% van alle resulterende intervallen de werkelijke populatieparameter liggen.
Een gevonden 95% betrouwbaarheidsinterval is niet te interpreteren als: een interval met 95% kans
om populatieparameter te omvatten en/of een interval dat met 95% zekerheid de werkelijkheid
bevat. Dit klopt NIET. Juiste interpretatie: “Er is 95% zekerheid/kans dat het interval 𝜇 omvat”.
Standaardformule voor betrouwbaarheidsinterval:
Numeriek: 𝐵𝐼95% (𝜇) = 𝑥̅ ± 𝑡95% × 𝑠𝑒
Dichotoom: 𝐵𝐼95% (𝜋) = 𝑝 ± 𝑧95% × 𝜎𝑝
Als je populatie uitspraken wilt doen op basis van steekproeven zijn schattingen nodig.
Binnen een normale verdeling zegt de verwachtingswaarde (𝜇) niets over de spreiding (𝜎) > je moet
kennis hebben over individuele waarnemingen (op eentje na, n-1). Omdat bij een normale
verdelingen schattingen voor 𝜇 en 𝜎 niet samenhangen gebruiken we de t-verdeling; mate van
afwijking t.o.v. normale verdeling wordt bepaald door het aantal vrijheidsgraden. Dat aantal ~ n – 1.
Naarmate n → oneindig vallen t- en normale verdeling samen.
Voorwaarden gebruik t-verdeling:
Vergelijking met een normwaarde > 1-steekproef t-toets
Analyseren van gepaarde waarnemingen (verschil voor en na meting) > gepaarde t-toets
Analyseren van twee groepen t.o.v. elkaar > 2-steekproef t-toets
Analyseren van RCT-gegevens > 2-steekproef t-toets op verschillen
Daarnaast moeten de gegevens onafhankelijk verzameld zijn (gegarandeerd bij toeval steekproef;
ieder individu uit de populatie heeft gelijke kans om in de steekproef terecht te komen). Het is
belangrijk dat er geen clustering is (bronnen van afhankelijkheid voorkomen). Ook moet je kunnen
aannemen dat je waarnemingen een gemiddelde hebben uit de normale verdeling. Denk aan
2
, centrale limietstelling (zorgen voor een groot aantal waarnemingen (n) > beschouwen als normale
verdeling).
1-steekproef t-toets: verschilt continue populatieparameter van veronderstelde standaardwaarde?
Dit gebruik je bij kwantitatieve variabelen.
𝑥̅ (𝑔𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒 𝑠𝑡𝑒𝑒𝑘𝑝𝑟𝑜𝑒𝑓)−𝜇0 (𝑔𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑒)
Toetsingsgrootheid 𝑡 = 𝑠𝑑 ⁄√𝑛 (𝑠𝑡𝑎𝑛𝑑𝑎𝑎𝑟𝑑𝑓𝑜𝑢𝑡)
De t-waarde is dus het aantal standaardfouten. Hoe groter de t-waarde is, hoe meer standaardfouten
mijn steekproef gemiddelde afwijkt dan wat je had verwacht onder de nulhypothese > ofwel hoe
onwaarschijnlijker de nulhypothese wordt.
Eerste stap is het controleren van de voorwaarden: random steekproef? gegevens onafhankelijk? CLS
toepasbaar? Vervolgens t-waarde berekenen en aflezen hoeveel procent erbij hoort in tabel > H0 wel
of niet verwerpen. Vervolgens analyse aan de hand van het betrouwbaarheidsinterval: 𝐵𝐼95% (𝜇) =
𝑥̅ ± 𝑡95%;d.f.=... × 𝑠𝑑⁄√𝑛.
Gepaarde t-toets: is er een systematisch verschil tussen gematchte paren (voor- en nametingen)?
Bereken eerst vanuit vóór- en nameting één verschilscore > vervolgens de verschilscores analyseren
met een 1-steekproef t-procedure. Extra aanname: er is geen relatie tussen vóórmeting en
verschilscore (want anders hangt het antwoord af van een tweede variabele, namelijk de
𝐷𝑇 (𝑔𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒 𝑣𝑒𝑟𝑠𝑐ℎ𝑖𝑙 𝑡𝑢𝑠𝑠𝑒𝑛 𝑣𝑜𝑜𝑟−𝑒𝑛 𝑛𝑎𝑚𝑒𝑡𝑖𝑛𝑔)
voormeting). Bereken: 𝑡 = 𝑠𝑑 ⁄√𝑛
. Dus t-waarde berekenen
en aflezen hoeveel procent erbij hoort in tabel > H0 wel of niet verwerpen. Dan analyse aan de hand
van het betrouwbaarheidsinterval: 𝐵𝐼95% (∆𝑇 ) = 𝐷 ̅𝑇 ± 𝑡95%;d.f.=... × 𝑠𝑑𝐷 ⁄√𝑛. Het
𝑇
betrouwbaarheidsinterval geeft een indicatie van de omvang van het verschil tussen voor- en
nameting, dit is vaak interessanter dan de H0.
2-steekproef t-toets: is er een systematisch verschil tussen twee groepen?
(𝑥̅ 𝑇 − 𝑥̅𝐴 ) (ℎ𝑒𝑡 𝑣𝑒𝑟𝑠𝑐ℎ𝑖𝑙 𝑡𝑢𝑠𝑠𝑒𝑛 ℎ𝑒𝑡 𝑔𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒 𝑣𝑎𝑛 𝑏𝑒𝑖𝑑𝑒 𝑔𝑟𝑜𝑒𝑝𝑒𝑛) − (𝜇 𝑇 − 𝜇𝐴 )0 (ℎ𝑒𝑡 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑣𝑒𝑟𝑠𝑐ℎ𝑖𝑙 𝑡𝑢𝑠𝑠𝑒𝑛 𝑏𝑒𝑖𝑑𝑒 𝑔𝑟𝑜𝑒𝑝𝑒𝑛 𝑜𝑛𝑑𝑒𝑟 𝐻0)
𝑡=
𝑠. 𝑒.
De standaardfout berekenen is lastig, want je hebt twee steekproeven met twee
standaardafwijkingen > SPSS.
Aantal vrijheidsgraden = n – 2 (want twee steekproeven).
Een toets gaat over verwachtingswaarde van het verschil tussen populaties. Onder H0 is
populatieverwachtingen gelijk. Impliciet: populatievarianties gelijk > maar dat is een gevaarlijk
uitgangspunt als we al twijfelen aan juistheid H0 (en waarom zouden we anders een toets doen?).
daarom bestaan er twee varianten van de 2-steekproef 𝑡-toets: voor gelijke varianties (je gaat
ervanuit dat de beide groepen uit de populatie dezelfde spreiding hebben) en voor ongelijke
varianties (houdt rekening met het idee dat varianties van geteste populaties kunnen verschillen >
voorkeur!).
SPSS: Analyse (“Independent-Samples T Test”) > zowel uitkomsten “Equal variances assumed”
als “Equal variances not assumed” worden weergegeven. In de tabel lees je boven gelijke varianties
en onder ongelijke varianties. Dan kan je de t-waarde en df (vrijheidsgraden) aflezen. Daarnaast staat
de significantie (2-tailed) en het betrouwbaarheidsinterval.
2-steekproef t-toets op verschillen: verschilt het effect van een behandeling tussen twee groepen?
Nu heb je twee groepen met een voor- en een nameting (analyse RCT-gegevens). Reduceer vóór- en
3
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper amberwinkelaar. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,89. Je zit daarna nergens aan vast.