Discovering statistics using IBM SPSS statistics – Andy Field
Samenvatting van Rianne Weijts – Erasmus Universiteit Rotterdam
CHAPTER 3: THE PHO ENIX OF STATISTICS
3.2 Problems with NHST
Er zijn drie misvattingen over wat een statistisch significant resultaat betekent en wat je hieruit kan
concluderen.
1. Een significant test resultaat betekent dat het effect belangrijk is. Nee, want hele kleine
onbelangrijke effecten kunnen statistisch significant zijn als het sample groot genoeg is en
grote belangrijke effecten kunnen gemist worden als het sample te klein is.
2. Een niet significant resultaat betekent dat H0 waar is. Nee, als de p-waarde > .05 dan kan je
ervoor kiezen H1 af te wijzen, dit betekent alleen niet dat H0 waar is. Een niet significant
resultaat verteld ons alleen dat het effect niet groot genoeg is om gevonden te worden (in onze
steekproef), het zegt niet dat de grootte van het effect nul is.
3. Een significant resultaat betekent dat H0 fout is. Nee, een significante test statistiek is
gebaseerd op kans berekening en er zijn dus limieten aan wat we hieruit kunnen concluderen.
Kortom, hoewel NHST het resultaat is van het zoeken naar een systeem dat kan testen welke van de
twee concurrerende hypothesen (de nul of de alternatieve) waarschijnlijk juist is, faalt het omdat de
significantie van de test geen bewijs levert voor een van beide hypothesen.
Een praktisch probleem wat gecreëerd wordt door NHST is het alles-of-niets denken. Als p = .0499
dan is het significant, maar als p = .0501 dan is het niet significant, terwijl het verschil tussen deze
twee minimaal is. Toch zou je tegenovergestelde conclusies trekken als je deze twee p-waarden zou
vergelijken.
De p-waarde is de waarschijnlijkheid om een teststatistiek te krijgen die minstens zo groot is als de
waargenomen waarde ten opzichte van alle mogelijke waarden van tnull uit een oneindig aantal
identieke herhalingen van het experiment.
De researcher heeft invloed op NHST, dit wordt uitgebreid omschreven in paragraaf 3.2.3, maar het is
erg ingewikkeld en moeilijk samen te vatten.
3.3 NHST as part of wider problems with science
- Publication bias houdt in dat studies met significante resultaten 7x meer kans hebben om
gepubliceerd te worden dan studies waarin de resultaten niet significant zijn. In de psychologie
zijn ongeveer 90% van de artikelen in tijdschriften onderzoeken met significante resultaten.
- Researchers degree of freedom refereert naar het feit dat onderzoekers veel beslissingen moeten
maken wanneer ze een onderzoek aan het ontwerpen en analyseren zijn. Dit kan invloed hebben
op de resultaten en door bijvoorbeeld te besluiten bepaalde cases uit te sluiten kunnen resultaten
meer significant worden gemaakt.
- P-hacking, HARKing, zijn allebei researcher degrees of freedom die nauw verbonden zijn aan
NHST. P-hacking betekent dat men selectief alleen de significante p-waarden rapporteert. Dit kan
bijvoorbeeld door meerdere analyses te proberen en er dan één te kiezen waar de beste
significantie uit komt. HARKing is wanneer men een hypothese presenteert die pas na de data
, collectie bedacht is, alsof deze voor de data collectie bedacht is. In beide gevallen controleer je
niet voor de Type I-fout, omdat je afwijkt van het proces waardoor deze wordt gecontroleerd, en in
feite heb je dus geen idee hoeveel Type I-fouten je zou maken op lange termijn.
In de volgende onderdelen worden er manieren besproken waarop je het NHST probleem kan
aanvliegen. Een statistische fenix die herrijst uit de as van EMBERS (niet in die volgorde).
1. Effect sizes
2. Meta analysis
3. Bayesian Estimation
4. Regristration
5. Sense
3.5 Sense, and how to use it
De eerste manier om NHST problemen op te lossen, is door je verstand te gebruiken wanneer je NHST
gebruikt. De ASA geeft een statement met zes principes wanneer je NHST gebruikt.
1. P-waarden kunnen aangeven hoe onverenigbaar de data is met het statistische model.
2. … zolang je de p-waarden niet interpreteert als een meting van de kans dat de hypothese die je
onderzoekt waar is.
3. Wetenschappelijke conclusies moeten niet af hangen van of een p-waarde voorbij een
specifieke grens valt. Stop het zwart-wit denken.
4. Niet p-hacken, niet selectief rapporteren.
5. Verwar statistische significantie niet met praktisch belang. Een p-waarde is nooit een
kwantificatie van de grootte of van het belang van een effect.
6. Opzichzelfstaand geeft een p-waarde niet genoeg bewijs m.b.t. een model of hypothese.
3.6 Pre-registering research and open science
De ASA wil graag meer transparantie in wat er wordt gerapporteerd. Open science refereert aan het
idee dat het proces, de data en de uitkomsten van onderzoeken toegankelijk moeten zijn voor iedereen.
Door van te voren je onderzoek te registreren en dit publiek te maken voordat je data gaat verzamelen,
ondervang je een aantal problemen zoals HARKing.
3.7 Effect sizes
Significantie zegt ons niets over hoe belangrijk een effect is, of hoeveel belang het heeft. De oplossing
hiervoor is om de effectgrootte te meten op een gestandaardiseerde manier. Een effect size is een
objectieve en (meestal) gestandaardiseerde maat voor de grootte van het waargenomen effect. Het feit
dat de maat 'gestandaardiseerd' is, betekent dat we effectgroottes kunnen vergelijken tussen
verschillende onderzoeken die verschillende variabelen hebben gemeten of verschillende meetschalen
hebben gebruikt. De meest voorkomende zijn Cohen’s d, Pearsons correlatie coëfficiënt r, en de odds
ratio.
3.7.1 Cohen’s d
Als we het verschil tussen gemiddelden delen door de standaard deviatie dan krijgen we een signal-to-
noise ratio, maar we krijgen ook een waarde die wordt uitgedrukt in standaarddeviaties. Deze waarde
kan vervolgens vergeleken worden met verschillende studies en uitkomst maten. Dat is
Cohen’s d. En er zit een dakje op omdat het een schatting is van de populatie vanuit de
steekproef die we hebben gedaan. Cohen heeft aangegeven dat een klein effect: d = 0.2,
medium effect: 0.5 en groot effect: 0.8. Wanneer de twee groepen verschillende
standaarddeviaties hebben kan je twee dingen doen. Of je gebruikt de SD van de