Good research practices literatuur
John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research
practices with incentives for truth telling. Psychological science, 23(5), 524-532.
Er is tegenwoordig wel aandacht voor duidelijke fouten in wetenschap, maar niet zoveel voor het grote
grijsgebied van goed handelen. Dit terwijl Questionable Research Practices (QRP) heel veel voorkomen.
Dit soort praktijken kunnen er voor zorgen dat je onjuist een bevestiging van je (valse) hypothese vindt.
Omdat de handelingen in een grijsgebied vallen, vallen ze minder op dan grove fouten of schendingen en
kunnen ze ook vaak in verslagen goedgepraat worden.
Maar in de afgelopen jaren is de aandacht voor QRP vergroot en worden er veel vragen gesteld door en
aan wetenschappers. In dit artikel wordt er inzicht gegeven in hoeveel psychologen aan QRP doen en
welke handelingen dit dan zijn. Omdat het hierbij gaat om self-report vragen waarbij mensen makkelijk
kunnen liegen, is er gebruik gemaakt van een nieuwe methode waarbij mensen expliciet worden
aangemoedigd om de waarheid te vertellen. Opvallend was de uiteindelijke eerlijkheid van de
participanten en de prevalentie van QRP.
2155 respondenten vulden de anonieme online vragenlijst (gedeeltelijk) in. Ze moeten aangeven welke
van de tien QRP ze wel eens hadden gedaan en of deze handeling te verdedigen was. Bij elke QRP werd
een schatting gegeven van het percentage wetenschappers dat zich hier schuldig aan maakt en het
percentage dat dit zou toegeven. Deze waarden waren voor de helft van de respondenten anders. Ook
werd gevraagd hoe vaak ze twijfelen over de integriteit van bepaalde andere instellingen en
wetenschappers. Met behulp van een bepaalde techniek kon het waarheidsgehalte van de respondent
bepaald worden en afhankelijk daarvan werd een bepaalde grootte donatie gedaan naar een goed doel
naar keuze. Met deze middelen hoopten de wetenschappers op een zo eerlijk mogelijke respons. De
maatregelen bij deze groep werd het Bayesian Truth-serum (BTS) genoemd. Er was ook een
controlegroep waar deze maatregelen niet bij genomen werden, zodat het verschil duidelijk werd.
De tien QRP’s (-geometrische gemiddelden):
1. Niet alle afhankelijke metingen (variabelen) noemen – 78%
2. Bepalen of je meer data gaat verzamelen nadat je hebt gecheckt of je resultaten met de huidige data
significant zijn – 72%
3. Niet alle condities vermelden - 42%
4. Eerder dan gepland stoppen met datacollectie omdat het gezochte resultaat al is gevonden – 36%
5. Afronden van een p-waarde (van 0.054 naar 0.05 bijvoorbeeld) – 39%
6. Alleen de studies vermelden die ‘werkten’ (gewenste resultaten opleverden) – 67%
7. Beslissen om data niet mee te nemen nadat je hebt gecheckt wat de impact hiervan is op je
resultaten – 62%
8. Een onverwachte bevinding presenteren alsof je dat al van te voren had voorspeld/verwacht – 54%
9. Claimen dat resultaten niet beïnvloed worden door demografische kenmerken, terwijl je dit eigenlijk
niet weet (of weet dat het niet zo is) – 13%
10. Data falsifiëren – 9%
94% van de mensen in de experimentele conditie gaven toe aan minstens 1 QRP. Alle gevonden
prevalenties zijn waarschijnlijk conservatief, omdat mensen toch altijd oneerlijk kunnen blijven. Mensen
die meer zeldzame QRP’s toegaven, gaven vaker ook meer ‘gewone’ QRP’s toe. Veel respondenten
,wisten wel welke praktijken niet deugen, maar waren heel flexibel in waar de grens precies zit met
betrekking tot hun eigen gedragingen. Gemiddeld vonden wetenschappers dat hun QRP goedgepraat
konden worden (tussen misschien en ja in). De respondenten gaven aan veel te twijfelen aan de
integriteit van anderen, maar bijna nooit aan hun eigen integriteit.
Al met al heeft dit onderzoek aan kunnen tonen hoeveel psychologen aan bepaalde QRP’s doen, en dat
de BTS methode succesvol is in het verkrijgen van meer eerlijke en valide antwoorden op self-report
metingen.
Simmons, J. P., Nelson, L. D., & Simonsohn (2011). False-positive psychology: undisclosed flexibility in
data collection and analysis allows presenting anything as significant. Psychological science, 22(11),
1359-1366.
De ergste fout die in de wetenschap gemaakt kan worden is een false positive, je H0 verwerpen terwijl
dit niet zou moeten. Ze zijn hardnekkig te vermijden en ze worden ook niet gecontroleerd omdat
tijdschriften deze controles niet publiceren (publication bias) en wetenschappers dus weinig motivatie
hebben om dit soort onderzoek uit te voeren. En groot gevolg van het publiceren van valse positieven is
dat mensen middelen gaan verspillen aan het verder onderzoeken van de ingeslagen richting omdat het
veelbelovend lijkt, terwijl er eigenlijk niets te halen valt. Ook is het zo dat een wetenschapsveld waar
bekend wordt dat er veel valse positieven gepubliceerd worden, niet meer geloofwaardig.
Dit artikel gaat in op hoe de regels van normaal onderzoek het te makkelijk maken om valse positieven te
publiceren. De hoofdoorzaak noemen de auteurs researchers degrees of freedom (vrijheidsgraden van
de onderzoeker). Hiermee wordt bedoeld dat er veel vragen zijn rondom het doen van onderzoek,
waarvan er niet verwacht wordt van een onderzoeker dat hier van te voren al een antwoord op is. Ze
worden vrijgelaten om verschillende mogelijkheden te verkennen, een te vinden die tot statistische
significantie (p ≤ 0.05) leidt, en dan vervolgens alleen die mogelijkheid te rapporteren. Dit gedrag komt
voort uit de wens om statistisch significante resultaten te vinden en de onduidelijkheid rondom de
beslissingen die genomen moeten worden. hierdoor besluiten veel wetenschappers dat de goede
beslissing altijd degene is die tot significantie leidt, omdat er geen duidelijke regels zijn over wanneer dit
niet zo is.
Onduidelijkheid komt veel voor in empirisch onderzoek. Als voorbeeld wordt genoemd dat er geen vaste
regels zijn over het omgaan met uitbijters. Zo verwijderen verschillende wetenschappers aan de hand
van verschillende cut-off points hele andere datapunten en houden ze zo heel andere steekproeven over
waardoor hun resultaten anders geïnterpreteerd moeten worden. De grote variatie in beslissingsregels
zorgt ervoor dat geen van de beslissingen als fout wordt bestempeld.
Om te laten zien wat de auteurs bedoelen, voerden ze twee experimenten uit. In het eerste experiment
werd onderzocht of mensen zich ouder voelen wanneer ze naar kinderliedjes luisteren (de auteurs
hadden van te voren al vastgesteld dat dit een valse conclusie is). 30 studenten moesten naar een
kinderliedje luisteren of een controleliedje en daarna aangeven hoe oud ze zich voelden (vijfpuntsschaal
van ‘heel jong’ naar ‘heel oud’) en hun vaders leeftijd invullen om te controleren voor baseline leeftijd.
het uitvoeren van een ANCOVA liet een statistisch significant effect (p = .033) zien: mensen voelden zich
inderdaad ouder na het luisteren naar een kinderliedje.
In het tweede experiment probeerden ze het eerste experiment te repliceren. De methode was precies
hetzelfde, alleen waren er 20 studenten en luisterde de experimentele groep nu naar liedjes over oudere
leeftijd en was de vraag of ze zich dan jonger zouden voelen. Studenten luisterden naar de liedjes en
, moesten daarna hun geboortedatum en de leeftijd van hun vader invullen. Op basis van deze gegevens
werd een significant effect gevonden in een ANCOVA: mensen die naar het oude liedje luisterden waren
gemiddeld jonger dan mensen die naar het controleliedje luisterden (p = .040). Beide experimenten
waren daadwerkelijk uitgevoerd met echte participanten en echte analyses.
Een algemene analyse vond de volgende vrijheidsgraden die de kans op een valse positief vergroten:
Te veel vrijheid in het kiezen van je afhankelijke variabelen
Te veel vrijheid in het bepalen van steekproefgrootte
Te veel vrijheid in het gebruik van covariaten
Te veel vrijheid in het rapporteren van subsets van de condities
Ook werd er gekeken naar combinaties van de hierboven genoemde opties. Ze keken naar hoe dit in de
praktijk leidt tot een grotere kans op significantie:
Twee afhankelijke variabelen (r = .50) gebruiken 9,5% kans op p < .05
Tien observaties in je cel toevoegen (20 -> 30) 7,7% kans op p < .05
Controleren voor geslacht of de interactie van geslacht en behandeling 11,7% kans op p < .05
Een van drie condities laten vallen in de resultaten 12,6%
Combinatie van 1&2 14,4%
Combinatie van 1&2&3 30,9%
Combinatie van 1&2&3&4 60,7%
Wanneer deze handelingen dus allemaal voorkomen is de kans groter dat een wetenschapper een
significant effect vindt dan dat er een niet-significant effect wordt gevonden. De auteurs zeggen dat deze
percentages zelfs nog conservatief zijn en dat er ook nog veel andere vrijheidsgraden zijn die nu niet
getest waren die vaak voorkomen.
Veel wetenschappers denken dat de handelingen die hierboven genoemd zijn slechts een heel klein
effect kunnen hebben op het vinden van valse positieven. Dit is dus niet het geval.
Als oplossing bieden de auteurs zes regels voor wetenschappers en vier richtlijnen voor reviewers van
papers.
Zes regels voor wetenschappers:
1. Je moet voordat je onderzoek begint bepalen wanneer je stopt met dataverzameling, dit
noemen in het artikel en je eraan houden
2. Er moeten tenminste 20 observaties per cel worden verzameld, of er moet een duidelijke
verantwoording zijn waarom dit niet gebeurt (als het bijvoorbeeld heel erg duur is om zoveel
data te verzamelen)
3. Alle variabelen die verzameld zijn in de studie moeten genoemd worden (ook degene die
uiteindelijk niet significant zijn). Om de lezer te laten weten dat de lijst compleet is, wordt
aangeraden het woord ‘only’ te gebruiken (‘only’ x en y en z werden gemeten)
4. Alle condities moeten genoemd worden, ook degene die niet de gewenste resultaten
produceerden
5. Als er een observatie wordt verwijderd uit de dataset, moet altijd vermeld worden wat de
resultaten waren geweest wanneer deze niet verwijderd was
6. Als er een covariaat wordt toegevoegd, moet er ook vermeld worden wat de resultaten waren
geweest zonder de toevoeging van de covariaat
Vier richtlijnen voor reviewers:
1. Er moet vastgesteld worden dat er is voldaan aan de zes regels
2. Er moet meer tolerantie zijn voor niet-perfecte resultaten (niet significant, niet verwacht, etc.)
om de publiatiebias tegen te gaan