Hoorcolleges Redeneren Blok 2
Kennisclips 12.1 t/m 12.3
Verschillen in onderzoeken kunnen komen door verschillende keuzes van de onderzoekers >
Simmons et al (volledig lezen) & QRP’s
Type I fout wordt groter naarmate je meer variabelen meet
o “It is essential to know the collective or reference class for which we are calculating alpha or
beta.” > soms worden variabelen weggelaten in een artikel, maar de kans op type I fout is
dan wel groter dan 0,05
o P1 Als ik gooi met een 20-zijdige dobbelsteen, dan is de kans dat ik 20 gooi 5%
P2 Ik gooi met één 20-zijdige dobbelsteen / P2 Ik gooi met 100 20-zijdige dobbelstenen
C De kans dat ik 20 gooi is 5% / C? De kans dat ik 20 gooi is 5%
Normen:
o Volledige rapportage: effectgroottes, betrouwbaarheidsintervallen (of error bars) en p-
waardes. Van het ‘sampling plan’: power, verwachtte effectsize en N
o Volledige rapportage van gemaakte keuzes: alle condities, variabelen, instructies, outliers,
studies etc. Ook de niet significante resultaten rapporteren & laten zien welke keuzes je hebt
gemaakt > dat de conclusie niet berust op mogelijk arbitraire keuzes!
Motivaties & oplossingen + Nosek et al (2012)
Aanleidingen gefaalde replicaties:
Niet goed te interpreteren resultaten
Indicatoren van file drawer probleem
Replicatie onderzoek gebruikt andere opzet > daardoor mogelijk ander effect size, kan ook door
tijdverschil
Oorzaken:
Doelen van de wetenschap gaan niet altijd samen met de doelen van de wetenschapper:
o Hoeveelheid (veel geciteerde) publicaties zijn van essentieel belang voor verdere carrière
o Het probleem is dat het streven naar waarheid/robuuste en interpreteerbare resultaten in het
huidige systeem niet altijd tot publicaties leidt
Teveel nadruk op nieuwe bevindingen is problematisch: specifieker, we denken te snel dat een
gepubliceerd positief resultaat een volwaardig verschijnsel is > replicatie is noodzakelijk om van
een eerste claim naar meer robuuste verschijnselen te gaan
Menselijke motivatie (motivated skepticism): mensen worden gestuurd hoe ze naar informatie
kijken, dit is afhankelijk van de impact van de informatie
o Je bent skeptischer over informatie die jou niet persoonlijk aangaat (bijv mannen kijken
skeptischer naar artikel over werking koffie tegen borstkanker dan vrouwen)
o Overtuigingen die je nu hebt sturen je ook
Wetenschapper is zoals elk mens vatbaar voor verschillende denkfouten: motivated reasoning: bij
gerichte doelen zijn mensen geneigd informatie zodanig te verwerken dat deze aansluit bij de
doelen die ze willen bereiken
o Kritischer kijken bij onverwachte resultaten dan bij aantreffen van voorspelde resultaten
(motivated skepticism)
o Eerder opzoek gaan naar bevestiging van bestaande ideeën (confirmation bias)
o Na het zien van de resultaten jezelf overtuigen dat je dit al van tevoren had voorspeld
(hindsight bias)
o Eerdere ideeën zijn, nadat deze zijn ontkracht, nog steeds van invloed op onze inschattingen
(perserverence bias)
Met name in complexe situaties waarbij de beschikbare informatie ambigu is en er legitieme
redenen zijn voor verschillende keuzes!
1
,Mogelijke oplossingen (Nosek et al): de problemen met replicatie en fraude hebben een reactie
losgemaakt
Correct gebruik van frequentistische statistiek: geen conclusies obv uitsluitend p-waarde, en
power, effect size etc noemen
Nadruk leggen op correct opzetten en uitvoeren van onderzoek, niet het behalen van significante
effecten per se
Minder druk op publicatie leggen: open data & bevindingen al beschikbaar maken voor publicatie
Aggregeren van data uit meerdere onderzoeken om robuuste verschijnselen aan te kunnen tonen
Essentie van de meeste suggesties is een nadruk op openheid en reproduceerbaarheid:
Online beschikbaarheid van data, materialen, procedures, pre-publicaties
Replicatiepogingen
Checklists voor peer-review
Paradigma-gedreven onderzoek, soorten replicatie:
Direct:
o Hetzelfde experiment, andere steekproef
o Geschikt om vast te stellen hoe robuust een verschijnsel is (toevalsbevindingen eruit filteren)
Conceptueel:
o Ander experiment, andere steekproef, hetzelfde verschijnsel (concept)
o Geschikt om te generaliseren van een specifiek design naar een algemener concept
o Door essentiële veranderingen in de opzet van het experiment draagt dit niet bij aan het
aantonen van hoe robuust een verschijnsel is
o Biedt onderzoeker veel ruimte voor interpretation bias > kan niet gebruikt worden om eerdere
bevindingen te weerleggen
Paradigma-gedreven:
o Directe replicatie uitbreiden met gerichte aanpassingen in procedure > Itt conceptuele
replicaties gaat het hier om enkele onderbouwde uitbreidingen/variaties op het paradigma
o Zorgt voor robuustere verschijnselen en biedt ruimte aan verder verbreden van onderzoek
naar hetzelfde verschijnsel
Is het de moeite waard om te repliceren? Kijken naar impact en bestaand bewijs
Hoorcollege 13 – Simmons et al + Nosek et al
Kritisch kijken naar onderzoek
Als je genoeg weg laat, wordt het vanzelf een mooi onderzoek
Motivated reasoning: mede beïnvloed worden door andere doelen dan accuratesse (bijv
onderzoekers meer geïnteresseerd in significant effect dan nuttig onderzoek)
Wetenschappers zijn niet altijd ideaal (objectief, rationeel, onbevooroordeeld, eerlijk, etc) > is
gecombineerd met onderzoek doen op een manier die niet ideaal is
o Dezelfde beschrijving van een methode wordt veel slechter beoordeeld als p>0,05, dan als
p<0,05 zou zijn (experiment Mahoney)
Researchers degrees of freedom: onderzoeker heeft veel bewegingsruimte, veel ambiguïteit > als
je heel gemotiveerd bent om je artikel te publiceren
Wat is de kans dat Billy-Bob berust op een Type I fout (4 variabelen gemeten): > 0,13
o Hoe meer variabelen je meet (en misschien niet laat zien), des te groter de kans op een Type
I fout > als je niet voor die variabelen corrigeert (met alpha)
Questionable Research Practices (QRPs): niet alle afhankelijke variabelen noemen, meer data
verzamelen na data analyse, niet alle condities noemen, stoppen na significant effect, afronden
van p-waardes, alleen ‘gelukte’ onderzoeken rapporteren, data verwijderen bij slechte invloed etc.
Type I fout wordt door psychologen gezien als kostbaarder: je publiceert een artikel, terwijl er
eigenlijk geen significant verschil is (H0 onterecht verwerpen)
o Waarom? > hardnekkig/moeilijk te weerleggen + vergeefse replicatiepogingen
o Alpha (type I fout) en beta (type II fout) zijn vaak hoger dan 0,05 en 0,20
2
, Slide 36: plaatje > is dit onderzoek slecht/goed repliceerbaar?
o Antwoord: Goed repliceerbaar! Flauw > maar vaak gerepliceerd dus goed (ook al hele andere
resultaten)
Welk soort onderzoek is volgens Nosek het meest geschikt om de effecten van de replicatiecrisis
tegen te gaan?
o Antwoord: Paradigma-gedreven onderzoek
Oplossingen voor deze crisis: zorg voor meer directe replicaties, leeg de file drawer, onderscheid
confirmatory en exploratory, voorkom QRPs, proper power, open data > wat opvalt is dat de
eerste bron al lang geleden is > probleem benoemen is nog niet genoeg!
Andere oplossingen, onder andere:
o Team of rivals: ga samenwerken
o Blinde data analyse: je krijgt data van anderen, die moet je analyseren > andere motivatie
Onderzoek als argument
Bem (studie gordijnen en (non)erotische plaatjes) concludeert dat er sprake is van pre-cognitieve
detectie van erotische stimuli (M hit rate= .53, p=.01). Wat is de kans dat deze conclusie berust op
een type I fout?
o Antwoord: (0,01/0,05/>0,05) = >0,05
Kritisch kijken:
1. Wat is het doel van het onderzoek/de tekst? (Bijv hypothese helder geformuleerd, volgt deze
overtuigend uit de redenering in de inleiding?)
2. Is de relevantie van het onderzoek duidelijk? (Maatschappelijke relevantie vraagstelling,
wetenschappelijke relevantie > waarom relevant?)
3. Wordt er voldoende duidelijke informatie gegeven over de deelnemers, procedure, en
materiaal?
4. Is de beschreven methode overtuigend? (Bijv sluit de operationalisatie aan op de hypotheses,
deelnemers representatief?)
5. Worden de resultaten helder gepresenteerd? (Bijv toetskeuze, outliers, alle variabelen?)
6. Worden de gevonden resultaten helder geïnterpreteerd? (Bijv afweging kans type I en type II
fouten)
7. Is de interpretatie van het onderzoek door de auteur te volgen? (Conclusie helder
weergegeven, sluit deze aan?)
8. Is de interpretatie van het onderzoek door de auteur rationeel overtuigend? (begrenzingen
duidelijk aangegeven, relevantie discussiepunten helder?)
Studie Bem, de effect size wordt groter naarmate minder N > omdat omdat er meer variantie te
verwachten valt als de steekproef kleiner is
Effect size, Alpha, N, & Power:
o A priori power: een poweranalyse wordt uitgevoerd voordat men het experiment uitvoert >
hiermee kan het aantal deelnemers inhoudelijk worden onderbouwd
Afhankelijk van verwachtte effect size (schat de populatie effect size obv eerder
onderzoek & theorie)
Afhankelijk van alfa > welke type I error rate is acceptabel?
Afhankeljk van de power > welke type II error rate is acceptabel?
Exploratief versus confirmatief:
o Texas sharpshooter fallacy: doel tekenen nadat je hebt geschoten
o HARKing: hypothese maken nadat je je resultaten hebt geanalyseerd
F(ishing)-index: f = tests/hypotheses
o Niets mis met het verkennen om hypotheses te ontwikkelen/model bij te schaven
o Maar: confirmatief testen van die hypothese/dat model moet op nieuwe data gebeuren
Normative neglect
Kritisch kijken:
o Waarom is het vermelden van alleen een p-waarde niet bijzonder informatief? Zegt de p-
waarde iets over de omvang van het effect of over hoe aannemelijk H0 is?
o Waarom is de effectgrootte het vermelden waard? Zeer grote effecten te verwachten met
weinig deelnemers, significantie verschillen interessant bij zeer grote N?
o Waarom is het betrouwbaarheidsinterval het vermelden waard? > Geeft informatie over
precisie van het geschatte effect
3