Hoorcolleges Beleidsevaluatie
HOORCOLLEGE 1: DE FUNDAMENTELE STELLING VAN REALISTISCH EVALUEREN
De fundamentele stelling van Realistisch Evalueren
De uitruil tussen interne validiteit en externe validiteit
Verder dan positivisme en sociaal constructivisme
HOORCOLLEGE 2: HOE BELEIDSEVALUATIE HET PROBLEEM VAN HUME PROBEERT OP TE LOSSEN
Hume’s probleem in evaluatietaal
H0: Een falsificatiemachine. Precisie of power?
Van een dubbel blinde RCT naar Heckit
Wat is er gebeurd met causale interpretatie? Interne en externe validiteit
Ladders van abstractie
Abstaheren van een studie of springen naar het doelwit?
HOORCOLLEGE 3: VAN OXO NAAR CMO, VAN EEN EXPERIMENT NAAR EEN ECHT EXPERIMENT
Vier benaderingen
Het klassieke experimentele design
Productevaluatie zonder experiment
Meta-analyse
Drie soorten heterogeniteit
De casus over impact van opleiding op inkomen
Heckman’s twee stappen correctie (1976)
Realistisch evalueren
Stakeholders hun rollen in realistisch evalueren
HOORCOLLEGE 4: DE ZOEKTOCHT NAAR OORZAKEN, NEYMAN-PIERSON VERSUS BAYES
Neyman-Pierson statistiek: frequentistische statistiek
p(E|H) is niet hetzelfde als p(H|E)
Bayesiaanse formule: bewijs en priors
Wat er gebeurt als statistiek verkeerd gebruikt wordt: Lucia de Berk
Significantie versus power: Alfa en Betafouten
Bayes toepassen: Monty Hall
HOORCOLLEGE 5: CASESTUDIES EN N=1
Causes of Effect (COE) versus Effects of Causes (EOC)
Casestudies versus gecontroleerde experimenten
Context of Justification (COJ) versus Context of Discovery (COD)
Interne validiteit van casestudies
Het antwoord op de theoretische waaromvragen
HOORCOLLEGE 6: HERHALING EN OEFENTEKST GRAVERSEN & VAN OURS
Filmpje Lilian Helder
Bespreking oefentekst Graversen & van Ours
HOORCOLLEGE 1: DE FUNDAMENTELE STELLING VAN REALISTISCH EVALUEREN
,INTRODUCTIE
Beleidsevaluatie gaat over 3 vragen:
1. Als er een bepaalde interventie is, heeft deze dan gewerkt? Was er een impact?
Wat is goed sociaal beleid?
2. Kan de impact, als die er al was, wel aan de interventie worden toegeschreven?
Hoe meet je sociaal beleid?
3. Als de impact toe te schrijven valt aan de interventie, hoe kunnen we dan garanderen dat als we de interventie
nog een keer doen, het dan weer werkt?
Wat kun je in de toekomst met de kennis die je hebt verworven door het beoordelen van het beleid?
Onderscheid beleidsmaker en wetenschapper
Een beleidsmaker maakt beleid, programma’s en interventies.
Vervolgens gaat de wetenschapper/onderzoeker de impact van het
beleid /programma/interventie evalueren.
Wij gaan vervolgens de evaluatie van de impact van de
wetenschapper/onderzoeker kritisch beschouwen.
! Als we naar de evaluatie van het beleid kijken, kijken we ook automatisch naar het beleid zelf.
Lilian Helder in de Tweede Kamer over gevangenis- en taakstraffen
Ze heeft volgens Rol een punt over methodologische problemen met het vergelijken van veroordeelden die een gevangenis-
of een taakstraf hebben gekregen. De statistiek moet ervoor zorgen dat groepen vergelijkbaar worden zodat we iets
kunnen zeggen over groepen (van individueel naar groepsniveau), maar dit neemt niet weg dat elk individu uniek is. Echter,
de andere Kamerleden erkennen het probleem niet en komen weinig beslagen ten ijs. Volgens Rol zou je het probleem
moeten erkennen en vervolgens vragen wat volgens haar een goede controlegroep is. We komen hierop terug.
Probleem: selectiviteit van de rechter vs. aselectie van statistiek
INTERNE VALIDITEIT?
Beleidsevaluatie houdt zich bezig met de vraag: Als we interveniëren in de wereld, gaat die bemiddeling dan
werken? Deze vraag wordt vaak teruggebracht tot de vraag of het beleid gewerkt heeft.
o Voorbeeld: Helpt bemiddeling bij werklozen om ze terug te laten keren naar de arbeidsmarkt?
o Deze voorbeeldvraag zit op het niveau van de beleidsmaker (bruto-impact).
Als er een impact gemeten wordt, moet je ook nog zeker weten dat je deze impact toe kan schrijven aan de
interventie. Om dit te weten moeten we elke oorzaak van succes buiten het beleidsinstrument zelf uitsluiten, met
andere woorden moeten alle andere mogelijke oorzaken die niet hetzelfde zijn als de interventie uitgesloten
worden. Als je dit kunt garanderen heb je de evaluatie intern valide uitgevoerd. We spreken dus van een intern
valide onderzoek naar de impact van een interventie wanneer we kunnen garanderen dat het succes van de
interventie enkel en alleen toegeschreven kan worden aan de interventie. Als de evaluatie niet (intern?) valide is,
kunnen we uit de evaluatie geen conclusie trekken over of de interventie goed was of niet.
o Voorbeeld: Als we willen weten of de interventie succesvol is, moet je kijken of de mensen werk krijgen
door de interventie (bruto-impact). De interventie is succesvol als mensen die door de interventie werk
hebben gekregen, geen werk zouden hebben gekregen zonder de interventie. De netto-impact van de
interventie geldt dus niet voor mensen die zonder de interventie ook werk zouden hebben gevonden.
o Deze voorbeeldvraag zit op het niveau van de wetenschapper (netto-impact).
2
,Voorbeeld werklozen
- Probleem: Arbeidsbemiddeling werkt vooral goed bij gemotiveerde mensen, zij laten zich het gemakkelijkst
blootstellen aan bemiddeling. Motivatie is niet zichtbaar en als je mensen vraagt zal iedereen sociaal wenselijk
antwoorden dat hij of zij gemotiveerd is. Hierdoor heb je een meetprobleem, want het is een ongeobserveerde
variabele. Een intern valide onderzoek naar het succes van deze bemiddeling is een onderzoek waarbij succes
uitsluitend aan de bemiddeling kan worden toegeschreven en niet aan de motivatie. Motivatie is geen onderdeel
van het beleidsinstrument, dus om te zien wat het beleid doet, moet motivatie worden uitgesloten. We moeten
de motivatie van de mensen er uithalen.
= Oftewel, de oorzaakvariabele (motivatie) werkt in tandem (in combinatie) met het instrument.
- Doel: We willen motivatie uit de impact halen, zodat er sprake is van een intern valide onderzoek.
o Het bruto-effect is de verandering die we zien door de interventie, de uitkomst Y (met motivatie)
o Voor de interne validiteit willen we het netto-effect bekijken: het effect dat alleen maar aan de
interventie toe te schrijven valt, en aan niets anders (dus zonder motivatie mee te nemen)
Met een intern valide onderzoek zou je de oorzaakvariabele vrij laten zweven, dit zou in z’n eentje een
effect hebben, maar volgens Pawson & Tilly is dit flauwekul, want de oorzaakvariabele heeft invloed op de
sociale context door kenmerken van die sociale context. De oorzaak staat volgens hen niet op zichzelf.
- Oplossing: Hoe haal je de motivatie eruit? Je gaat meten of iemand een baan heeft gekregen en zorgen dat zover
de motivatie van deze gemotiveerde mensen de oorzaak is van dat ze een baan hebben gekregen er aftrekken.
Het kan dus zijn dat deze mensen de baan niet door de bemiddeling, dus zonder de interventie, maar door hun
motivatie ook hadden gekregen. Er zijn hier 2 oorzaken, namelijk 1) de bemiddeling en 2) de motivatie. Dit is een
logistische vergelijking en dit betekent dat motivatie rivaliseert met het instrument. Er zijn 2 oorzaken en we
willen alleen de bemiddeling weten dus de andere oorzaken zijn rivaliserend.
- Conclusie: De motivatie om aan het werk te gaan is geen onderdeel van het beleidsinstrument, dus om te zien wat
het instrument doet, de netto-impact, moet de motivatie uitgesloten worden.
Een noodzakelijke voorwaarde/conditie voor het slagen van elk beleidsinstrument wordt beschouwd als een
rivaliserende variabele, omdat het concurreert met het werkende mechanisme.
DE FUNDAMENTELE THESIS VAN REALISTISTISCH EVALUEREN EN RCT
Interne validiteit: Volgens Rol is er iets raars aan de hand, want motivatie (een ongeobserveerde variabele) is een cruciale
voorwaarde om de bemiddeling succesvol te maken en dus een rivaliserende variabele. Als iets werkt komt het door het
mechanisme (de interventie) en de brandstof voor dit mechanisme is de motivatie. Door een intern valide onderzoek uit te
voeren maak je het mechanisme ‘kaal’, want een interventie werkt niet los van de omgeving, de interventie werkt juist in
die omgeving. Het streven naar interne validiteit is belangrijk, maar ook een probleem, want je trekt het mechanisme los
van de sociale context, terwijl je ingrijpt in een sociale situatie die er juist voor kan zorgen dat een interventie slaagt/faalt.
RCT: Je hebt met een RCT wel een truc om een controlegroep weg te werken en deze homogeen te maken, hiermee los je
het probleem van interne validiteit en dus ook van de ongeobserveerde variabele motivatie op, maar in al die pogingen om
het onderzoek intern valide te maken trek je een enorme mist over het onderliggende mechanisme waarom/waardoor de
bemiddeling zo succesvol is. Een goed uitgevoerde RCT heeft absolute zekerheid over het moment waarop het
beleidsinstrument wordt ingezet, dit is een unieke gebeurtenis. Echter, als het onderzoek nog een keer wordt uitgevoerd is
de vraag of het weer lukt. Je weet alleen niets over de omstandigheden van die ene unieke gebeurtenis in het verleden
waardoor de interventie wel of niet is geslaagd. Vraag: Kunnen we met RCT’s geen conclusies trekken over de toekomst?
Jawel, maar alleen onder de voorwaarde als je daarbij onderzoek doet naar het onderliggende mechanisme dat ervoor
gezorgd heeft dat het de eerste keer lukte. Voor de toekomst heb je geobserveerde gegevens nodig. Als je een RCT wilt
gebruiken moet je opnieuw introduceren wat je eerst hebt weggehaald. Het nut van een RCT voor toekomstig beleid wordt
dus ernstig overschat. Het streven naar intern valide onderzoek leidt tot verlies aan kennis, precies die kennis die we nodig
hebben om te kijken of succesvol beleid opnieuw succesvol zal zijn.
Resultaat: Als een RCT of een niet-experimenteel onderzoek (alleen) aantoont dat de interventie succesvol (onsuccesvol)
was, blijft het verantwoordelijke mechanisme voor dit succes (falen) volledig verborgen in het donker (onduidelijk).
Kort samengevat: Je bent met een RCT perfect in staat om het effect van alle variabelen op de impact te isoleren (interne
validiteit). Echter, als jij wil weten of je interventie werkt, doe je dat niet alleen omdat je wil weten of hij gisteren heeft
gewerkt, maar omdat je deze interventie in een ander geval wil toepassen, je wilt hem extrapoleren naar een andere tijd en
andere plaats. Maar, hoe beter je het onderzoek (intern valide) uitvoert, hoe minder je te weten komt voor de toekomst.
De nadruk op interne validiteit zorgt voor een verlies aan informatie die belangrijk kan zijn voor interventies in de toekomst.
Rol is niet tegen het bewaken van de interne validiteit, maar hij constateert dat het een methodologisch probleem is!
De stelling van Realistisch Evalueren: Niet realistisch evaluatieonderzoek verbergt enig echt inzicht in de mechanismen
van het slagen of falen van een beleidsinterventie, vanwege de inspanningen om de interne validiteit te waarborgen.
Met andere woorden hoe beter je de interne validiteit waarborgt, hoe minder inzicht je krijgt in de mechanismen van
succes of falen van een interventie. Als je niet realistisch evalueert verstop en verlies je informatie (over de sociale situatie)
waarom de interventie wel/niet heeft gewerkt.
3
, DE UITRUIL TUSSEN INTERNE EN EXTERNE VALIDITEIT VOORWAARDELIJKE RELATIE
De stelling van dit college is dat er een uitruil bestaat tussen interne en externe validiteit, dus
een negatieve relatie; meer van het één is minder van het ander.
Deze claim wordt bevestigd en tegengesproken. Tegenstanders zeggen dat je geen conclusies
kunt trekken als het onderzoek niet intern valide is. Er is volgens hen geen uitruil, want
interne validiteit zou een voorwaarde zijn voor externe validiteit. Zonder interne validiteit X
geen externe validiteit Y. Volgens Rol klopt dit niet, er is wel sprake van een uitruil!
De stelling van Rol is gebaseerd op 1 betekenis. Intern valide impactonderzoek is onderzoek dat variabelen met
causale waarden die niet de interventie zelf zijn uitsluit, maar al die andere causale variabelen zijn cruciaal om te
verklaren hoe dingen werken. Deze informatie raken we dus kwijt naarmate we het onderzoek beter intern valide
maken. Externe validiteit van impactonderzoek is de waarde die je kan hechten aan het onderzoek op basis van
wat je eraan hebt als je het onderzoek wilt herhalen, zou het dan even succesvol zijn? We kunnen op basis van
een succesvol onderzoek zeggen dat het even succesvol zal zijn als we het opnieuw uitvoeren. Als je dit kunt
zeggen op basis van de impactmeting heb je een extern valide onderzoek gedaan. Het gaat over het opnieuw
gebruiken in een andere context. Van de ene context naar een nieuwe context.
o Een evaluatief onderzoek is intern valide als:
... het gemiddelde behandelings(interventie)effect goed berekend is. Selectiviteit is uitgesloten en
andere mogelijk helpende factoren (geslacht, ras, leeftijd, intelligentie) zijn ook uitgesloten.
o Een evaluatief onderzoek is extern valide als:
... het is mogelijk om te extrapoleren. Van andere populaties kan worden verwacht dat ze op
vergelijkbare wijze reageren onder vergelijkbare omstandigheden.
Hij bedoelt met externe validiteit dus betekenis 2, want hij heeft het over andere populaties.
Twee problemen: I. het verleden, het heden en de toekomst (CBA) en II. hier, daar en overal (RCT).
Een counterfactual is een zin die tegen de feiten inspreekt, het is een uitspraak over een toestand die feitelijk niet het geval
is. Je kunt een uitspraak doen over iets wat zich feitelijk niet voordoet, maar in onze geest wel, je kunt het je voorstellen
(voorbeeld baby balkon met/zonder hekje). Zo’n uitspraak over een niet-werkelijke situatie kan feitelijk onwaar of waar zijn.
Twee oplossingen voor het meten van counterfactuals (rood):
1. RCT: τ(u)=Y(t,u) ― Y(c,u) = Y(t,u) ― Y(c,u*) Random Controlled Trial, zwart = opgeloste counterfactual
o De tau τ staat voor het netto-effect van de interventie, dus waar alle andere oorzaken buiten de
interventie om uit de impact zijn gehaald. Het netto-effect is vervolgens de uitkomst van de groep u als
ze meedoen met de behandelingsgroep. Y staat voor het bruto-effect, t is de treatmentgroep en c de
controlegroep. u* betekent dat dit een andere groep mensen zijn dan u.
Er is geen sprake van een tijdsindicatie, + 1 tijdstip, - 2 verschillende groepen mensen
o Effect van een bepaalde impact voor zover die alleen aan de interventie toegeschreven kan worden, het
netto-effect tau τ = bruto effect van de interventie Y (treatment groep t, groep mensen u) – bruto effect
van het niet krijgen van een interventie (controlegroep c van diezelfde groep mensen u).
o Probleem: In de rode letters Y(t,u) en Y(c,u) staat eigenlijk ‘ware het mogelijk deze mensen zowel niet
als wel een interventie te geven’. Dus mensen moeten eigenlijk tegelijkertijd wel en niet aan de
interventie onderworpen worden, bijvoorbeeld tegelijkertijd wel en niet een aspirientje nemen, maar
dit is niet mogelijk. Dit noemen we een counterfactual. Als we iemand aan een treatmentgroep
toewijzen, kunnen we deze niet tegelijkertijd aan de controlegroep toewijzen.
o Oplossing: Je kiest in werkelijkheid dus wel twee verschillende groepen mensen. Het is hier natuurlijk
belangrijk dat de groepen op elkaar lijken. De R van randomiseren zorgt ervoor dat de twee groepen
(statistisch gezien) dezelfde distributie van eigenschappen hebben.
2. CBA: τ(u)=Y(t,u) ―Y(c,u)= Y(tt=2,u) ―Y(ct=1,u) Controlled Before and After, zwart = opgeloste counterfactual
o De tau τ staat voor het netto-effect van de interventie, dus waar alle andere oorzaken buiten de
interventie om uit de impact zijn gehaald. Het netto-effect τ is vervolgens de uitkomst van de groep u als
ze meedoen met de behandelingsgroep. Y staat voor het bruto-effect, t is de treatmentgroep en c de
controlegroep. ct=1 en tt=2 betekent dat er twee metingen op verschillende tijdstippen zijn gedaan.
Er is wel sprake van een tijdsindicatie, + 1 (dezelfde) groep mensen, - 2 verschillende tijdstippen
o Hierbij speelt tijd een rol en zijn de groepen mensen die wel en niet aan de interventie onderworpen
worden gelijk. De rode letters houden weer in dat de dezelfde mensen de treatment- en de
controlebehandeling ondergaan, maar dit is niet mogelijk. Oplossing: Je geeft een groep een aspirientje
en daarna doe je het experiment over met dezelfde mensen die geen aspirientje hebben gehad. De
groep u is dus hetzelfde met een andere mentaliteit. In plaats van treatment heb je t=2 en diezelfde
mensen zijn eerst de controlegroep voordat ze het aspirientje nemen. Je moet proberen ervoor te
zorgen dat alle andere omstandigheden onveranderd blijven, dit gaat het beste in een laboratorium. Op
tijdstip 1 krijgt alleen de treatmentgroep een aspirientje en is de groep die geen aspirientje krijgt de
4