Samenvatting Beleidsevaluatie
College 1 – Introductie
Introductie
Het doel van beleidsevaluatie is om te kijken of interventies die in het verleden zijn bedacht
en uitgevoerd, goed zijn verlopen. Dit willen we weten, omdat we ze dan in de toekomst nog
een keer (of juist niet nog een keer) kunnen doen. Wat voegt een evaluatie toe aan de kennis
die men al heeft? Het doel is dan dat men dóór het onderzoek wat is uitgevoerd, begrijpt
waarom een interventie wel of niet werkt en hoe dit komt.
Stel dat je een nieuwe onderwijsmethode invoert en je wilt weten of dit werkt en of leerlingen
er meer van leren (onderwijskundige interventie). Als je wilt weten of deze methode iets
uithaalt, moet je een toets doen met een controlegroep en een behandelgroep. Hoe kun je dit
het beste kwantitatief uitvogelen, waarbij de omstandigheden in beide groepen veel op elkaar
lijken (zelfde examen en tellen of er gemiddeld genomen een verschil is in de behandelgroep).
Als je zo goed mogelijk probeert om dit te toetsen, hoe minder je komt te weten. Dit komt
omdat er andere onderwijsdoelen bij horen, en bij anderen onderwijsdoelen moet je ook
anders toetsen (je moet dus met andere examens gaan werken, omdat je moet mikken op het
verschil). Je mikt op een bepaald doel bij de behandelgroep, aangezien je een hoger niveau
wilt bereiken in de behandelgroep met de nieuwe onderwijsmethode. Het is dan echter wel
van belang dat je ook gaat toetsen op dit hogere niveau. Hierdoor moet je omstandigheden
heel verschillend zijn, maar dit strookt niet met de noodzaken van kwantitatief onderzoek.
Hier kom je dus niet uit met kwantitatieve toetsing, maar wel met kwalitatieve toetsing.
Kwantitatieve onderzoeken zijn buitengewoon zinvol, maar er zitten grenzen aan het nut
ervan, en het is slecht als je geen besef hebt van de grenzen (als je deze grenzen wel kent, dan
is het een goed instrument).
De fundamentele stelling van realistische evaluatie
Helpt de bemiddeling van werklozen om hen terug naar de arbeidsmarkt te leiden? In dit
geval is sprake van een interventie: in de sociale wereld proberen om iets beter te doen. Bij de
evaluatie vraag je je dan af of de interventie op de arbeidsmarkt gewerkt heeft. Om dit te
weten te komen, moeten we elke oorzaak van succes, anders dan het beleidsinstrument zelf,
uitsluiten (bijvoorbeeld een opleving in de economie telt niet of de interventie gewerkt heeft).
Als meer mensen een baan krijgen door betere economische omstandigheden, weet je dus niet
of mensen door de bemiddeling een betere baan hebben gekregen en hier moet je rekening
mee houden. Als je hier geen rekening mee houdt, dan is de interne validiteit van het
onderzoek niet goed. Het onderzoek is valide als je gemeten hebt wat je wilde meten.
Betrouwbaar is het onderzoek als de meting op precies dezelfde manier nogmaals wordt
gedaan, er precies dezelfde uitkomsten uitkomen.
In bovenstaand voorbeeld kan het zijn dat je alleen het effect meet van een economische
opleving op de werkgelegenheid en op het vinden van een baan, terwijl je denkt dat je meet
wat de interventie teweeg brengt. Als je bij het evalueren wilt weten of de bemiddeling heeft
gehouden, dan kun je bijvoorbeeld twee homogene groepen (behandel en controle) maken. De
economische opleving bij het vinden van een baan wordt er dan uitgefilterd, omdat de
groepen homogeen zijn en dus in beide groepen vindt de economische opleving plaats en
hierdoor kan het verschil niet meer worden toegeschreven aan de economische opleving maar
wel op de behandeling. Als je groepen dus homogeen maakt, dan heb je interne validiteit want
dan zorg je dat je meet wat je wilt meten (en je wilt het effect van een interventie meten, niet
, het effect van een economische opleving). Er zijn eindeloos veel trucjes om zo veel mogelijk
homogeniteit in beide groepen te garanderen, zoals Randomized Control Trial (RCT), die de
samenstelling van groepen compleet aan het toeval overlaten en ze zijn snoeihard. Het
probleem van RCT is dat ze in sociaal praktijk beleid heel lastig zijn.
Motivatie is ook erg lastig bij het vinden van een baan (zie voorbeeld). Gemotiveerde mensen
zullen eerder een baan vinden dan niet gemotiveerde mensen. Als de behandelgroep toevallig
meer gemotiveerde mensen heeft, dan zal het percentage mensen wat een baan vindt in de
behandelgroep groter zijn dan het aantal mensen wat een baan vindt in de controlegroep. Dit
is lastig, want als mensen een baan vinden door motivatie in plaats van de interventie, dan is
dus niet goed te meten of mensen een baan vinden door de interventie. Maar ook de
interventie kan de motivatie verhogen. De motivatie is dus een effect van de interventie,
waardoor er interactie is tussen twee onafhankelijker variabelen (motivatie en interventie) en
de afhankelijke variabele (het vinden van een baan). Hierdoor ontstaat een selectie-effect
(zoveel mogelijk gerandomiseerd, maar door een interventie toe te voegen zijn ze dus niet
meer homogeen (je bent aan het heterogeniseren)). Het kan vervelend zijn dat de groep
verandert door de interventie, maar dit is juist het doel van de interventie. De voorwaarden
waaraan je moet voldoen zijn dus in strijd met de voorwaarden waaraan moet worden voldaan
om de interventie goed te doen.
Motivatie is een oorzaaksvariabele van het vinden van een baan, als je wilt weten of de
interventie om mensen een baan te laten vinden helpt of niet (intern valide). Je moet dus
proberen om alleen het effect van de interventie te meten en niet het effect van motivatie.
Motivatie (en het effect hiervan) moet je dus isoleren, net als alle andere mogelijke oorzaken.
Het is een interventie in een sociale omgeving die niets met een sociale context te maken
heeft. Het effect van een interventie wordt dus zodanig geïsoleerd, dat het enkele relatie meer
heeft met menselijk gedrag en psyche. Het belang om het onderzoek zo valide mogelijk te
maken, heeft gevolgen voor het onderzoeken van menselijk gedrag. Een cruciaal element
waardoor de interventie zou kunnen werken, wordt gebruikt als een rivaliserende variabele in
plaats van een variabele waar je blij mee zou moeten zijn. Als je beleid hierop voert dan heb
je dus het idee dat je snapt hoe het werkt, en daarvoor moet je diepgaande analyses gedaan
hebt. Als uit een RCT of een quasi-experimenteel onderzoek dus blijkt dat de interventie
succesvol was, blijft het verantwoordelijke mechanisme voor dit succes volledig verborgen in
het duister en is het dus niet duidelijk waarom mensen een nieuwe baan hebben gevonden
(extra motivatie).
Niet-realistisch evaluatieonderzoek verhult elk werkelijk inzicht in de mechanismen van het
welslagen of falen van een beleidsinterventie, juist vanwege de inspanning om de interne
validiteit te bewaken. Hoe beter je erin slaagt om de interne validiteit te bewaken, hoe minder
we leren.
De afweging tussen interne validiteit en externe validiteit
Externe validiteit betekent dat de resultaten kunnen worden gegeneraliseerd naar een andere
populatie (sprong van een behandelgroep naar een grotere populatie). Als de interne validiteit
laag is, dan is de externe validiteit ook laag. Hier zijn we echter onzeker over omdat het ook
andersom kan zijn: hoe lager de interne validiteit, hoe beter de externe validiteit. Hoe beter
intern valide het onderzoek namelijk is, des te minder je komt te weten hoe het eigenlijk heeft
gewerkt. Als je niet precies weet hoe het heeft gewerkt (de sociale mechanismen zijn dus niet
bekend), is het ook lastig in te schatten hoe het de volgende keer zal werken als je het