Samenvatting Beleidsevaluatie boek & artikelen
World Bank: Impact Evaluation in Practice
Hoofdstuk 1: Why Evaluate?
Beleidsevaluatie is belangrijk op programma-managementniveau (kosten-baten),
landenniveau (ministeries moeten interventies financieren) en overheidsniveau (bewijs);
Evaluaties beantwoorden specifieke vragen en geven op bepaalde punten resultaten
waarbij wordt gezocht naar ondersteunende perspectieven van buitenaf;
Vragen die beleidsevaluatie kan beantwoorden zijn descriptieve vragen (wat gebeurt er
nu), normatieve vragen (wat gebeurt er nu en wat zou er moeten gebeuren) en oorzaak-
effect vragen (verschil dat interventie veroorzaakt op uitkomsten);
Prospectieve evaluaties zijn gepland tijdens het ontwerp (vooruitkijkend), retrospectieve
evaluaties kijken naar de impact na de implementatie (achteraf);
Benaderingen voor evaluaties zijn (1) monitoring (participanten), (2) ex ante simulaties
(data), (3) mixed methodes (combineren van data), (4) process evaluations (in lijn met
ontwerp) en, (5) cost benefit & cost effectiveness analysis (kosten en baten);
De evaluatie mag het ontwerpproces en de uitvoering van beleid niet dicteren.
Hoofdstuk 2: Preparing for an evaluation
Eerste stappen bij het opzetten van een evaluatie zijn (1) construeren van een
veranderingstheorie die schetst hoe het project de beoogde uitkomsten moet bereiken, (2)
ontwikkelen van een resultatenketen als hulpmiddel voor het schetsen van een
veranderingstheorie, (3) specificeren van de evaluatievraag, en (4) selecteren van
indicatoren om de prestatie te beoordelen;
Een resultatenketen bestaat uit (1) input, (2) activiteiten, (3) output, (4) uitkomsten, en (5)
uiteindelijke uitkomst.
Hoofdstuk 3: Causal inference and counterfactuals
Het meten van dezelfde eenheid in twee verschillende toestanden op hetzelfde moment is
niet mogelijk (voorbeeld aspirientje), dit heet het counterfactual probleem;
De controlegroep (de groep die geen behandeling krijgt) staat voor de counterfactual;
De behandel- en controlegroep moeten op drie manieren hetzelfde zijn, (1) gemiddelde
karakteristieken in beide groepen moeten hetzelfde zijn zonder interventie, (2) interventie
mag geen effect hebben op de controlegroep, en (3) uitkomsten in de controlegroep
zouden ook moeten veranderen als ze ook een behandeling zouden krijgen;
Twee manieren om een controlegroep te construeren zijn before-and-after comparisons
(voor- en nameting) en enrolled/nonenrolled comparisons (selectie);
Een belangrijke doelstelling bij impactevaluatie is ervoor zorgen dat de geschatte impact
vrij is van selectiebias.
Hoofdstuk 4: Randomized assignment
Randomized Controlled Trials (RCT’s) bieden programma-ontwerpers een eerlijke en
transparante manier voor toewijzing van programma-middelen aan personen of groepen,
en het is de sterkte methode voor de evaluatie van het effect van een programma;
, Bij RCT’s zullen de twee groepen statistisch gelijkwaardige gemiddelden hebben op alle
kenmerken;
Externe validiteit: het waargenomen effect in de steekproef geldt voor de gehele
populatie;
Interne validiteit: het waargenomen effect komt daadwerkelijk door het programma.
Hoofdstuk 5: Instrumental Variables
Instrumentele variabelen kunnen helpen om programma’s met onvolmaakte naleving,
vrijwillige inschrijvingen of universele dekking te evalueren. Het voorspelt de werkelijke
inschrijving van eenheden in een programma, maar is niet gecorreleerd met andere
kenmerken van de eenheden die gerelateerd zijn aan de uitkomsten;
In een effectevaluatie wordt het effect van een programma altijd geschat door de
uitkomsten van de behandelingsgroep te vergelijken met de uitkomsten uit de
controlegroep. Het gemiddelde behandelingseffect wordt hier geschat voor de
onderzoekspopulatie;
Intention-to-treat (ITT): het gemiddelde effect bepalen, terwijl de behandelgroep vrijwillig
deelneemt. De individuen die men wilden behandelen worden vergeleken met de degenen
die men niet wilden behandelen;
Treatment-on-the-treated (TOT): het effect van een programma voor de groep personen
die het programma aangeboden krijgen en ook daadwerkelijk deelnemen;
Plaatselijk Gemiddeld Behandelingseffect (LATE): het effect van de subgroep van
overtreders. Geldig voor personen in de behandelingsgroep die zich voor het programma
hebben ingeschreven én die zich niet zouden hebben ingeschreven indien zij aan de
controlegroep werden toegewezen;
Gerandomiseerde promotie is een externe bron van variatie die van invloed is op de
waarschijnlijkheid dat de behandeling invloed heeft, maar verder geen verband houdt met
de kenmerken van de deelnemers.
Hoofdstuk 6: Regression Discontinuity Design
Regression Discontinuity Design (RDD) is een evaluatiemethode voor programma’s met
een continue geschiktheidsindex met een geschiktheidsdrempel. Vier voorwaarden
waaraan moet worden voldoen is (1) mensen of eenheden worden gerangschikt, (2)
duidelijk gedefinieerde grensscore, (3) cut-off moet uniek zijn voor het programma, en (4)
score kan niet worden gemanipuleerd. Sociale programma’s gebruiken vaak een index om
te beslissen wie in aanmerking komt voor deelname aan het programma en wie niet;
RDD schat de impact rond de grenswaarde in het verschil tussen de gemiddelde
uitkomsten voor de behandel- en controlegroep;
Een voordeel van de RDD methode is dat er geen in aanmerking komende eenheden meer
onbehandeld hoeven te blijven voor de effectbeoordeling;
De RDD is scherp wanneer alle eenheden voldoen aan de toewijzing op basis van de
geschiktheidsindex. Als aan beide kanten van de grens niet is voldaan aan de RDD, dan is
de RDD vaag en onbruikbaar;
Het ontwerp van regressiediscontinuïteit levert schattingen van de lokale gemiddelde
behandelingseffecten rond de grens. Hoe dichter je bij de cut-off komt, hoe meer de
eenheden aan weerszijden van de cut-off op elkaar lijken. Omdat de RDD de impact van
het programma lokaal schat, kan niet worden gegeneraliseerd naar scores verder af van de
grenswaarde omdat die groepen minder vergelijkbaar met elkaar zijn.
, Hoofdstuk 7: Verschillen in verschillen
Gerandomiseerde toewijzing, instrumentele variabelen en Regression Discontinuity
Design produceren schattingen van het nulscenario voor programmatoewijzing. Als dit
niet haalbaar is, moet gebruik worden gemaakt van difference-in-difference & matching;
De difference-in-difference methode vergelijkt veranderingen in uitkomsten tussen de
behandel- en controlegroep. Het verschil in de voor-en-na uitkomsten voor de
behandelgroep controleert voor factoren die constant zijn in de tijd, omdat de groep met
zichzelf wordt vergelijkt;
Om tijd-variërende factoren vast te leggen is door de voor-en-na verandering in
uitkomsten te meten voor een groep die niet ingeschreven staat voor het programma;
De validiteitscontrole bij difference-to-difference gebeurt door (1) veranderingen in
uitkomsten tussen de behandel- en controlegroep herhaaldelijk te vergelijk vóór
implementatie, (2) het uitvoeren van een placebotest (nep behandelingsgroep), (3) placebo
met een neppe behandelgroep en een neppe uitkomst en, (4) door de difference-in-
difference uit te voeren met verschillende controlegroepen;
Over het algemeen kan elke factor die een van de twee groepen onevenredig beïnvloedt,
de schatting van de impact invalide maken.
Hoofdstuk 8: Matching
Matching: voor iedereen die in de behandelgroep zit, wordt geprobeerd iemand met
vergelijkbare kenmerken te vinden voor in de controlegroep. Belangrijk hierbij is de vloek
van dimensionaliteit: hoe groter het aantal kenmerken waar je op selecteert, hoe lastiger
het vinden van een goede match;
Propensity score matching: oplossing voor de vloek van dimensionaliteit, aangezien voor
ieder persoon in de behandel- en controlegroep de kans wordt geschat dat hij zal
deelnemen aan het programma op basis van de waargenomen waarden van zijn
kenmerken (0 of 1). Eenheden van de verschillende groepen worden met elkaar
vergeleken en de eenheden die het dichtste bij de eenheden in de behandelgroep zitten,
vormen samen de controlegroep. De impact van het programma wordt geschat door de
gemiddelde resultaten van de behandelgroep te vergelijken met de gemiddelde resultaten
van een statistisch gematchte subgroep waarbij de overeenkomt is gebaseerd op de
waargenomen kenmerken. Een nadeel hiervan is dat propensity score matching geen
verklaring kan geven voor niet-geobserveerde kenmerken;
Cruciale kwesties van matching zijn (1) de methode kan alleen geobserveerde kenmerken
gebruiken om een vergelijkingsgroep te construeren, (2) kenmerken mogen niet beïnvloed
zijn door het programma en, (3) kwaliteit boven kwantiteit. Matching vereist een grote
hoeveelheid gegevens en een hoog risico op bias, en het beste resultaat ontstaat wanneer
matching gecombineerd wordt met synthetische controlemethodes;
Synthetische controlemethodes: maakt impactschatting mogelijk in een setting waar een
enkele eenheid een interventie krijgt of wordt blootgesteld aan een gebeurtenis, en er
wordt een synthetische vergelijkingseenheid geconstrueerd door elke onbehandelde
eenheid op een bepaalde manier te wegen zodat het lijkt op de behandelde eenheid.
Hoofdstuk 9: Methodologische uitdagingen