H1 A history of evaluation Pawson & Tilly
Where we stand
Evaluatie is een jonge discipline met alle problemen waar een adolescent ook te maken
heeft. Wel neemt de interesse in evaluatie steeds meer toe, alles heeft nu evaluatie nodig.
De moderne bureaucratie opent zich door elke activiteit te laten evalueren. Het begon als
sociaal onderzoek en is nu een discipline op zich dat doordringt tot alle sociale sectoren. Dit
past binnen de moderniteit en binnen globalisering. Het probleem is dat er het vaak lijkt of
evaluatie van alles kan maar er uiteindelijk niks nuttigs uit komt. Het is moeilijk om
onderscheid te maken tussen succes en falen en daarom raken mensen teleurgesteld in
evaluatie. Het ‘w’ woord staat voor: werkt het programma wel en in welke mate? De paradox
van evaluatie is dat het aan de ene kant vele gebieden betrekt, maar er weinig resultaat of
invloed in het beleid is. Er sprake van een paradigma-oorlog tussen experimentele,
pragmatische, naturalistische en pluralistische perspectieven. Evaluatie wordt geëvalueerd.
Go fort hand experiment (experimentele benadering)
De logica van experimenten was eerst heel belangrijk. Je hebt twee (al dan niet random)
gematchte groepen die zo veel mogelijk op elkaar lijken. De ene groep krijgt een
behandeling en de andere niet. Je vergelijkt ze beide na en voor de behandeling en vergelijkt
de veranderingen in beide groepen. Die verklaren dan de impact van het programma (OXO).
Experimenten gaan uit van causale theorieën. Het enige wat de verandering heeft kunnen
veroorzaken is de behandeling (X > Y). Deze manier van denken over causaliteit wordt ook
wel successionistisch genoemd; elke causale variabele moet worden uitgesloten zodat je
zeker bent van de causale link. De sociale wereld is heel complex en dynamisch dus het is
moeilijk om dan zulke links te bewijzen. Ook kunnen er tijdens het experiment onverwachte
zaken gebeuren, die toch invloed hebben. Het gaat bij experimenten alleen maar om interne
validiteit. Als je dit wil toepassen bij beleid, zie je de samenleving als open die je sociaal kan
engineeren op basis van rationele berekeningen (Popper).
But does it work?
De onderliggend logica is precies, maar heeft weinig impact op het beleid. Vaak is er een
nothing works conclusie. Vaak is er geen duidelijk patroon te herkennen die iets kan zeggen
over de efficiëntie van een programma. Hoeveel empirisch bewijs is er nodig voor je iets kan
zeggen over de werking van een programma? Er zou dan een counting model of efficacy
moeten zijn. Bijna altijd komt uit de evaluatie dat er meer onderzoek gedaan moet worden en
dat de patronen dan duidelijker willen worden over tijd. Maar het glas blijft halfvol/halfleeg.
Daarom moet je kijken welke methode het best werkt bij welke mensen en in welke
omstandigheden. Je moet de black box van veronderstelde causale links in een theorie
openen. Onder welke omstandigheden werkt iets en wanneer niet? Experimenteel design
kan deze vraag eigenlijk niet beantwoorden, alleen of iets werkt of niet zonder de waarom of
hoe vraag te stellen. Wat doet het programma dat voor verandering zorgt en wanneer?
Enter politics (pragmatische benadering)
De experimentele benadering heeft altijd meer tijd nodig om tot duidelijke conclusies te
komen. Daarom is er een groep evaluators die zich is gaan richten op organisatorische en
politieke context binnen beleid. Je erkent hierbij dat evaluatie altijd een politiek statement
bevat, omdat de definitie van sociale problemen politiek gekleurd is. Ook zijn evaluaties zijn
politiek omdat het doel is om problemen binnen beleid op te lossen. De pragmatische
,benadering wil een praktisch handvat geven zodat de evaluatie ook echt gebruikt kan
worden in het echte proces van beleid maken. Dus niet kennisgericht maar
bruikbaarheidgericht. Politici lezen namelijk geen onderzoek, maar soms kan uitkomsten van
onderzoek wel leiden tot debat en infiltreren in het proces van beleid. Vier kenmerken van de
utilization focused approach:
1. Utiliy: nuttig voor een bepaald publiek
2. Feasibility: haalbaarheid binnen politiek, praktijk of kosten
3. Propriety: gepastheid, eerlijk en ethisch
4. Accuracy: nauwkeurigheid, technisch adequaat
De pragmatische benadering gaat uit van de toolbox manner waarbij evaluatieonderzoek een
verzameling is van onderzoekstaken, voorbeelden, skills. Er zal geen ultimate truth ontstaan,
maar een praktisch handvat voor het beleid. De kennisflow gaat dus van de politiek naar de
evaluator in plaats van andersom, behalve bij enlightenment.
Exit veracity
De experimentele methode wil valide causale verklaringen geven. De pragmatische methode
focust zich meer op einde in plaats van regels (hoe en waarom) en benadrukken het nut. Het
gaat erom dat je enlightement geeft. Het probleem met de pragmatische benadering is dat
de politici betalen en dus bepalen welke methodologie gebruikt moet worden. Het gaat dan
meer op sociale wenselijkheid (pleasen van publiek) en niet op juistheid (technisch
adequaat). Maar om reactie te krijgen met je evaluatie is het wel belangrijk dat zij ook een rol
spelen. Het onderzoeksdesign moet duidelijk vastgesteld worden. Patton is pluralistisch en
stelt dat je de onderzoeksmethode moet kiezen die het beste past binnen de situatie, doel en
mensen. Maar vaak bepaald de beleidsmaker de methode en de evaluator kiest de
beschikbare instrumenten uit die methode. Hoe explicieter de beleidsmaker is, hoe meer
onderdrukt de rol van de onderzoeker.
Assembling constructivism
Na het positivisme en pragmatische, kwam het constructivisme op. Deze zorgde van een
move van de agenda, naar politiek nar het sociale. De programma’s moeten niet gezien
worden als onafhankelijke variabelen, maar zijn ingebed in complexe processen van
menselijke interpretatie en interactie. Of beleid succes heeft hangt af van de redenering van
mensen in dat proces. Er wordt dus niet gekeken naar uitkomsten maar naar het proces en
het gezichtspunt van de actoren (stakeholders). Terwijl de pragmatist vooral kijkt naar
beleidsmakers en de experimentalist naar onderzoeksubjecten. De sociale wereld is er
eentje van onderhandelen, ook beleid en onderzoek. Evaluators zijn de dirigenten van de
onderhandeling en moeten ervoor zorgen dat consensus wordt bereikt zodat enlightement
wordt bereikt. De betekenis die mensen geven is het belangrijkste bij sociaal onderzoek. De
methode is een uitwisseling van betekenis tussen evaluator en de participanten.
The baby and the bathwater
Wat vaak gebeurt is dat de theorie succes voorspelt, maar de implementatie toch faalt. De
evaluatie-als-negotiatie houdt geen rekening met machtsverschillen van stakeholders. Er is
geen samenwerking mogelijk tussen constructivisme en positivisme, er moet dan een hele
nieuwe constructie ontstaan. Volgens het constructivisme vinden fenomenen plaats binnen
een context en kun je bevindingen niet generaliseren over andere contexten (situationeel
, relativisme). Het gaat alleen om het hier en nu, je gaat dus van context naar context (context
hopping). De structurele en institutionele kenmerken van de samenleving kunnen soms ook
onafhankelijk van individuen zijn, maar dat zien constructivisten niet zo. En hoe wil je
onderzoek beginnen als je van tevoren al weet dat er geen consensus over is en dat die
conditie permanent is. Zo kunnen er allerlei eindproducten ontstaan in plaats van enlightment
for all. De onderzoeker zou moeten oordelen over de institutionele structuur en de
machtsrelaties in een programma maar dat gebeurt niet. Experimentele benaderingen
strippen de hele context weg (context stripping) en dus zijn de bevindingen alleen geldig in
contextloze situaties. Pragmatisten stellen dat beleid maken een deel is van belangen en
ideeën.
Er is een epistemologische scheiding tussen hermeneutiek en fenomenologen. De
hermeneuten stellen dat het dagelijkse redeneren van subjecten, participeren in hun
besluiten en leefwereld, de evaluator dichter bij de realiteit en de ‘waarheid’ komt. De
fenomenologen stellen dat alle opvattingen constructies zijn maar we kunnen niet achter
komen wat die constructies zijn. Er zijn oneindig veel constructies en je moet selectief zijn en
bepaalde aannames hebben anders is het teveel. Er is geen eenduidige realiteit, je blijft
rondgaan in cirkels.
Only connect (pluralistische benadering)
Je zou ook alle goede dingen van de benaderingen samen kunnen voegen, zoals het
rigoureuze van experimenten, het praktisch nut van pragmatisten en de empathie voor
stakeholders van contructivisten.
Comprehensive evaluation (Rossi) houdt in het heel uitgebreid is: 1) analyse van
conceptualisatie en design interventie 2) onderzoeken van uitvoering 3) beoordelen van nut.
Rossi ziet beleid als iets dat omgaat met individuele tekorten. Er moet gekeken naar
institutionele en individuele diagnose van het probleem en met evaluatie kun je correcties
aanbrengen. Het is ook belangrijk om te kijken naar de uitkomst (impact en kosten).
Theorie gedreven evaluatie: een experimentele evaluatie die werkt. Niet alleen zeggen of
het succes heeft, maar ook hoe het werkt. Dus een theoretisch model van programma,
wat in het programma zorgt ervoor dat het werkt? Daarom moet eerdere kennis over de
omstandigheden van een programma ingebouwd worden in het onderzoek. Theorie
driven evaluatie kan vergelijkingen verrichten binnen het programma en welke
mechanismen aan het werk zijn. Maar wat bedoelt Rossi precies met theorie, is het
simpelweg X > Y?
Pluralisme (Cronbach) benadrukt diept een breedte van gerelateerde activiteiten in het
programma. Maar je hebt nooit genoeg bronnen om alles te onderzoeken en ziet door de
bomen het bos niet meer, of je weet niet waar je moet beginnen. Je moet prioriteiten stellen.
utos: unit of analyse, treatment, observation en setting van de case study
UTOS: unit of analyse, treatment, observation en setting van totale populatie
UTOS*: unit of analyse, treatment, observation en setting van subdomeinen van de
populatie die relevant zijn voor ander publiek. Werkt het ook voor anderen? Dus de
externe validiteit en aandacht voor de contextuele kenmerken in plaats van de som van
individuele cases.
Experimenten blijft doorgaan in oneindige cirkels. Evaluatie met een wetenschappelijke
basis geven is zonde, want evaluatie moet niet streven naar objectiviteit.