Hoofdstuk 1: Inleiding
1.1: Causaliteit
Het achterliggende doel van alle soorten onderzoek is dat we de oorzaak van een fenomeen willen
achterhalen. Er moet aan drie voorwaarden zijn voldaan om van een causaal verband tussen X en Y
te mogen spreken. X mag als directe oorzaak van Y worden beschouwd als aan voorwaarden voldaan
is:
1) X gaat vooraf aan Y.
Doorgaans wordt (vrijwel) gelijktijdigheid ook toegestaan.
2) X hangt empirisch samen met Y.
De variabelen moeten in de praktijk ook samenhangen, zoals blijkend uit een
correlatiecoëfficiënt die significant van 0 verschilt. Grafische voorstelling van direct causaal
verband: X Y.
3) Er is geen alternatieve verklaring voor de samenhang tussen X en Y.
Deze voorwaarde is een stuk lastiger vast te stellen dan voorwaarde 1 en 2. In de situatie waarin
een waargenomen verband tussen twee variabelen bijv. ontstaat door een derde variabele,
noemen we het verband tussen X en Y spurieus. Deze derde variabele wordt Z genoemd en komt
men ook wel tegen als derde variabele, achterliggende variabele, verstorende variabele of
confounder. Helaas wordt de notatie Z, die eigenlijk alleen voor de verstorende variabele
gebruikt zou moeten worden, in de literatuur ook wel eens gebruikt voor variabelen die geen
verstorende variabelen zijn, zoals voor de instrumentele variabele (hoofdstuk 4). Grafische
weergave van spurieus verband, waarbij X en Y allebei veroorzaakt worden door Z: Z X maar
ook ZY. Spurieuze verbanden zijn te detecteren door de relatie tussen vermeende oorzaak X en
gevolg Y uit te rekenen, terwijl voor de invloed van mogelijke verstorende factor Z wordt
gecorrigeerd. Een voorbeeld van zo’n correctie is het berekenen van de partiële
correlatiecoëfficiënt rxy .z . Bij een spurieus verband zal een positieve of negatieve associatie
tussen X en Y verdwijnen bij correctie voor Z: r xy .z wordt in beginsel 0 of in ieder geval veel
kleiner. Spurieuze verbanden kunnen nog andere vormen aannemen:
- Er kan een kettingverband/ketenverband zijn in de zin dat X eerst Z bepaalt en Z op zijn
beurt weer Y bepaalt. X is dan oorzaak van Z en Z is oorzaak van Y, maar het verband tussen X
en Y bestaat louter via schakel Z. Onder constanthouding van Z verdwijnt dus het verband
tussen X en Y. Grafische voorstelling van spurieus ketenverband tussen X en Y: X Z Y.
- Het kan zijn dat een gevolg meerdere oorzaken heeft. Opgroeien in éénoudergezin (O) kan
kans op delinquentie (D) verhogen. Armoede (A) vergroot echter ook kans op delinquentie.
Dit wordt aangeduid als multipele oorzaken. Grafische voorstelling van multipele oorzaken
van afhankelijke variabele: A D maar ook O D.
- Oorzaak-gevolgrelaties kunnen ook wederkerig/reciprook zijn, d.w.z. dat X eerst oorzaak is
van Y, waarna Y weer invloed op X uitoefent. Er is dan sprake van reciproke causale relaties,
simultane causaliteit of wederkerige relaties. Dus XY en YX. Depressie kan
werkloosheid veroorzaken en werkloosheid kan depressie veroorzaken.
- Een verband tussen twee variabelen kan onderdrukt worden door derde variabele, de
suppressor variabele. Correlatiecoëfficiënt: terwijl rxy gelijk aan 0 of in absolute waarde zeer
klein was, zal na correctie voor de Z de r xy .z juist toenemen. Bij suppressor-variabele is het
dus niet zo dat er een verband lijkt te zijn dat na controle voor derde variabele verdwijnt; er
1
, lijkt juist geen verband te zijn, maar als we controleren voor verstorende variabele, komt
verband opeens wel tevoorschijn. Grafische weergave: X Y.
Z
Voorbeeld: plaatsing in bepaald regime onderdrukte relatie tussen gevaarlijkheid van
gedetineerden en aantal incidenten dat zij veroorzaakten.
Als er geen spurieus verband aangetoond is, wil dat nog niet zeggen dat er niet zo’n
verband bestaat. Het is onmogelijk om voor alle mogelijke vertekenende derde factoren Z te
corrigeren. Om te bepalen of het verband tussen X en Y echt zo is zoals het er at face value
uitziet, blijft een kwestie van goed en logisch nadenken, potentiële verstorende factoren
nalopen en uitproberen en daarmee komt men in het gunstigste geval tot een
plausibiliteitsuitspraak over het verband tussen X en Y. Een causale uitspraak blijft bij niet-
experimenteel onderzoek daarom altijd een hypothese. Als je voor alle variabelen die je
gemeten hebt de controle uitvoert of deze het verband eigenlijk genereert, dan weet je zeker
dat geen van de gemeten variabelen het verband weg kan verklaren: er is geen gemeten
variabele die de conclusie vertekent. Dit betekent dat er geen overt bias is. Om zeker te
weten dat er geen enkele alternatieve verklaring is voor het gevonden verband, zou je
eigenlijk alle mogelijke bestaande variabelen aan een controle moeten onderwerpen. Dit is
niet haalbaar. Je kan dus niet aantonen dat er geen hidden bias is. We kunnen, concluderend
gezegd, dus zeggen dat we rekening kunnen houden met mogelijke verstorende invloeden
van variabelen die we gemeten hebben, maar we kunnen dat niet doen voor variabelen die
we niet gemeten hebben (de ongeobserveerde of ongemeten variabelen).
1.2: Causaliteitsonderzoek – het klassieke experiment
Het klassieke experiment wordt ook wel het gerandomiseerde (pretest posttest) onderzoeksontwerp
genoemd. Er worden bij dit onderzoek twee groepen onderzoekseenheden onderzocht. De
experimentele groep (E) versus de controlegroep (C). Dit worden de twee condities van het
experiment genoemd. Deze groepen worden op grond van het toeval gevormd. De eventuele
verschillen tussen de groepen zijn slechts toevallige. De experimentele groep krijgt wel de
interventie; de controlegroep niet. De interventie wordt aangegeven met W en is een onafhankelijke
variabele. De standaardnotatie voor onafhankelijke variabelen is X, maar omdat een interventie een
bijzondere soort onafhankelijke variabele is, krijgt het de speciale notatie W. Het experiment is zo
krachtig, omdat het enige systematische verschil tussen de condities de interventie is. Als de groepen
op de nameting van elkaar verschillen (E 2-C2), kunnen we dat dan maar toeschrijven aan één factor:
de interventie. Het klassieke experiment is de gulden standaard voor causaliteitsonderzoek. Door de
condities op grond van het toeval samen te stellen, sluit men uit dat er een andere verklaring (een
derde factor) is voor een gevonden verschil tussen de twee groepen. Tussen de groepen zijn dan nog
alleen toevallige verschillen mogelijk en geen systematische. Men heeft daarmee dus altijd aan de
derde voorwaarde uit de vorige paragraaf voldaan: er kan eenvoudigweg geen enkele andere factor
dan de interventie W zijn die het verschil tussen de condities op de nameting zouden kunnen
verklaren.
Er is een verandering in de experimentele groep (E 2-E1) en in de controlegroep (C2-C1). De
controlegroep fungeert als de experimentele-groep-zonder-interventie. Het netto-effect van de
interventie W: (E2-E1) - (C2-C1). Er kan ook sprake zijn van een bruto-effect (voorbeeld trainingen
tegen vliegangst; de training lijkt te werken, maar dan stort een vliegtuig van bekende maatschappij
neer, waardoor de resultaten tegenvallen; niet te wijten aan training).
2
, Toch weet je niet zeker dat als je mensen random toebedeeld aan de condities, het resultaat
komt door de interventie. Er kan namelijk sprake zijn van een placebo-effect: mensen gaan zich van
de wetenschap dat zij behandeld worden (dat er een arts aandacht voor hen heeft) al beter voelen.
Als zo’n effect optreedt, zien we dat alleen in de experimentele groep; alleen daar weten de
respondenten zich behandeld. Omdat controlepersonen geen behandeling krijgen, is het lastig te
bepalen of eventuele vermindering van bijv. hoofdpijn in experimentele groep alleen aan pil is toe te
schrijven of deels ook aan placebo-effect. Het enige wat er op zit om hier van af te zijn, is de
respondenten in controlegroep ook een pil te geven. Zo’n ontwerp noemen we placebo-controlled.
We geven dan beide groepen een ‘behandeling’ en mogen verwachten dat het placebo-effect in
gelijke mate in beide groepen optreedt en we kunnen dan dat effect verwijderen: Netto-effect pil =
effect pil experimentele groep + placebo-effect experimentele groep – placebo-effect controlegroep.
Is het hierdoor dan waterdicht? Nee; uit onderzoek blijkt dat personeel dat interventie toedient,
onbewust toch signalen uitzendt waaruit respondent kan opmaken in welke conditie hij zich bevindt.
Om dit tegen te gaan, is dubbel-blind onderzoek nodig: zowel respondent als onderzoeker weet niet
in welke conditie men zich bevindt. Soms is het niet mogelijk om blind of dubbel-blind onderzoek te
doen, zoals bij oplegging van een PIJ-maatregel of een gedragstherapie. In dat soort gevallen
probeert men vaak de effecten in de controlegroep af te zetten tegen een realistisch alternatief: een
nieuwe behandeling in de experimentele groep wordt vergeleken met de standaard of oude
behandeling in de controlegroep; die laatste noemen we de treatment-as-usual (TAU).
Soms is het nutteloos een voormeting te doen. Dit is bijvoorbeeld het geval als je wil weten
hoeveel recidive er is nadat personen behandeld zijn voor gewelddadige delinquentie. Iedereen
scoort in zo’n geval gelijk op de voormeting (ze hebben allemaal een gewelddadig delict gepleegd).
Het ontwerp wordt dan: W Epost en W Cpost. Het netto-effect van interventie W is dan (E post-Cpost).
Het klassieke experiment wordt ook randomised controlled trial (RCT) genoemd. Deze term
wordt voor ontwerpen met en zonder voormeting gebruikt. De RCT is dus de gulden standaard voor
causaliteitsonderzoek. De onderzoeker controleert namelijk alle stappen: respondenten op grond
van toeval toewijzen aan de twee condities, zelf de interventie uitdelen en zelf de metingen van
uitkomstmaat verrichten. Door de at random toewijzing fungeert de controlegroep als de
experimentele-groep-zonder-interventie. De groepen verschillen slechts toevallig. Als de
experimentele groep de interventie niet gekregen zou hebben, waren hun scores zo geweest als in de
controlegroep. De controlegroep wordt ook de counterfactual genoemd. We zouden het liefst alleen
de experimentele groep willen meten (wat zijn hun scores met en zonder interventie?). Dit kan niet,
omdat we hun scores zonder interventie niet kunnen zien als ze de interventie eenmaal gehad
hebben. Je kan de scores voordat de interventie wordt toegediend als ijkpunt nemen en bekijken wat
de verandering is t.o.v. de eerste meting, maar dan kan je het netto-effect niet goed zien. Als we
alleen E2-E1 als maat voor effect nemen, wordt een eventueel placebo-effect ook meegenomen.
Leerlingen die je een rekenmethode probeert aan te leren, gaan bovendien door de groei van de
hersenen sowieso al vooruit in rekenen. Welk deel is dan toe te schrijven aan de nieuwe methode en
welk deel aan autonome rijping? Het pretest-posttest ontwerp met alleen een experimentele groep
kan dus alleen bruto-effecten laten zien. De scores van de controlegroep zijn de scores van de
experimentele groep als zij de interventie niet gekregen zouden hebben. Omdat de twee groepen
geheel toevallig gevormd zijn, is die aanname te verdedigen. Daarom is de randomisatie de crux en
de kracht van het klassiek experimenteel ontwerp.
1.3: Waarom een experiment soms niet haalbaar is
3
,Vaak is een experiment in de criminologie niet mogelijk. Zo zijn er op scholen vaste klassen en kan je
die kinderen niet zomaar random toewijzen en zelf in groepen verdelen. Hierdoor kan je ook niet
meer zeker weten of er alleen nog maar toevallige verschillen zitten tussen de kinderen. Quasi-
experiment: een opzet waarbij er wel sprake is van een experimentele groep en een controlegroep,
maar de onderzoeker die niet zelf kan samenstellen of niet zelf heeft samengesteld en waar er dus
geen (volledige) randomisatie is. De onderzoeker bepaalt wel wie de interventie krijgt en wie niet,
maar de causaliteitsuitspraken zijn minder hard. De onderzoeker moet aannemen dat de groepen
vergelijkbaar zijn en dat verschillen tussen degenen die de interventie wel en niet krijgen niet aan
andere verschillen tussen de twee groepen dan de interventie toe te schrijven zijn. Dit kan de
onderzoeker in de praktijk nooit bewijzen. In de praktijk is de situatie vaak nog minder gecontroleerd.
In de praktijk worden namelijk veel interventies door anderen dan de onderzoeker toegediend en
kan de onderzoeker vaak ook niet zelf bepalen wie de interventie krijgt en wie niet. Veel interventies
(zoals TBS-maatregel) worden door andere instanties opgelegd en niet in het kader van onderzoek.
De onderzoeker kan dan slechts nog observeren hoe diegenen met de interventie het vergaat t.o.v.
de mensen zonder interventie: observationele studie.
Sherman en collega’s (2007) hebben onderzoeksopzetten gerangordend naar de sterkte van
causaliteitsbewijs die zij opleveren in de Maryland Scientific Methods Scale (MSMS). Het klassieke
experiment is het krachtigst en krijgt de score 5. Een quasi-experimenteel ontwerp waar de
respondenten in de twee groepen zo veel mogelijk vergelijkbaar zijn gemaakt, krijgt de score 4. Een
quasi-experimenteel ontwerp waar dat niet het geval is, krijgt 3. Daaronder bevinden zich ontwerpen
waarbij alleen binnen een experimentele groep de verandering van voor- tot nameting wordt
bekeken of waar de veranderingsscores binnen een experimentele groep worden vergeleken met die
van een controlegroep waarvan men weet dat die onvergelijkbaar is. De laagste score krijgt een
ontwerp met alleen een experimentele groep met slechts een nameting. Doorgaans worden opzetten
die lager scoren dan 3 (dus opzetten zonder controlegroep) als onbruikbaar beschouwd voor het
doen van causale uitspraken. Veel dingen zijn onmogelijk en niet ethisch om op grond van het toeval
op te leggen (bijv. scheiden en trouwen). In dat soort gevallen kan je niet anders dan gegevens
observeren en de personen die de factor of gebeurtenis hebben meegemaakt vergelijken met
personen die het niet hebben meegemaakt. Er bestaat ook iets zoals het natuurlijk experiment.
Voorbeeld: het onderzoeken van toename of afname van criminaliteit als gevolg van de
vuurwerkramp in Enschede en daarmee het verdwijnen van een hele woonwijk.
Het is vaak onethisch om experimenten te doen. Zo kan je niet een deel van justitiabelen
behandeling onthouden. Aan alle praktische en ethische bezwaren kan er nog een toegevoegd
worden. In de praktijk lukt random toewijzing volgens een aantal onderzoekers niet, want dan treden
we buiten de gestileerde klinische setting van een laboratorium- of ziekenhuisexperiment. Het heeft
te maken met non-response / non-compliance. Er is altijd sprake van uitval: mensen hebben geen
zin meer, vergeten dingen, etc. Uitval is niet toevallig. Waar we door randomisatie van start gingen
met prachtig gelijkwaardige experimentele en controlegroepen, is die vergelijkbaarheid door de
uitval aangetast. In de experimentele groep houden we de sterker gemotiveerden over. Is het
verschil tussen controlegroep en experimentele groep toe te schrijven aan verschil in motivatie of
aan de interventie? Het probleem van uitval en dit soort zaken verergert vooral in een longitudinaal
ontwerp. Vooral bij gedragsinterventies is sprake van uitval die niet toevallig is. Er zijn meerdere
sessies, verschillende trainers, etc. Vooral mensen die het minste zin hebben om hun gedrag te
veranderen, behoren tot de drop-outs / uitvallers. Als we deze mensen uit de experimentele groep
verwijderen, houden we slechts braveriken over. Het is niet juist om deze mensen volledig uit de
experimentele groep te verwijderen, want dan zouden de resultaten te rooskleurig voorgesteld
worden. Het is een doodzonde om de uitvallers bij de controlegroep te stoppen. Men kiest er dan
toch voor om de drop-outs in de experimentele groep te houden en hun recidivecijfers mee te tellen
4
, met die van de hele groep; vaak analyseert men ze ook nog apart om te kijken of vooraf al te zien
was dat juist deze personen zouden uitvallen en of hun recidivepatronen anders zijn. Het
belangrijkste argument om uitvallers mee te tellen in de experimentele groep is dat als de ene
gedragsinterventie een hoge uitval zou genereren en de andere therapie niet, dit belangrijke
informatie is om mee te wegen in de evaluatie. Een gedragsinterventie die iedereen binnenboord
weet te houden, is mogelijk gemiddeld toch te prefereren boven een interventie met betere
resultaten voor de afronders maar met een hoger uitvalpercentage. Het is dus van belang de
interventie in haar totaliteit te onderzoeken.
Er zijn wetenschappers die pleiten tegen experimenten en vóór observationele studies.
Allereerst vinden zij dat het goed opzetten van klassieke experimenten duur is en veel belastinggeld
kost. Daarnaast zou de doorlooptijd van klassieke experimenten te lang zijn voor beleidsmakers; de
beleidscyclus heeft snel empirische bevindingen nodig en kan niet jaren wachten op evaluatiestudie.
Het opzetten van experimenten introduceert kunstmatigheid en de wetenschap dat men
geobserveerd wordt en in een onderzoek zit kan voor vertekeningen zorgen. Die vertekeningen
zouden er toch met de controlegroep uit gefilterd worden? Dat geldt niet in het geval de interventie
haar werkzaamheid alleen dankzij de laboratoriumsetting heeft of als de interventie alleen werkzaam
is nadat een voormeting is afgenomen; het Biotex-effect. Hier is de externe validiteit in het geding.
1.4: Methodologische problemen van niet-experimenten
Als we niet mogen aannemen dat de experimentele en controlegroep vergelijkbaar zijn, hetgeen
vrijwel altijd het geval is als we met bestaande groepen moeten werken zoals in het quasi-
experiment en de observationele studie, betekent dit dat we een fundamentele assumptie ook niet
mogen maken. Aan deze assumptie wordt gerefereerd als de Stable Unit Treatment Value
Assumption (SUTVA) (Rubin, 1986). De assumptie is: De waarde Yiw van respondent i die interventie
w heeft gekregen, wordt niet beïnvloed door de wijze waarop de interventie is toebedeeld of door het
feit dat anderen dan i de interventie wel of niet hebben gekregen. Dit betekent dat het feit an sich dat
iemand een interventie heeft gekregen, geen verband houdt met zijn score op Y en dat de score Y
van respondent i geen verband houdt met die van andere respondenten. Het laatste deel van de
assumptie houdt in dat de interventie in de experimentele groep niet mag interacteren met de
controlegroep: bijvoorbeeld managementtraining in een bedrijf waarbij men niet wil dat leden van
controlegroep binnen hetzelfde bedrijf toch iets van de training meekrijgen, bijvoorbeeld tijdens de
pauze. Dit onderdeel van de SUTVA aanname is essentieel om het effect van de interventie zuiver te
kunnen bepalen, maar heeft op zich weinig van doen met wel of niet at random opleggen van de
interventie: men kan de experimentele groep en controlegroep perfect op grond van het toeval
formeren, maar als ze in contact met elkaar komen op de werkvloer (koffieapparaat) ‘verwatert’ de
interventie en kunnen we het effect niet meer goed bepalen (we zullen het waarschijnlijk
onderschatten).
Het eerste deel van de assumptie houdt in dat de eenheden of respondenten die de
interventie krijgen, niet van zichzelf al zo anders zijn dat men voor hen andere scores op de
afhankelijke variabele Y zou mogen verwachten. Dit deel van de assumptie houdt direct verband met
randomisatie en is lastiger houdbaar als we met bestaande groepen moeten werken. Dit wordt ook
wel de separate assumptie genoemd: de (strongly) ignorable treatment assignment assumption
(SITA). De aanname behelst de veronderstelling dat toewijzing van een respondent aan de ene of
andere conditie onafhankelijk is van de score Y. Of ook wel: De toewijzing van respondenten aan
experimentele en controlegroep is -conditioneel op een aantal covariaten X 1, X2, … - onafhankelijk van
5