Hoorcollege 1
Gaat niet over diagnosticeren, het gaat om observaties binnen onderzoeksmethodes.
Wat kan de praktijk gebruiken van gestandaardiseerde observatiemethodes en andersom?
Vragenlijst/interview: interne gedachtegang van mensen (moeilijk te observeren). Geschikt
om constructen over langere tijd te meten: meerdere meetmomenten (longitudinale studie:
twee jaar lang, elke zes maanden dezelfde vragenlijst) of terugdenken aan dingen van zes
maanden geleden.
Gestandaardiseerde observatie: onbewust gedrag, mechanismes in gedrag en interacties.
Geen verschil zou moeten zijn in interpretatie van een bepaald construct, als het in een
observatieconstruct is gegoten en iedereen weet hoe dit te gebruiken.
Bijvoorbeeld sensitiviteit meten: Operationaliseren: hoe zie ik dat, hoe zie ik dat een
ouder aansluit bij een kind. Kind moet een signaal geven en ouder moet daar een signaal op
geven.
Observatietraining: iedereen gaat het instrument op dezelfde manier gebruiken.
Voordeel gestandaardiseerde observatie: het construct wordt gemeten op de manier
zoals het is bedoeld. Bijkomend voordeel: sociale wenselijkheid en effect van stemming
kan beter uitgesloten worden dan bij vragenlijst/interview, maar bij observatie weten
participanten ook dat ze bekeken worden (daarom oranje).
Inzicht in gedachten, gevoelens, etc.: vragenlijst/interview gestandaardiseerde observatie
Over een langere periode: vragenlijst/interview gestandaardiseerde observatie
Onbewust gedrag: vragenlijst/interview gestandaardiseerde observatie
Uniforme interpretatie construct: vragenlijst/interview gestandaardiseerde observatie
Uitfilteren sociale wenselijkheid: vragenlijst/interview gestandaardiseerde observatie
Uitfilteren effect van stemming: vragenlijst/interview gestandaardiseerde observatie
Ecologische/externe validiteit
Validiteit: meet ik wat ik wil meten, is het gedrag dat ik observeer een goede afspiegeling?
Observer reactivity: gedrag omdat iemand weet dat hij geobserveerd wordt
Maatregelen: eerste tien minuten geen observatie, wel of niet dezelfde onderzoeker.
Voordeel zelfde onderzoeker: ouder is gewend Nadeel: voorgaande observatie legt een
bodem (schaamte oid)
Hoe was de setting? Hoe is er geobserveerd? Gestructureerd: ouder kreeg een taak,
ongestructureerd/naturalistisch: gewoon filmen wat er gebeurd. Naturalistische observatie:
lijkt een goede afspiegeling (behalve dat jij er ook bij bent), maar sommige gedragingen
komen niet vaak voor (disciplineren van het kind, lastig gedrag van het kind). In een
gestructureerde observatie kan je zulk gedrag uitlokken.
Ecologische validiteit: thuis, hoog ; lab, laag: de kans dat een ouder zich in een lab anders
gedraagt dan thuis als jij er niet bent, is groot. In een lab kun je wel precies controleren in
welke setting een observatie plaatsvindt.
Ruis: thuis, meer ; lab: minder: thuis kan de telefoon gaan, de bel, de tv staat aan, ouders in
aan het koken, broertjes en zusjes lopen rond, andere ouder aanwezig. In een lab heb je dit
allemaal niet.
Letten op: waar is geobserveerd? Welke setting?
Er is een lage correlatie tussen hetzelfde construct met hetzelfde instrument in het lab of
thuis. Logisch!
,Stap 1: video maken en observeren
Stap 2: observatie instrument gebruiken om te kijken naar interactie
Vier codeermethoden:
1. Gedragsfrequentie (tellen) simpelste vorm (laag interferentieniveau)
2. Event-based: alleen als bepaald gedrag voorkomt, codeer je het
(disciplineringsgedrag op het moment dat een kind ongehoorzaam is) (medium
interferentieniveau)
3. Micro-level (real time): zonder of met video, elke (bijv) 30 seconde kijken of je
bepaald gedrag hebt gezien: glimlachen, fronsen, stem verheffen, etc. Heb ik het
binnen die 30 seconden wel of niet gezien (ja/nee) (laag interferentieniveau)
4. Macro-level meest ingewikkeld om te leren: het is vaak een hele set van gedrag
en kenmerken die onder 1 score vallen (gehechtheidscategorie (veilig, onveilig, etc)
waarbij je over een filmpje van 20+ min, geef je een score aan ouders van
sensitiviteit van 1-9. Je kijkt naar verschillende kenmerken en vat dat samen in 1
score) (hoog interferentieniveau)
Het is belangrijk dat je allemaal hetzelfde meet (betrouwbaarheid)
Observatietraining om allemaal hetzelfde te meten
Er is een gestandaardiseerd codeerprotocol: dat ga je bespreken met elkaar, zodat je de
interpretaties met elkaar kunt delen. Vervolgens ga je filmpjes coderen. Hoe goed is mijn
scoren nu in vergelijking met die van een expert (ware score). Elke keer een set van vijf
filmpjes (bijvoorbeeld) en dan weer vergelijken met expert. Verschillen onderling bespreken.
Uiteindelijk geef jij (ongeveer) dezelfde score als de expert. Vanaf dat moment ben je
betrouwbaar op dat instrument.
Het kan heel intensief zijn. Kan bijvoorbeeld drie maanden overheen gaan, 40 filmpjes
coderen.
Als je betrouwbaar bent, mag jij filmpjes gaan coderen voor een onderzoek. Je bent nooit de
enige codeur in een onderzoek. Je kunt in je eentje bijvoorbeeld geen 300 filmpjes coderen.
Je moet dus ook nog coderen binnen codeurs van datzelfde onderzoek. Het is goed om dit
regelmatig te doen, zodat je eigen interpretatie je codering niet kleurt: coder drift.
Sommige schalen word je makkelijker betrouwbaar op dan andere. Macro is bijvoorbeeld
lastig om betrouwbaar te worden.
Hoe bereken je de betrouwbaarheid (intercodeurbetrouwbaarheid).
We berekenen categorieën met een Cohen’s Kappa: het percentage overeenstemming
tussen twee codeurs, gecontroleerd voor de kans dat ze per ongeluk/bij toeval dezelfde
codering geven.
Uitkomstmaat = Intraclass correlatie: geen correlatie tussen gemiddelde van groepen,
maar dat het een correlatie is waarbij de score binnen 1 observatie altijd wordt vergeleken
met de score van een ander op diezelfde observatie.
Dus hetzelfde filmpje wordt 2 keer gecodeerd en dan wordt er, als er twintig filmpjes zijn,
wordt er per filmpje gekeken wat doet codeur A en wat doet codeur B.
, Intercodeerbetrouwbaarheid berekenen
82 filmpjes gecodeerd
A: 28 keer onveilig, 54 keer veilig
B: 32 keer onveilig, 50 keer veilig
Percentage overeenstemming berekenen: in hoeveel gevallen hebben ze allebei onveilig en
in hoeveel gevallen hebben ze allebei veilig gecodeerd. Dat is in 25+47 keer van de
gevallen, dus dat is een overeenstemming van 89%: (25+47)/82=89. Dat is een hoog
percentage overeenstemming. Maar, dit percentage is niet gecodeerd voor de kans dat ze
allebei toevallig hetzelfde hebben gecodeerd. Dit moet gecorrigeerd worden:
We kijken hoe vaak beide observatoren onveilige gehechtheid gecodeerd hebben. Dat is bij
A: 28 en bij B: 32.
A = 28/82=34%
B = 32/82=39%
Dit vermenigvuldig je met elkaar: random chance of agreement on ‘onveilig’ = .34 x .39
= .13. De kans is dus .13 (13%) dat het toeval is dat ze allebei hetzelfde hebben gecodeerd.
Ditzelfde gaan we doen voor de veilige categorie.
Dat is bij A: 54 en bij B: 50
A = 54/82=66%
B = 50/82=61%
Random chance of agreement on ‘veilig’ = .66 x .61 = .40 (40%). Dit klopt ook, want ze
hebben allebei vaker secure dan insecure gecodeerd.
Cohen’s kappa:
Random chance of agreement = .13 + .40 = .53
(Agreement (.89) – chance agreement (.53)) / (1 – chance agreement (.53)
(.89-.53) / (1-.53) = .77 (77%)
Vanaf .7 is de betrouwbaarheid in orde, bij een nieuw instrument mag je deze grens
verleggen naar >.6
Variabele waarin de volgorde wel belangrijk is (ordinaal, interval, ratio): correlatie berekenen.
Dit kan op twee manieren:
1. Pearson correlatie: waarbij je kijkt, als de score van observator A over de
verschillende observatie varieert, is dat dan ook het geval bij observator B.
Ze variëren hier telkens twee ten opzichte van de vorige observatie. Dan kom je met
Pearson correlatie uit op 1. Maar, er zitten elke keer tien punten tussen hetgeen wat
A observeerde en wat B observeerde. Hiervoor is een andere correlatie nodig.
2. Intraclass correlatie: daarbij wordt per observatie gekeken in hoeverre die
overeenstemmen: SPSS .17 hele lage betrouwbaarheidsscore (is ook te zien aan
de scores)
Hoe lastig het is om een goede intercodeurbetrouwbaarheid te bereiken, heeft voor een
groot deel te maken met het inferentieniveau van een instrument. Het is niet de enige factor,
maar wel een belangrijke factor.
Interferentieniveau: de mate waarin het instrument gevoelig is voor
subjectiviteit/interpretatie en daarmee hoeveel training nodig is om het instrument onder de
knie te krijgen.
Waarom zouden we zeggen dat het interferentieniveau van 1 en 3 laag is, terwijl we van 2
zeggen dat het medium is en van 4 hoog?
Als we kijken naar grootschalige onderzoeken (herhaalde metingen, 300 participanten) dan
is het ook belangrijk dat die instrumenten zo objectief mogelijk worden gebruikt. Een deel