Tentamenstof hoorcollege 1
IRM: Hoofdstuk 3
Assessing the realiability of a measure (de betrouwbaarheid beoordelen)
Betrouwbaarheid: herhaald meten onder dezelfde omstandigheden dan moet je dezelfde
conclusie krijgen
Validiteit: begrip zoals bedoeld = begrip zoals bepaald
De koppeling tussen hetgeen wat je bedoeld hebt en wat je uiteindelijk meet is de operationalisatie,
dus het meetinstrument.
Measurement Error
De score van een deelnemer op een willekeurige steekproef bestaat uit twee componenten: de echte
score en meetscore. We kunnen dit weergeven aan de hand van de vergelijking: geobserveerde score
= echte score + meetscore
De echte score is de score die de deelnemer zou hebben behaald als onze maat perfect was en we
konden meten wat we aan het meten waren zonder fouten. De maatregelen die in onderzoek
worden gebruikt, zijn echter zelden zo nauwkeurig. Vrijwel alle meetwaarden bevatten meetfouten.
Veel factoren kunnen bijdragen aan meetfouten maar ze vallen in vijf hoofdcategorieën:
1. Voorbijgaande toestanden van de deelnemer (de gemoedstand van de deelnemer, zijn
gezondheid, gevoelens van angst)
2. Stabiele attributen van de deelnemer (paranoide of achterdochtige deelnemers)
3. Situationele factoren
4. Kenmerken van de steekproef (moeilijkheidsgraad en duur van de test)
5. Fouten bij het verzamelen van de data
Bedoeld construct
De ware score (de waarheid)
Toevallige meetfouten
Het meetinstrument is niet zo betrouwbaar waardoor je toevallig iedere keer iets anders meet. Een
oplossing hiervoor zou kunnen zijn om het gemiddelde van alle toevallige fouten te nemen). Bij
herhaald meten Heffen elkaar op. Je hebt dus een onbetrouwbaar meetinstrument.
Systematische meetfouten
En meetfout waar een systeem in zit. Het is niet random, het gaat altijd dezelfde kant op. Je meet
hiermee dus niet wat je wilde weten. Je zit er dus standaard naast). Bij herhaald meten Heffen
elkaar NIET op. Je hebt hierdoor een validiteitsprobleem.
Als je iets meet, dan is het een stukje van de waarheid maar ook een stukje fout. Hoe minder fout,
hoe beter het is. Hierom is het belangrijk om te investeren in de kwaliteit van je meetinstrument.
Reliability as Systematich Variance
Onderzoekers weten nooit precies hoeveel meetfouten er zitten in de score van een bepaalde
deelnemers of wat de werkelijke scoren van de deelnemer is. Als we de scores van veel deelnemers
combineren en de variantie berekenen, is de totale variantie van de reeks scores samengesteld uit
dezelfde twee componenten: totale variantie in een reeks scores = variatie als gevolg van ware
scores + variantie als gevolg van meetfout.
1
,Typen of Reliability
1. Test-retest reliability (test-hertest)
Alternatief paralleltest twee keer testen, maar niet dezelfde test. Als je twee keer hetzelfde meet,
met zelfde instrument en bij dezelfde mensen is je r 0,70.
Het beoordelen van de test-hertestbetrouwbaarheid heeft alleen zin als het te verwachten attribuut
naar verwachting niet tussen de twee metingen zal veranderen. We verwachten over het algemeen
hoge test-hertest betrouwbaarheid op metingen van intelligentie, attitudes of persoonlijkheid.
2. Interitem reliability (inter-item, interne consistentie)
Inter-item betrouwbaarheid beoordeelt de mate van consistentie tussen de items op een schaal/test.
Wanneer onderzoekers de reacties van deelnemers op verschillende vragen of items bij elkaar
optellen om een enkele score te krijgen, moeten ze er zeker van zijn dat alle items hetzelfde
construct zijn (zoals een bepaal kenmerk of emotie).
Onderzoekers controleren of de item s op een dergelijke schaal hetzelfde algemene construct meten
door de inter-item betrouwbaarheid te onderzoeken. Dit doen zij meestal door naar de correlatie
tussen items onderling te kijken. Dit kan gemeten worden met Cronbach’s Alpha.
3. Interrater reliability (interbeoordelaar)
Interbeoordelaarsbetrouwbaarheid betreft de consistentie tussen twee of meer onderzoekers die
het gedrag van deelnemers observeren en vastleggen. Onderzoekers gebruiken twee algemene
methoden voor het beoordelen van de betrouwbaarheid van interbeoordelaars. Als de beoordelaars
registeren of er een gedrag is opgetreden, kunnen we het percentage berekenen dat ze zijn
overeenkomen. Er wordt bij deze vorm van betrouwbaarheid dus dezelfde test door verschillende
beoordelaars afgenomen. Als de beoordelaars vergelijkbare beoordelingen maken, moeten we een
relatief hoge correlatie (tenminste 0,70) tussen hen verkrijgen.
Increasing the Reliability of Measures
De volgende lijst biedt een paar manieren om de betrouwbaarheid van gedragsmaatregelen te
vergroten:
- Gestandaardiseerde administratie van de maatregel (elke deelnemer moet onder exact
dezelfde omstandigheden worden getest)
- Geef een verduidelijking van instructies en vragen aan de deelnemers
- Geef de beoordelaars de gelegenheid om te oefenen met behulp van de
waarderingstechniek
- Minimaliseer fouten in de coderingsgegevens
Types of Validity
1. Face validity (indruksvaliditeit)
Indruksvaliditeit verwijst naar de mate waarin een maat lijkt te meten wat hij geacht wordt te meten.
Een test heeft indruksvaliditeit als mensen denken dat het wel werkt. (Dat mensen denken dat het
daadwerkelijk een verstandige test is, zodat mensen je vragenlijst serieus nemen. Dit kun je
ondervangen door een pilot te doen en een evaluatieformulier).
Het feit dat een meting indruksvaliditeit heeft, betekent niet dat dit noodzakelijkerwijs ook echt
valide is. Veel maatregelen die de geldigheid van het indruksvaliditeit missen, zijn in feite geldig. En
tot slot willen onderzoekers soms het doel van hun test verbergen.
2
, 2. Construct validity (Convergent/discriminant)
We beoordelen constructvaliditeit door te kijken of een bepaalde maat vergelijkbaar is met andere
maatregelen. Je probeert een construct te meten en die meet je ook daadwerkelijk.
Convergente validiteit = je zoekt uit of jouw instrument samenhangt met een bestaand instrument.
Discriminanten validiteit = je kijkt of een instrument dat iets anders zou moeten meten, ook
daadwerkelijk iets anders meet.
3. Criterium-related validity (concurrent/predictief)
Criterium-gerelateerde validiteit verwijst naar de mate waarin een maatregel ons in staat stelt
onderscheid te maken tussen deelnemers op basis van een bepaald gedragscriterium. Je meet iets
wat nuttig is, om iets anders te voorspellen.
Concurrent validiteit = een criterium voorspellen wat er nu al is, dus wat tegelijkertijd gemeten kan
worden.
Predicitieve validiteit = samenhang onderzoeken met iets wat in de toekomst optreedt.
De drie basistypen van validiteit zijn:
1. Indruksvaliditeit lijkt de maat het belang van de constructie te meten?
2. Construct validiteit correleert de maat met metingen van een ander construct zoals het
zou moeten?
3. Criterium validiteit controleert de maat met maatregelen van huidig of toekomstig gedrag
zoals zou moeten?
Fairness and bias in measurement
In de afgelopen jaren is veel publieke aandacht en wetenschappelijk onderzoek besteed aan
demogelijkheid dat bepaalde psychologische en educatieve maatregelen, met name tests van
intelligentie en academisch vermogen, bevooroordeeld zijn tegen bepaalde groepen van individuen.
Testbias treedt op wanneer een bepaalde meting niet even geldig is voor iedereen die de test doet.
Als de testscores nauwkeuriger het werkelijke vermogen of de eigenschappen van de ene groep dan
de andere weergeven, is de test bevooroordeeld.
Alle onderzoekers en testontwikkelaars hebben moeite om hun eigen ervaringen en vooroordelen
opzij te zetten. Zij moeten echter alles in het werk stellen om de impact van hun vooroordelen op de
maatregelen die ze ontwikkelen te verminderen. Door samen te werken met onderzoekers van
andere geslachten, rassen, etnische groepen en culturele achtergronden kan dit verminderd worden.
IRM: Hoofdstuk 5
Probability samples
Een kanssteekproef is een steekproef die op een dusdanige manier wordt geselecteerd dat de
waarschijnlijkheid dat een bepaald individu in de populatie voor de steekproef zal worden
geselecteerd kan worden gespecifieerd.
Een kanssteekproef is essentieel voor bepaalde soorten onderzoeksvragen. Wanneer het doel van
een onderzoek is om het gedrag, de gedachten of gevoelens van een bepaalde groep accuraat te
beschrijven, moeten onderzoekers ervoor zorgen dat de steekproef die zij selecteren representatief
is voor de populatie in het algemeen. Een representatieve steekproef is er een waaruit we
nauwkeurige, onbevooroordeelde schattingen van de kenmerken van de grotere populatie kunnen
maken.
3
, The error of Estimation
Helaas weerspiegelen steekproeven in alle opzichten zelden de populatie. De kenmerken van de
individuen die voor de steekproef zijn geselecteerd, verschillen altijd enigszins van de kenmerken van
de algemene bevolking. Dit verschil zorgt ervoor dat de resultaten van de steekproef verschillen van
wat zou zijn verkregen als de volledige populatie was onderzocht.
De fout van de schatting, ook wel de foutmarge genoemd, geeft aan in hoeverre de uit de steekproef
verkregen gegevens naar verwachting zullen afwijken van de populatie als geheel. De foutmarge is
alleen zinvol als we een kanssteekproef hebben.
Sampling (hoe je een steekproef uit een populatie trekt)
Probability samples (kans bekend, je weet hoe groot je populatie is)
1. Simple random sampling (eenvoudige willekeurige steekproef)
Wanneer een steekproef op een zodanige manier wordt gekozen dat elk mogelijke steekproef van de
gewenste grootte dezelfde kans heeft om te worden geselecteerd uit de populatie, is de steekproef
een eenvoudige willekeurige steekproef.
Om een eenvoudige willekeurige steekproef te verkrijgen, moet de onderzoeker een steekproefkader
hebben. Dit is een lijst van de bevolkingsvorm waaruit de steekproef zal worden getrokken. Dan
worden deelnemers random vanuit de lijst gekozen om deel te nemen.
2. Systematic sampling (systematische steekproef)
Een belangrijk nadeel van eenvoudige willekeurige steekproeven is dat we moeten weten hoeveel
personen in de populatie zitten en een steekproefkader moeten hebben dat ze allemaal opsomt
voordat we beginnen.
Systematische steekproeven omvatten het nemen van zo veel mogelijk individuen voor de
steekproef. Met een eenvoudige willekeurige steekproef heeft elke mogelijke steekproef van de
gewenste grootte dezelfde kans om geselecteerd te worden uit de populatie. Bij systematische
steekproeven is dit niet het geval.
3. Stratified random sampling (gestratificeerde steekproef)
Gestratificeerde aselecte steekproeven zijn een variatie op de eenvoudige willekeurige steekproeven.
In plaats van gevallen rechtstreekst uit de populatie te selecteren, verdelen we eerst de populatie in
twee of meer subgroepen van lagen. Een stratum is een deelverzameling van de bevolking die en
bepaald kenmerk deelt.
Stratificatie zorgt ervoor dat onderzoekers voldoende aantal deelnemers uit elk stratum hebben,
zodat de verschillen in respons tussen de verschillende gegevens onderzocht kunnen worden.
4. Cluster sampling
Hoewel ze ons voorzien van zeer nauwkeurige beelden van de populatie, hebben eenvoudige
willekeurige steekproeven en gestratificeerde steekproeven een groot nadeel: ze vereisen dat we
een steekproefkader hebben van alle gevallen in de populatie voordat we beginnen.
Om een clustervoorbeeld te krijgen, samplen de onderzoekers eerst geen deelnemers maar eerder
groeperingen of clusters van deelnemers. Deze clusters zijn vaak gebaseerd op natuurlijk
voorkomende groeperingen, zoals geografische gebieden of bepaalde instellingen.
4