sTesttheorie – herkansing
Vier tijdvakken
- Voor Binet-Simon-test
- Van Binet-Simon-test tot WO I
- Tussen WO I en WO II
- Na WO II tot nu
Voor Binet-Simon-test
Gerelateerd aan psychiatrie. Meer gestandaardiseerde test. Wanneer er verschillende uitkomsten waren, lag dit
aan de afname. Later ook oog voor individuele verschillen en meer oog voor generalisatie.
Van Binet-Simon-test tot WO I
Verschillende kinderen onderzoeken. Hier werd een totale score aangegeven. Oog voor individueel testen,
standaard instructies en vaste afname.
Eerste keer een score voor intelligentie > mental age. Stern: IQ = mental age / calender age x 100.
Tussen WO I en WO II
Testen op grote schaal, uitslag niet altijd specifiek.
- EU: individuele diagnostiek, kwalitatieve aspecten (houding en uitvoering)
- VS: groepstesten, kwantitatieve focus, invloed immigranten (non-verbaal testen)
- Thurstone: kitisch denken, focus op betrouwbaarheid en validiteit, statistische analyses
Na WO II tot nu
Testen passend bij de targetgroup, grote ontwikkeling van nieuwe tests.
Aandacht voor methodologie: educational testing score, COTAN, Cito. Meer computergestuurd en nieuwe
technologie > automatiseren.
Hoofdstuk 2 – definitie, kenmerken en toepassingen van de test
Onderdelen van een test:
- Testmateriaal: testboekje, puzzels, afbeeldingen
- Testformulieren: voor antwoorden en reacties
- Testhandleiding
o Testinstructie: testprocedure, condities afname
o Verwerkingsprocedure: richtlijnen toekenning scores
o Normtabellen: numerieke testscores
o Wetenschappelijke kwaliteiten van de test: betrouwbaarheid, betekenis, voorspellingen
Met normtabellen kan de score vergeleken worden met representatieve normgroepen.
Het doel van testonderzoek is het doen van een uitspraak die een voorspelling, classificatie of beschrijving met
betrekking tot het individu betreft. Daarbij gaat het vaak om een vergelijking met andere mensen.
De aard en de grootte van de vergelijkingsgroep hebben belangrijke gevolgen voor de draagwijdte van de
conclusie over de geteste persoon.
Psychologische test: een systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of
opgave, met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in vergelijking met
anderen.
Meet psychologische eigenschappen, zoals intelligentie of persoonlijkheid
↓
Zijn niet direct waarneembaar of meetbaar
↓
Gebruik van indicatoren (items) die een gedrag oproepen gerelateerd aan het te meten construct. Gedrag in
items vastgelegd die te observeren zijn.
1
,Wat wil je meten (concept) en waarom (doel van de test). Daarna kijken hoe je dit kan operationaliseren in de
test. Je kijkt vervolgens naar de relatie tussen de items en het geheel. De kwaliteit hangt samen met het doel, de
constructie en de betrouwbaarheid.
Kenmerken van een goede test
- Betrouwbaarheid: geen verschil in metingen, herhaalbaar en controleerbaar. Score niet bepaald worden
door het toevallig moment. Als bij herhaalde metingen ongeveer dezelfde score behaald wordt, onder
gelijke omstandigheden.
o Belangrijk is dat betrouwbaarheid specifiek is voor een populatie en specifiek is voor een test.
Dus niet voor een construct.
o De betrouwbaarheid is de correlatie tussen versie A en versie B, meting 1 en meting 2
- Objectiviteit: de onafhankelijkheid van storende invloeden vanuit de persoon van de waarnemer,
beoordelaar of interpretator. Het resultaat is onafhankelijk.
o Niet uitmaken wie de beoordelaar is: gelijke registratie en beoordeling van prestaties.
o Openheid en reproduceerbaarheid van de test- en evaluatieprocedure.
o Interbeoordelaarsbetrouwbaarheid: geeft de mate van overeenstemming van resultaten
▪ Rangcorrelatie: Spearmans Rho, Kendalls Tau.
▪ Statistische onafhankelijkheid: hoeveel overeenstemming er is.
• A: 12, 16, 12
• B: 12, 12, 16
o 12*12/40=3.6
16*12/40=4.8
12*16/40=4.8
3.6 + 4.8 + 4.8
∗ 100 = 33%
40
▪ Overeenstemming: Cohens Kappa (hoe sterk de overeenkomst is)
𝑝𝑜 − 𝑝𝑡
1 − 𝑝𝑡
(19+6) / 35 = .7
26/35 * 22/35 + 9/35 * 13/35 = .56
𝑝𝑜 − 𝑝𝑡 . 𝟕 − .56 . 14
= = = .32
1 − 𝑝𝑡 1 − .56 . 44
.44 wordt gezien als ‘middelmatige’ overeenstemming. Je kan bij observatie- en projectietests
objectiviteit bereiken door zich zo veel mogelijk te baseren op het direct waarneembare gedrag. De
subjectiviteit neemt toe wanneer men zich meer richt op verklaring en interpretatie, dan op beschrijving
van gedrag.
De Groot spreekt over een grondhouding van de wetenschapsbeoefenaar met betrekking tot de
objectiviteit. Hierbij zijn geen andere belangen van invloed: maatschappij, organisatie, groep of persoon.
- Standaardisatie: noodzakelijke voorwaarde voor de vergelijkbaarheid van testprestaties. Een prestatie
dient vergelijkbaar te zijn met de prestaties voor anderen. Hiervoor onder gelijke omstandigheden
opereren, gelijke testprocedure. Dit bereiken door de situatie te standaardiseren > condities en
invloeden (dezelfde instructie, materialen, tijdslimiet, codeerschema). Beperken van storende
omgevingsinvloeden.
2
, - Validiteit: juiste indicaties, geen alternatieve verklaringen. Een test is valide als hij aan het doel
beantwoord. Meten wat je wilt meten.
- Efficiëntie: niet afhankelijk van het toevallig beschikbaar zijn van gelegenheden waarin gedrag zich
voordoet. Probleem: wachten tot situaties zich voordoen. Een test is efficiënt als het gericht is op het
meten van het hypothetisch construct. Belangrijk daarbij is dat er geen overbodige vragen in zitten,
vragen zonder doel of te veel vragen terwijl het minder kan.
- Normering: een zo exact mogelijke weergave van verschillen. Hiervoor zijn genormeerde tests nodig,
voor interpretatie en beoordeling. De test is genormeerd als je de ruwe testscores kan omzetten in een
getal dat je kan vergelijken met de uitkomst van andere mensen.
Een norm is een referentiekader voor de evaluatie van de ruwe score. Deze is gebaseerd op de
kenmerken van de verdeling van ruwe scores in de populatie. Deze kenmerken worden geschat op basis
van een representatieve steekproef.
o Het vaststellen van een rangorde is de eenvoudigste vorm van normering, zodat iemands
prestatie door middel van een plaatsbepaling in deze rangorde kan worden beoordeeld. De
rangscores geven geen uitsluitsel over het grotere verschil in de staarten van de verdeling,
maar de testscores wel.
o Je kan de schaal van testscores kunnen omzetten naar een normaalverdeling. Hiermee
verander je de schaal, maar blijven de personen dezelfde rangorde behouden.
Nominaal en 2 beoordelaars: Cohens Kappa
Ordinaal en 2 beoordelaars: Spearman Rank Correlation of Kendalls Tau
Ordinaal en meer dan 2 beoordelaars: Kendalls W
Interval en 2 beoordelaars: Pearson correlation
Er is sprake van meten zodra getallen volgens een consistente procedure aan objecten worden toegekend.
Mogelijke testtoepassingen:
- Voorspelling doen
- Keuze maken
- Sterkte/zwakte analyse
- Interne vergelijking
- Beschrijving persoonlijkheid
- Probleem analyse ten behoeve van counseling
Meetniveaus
- Nominaal: categorisering, naamgeving, objecten onderscheiden
- Ordinaal: rangorde, meer of minder
- Interval: afstanden tussen posities hebben betekenis, geen absoluut nulpunt
- Ratio: absoluut nulpunt, alle rekenkundige bewerkingen toegestaan
Volgens Stevens is er sprake van meten zodra getallen volgens een consistente procedure aan objecten worden
toegekend. Hierbij wordt eraan voorbijgegaan aan een verifieerbare theorie over relaties tussen eigenschappen
die ten grondslag moeten liggen aan een meetprocedure (operationalisme, waarbij testconstructie pure
technologie lijkt, los van psychologische theorievorming). Hier is veel kritiek op, maar toch is de manier van
meten (op de verschillende meetniveaus) goed bruikbaar, want het wijst ons erop dat je alles met getallen kunt
doen, wanneer je er de juiste betekenis aan hangt.
Stappen die we kunnen onderscheiden om te komen tot een meting:
- Identificatie van de te meten eigenschap
o Theorie vaststellen. Dit is lastig bij abstracte termen, definitieprobleem. De eigenschap valt
samen met datgene wat de test meet.
3
, - Operationalisering van de eigenschap
o De specificatie van operaties die nodig zijn om een eigenschap te meten. Psychologische
eigenschappen zijn niet direct waarneembaar in gedrag. Dit wordt vastgelegd in stimuli, ook
wel items genoemd:
▪ Uitspraken
▪ Taken
▪ Vragen
- Onderzoek en kwantificering van reacties
o De reacties van personen op de items geven informatie over de eigenschap waarover de test
wordt geacht uitsluitsel te geven. Deze zijn kwalitatief en worden gekwantificeerd. Dit door het
geven van een numerieke waarde aan een antwoord/categorie. Binnen de items over een
bepaalde eigenschap verwacht je een hoge correlatie.
- Terugkoppeling naar de theorie
o Het nomologisch netwerk is een theorie ter verklaring van de waarneembare verschijnselen
waarbinnen de gemeten eigenschap een plaats heeft. Empirisch onderzoek is de sleutel tot
verdere theorieontwikkeling en succesvolle meting. Ook een niet-succesvolle of anders dan
verwacht verlopen testconstructie draagt bij aan theorievorming.
De klassieke testtheorie legt de nadruk op betrouwbaarheid. Betrouwbaarheid is de mate van herhaalbaarheid
van metingen. Een hoge betrouwbaarheid zorgt voor weinig variatie in testscores over verschillende
onafhankelijke testmetingen, onder gelijke omstandigheden.
De totaalscore op de test is een schatter voor de betrouwbare score, de standaardfout is gelijk voor alle
personen. Je meet populatie-afhankelijk.
De item-responstheorie legt de nadruk op hoe de testprestatie tot stand komt. De standaardfout is niet gelijk
over alle personen. Je meet populatie-onafhankelijk.
Het gaat om het resultaat van de interactie tussen de (latente) vaardigheid van het individu die we proberen te
meten en de moeilijkheidsgraad van het item.
- Beschrijft de kans dat een persoon met een bepaalde waarde op een psychologische trek een item goed
of positief beantwoordt. De kans hangt (gedeeltelijk) af van de kenmerken van de items, zoals moeilijkheid en
discriminerend vermogen. Hogere vaardigheid (theta θ) -> meer kans op het juiste antwoord op item.
Representational measurement gaat ervan uit dat er alleen sprake kan zijn van meting, als de formele relaties
tussen meetwaarden (testscores) overeenkomen met de relaties die er in de empirie bestaan tussen de
‘objecten’ waarover die meetwaarden iets zeggen. Dit is lastring gezien de niet-directe waarneembaarheid van
eigenschappen en relaties in de psychologie.
Een test is een systematische classificatie- of meetprocedure, waarbij het mogelijk is een uitspraak te doen over
één of meer empirisch-theoretisch gefundeerde eigenschappen van de onderzochte of over specifiek niet-
testgedrag, door uit te gaan van een objectieve verwerking van reacties in vergelijking tot die van anderen, op
een aantal gestandaardiseerde, zorgvuldig gekozen stimuli.
Toepassingsmogelijkheden
- Beoordeling van individuen
o Testonderzoek met grotere nauwkeurigheid en meer kans op succes een uitspraak te doen
over het gedrag van de onderzochte. Individueel onderzoek en individuele diagnostiek is altijd
gebaseerd op verschillen tussen groepen.
▪ Voorspellingen over een in de toekomst gelegen prestatie, aangeduid met de term
criterium. Eisen waarvan men wel/niet kan voldoen.
▪ Keuzemogelijkheid tussen ten minste twee opties.
▪ Sterke en zwakke kanten van een kandidaat.
▪ Resultaten vergelijken met die dezelfde persoon op een eerder moment behaalde of
op een later tijdstip al behalen > longitudinaal.
▪ Beschrijving van de onderzochte, subjectief. Het gaat om interne rapportage.
▪ Psychologische test, counseling (niet-directieve vorm van therapie).
4