Samenvatting Testtheorie (Drenth
& Sijtsma)
Hoofdstuk 2: Definitie, kenmerken en toepassingen van
de test
2.1 Wat is een test?
Een test bestaat uit de volgende onderdelen:
1. Testmateriaal: bijvoorbeeld een boekje met opgaven, een legpuzzel, tekenpapier,
onvolledige zinnen, maar soms ook een gesprek, of een computertest.
2. Testformulieren: hierop worden de antwoorden verzameld, die tot psychologische
interpretatie kunnen leiden of conclusies. Bij observaties worden hierop de
observatiegegevens weergeven of duidingscategorieën.
3. Testhandleiding: kan een boekwerk zijn, maar ook beknopte richtlijnen. Er komen vier
onderwerpen aan de orde:
a. Een exacte tekstinstructie: een bespreking van de testprocedure, de condities voor
een goede testsituatie, de woordelijke aanwijzingen en uitleg, proefopgaven
voorafgaand aan de test, de volgorde van de vragen, de toegestane responstijd,
waarschuwingen voor bepaalde momenten, wat de proefleider mag antwoorden op
vragen: alles wat betrekking heeft op de gang van zaken tijdens testonderzoek.
b. De verwerkingsprocedure: de richtlijnen voor de toekenning van numerieke scores
aan de antwoorden of reacties op de opgaven, waarbij de antwoordsleutels bekend
moeten zijn.
c. De normtabellen: de numerieke testscore (bijv. een tentamencijfer) wordt
gewaardeerd en geïnterpreteerd t.o.v. anderen. Dit kan aan de hand van een
normtabel. Dit vormt een voorwaarde voor een verdere interpretatie en evaluatie
van de testprestatie of testgedrag.
d. Een bespreking van de wetenschappelijke kwaliteiten van de test: gegevens die een
indicatie geven van de betrouwbaarheid van de test, een bespreking van de
testbetekenis en de vraag waarvoor de test gebruikt kan worden.
Het doel van testonderzoek is ‘het doen van een uitspraak die een voorspelling, classificatie of
beschrijving m.b.t. het onderzochte individu behelst’. Dit gaat eigenlijk ook om een vergelijking met
anderen. De grootte en aard van de vergelijkingsgroep hebben gevolgen voor de kwaliteit van de
conclusie. Testonderzoek is te beschrijven als: ‘een systematisch onderzoek van apart voor het
testdoel geselecteerde gedragingen’; psychologische test is te omschrijven als ‘een systematisch
gedragsonderzoek met behulp van speciaal geselecteerde vragen om inzicht te krijgen in een
psychologisch kenmerk van de onderzochte in vergelijking met anderen.’
Wat zijn de kenmerken van een test?
1. Efficiëntie: in plaats van intelligentie te schatten (wat situatieafhankelijk is en moeilijk te
observeren) kan je een intelligentietest gebruiken, waarbij een testsituatie wordt gecreëerd,
waarin storende invloeden en bijkomstigheden worden weggehouden.
2. Standaardisatie: de testprestatie moet vergelijkbaar zijn met die van anderen, waardoor je in
gelijke omstandigheden de test moet afnemen. Het houdt een ideaal in waarnaar je bij
testconstructie en testafneming zo veel mogelijk hoort na te streven.
3. Normering: Als je A met B wil vergelijken, moet de afstand tussen A en B zo precies mogelijk
geschat worden. Voor het schatten van kleine verschillen mot een gevoelig instrument
worden gebruikt, en hetzelfde geldt voor een exact mogelijke weergave van verschillen.
Normering helpt hierbij. Het vaststellen van een rangorde is de eenvoudigste vorm, waarbij
, de normaalverdeling zou kunnen worden ingezet (maar alleen als dat redelijk is). Een
normaalverdeling wordt gebruikt als er sprake is van een normaal verdeelde populatie, en
steekproeffouten moeten worden verholpen. Nieuwe verdelingskenmerken worden gekozen
om een handige schaal te krijgen. De rangorde blijft hierbij behouden. Meestal is normering
noodzakelijk, ook bij observatietests en projectieve technieken, behalve bij:
a. Een experimenteel onderzoek waarbij een relatie tussen een test en een andere
variabele wordt onderzocht
b. Situaties waarbij alleen binnen de groep beslissingen moeten worden genomen,
waarbij een rangorde voldoende is (selectie van de beste 10 kandidaten).
4. Objectiviteit: de onafhankelijkheid van storende invloeden vanuit de persoon van de
waarnemer, beoordelaar of interpretator. Dit heeft twee gevolgen:
a. Bij objectief testonderzoek moet niet uitmaken wie de beoordelaar is
(intersubjectiviteitsprincipe). Bij meerdere beoordelaars moet er sprake zijn van
onafhankelijkheid: zij mogen niet overleggen of weten van elkaars oordelen. De mate
van overeenstemming van hun resultaten is de interbeoordelaarsbetrouwbaarheid.
Dit kan bij rangorde worden uitgedrukt in een rangcorrelatie (Spearmans
rangcorrelatie of Kendalls tau). Als de afstanden tussen de plaatsen in de rangorde
betekenis hebben, kan de product-momentcorrelatie de mate van overeenstemming
uitdrukken.
i. Als er wordt ingedeeld in categorieën die geen verband hebben en door
meerdere testleiders wordt uitgevoerd, kan de overeenkomst tussen de
testleiders worden getest door de diagonaalfrequenties (25/40*100). Dit is
ook wel P0. De waarden uit onderstaande tabel zijn letterlijk uit het boek
overgenomen, waarbij ‘frequentie 1’ de eerste testleider is en ‘frequentie 2’
de tweede testleider.
A B C FREQUENTIE 1
A 8 3 1 12
B 4 7 5 16
C 0 2 10 12
FREQUENTIE 2 12 12 16 40
ii. Ook kan je kappa berekenen:
Pchance is te berekenen door (12*12/40 + 12*16/40 + 12*16/40) /40 bij dit
voorbeeld. Kappa kan waarden van <0 tot 1 aannemen.
b. Objectiviteit vereist openheid en repliceerbaarheid van de test- en
evaluatieprocedure.
Soms lijkt een niet-objectieve objectieve verwerking relevanter, maar een exact
voorgeschreven verwerkingsprocedure kan hierbij helpen.
5. Betrouwbaarheid: als bij meerdere metingen kleine verschillen worden gevonden, is de test
betrouwbaar. Het is belangrijk, omdat het niet zou mogen uitmaken wanneer een test wordt
afgenomen, het onderzoek moet herhaalbaar zijn. Het onderzoek moet wel onder dezelfde
condities plaatsvinden. Als iemand niet twee keer dezelfde score behaalt, is dat aan toeval te
wijten. Dit is niet door standaardisatie te verhelpen. In de praktijk is dit soms niet te
voorkomen (ze herinneren zich de eerste test, of doen kennis op) …
6. Validiteit: meet je wat je wil weten? Bij een valide test is er geen (sterk) verschil van mening
mogelijk over de interpretatie en de betekenis van de testprestatie. De betekenis van de
testprestatie moet empirisch geverifieerd zijn! Als dit het geval is, is dit geen green card voor
allerlei toepassingsmogelijkheden: het biedt een suggestie voor mogelijke samenhang tussen
test en criterium. Het praktisch voorspellend gebruik moet rusten op empirisch onderzoek.
, 2.2 Meten van eigenschappen door middel van tests
Meten= getallen worden volgens een consistente procedure aan objecten toegekend. Er zijn hierbij
vier meetniveaus:
1. Nominale schaal: het toekennen van rugnummers aan voetballers, het onderscheiden van
drie categorieën (bijvoorbeeld kat/hond/vis). Er mogen geen rekenkundige operaties mee
worden uitgevoerd, omdat er geen categorie “beter” is dan de ander en er geen gemiddelde
kan worden berekend. Cohens kappa kan wel handig zijn voor
interbeoordelaarsbetrouwbaarheid. Dus: getallen dienen om categorieën of objecten te
onderscheiden.
2. Ordinale schaal: rangorde. Er is altijd sprake van meer of minder (bijvoorbeeld: warm,
intelligent, aangepast). Je kan nu wel rangordes onderling met elkaar vergelijken en de
samenhang uit te drukken in een rangcorrelatie. Dus: getallen worden gebruikt om
categorieën of objecten te ordenen.
3. Intervalschaal: de afstanden tussen de verschillende posities hebben betekenis. De
intervalschaal heeft een arbitrair nulpunt, bijvoorbeeld de temperatuur in graden Celsius. De
verhouding van meetwaardeafstanden van vaste paren van objecten blijft constant als je het
nulpunt verschuift en de eenheid zou vermenigvuldigen. Een voorbeeld:
C1 5
C2 10
C3 20
De verhouding van de afstanden is dan (20-10)/(10-5)=2. Als je dit lineair transformeert, in de
vorm van T=a+bC, en je vult voor a=5 en b=2 in, kom je tot deze waarden:
T1 15
T2 25
T3 45
De verhouding is dan (45-25)/(25-15)= 2. Dit wil zeggen dat T2 twee keer zo warm is als T1.
De verhoudingen zijn dus verbonden aan een specifieke schaal en hebben verder geen
betekenis. Niet alle testscores kunnen op dit niveau worden gemeten, en verbind er niet te
hoogdravende conclusies aan. Handhaaf dezelfde eenheid en hetzelfde nulpunt, om
verwarring te voorkomen.
4. Verhoudingsschaal: ratio. Er is sprake van een absoluut nulpunt. Lengte, gewicht en volume
zijn hier voorbeelden van.
5. Je hebt ook een verschilschaal (maar die komt vooral aan bod in H7), waarbij je mag
vermeerderen of verminderen met constante a.
In de negentiende eeuw was de natuurkunde voorbeeld voor meten in de psychologie: lengte was
het ideaal. Maar dat gaat voorbij aan veel fysische eigenschappen, evenals psychologische. Neem
temperatuur: als je beker 1 (20 graden Celsius) en beker 2 (30 graden Celsius) bij elkaar doet, krijg je
niet 50 graden Celsius! In de psychologie zijn theorieën en begrippen abstracter en kan bij
experimenten het gedrag van proefpersonen moeilijker worden gemanipuleerd. Als je een test
afneemt, bepaalt de test dat er sprake is van een meting, waardoor het niet meer uitmaakt waarop
de test is gebaseerd. Dit heet ook wel het operationalisme. Het meten binnen de psychologie raakte
in onbruik, maar tegenwoordig zijn vragenlijsten onmisbaar.
Belangrijk om te onthouden:
- Meetniveau van testscores is meestal hoger dan ordinaal meetniveau, maar de
verhoudingsschaal is te hoog gegrepen (X is twee keer zo intelligent als Y).
- Een ordening naar intelligentie (X is intelligenter dan Y) of grootte van verschillen in
intelligentie (X is minder intelligent dan Y, maar Z is duidelijk intelligenter dan X en Y samen)
is omstreden.
Als je ervan uit gaat dat psychologische eigenschappen ondersteund worden door theorieën, is
bijvoorbeeld intelligentie niet wat de test meet, maar is de test een eer of minder geslaagde poging