Testtheorie
Samenvatting literatuur
Stof bij college 1
Boek: Testtheorie – inleiding in de theorie van de psychologische test en zijn toepassingen
– Drenth en Sijtsma
Hoofdstuk 2 – definitie, kenmerken en toepassingen van de test
2.1 wat is een test?
2.1.1 onderdelen van een test
In het algemeen komt men in een verantwoorde en gepubliceerde test de volgende onderdelen
tegen:
- Testmateriaal: Het testmateriaal varieert sterk met de soort van de test. Bijv. materiaal is
voor een vragenlijst anders dan voor een fysieke test
- Testformulieren: Op de testformulieren worden de antwoorden, reacties of gedragsgegevens
verzameld, die vervolgens het materiaal vormen waaruit de psychologische interpretatie of
conclusies worden afgeleid
- Testhandleiding: De testhandleiding varieert van een uitvoerig boekwerk tot beknopte
richtlijnen. Een goede handleiding bevat vier onderwerpen:
o een exacte testinstructie
o de verwerkingsprocedure
o de normtabellen
o wetenschappelijke kwaliteiten van de test: is een test betrouwbaar, wat is de
testbetekenis en voor welke voorspellingen kan de test gebruikt worden
2.1.2 eerste omschrijving
De bedoeling van testonderzoek is het doen van een uitspraak die een voorspelling, classificatie of
beschrijving met betrekking tot het onderzochte individu behelst. Het gaat vrijwel altijd in
vergelijking met andere mensen. De aard en de grootte van de vergelijkingsgroep hebben belangrijke
gevolgen voor de draagwijdte van de conclusies over de geteste persoon. Bij een test denken we aan
een systematisch onderzoek van apart voor het testdoel geselecteerde gedragingen. Definitie test:
‘Een systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven,
met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in vergelijking
met anderen’.
2.1.3 kenmerken van een test
Bij de beschikbaarheid van voldoende juiste informatie is het niet altijd nodig om een test te
gebruiken bij de oordeelsvorming over het menselijke gedrag. Als een psychologische test een beter
beeld oplevert of een aanvulling kan zijn, dan is het gerechtvaardigd om een test te doen. Een goede
test voldoet aan 6 kenmerken: efficiëntie, standaardisatie, normering, objectiviteit, betrouwbaarheid,
validiteit
1
,Efficiëntie
Een test moet efficiënt zijn. Het is niet efficiënt om de intelligentie van iemand te bepalen door te
kijken hoe diegene reageert in het dagelijks leven. Dit is niet efficiënt, maar een intelligentietest
daarentegen is veel efficiënter om informatie te krijgen over bijv. het IQ.
Standaardisatie
Standaardisatie is één van de noodzakelijke voorwaarden voor de vergelijkbaarheid van
testprestaties. Om iets verstandigs over een testprestatie te kunnen zeggen, dient deze vergelijkbaar
te zijn met de prestaties van anderen. Wil men de onderzochte ter vergelijking naast anderen
plaatsen, dan moet men de betrokkenen in gelijke omstandigheden hebben zien opereren. Dit bereik
je door de situatie te standaardiseren. Bij een goede test wordt de vergelijkbaarheid van prestaties
bereikt door de condities en invloeden die op de testprestatie kunnen inwerken zo veel mogelijk te
standaardiseren. Een uitvoerige handleiding kan hierbij helpen. De test moet bij iedereen op dezelfde
manier uitgevoerd zijn.
Normering
Een test moet genormeerd zijn. Als je een testprestatie van iemand hebt, dan moet je dit vergelijken
met normen om te kunnen oordelen of dit goed of slecht is. In het normeringsonderzoek is op zijn
minst een rangorde vastgesteld van zeer goede tot zeer slechte prestaties, zodat iemands prestatie
door middel van een plaatsbepaling in deze rangorde kan worden beoordeeld. Hierbij is men
gebonden aan de groep proefpersonen waarop deze normen worden vastgesteld. Een grote
steekproef is representatiever. Het vaststellen van een rangorde (bijv. van laag naar hoog) is de
eenvoudigste vorm van normering. Vaak kunnen de afstanden tussen testscores in de normering
worden opgenomen. Een discrete verdeling kan gemaakt worden en dit kan worden omgezet in een
normaalverdeling. De benadering met een normaalverdeling doet men doorgaans als de steekproef
uit een normaal verdeelde populatie afkomstig is, en men steekproeffouten wil ‘gladstrijken’. Het
kiezen van nieuwe verdelingskenmerken, zoals gemiddelde en spreiding, doet men om een ‘handige’
schaal te verkrijgen. De beschikbaarheid van normen is meestal een noodzakelijke voorwaarde voor
het gebruik van een test. Soms kan een on-genormeerde test gebruikt worden, bijv. in experimenteel
onderzoek.
Objectiviteit
We vatten objectiviteit op als de onafhankelijkheid van storende invloeden vanuit de persoon van de
waarnemer, beoordelaar of interpretator. Bij objectiviteit is het resultaat van het onderzoek
onafhankelijk van de persoon van degene die de gegevens verzamelt of uitwerkt. Het maakt voor de
prestaties niet uit wie de beoordelaar is. Als men verschillende mensen onafhankelijk van elkaar een
registratie en codering van hetzelfde testgedrag laten verrichten, kan de mate waarin zij
overeenstemmen als indicatie worden gebruikt voor de mate van de objectiviteit. Onafhankelijkheid
van de beoordelaars betekent dat zij niet overleggen en weet hebben van elkaar oordelen. De mate
van overeenstemming van hun resultaten, uit te drukken in de interbeoordelaarsbetrouwbaarheid,
geeft dan de mate van objectiviteit van de procedure aan. Welke statistische maat men hiervoor
gebruikt, hangt vooral af van de soort gegeven die de beoordelaars produceren.
Indien twee onafhankelijke van elkaar werkende beoordelaars beiden een rangorde produceren, kan
de interbeoordelaarsbetrouwbaarheid worden uitgedrukt in een rangcorrelatie. Men kan hiervoor
Spearmans rangcorrelatie of Kendalls tau gebruiken. Indien de beoordelingen niet alleen een
rangorde vormen, maar de afstanden tussen de plaatsen in die rangorde betekenis hebben, kan de
product-momentcorrelatie de mate van overeenstemming uitdrukken.
2
,Ook kan het zo zijn dat er geen sprake is van rangordening of dat er een afstand tussen categorieën
bestaat. De beoordeling houdt dan in dat kinderen worden ingedeeld in bepaalde
groepen/categorieën. De mate van overeenstemming tussen 2 beoordelaars vindt je door de
geobserveerde overeenstemming en de verwachte overeenstemming met elkaar te vergelijken. De
vergelijking kan nog worden verbeterd door dit verschil af te zetten tegen het maximale verschil dat
Po −P e
men bij de twee beoordelaars zou kunnen vinden. De formule is: κappa=
1−P e
Veel tests voldoen niet zonder meer aan de eis van objectiviteit. Vaak zijn beoordelaars het niet
100% met elkaar eens, waardoor een test dus niet geheel objectief is. De mate van objectiviteit
verschilt per soort test. Een meerkeuzetest kan door de computer worden nagekeken, waardoor er
veel objectiviteit is. Het nakijken van bijv. een essay is minder objectief, want je moet als leraar dan
dit zelf beoordelen en dat is subjectiever. De interbeoordelaarsbetrouwbaarheid is bij dit soort
testen dus ook lager.
Om zo’n hoog mogelijke objectiviteit te behouden, is het belangrijk om je zoveel mogelijk te baseren
op het direct waarneembare gedrag. De subjectiviteit van het oordeel neemt toe naarmate men zich
meer richt op verklaring en interpretatie dan op beschrijving van gedrag.
Hoe groter de inbreng van de beoordelaar in het proces van verwerken van testgegevens, hoe groter
de kans op een subjectieve beïnvloeding van dit proces. Wat mensen echter weerhoudt van een
streven naar grotere objectiviteit, is dat een niet-objectieve verwerking een veel grotere relevantie
lijkt te hebben. Indien men verder wil gaan dan de objectief controleerbare gedragsaspecten, zal een
exact voorgeschreven verwerkingsprocedure de objectiviteit bevorderen.
Betrouwbaarheid
In hoofdstuk 6 gaan we dieper op betrouwbaarheid in. Betrouwbaarheid houdt in dat het resultaat
van een test hetzelfde is, wanneer je een test opnieuw, op exact dezelfde manier, afneemt. Bijv. bij
de eerste test is een kind 160cm, en bij de tweede test moet hij/zij dan weer 160cm zijn. Een test is
betrouwbaar wanneer het testresultaat niet afhangt van het moment waarop getest is of de
testleider. Je komt tot hetzelfde resultaat wanneer je 2x dezelfde persoon meet op dezelfde manier.
Met psychologische tests is betrouwbaarheid soms lastig te behouden. Het is niet eenvoudig om
twee onafhankelijke metingen te verkrijgen (bijv. mensen leren, test-hertest, etc.). Een hoge
betrouwbaarheid is vereist omdat het niet zou mogen uitmaken wanneer iemand getest wordt.
Iemands testprestaties moet niet in belangrijke mate worden bepaald door het toevallige moment
waarop hij getest wordt, en de meetresultaten moeten dus herhaalbaar zijn.
Validiteit
In hoofdstuk 8 gaan we dieper op validiteit in. Validiteit houdt in dat de test meet wat hij beoogd te
meten. Je meet bijv. IQ niet met een fysieke fitheid test. Van een goede test is de psychologische
betekenis bekend. Men weet naar welke eigenschap van de persoon de test verwijst, en alternatieve
verklaringen zijn wetenschappelijk voldoende weerlegt. Er is dus geen (sterk) verschil van mening
mogelijk over de interpretatie en de betekenis van de testprestatie.
2.2 meten van eigenschappen door middel van tests
2.2.1 meetniveaus en toegestane operaties
3
, Volgens Stevens is er sprake van meten zodra getallen volgens een consistente procedure aan
objecten worden toegekend. Dit leidt tot vier bekende meetniveaus: nominaal, ordinaal, interval en
ratio.
Nominale schaal
Als we personen of objecten volgens een bepaald principe verdelen in groepen en we kennen aan die
groepen een getal ter identificatie toe, dan is dit volgens Steven meten op nominale schaal. Bijv.
mannen = 0 en vrouwen = 1. Er zit geen betekenis achter deze getallen, maar ze zijn een ‘naam’ van
een bepaalde groep. Het is een vorm van categorisering en naamgeving en dit is op nominale schaal.
De gewone rekenkundige operaties mogen niet op deze schaal worden uitgevoerd (+, -. X, :). Je kan
wel bijv. Cohens kappa uitrekenen om vast te stellen in hoeverre verschillende beoordelaars het eens
zijn over een diagnose van kinderen in diverse categorieën. Aangezien getallen hier alleen dienen om
categorieën of objecten te onderscheiden, maakt het in principe niet uit welke getallen men kiest,
zolang ze de categorieën of de objecten kunnen onderscheiden.
Ordinale schaal
Een ordinale schaal bevat meer informatie dan een nominale schaal, en heeft in deze zin een hoger
niveau. Een ordinale schaal wordt gekenmerkt door het begrip rangorde en er is altijd sprake van
‘meer’ of ‘minder’. Getallen worden hier gebruikt om categorieën of objecten te ordenen. De keuze
van de getallen is derhalve vrij zolang zij de juiste ordening blijven weerspiegelen.
Intervalschaal
De intervalschaal heeft weer een hoger niveau dan de ordinale schaal. Op de intervalschaal zijn niet
alleen de verschillende posities geordend van minder naar meer, maar hebben bovendien de
afstanden tussen de verschillende posities betekenis. Dit houdt in dat op de intervalschaal eenheden
worden aangegeven. Verder heeft de intervalschaal geen absoluut maar een arbitrair nulpunt (bijv.
temperatuurschalen van Celsius en Fahrenheit). Omdat er geen absoluut is, zijn verhoudingen alleen
te interpreteren in de eigen schaal. Je kan iets zeggen over verschillen, maar niet over verhoudingen
want deze zijn niet betekenisvol. Op intervalniveau kan je bewerkingen doen als optellen en
aftrekken en hiermee kan je ook het gemiddelde, variantie en correlatie berekenen.
Verhoudingsschaal / ratio schaal
Deze schaal heeft eenheden waarmee afstanden kunnen worden aangegeven en het heeft een
absoluut nulpunt (bijv. lengte, gewicht, volume). Je kan hiermee naar verhoudingen kijken en je kan
er allerlei berekeningen mee doen.
De genoemde vier schalen geven aan welke numerieke transformaties er zijn toegestaan met de
schaalwaarden. Welke berekeningen kan/mag je ermee doen? Toegestaan zijn die transformaties,
die de betekenis van de vergelijking van meetwaarden intact laten. Bij psychologische tests zijn
metingen vaak niet op rationiveau, maar vaker op intervalniveau en vaak is een ordinale schaal al
voldoende.
2.2.2 opvattingen over meten
Het adequaat kunnen meten van eigenschappen is cruciaal voor iedere empirische wetenschap. De
psychologie heeft lang moeite gehad met het begrip ‘meten’ en het meetbaar maken van
eigenschappen. Veel fysische en psychologische eigenschappen zijn niet direct observeerbaar en
daardoor ook lastig meetbaar. In de psychologie zijn theorieën en begrippen vaak abstract
gedefinieerd en in experimenten is het gedrag van proefpersonen niet goed te manipuleren. De
4