Testtheorie
H2: Definitie, kenmerken en toepassingen van de test
2.1 Wat is een test?
2.1.1 Onderdelen van een test
In het algemeen komt men in een verantwoorde en gepubliceerde test de volgende
onderdelen tegen.
- Testmateriaal. Dit varieert sterk met de soort van de test.
- Testformulieren. Hierop worden de antwoorden, reacties of gedragsgegevens
verzameld, die vervolgens het materiaal vormen waaruit de psychologische
interpretatie of conclusies worden afgeleid.
- Testhandleiding. Van een goede handleiding mag men verwachten dat daarin de
volgende vier onderwerpen aan de orde komen.
1. Een exacte testinstructie. Deze bevat al datgene wat betrekking heeft op de
gang van zaken tijdens het testonderzoek.
2. De verwerkingsprocedure. Deze bestaat voornamelijk uit de richtlijnen voor de
toekenning van numerieke scores aan de antwoorden of de reacties op de
opgaven.
3. De normtabellen. Vrijwel altijd wordt de testprestatie, uitgedrukt in een
numerieke testscore, gewaardeerd en geïnterpreteerd tegen de achtergrond
van de prestaties van anderen.
4. De handleiding dient een bespreking te bevatten van de wetenschappelijke
kwaliteiten van de test. Het gaat hierbij om gegevens die een indicatie geven
van de betrouwbaarheid van de test (de vraag in hoeverre de testprestatie
herhaalbaar is), een bespreking van de testbetekenis (de vraag welke
psychologische eigenschap de test meet) en de vraag voor welke
voorspellingen de test gebruikt kan worden.
2.1.2 Eerste omschrijving
De bedoeling van het testonderzoek is het doen van een uitspraak die een
voorspelling, classificatie of beschrijving met betrekking tot het onderzochte individu
behelst. Het gaat hierbij vrijwel altijd om een vergelijking met andere mensen. De
aard en de grootte van de vergelijkingsgroep hebben belangrijke gevolgen voor de
draagwijdte van de conclusie over de geteste persoon.
Bij een test denken we aan een systematisch onderzoek van apart voor het
testdoel geselecteerde gedragingen. Deze gedragingen zijn gekozen omdat zij een
typerende steekproef vormen uit een geheel van gedragingen, die men niet allemaal
in één enkele testsessie kan onderzoeken.
De psychologische test kan omschreven worden als ‘een systematisch
onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven, met
de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in
vergelijking met anderen’.
2.1.3 Kenmerken van een test
De psychologische test is vaak in staat om een juister beeld te geven dan een
voorwetenschappelijk oordeel. Dit kan blijken uit zes kenmerken waarop een goede
test in het voordeel is ten opzichte van het voorwetenschappelijk oordeel.
1
, 1. Efficiëntie.
2. Standaardisatie. Om iets verstandigs over een testprestatie te kunnen zeggen,
dient deze vergelijkbaar te zijn met de prestaties van anderen.
3. Normering. Afstanden tussen testscores kunnen in de normering worden
opgenomen.
4. Objectiviteit. Dit is de onafhankelijkheid van storende invloeden vanuit de
persoon van de waarnemer, beoordelaar of interpretator. Bij objectiviteit is het
resultaat van het onderzoek onafhankelijk van de persoon van degene die de
gegevens verzamelt of uitwerkt. Dit heeft twee gevolgen. Ten eerste moet het niet
uitmaken wie de beoordelaar is. Ten tweede impliceert het openheid en
reproduceerbaarheid van de test- en evaluatieprocedure.
- Indien twee onafhankelijk van elkaar werkende beoordelaars beiden een rangorde
produceren, kan de interbeoordelaarsbetrouwbaarheid worden uitgedrukt in een
rangcorrelatie (Spearmans rangcorrelatie of Kendalls tau).
5. Betrouwbaarheid.
6. Validiteit.
2.2Meten van eigenschappen door middel van tests
2.2.1 Meetniveaus en toegestane operaties
Volgens Stevens is er sprake van meten zodra getallen volgens een consistente
procedure aan objecten worden toegekend. Dit leidt tot vier bekende meetniveaus.
- Nominale schaal. Hierin verdelen we personen of objecten volgens een bepaald
principe in groepen en kennen we aan die groepen een getal ter identificatie toe.
Getallen dienen hier alleen om categorieën of objecten te onderscheiden.
- Ordinale schaal. Deze schaal wordt gekenmerkt door een rangorde. Getallen
worden hier gebruikt om categorieën of objecten te ordenen.
- Intervalschaal. Hier zijn niet alleen de verschillende posities geordend van minder
naar meer, maar hebben ook de afstanden tussen de verschillende posities
betekenis. Ook heeft deze schaal geen absoluut maar een arbitrair nulpunt. Typisch
voor de intervalschaal is dat de verhouding van de afstanden tussen de
meetwaarden van vaste paren van objecten constant blijft als men het nulpunt van
de schaal over een afstand a zou verschuiven en de eenheid met een factor b zou
vermenigvuldigen.
- Verhoudingsschaal (ratio scale). Deze schaal heeft niet alleen eenheden waarmee
afstanden kunnen worden aangegeven, maar ook een absoluut nulpunt. Hierdoor
zijn alle rekenkundige bewerkingen toegestaan.
2.2.2 Opvattingen over meten
Boring kwam tot een opmerkelijke uitspraak dat intelligentie datgene is wat de test
meet. Via deze opvatting van meten, het operationalisme, raakte het meten in de
psychologie in het slop, want van theorievorming en kennisvorming was nauwelijks
nog sprake.
Over transitief redeneren bestaan drie concurrerende theorieën, de theorie
van Piaget, de informatie-verwerkingstheorie en de ‘fuzzy trace’-theorie.
2.2.3 De gangbare procedure voor het meten van psychologische eigenschappen
We gaan er in dit boek vanuit dat psychologische eigenschappen ondersteund
worden door theorieën. Dat zijn alle eigenschappen die niet samenvallen met de
operaties die men moet verrichten om ze te meten. Daarom kan de procedure die
men ontwerpt om ze te meten niet samenvallen met deze eigenschappen; evenmin
2
, leidt een willekeurige, maar wel consistente procedure om getallen aan objecten toe
te kennen, vanzelf tot een meetresultaat.
De stappen die we kunnen onderscheiden om te komen tot een meting, zijn
de volgende.
1. Identificatie van de te meten eigenschap. In de eerste stap van het proces wordt
vastgesteld wat de theorie is met betrekking tot de te meten eigenschap, of
worden de rivaliserende theorieën inzake deze eigenschap in kaart gebracht.
Probleem bij de identificatie van de eigenschap en de keuze van de
theoretische uitgangspunten voor de testconstructie is overigens dat met
betrekking tot vele psychologische eigenschappen de theorievorming maar
matig is ontwikkeld, terwijl voor andere eigenschappen geldt dat de status van
deze theorieën onduidelijk of zelfs dubieus is.
2. Operationalisering van de eigenschap. Met operationalisering van een
eigenschap wordt bedoeld de specificatie van de operaties die nodig zijn om de
eigenschap te meten. Psychologische eigenschappen zijn eigenlijk hypothetische
begrippen. De operationalisering vereist ten eerste dan een domein van
gedragingen wordt gedefinieerd die typisch zijn voor de bedoelde eigenschap. De
tweede stap is het hierop afstemmen van een domein van stimuli die aan
proefpersonen kunnen worden gepresenteerd om reacties uit te lokken die een
indicatie geven van de bedoelde eigenschap. Zulke stimuli heten items.
3. Onderzoek en kwantificering van reacties. De reacties van personen op de items
geven informatie over de eigenschap waarover de test wordt geacht uitsluitsel te
geven. Deze reacties zijn in eerste instantie kwalitatief. De stap naar getallen – de
kwantificering van de antwoorden – wordt als volgt genomen.
We gaan ervan uit dat bij een item het ene antwoord een hoger niveau
aangeeft op een achterliggende eigenschap dan het andere antwoord. De
kwantificering bestaat er nu in dat aan de reacties in de hogere categorie een
hogere numerieke waarde wordt toegekend. Cruciaal is hier dat het gaat om
een hypothese, die na toetsing juist maar ook onjuist kan blijken. De
itemscores worden vervolgens geanalyseerd met behulp van testmodellen. Dit
zijn statistische modellen waarin is gespecificeerd aan welke eisen de
gegevens dienen te voldoen, wil er sprake zijn van een meting.
4. Terugkoppeling naar de theorie. De uitkomsten van de statistische analyses
hebben repercussies voor de theorie over de te meten eigenschap.
De zojuist beschreven procedure voor het meten van psychologische
eigenschappen sluit goed aan bij de statistische methoden die doorgaans
worden gebruikt om tests te construeren en hun meeteigenschappen vast te
stellen. Dit zijn de klassieke testtheorie met haar nadruk op betrouwbaarheid
en de item-responstheorie met haar nadruk op hoe de testprestatie tot stand
komt. Er is een derde belangrijke opvatting over meten, de benadering van het
‘representational measurement’. Eenvoudig gezegd gaat dit ervan uit dat er
alleen sprake kan zijn van meting, indien de formele relaties tussen
meetwaarden overeenkomen met de relaties die er in de empirie bestaan
tussen de ‘objecten’ waarover die meetwaarden iets zeggen.
2.3Definitie van een test
De definitie van een test is als volgt: ‘Een test is een systematische classificatie- of
meetprocedure, waarbij het mogelijk is een uitspraak te doen over één of meer
3
, empirisch-theoretisch gefundeerde eigenschappen van de onderzochte of over specifiek
niet-testgedrag, door uit te gaan van een objectieve verwerking van reacties van
hem/haar, in vergelijking tot die van anderen, op een aantal gestandaardiseerde,
zorgvuldig gekozen stimuli’.
2.4Toepassingsmogelijkheden
2.4.1 Beoordeling van individuen
Het gebruik van de test voor de beoordeling van individuen wordt gerechtvaardigd
door de mogelijkheid om dankzij het testonderzoek met grotere nauwkeurigheid en
meer kans op succes een uitspraak te doen over het gedrag van de onderzochte. Deze
uitspraken vinden plaats in zeer uiteenlopende situaties, die telkens de soort en de
gebruikswijze van de meest geschikte tests bepalen.
1. Ten eerste is er de situatie waarin voorspellingen worden gedaan over een veelal
in de toekomst gelegen prestatie – gewoonlijk aangeduid met de term criterium –
de aan de eisen waarvan men al of niet kan voldoen. Wanneer de prestaties op
een test of een serie tests een relatie blijken te vertonen met het criteriumgedrag,
dan kan de testprestatie worden gebruikt om een voorspelling te doen van
mogelijk succes in opleiding of beroep, op een moment dat iemand hier nog niet
aan is begonnen.
2. Ten tweede kan er sprake zijn van een keuzemogelijkheid tussen ten minste twee
opties. Deze kunnen verschillen qua niveau, maar ook kwalitatief. Bij kwalitatief
verschillende vragen is het niet voldoende dat de tests correleren met de criteria,
maar moet er ook een differentiatie tussen de verschillende alternatieven
mogelijk zijn.
3. Ten derde noemen we het geval dat men wil weten wat de zwakke en sterke
kanten van een kandidaat zijn, of in welke gebieden een cliënt meer of minder is
geïnteresseerd. Het gaat nu om de onderlinge vergelijking van de testscores van
dezelfde persoon. De scores worden slechts op elkaar en niet op een externe
norm betrokken: ipsatieve scores.
4. Ten vierde kan zich de situatie voordoen dat een individueel onderzoek wordt
verricht om de resultaten te vergelijken met die welke dezelfde persoon op een
eerder moment behaalde of op een later tijdstip zal behalen. Een dergelijke
interne vergelijking wordt uitgevoerd in het longitudinale onderzoek.
5. De vijfde situatie betreft die waarin gevraagd wordt om een beschrijving van de
onderzochte.
6. Ten slotte kan het individuele gebruik van een psychologische test een niet-
directieve vorm van therapie, counseling, betreffen. Deze wijze van hulpverlening
bestaat uit het samen met de cliënt analyseren, bewust maken en herformuleren
van het probleem waarmee de cliënt wordt geconfronteerd, en dat een barrière
betekent voor het aangepast en geïntegreerd deelnemen aan het maatschappelijk
proces of het onderhouden van goede relaties.
2.4.2 Beoordeling van groepen
Een tweede toepassingsterrein van de psychologische test is dat van het onderzoek
van verschillen tussen groepen. Onderzoek naar groepsverschillen in intelligentie,
persoonlijkheid en andere psychologische kenmerken vormt het centrale thema in de
psychologische subdiscipline ‘cross-culturele psychologie’.
4