Samenvatting Testtheorie Hoofdstuk 2 t/m 9
Hoofdstuk 2: Definitie, kenmerken en toepassingen van de test
2.1 Wat is een test?
2.1.1 Onderdelen van een test
Testmateriaal -> Verschillend per soort test: testboekje met opgaven, legpuzzel, tekenpapier, foto’s,
onvolledige zinnen. Maar in enkel geval ook geen materiaal: vrije discussie.
Testformulieren -> Hierop worden antwoorden, reacties of gedragsgegevens verzameld, die het materiaal
vormen waaruit psychologische interpretatie of conclusies worden afgeleid.
Testhandleiding -> Goede handleiding bevat volgende vier onderwerpen:
1. Exacte testinstructie -> Alles wat betrekking heeft op gang van zaken tijdens testonderzoek: bespreking van
testprocedure, condities voor goede testsituatie, woordelijke aanwijzingen en uitleg, proefopgaven die aan
test voorafgaan, toegestane responstijden, wat proefleider mag antwoorden op vragen.
2. Verwerkingsprocedure -> Richtlijnen voor toekenning van numerieke scores aan antwoorden of reacties op
de opgaven (goed/fout, indicatief/contra-indicatief).
3. Normtabellen -> Vaak wordt testprestatie (uitgedrukt in numeriek testscore) gewaardeerd en
geïnterpreteerd met prestaties van anderen. In normtabel kan score worden vergeleken met prestaties
van meer of minder representatieve normgroepen.
4. Wetenschappelijke kwaliteiten van test -> Gegevens die een indicatie geven van betrouwbaarheid van test,
een bespreking van de testbetekenis (welke eigenschap wordt gemeten met de test) en vraag voor welke
voorspellingen de test gebruikt kan worden.
2.1.2 Eerste omschrijving
Doel van testonderzoek is het doen van een uitspraak die voorspelling, classificatie of beschrijving m.b.t. het
onderzochte individu behelst. Het gaat hierbij vrijwel altijd om vergelijking met andere mensen (selecte groep
die in zelfde omstandigheden verkeert, maar kan ook landelijke populatie zijn).
Eerste omschrijving psychologische test: een systematisch onderzoek van gedrag m.b.v. speciaal geselecteerde
vragen of opgaven, met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in
vergelijking met anderen.
2.1.3 Kenmerken van een test
1. Efficiëntie -> In geval van intelligentie is er een intelligentie test die speciaal is samengesteld om een
schatting van intelligentie te verkrijgen. Alle opgaven in de test doen een appèl op intelligentie.
2. Standaardisatie -> is een noodzakelijke voorwaarde voor vergelijkbaarheid van testprestaties. Om iets te
kunnen zeggen over een testprestatie, dient deze vergelijkbaar te zijn met prestaties van anderen. Wil men
een vergelijking doen dan moet men de betrokkenen in gelijke omstandigheden hebben zien opereren.
Men bereikt dit het beste door situatie te standaardiseren. Bij een goede test wordt de vergelijkbaarheid
van prestaties bereikt door condities en invloeden die op testprestatie kunnen inwerken zo veel mogelijk
te standaardiseren: gelijkschakeling van procedure van afneming, testmateriaal, instructie en
oefenvoorbeelden, tijdlimieten en verwerkingsregels. Belangrijk hiervoor is een uitvoerige handleiding.
3. Normering -> Vaststellen van rangorde (bv van laag naar hoog) is eenvoudigste vorm van normering. Een
benadering met een normaalverdeling (gemiddelde, spreiding) doet men doorgaans als de steekproef uit
een normaal verdeelde populatie afkomstig is en men steekproeffouten wil ‘gladstrijken’. Nog andere
normering is studietoets waarbij men aantal goede antwoorden kan omzetten naar schaal tussen 0 en 10.
Beschikbaarheid van normen is meestal noodzakelijke voorwaarde voor gebruik van test. In enkel geval
kan men volstaan met ongenormeerde test, bv in experimenteel onderzoek waarin relatie wordt nagegaan
tussen een test en een andere variabele of in situaties waarin slechts binnen de onderzochte groep
beslissingen moeten worden genomen, zodat rangorde volstaat ( beste 10% van kandidaten voor studie).
Normen zijn noodzakelijk voor interpretatie en beoordeling van testprestatie. Normen zijn beschikbaar bij
alle soorten tests.
4. Objectiviteit -> de onafhankelijkheid van storende invloeden vanuit de persoon van de waarnemer,
beoordelaar of interpretator. Voor testinterpretatie houdt dit in dat men mag aannemen dat het proces
van registreren en verwerken van testgedrag van de onderzochte tot score, beoordelingscategorie of
classificatie, vrij is van aan de testleider gebonden invloeden. Bij een objectieve testonderzoek moet het
niet uitmaken wie de beoordelaar is. De objectiviteit waarborgt in alle gevallen een gelijke registratie en
1
, gelijke beoordeling van prestaties. Daarnaast impliceert objectiviteit openheid en reproduceerbaarheid
van de test- en evaluatieprocedure.
De omschrijving van objectiviteit als onafhankelijkheid van de specifieke beoordelaar
(intersubjectiviteitsprincipe) suggereert een methode om in praktische situaties de mate van de
objectiviteit te bepalen. De mate waarin beoordelaars overeenstemmen kan als indicatie worden gebruikt
voor mate van objectiviteit. De interbeoordelaarsbetrouwbaarheid kan op meerdere manieren bepaald
worden. Indien twee onafhankelijke van elkaar werkende beoordelaars beide een rangorde produceren,
kan hiervoor Spearmans rangcorrelatie of Kendalls tau gebruikt worden. Met Kendalls coëfficiënt of
concordance (W) kan de overeenstemming tussen grotere aantallen beoordelaars die dezelfde stimuli
hebben geordend naar dezelfde eigenschap gemeten worden. Als beoordelingen niet alleen een rangorde
vormen, maar de afstanden tussen de plaatsen in die rangorde betekenis hebben, kan de product-
momentcorrelatie de mate van overeenstemming uitdrukken. Een beoordeling kan ook inhouden dat de
groep personen door beoordelaars worden ingedeeld in categorieën. Wat je hier wilt weten, is de mate
waarin twee of meer onafhankelijke beoordelaars tot dezelfde indeling komen. Hiervoor wordt Cohens
p o − pt
Kappa gebruikt. De formule hiervoor is: kappa= . Door de indeling in categorieën van beide
I− pt
beoordelaars te combineren komt hieruit een tabel, met diagonaalfrequenties. po is de overeenstemming.
Dit reken je uit door op te tellen in hoeveel gevallen beide beoordelaars het met elkaar eens zijn : totaal x
100%. In het voorbeeld is po :25:40 x 100% = 62,5%. Het is de kans dat beide beoordelaars het bij een
persoon met elkaar eens zijn. De tabel geeft voor elke beordelaar drie frequentieaantallen. We kunnen
uitreken hoe groot hun overeenstemming zou zijn als er geen samenhang zou zijn terwijl ze wel hun
persoonlijke frequentieverdelingen aanhouden. Dit heeft statische onafhankelijkheid, dit komt erop neer
dat de aantallen in de tabel alleen afhangen van de verdelingen van A en B. Voor elke conditie kan een
frequentieverdeling gemaakt worden: C = 16 x 12:40 = 4,8. D = 12 x 12:40 = 3,6. N = 12 x 16:40 = 4,8. In
totaal is men het dus nog steeds in pt =¿ (3,6 + 4,8 + 4,8):40 x 100% = 33% van de gevallen met elkaar
eens, dat komt doordat de wijze waarop A en B ieder apart oordelen sowieso maakt dat zij in een aantal
gevallen tot hetzelfde oordeel moeten komen. Dit is de toevalkans pt . I vinden we door de po −¿ pt te
doen, 0.625 -0,33 = 0,295. Door de getallen in de formule van kappa in te vullen komt er in dit geval 0,44
uit. Dit wordt gezien als middelmatige overeenstemming.
Tests beantwoorden niet onder meer aan de eis van objectiviteit. Volledige objectiviteit is een ideaal dat
meer of minder verwezenlijkt wordt. Sommige tests voldoen vrijwel geheel aan de eis. Maar een weinig
objectieve test, observatietest, projectietest lijden vaak aan een gebrek aan objectiviteit. Echter kunnen zij
toch verantwoorde mate van objectiviteit bereiken door zich bij oordeelvorming zo veel mogelijk te
baseren op het direct waarneembare gedrag.
Hoe groter de inbreng van de beoordelaar is in het proces van verwerken van testgegevens, hoe groter de
kans op een subjectieve beïnvloeding van dit proces. Indien men verder wil gaan dan de objectief
controleerbare gedragsaspecten, zal een exact voorgeschreven verwerkingsprocedure de objectiviteit
bevorderen. Een in duidelijke fasen ontlede interpretatieprocedure en een zorgvuldig omschreven en
eventueel met vb’en geïllustreerde reeks van aanwijzingen zal de subjectieve beïnvloeding reduceren. Bij
een echt objectieve verwerking van testgegeven zijn geen andere belangen van invloed: belangen van de
maatschappij, organisatie, groep of persoon.
5. Betrouwbaarheid -> Psychologische eigenschappen kunnen net als fysische eigenschapen (bv lengte)
gemeten worden. We kunnen met intelligentietest groep kinderen testen en hun testscores ordenen naar
intelligentie. Als we daarna onafhankelijk van eerste afneming nogmaals dezelfde test voorleggen aan
dezelfde kinderen en de resultaten hiervan met die van eerste testsessie vergelijken, dan zullen verschillen
waarschijnlijk groter zijn dan bij meting van lengte. De intelligentiemeting is dan onbetrouwbaarder dan de
lengtemeting. In dit vb werd er vanuit gegaan dat herhaling onder dezelfde condities plaatsvond: zelfde
testsituatie, instructie proefleider, tijdstip etc. Als iemand niet twee keer dezelfde score behaalt is dat aan
toeval te wijten. Deze toeval invloeden zijn niet door standaardisatie van de testsituatie te ondervangen.
Bij psychologische metingen mogen we ervan uitgaan dat fluctuaties in prestaties en gedrag in reactie op
testvragen en -opgaven groter en complexer van aard zijn dan bij een lengtemeting.
2
, Het is moeilijk/vaak onmogelijk om twee onafhankelijke metingen te verkrijgen bij psychologische test.
Personen herinneren zich bv wat ze bij eerste keer hebben geantwoord of leren tijdens en na de eerste
testafneming, waardoor bij tweede afneming beter wordt gereageerd.
Hoge betrouwbaarheid is vereist omdat het niet zou mogen uitmaken wanneer iemand getest wordt.
Iemands testprestatie moet niet in belangrijke mate bepaald worden door de toevallige moment waarop
hij getest wordt en de meetresultaten moeten dus in beginsel herhaalbaar zijn.
6. Validiteit -> Van een goede test is de psychologische betekenis bekend. Men weet naar welke eigenschap
van de persoon de test verwijst, en alternatieve verklaringen zijn in wetenschappelijk onderzoek
voldoende weerlegd. Er is dus geen (sterk) verschil van mening mogelijk over de interpretatie en betekenis
van de testprestatie. De betekenis van een psychologisch begrip moet empirisch geverifieerd zijn
2.2 Meten van eigenschappen door middel van tests
2.2.1 Meetniveaus en toegestane operaties
Meten -> sprake van zodra getallen volgens een consistente procedure aan objecten worden toegekend. Dit
leidt tot vier meetniveaus:
1. Nominale schaal -> Getallen dienen hier alleen om categorieën of objecten te onderscheiden, het maakt in
principe niet uit welke getallen men kiest, zolang ze de categorieën of de objecten kunnen onderscheiden.
Gewone rekenkundige operaties worden op deze schaal niet uitgevoerd. Aan het nominale meetniveau
aangepaste berekeningen zijn wel mogelijk: bv Cohens Kappa berekenen om vast te stellen in hoeverre
verschillende beoordelaars het eens zijn over bv diagnose van kinderen in diverse categorieën.
Voorbeelden: geslacht, bloedgroepen, rugnummers, politieke partij.
2. Ordinale schaal -> Bevat meer info dan nominale schaal. Ordinale schaal wordt gekenmerkt door rangorde.
Er is sprake van meer of minder. Er mogen geen reken/wiskundige bewerkingen uitgevoerd worden, maar
wel is het mogelijk een rangorde naar intelligentie te vergelijken met een rangorde naar inkomen en
overeenstemming van rangordes uit te drukken in een rangcorrelatie. Getallen laten de ordening zien.
Voorbeelden: goud/zilver/brons, vmbo/havo/wo, inkomensgroepen, helemaal eens t/m helemaal oneens.
3. Intervalschaal -> Nog hoger niveau dan ordinale schaal. Hier zijn niet alleen verschillende posities geordend
van minder naar meer, maar hebben de afstanden tussen verschillende posities betekenis gekregen.
Intervalschaal heeft geen absoluut nulpunt, maar een arbitrair nulpunt. Voorbeelden: Celsius/Fahrenheit,
pH-waarde, IQ, tijd.
Typisch voor intervalschaal is dat de verhouding van de afstanden tussen de meetwaarden van vaste paren
van objecten constant blijft als men het nulpunt van de schaal over een afstand a zou verschuiven en de
eenheid met een factor b zou vermenigvuldigen. Hierbij hoort een lineaire transformatie van Y = a + bX.
Verhoudingen zijn gebonden aan een specifieke schaal en hebben daarbuiten verder geen betekenis. 10
graden Celsius is bv niet twee keer zoveel energie als 5 graden.
4. Verhoudingsschaal of ratio schaal -> Deze schaal heeft eenheden waarmee afstanden kunnen worden
aangegeven (zoals bij interval), maar nu is er wel een absoluut nulpunt. Hierdoor zijn alle rekenkundige
bewerkingen toegestaan. Voorbeelden: lengte, gewicht, leeftijd, volume, inkomen, percentages, aantal
goede antwoorden op toets. Je kan zeggen dat een stok van 80 cm twee keer zolang is als een stok van 40
cm en 0 is het absolute begin van de meetlat. Het gaat hier om de transformatie in vorm van Y = bX.
De schalen geven aan welke numerieke transformaties er zijn toegestaan met de schaalwaarden. Toegestaan
zijn de transformaties die de betekenis van de vergelijking van meetwaarden intact laten. Meten we op een
nominale schaal, dan is elke schaal in principe goed zolang conclusie blijft dat Jan onderwijs heeft gehad
volgens rekenmethode A en Marieke volgens methode B. Bij een ordinale schaal moet de conclusie leiden tot
Linda heeft een grotere taalvaardigheid dan Kees. Bij intervalschaal dat het verschil in intelligentie tussen Freek
en Evert twee keer zo groot is als dat tussen Evert en Karen. En bij verhoudingsschaal dat de drempelwaarde
voor waarneming van geluid bij Martha anderhalf keer zo hoog is als bij Jeanette. Slechts weinig metingen in de
psychologie vinden plaats op verhoudings/ratio schaal. Meeste toepassingen van psychologie vergen hoogstens
intervalschaal en is een ordinale schaal vaak al voldoende.
2.2.2 Opvattingen over meten
In 19e eeuw stond fysica model voor het meten in de psychologie centraal. Dit leidde ertoe dat men een
eigenschap als ‘lengte’ en de meting van lengte als het ideaal voor psychologische eigenschappen en hun
meting zag. Dit ideaal bleek te hoog gegrepen. Deze opvatting van lengte ging ook voorbij aan dat heel veel
3
, fysische eigenschappen, net als psychologische, niet direct observeerbaar zijn. Conclusie is dat meting van
lengte geen goed model is voor meting van meeste andere eigenschappen.
In fysica wordt via experimenten de relaties tussen objecten m.b.t. een eigenschap met een zeer grote mate
van exactheid en repliceerbaarheid verhelderd, zodat men voor die eigenschap vervolgens een bruikbare
schaal kan kiezen. Schalen zijn het resultaat van krachtige theorievorming en experimenten. In de psychologie
zijn theorieën en begrippen altijd abstracter en vooral diffuser gedefinieerd en in experimenten is het gedrag
van proefpersonen minder goed te manipuleren. Met als gevolg dat er vaak zwakke of matige verbanden
worden gevonden, die vaak ook gebrekig repliceerbaar zijn.
Volgens Stevens is er sprake van meten zodra getallen volgens een consistente procedure aan objecten worden
toegekend. Maar in deze opvatting wordt voorbij gegaan aan een verifieerbare theorie over relaties tussen
eigenschappen die ten grondslag moet liggen aan een meetprocedure. Door een meting gelijk te stellen aan de
uitkomst van een consistente procedure van het toekennen van getallen aan objecten, is het in feite de
procedure zelf (de test) die bepaalt dat er sprake is van een meting. Testconstructie lijkt zo pure technologie te
worden, los van psychologische theorievorming. Deze opvatting over meten heet het operationalisme. Door
deze opvatting van meten raakte het meten in psychologie in een slop (want van theorievorming en kennis
vorming was nauwelijks nog sprake). De oplossing geboden (op het fysische model) door het operationalisme
leek erg op ontkenning van het meetprobleem. Ondanks dat er verdere ontwikkeling zijn geweest (voorbij het
operationalisme), lijkt het erop dat deze stroming bij sommigen de opvatting heeft gevestigd dat de constructie
van tests een technologische aangelegenheid is, zonder noemenswaardige wetenschappelijke bijdrage. Deze
zienswijze is onjuist want het meetbaar maken van psychologische eigenschappen via tests en vragenlijsten en
onderzoek naar de betekenis van testscores leveren juist een wetenschappelijke bijdrage die van belang is aan
ontwikkeling van psychologie. Beschikbaarheid van valide meetinstrumenten vergroot de kans op zinvolle
toetsing van theorieën en verwerpen van onjuiste theorieën.
Ondanks de kritiek op het operationalisme, is zijn indeling in schaaltypen goed bruikbaar, want het wijst ons
erop dat men weliswaar alles met getallen kan doen, maar dat het de betekenis van de getallen is die bepaalt
welke bewerkingen op die getallen zijn toegestaan. Bv ordinale schaal laat alleen toe dat men met
ongelijkheidsrestricties werkt (14 is minder dan 17 en 17 minder dan 20, maar de verschillen 17-4 en 20-17
staan niet voor gelijke afstanden). Bovendien dwingen de schaaltypen ons ertoe na te denken over welke
bewerkingen we wel en welke niet met meetwaarden/testscores kunnen verantwoorden. Zo is meetniveau van
testscores meestal hoger dan de nominale (testprestaties van Jan en Piet zijn verschillend), maar is de
verhoudings/ratio schaal te hoog gegrepen (Jan is twee keer zo intelligent als Piet). Daarentegen is een
ordening naar intelligentie (Jan is intelligenter dan Piet) of zelfs van de grootte van verschillen in intelligentie
(Piet is weinig intelligenter dan Suzanne, maar Kees is duidelijker veel intelligenter) niet omstreden.
2.2.3 De gangbare procedure voor het meten van psychologische eigenschappen
Een procedure die men ontwerpt om een eigenschap zoals intelligentie te meten, kan niet samenvallen met de
eigenschap. Intelligentie is in deze opvatting dus niet datgene wat de test meet, maar de test is een meer of
minder geslaagde poging om van deze eigenschap een goede schatting te maken. Het toekennen van scores
(getalswaarden) aan een prestatie op een intelligentietest is in deze opvatting nog geen meten. Het gaat hier
om het direct constateren van respectievelijk het aantal items goed. In feite is er dus sprake van alleen een
telling. Men kan pas van meten spreken als vanuit dit getelde aantal een conclusie volgt over de eigenschap.
Stappen om tot een meting te komen:
1. Identificatie van de te meten eigenschap -> Vaststellen wat de theorie m.b.t. de te meten eigenschap. Of
het in kaart brengen van rivaliserende theorieën inzake deze eigenschap.
Probleem bij de identificatie van de eigenschap en de keuze van de theoretische uitgangspunten voor de
testconstructie is dat de theorievorming maar matig is ontwikkeld (zoals eigenschappen creativiteit,
leiderschap en sociale intelligentie) of zelfs onduidelijk/dubieus.
Eigenschappen als creativiteit en leiderschap worden vaak beschreven in algemene en abstracte termen.
Daarnaast manifesteren deze eigenschappen zich zelden in waarneembaar gedrag. Hierdoor is het lastig
om proeven te bedenken, waarmee in gecontroleerde situaties het bedoelde gedrag wordt opgeroepen.
Grootste probleem vormt de categorie van eigenschappen met een theoretisch onduidelijk of dubieuze
status. Zonder een grondig empirische onderbouwing is een zinvolle meting onmogelijk. Bij testconstructie
ontstaat dan een test die het begrip definieert, zonder dat er sprake was van goed onderbouwde theorie
4