Samenvatting testtheorie en testgebruik
Appendix
Zie blz. 462 t/m 469.
Hoofdstuk 2 – Definitie, kenmerken en toepassingen van de test
Onderdelen van een test
• Testmateriaal → bijv. testboekje, legpuzzels, bouwstenen, tekenpapier, foto’s platen,
onvolledige zinnen, of soms geen testmateriaal maar een discussie o.i.d.
• Testformulieren → hierop worden de antwoorden, reacties of gedragsgegevens verzameld →
voor psychologische interpretatie of conclusies.
• Testhandleiding → in een goede testhandleiding staan de volgende vier onderwerpen:
o Testinstructie → bijv. testprocedure, uitleg, proefopgaven, volgorde opgaven,
responstijden, etc.
o Verwerkingsprocedure → richtlijnen voor toekenning van numerieke scores aan
antwoorden of de reacties op opgaven.
o Normtabellen → met normtabellen kan de score worden vergeleken met prestaties
van normgroepen.
o Wetenschappelijke kwaliteiten → betrouwbaarheid (herhaalbaarheid), testbetekenis
(welke eigenschap meet de test) en voor welke voorspellingen wordt de test
gebruikt.
Psychologische test = een systematisch onderzoek van gedrag met behulp van speciaal geselecteerde
vragen of opgaven met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de
onderzochte in vergelijking met anderen.
Kenmerken van een test
• Efficiëntie → bijv. intelligentie meten via prestaties op school of indrukken uit antwoorden
(deze moeten zich voordoen), of via een intelligentietest die appél doet op het intelligent
reageren.
• Standaardisatie → noodzakelijk voor de vergelijkbaarheid van testprestaties → om iets over
een testprestatie te kunnen zeggen dient deze vergelijkbaar te zijn met prestaties van
anderen.
o Gelijke omstandigheden/omgeving → condities en invloeden standaardiseren.
o Handleiding → alles wat hierin staat hetzelfde uitvoeren voor gelijkschakeling.
• Normering → bestaat uit een rangorde van zeer goede tot zeer slechte prestaties, gebonden
aan de groep proefpersonen waarop deze normen zijn vastgesteld.
o Zijn meestal noodzakelijke voorwaarde voor gebruik van een test (behalve als een
test bijvoorbeeld een relatie tussen twee variabelen meet).
• Objectiviteit → resultaat van onderzoek is onafhankelijk van de persoon van degene die de
gegevens verzamelt of uitwerkt.
o Vereist openheid, controleerbaarheid, repliceerbaarheid en mogelijkheden tot
verificatie en gedachtegang.
o Interbeoordelaarsbetrouwbaarheid → de mate van overeenstemming van resultaten
van verschillende beoordelaars.
▪ Twee onafhankelijk werkende beoordelaars die een rangorde produceren →
meten met een rangcorrelatie (zoals Spearmans of Kendalls tau).
▪ Als beoordelingen een rangorde vormen en afstanden tussen de plaatsen in
die rangorde betekenis hebben → meten met product-momentcorrelatie.
▪ De mate waarin twee of meer onafhankelijke beoordelaars tot dezelfde
indeling komen → meten met Cohens kappa (zie blz. 48 t/m 49).
, o Objectiviteit bereiken door bij oordeelsvorming te baseren op direct waarneembaar
gedrag.
o Niet-objectieve verwerking lijkt een veel grotere relevantie te hebben.
o Exact voorgeschreven verwerkingsprocedure bevordert de objectiviteit.
• Betrouwbaarheid → een resultaat is betrouwbaar als er uit twee of meerdere metingen
hetzelfde resultaat komt.
o Fluctuaties in de testsituatie kunnen zorgen voor verschillen tussen twee metingen.
o Vaak onmogelijk om twee onafhankelijke metingen te krijgen.
• Validiteit → of een test ook meet wat het bedoelt te meten.
o Geen sterk verschil van mening mogelijk over interpretatie en betekenis van de
testprestatie.
Meetniveaus
• Nominale schaal → categorisering, zonder een rangorde → hier kunnen geen gewone
rekenkundige operaties mee worden uitgevoerd.
o Hiermee kan wel Cohens kappa worden berekend.
o Getallen worden gebruikt om een categorie aan te geven.
• Ordinale schaal → categorisering, met een rangorde → hier mogen geen gewone
rekenkundige operaties meer worden uitgevoerd.
o Wel rangordes met elkaar vergelijken.
o Getallen worden gebruikt om een rangorde aan te geven.
• Intervalschaal → categorisering, met rangorde, afstanden tussen de verschillende posities
hebben betekenis en arbitrair nulpunt.
o Eenheden worden aangegeven.
o Arbitrair nulpunt → het punt ten opzichte waarvan men zich oriënteert.
o Bijv. temperatuurschalen in Celsius of Fahrenheit → smeltpunt van ijs is het
arbitraire nulpunt.
o Verhouding van afstanden tussen de meetwaarden (intervallen) van vaste paren van
objecten blijft constant als het nulpunt van de schaal over een afstand a zou
verschuiven en de eenheid met een factor b zou vermenigvuldigen.
• Verhoudings-/ratioschaal → categorisering, met rangorde, afstanden tussen de verschillende
posities hebben betekenis en absoluut nulpunt.
o Absoluut nulpunt → alle rekenkundige bewerkingen zijn toegestaan.
➔ Weinig metingen in de psychologie vinden plaats op een verhoudings-/ratioschaal.
Opvattingen over meten
• Psychologie worstelde lang met het begrip ‘meten’ en meetbaar maken van eigenschappen.
• 19e eeuw → fysica model → gebruiken van een eigenschap als ‘lengte’ en de meting hiervan
als ideaal voor psychologische eigenschappen.
o Ging voorbij aan dat veel fysische eigenschappen, net als psychische, niet direct
observeerbaar zijn.
o In fysica is via experimenten de relatie tussen objecten met betrekking tot een
eigenschap een zeer grote mate van exactheid en repliceerbaarheid te verhelderen
→ hierdoor bruikbare schaal kiezen.
▪ In psychologie is dit veel moeilijker (theorieën en begrippen zijn abstracter
en diffuser gedefinieerd) → hierdoor zwakke of matige positieve/negatieve
verbanden, gebrekkig repliceerbaar, resultaten zijn niet dwingend en er
volgen hooguit arbitraire schalen uit.
• Operationalisme (Stevens) → door een meting gelijk te stellen aan de uitkomst van een
consistente procedure van het toekennen van getallen aan objecten, is het in feite de
, procedure (test) zelf die bepaald dat er sprake is van een meting → waarop die test dan
gebaseerd is, doet er niet meer toe.
o Staat los van psychologische theorievorming.
o Ondanks kritiek op operationalisme is indeling in schaaltypen van Stevens zeer
bruikbaar.
▪ Wijst ons op dat je alles met getallen kunt doen, maar de betekenis van de
getallen hetgeen is dat bepaalt welke bewerkingen op die getallen zijn
toegestaan.
▪ Dwingt na te denken over welke bewerkingen we wel en niet met
meetwaarden of testscores kunnen verantwoorden.
• Meten is weten.
Transitief redeneren → de kern van transitief redeneren is dat men, gegeven dat bekend is dat bijv.
stok A langer is dan stok B en de laatste weer langer dan stok C, zelf de conclusie kan trekken dat A
langer is dan C. → drie theorieën:
• Theorie van Piaget → evidentie tegen deze theorie gevonden.
• De informatieverwerkingstheorie → evidentie tegen deze theorie gevonden.
• De ‘fuzzy-trace’-theorie → evidentie voor deze theorie gevonden.
Psychologische eigenschappen worden ondersteund door theorieën.
Het toekennen van ‘scores’ (getalswaarden) aan een prestatie op een test is nog niet het ‘meten’ →
het is pas meten als vanuit dit ‘getelde aantal’ een conclusie volgt over de eigenschap in kwestie.
Stappen om te komen tot een meting:
• Identificatie van de te meten eigenschap
o Wat is de theorie m.b.t. de te meten eigenschap, welke rivaliserende theorieën zijn
er?
o Op de hoogte zijn van theorieën over eigenschappen → theorie kiezen om als
uitgangspunt voor de test te nemen.
o Nadeel van keuze van theoretisch uitgangspunt is dat theorievorming over
psychologische eigenschappen matig ontwikkeld is.
▪ Status theorieën onduidelijk of dubieus.
▪ Eigenschappen vaak in algemene en abstracte termen beschreven.
▪ Eigenschappen manifesteren zelden in waarneembaar gedrag.
• Operationalisering van de eigenschap → de specificatie van de operaties die nodig zijn om de
eigenschap te meten → vereisten:
1. Er wordt een domein van gedragingen gedefinieerd die typisch zijn voor de bedoelde
eigenschap → gedragsdomein afbakenen.
2. Het domein van stimuli die aan proefpersonen kunnen worden gepresenteerd om
reacties uit te lokken die een indicatie geven van de bedoelde eigenschap
afstemmen op het gedragsdomein.
▪ Deze stimuli heten items → bijv. uitspraken, taken en vragen.
• Onderzoek en kwantificering van reacties
o De reacties van personen op de items geven informatie over de eigenschap waarover
de test wordt geacht uitsluitsel te geven → deze zijn in eerste instantie kwalitatief.
o Want uit kwalitatieve reacties komt de kwantificering van antwoorden.
▪ We gaan ervan uit dat bij een item het ene antwoord een hoger niveau
aangeeft op een eigenschap dan het andere antwoord (bijv. een juist
antwoord een hoger niveau dan een onjuist antwoord).
, ▪ Reacties in een hogere categorie krijgen een hogere numerieke waarde
(score) → hogere score = hogere positie op de eigenschap.
o Fase van constructie van een test → kwantitatieve gegevens (scores op de items)
worden verzameld door de proefversie van de test voor te leggen aan een steekproef
van proefpersonen → items worden geanalyseerd met statistische testmodellen
waarin is gespecificeerd aan welke eisen de gegevens dienen te voldoen om gebruikt
te worden voor de echte test.
▪ Positieve correlatie tussen itemscores en ongeveer even groot →
ondersteuning van de hypothese dat items gezamenlijk dezelfde eigenschap
meten.
▪ Negatieve correlatie tussen itemscores → verwerping van de hypothese dat
de items dezelfde eigenschap meten.
• Terugkoppeling naar de theorie
o Als de uitkomst van de statistische analyse aangeeft dat de test de bedoelde
eigenschap meet en er aan technische eisen voor een geslaagde meting is voldaan,
dan is er sprake van een goed meetinstrument en evidentie voor de theorie.
o Niet-succesvolle testconstructie draagt bij aan theorievorming → bijv. aanleiding om
een theorie te herzien of een andere rivaliserende theorie te kiezen.
o Klassieke testtheorie (nadruk op betrouwbaarheid) en item-responstheorie (nadruk
op hoe de testprestatie tot stand komt) zoals zojuist beschreven, sluiten goed aan bij
de statistische methoden die worden gebruikt om tests te construeren en hun
meeteigenschappen vast te stellen.
o Representational measurement → er kan alleen sprake zijn van meting, indien de
formele relaties tussen meetwaarden (testscores) overeenkomen met de relaties die
er in de empirie bestaan tussen de ‘objecten’ waarover die meetwaarden iets zeggen
→ bijv. als Jan een hogere testscore heeft dan Piet op een test over ruimtelijk inzicht,
dan moet er in de empirie een aantoonbare relatie bestaand tussen het ruimtelijk
inzicht van Jan en Piet, waaruit we kunnen concluderen dat Jan een hoger ruimtelijk
inzicht heeft.
▪ Probleem → veronderstelling dat ruimtelijk inzicht en de relatie tussen Jan
en Piet ‘direct’ waarneembaar zijn.
Test = een systematische classificatie- of meetprocedure, waarbij het mogelijk is een uitspraak te
doen over één of meer empirisch-theoretisch gefundeerde eigenschappen van de onderzochte of
over specifiek niet-testgedrag, door uit te gaan van een objectieve verwerking van reacties van
hem/haar, in vergelijking tot die van anderen, op een aantal gestandaardiseerde, zorgvuldig gekozen
stimuli.
Toepassingsmogelijkheden
• Beoordelingen van individuen → verschillende situaties die de soort en de gebruikswijze van
de meest geschikte tests bepalen:
o Situatie waarin voorspellingen worden gedaan over een veelal in de toekomst
gelegen prestatie → aangeduid met de term criterium = eisen waarvan men wel of
niet aan kan voldoen → bijv. voor een training, opleiding of beroep.
▪ Voorspellingen bieden mogelijkheid tot een stevigere basis voor te nemen
beslissingen.
o Keuzemogelijkheid tussen ten minste twee opties die onderling verschillen qua
niveau en kwalitatief → bijv. wanneer je een opleiding of studierichting moet kiezen.
▪ Tests moeten correleren aan criteria en er moet differentiatie tussen
verschillende alternatieven mogelijk zijn.