1
Testtheorie en Testgebruik
Testtheorie: Inleiding in de theorie van de psychologische test en zijn
toepassingen, H2 t/m H9
Hoofdstuk 2: Verschillende soorten tests
In een verantwoorde en gepubliceerde test komt men de volgende onderdelen tegen:
1. Testmateriaal: dit is afhankelijk van de soort test
2. Testformulieren: hiermee worden de resultaten van de test opgeschreven om hieruit
conclusies of interpretaties te trekken
3. Testhandleiding: dit geeft aan hoe de test gebruikt dient te worden. Een goede
testhandleiding moet aan de volgende 4 eisen voldoen:
- Een goede testinstructie: er moet duidelijkheid zijn over de gang van zaken
tijdens de test
- De verwerkingsprocedure: instructies over hoe de test gescoord en verwerkt
dient te worden
- Normtabellen: hiermee worden de scores vergeleken met die van de
representatieve steekproef
- De wetenschappelijke kwaliteit van de test: hierbij gaat het om de
betrouwbaarheid van de test, wat de test betekent en wat het voorspelt
4. De handleiding dient een bespreking te bevatten van de wetenschappelijke kwaliteiten
van de test. Het gaat hierbij om gegevens die een indicatie geven van de
betrouwbaarheid van de test, een bespreking van de testbetekenis en de vraag voor
welke voorspellingen de test gebruikt kan worden
Het doel van testonderzoek is het doen van een uitspraak die een voorspelling, classificatie of
beschrijving m.b.t. het onderzochte individu omvat.
Psychologische test = een systematisch onderzoek van gedrag m.b.v. speciaal geselecteerde
vragen of opgaven, met de bedoeling inzicht te krijgen in een kenmerk van de onderzochte in
vergelijking met anderen. Een psychologische test gebruiken is pas gerechtvaardigd als het een
juister beeld oplevert dan het voorwetenschappelijk oordeel, of als het een verbetering of een
aanvulling hierop kan betekenen en als de kosten of ethische bezwaren niet remmend werken.
Er zijn 4 meetschalen, van laag naar hoog:
1. De nominale schaal: men gebruikt getallen om categorieën te onderscheiden en
objecten in te delen. Er is geen sprake van een rangorde, het gaat slechts om
verschillende getallen (bijv. rugnummers van spelers)
2. De ordinale schaal: getallen worden gebruikt om categorieën of objecten te ordenen. Er
is sprake van een rangorde (minder of meer). Rekenkundige bewerkingen zoals de
rangorde-correlatiecoëfficiënt zijn toegestaan
3. De intervalschaal: hier is er niet alleen een rangorde van minder of meer, ook de
afstanden tussen de verschillende posities zijn belangrijk (deze zijn gelijk). Een
intervalschaal heeft geen nulpunt, hierdoor mag men alleen optrekken en aftrekken)
4. De ratioschaal (verhoudingsschaal): er is sprake van een gelijke afstand tussen de
verschillende posities op de schaal en van een absoluut nulpunt. Alle rekenkundige
bewerkingen zijn hier toegestaan (bijv. lengte en gewicht)
Testscores worden meestal op intervalniveau gemeten. Bij de interpretatie van testscores zit
men echter tussen de ordinale schaal en intervalschaal in.
Behalve dat men testen gelijkstelt aan meten, is het ook zo dat men het scoren van tests
gelijkstelt aan het meten. In feite gaat het hier om tellen, meten wordt het pas als men
conclusies trekt over een bepaalde eigenschap op basis van het aantal tellingen.
, 2
Er zijn 6 kenmerken waarop een goede test in het voordeel is t.o.v. het voorwetenschappelijk
oordeel:
1. Efficiëntie: de test is alleen maar gericht op het meten van het hypothetisch construct,
zonder andere storende factoren
2. Standaardisatie: de testprocedure moet voor alle respondenten gelijk zijn.
Respondenten hebben dus dezelfde instructie, hetzelfde tijdslimiet en dezelfde condities
standaardisatie maakt een test betrouwbaar en vergelijkbaar
3. Normering van de testresultaten: normering is nuttig voor het interpreteren van
resultaten en het is een noodzakelijke voorwaarde voor het gebruik van een test. De
eenvoudigste vorm van normering is rangorde
4. Het principe van objectiviteit: wie het onderzoek ook doet, het resultaat moet hetzelfde
zijn. Openheid en reproduceerbaarheid van de test en evaluatie moeten mogelijk zijn
- Interbeoordelaarsbetrouwbaarheid: de mate van overeenstemming tussen
P0−Pt
verschillende beoordelaars Cohens Kappa: κ= . Hierbij is P0 de kans
I −Pt
dat 2 beoordelaars het bij een aselect gekozen proefpersoon met elkaar eens
zijn. Pt is de kans dat de beoordelaars het met elkaar eens zijn terwijl ze beide
apart hun eigen oordeel geven. κ ligt tussen -1 en 1
- Het is mogelijk bij observatie- en projectietests objectiviteit te bereiken door (1)
het waarneembare gedrag te beschrijven i.p.v. te interpreteren, (2) gedrag te
registreren i.p.v. te evalueren door bijv. een voorgeschreven
verwerkingsprocedure en (3) een objectieve grondhouding van de
wetenschapsbeoefenaar
5. De eis van betrouwbaarheid: de mate waarin bij herhaalde meting dezelfde score
behaald wordt het moet niets of nauwelijks uitmaken wanneer iemand getest wordt
6. Validiteit en de betekenis van een test (belangrijkste): de mate waarin de test aan zijn
doel beantwoordt een goede test heeft een vaststaande psychologische betekenis
Er kan op 2 manieren gemeten worden:
1. Een eigenschap direct meten: het gaat hier om operationele of empirische begrippen
(ook wel het fenotypische systeem genoemd) dat wat de test meet, is dat wat het is.
De begrippen zijn gelijk aan hun operationalisering, er is geen sprake van een extra
betekenis
2. Een eigenschap indirect meten: het meten van eigenschappen die niet direct
waarneembaar zijn (bijv. intelligentie, neuroticisme) (ook wel latente structuuranalyse,
genotypische begrippensysteem of hypothetische begrippen genoemd). Ze zijn abstract
en theoretisch van aard. Er is sprake van een extra betekenis die de operationalisering
te boven gaat
Er zijn 3 toepassingsmogelijkheden van de psychologische test:
1. Beoordeling van individuen: dit kan op 6 verschillende manieren:
- Criterium: er worden voorspellingen gedaan over een veelal in de toekomst
gelegen prestatie (criterium) aan de eisen waarvan men al of niet kan voldoen.
De test correleert met het criterium (bijv. het wel of niet voltooien van een
opleiding of beroep)
- Meerdere criteria: de criteria verschillen qua niveau en kwaliteit (bijv. het kiezen
van een studierichting). De test moet niet alleen correleren met het criterium,
maar differentiatie tussen de verschillende alternatieven moet ook mogelijk zijn
- Onderlinge verhoudingen van testscores bij 1 persoon: het gaat hier niet om de
absolute hoogte van scores, maar om de onderlinge verhouding (bijv. als men
iemands zwakke en sterke punten of interesses wil weten). Ipsatieve scores = de
testscores van 1 persoon worden met elkaar vergeleken, niet met een externe
norm
, 3
- Ontwikkelingen van een persoon: hetzelfde onderzoek met hetzelfde individu
wordt herhaald op een ander tijdstip om ontwikkeling(en) te ontdekken (bijv.
longitudinaal onderzoek). Ook hier gaat het om interne vergelijking
- Beschrijving van een onderzochte: doet zich vaak voor in de hypothesevormende
fase van individueel onderzoek. Er kan een beschrijving in de vorm van een
interne of externe rapportage gemaakt worden: bij een interne rapportage geeft
de psycholoog een subjectieve beschrijving van het gedrag van de onderzochte
of van zijn/haar testprestaties. Een externe rapportage beperkt zich niet tot de
resultaten van het testonderzoek (bijv. in het geval dat ouders zich tot een
psycholoog wenden met de vraag om een verklarende beschrijving van het
gedrag van hun kind in aanvulling op of i.p.v. een mondelinge bespreking. Een
externe rapportage kan ook pedagogische adviezen en psychologische
uitspraken bevatten
- Counseling: een niet-directieve vorm van therapie. Bij counseling wordt het
testonderzoek gebruikt als startpunt (stand van zaken) en gaat de hulpverlener
van daaruit samen met de cliënt zijn/haar problemen analyseren, bewust maken
en herformuleren
2. Beoordeling van groepen: men is geïnteresseerd in de grootte van het verschil van een
bepaalde eigenschap tussen groepen. Hierbij wordt gebruik gemaakt van vergelijkend
onderzoek. Dit is vaak een voorstadium voor het individuele onderzoek
3. Beoordeling van situaties en methoden: men gebruikt bijv. dezelfde methoden in
verschillende situaties of andere methoden in dezelfde situatie. Hierbij gaat het niet
zozeer om groepsverschillen maar om de situaties en de methoden. Averechtse
diagnostiek = als een test met een criterium correleert, kan men van deze correlatie niet
alleen gebruik maken door voorspellingen te doen over de kansen op criteriumsucces,
maar kan hiermee ook iets gezegd worden over het criterium zelf
Test = een systematische classificatie- of meetprocedure die een uitspraak doet over 1 of meer
eigenschappen van de onderzochte of over specifiek niet-testgedrag, door uit te gaan van
zijn/haar reactie in vergelijking tot die van anderen op een aantal stimuli.
Hoofdstuk 3: Classificatie van tests
Tests kunnen grofweg ingedeeld worden in 2 categorieën:
1. Indeling naar testgedrag. Nadeel: het is niet altijd ondubbelzinnig aan te geven in welke
categorie een psychologische eigenschap thuishoort. Er zijn 2 belangrijkste
onderscheiden te maken die uitgaan van het testgedrag:
a. Tests voor prestatieniveau: hierbij gaat het om de maximale prestatie van de
onderzochte persoon het is duidelijk wat goed of fout is
b. Tests voor gedragswijze: hierbij is het belangrijk hoe iemand iets doet en op
welke wijze de prestatie of reactie plaatsvindt het is niet bekend wat goed of
fout is
2. Indeling naar instructie en afneming: de 2 belangrijkste criteria zijn die tussen de
individuele en de groepstest, en die tussen de snelheidstest en de niveautest
a. Bij een individuele test is er sprake van een individuele testsituatie en instructie.
Voordelen: de onderzochte kan gestimuleerd worden, er is controle op de situatie
en de inhoud, en observatie van de onderzochte is mogelijk. Nadelen: geringe
efficiëntie en de informatie wordt niet op een systematische wijze verkregen
b. Bij een groepstest geeft de testleider instructies aan een groep. Voordelen:
efficiëntie, besparing van geld en tijd. Nadelen: ordeproblemen en afkijken
, 4
Er zijn 4 tests te onderscheiden bij de tests voor prestatieniveau:
1. Enkelvoudige algemene niveautests (= grootste en belangrijkste tests): hierbij gaat het
om een algemene niveaubepaling van de intelligentie. Er zijn 3 enkelvoudige algemene
niveautests:
a. Individuele ontwikkelingstests: hierbij is het doel het meten van de intelligentie
tijdens de ontwikkeling de intelligentiescore van het kind wordt vergeleken met
de testprestaties van leeftijdsgenoten (bijv. WISC-R, Rakit)
b. Individuele intelligentietests voor volwassenen: hierbij wordt het
intelligentieniveau vastgesteld nadat intelligentie als volgroeid mag worden
beschouwd (vanaf 15 à 17 jaar) (bijv. WAIS, GIT)
c. Algemene collectieve intelligentietests: worden vaak schriftelijk en groepsgewijs
afgenomen. Deze tests zijn breed en gevarieerd samengesteld. Er zijn
collectieve intelligentietests voor volwassenen en kinderen en er zijn collectieve
niet-verbale intelligentietests
2. Veelvoudige algemene niveautests: hierbij is differentiatie wel belangrijk. Deze tests zijn
afzonderlijk gezien voldoende betrouwbaar en afhankelijk. Er zijn 2 typen veelvoudige
algemene niveautests:
a. Testbatterijen voor intelligentiefactoren: hierbij is het doel dat elke deeltest een
dimensie van intelligentie meet. De meest bekende factoren van intelligentie zijn
(Thurnstone): verbal comprehension, word fluency, number facility, spacial
visualization, associative memory, perceptual speed en reasoning.
b. Testbatterijen voor geschiktheid: hierbij worden vermogens gemeten die iemand
in staat stellen zich voor een maatschappelijke taak of schooleisen te bekwamen
(dus leergeschiktheid). Deze leerfactoren vallen meestal niet samen met de
intelligentiefactoren (bijv. motorische vaardigheden)
3. Speciale niveautests: richten zich op een bepaald segment van de begaafdheid (bijv.
een intelligentieaspect, geschiktheid of vaardigheid) die vaak niet onder intelligentie valt
maar wel belangrijk is. Er zijn 3 typen speciale niveautests:
a. Tests voor speciale intelligentiefactoren: tests die uitsluitend eigenschappen als
ruimtelijk inzicht, woordkennis of numerieke vaardigheid meten. Guilford kwam
met 3 intelligentieaspecten: divergent denken (creativiteit), behavioral dimensie
(sociale intelligentie) en kritisch denken. Creativiteit = oplossingen bedenken
voor een probleem waarvoor vele oplossingen mogelijk zijn. De antwoorden
worden meestal beoordeeld op de hoeveelheid oplossingen, het aantal
verschillende principes en originaliteit. Sociale intelligentie bleek moeilijk te
onderscheiden van andere intelligentiefactoren
b. Tests voor speciale geschiktheden: hieronder vallen tests voor
leergeschiktheden (tests die zich richten op factoren die men leercondities zou
kunnen noemen) en tests voor werkgeschiktheden (tests gericht op typische
vaardigheden die nodig zijn voor bepaalde maatschappelijke functies of taken)
c. Tests voor speciale niet-intelligentiefactoren: richten zich op vaardigheden of
capaciteiten die belangrijk zijn voor een maatschappelijke functie of klinische
diagnostiek. Hieronder vallen motoriektests (tests voor reactiesnelheden,
lichaamsbeheersing en coördinatie), artistieke tests (geven oordelen op basis
van de zintuigen) en sensorische tests (bijv. tests voor gehoorscherpe)
4. Vorderingstests: meten in hoeverre de onderzochte het doel van een opleiding heeft
bereikt. Vorderingstests zijn niet hetzelfde als kennistests, want het doel van een
opleiding is vaak niet alleen het verkrijgen van kennis. Er zijn 2 soorten vorderingstests:
a. Kennis test (achievement test): is meer specifiek gericht op schoolvorderingen
(bijv. tentamens)
b. Vaardigheidstest (proficiency test): is meer algemeen gericht op vaardigheden
buiten de cognitieve sfeer en kennis (bijv. een vreemde taal kunnen spreken)