Testtheorie
Sjoert Fleurke – testtheorie@hotmail.com
Tentamen – geen rekenmachine
Waar gaat testtheorie over?
- testconstructie (hoe zet je het in elkaar?)
- testgebruik (hoe gebruik je het?)
- testevaluatie (het evalueren van de test?)
Hoofdstuk 2: Definitie, kenmerken en toepassingen van een test
Een test is een systematisch onderzoek m.b.v. items (vragen/opgaven) die zijn speciaal daarvoor
ontworpen en het zijn niet zomaar items, er is veel aandacht aan besteed.
Doel: inzicht krijgen in bepaalde eigenschappen van individuen in vergelijking met groepen.
Voorspellen, classificeren, beschrijven etc.
Psychologische testen meten psychologische eigenschappen, zoals bijvoorbeeld intelligentie of
persoonlijkheid lastige is dat deze psychologische eigenschappen niet direct waarneembaar of
meetbaar zijn. Je kunt niet met honderd procent zekerheid zeggen wat met een bepaald begrip bedoeld
wordt. daarom construeren we indicatoren die iets zeggen over psychologische eigenschappen
(items).
Psychologische tests worden alleen afgenomen wanneer je geen goed beeld hebt van een persoon. Een
test is een hulpmiddel. Een psycholoog dient m.b.v. de test tot een oordeel te komen, op basis van een
combinatie van verschillende waarnemingen. Een testuitslag is niet 100% de waarheid, je kunt er niet
blind op vertrouwen.
Als je een test gaat zien als een heel nauwkeurig meetinstrument, kan het een heel groot verschil zijn.
Je moet het zien als een interval.
In een test hoort:
- Testmateriaal: opgaven, vragen etc.
- Testformulieren: verzameling van antwoorden, reacties of gedragsgegevens die vormen het
materiaal waaruit de psychologische interpretatie of conclusies worden afgeleid. (soort
antwoordformulier).
- Testhandleiding: instructies/richtlijnen van een test
Exacte testinstructie: een bespreking van de testprocedure, de condities voor een goede
testsituatie, de woordelijke aanwijzingen en uitleg, proefopgaven etc.
Verwerkingsprocedure: bestaat voornamelijk uit de richtlijnen voor de toekenning van
numerieke scores aan de antwoorden of de reacties op de opgaven. Bijvoorbeeld: fout = 1,
goed = 2.
Normtabellen: vrijwel altijd wordt de testprestatie, uitgedrukt in een numeriek testscore,
gewaardeerd en geïnterpreteerd tegen de achtergrond van de prestaties van anderen. Door
middel van normtabellen kan de score worden vergeleken met de prestaties van meer of
minder representatieve normgroepen. Om gegevens te mogen interpreteren en evalueren is een
normtabel een voorwaarde.
Wetenschappelijke kwaliteiten: van de test. Gegevens die een indicatie geven van
betrouwbaarheid test (herhaalbaarheid), bespreking van testbetekenis (welke psychologische
eigenschap met de test) en wat het voorspelt (validiteit).
Testonderzoek geeft een uitspraak doet die een voorspelling, classificatie of beschrijving met
betrekking tot het onderzochte individu geeft (in vergelijking met andere mensen). Een uitspraak over
iemands intelligentie, agressiviteit of neuroticisme heeft alleen nut als de onderzochte ten aanzien van
die eigenschap wordt vergeleken met anderen (de uitspraak heeft alleen betrekking op de
referentiegroep).
,Psychologische test: een systematisch onderzoek van gedrag m.b.v. speciaal geselecteerde vragen of
opgaven, met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in
vergelijking met anderen.
Deze gegeven kunnen ook uit alledaagse praktijk gehaald worden (voorwetenschappelijk oordeel).
Een goede test heeft 6 belangrijk eigenschappen (BOSVEN). Zes voordelen van gebruiken van
psychologische test ten opzichte van wetenschappelijk oordeel:
Efficiëntie: Een test is efficiënt als het gericht is op het meten van het hypothetisch construct
en verder niets. Heldere vragen, niet afleiden, goed in elkaar gezet. Je hoeft niet te wachten
tot een bepaalde situatie zich voordoet.
Standaardisatie: De test is gestandaardiseerd als de testprocedure voor alle respondenten
gelijk is. Dus: zelfde instructie, tijdslimiet en condities. Vergelijkbaar met prestaties van
anderen. Condities en invloeden die op de testprestatie kunnen inwerken worden zoveel
mogelijk gestandaardiseerd, zo zorg je voor een goede test. Gebruik van een uitvoerige
handleiding kan hierbij helpen. Standaardisatie eis is een norm waaraan een test in meer of
mindere mate aan kan voldoen. Bijvoorbeeld een objectieve testsituatie; beperk storende
factoren, gedrag proefpersonen; condities van proefpersonen moeten gelijk zijn (lichamelijk,
geestelijk, emotionele opwinding, motivatie en angst voor slechte prestatie)
Normering: Een test is genormeerd als de testscores van verschillende respondenten
vergelijkbaar zijn door middel van normen (bijv IQ test ruwe score wordt via tabel
omgezet in IQ en daarna kun je jezelf gaan vergelijken met anderen die een IQ test hebben
gedaan, je kunt je niet vergelijken met ander op basis van de ruwe scores).
Een norm is een referentiekader voor de evaluatie van de ruwe score. Deze is gebaseerd op de
kenmerken van de verdeling van ruwe scores in de populatie. Deze kenmerken worden
geschat op basis van een representatieve steekproef.
Normering is noodzakelijk bij interpretatie en beoordeling van testprestatie. Ook bij
observatietests en projectieve technieken!
Ook voor vergelijkbaarheid exactheid in de normering leidt tot het vaststellen van zelfs de
kleinste verschillen (persoon A en persoon B). Bij het vaststelen van de kleine verschillen is
een gevoelig instrument nodig, die niet uitgaat van grove maatstaven. Praktijkbeoordeling
schiet meestal tekort hierin. De genormeerde psychologische test is hiertoe wel in staat. In
normeringonderzoek is rangorde vastgesteld, om prestaties te beoordelen. De normering is
gekozen op basis van de grootte van de groep proefpersonen (hoe groter de groep, hoe groter
de generaliseerbaarheid).
Het vaststellen van een rangorde is de eenvoudigste manier van normering (dit geeft geen
informatie over grootte van het verschil). Vervolgens kan een normaal verdeling worden
toegepast. Wanneer de schaal wordt aangepast, blijft de rangorde hetzelfde. Normaal
verdeling kan uitgevoerd worden als steekproef uit normaal verdeelde populatie afkomstig is,
hiermee kan gemiddelde en spreiding vast worden gesteld, om een handige schaal te
verkrijgen.
De beschikbaarheid van normen is meestal een noodzakelijke voorwaarde voor het gebruik
van een test. In een experiment zijn er geen normen nodig voor het gebruik van een test, ook
niet bij rangorde. Voor overige zaken zijn normen noodzakelijk voor interpretatie en
beoordeling van testprestatie (dus ook bij observaties).
Objectiviteit: Een test is objectief als het niet uitmaakt wie de test afneemt (wie de beoordelaar
is). Gedrag proefleider, valkuilen bij objectiviteit:
- vooroordelen
- sympathieën en antipathieën
- eerste indruk
- vermoedens bevestigen willen zien
- ideaaltypen willen vinden
- eigen theorieën bevestigd willen zien.
, Dus objectiviteit is niet vanzelfsprekend. In de hele uitgebreide handleiding wordt geprobeerd
dit dicht te timmeren om te voorkomen dat er niet onbewust wordt gematst.
Hoe kun je onderzoeken in hoeverre beoordelaars op eenzelfde manier scores toekennen?
Toetsen objectiviteit:
- Cohen’s Kappa (interbeoordelaatsbetrouwbaarheid)
- Spearman’s Rho (bij scoren van rangorde)
- Kendall’s Tau (bij scoren van rangorde)
Testinterpretatie houdt in dat men mag aannemen dat het proces van het registreren en
verwerken van het testgedrag van de onderzochte tot score, beoordelingscategorie of
classificatie, vrij is van een aan de testleider gebonden invloeden. Bij objectiviteit is het
resultaat onafhankelijk van de persoon die gegeven verzameld of uitwerkt.
Dit heeft twee gevolgen:
Het moet bij het objectieve testonderzoek niet uitmaken wie de beoordelaar is.
Objectiviteit impliceert openheid een reproduceerbaarheid van de test- en
evaluatieprocedure.
Eis objectiviteit testonderzoek: controleerbaarheid, repliceerbaarheid en mogelijkheden tot
verificatie van de gedachtegang (transpiratie). Tussen beoordelaren:
interbeoordelaarsbetrouwbaarheid, om in praktische situaties mate van objectiviteit te
beoordelen. Mate van overeenstemming berekenen, dit geeft dan de mate van de objectiviteit
van de procedure aan. Bijvoorbeeld: Cohen’s Kappa. Gaat het om rangcorrelatie dan
Spearman’s Rho of Kendall’s Tau.
Po−Pe
Kappa = (Po = proportie overeenstemming, Pt = proportie verwachte (expected)
1−Pe
overeenstemming)
Beoordelaar B
Beoordelaar Dyslectisch Concentratiestoornis Normaal Totaal
A D 8 3 1 12
C 4 7 5 16
N 0 2 10 12
Totaal 12 12 16 40
Deze cijfers laten zien hoe vaak de beoordelaars het met elkaar eens zijn. 8 + 7 + 10 = 25 keer
(totaal) x 100 = 62,5% van de gevallen met elkaar eens (proportie overeenstemming).
Po = 0.625
Het aantal kinderen waarover men het, bij onafhankelijkheid van de oordelen maar met
gebruikmaking van de persoonlijke frequentieverdelingen, een si dat zij dyslectisch zijn = 12 x
= 3.6 – concentratiestoornis = 16 x = 4.8 - Normaal = 12 x = 4.8
3.6+4.8+ 4.8
In totaal is met het dus nog steeds in: = 33%
40
Pe = 0.33
0.625−0.33
Kappa = = 0.44 – redelijke uitkomst
1−0.33
Vuistregels kappa:
0.00 – 0.20 gering
0.20 – 0.40 matig
0.40 – 0.60 redelijk
0.60 – 0.80 voldoende tot goed