Alle stof testtheorie
Klapper
1. Het schrijven van items
Eisen voor toetsopgaven
We onderscheiden 6 eisen waaraan een goed testitem moet voldoen.
1. Relevantie
Gebrek aan relevantie treedt op als een vraag een beroep doet op kennis en/of vaardigheden die niet
nodig of niet belangrijk zijn in relatie tot wat we willen meten. Hierbij moet gedacht worden aan de
formulering van de vragen (Goed Nederlands, niet te lang, denk om ontkenningen).
2. Objectiviteit
Een opgave is niet objectief, wanneer ook deskundigen het niet eens zijn over het goede antwoord.
Antwoord kan ontbreken, naar een mening vragen of 2 goede opties hebben bijv.
3. Specificiteit
We noemen een opgave specifiek wanneer alleen personen die de stof bestudeerd hebben, in staat
zijn om de opgave op te lossen. Behalve inhoudelijke ‘fouten’ kan met name een meerkeuzevraag
óók formuleringsfouten bevatten, waardoor de respondent aanwijzingen krijgt omtrent het goede
antwoord. Dit doet zich bijvoorbeeld voor wanneer:
→ het juiste antwoord een gedeeltelijke herhaling van de vraag bevat;
→ de foute alternatieven slecht grammaticaal op de vraag aansluiten;
→ een of meer van de alternatieven logisch onmogelijk is; het goede alternatief opvallend langer, of
juist korter is dan de rest; er een systeem zit in de plaats van het goede alternatief tussen de rest, of
wanneer de alternatieven volgens een bepaald systeem zijn bedacht;
→ bij het laatste, denk aan rekenopgaven, waarbij de alternatieven steeds een te kleine en een te
grote uitkomst bevatten;
→ er woorden als altijd en nooit worden gebruikt;
→ alternatieven elkaar overlappen of insluiten;
→ algemene kennis ook genoeg is
4. Efficiëntie
Een opgave is efficiënt wanneer we vragen wat we weten willen op een manier die de respondent
een minimum aan tijd kost. Met andere woorden: een item moet kort helder en grammaticaal juist
zijn geformuleerd.
5. Moeilijkheid
Items mogen niet te makkelijk of moeilijk zijn.
6. Dicriminatie
Items worden relatief vaker goedgemaakt door ‘goede’ dan door ‘slechte’ leerlingen.
Moeilijkheidsgraad en discriminerend vermogen hangen met elkaar samen. Is de opgave te makkelijk
- dat wil zeggen dat zij door bijna alle respondenten goed wordt gemaakt - dan onderscheidt deze
niet tussen ‘goede’ en ‘slechte’ proefpersonen, want beiden geven immers het goede antwoord.
Eisen voor vragenlijsten
Een vragenlijst bestaat uit items die in principe net zo zorgvuldig moeten worden geschreven en
beoordeeld als andere testitems. Hierbij kunnen we het volgende hanteren (Edwards):
1. vermijd vragen die naar het verleden i.p.v. het heden verwijzen;
2. vermijd vragen die als vragen naar feiten (i.p.v. meningen) kunnen worden gezien;
3. vermijd vragen die op meer dan een manier kunnen worden geïnterpreteerd;
4. vermijd irrelevante vragen;
5. stel geen vragen waar ‘iedereen’ het mee eens of oneens is;
6. kies vragen die gespreid zijn over de hele range van het eigenschapcontinuüm;
7. formuleer helder, duidelijk en grammaticaal correct;
8. houd het kort, maar
,9. wel volledig;
10. vermijd ‘alles’ ‘altijd’ en ‘nooit’;
11. wees zuinig met ‘alleen (als)’, ‘slechts’ e.d.;
12. liever tweemaal een korte dan een lange gecompliceerde zin;
13. geen moeilijke woorden;
14. geen dubbele ontkenningen
2. Scoring en normering
Itemscores
De kleinste eenheid van scoring van een test is een item.
→ Bij een item uit een prestatietest is een antwoord te waarderen in termen van goed en fout. Veel
tests hebben dichotome items: het antwoord is goed of fout, en krijgt daarom veelal respectievelijk 1
of 0 punten. De veel gebruikte WISC-R - die individueel wordt afgenomen - heeft ‘open-end’ items.
De antwoorden worden meestal gewaardeerd met een aantal punten, waarbij een foutief antwoord
altijd nul punten oplevert en het correcte antwoord meestal 2 punten. Een half-goed antwoord
wordt dan met 1 punt gewaardeerd.
→ Bij een item uit een test voor gedragswijze is het onderscheid goed-fout niet aan de orde. Elk
antwoord is namelijk goed, als het maar naar waarheid wordt gegeven. n plaats daarvan wordt een
itemantwoord beoordeeld naar de mate waarin het gebaseerd is op de te meten eigenschap.
Voorbeeld: een ja-antwoord op de vraag: houdt u ervan om in een gezelschap het woord te voeren?.
p. Bij elke vraag kan derhalve een antwoord gedefinieerd worden dat gaat in de richting van de te
meten eigenschap. Een dergelijk antwoord wordt wel aangeduid met ' alpha', andere antwoorden
met 'beta', waarbij alpha bijvoorbeeld 2 punten oplevert en een beta-antwoord 0 en daartussenin 1.
-Een ander voorbeeld van graduele itemscoring bij gedragswijzetests is een item met een
antwoordschaal met een aantal punten. Het gaat dan vaak om attitude-items, die bestaan uit een
uitspraak en een antwoordschaal waarop men kan aangeven in hoeverre men het eens is met die
uitspraak.
→ Bij sommige itemtypen komt een score tot stand door een beoordeling van het gegeven antwoord
door de testleider. Voorbeeld: tekenopdrachten.
Ruwe testscores en normering
Bij veel tests die deelvaardigheden of meerdere eigenschappen meten, zijn de items geordend per
deelvaardigheid of eigenschap en vormen aldus 'subtests'. Alle items die dan eenzelfde
(deel)vaardigheid of eigenschap meten, staan achter elkaar. Het komt ook voor dat de items van
deelvaardigheden of verschillende eigenschapen in een test door elkaar staan. Op basis van alle
items die eenzelfde (deel)vaardigheid of eigenschap in de test meten, worden scores berekend. Men
spreekt in dit geval van de ruwe testscores.
Een zogenaamde ruwe testscore wordt berekend door de itemscores bij elkaar op te tellen (al dan
niet gewogen). Het theoretische minimum van een ruwe testscore is nul (alle items fout). Om de
ruwe score betekenis te geven, kan de ruwe score bewerkt worden door deze te vergelijken met een
absolute standaard, door de ruwe score te delen door iets zoals leeftijd of door de ruwe score om te
zetten naar de relatieve positie die men inneemt in een relevante referentiegroep. Het gaat hier dus
om bewerkte scores.
Bij de vergelijking met een absolute standaard wordt de ruwe score vergeleken met een standaard
die op voorhand is vastgelegd, denk hierbij bijvoorbeeld aan de standaard 5,5 op 10 op een toets is
geslaagd. De tweede soort bewerkte scores, met name de ruwe score delen door een andere
variabele, bijvoorbeeld leeftijd, wordt nauwelijks nog toegepast en heeft voornamelijk historische
betekenis.
,Echter, men kan pas echt spreken over het evalueren van de ruwe score op basis van een relevante
referentiegroep wanneer men de ruwe score evalueert op basis van de kenmerken van de verdeling
van de ruwe scores in de populatie waartoe de onderzochte behoort. In dit geval spreekt men over
het gebruik van relatieve normen. Om een ruwe testscore van een individu te kunnen interpreteren
op basis van deze methode, hebben we vergelijkingsmateriaal nodig, met name informatie over de
populatie waartoe de geteste persoon behoort. In testtheorie spreekt men in dit verband over de
referentiepopulatie. Van belang voor de vergelijking van de ruwe testscore van een individu zijn de
verdelingskenmerken van ruwe scores in de referentiepopulatie. Deze verdelingskenmerken worden
geschat vanuit een steekproef uit deze populatie. Deze steekproef wordt normgroep genoemd en
moet voldoen aan hoge eisen van representativiteit en aselectheid. Op basis van de scoreverdeling
worden normen gemaakt waarmee we de individuele ruwe testscore kunnen vergelijken.
De meest eenvoudige methode om ruwe scores te vergelijken is gebaseerd op een rangorde.
Daarnaast zijn er twee werkwijzen die gebaseerd zijn op het gemiddelde en spreiding in de populatie.
In beide gevallen worden ruwe scores omgerekend. Bij de eerste werkwijze worden de ruwe scores
omgerekend naar standaardscores of z-scores. Bij de tweede werkwijze gebeurt er een omrekening
naar genormaliseerde standaardscores.
3. Itemanalyse
Zodra de items zijn geschreven en de beoordelingsfase zijn gepasseerd, kunnen we een concepttest
gaan samenstellen. De volgende stap in de testsconstructie is de proefafname van de concepttest.
Hiervoor nemen we een steekproef uit de populatie waarvoor de test die we aan het maken zijn,
bedoeld is. De uit de proef afname verkregen antwoorden op de testitems worden op een
systematische wijze geanalyseerd. Deze analyse kan worden uitgevoerd binnen twee kaders: de
klassieke testtheorie (KTT) en de item respons theorie (IRT; ook wel moderne testtheorie genoemd).
IRT heeft de voorkeur aangezien, de veronderstelde meeteigenschappen aan de praktijk kunnen
worden getoetst. Bovendien kan het niveau van de score van de respondent gescheiden worden van
het moeilijkheidsniveau van de test. Een nadeel is dat veel data nodig is (minstens 100
respondenten). Bij IRT wordt de testscore verkregen met behulp van het gekozen IRT-model. Als
bijvoorbeeld gebruikt wordt gemaakt van het 2PL-model, wordt er een logistisch verband
verondersteld tussen antwoorden op items en de testscore. De itemeigenschappen die binnen IRT
centraal staan, zijn de itemmoeilijkheid δ, discriminatie α (en pseudo-gokkans). Als je IRT gebruikt,
worden deze itemeigenschappen verkregen door het gekozen IRT-model te schatten met behulp van
de verzamelde data.
Klassieke itemanalyse
Bij klassieke itemanalyse wordt ervan uitgegaan dat de testscore wordt verkregen door een lineaire
combinatie te nemen van de itemscores. In de simpelste vorm is dit een optelling van de scores op
alle items. Er wordt ook wel gesproken van een summatief of lineair model. Bij de klassieke
itemanalyse ligt de focus op de p-waarde (item moeilijkheid), de a-waardes kwaliteitsindicatoren), en
de item-totaal of item-restcorrelatie (discriminerend vermogen van een item).
P- en a-waarden
De P-waarden, ook wel itempopulariteit genoemd, zijn de proporties behorende bij het goede
alternatief; de a-waarden de proporties behorend bij de foute alternatieven. De p-waarde is te
beschouwen als een maat voor de moeilijkheidsgraad van een opgave (hoe moeilijker een item, hoe
lager de p-waarde). De a-waarden kunnen bij de kwaliteitsbeoordeling van een opgave worden
betrokken.
Item- en testscoring
, Hierbij wordt een score toegekend aan de responses per item.
Item-totaalcorrelatie
Met de item- en testscores gaan we verder naar het berekenen van de item-totaalcorrelatie (item-
testcorrelatie): de correlatie tussen de itemscore en de totaalscore. Een alternatieve methode is het
berekenen van de item-restcorrelatie: de correlatie tussen de itemscore en de totaalscore op de
overige items.
Een opgave die noch makkelijk noch moeilijk is (dus net ertussen in), discrimineert niet goed in de
groep van goede proefpersonen, en idem in de groep van slechte, maar wel voor de proefpersonen
die daar net zo tussen in zitten. Bij itemevaluatie op basis van klassieke itemanalyse, gaat de
voorkeur dus uit naar items met p-waarden rond de 0.50 en hoge item-totaal of item-rest correlaties.
(Let op! Als je gebruikt maakt van een IRTmodel, wil je juist graag dat je spreiding hebt in
itemmoeilijkheid.)
4. Artikel Cronbachs Alfa
Over misverstanden rond Cronbachs alfa en de wenselijkheid van alternatieven.
Cronbachs alfa wordt gebruikt als (1) maat voor de interne consistentie van de items in een test, en is
tevens de bekendste methode voor (2) de schatting van de betrouwbaarheid van de testscore. In de
psychometrie is echter bekend dat alfa juist geen goede maat is voor de interne consistentie, en
eveneens dat alfa niet alleen de betrouwbaarheid onderschat, maar dat ook nog eens sterker doet
dan de meeste andere methoden.
Interne consistentie is de mate waarin de items in de test samenhangen als uiting van een
gemeenschappelijk psychologisch proces of gedragsprincipe. Interne consistentie is dus een aspect
van de constructvaliditeit van de test.
Betrouwbaarheid is de mate waarin testscores onder dezelfde condities herhaalbaar zijn.
We nemen aan dat een test of vragenlijst bestaat uit J items, die genummerd zijn als j=1,...,J. De
score op item j wordt genoteerd als Xj. Itemscores kunnen bijvoorbeeld 0 en 1 zijn voor
respectievelijk foute en goede antwoorden op de items uit een intelligentietest, maar ze kunnen ook
gelijk zijn aan bijvoorbeeld de scores 1, 2, 3, 4, 5, die aangeven hoe een respondent heeft
geantwoord op een rating scale uit een persoonlijkheidsvragenlijst. Meestal wordt de som van de
itemscores, ook wel testscore of totaalscore genoemd, gebruikt om testprestaties uit te drukken:
De kwaliteit van de testscore wordt vrijwel standaard in Cronbachs alfa uitgedrukt.
Om alfa te schatten, zijn de covarianties of correlaties tussen de itemscores onderling nodig, en de
variantie van de testscore X+. De covariantie voor twee items, j en k, noteren we als sjk, en hun
product-momentcorrelatie als rjk. De variantie van de itemscores op item j geven we aan als S2j , en
de variantie van X+ als S2x+.
Voor de uitleg van Cronbachs alfa is het handig om de covarianties
tussen alle mogelijk paren van items in een variantie-
covariantiematrix bijeen te zetten. Tabel 1 geeft voor vier items (J =
4) een voorbeeld van zo’n matrix. De itemvarianties staan in de
cellen op de hoofddiagonaal (van linksboven naar rechtsonder): dus,
s2 1 =.25, s2 2 =.24, enzovoort. De covarianties staan in de andere
cellen: bijvoorbeeld, S12 = .12, S13 = .16. Verder is de matrix
symmetrisch in de hoofddiagonaal: S21 = S12 =.12, S31 = S13 = .16,
enzovoort. Alle covarianties staan er dus twee maal in.