Samenvatting Test Theorie
Cursus: Test theorie 2020/2021
Opleiding: Bachelor Psychologie Tilburg University
Hoorcollege 1
In de psychologie worden niet direct observeerbare eigenschappen
onderzocht door middel van psychologische tests. Goede tests zijn essentieel om
psychologie wetenschappelijk te houden en voor maatschappelijke bijdrages.
Testtheorie, ook bekend als psychometrie, is gewijd aan het verbeteren en
onderzoeken van de kwaliteit van tests. In een test om individuen te meten worden
vaak veel items gebruikt. Items zijn indicatoren voor een construct; aan de
antwoorden worden scores toegekend (itemscores), itemscores worden verwerkt tot
een testscore (vaak als optelsom), en de testscores worden geïnterpreteerd. Op de
positiedriehoek is het de bedoeling dat we tussen een gelovige, die de testscores
gelijk als waarheid interpreteert, en een doemdenker, die denkt dat het onmogelijk is
om met tests iets over psychologische constructen te zeggen, komen te zitten. En
vooral niet bij de ongeïnteresseerde, die alles met betrekking tot dit vak oninteressant
vindt. Als je goed en nauwkeurig wilt meten, heb je een goed test nodig: anders is
het sloppy science!
Het is handig voor dit vak om Inleiding Statistiek en Correlationele
Respondent X Y x y x2 y2 xy
1 1 6 .6 -3.8 .36 14.4 -2.3
2 0 8 -.4 -1.8 .16 3.2 .72
3 1 12 .6 2.2 .36 4.8 1.3
4 0 14 -.4 4.2 .16 17.6 -1.7
5 0 9 -.4 -.8 .16 .64 .32
Som 2 49 1.2 8.1 -1.7
Gemiddelde x̄ .40 9.8 .12 .81 -.17
Standaarddeviatie .35 .90
Correlatie -.54
Onderzoeksmethoden goed te begrijpen. Voor de begrippen, gemiddelde, variantie,
standaarddeviatie, z-scores, covariantie en correlatie kan het handig zijn een tabel te
maken als volgt:
In de kolommen van de hoofdletter X en Y staan de scores op een bepaald item per
respondent. De som is het optellen van de scores op een item en door dat getal door
het aantal respondenten te delen, krijg je de gemiddelde score op dat item.
𝑛
Gemiddelde: x̄ =
Σ Xi
𝑖=1
𝑁
In de kolommen van de kleine letter x en y staan de deviatiescores, dit zijn de
itemscores minus het gemiddelde.
Deviatiescore: x = X - x̄
Als je dit goed hebt gedaan is de optelsom van de deviaties gelijk aan 0. Hier kunnen
we niet zoveel mee daarom kwadrateren we de deviatiescores bij x2 en y2. Door deze
kwadraten op te tellen en te delen door het aantal respondenten, bereken je de
,variantie. De standaarddeviatie wordt berekent door de wortel van de variantie te
nemen.
𝑛
Σ (xi−x̄)2
1
Variantie: Sx2 = 𝑛−1
Standaarddeviatie: √Sx2
De covariantie wordt berekent door de deviatiescores van twee items met elkaar te
vermenigvuldigen, bij xy, en vervolgens op te tellen en te delen door het aantal
respondenten. De correlatie is de gestandaardiseerde covariantie en wordt berekent
door de covariantie te delen door de std. dev. van X maal std.dev van Y.
𝑛
Σ XiYi
𝑖=1
Covariantie: Sxy =
𝑁
𝑆𝑥𝑦
Correlatie:
𝑆𝑥 × 𝑆𝑦
De gegevens voor variantie en correlatie zijn soms handig om in een matrix om te
zetten.
De variantie-covariantiematrix: X Y
Varianties op de diagonaal X .12 -.17
Covarianties op de buitendiagonaal Y -.17 .81
Variantie van een test: som alle elementen van de
variantie-covariantie-matrix
De correlatiematrix: X Y
1 op de diagonaal X 1 -.54
Correlaties op de buitendiagonaal
Y -.54 1
Voor standaardscores of z-scores is een tabel maken ook
handig.
Respondent X Y x y Zx Zy
1 1 6 .6 -3.8 1.71 -4.22
2 0 8 -.4 -1.8 -1.14 -2.00
3 1 12 .6 2.2 1.71 2.44
4 0 14 -.4 4.2 -1.14 4.66
5 0 9 -.4 -.8 -1.14 -.88
Som 2 49
Gemiddelde .40 9.8
Standaarddeviatie .35 .90
𝑥
z-scores: z =
𝑆𝑥
, Hoorcollege 2
Volgens Cronbach (1960) is een psychologische test: ‘a systematic procedure
for comparing the behavior of two or more people’. Zo’n ‘procedure’ kan vele
vormen aannemen:
–Multiple choice vaardigheidstest
–Open-ended persoonlijkheidsvragenlijst
–Systematische gedragsobservatie
–Rorschach inktvlekkentest
Er zijn drie cruciale eigenschappen van psychologische tests:
–Gericht op gedragsmeting (observeerbaar)
–Systematisch (objectief )
–Vergelijken van verschillende personen of van dezelfde personen over tijd
Er zijn twee typen tests die hieronder worden weergegeven. Deze tests verschillen
voor de aanpak van testontwikkeling, maar verschillen nauwelijks in de statistische
aanpak voor testscores.
Prestatieniveau Gedragswijze
- Maximale prestatie proberen te behalen - Typische prestatie; jouw
specifieke gedrag
- Vaardigheden tests: - Persoonlijkheidstests of
1. Power tests meten vaardigheid zonder tijdsdruk; attitudetests o.a.
meer vaardige personen maken meer vragen goed.
2. Speed tests meten prestaties onder zware
tijdsdruk en de vragen zijn van triviale moeilijkheid;
meer vaardige personen beantwoorden meer
vragen.
Er is nog een onderscheid tussen tests te maken:
Normgericht Criteriumgericht
- Vergelijken van personen met de rest van de - Vergelijken van personen met
populatie een absolute standaard
- Goede normgegevens van de populatie zijn dus - Het testoordeel staat los van
belangrijk het prestatieniveau in de
populatie
vb. tentamen testtheorie
Bij een psychologische test behoort ten eerste testmateriaal, dit zijn de items.
Als tweede zijn er testformulieren met antwoorden en scores en als laatste is er altijd
een handleiding die bestaat uit de exacte testinstructie, verwerkingsprocedure,
normtabellen en een bespreking van de wetenschappelijke kwaliteiten. Itemscores
worden zo bepaald dat ze indicatief zijn voor het te meten construct: hogere
itemscore = ‘hoger’ op de eigenschap. De interpretatie van een testscore hang of van
het meetniveau:
–Nominaal (b.v. persoonlijkheidstypes)
–Ordinaal (b.v. korte Likertschalen)
–Interval (b.v. lange Likertschalen?)
, –Ratio (b.v. Bourdon dot test?)
Scores zijn alleen van interval (of ratio) meetniveau als ze ‘kwantitatief ’ zijn:–
Een toename van 1 punt moet altijd dezelfde toename in de te meten eigenschap
weerspiegelen. Als de scores van respondenten i = 2, j = 4, k=6 zijn, verschillen de
scores dus allemaal evenveel van elkaar, in dat geval dus 2. Testscores zijn een
optelsom van itemscores. Als de itemscores duidelijk ordinaal zijn, zijn testscores
daarmee formeel ook ordinaal; voor praktisch/statistisch gebruik doen we vaak alsof
de testscore van interval meetniveau is. Dit is alleen goed te verdedigen voor lange
tests met een grote range aan scores. Het doel van testscores is om individuele
verschillen te ontdekken, mensen moeten dus verschillen in testscores, en daarom
wordt er gestreefd naar een hoge mate van variatie (zelfde als variantie). De
testscores bestaat uit de itemscores: dus hoge variantie van itemscores en hoge
covariantie tussen itemscores is wenselijk.
Testscore variantie: SX2 = SX12+SX22+ 2 rX1X2SX1SX2 of
SX2 = SX12+SX22+ 2 SX1SX2
Zoals in HC 1 al werd aangegeven is dit eigenlijk de optelsom van de Variantie-
Covariantiematrix.
Hoe werkt het vooronderzoek bij multiple choice (MC) tests? Als eerste worden de
items dichotoom gescoord (goed = 1, fout = 0). De p-waarde van een item in
testtheorie geeft de proportie correct aan. De p-waarde is gelijk aan de gemiddelde
itemscore. De q-waarde (q= 1-p) is de proportie incorrecte antwoorden op een item.
Het is ideaal als p ongeveer gelijk is aan q, want dan is de maximale itemscore
bereikt (p=q=.5). Voorbeeld:
Alternatieven Frequentie Proportie Terminologie
(deel/totaal)
A 12 .07 a1
B 55 .32 a2
C (juiste antw.) 76 .44 p
D 30 .17 a3
Totaal 173 1.00
De proportie mensen die een specifiek fout alternatief kiest, wordt de a-waarde
genoemd. q kan hier dus ook berekend worden door: q = a1 + a2+ a3.
- Omdat mensen die het antwoord niet weten kunnen gokken moet de p-waarde
hoger zijn dan iedere a-waarde.
- Idealiter worden alle foute opties even vaak gekozen: –a1≈a2≈a3.
- Idealiter ook een hoge itemscore variantie, wat we bereiken als: –p≈q
Als aan die drie voorwaarden zijn voldaan, is het een goede vraag.