Inhoudsopgave
HC 1: Inleiding en basiskennis statistiek......................................................................................................... 3
Introductie............................................................................................................................................................3
Statistische basiskennis........................................................................................................................................4
HC 2: Eigenschappen van tests en items......................................................................................................... 7
Psychologische test..............................................................................................................................................7
Type tests.............................................................................................................................................................7
Testscores.............................................................................................................................................................8
Spreiding testscores.............................................................................................................................................9
Multiple-choice items...........................................................................................................................................9
Cohens kappa.....................................................................................................................................................11
HC 3: Bewerkte scores en normen................................................................................................................ 13
Bewerkte scores en normen...............................................................................................................................13
Transformaties van standaardscores (z-scores)................................................................................................15
HC 4: Betrouwbaarheid – Klassieke testtheorie............................................................................................ 16
Betrouwbaarheidsinterval (inleiding statistiek).................................................................................................16
Herhaalbaarheid van metingen.........................................................................................................................16
Klassieke Testtheorie..........................................................................................................................................17
HC 5: Betrouwbaarheid in de praktijk........................................................................................................... 19
Bepaling van de betrouwbaarheid.....................................................................................................................20
IC methodes........................................................................................................................................................22
Vergelijking van testscores.................................................................................................................................24
HC 6: Invloeden op de betrouwbaarheid...................................................................................................... 25
Invloeden op de betrouwbaarheid.....................................................................................................................25
HC 7: Betrouwbaarheid – verbeteren en gevolgen........................................................................................29
Item-restscore correlatie (standard power tests)..............................................................................................29
Gedichotomiseerde item-restscore correlatie (selectietest)..............................................................................30
Item-discriminatie index (dichotome items)......................................................................................................31
Attenuatie van correlaties..................................................................................................................................32
HC 8: Begripsvaliditeit.................................................................................................................................. 34
Twee vormen van validiteit................................................................................................................................35
Vijfhoek van begripsvaliditeit.............................................................................................................................35
HC 9: Criteriumvaliditeit............................................................................................................................... 41
Predictieve validiteit in de praktijk.....................................................................................................................42
, Testgebruik bij dichotome beslissingen.............................................................................................................46
HC 10: Introductie Item-responstheorie....................................................................................................... 49
Vooraf.................................................................................................................................................................49
Rasch model.......................................................................................................................................................53
Birnbaums twee-parameter (logistisch) model (2PLM).....................................................................................58
HC 11: IRT in de praktijk............................................................................................................................... 60
Herhaling Raschmodel en Birnbaums 2PLM......................................................................................................60
Verschil tussen KTT en IRT in hoe ze omgaan met de nauwkeurigheid van de meting.....................................61
Testconstructie op basis van een itembank.......................................................................................................63
Adaptieve tests...................................................................................................................................................65
HC 12: Test fairness & bias........................................................................................................................... 68
Vertekening testscore (construct bias)...............................................................................................................68
Item bias (differential item functioning)............................................................................................................70
Vertekende predicitie (= predictive bias)............................................................................................................71
LEGENDA:
- Rood = begrip
- Blauw = auteur, belangrijk persoon
- Groen = formule
- Schuingedrukt = voorbeeld
- Dikgedrukt = belangrijk woord (maakt het makkelijk om de tekst in 1x te begrijpen
wanneer je het al geleerd hebt)
- Plaatje = uitleg bij een foto
2
, HC 1: Inleiding en basiskennis statistiek
Introductie
Zorgen voor goede psychologische testen is essentieel:
- Zonder goede tests is psychologie nauwelijks wetenschap
- Zonder goede tests kan de psychologie weinig bijdragen aan de maatschappij
Testtheorie = het vakgebied binnen de psychologie gewijd aan de vraag hoe we de kwaliteit van
tests kunnen onderzoeken en verbeteren
Voor het meten bij individuen gebruik je meestal een test met veel items items gebruiken we als
indicatoren voor een construct (perfectionisme)
1. Aan antwoorden worden scores toegekend = itemscores
2. Itemscores worden verwerkt tot testscores meestal optellen
3. Testscores worden geïnterpreteerd
Wat kun je zeggen over iemands perfectionisme op basis van de testscores?
- Zijn de testscores zinvol te interpreteren?
- Meet de test wel perfectionisme? Hoe kom je daar achter?
- Zijn de vragen/opdrachten wel van goede kwaliteit?
- Zijn er wel genoeg vragen in de test?
- Iemand heeft een score van 14 en een ander een score van 15. Is dit verschil groot genoeg om
te concluderen dat ze verschillen in perfectionisme?
Tests worden veel gebruikt om dingen te meten in de psychologie en meestal is het de handigste
manier om aan gegevens te komen. Als je goed en nauwkeurig een construct wilt meten heb je wel
een goede test nodig, anders is er sprake van sloppy science! Voor het maken van een goede test zijn
er helaas geen kant-en-klare regels. Het vereist voortdurend goed nadenken, goede kennis van de te
meten eigenschap en goed gebruik van statistische methoden
Er zijn echter wel handvaten, en die worden behandeld in Testtheorie
Kennis van testtheorie is cruciaal voor je latere carrière, want psychologisch testen speelt overal een
belangrijke rol. Zowel voor een wetenschappelijke als niet-wetenschappelijke carrière is het één van
de meest relevante vakken uit je studie.
In de wetenschap gaat psychologisch onderzoek vaak over niet direct observeerbare eigenschappen
en zijn er dus tests nodig om deze eigenschappen te kunnen meten. Vrijwel alle psychologische
theorieën zijn tot stand gekomen dankzij testtheorie (Big Five, intelligentie)
In de praktijk maken de meeste beroepen in sociale wetenschappen gebruik van testresultaten en
neemt men vaak beslissingen aan de hand van psychologische tests. Aan het einde van deze cursus
moet je dus in staat zijn om:
- Een test zelf op waarde in kunnen schatten
- Zelf-ontwikkelde tests kritisch kunnen evalueren en verbeteren
- Kennis hebben van mogelijkheden en beperkingen van psychologische tests
3
,Statistische basiskennis
Gemiddelde en deviatiescore
1) 2)
Scores van 5 PPN op 3 tests
3)
4)
5) Gemiddelde van de deviaties is
altijd 0, omdat gemiddeld gezien,
mensen niet afwijken van het
gemiddelde
4
,Variantie en standaarddeviatie
Variantie = de mate van spreiding mate waarin mensen afwijken van het gemiddelde
kwadrateren van deviatiescores
Sum of squares = optelsom van alle kwadraten = optelsom van variantie
Standaarddeviatie = gemiddelde afwijking van het gemiddelde als je een random persoon pakt is
de kans gemiddeld zo groot dat diegene afwijkt van het gemiddelde
In deze cursus gebruiken we alleen steekproeven We gebruiken alleen N en niet n-1
1)
2)
Standaardscores (z-scores)
1) Z-score = gestandaardiseerde
standaarddeviaties
Zy = -0..4 = -0.5
Zw = -.1 = -1.41
2)
Som van ze Z-scores is
wederom 0!
5
,Covariantie en correlatie
Covariantie = toe in hoeverre zijn de variabelen covariërend? Tot in hoeverre hangen ze samen?
1)
2)
XiYi = de keersom van x en y (xy)
- -2 x -0.2 = 0.40
- 1 x -0.2 = -0.2
- 2 x 0.8 = 1.6
Alles optellen (je hebt de som nodig), en die
vervolgens delen door N
(xw) = -2 x -20 = 40 kolom x en w gebruiken
(yw) = -0.2 x -20 = 4 kolom y en w gebruiken
6
, HC 2: Eigenschappen van tests en items
Psychologische test
Wat is een psychologische test? Cronbach: een psychologische test is een systematische
procedure voor het vergelijken van gedrag van twee of meer mensen
Zo’n procedure kan vele vormen aannemen:
- Multiple choice vaardigheidstest
- Open-ended persoonlijkheidsvragenlijst
- Systematische gedragsobservatie (op een basisschool kijken naar het gedrag van leerlingen)
- Rorschach inktvlekkentest interpretatietest
Er zijn drie cruciale eigenschappen van een psychologische test:
1. Gericht op gedragsmeting observeerbaar
2. Systematisch objectief
3. Vergelijken van verschillende personen of vergelijken van dezelfde personen over tijd
Type tests
In de psychologie wordt er een onderscheid gemaakt tussen prestatieniveau- en gedragswijzetests
(maximum performance test VS typical performance test)
- Prestatieniveautests voor het meten van vaardigheden (tentamen)
- Gedragswijzetests voor het meten van o.a. persoonlijkheidseigenschappen en attitudes
Je zou kunnen zeggen dat zodra een test geen vaardigheden of prestaties meet, het een
gedragswijzetest is
Geven een eerlijk en correct beeld van wat typisch voor jou is
- Grote verschillen voor de aanpak bij de testontwikkeling (type vragen is van een hele andere
kwaliteit), maar nauwelijks verschillen in de statistische analyse van testscores
Twee type tests voor prestatieniveau:
1. Power tests = meten van vaardigheden zonder tijdsdruk meer vaardige personen maken
meer vragen goed
2. Speed tests = meten prestaties onder zware tijdsdruk vragen zijn van triviale moeilijkheid
(zijn niet lastig) meer vaardige personen beantwoorden meer vragen
Voorbeeld speed test Bourdon dot concentration test = je krijgt iedere keer snel een
plaatje te zien en dan moet je z.s.m. aangeven of het vier, of niet vier stippen zijn
waarom zou je zo’n soort test afnemen? het gaat om de snelheid waarmee mensen
informatie verwerken
Als laatste is er nog een onderscheid in niet zozeer de test zelf, maar meer over hoe je
de testscore gebruikt normgerichte VS criteriumgerichte tests
- Normgerichte tests = vergelijken van personen met de rest van de populatie
goede normgegevens over deze populatie zijn van groot belang (persoonlijkheid)
- Criteriumgerichte tests = vergelijken van personen met een absolute standaard het
testcriterium staat van de voren al vast en het testoordeel staat los van prestatieniveau in de
populatie (tentamen testtheorie het maakt niet uit of 40%, 60% of 20% het tentamen
haalt (populatie), de norm is vastgesteld en het gaat niet om het slagingspercentage)
7
,Wat hoort er bij een psychologische test?
- Testmateriaal = een set van stimuli die je aan je PPN aanbiedt
- Testformulieren = instrument om de antwoorden van de PPN op te noteren
- Testhandleiding = iedere test moet een duidelijke testhandleiding hebben 4 criteria:
1. Exacte testinstructie objectief, zodat onderzoekers niet hun eigen invulling geven aan
het onderzoek (achterover leunen VS rechtop zitten bij een IQ test van kinderen heeft al
invloed op de scores)
2. Verwerkingsprocedure = hoe moet je de scores verwerken?
3. Normtabellen heb je nodig om de scores te kunnen interpreteren
4. Bespreking van wetenschappelijke kwaliteiten je moet de achtergrond en het doel
van een test weten
Testscores
Beoordeling = de stap van het omzetten van het antwoord (poes) op een item naar een score (poes =
1 (goed), hond = 0 (fout)) itemscores worden zo bepaald dat ze indicatief zijn voor het te meten
construct hogere itemscore = ‘hoger’ op de eigenschap
Eigenschappen van de testscore:
- Testscore is vaak de optelsom van de itemscores
- Belangrijkste uitkomst van de test die gebruikt wordt
- Testhandleiding geeft instructies over hoe de score geïnterpreteerd moet worden (HC 3)
- Bij normgerichte tests zullen normgegevens geraadpleegd moeten worden
De testscore is een getal de interpretatie van dit getal hangt af van het meetniveau van de testscore:
- Nominaal = benoemde categorieën met een naam (persoonlijkheidstypes)
- Ordinaal = gerangschikte categorieën 1e, 2e, 3e geen gelijke afstanden tussen de rangen
(de 1e in een marathon kan veel eerder binnenlopen, terwijl nummer 2 en 3 bijna tegelijk
binnenlopen)
- Interval = even grote intervallen tussen de waarden, zonder een absoluut nulpunt (21℃ tot
26℃ heeft hetzelfde verschil als van 1℃ tot 6℃)
- Ratio = even grote intervallen tussen de waarden, met een absoluut nulpunt (een afstand
van 0 betekent dat je niet verplaatst bent)
Scores zijn alleen van interval (of ratio) meetniveau als ze kwantitatief zijn = een toename van één
punt moet altijd dezelfde toename in de te meten eigenschap weerspiegelen
- Stel persoon A, B en C hebben een introversiescore van 10, 20 en 30 het scoreverschil
tussen A en B en tussen B en C is even groot, maar de werkelijke uiting van introversie kan
tussen de PPN totaal anders zijn het is verre van vanzelfsprekend dat de verschillen in
introversie ook even groot zijn
Formeel gezegd zijn er geen testen van een intervalmeetniveau
- Testscores zijn de optelsom van itemscores
- Itemscores zijn dus duidelijk ordinaal
- Testscores zijn daarmee formeel ook ordinaal (n.a.v. het voorbeeld hierboven)
- Maar voor praktisch/statistisch gebruik doen we vaak alsof de testscore van interval
meetniveau is alleen goed te verdedigen voor lange tests met een grote range aan scores
8
, Spreiding testscores
Spreiding als wenselijke eigenschap
- Testscores moeten verschillen tussen mensen blootleggen kan dus alleen als mensen
verschillen in hun testscores
- Hoge mate van variatie in testscores is wenselijk
- Omdat de testscore is opgebouwd uit de itemscores:
Hoge variantie op de itemscores ook wenselijk iedere vraag die je stelt moet een
vraag zijn waarop je verwacht dat mensen onderling verschillende antwoorden geven
Hoge covariantie tussen de itemscores wenselijk (covariantie is de mate waarin
verschillende itemscores met elkaar samenhangen vragen horen hetzelfde te meten
als je ‘ja’ zegt op de ene vraag, is de verwachting dat je ook ‘ja’ zegt op de andere
vraag
Uitbreiding met een voorbeeld van wat hierboven uitgelegd staat de testscore X is opgebouwd uit de
itemscores van een test met twee vragen: X1 en X2 X = X1 + X2
2
Wat beïnvloedt de testscore-variantie S X ? (formule)
- Uitleg de itemscore-variantie van X1 telt positief mee, de
itemscore-variantie van X2 telt positief mee en de correlatie
tussen de itemscores (covariantie) telt ook positief mee
- De tweede formule (onderste) is een versimpelde formule van die erboven om het te
verduidelijken kan je het ook in een matrix zetten
2
Variantie = diagonaal ( X 1 x X 1 = S X ) 1
Covariantie = buiten de diagonaal ( X 1 x X 2 = S X X )
1 2
2 2
Je ziet dus 1x S X , 1x S X en 2x S X X precies de versimpelde formule
1 2 1 2
Doordat het de testscore bestaat uit twee vragen (X1 en X2), krijg je
een 2 x 2 tabel. Wanneer er drie vragen zijn krijg je een 3 x 3 tabel
enz. de formule blijft hetzelfde, het blijft de optelsom van alle
waarden in de matrix, de formule wordt alleen langer
Testscore-variantie gaat omhoog als itemscore-variantie ook toeneemt
Goede samenhang tussen items is dus ook belangrijk:
- Sommige mensen score hoog op vrijwel alle items
- Sommige mensen scoren laag op vrijwel alle items
Daardoor is er dus meer spreiding op de testscore
Multiple-choice items
Multiple choice vragen worden dichotoom gescoord goed = 1, fout = 0
- p-waarde van een item geeft de proportie correct aan = de proportie van de mensen die het
goed gemaakt hebben dezelfde term als bij significantietesten, maar hier andere betekenis!!!
p = gemiddelde itemscore (als 30% een 1 scoort (goed) en 70% een 0 (fout), dan is het
gemiddelde 0.30 en dat matcht precies met de ‘proportie correct’)
- q=1− p is proportie incorrecte antwoorden op het item
- Idealiter p=q=0.5 ,want dan is er een maximale itemscore-variantie
Welke staat hoort niet tot de VS?
A. New Mexico
B. Washington
C. Ontario (goed)
D. Kentucky
Item-respons is de selectie uit A, B, C en D
9