H1 Introduction to psychological assessment
Geschiedenis
Gauss 20e eeuw, testen
• 18e/19e eeuw
• Principe van meetfout Binet & Simon
• Specifieke verdelingskenmerken à Gauss-curve, • Binet & Simon scale
normaalverdeling • Intelligentie o.a. aan de hand van redering,
begrip, en STM van een persoon
Kraeplin • Goede voorspeller voor academisch succes
• Gebruik vrije associatietest • In 1e WO een boost in VS omda er gebruik
werd gemaakt van Alfa (verbale) en Beta
Galton (nonverbale) bekwaaheidstaken voor
• Grondlegger mentale tests rekruteren
• Correlatie data sensorische, fysieke en motorische date
met intellectuele aspecten à brass instruments era Woodworth
• Samen met Cattell: eerste gestandaardiseerde • 1918, Personal Data sheet
vragenlijsten voor persoonlijkheid • Eerste formele persoonlijkheidstest
• Wissler: introduceerde tijdperk waarin intellect gezien
werd als geraffineerder mentaal proces van hogere orde Rosarch
• Jaren ‘20, Rosarch inkblok test
Verschil test, measurement, assessment
Wechsler
• Test: middel of procedure waarmee deel van het gedrag • Intelligentietest voor verbale en non-
van een persoon in kaart wordt gebracht, geëvalueerd en verbale intelligentie
gescoord wordt, m.b.v. Gestandaardiseerde procedures • Meest gebruikte intelligentietest
• Measurement: ‘meting’, er wordt aan een aantal regels
gehouden om zo kenmerken, gedrag en attributen van Minnesota Multiphasic Personality Inventory
personen te becijferen. (MMPI) vergemakkelijkt diagnose van
• Assessment: ‘vaststelling’; elke systematische manier psychiatrische stoornissen, nu populairste
waarop informatie wordt verzameld om karakteristieken methode om persoonlijkheid te meten.
van mensen of objecten te kunnen begrijpen. Meerdere
scores en tests worden gebruikt om informatie te
verzamelen
• Testen en meten van personen weergeven
Verschillende soorten tests en scoring
Ingedeeld door Cronbach (1990): Maximale prestatietest en typische responstest.
Maximale prestatietests
• Maximale van persoon te kunnen meten
• Bijv. intelligentietest
• Onderscheid prestatietest en bekwaamheidstest
• Prestatietest: meet kennis van persoon in specifiek domein
• Gekeken naar welke kennis persoon heeft verworven
• Bekwaamheidstest: meet kennis m.b.t. Levenservaring
• Goede voorspellers voor toekomstig succes
• Onderscheid objectieve en subjectieve tests
• Objectieve test: door een computer nagekeken; wordt altijd vastgestelde sleutel gebruikt waardoor
de manier van beoordelen altijd hetzelfde is
• Subjectieve test: moet worden nagekeken door een persoon
• Onderscheid speed of powertest
• Speedtest: relatief makkelijke items, meet de snelheid waarmee een persoon de test doorloopt 1
• Powertest: gaat om de moeilijkheidsgraad van de vragen die de persoon juist beantwoordt. Tijd is niet
van belang hier. Meeste testen zijn echter vaak combinatie van de 2.
,Typische responstests
• Meet typische gedrag van onderzochte, meestal gebruikt om persoonlijkheid te meten
• Objectieve persoonlijkheidstest: items worden op een objectieve manier beoordeeld d.m.v. Vastgestelde
antwoordsleutel
• Over interpretatie antwoord kan niet worden gediscussieerd
• Projectieve persoonlijkheidstest: persoon krijgt onduidelijke stimulus te zien, waarop eerste respons gegeven
moet worden die naar bovenkomt.
• Hypothese: onbewuste driften komen zo naar boven.
• Gebruiken ongestructureerd of ambigu testmateriaal met oneindige mogelijkheid aan reacties.
• Projectieve hypothese: individu reageert op een manier dat zijn/haar onbewust behoeftes en
motieven gereflecteerd worden zonder interferentie van ego of bewuste denken.
Onderscheid gestandaardiseerd/niet- Onderscheid individuele test Scoring
gestandaardiseerd of groepstest
• Normgerichte scores: relatieve
• Gestandaardiseerde test: • Individuele test: interpretatie; scores worden
testcondities zijn zoveel mogelijk ontwikkeld om af te nemen vergeleken met scores van
hetzelfde voor alle personen die bij 1 persoon per keer andere mensen
test ondergaan • Groepstests: kunnen • Criteriumgerichte scores:
• Niet-gestandaardiseerde test: worden afgenomen bij >1 criterium is van tevoren
minder formeel persoon per keer. vastgesteld en staat los van
prestaties van anderen
Aannames
• Psychologische constructen, zoals intelligentie en depressie bestaan
• Psychologische constructen kunnen gemeten worden
• Meten van constructen gebeurt nooit perfect. Altijd een mate van error aanwezig à in elk vakgebied!
• Error is inherent aan alle metingen
• Elk construct kan op verschillende manieren gemeten worden, waarbij elke testmethode voor- en nadelen
heeft.
• Angst kan bijvoorbeeld het best gemeten woorden door combinatie interviews en observaties.
• Belangrijke beslissingen moeten genomen worden op basis van meerdere testen.
• Diagnose moet accuraat vastgesteld worden, mag NOOIT op basis van EEN enkele meting
• Prestatie op tests kan gegeneraliseerd worden naar niet-geteste gedragingen
• Testen, ook al niet perfect, geven nuttige informatie waardoor psychologen betere beslissingen kunnen
maken.
• Testen kunnen op een eerlijke manier afgenomen worden, maar er is niet één test die geheel eerlijk is voor
alle participanten.
• Testen kunnen vooroordelen opleveren voor individuen en de maatschappij.
• Voornaamste reden dat mensen test gebruiken is omdat mensen niet goed zijn in objectief beoordelen van
anderen
Toepassing assessment
• Elk jaar worden ongv. 20.000 nieuwe testen ontwikkeld
• Rekening houden met richtlijnen van The Standard for Educational and Psychological Testing
• Participanten die deelnemen aan een test hebben rechten m.b.t. Vertrouwelijkheid en de informatie
die ze krijgen
• Verschillende toepassingen voor testen
• Diagnosestelling; opstellen behandelplan; zelfreflectie; evaluatie; beslissen en toekennen licentie;
wetenschappelijke doeleinden
• Computerized Adaptive Testing (CAT): computer selecteert items met bepaalde moeilijkheidsgraad voor
participant; worden geselecteerd op basis van presttatie participant op eerdere items.
,H4 Reliability
Klassieke testtheorie
Betrouwbaarheid Wat is de klassieke testtheorie?
• Consistentie of stabiliteit van meetresultaten • CTT ofwel true score theory helpt
• Karakteristiek van scores, niet van de test zelf willekeurige meetfouten te begrijpen en
• Factoren van invloed betrouwbaarheid van testscores te
• Tijd waarop de test wordt afgenomen berekenen
• Persoon die test afneemt • A.d.h.v. CTT wordt elke score op een mentale
• Externe gebeurtenissen test in twee delen opgesplitst
• Ware score
Principes • Error score
1. Gemiddelde van meetfouten in een populatie is nul Xi = T + E
• aangezien meetfouten of positief of negatief
kunnen zijn wordt dit in hele populatie Xi = behaalde of geobserveerde score X van
uitgebalanceerd tot 0 een individu i
2. Correlatie ware score en meetfout is nul T = ware score
• Er bestaat een relatie tussen deze twee E = error score (meetfout
scores
3. Correlatie meetfouten op verschillende metingen is
nul
à Meetfout beperkt mate waarin testresultaten
gegeneraliseerd kunnen worden
à Vermindert zekerheid in testscores
Bronnen van invloed op meetfouten in tests
Content sampling error Time sampling error
• Meten vaardigheid: steekrpoef uit alle mogelijke vragen om • Sprake van willekeurige fluctuatie in
de vaardigheid te meten testprestatie tussen ene situatie en
• Content sampling error; mate van error tussen steekproef andere situatie
van items en alle mogelijke items • Generaliseren van testscores
• Deze error is typisch de grootste bron van error in testscores naar andere situaties is zeer
• Echter, deze is accuraat in te schatten door analyse in mate beperkt
van gelijkenis tussen items en correlatie van items met het • ‘tijdinstabiel’
te meten construct.
Betrouwbaarheidscoëfficiënten
Betrouwbaarheid Test-hertestbetrouwbaarheid
• Absolute betrouwbaarheid nooit precies • Eenzelfde groep individuen krijgen de test op twee
duidelijk verschillende tijden
• Betrouwbaarheid is altijd een schatting • rXX wordt berekend door correlatie tussen uitkomsten
op twee testen te berekenen
𝝈𝟐𝑻
rXX = • Vooral gevoelig voor meetfouten door time sampling:
𝝈𝟐𝑿
carryover effects van eerste nar tweede test
rXX = • Leereffect
betrouwbaarheidscoëfficiënt • Laat generaliseerbaarheid over tijd zien
𝜎2𝑇 = variantie ware score • Bij het kiezen van geschikt tijdsinterval is manier
𝜎2𝑋 = variantie totale test waarop testscores gebruikt gaan worden van belang 3
• Langetermijn stabiliteit bij ene test minder
belangrijk dan bij andere test
, Alternate-forms betrouwbaarheid Interne consequentheid betrouwbaarheid
• Twee tests worden afgenomen met inhoud en • Internal consistency
moeilijkheidsgraad parallel aan elkaar • Berekend na één testafname
• Beide tests worden bij dezelfde groep individuen • Vooral meetfouten door content sampling
afgenomen • Relatie tussen testitems
• Correlatie tussen scores op beide tests wordt • Split-half relaibility: test wordt in twee delen
berekend gesplitst waarna de scores op de afzonderlijke
• Gebaseerd op gelijktijdige afname: twee tests helften met elkaar worden gecorreleerd
worden afgenomen in eenzelfde situatie (bijv. • Deze correlatie zegt niets over
versie A & B op tentamen) betrouwbaarheid van testscores als de twee
• Gevoelig voor meetfouten van content helften waren gecombineerd
sampling • Spearman Brown formule: gebruikt voor
• Gebaseerd op verlate afname: twee tests worden betrouwbaarheid totale test
in andere situatie afgenomen (bijv. hertentamen) • Kuder-Richardson formule 20 (KR20): wordt
• Gevoelig voor meetfouten zowel content gebruikt bij dichotome items (juist/onjuist).
sampling als time sampling • Coëfficiënt alfa: meet betrouwbaarheid aan de hand
van één testafname en wordt gebruikt bij items met
Interbeoordelaarsbetrouwbaarheid meer dan twee opties
• Ontwikkel door Cronbach in 1951
• Subjectieve beoordeling op een test moet • Veel gebruikt voor internal consistency
overeenkomen tussen verschillende beoordelaars • Gemiddelde alle split-halfcorrelaties
• Correlatie tussen scores wordt berekend die • Ook gemiddelde van alle correlaties van elk
verschillende beoordelaars hebben gegeven item met elk ander item
• Interbeoordelaar overeenstemming/percentage • Elke meetfout die Minteritemcorrelatie naar
overeenstemming: percentage van de keren beneden brengt wordt meegnomen in
waarin twee individuen zelfde score toegewezen berekening α
hebben gekregen • KR20 en α gevoelig voor content sampling error
• Cohen’s kappa: vaker gebruikt dan percentage • Reflecteren ook heterogeniteit van
overeenstemming, neemt aantal testinhoud
overeenstemmingen tussen beoordelaars mee dat
is veroorzaakt door toeval Betrouwbaarheid samengestelde scores
• Voorkeuren en humeur van beoordelaren kunnen
invloed hebben op testscore • Over het algemeen groter dan betrouwbaarheid van
metingen die bijdragen aan samenstelling
Betrouwbaarheid van verschil in scores • Uit hoe meer scores een samenstelling bestaat, hoe
hoger de correlatie tussen die scores
• Verschil score: het verschil tussen twee scores • Hoe hoger individuele betrouwbaarheid, hoe hoger
betrouwbaarheid van samenstelling
D=X–Y
D = verschil score Verbetering betrouwbaarheid
X = score ene test
Y = score andere test
• Items met zelfde kwaliteit als andere items in een
test op te nemen
• Lager dan betrouwbaarheid individuele scores
• Variant op Spearman-Brown formule wordt
• Algemene regel: verschilscore is HOGER als
gebruikt om te voorspellen wat het effect is op de
originele metingen een hoge betrouwbaarheid
betrouwbaarheid van de scores als items worden
hebben, maar een lage onderlinge correlatie
toegevoegd;
Selecteren betrouwbaarheidscoëfficiënt *・+,,
R=
-. */- ・ +,,
• Aard gemeten construct en manier waarop r = betrouwbaarheid na toevoeging nieuwe items
resultaten gebruikt worden à belangrijk in kiezen n = factor waarmee aantal items is toegenoomen
geschikte betrouwbaarheidscoëfficiënt. rXX = betrouwbaarheid originele testscores
4