Hoorcollege 1: Testen en Meten
Hoofstuk 1
Werkgeheugen is onderdeel van de WISC.
Why Psychological Testing Matters to You
- Je moet op WO-niveau testen kunnen begrijpen, en het correct gebruik maken
van testinformatie
➢ is het zinvol om een bepaalde test bij kleuters af te nemen?
➢ Hoe betrouwbaar is de test die een GGZ-instelling gebruikt om zelfredzaamheid
te meten?
➢ Hoe valide is de test om autisme te meten?
Observable Behavior and Unobservable Attributes
- Werkgeheugen een cognitief systeem met een gelimiteerde capaciteit dat informatie
tijdelijk kan onthouden.
- Werkgeheugen is geen observeerbaar construct.
➢ Niet-observeerbaar construct, latente trek, hypothetische construct.
➢ Wilt zeggen: je kan niet aan iemand zien wat het niveau van het werkgeheugen
is.
- Alle constructen (OM) zijn bijna altijd latent.
➢ Zelfredzaamheid, depressie, leervermogen, etc.
Wat je wel kan observeren is:
- Hoeveel cijfers kan iemand onthouden? (digit-spawn)
- Hoeveel goede rekensommen bij een toets? (reading-spawn)
➢ Reading-spawn en digit-spawn, iemand zijn werkgeheugen bepaald hoeveel
letters/cijfers iemand kan onthouden.
➢ Maar aantal goede rekensommen minder plausibel gelinkt aan het
werkgeheugen. Meer rekenvaardigheid.
Nomologisch netwerk:
- Theorie weergeven hoe latente constructen gerelateerd zijn aan elkaar.
➢ Beschreven hoe ze gerelateerd zijn aan WEL observeerbare constructen.
- Theorie nodig om hypothetische constructen aan observeerbaar gedrag te
linken.
➢ Werkgeheugen en cijfers kunnen onthouden.
Het lijk plausibel dat digit/reading-spawn door je werkgeheugen komt. Is niet altijd zo.
- Empirisch onderzoek nodig om de validiteit en betrouwbaarheid te bepalen.
➢ Valide: meet een test wat je wilt meten?
➢ Betrouwbaarheid: precisie.
➢ Testen verschillen hierin.
Het idee is dat een test nodig is om iets te zeggen over de niet-observeerbare constructen,
waarin je geïnteresseerd bent.
Volgens Cronbach’s is een test pas een test als..
, - Een systematische procedure for comparing the behavior of two or more people.
➢ Gedragingen: altijd in een test. Reactie van een persoon (VB: bij een BS-toets,
antwoorden op items aantikken, hart pompen voor je bloed, ook ongewild).
➢ Systematic procedure: gedragingen worden systematisch verzameld. (VB: in
een grote zaal een tentamen maken). Het liefst onder dezelfde omstandigheden.
➢ Gedragingen gebruikt om mensen te vergelijken: (VB: Patiënt in een kliniek,
test afgenomen, scores van die patiënt vergeleken worden met populatie, om een
oordeel in te schatten).
Wat is volgens Cronbach een test?:
➢ Tentamen BS.
➢ Leraar die vraagt hoe het gaat (behalve als het systematisch is)
➢ Sollicitatiegesprek (Bias, voorkeur)
➢ Bloeddrukmeting bij één patiënt (definitief, ondanks het bij 1 persoon is,
standaardwaarden hoge/lage bloeddruk).
➢ SPSS-opdracht van T&M (ondanks de verschillende opdrachten, deadline)
➢ Doorstroomtoets basisonderwijs
Niet alle tests hebben dezelfde kwaliteit!
➢ Kan je niet van de buitenkant zien.
Testen & Meten: Inleiding in kwaliteitskenmerken van tests.
Belangrijk onderscheid in tests: norm & criterion referenced.
- Norm referenced:
➢ Score van de respondent wordt geïnterpreteerd t.o.v. de scores van andere
respondenten.
➢ Geen vastgestelde criteria.
- Criterion referenced:
➢ Score van de respondent wordt geïnterpreteerd a.h.v. vaste criteriumscores,
onafhankelijk van de scores van anderen.
Voorbeeld van een test die norm referenced is:
- Tentamen BS
➢ Criterion, maakt niet uit naar hoeveel studenten welke score hebben gehaald,
maar grade systeem ‘’wat kunnen eerstejaars studenten?’’, daarvan wel systeem
bedacht. Achter elke criterion based test, spelen de normen een rol.
- Cito eindtoets basisonderwijs (idem)
- Beck’s Depression Inventory
➢ Er wordt gekeken naar wat jouw positie is, en vergeleken met andere
respondenten.
Bij de sociale wetenschappen geen een, echte harde criteria. Norm speelt ergens altijd een
rol.
,Type of tests: Speeded test versus Power tests
Speeded tests:
- Dit zijn tests met een beperkte tijd. Deelnemers worden niet
verwacht de hele test binnen de toegewezen tijd te voltooien.
Scores worden bepaald door het aantal vragen dat binnen de
vastgestelde tijd is beantwoord. De veronderstelling is dat er
een hoge waarschijnlijkheid is dat elke vraag correct wordt
beantwoord, en de vragen op deze test moeten qua
moeilijkheidsgraad vergelijkbaar zijn.
Power tests:
- In tegenstelling tot speeded tests hebben power tests geen tijdslimiet. Deelnemers
worden verwacht alle vragen te beantwoorden. Vaak worden power tests ook
gescoord door het aantal correcte antwoorden te tellen. Voor effectieve
onderscheiding tussen mensen met betrekking tot de psychologische eigenschap van
interesse moeten testitems variëren in moeilijkheidsgraad.
Scoringsmethoden:
- Er worden verschillende methoden gebruikt om de kwaliteit van speeded en power
tests te beoordelen, vergelijkbaar met de methoden die worden gebruikt bij het
onderscheiden tussen criterion-referenced tests en norm-referenced tests.
Belangrijk om te begrijpen voor een tentamen is dat speeded tests tijdsbeperkt zijn, gericht
op het beantwoorden van zoveel mogelijk vragen binnen een bepaalde tijd, terwijl power
tests geen tijdslimiet hebben en alle vragen moeten worden beantwoord voor een goede
evaluatie.
Psychometrics (boek)
Overzicht van Psychometrie:
- Psychometrie is de wetenschap die de eigenschappen van psychologische tests
evalueert.
- Drie belangrijke eigenschappen van interesse: het type informatie gegenereerd
door tests, betrouwbaarheid van testgegevens en kwesties van validiteit.
- Psychometrie richt zich op theoretische eigenschappen van psychologische tests,
zoals betrouwbaarheid en validiteit.
- Het gaat om het schatten en evalueren van deze niet-waarneembare eigenschappen
met specifieke procedures.
Beknopte Geschiedenis van Psychometrie:
- Psychometrie heeft twee belangrijke fundamenten: de praktijk van psychologisch
testen en de ontwikkeling van statistische concepten.
, - Psychologisch testen heeft een lange geschiedenis, met wortels die teruggaan tot
duizenden jaren in China.
- De 19e eeuw zag een toename in psychologische metingen, vooral met de opkomst
van psychologische wetenschap.
- Psychometrie ontwikkelde als reactie op de wens om hoogwaardige tests te creëren
en bestaande te verbeteren.
- Statistische concepten en procedures, zoals de standaarddeviatie,
correlatiecoëfficiënt, factoranalyse en normale verdeling, speelden een cruciale rol in
psychometrie.
- Klassieke testtheorie (KTT) en generaliseerbaarheidstheorie (ontwikkeld door Lee
Cronbach) waren fundamentele perspectieven bij het begrijpen van testscores en
eigenschappen.
- Item response theory (IRT) ontstond in de jaren 1950 als een alternatief voor KTT,
met de nadruk op individuele items binnen een test.
- Testvaliditeit onderging aanzienlijke ontwikkeling in de jaren 1950 en 1960, met
verdere conceptuele uitwerkingen in de jaren 1990.
Conclusie:
- Psychometrie is een relatief jonge wetenschappelijke discipline die snel is
geëvolueerd en breed is toegepast.
- De focus van het boek verschuift van historische aspecten naar hedendaagse
concepten, tools en praktijken in psychometrie.
Uitdagingen bij het meten in de psychologie (en IPW, IOW). (boek)
Participant reactivity:
Participant reactivity (deelnemersreactiviteit) vormt een uitdagend aspect in psychologisch
onderzoek. Omdat kenmerken van bewuste individuen worden gemeten, kan het proces van
meten zelf invloed uitoefenen op de toestand die gemeten wordt.
- Voorbeeld: bij het beoordelen van racisme met een vragenlijst, durven mensen hun
ware aard niet te zien, om niet als racistisch beschouwd te worden. Hierdoor wordt
hun gedrag vertroebeld.
➢ Dit geldt niet voor metingen bij onbeweeglijke objecten, aangezien zij niet weten
dat ze worden gemeten. In ons werkveld gebeurd dit nauwelijks.
Er zijn verschillende vormen van deelnemersreactiviteit.
- Demand charecteristics: (vertaald: vraagkenmerken)
➢ Deelnemers proberen hier het doel van het onderzoek te achterhalen en hun
gedrag aan te passen om de onderzoeker tegemoet te komen.
- Social desirability: (vertaald: sociale wenselijkheid)
➢ Deelnemers voelen zich angstig en veranderen hun gedrag om indruk te maken
op de persoon die de meting uitvoert.
, ➢ Als deelnemers hun gedrag aanpassen voor een negatieve indruk, noem je dit
malingering (simulatie van slechte prestaties).
In elk geval wordt de geldigheid en betekenis van de meting aangetatst, door vertroebeling
van de ‘’ware psychologische kenmerk’’, of tijdelijke motivatie tijdens de meettoestand.
Observer bias
In de gedragswetenschappen kunnen mensen die gegevens verzamelen (gedrag
observeren, tests scoren, verbale reacties interpreteren) hun eigen vooroordelen en
verwachtingen meebrengen, wat de kwaliteit van de metingen kan aantasten.
Deze beïnvloeding is moeilijk te detecteren en zelfs subtiele, onbedoelde vooroordelen
kunnen effect hebben. Dit kan uiteindelijk invloed hebben op de testprocedures.
Waarnemings- of scorebias is minder waarschijnlijk in de natuurwetenschappen.
Waarom is score sensitiviteit belangrijk?
Sensitiviteit verwijst naar het vermogen van een meting om onderscheid te maken tussen
betekenisvolle hoeveelheden van de gemeten dimensie. Het vergelijkt dit met een voorbeeld
waarin het meten van de breedte van een haar met een standaard meetlat onpraktisch is,
vanwege de te grote meeteenheden.
In psychologische metingen kan een procedure mogelijk niet gevoelig genoeg zijn om maar
belangrijke verschillen in een psychologische eigenschap of proces te detecteren.
Voorbeeld: een klinisch psycholoog die emotionele veranderingen van haar cliënten wil
volgen, kan een maatregel kiezen die niet voldoende gevoelig (sensitief) is om kleine
verschillen op te merken. Dit leidt tot het missen van subtiele, maar relevante veranderingen
in stemming.
Een te grove of ongevoelige schaal kan de voortgang verkeerd weergeven, door beperkte
responsmogelijkheden
Voor psychologen wordt het probleem van gevoeligheid verergerd doordat ze mogelijk niet
de omvang van betekenisvolle verschillen in mentale eigenschappen kunnen anticiperen. In
tegenstelling tot fysieke wetenschappers zijn sociale wetenschappers zich mogelijk niet
bewust van dit schaalgevoeligheidsprobleem, zelfs nadat ze metingen hebben verzameld.