Testtheorie colleges en aantekeningen
College 1
Boek: inleiding in de theorie van de psychologische test en zijn toepassingen.
Testen
- Meten van eigenschappen van mensen.
- Tests, proeven (rijbewijs), (attitude) vragenlijsten.
- Verschillende vormen en afnames.
- Afgesproken wetenschappelijke regels.
Nut van testen
- Maatschappelijk
o Diagnose stoornissen, leer-/onderwijsproblemen
- Counseling: mensen helpen
- Schoolvordering
o Cito-LOVS
Onderzoek
- Vergelijking tussen groepen
o Is er een verschil tussen jongens en meisjes wat betreft faalangst?
- Relatie tussen variabelen
Testconstructie en kwaliteitsbepaling
- Wat willen we meten en waarom?
o Construct: bijv. motivatie, intelligentie.
- Hoe kunnen we dit operationaliseren in vragen, opgaven, uitspraken?
- Wat is de relatie tussen de delen (de vragen/items) en het geheel?
- Kwaliteit (doel, construct valide, betrouwbare meting?)
Historie testtheorie in 4 perioden
1. Periode tot Binet-Simon-test
Voor die tijd was men met name geïnteresseerd in psychiatrie. In Duitsland was men
onder invloed van Wundt geïnteresseerd in de experimentele psychologie. In Engeland
was Galton geïnteresseerd in genetica. We keken naar de overeenkomsten tussen
mensen, maar niet de verschillen. Hiervoor moet je de technieken systematiseren, zodat
je conclusies kan generaliseren. Dan ga je kijken naar de afwijkingen van het gemiddelde
(statistische verschillen). Dit is allemaal de aanloop tot de ontwikkeling van de
testtheorie met weinig complexe vaardigheden.
2. Alfred Binet tot WOI
Uit opdracht van de overheid ontwikkelde Binet en Simon een test om te kijken naar het
verschil tussen kinderen die niet willen leren en kinderen die niet kunnen leren. Ze
bedachten complexe opgaven, maar gingen deze ook afnemen bij de kinderen om de
moeilijkheidsgraad te achterhalen. Ze gingen een totaalscore van alle opdrachten
analyseren en op basis daarvan een mentale leeftijd vaststellen. Deze werd dan
, vergeleken met de kalenderleeftijd. Terman maakte standaardinstructies, zodat iedereen
onder dezelfde instructies met de test aan de gang ging. Hij bedacht normen gebaseerd
op representatieve steekproef ??. Daarnaast maakte hij de IQ score: (mentale
leeftijd)/(kalender leeftijd) x 100.
Tot de eerste wereldoorlog was het met name gefocust op individuen, maar dit
veranderde. Er was geen sprake van valideringsonderzoek: geen tests met latere
prestaties en selecteren/wegen was nog niet van toepassing.
3. WOI – WOII
In de oorlog was er een enorme drang om mensen te onderscheiden. Ze moesten
mensen selecteren op functies, daarom kwam er een AVA-leger test. De testen gingen in
stroomversnelling omdat er veel behoefte was aan personeel. In Europa was individuele
diagnostiek, later ook collectief. in de VS was er collectief testen, migrantenprobleem.
Dit hield in dat de buitenlanders vaak laag scoorden omdat ze de taal niet kennen.
Engeland zat in een tussenpositie. Daar was veel aandacht voor objectief evalueren van
schoolprestaties (multiple choice test).
Gebruik van test ging voor aan de theorie. Toen kwam Thurstone: hij had een focus op
betrouwbaarheid en criteriumvaliditeit: het testen van gedrag buiten de testsituatie
voorspellen. Factoranalyse ??
4. Begin WOII – heden
Het aantal testen nam toe, aandacht voor methodologie. In Amerika kwam een
Educational Testing Service (Prinseton). Hier was sprake van evalueren van het
onderwijs, ook naar het welzijn van leerlingen en leerkrachten. Zo kwam de term
onderwijskundig meten op. Fundamenteel pscychometrisch onderzoek. Nederlands
Instituut voor Personen (NIP) stelde de COTAN commissie in. Deze commissie bepaalt de
keurmerken voor testen, of ze betrouwbaar en valide zijn. Cito (1968) ??. Daarnaast
kwam de introductie van de computer en adaptief toetsen.
Definitie van het begrip test (korte versie):
- Systematisch onderzoek van gedrag
- Met behulp van speciaal geselecteerde vragen of opgaven
- Met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de
onderzochte
- In vergelijking met anderen.
Kenmerken van een test
- Efficiënt: snelle, goede, betrouwbare en valide inschatting maken van iemands
intelligentie.
- Standaardisatie: iedereen begint op dezelfde manier aan de toets.
- Normering: het kunnen gergelijken van de geteste persoon met een standaardmaat
- Objectiviteit: soms twee mensen vragen om te beoordelen. Soms lastig, vaak zoals
we het volgens toeval benaderen.
Toen kwam Cohen’s kappa
- Een proportie geobserveerde overeenstemming Po (observed)
- Een proportie verwachtte overeenstemming Pe (expected)
Formulie =
-
, - Voorbeeld staat in de ppt.
- In de praktijk zijn we vaak tevreden als twee beoordelaars 0.80 bereiken.
Schaal Aantal beoordelaars
Nominaal 2 = Cohens kappa
> 2 Cohens Kappa*
Ordinaal 2 = Spearmans RC
> 2 Kendall’s W
Interval 2 Pearson correlatie
Betrouwbaarheid
- Kom je tot dezelfde conclusie als je twee keer dezelfde persoon meet met dezelfde
test? --> herhaalbaarheid.
Validiteit
- Meet mijn test wat het beoogt te meten?
- Intelligentie is wat een IQ-test meet (operationalisme). Psychologen zijn het daar niet
mee eens.
Uitgebreide definitie
- Een systematische classificatie (wel of niet ADHD) of meetprocedure
- Waarbij het mogelijk is een uitspraak te doen
- Over één of meer empirisch-theoretisch gefundeerde eigenschappen van de
onderzochte persoon of over specifiek niet-testgedrag. Het gaat ons niet om het
testgedrag maar om het onderliggende construct.
- Door uit te gaan van een objectieve verwerking van reacties van de persoon
- In vergelijking met die van anderen
- Op een aantal gestandaardiseerde, zorgvuldig gekozen stimuli
Indeling naar testgedrag
- Prestatieniveau
o maximale prestatie: Goed/Fout – norm
o totaalscore
o (meestal) intelligentie, cognitieve capaciteiten, capaciteiten van kennis
- Gedragswijze
o Hoe iemand iets doet, welke reactie plaatsvindt
o Persoonlijkheidstrek, voorkeuren, attitudes
Test voor prestatieniveau
Screenshot PPT
Problemen met tests voor gedragswijze
- Overeenkomsten testgedrag en gedrag in het echt.
- Geen objectief criterium, er is sprake van beoordeling.
- Persoonlijkheidstrekken zijn minder stabiel, minder generaliseerbaar en minder
gelijkmatig van invloed op gedrag.
, Andere indelingen
- Individueel v.s groepsgewijze afname
- Snelheid en/of niveau (DMT)
- Soorten vragen
o Cultuurvrij v.s niet cultuurvrij (SON-R: test voor dove/doofstomme kinderen)