Aantekeningen Testtheorie
Hoorcollege 1: Testen en tests 14-4-2021
Globale inhoud vak
Wat zijn testen? Bouwstenen?
Waarvoor?
Hoe kan je de kwaliteit bepalen van test/meting?
Richtlijnen voor constructie?
Theoretische opvattingen?
In welke situaties is testen zinvol?
Onderwerpen van college 1
Historische ontwikkeling van het testen (H1)
Test: definitie, kenmerken, toepassingen (H2)
Test: indelingen, onderscheidingen en begrippen (H3)
Leerdoelen college 1
Student is in staat om ..
o Uit te leggen (te herkennen) hoe het gebruik van tests zich in de loop der jaren heeft
ontwikkeld.
o De definitie en kenmerken van een test te benoemen en herkennen.
o Testen in te delen en te vergelijken op basis van indelingen naar testgedrag.
Testen
Meten van eigenschappen van mensen
Tests, proeven, vragenlijsten
Verschillende vormen en afnames
Wetenschappelijke benadering
Nut van testen
Maatschappelijk
o Diagnose stoornissen, leer/onderwijsproblemen
Voorbeeld klaspraktijk
Freek uit groep 3 lijkt niet zo goed mee te kunnen met lezen. Zijn leerkracht heeft al
van alles geprobeerd. Niets lijkt te helpen. Wat is er aan de hand? Lage
intelligentie? Dyslexie?
o Counseling
Bv. beroepskeuzetest
o Schoolvorderingen
Bv. Cito-LOVS (cito volgsysteem, om het half jaar testen op de basisschool om
zicht te krijgen op ontwikkeling)
Voorspellen, plaatsing, toelating en selectie
o Voorspellen: hoe gaat het verder met dit kind
o Plaatsing, toelating en selectie voor volgende vormen van onderwijs
Bv. Cito-eindtoets
Bv. centrale examens vo
Onderzoek
Vergelijking tussen groepen
o Is er een verschil tussen jongens en meisjes wat faalangst betreft?
Relatie tussen variabelen
o Is er een verband tussen de mate waarin leerkrachten zich persoonlijk verantwoordelijk
voelen voor hun onderwijs en de mate waarin ze in hun klas de focus leggen op leren of op
presteren?
,Testconstructie en kwaliteitsbepaling
Wat willen we meten en waarom?
o (construct - bv. motivatie, intelligentie, ordelijkheid, schoolprestaties, enz.; doel ….)
o Waarom: selecteren, inzicht in kind, diagnose, wetenschappelijk onderzoek
Hoe kunnen we dit operationaliseren in vragen, opgaven, uitspraken?
Wat is de relatie tussen de delen (de vragen/items) en het geheel?
Kwaliteit (doel, construct, betrouwbare meting)
o Kwaliteit van de toets hangt af van het doel van de toets, het begrip dat je in kaart
probeert te brengen en de betrouwbaarheid (krijg je twee keer dezelfde uitslag als je
twee keer hetzelfde kind test)
Historie Testtheorie in 4 perioden
1. Periode tot Binet-Simon-test
2. Binet-Simon-test – WO 1
3. WO 1 – WO 2
4. Begin WO 2 - heden
Periode tot Binet-Simon-test
Psychiatrie
o Testen werden alleen gebruikt in de psychiatrie (bv. zwakzinnigheid)
o Psychiaters wilden duidelijk maken dat het niet ging om slechte mensen maar mensen
met een psychiatrische afwijking, dit had ook invloed op de behandeling
Experimentele psychologie (Wundt)
o Door experimenten eigenschappen van mensen in kaart proberen te brengen
o Niet iedereen reageerde hetzelfde op de tests, waardoor de testen niet betrouwbaar
waren verschillen tussen mensen werden gezien als ruis die het moeilijk maakten om
eigenschappen in kaart te brengen
Genetica (Galton)
o Individuele verschillen
Verschillen tussen mensen zijn geen ruis of verstoringen, maar interessante
individuele verschillen
o Systematisering van technieken (generalisatie conclusies)
Om individuele verschillen in kaart te brengen, testen moeten gesystematiseerd
afgenomen worden om conclusies te kunnen generaliseren
o Afwijkingen van het gemiddelde (statistische testen)
Toeval uitsluiten van systematische verschillen
o Tegelijkertijd met Galton komt ook Pearson op, die wilde weten of twee eigenschappen
samenhangen (correlatie)
Aanloop tot ontwikkeling testtheorie, weinig complexe vaardigheden
Alfred Binet – Tot Wo 1
Binet – Simon (1904):
o Vraag om test om bij kinderen die het niet goed deden op school te onderzoeken of het
een gebrek aan vermogen of een gebrek aan inspanning was (kan het kind niet of wil het
kind niet?)
Test om intellectuele vermogens van kinderen te onderzoeken
o Complexe opgaven
o Via empirisch onderzoek moeilijkheidsgraad
Patronen in antwoorden op vragen, sommige vragen waren moeilijker dan
andere
Onderscheid tussen kinderen die wel en niet de moeilijke opgaven
konden
o Werken met een totaalscore, begrip mentale leeftijd
Stern: mentale leeftijd vergelijken met kalender leeftijd
, o Iemand kan voorlijk of achterlijk zijn (geestelijk ouder/jonger dan lichamelijke leeftijd)
Terman: Stanford-Binet
o Formuleren van standaardinstructies
Hoeveel tijd, testsituatie, rol van testleider, scores
o Normen gebaseerd op representatieve steekproef
Op basis van representatieve steekproef een normale verdeling, op basis
daarvan normen (wanneer scoor je wel en niet goed)
o (mentale lft / kalender lft) x 100 = IQ
Alleen individu
o Deze onderzoekers waren met name geïnteresseerd in het individu
Geen valideringsonderzoek
o Samenhang tests met latere prestaties
o Selecteren/wegen nog niet van toepassing
WO 1 – WO 2
Door nood aan selectie van personeel voor leger WO testen in stroomversnelling
o Snel testen om te weten voor welke positie in het leger iemand geschikt is op basis van
cognitieve capaciteiten
Na WO 1:
o Europa: individuele diagnostiek, later ook collectief
o VS: collectief testen, migrantenprobleem niet-verbale testen
Veel mensen kunnen geen testen doen waarbij veel taal wordt gebruikt, daarom
ook niet-verbale testen (zoals ruimtelijk inzicht)
o Engeland: tussenpositie, aandacht voor objectief evalueren van schoolprestaties
(Multiple Choice test)
Gebruik test ging voor theorie
o Ging meer om praktisch gebruik dan wetenschappelijk nut van tests
Thurstone (1931):
o Focus op betrouwbaarheid en criteriumvaliditeit test gedrag buiten de testsituatie
voorspellen
Op zoek naar generalisatie en voorspellen met de test
o Factoranalyse (verderop in de cursus)
Dimensionaliteit van begrippen onderzoeken (bv. gekristalliseerde vs. fluïde
intelligentie)
Begin WO 2 – heden
Het aantal testen nam toe, aandacht voor methodologie
o Betrouwbaar meten van eigenschappen
Educational Testing Service (Amerika) – 1947
o Evalueren van het onderwijs – onderwijskundig meten
Vorderingen van leerlingen in het onderwijs in kaart brengen
o Fundamenteel psychometrisch onderzoek
Waarom brengen sommige testen eigenschappen beter in kaart dan andere?
Misschien andere theorieën/modellen aan de basis
NIP stelt COTAN in – 1959
o NIP: Nederlands Instituut voor Psychologen
o COTAN: Commissie Testaangelegenheid Nederland
Keurmerkinstituut, de commissie bepaalt of de test voldoet en als de test het
keurmerk niet krijgt, mag de test niet afgenomen worden
o Kijkt of tests voor onderwijspraktijk voldoen aan betrouwbaarheid, validiteit en
onderwijskundige achtergrond
Cito – 1968
o Schoolvorderingen in kaart brengen
Introductie computer en adaptief toetsen
, o Testen afnemen met computer
o Adaptief toetsen: niet ieder kind maakt dezelfde toets
Ieder kind begint met dezelfde opgaven, naar aanleiding daarvan maken
kinderen moeilijkere testopgaven of makkelijkere testopgaven
Definitie van het begrip ‘Test’ korte versie
“Een systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of
opgaven, met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in
vergelijking met anderen”
Kenmerken test
1. Efficiëntie
2. Standaardisatie
3. Normering (verderop in de cursus – het kunnen vergelijken van de geteste persoon met relevante
anderen)
4. Objectiviteit
a. Resultaat van het onderzoek is onafhankelijk van degene die de gegevens verzamelt of
uitwerkt
5. Betrouwbaarheid (HC 3)
6. Validiteit (HC 4)
Objectiviteit
Schalen
Nominaal: ongeordend categorieën. Bv. Man/vrouw.
Ordinaal: Geordende categorieën, maar ongelijke afstanden. Bv. Mild, matig, ernstig.
Interval: Geordende categorieën, gelijke afstanden. Graden celsius. Bij > 3 categorieën van een
ordinale schaal wordt het vaak als interval benaderd.
2 beoordelaars, 20 patiënten, 2 categorieën (wel ADHD, geen ADHD).
Nominale schaal: kappa (κ )
Kappa bestaat uit
o Een proportie geobserveerde overeenstemming Po en
o Een proportie verwachtte overeenstemming Pe