Samenvatting college aantekeningen Testtheorie
College 1
Hoofdstuk 2
Test: Systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen
met als doel inzicht in kenmerken van een individu in vergelijking met anderen.
Psychologische test: meet psychologische eigenschappen, zoals bijvoorbeeld
intelligentie of persoonlijkheid. Psychologische eigenschappen zijn niet direct
waarneembaar of meetbaar. Daarom construeren we indicatoren (items) die gedrag
oproepen dat iets zegt over het te meten construct.
Een test is een hulpmiddel, en je oordeel kun je beter baseren op een combinatie van
verschillende waarnemingen en bijvoorbeeld een test.
Kenmerken goede test:
1. Betrouwbaarheid: een test is betrouwbaar als bij herhaalde metingen ongeveer
dezelfde score behaald wordt.
2. Objectiviteit: een test is objectief als het niet uitmaakt wie de beoordelaar
(proefleider) is. Valkuilen: vooroordelen, eerste indruk, ideaaltype willen vinden
etc. berekenen of beoordelaars objectief waren: spearman’s Rho, Kendall Tau,
cohen’s Kappa (vanaf 0.44 = matig). Formule Kappa:
3. Standaardisatie: de test is gestandaardiseerd als de testprocedure voor alle
respondenten gelijk is (zelfde instructies, tijdslimiet en condities). Beperk
storende omgevingsinvloeden.
4. Validiteit: een test is valide als hij aan zijn doel beantwoordt.
5. Efficiëntie: een test is efficiënt als het gericht is op het meten van het
hypothetisch construct en verder niets.
6. Normering: een test is genormeerd als de testscores van verschillende
respondenten vergelijkbaar zijn door middel van normen. Norm: referentiekader
voor de evaluatie van de ruwe score. Deze is gebaseerd op de kenmerken van de
verdeling van ruwe scores in de populatie. Deze kenmerken worden geschat op
basis van een representatieve steekproef. Normering: noodzakelijk bij
interpretatie en beoordeling van testprestatie, ook bij observatietests en
projectieve technieken!
Oefening Kappa uitrekenen (po -pt/1-pt):
po = 16/20
pt = 10/20 x 10/20 + 10/20 x 10/20 = ½
K = 16/20 – 10/20
----------------
1–½ = 6/20
---------
½ = 12/20 = 6/10 = 0.60.
Testgebruik/mogelijke test-toepassingen:
1. Voorspelling doen
2. Keuze maken
3. Sterkte/zwakte analyse
4. Interne vergelijking (voor en nameting)
5. Beschrijving persoonlijkheid
6. Probleem analyse tbv counseling
Hoofdstuk 3: indeling verschillende testen volgens testgedrag
Prestatieniveau (bijv tentamen): maximale prestatie, totaalscore, intelligentie,
kennis. Vormen en soorten uit tabel kennen voor tentamen!
,Gedragswijze: hoe iemand iets doet, reageert. Persoonlijkheidstrek, voorkeur, attitude.
Problemen met tests voor gedragswijze: testgedrag en gedrag in dagelijks leven
verschilt, geen objectief criterium/beoordeling, persoonlijkheidstrekken zijn minder
stabiel, minder generaliseerbaar en minder gelijkmatig van invloed op gedrag. Vormen
en soorten uit tabel kennen voor tentamen!
Andere testindelingen: indeling naar structuur (instructie en afneming) bijvoorbeeld
individuele/groepstests, snelheid/niveau. Of op basis van testvragen bijvoorbeeld
cultuurvrij/niet cultuurvrij, directe/indirecte tests, vrij antwoord/keuzeantwoord.
College 2
Onderwerpen
Soorten items
Kenmerken van goede items
Kwantificeren van reacties
Kwaliteit van items
Verwerken van testgegevens
, Soorten items:
- Kiezen: vertelplaten, doosje in elkaar zetten (items bij ontwikkelingstest),
eens/oneens
- Rangschikken: 4 of meer termen die je op de goede volgorde moet zetten
- Likert: schaal waarbij je kan kiezen uit oplopende gradatie, niet eens/helemaal
eens
- Toeschrijven: wat hoort bij elkaar. Bij 4 items is kans op goed antwoord: 1/4 x
1/3 x ½ x 1/1 = 1/24
- Meerkeuzenvragen met 2 antwoorden: 2 plaatjes nog invullen.
Volgorde niet belangrijk: je kunt kiezen uit 4 plaatjes. Kansberekening:
2/5 x ¼ = 1/10.
Volgorde wel belangrijk (bijv. welk getal komt logischer wijze hierna): 2
plaatjes nog invullen, je kunt kiezen uit 5 plaatjes. Kansberekening: 1/5 x
¼ = 1/20.
Open vragen nadelen: tijdrovend, respondent moet de vraag goed begrijpen,
uitdrukkingsvaardigheid respondent moet voldoende zijn.
Meerkeuzevragen nadelen: uitvoerig vooronderzoek nodig, respondenten kunnen
antwoord goed raden, testen geen inzicht maar vooral geheugen.
Kenmerken van goede items:
Moeilijkheid/discriminatie: wanneer een item goed onderscheid maakt tussen
goede en slechte leerlingen (mensen die wel goed leren en die niet goed leren)
Objectiviteit: wanneer het goede antwoord van het item door alle deskundigen
wordt gezien als het goede antwoord, meningen mogen er niet over verdeeld zijn
Efficiëntie: het beantwoorden van de vraag kost de respondent een minimum aan
tijd (geen onnodige moeilijke woorden)
Relevantie: vraag moet relevant zijn met betrekking tot wat je wil testen
Specificiteit: een opgave is specifiek wanneer alleen personen die de stof
bestudeerd hebben, in staat zijn om de opgave op te lossen.
Kwantificeren van reacties: Omzetten van reacties op items in getallen (geven de
mate waarin men een bepaalde eigenschap heeft weer). Studietoetsitem: kennisniveau
goed/fout. Attitude-item: niveau van attitude.
Beoordelen van de kwaliteit van items:
Dichotome items (goed of fout)
P-waarde: Proportie van proefpersonen die het goede antwoord heeft gekozen. A-
waarde: proportie van proefpersonen die het foute antwoord hebben gekozen. Een item
is goed wanneer de P-waarde groter is dan de A-waarden los van elkaar en de A-waarden
bij elkaar in de buurt zitten en dus ongeveer gelijk zijn aan elkaar. 1 - P-waarde wordt
ook wel moeilijkheidsgraad genoemd.
Als alle waarden gelijk zijn, zou het kunnen dat iedereen gegokt heeft.
Als de P-waarde heel groot is (0.94 tegenover 0.03), is de vraag misschien
gemakkelijk geweest, deze vraag levert dan eigenlijk niks op, hij is niet
discriminerend genoeg.
Als de A-waarde groter is dan de P-waarde, is de vraag misschien niet juist of is
het een valstrik vraag, of een foutieve codering.
Item-totaalcorrelatie (Rit): correlatie tussen score op 1 bepaald item en de rest van
de items. De bedoeling is dat de correlatie van een item positief is, dat betekent dat het
item iets bijdraagt aan de totaalscore (vanaf een R it tussen de 0.20 en 0.30 is het twijfel,
vanaf 0.30 is het een goed item). Hoe hoger de itemtotaalcorrelatie hoe beter het
item is (bijv. van de 6 leerlingen hebben 3 leerlingen de hoogste score. Op het eerste
item hebben deze 3 leerlingen de vraag fout, en de anderen het juist goed. Dan kun je