College 1. Wat is testtheorie? College 2 Testitems genereren en analyser
Diverse varianten van items worden onderscheiden naar
Indeling van test Twee fasen waarin empirisch onderzoek
Van de respondent gevraagde activiteit:
1.Prestatieniveau wordt gedaan naar de kwaliteit van items
6 kenmerken waarop een Theoretische opdrachten: rekenopdrachten
2.Gedragswijze 1. Het voooronderonderzoek
goede test moet voldoen Stellingen
2. Het hoofdonderzoek
Vragen
1. Efficientie Praktijkproeven: leiden discussie, regelen treinverkeerk-
2. Standaardisatie Diverse andere: projectietest etc
Kwaliteit van itemsbeoordelen
3. Normering De vorm waarin het antwoord gegeven wordt:
frequentievredeling vaan de reacties
4. Objectiviteit Open vragen
op dit item.
5. Betrouwbaarheid Gesloten vragen
P-waarde: item populariteit
6. Validiteit De uiterlijke verschijningsvorm van het item
a-waarde: kwaliteitsbeoordeling
Meerkeuzevragen voor meting van het prestatieniveau
- Kiezen: Incorrecte antwoordsvorm, meest/minstantwoorden
/verschillende-antwoordsvormen/complexe vormen Gecorrigeerde totaalscore --> correctie voor gissen
Ratingscale voor de meting van gedragswijze
Toeschrijving (matching)
niet beantwoorde
4. Objectiviteit Ontwikkelen items
Kappa bestaat uit een proportie
6 eisen voor goed testitem
geobserveerde overeenstemming 𝑃 (de
1. Relevantie
mate waarin mensen 𝑜 het met elkaar eens
2. Objectiviteit X= aantal goed
zijn) en een proportie verwachtte
3. Specificiteit k = aantal vragen
overeenstemming 𝑃 𝑒
4. Efficiëntie A= antwoord opties
(toevalsovereenstemming, dit wordt in het
5. Moeilijkheid Xf= aantal fout
boek aangegeven met 𝑃 ).
6. Discriminatie
Het meten van gedragswijzen vier specifieke 4 kritische kanttekeningen voor de correctieformules:
Herhaling 4 bekende meetniveaus problemen: 1. Niet reeële veronderstelling dat er een onderscheid b
› Nominaal: ongeordend categorieën. Bv. 1. Moeite te generaliseren: wat is de Voorbij gaan van mogelijkheid van partiële kennis.
Man/vrouw. overeenkomst tussen het testgedrag en het genoeg zekerheid het goede antwoord te geven. Doo
› Ordinaal: Geordende categorieën, maar gedrag in het dagelijks leven? gokkans groter of kleiner zijn dan de theoretische bli
ongelijke afstanden. Bv. Mild, matig, ernstig. 2. Prestatietests --> objectief criterium 2. Fout antwoord kunnen gevnn op verkeerd inzicht of
› Interval: Geordende categorieën, gelijke waarmee de testprestaties kunnen worden 3. Een derde bezwaar is dat de voor toeval gecorrigeerd
afstanden. Graden Celsius. Bij > 3 vergeleken. in het (spreiding) hebben dan de ongecorrigeerde testscore
categorieën Persoonlijkheidsonderzoek --> daarentegen hebben op andere berekeningen,
van een ordinale schaal wordt het vaak als zijn er weinig objectieve gegevens die als 4. Doordat er gegist wordt komen er teveel mensen bo
interval benaderd (maar dat is niet altijd criterium kunnen dienen en is men meestal
terecht!) aangewezen op een Indien men ontevreden is over betrouwbaarheid en va
›Ratio: eenheden waarmee afstanden beoordelingsprocedure. --> weinig
weging de volgende:
kunnen weergeven maar nulpunt is objectiviteit en betrouwbaarheid.
1. Meer items in de test opnemen --> betrouwbaarheid
absoluut 3. Persoonlijkheidstrekken zijn in vergelijking
2. Beter nadenken over de inhud van de items --> validi
met capaciteiten vaak minder stabiel,
minder goed te generaliseren over
situaties en minder gelijkmatig van
invloed op gedrag, het onderzoek van de
persoonlijkheid is echter psychologisch en
praktisch wel degelijk van groot belang.
4. Vaak is het resultaat van metingen van
gedragswijze zelf te beïnvloeden.
College 3: Betrouwbaarheid College 4: Validiteit (Mokkenschaal analyse)
In de klassieke testtheorie wordt Betrouwbaarheid als proportie -->
iemands in een specifieke testsessie De betrouwbaarheid van de testscore gemeten in een Er bestaan geen testen die wel valide en niet betrouwbaar
geobserveerde testscore opgesplitst in populatie van personen (aangeduid met 𝑟 ) wordt gedefinieerd zijn. Betrouwbaarheid is een noodzakelijke maar niet
een constant of systematisch deel en een als de verhouding van de varianties van betrouwbare score en voldoende voorwaarde voor validiteit. Dit houdt in dat
toevallig of niet-systematisch deel: geobserveerde score: voor een goede validiteit een hoge betrouwbaarheid
nodig is maar, omgekeerd, dat een betrouwbare test niet
per se ook valide is. Bij betrouwbaarheid gaat het om de
vraag in hoeverre een testscore herhaalbaar is onder
gelijkblijvende condities. Een test is valide als hij aan zijn
doel beantwoordt. Een van de doelen van iedere test is
dat hij een bepaalde psychologische eigenschap correct
S2(T) =de variantie van de betrouwbare score representeert, dus in overeenstemming is met de theorie
S2(X) =de variantie van de geobserveerde score over deze eigenschap.
Je kijkt naar de variantie van de betrouwbare scores en deze Begripsvaliditeit
deel je door de variantie van de geobserveerde scores en dat Voor begripsvalidering gaat meestal een proces
zegt dan iets over de proportie van de mate van verschillen betekenisanalyse vooraf.
Definitie van betrouwbaarheid: mate van herhaalbaarheid
van metingen. Een hoge betrouwbaarheid betekent weinig die je ziet in de geobserveerde scores die je kan toeschrijven
Validiteit wordt gekoppeld aan het doel van testen: Theorie vinden of opstellen die gedrag kan verklaren -->
variantie in testscores. Weinig meetfouten. Populatie aan echte verschillen.
Op basis hiervan onderscheiden we 2 mogelijkheden hypothetisch --> om de theorie te bevstigen (proces
afhankelijk meten 1. De test als voorspeller van gedrag
Als je iets over groepen wilt zeggen, moet de betrouwbaarheid begripsvalidering) dient een concrete voorspelling te
2. De test als operationalisering van een psychologisch begrip worden geformuleerd. --> toesting van de voorspelling
De betrouwbare score is de gemiddelde score van een minstens 0.7 zijn. De betrouwbaarheid moet minstens 0.9 zijn,
wil je iets over een individu zeggen. positief resultaat? --> versterking theorie.
persoon over een groot aantal onafhankelijke afnames (ruis De test als voorspeller van ander gedrag kunnen we koppelen aan de Het gaat in de betekenisanalyse dus om het vinden van
= waar de score afwijkt van het gemiddelde, dit is toevallig). predictieve validiteit: in hoeverre maakt de test daadwerkelijk een
Betrouwbaarheid als correlatie een theorie of een theoretisch begrip als verklaring voor
De betrouwbaarheid kan dus gedefinieerd worden als de correlatie (r) tussen juiste voorspelling mogelijk? het testgedrag, terwijl het bij begripsvalidering gaat om het
Uit de definities van betrouwbare scores en meetfout zijn 2 twee parallelle testscores (X en X’). empirisch bevestigen van deze verklaring.
eigenschappen af te leiden: Het operationaliseren van een psychologische begrip kunnen we
1. Het gemiddelde. De gemiddelde meetfout is gelijk aan 0 Standaardmeetfout: koppelen aan begripsvaliditeit: in hoeverre dekt de test het Trekvalidering: In hoeverre kan testgedrag verklaard
2. De standaarddeviatie. De standaarddeviatie staat bekend bedoelde psychologische begrip? worden met behulp van een persoonlijkheidstrek
als standaardmeetfout van persoon i S(E) = meetfout Nomologische validering: Het testgedrag wordt
3. De standaardmeetfout van psychologische metingen is S(X) = standaarddeviatie verklaard uit een psychologische theorie
vaak vrij hoog, doordat psychologische processen niet zo Rxx = Betrouwbaarheid voor verlengen
nauwkeurig beschreven kunnen worden als fysische Soorten validiteit
Trek of nomoligsch netwerk gekozen als potentiele
processen. Correlatie (gestandaardiseerde covariantie) tussen 2 parallelle testscores te De vier belangrijkste soorten validiteit zijn
verklaring van het testgedrag --> begin begripsvalidering.
berekenen: 1. Predicitieve validiteit: wordt vastgesteld door na te gaan in
In deze fase dienen voorspellingen te worden
2 veronderstellingen over meetfouten welke mate de voorspellingen, gedaan op basis van de
geformuleerd om te toetsen of de vermoedens over de
1. De gemiddelde meetfout in een populatie van n testprestatie, worden bevestigd door gegevens of observaties
test juist zijn. De uitkomsten van de empirische toetsing
personen is gelijk aan nul verzameld op een later tijdstip. Deze toepassing komt veel voor,
leveren dan de basis voor de conclusies over de juistheid
2. In een populatie van personen correleren de meetfouten bijvoorbeeld bij schoolkeuze, verdeling van een groep kandidaten
van deze potentiële verklaring.
op een test met geen enkele andere variabele, tenzij ze over verschillende functies of de keuze van een therapie.
er zelf deel van uitmaken. Laat Y een willekeurige 2. Concurrente validiteit: De ‘concurrente validiteit’ wordt
Hierbij staat 𝑆𝑥𝑥′ voor de covariantie van X en X’ . De covariantie is in hoeverre 1. Voorspellingen die dienen om de oorspronkelijke
variabele zijn, waarvan E geen deel uitmaakt, bijvoorbeeld beoordeeld door na te gaan hoezeer de testresultaten
afwijkingsscores (score – gemiddelde) samenhangen. hypothese te bevestigen (= confirmerende validering).
de score op een andere test, die ook aan de corresponderen met gelijktijdig beschikbare criteriumgegevens.
en 𝑆𝑥𝑆𝑥′ voor de standaardafwijking van X vermenigvuldigd met de 2. Voorspellingen die dienen om alternatieve hypothesen
proefpersonen is voorgelegd. Dan zegt de tweede Het verschil met predictieve validiteit ligt uitsluitend in het moment
standaardafwijking van X’. te verwerpen (= discriminante validering).
vooronderstelling dus dat de meetfout op de test nul van verzamelen van de criteriumgegevens
correleert met Y. 3. Inhoudsvaliditeit: wordt een schatting verkregen door te
beoordelen hoezeer de inhoud van de test een geheel van
2 eigenschappen die betrekking hebben op het gemiddelde situaties, kennisinhouden of vaardigheden representeert, waaruit
en de variantie van de geobserveerde score Schatten van betrouwbaarheid: met betrekking tot de onderzochte persoon conclusies moeten
1. Het gemiddelde van de geobserveerde score. 1. Parallelvormmethode: Twee inwisselbare, maar niet identieke tests worden getrokken.
Wanneer we gebruik maken van de eigenschap van voorleggen aan één groep proefpersonen. --> correlatie tussen scores 4. Begripsvaliditeit (construct validity): te onderzoeken welke
meetfouten in een groep van n personen dat hun berekenen om de betrouwbaarheid van de afzonderlijke scores te psychogologische eigenschappen door de test worden gemeten.
gemiddelde gelijk is aan nul zie je dat in de populatie de bepalen. Achteraf de betrouwbaarheid bepalen van een test. Deze eigenschappen betreffen hypothetische begrippen, waarvan
gemiddelde geobserveerde score en de gemiddelde 2. Test-hertestmethode: Dezelfde test met een behoorlijke tussentijd men veronderstelt dat ze gereflecteerd worden in de testprestatie.
betrouwbare score gelijk zijn. tweemaal aan dezelfde groep voorleggen. Correlatie tussen scores is
2. De variantie van de geobserveerde scores gelijk aan betrouwbaarheid en zegt vooral iets over de stabiliteit van de 4 soorten validiteit
de variantie van de geobserveerde score is gelijk aan de som testscores. Geen goede verklaring geven betrouwbaarheid. 1. Synthetische validiteit: De synthetische validiteit richt zich dus
B-waarden: corrrelaties voor dezelfde trekken en dezelfde
van de variantie van de betrouwbare score en de variantie 3. Splitsingsmethode: de betrouwbare test opdelen en samenhang vooral op functie elementen die een component kunnen zijn van
methoden (monotrekmonomethodeoverlap)
van de meetfout. tussen beide bekijken. De Spearman-Brown-formule biedt de verschillende functies, in plaats van op de functie of de taak als
V-waarden: correlaties voor dezelfde trekken maar
mogelijkheid om de betrouwbaarheid van de gehele test via de geheel.
gemeten met verschillende methodes (monotrek-
splitsingsmethode te bepalen. 2. Congruent Validity/Soortgenootvaliditeit: de mate waarin een
heteromethode-overlap)
test correleert met een andere test waarvan wordt aangenomen
M-waarde: de correlaties voor dezelfde methode en
K: factor tussen nieuwe dat die dezelfde eigenschap meet. Onderdeel van begripsvaliditeit.
verschillende trekken
items en de oude. Hoeveel 3. Face validity/Indruksvaliditeit
hoeveel x groter de test is. 4. Incremental validity: betreft de verbetering van de voorspelling
met behulp van een test ten opzichte van voorspellingen die
4. Interne-consistentiemethoden: benadering van betrouwbaarheid kunnen worden gedaan op basis van veelal reeds aanwezige
op basis van één testafname en gelijk aan de gemiddelde informatie. Het gaat hier om de vraag of, gezien een verhoging van
splitsingsbetrouwbaarheid. de validiteit, het gebruik van de test naast de reeds in gebruik
zijnde informatie gerechtvaardigd is.
Cronbachs alfa: benadering van betrouwbaarheid op basis van één
testafname en gelijk aan de gemiddelde splitsingsbetrouwbaarheid.
1. Het aantal items (hoe langer je test, hoe betrouwbaarder je test)
2. De gemiddelde covariantie tussen alle itemparen (in hoeverre de items
samenhangen, het is het gemiddelde! dus een sterke samenhang valt
weg tegen een zwakke samenhang)
3. De variantie van de totaalscore, de totaalscore is een optelsom van de
antwoorden op alle items
Maar beter is:
Lamba 2: samenhang van items in de test, het patroon van samenhang.
de betrouwbaarheid en dus nauwkeurigheid van de meting, maar niets
over de nauwkeurigheid van wat de test meet.
Guttman’s lambda2 ⇒ 𝛼 ≤ 𝜆2 ≤ 𝑟𝑥𝑥 (pakt vaak iets anders/lager uit).
College 5: Item respons theorie (IRT) College 6: Normering
Een goede test is
Efficient Bij normering gaat het om op welke manier je van een ruwe Typen normering Bij plaatsingsbes
gestandaardiseerd score tot een uitspraak en interpretatie kunt komen. Absolute normen (‘criterion-referenced twee factoren:
Genormeerd: absoluut of relatief measurement’); De kans tot he
Objectief Verhoudingsnormen; Bij deze vorm van normen De waardering
De ruwe score heeft op zichzelf meestal weinig betekenis.
Betrouwbaar wordt de ruwe score gedeeld door een andere
Er kunnen de drie soorten bewerkte scores worden
variabele. Dit geeft de vol
Valide geïllustreerd:
Relatieve normen (‘norm-referenced E(rendement) = P(A
De aannames van de klassieke testtheorie zijn moeilijk te controleren
en van sommigen weet je dat ze niet opgaan. Je meet bij de klassieke measurement’)
1. Gebaseerd op een vergelijking met een absolute
testtheorie populatie-afhankelijk: scores die je krijgt in de ene populatie standaard. Hoe goed de prestatie is in vergelijking met
kun je niet gemakkelijk vergelijken met scores in de andere populatie. De percentielscores kun je interpreteren aan de hand
een absolute maatstaf of norm.
De standaardmeetfout is hier gelijk voor alle personen. van een tabel (met verschillende niveaus). In de tabel kun
2. Gebaseerd op een deling door bijvoorbeeld leeftijd of
IRT-modellen (dichotome items) je zien hoe de niveaus zich verhouden tot de
schoolklas.
Bij de item respons theorie geeft het antwoord op een item informatie 1. Model van Guttman interpretaties.
3. Gebaseerd op de relatieve positie in een
over de positie op de latente trek. Hoe meer ‘goede’ items je afneemt, 2. Rash-model: (een parameter): je gebruikt alleen de
referentiegroep.
hoe preciezer je die score kan schatten. Standaardfout is dus niet gelijk deltaparameter en en α wordt op 1 gezet (moeilijk) Nadelen van percentielscores:
over alle personen. De assumpties zijn hier wél goed te controleren en 3. Birnbaum-model (twee parameter logistisch model): je Ze hebben een ordinale schaal