College aantekeningen Testtheorie ‘22
HC1: H1 (History) &H2 (Definition & characteristics)
Hoofdstuk 1: History from testing
In de geschiedenis van testen onderscheiden we 4 perioden:
1. Before Binet-Simon-test
2. From Binet-Simon-test to WW1
3. WW1 to WW2
4. Beginning from WW2 to today
Before Binet Simon-test
• Testen werden vooral in de psychiatrie gebruikt, mentale ziekte/stoornis opsporen
• Is geëvalueerd in experimentele psychologie (Wundt – Cattel)
o Standardize procedures
o Sensory and motor function
o Elke verandering die werd gevonden werd door Wundt aan de test toegewijd en niet
aan het individu, dit veranderde met Cattel.
• Genetics (Galton)
o Individual differences
o Systematization of the research technique (generalization of conclusions)
o ‘’Normative thinking’’: referenties voor individu
From Binet-Simon-test to WW1
• Binet – Simon (1904):
o Based on more complex mental processes, dus niet alleen op fysiologische/fysieke
kenmerken
o Difficulty level of their own test based on empirical research with 50 kids
o First time using total score by summing subscores (total score was intelligence level,
understanding the concept ‘’mental age’’).
• Terman: Stanford-Binet (improved version of Binet-Simon test)
o Verbetering: Standardized instructions and created norm results
• Stern: IQ=mental age/calender age x 100 (standard score that we still use to compare
individual testing with population)
In deze periode werden testen veelal gebruikt voor individual testing, dat veranderde in de
volgende periode.
WW1 to WW2
• There was an important need to test soldiers in big and fast scale! They used it to determine
the skills and the complexity of the task that they could perform.
• This was the first time test were used for practical application.
, • Thurstone (1931):
o Thurstone started to think more critically about the way we test → focus on
reliability and criterium validity.
o Statistical analysis become more and more important
o Factor analysis (intelligence as complex multifactor)
Beginning from WW2 – today
• Boom of testing: number of tests increased → attention to methodology
• Educational Testing Service (USA, vergelijkbaar met CITO) – 1947
o Admission and evaluation of education
o Fundamental psychometric research
• Netherlands Institute of Psychologist → test research committee (COTAN – 1959)
• CITO – 1968, test construction on a large scale (academic performance)
• Recently: computer based & new technologies
o Bijvoorbeeld eyetracking en meten reactietijd
o Automatization, large data
Hoofdstuk 2: Definition & characteristics
Definitie van een test
Systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen/opgaven met als
doel inzicht in (psychologische) kenmerken van een individu in vergelijking met anderen. Testdoel:
voorspellen, omschrijven, classificeren, vergelijken.
The psychological test
De psychologische test meet psychologische kenmerken zoals intelligentie, persoonlijkheid,
motivatie. Dit zijn kenmerken die niet direct zichtbaar of meetbaar zijn. Daarom gebruiken we
indicators (items) die een bepaald gedrag uitlokken gerelateerd aan het construct wat gemeten
dient te worden. Bijvoorbeeld logisch redeneren om intelligentie te meten.
Test construction and determination of quality
• What do we want to measure and why? (construct -> e.g. motivation, intelligence, academic
performance, etc.; goal ….)
• How can we operationalize this in questions, tasks, statements?
• What is de relation between the parts (questions/items) and the whole?
• Quality (goal, construct, reliability of our measurement)
Characteristics from a good test
1. Efficiëntie (efficiency)
2. Standaardisatie (standardization)
3. Normering (norms)
, 4. Objectiviteit (objectivity)
5. Betrouwbaarheid (reliability)
6. Validiteit (validity)
Efficiëntie
Een test moet altijd efficiënter zijn dan de echte situatie. Dus wil je samenwerken beoordelen, dan ga
je niet de hele dag wachten in de klas totdat de kinderen toevallig samenwerken, maar dan creëer je
een situatie waarin de kinderen moeten gaan samenwerken.
Standaardisatie
Standaardisatie garandeert dat de test altijd wordt uitgevoerd onder dezelfde omstandigheden. Dit
geeft ons de kans om onderzoek te herhalen en te vergelijken. Daarvoor is nodig:
• Dezelfde instructie en materialen
• Dezelfde tijdslimieten
• Hetzelfde codeerschema etc
Voorbeeld movement ABC: Instructies en materialen zijn uitgebreid en zeer specifiek, wordt dus
overal hetzelfde uitgevoerd en kan daarom in elk land worden vergeleken.
Normering
Wanneer een test genormeerd is, dan is er een framework waarbinnen je een individuele score kan
plaatsen. Je vergelijkt dus een individuele score met anderen. Die normering is gebaseerd op de
verdeling van de ruwe scores binnen de populatie, dit is geschat op basis van een representative
sample (steekproef). Normering wordt ook wel standaardscores genoemd, dit moet je dus niet
verwarren met de eerdere standaardisatie waarover gesproken is. Normed scores help us to
interpretate scores (Normaalcurve!).
Objectiviteit
Het resultaat van onderzoek moet onafhankelijk zijn van de onderzoeker(s). De objectiviteit heeft als
doel om te garanderen dat: registratie van data en uitvoering van het onderzoek moet gelijk zijn bij
iedere onderzoeker. How: super detailed objective/concrete scoring rules!
Betrouwbaarheid (H6, zie verdere colleges)
Kom je tot dezelfde conclusie wanneer je hetzelfde individu nogmaals meet? Resultaten moeten dus
herhaalbaar zijn (onder dezelfde omstandigheden). Hier speelt het test-hertest effect altijd een rol.
Een test is betrouwbaar wanneer de resultaten niet afhankelijk van zijn het moment van afname
en van de testuitvoerder.
Validiteit (H8, zie verdere colleges)
Meet de test wat deze beoogt te meten? Boring 1945: ‘’Intelligence is what an IQ-test measure’’ =
operationalisme. Er zijn verschillende soorten validiteit:
• Predictive validity
• Concurrent validity
• Content validity
• Construct validity
, Scales
Er zijn 4 meetniveaus (schalen):
1. Nominale schaal
2. Ordinale schaal
3. Interval schaal
4. Ratio schaal (verhoudingsschaal)
In de sociale wetenschappen worden ordinaal en interval (soms nominaal) het meest gebruikt. We
gebruiken ratio (bijna) niet, want daarbij is er een absoluut nulpunt. Als je bijvoorbeeld intelligentie
of persoonlijkheid gaat meten is er niet sprake van een absoluut nulpunt.
Nominaal
Bij het nominale meetniveau is er sprake van ongeordende categorieën. Het gaat met name op het
labelen van categorieën met een naam, deze naam kan ook een getal zijn, maar het getal zelf heeft
dus geen waarde op zichzelf. Voorbeeld: Yes (0), No (1). Married (1), Single (2), Widdow (3).
Ordinaal
Bij het ordinale meetniveau hebben we geordende categorieën maar met ongelijke afstanden
tussen deze categorieën. 1 is meer dan 2, maar de afstand tussen 1 en 2 kan anders zijn dus tussen 3
en 4. Voorbeeld: racing competition podium places (racing time doesn’t have equal distances). Dus er
is sprake van een ranking (more-less order).
Interval
Bij een interval is er sprake van geordende categorieën mét gelijke afstanden tussen deze
categorieën. Voorbeeld: temperatuur, 1 graden tussen 30 en 31 is hetzelfde verschil als tussen 0 en 1
graden.
!: Wanneer er bij een ordinaal meetniveau meer dan 3 categorieën zijn wordt het vaak behandeld als
een intervalschaal, zoals de Likert schaal.
Inter-rater reliability (Interbeoordelaarsbetrouwbaarheid)
Afhankelijk van de hoeveelheid beoordelaars en de schaal (het meetniveau) zijn er verschillende
manieren om de interbeoordelaarsbetrouwbaarheid te bepalen/ te berekenen met verschillende
formules.
Cohens Kappa
Cohens Kappa wordt gebruikt bij de nominale schaal met 2 beoordelaars. Om Cohens Kappa uit te
leggen volgen hieronder diverse voorbeelden. Om te beginnen maak je bij Cohens Kappa altijd een
tabel, waarbij je Beoordelaar 1 tegenover Beoordelaar 2 zet. Hierdoor kan je in één oogopslag zien
hoeveel overeenstemming er is tussen beide beoordelaars.