Samenvatting van de hoofdstukken 2 t/m9 van het boek testtheorie. Daarnaast bevat het document een samenvatting van de klapper wat ook tentamenstof is.
Samenvatting testtheorie
Hoofdstuk 2 definitie, kenmerken en toepassingen van de test
2.1 wat is een test?
2.1.1 onderdelen van een test
In het algemeen kent een test de volgende onderdelen:
- Testmateriaal: het testmateriaal hangt af van de soort van de test, zoals een boekje met
opgaven bij een schriftelijke intelligentietest en legpuzzels bij een individuele prestatietest.
- Testformulieren: op de formuleren worden antwoorden, reacties of gedragsgegevens
verzameld die vervolgens het materiaal vormen waaruit psychologische interpretatie of
conclusies worden afgeleid.
- Testhandleiding: kan variëren van uitvoerig boekwerk tot beknopte richtlijnen. Een goede
handleiding bevat in ieder geval de volgende vier onderwerpen:
1. Een exacte testinstructie: datgene wat betrekking heeft op de gang van zaken tijdens
het testonderzoek, zoals de condities voor een goede testsituatie, wat de proefleider
mag antwoorden op vragen en aanwijzingen en uitleg.
2. De verwerkingsprocedure: richtlijnen voor de toekenning van numerieke scores aan
de antwoorden of reacties op opgaven. Je moet beschikken over de sleutels van
opgaven: aanwijzingen voor de vraag welke antwoorden juist of onjuist zijn en hoe
de antwoorden van scores voorzien moeten worden (zoals goed= 1 en fout=0).
3. De normtabellen: een testprestatie wordt bijna altijd uitgedrukt in een numerieke
testscore (vergelijkbaar met tentamencijfer). De score kan vergeleken worden met
prestaties van meer of minder representatieve normgroepen.
4. Bespreking van de wetenschappelijke kwaliteiten van de test: gegevens die een
indicatie geven van de betrouwbaarheid van de test, een bespreking van de
testbetekenis (welke psychologische eigenschap de test meet) en voor welke
voorspellingen de test gebruikt kan worden.
2.1.2 eerste omschrijving
De bedoeling van testonderzoek is het doen van een uitspraak die een voorspelling, classificatie of
beschrijving met betrekking tot het onderzochte individu behelst. Het gaat daarbij altijd om een
vergelijking met andere mensen. Dat kan een kleine selecte groep zijn die in dezelfde
omstandigheden verkeerd, maar ook de landelijke populatie.
- Niet alles waarmee je een uitspraak kan doen over iemand in vergelijking met anderen kan
een test genoemd worden.
Test: systematisch onderzoek van apart voor het testdoel geselecteerde gedragingen. De
gedragingen zijn gekozen, omdat ze een typerende steekproef vormen uit een geheel van
gedragingen die men niet allemaal in enkele testsessie kan onderzoeken.
Omschrijving psychologische test: een systematisch onderzoek van gedrag met behulp van speciaal
geselecteerde vragen of opgaven, met de bedoeling inzicht te krijgen in een psychologisch kenmerk
van de onderzochte in vergelijking met anderen.
2.1.3 kenmerken van een test
Zes kenmerken waarop een goede test in de meeste gevallen in het voordeel is ten opzichte van het
voorwetenschappelijk oordeel:
, 1. Efficiëntie: als je bijvoorbeeld de intelligentie wilt meten van een persoon dan zou je moeten
wachten totdat er situaties zich voordoen waarbij je dat kan meten zoals de handigheid in
het oplossen van kruiswoordpuzzels. Hiertegenover staat de intelligentietest. Daarbij hoef je
niet te wachten op die situaties en kan een persoon een test maken.
2. Standaardisatie: de situatie waarin de onderzochte bezig is moet vergelijkbaar zijn met de
situatie waarin de referentiegroep heeft verkeerd. Dit bereik je door de situatie te
standaardiseren.
3. Normering: je moet de vergelijking tussen personen kunnen meten (beter dan globaal
zeggen 'groter' en 'kleiner'). Dit is nodig bij alle soorten testen. Dat kan door:
Rangorde vaststellen (eenvoudigste): hierbij kunnen vaak de afstanden tussen
testscores in de normering worden opgenomen.
Vanuit een discrete verdeling zou men een normaalverdeling kunnen maken, als dat redelijk
is. Dat kun je bekijken door statistische toetsten te gebruiken, zoals IQ-testen. Blijkt daaruit
dat de benadering redelijk is dan zou je een geschikt gemiddelde en een geschikte
standaarddeviatie kunnen kiezen en de schaal van de testscores kunnen omzetten naar die
onder de normaalverdeling met het gemiddelde en de spreiding. De schaal verandert, maar
de personen houden dezelfde rangorde.
Doorgaans gebruik je een normaalverdeling als:
Steekproef uit normaal verdeelde populatie komt.
Je steekproeffouten wil 'gladstrijken'.
In de meeste situaties is een normering noodzakelijk. Soms is het niet nodig voor
bijvoorbeeld de beste tien kandidaten voor een opleiding.
4. Objectiviteit: onafhankelijkheid van storende invloeden vanuit de persoon van de
waarnemer, beoordelaar of interpretator. Je kunt dus veronderstellen dat de
testinterpretatie niet beïnvloed is degene die de gegevens verzamelt of uitwerkt. Dit is
makkelijker bij MC toetsen dan bij open vragen op een toets en observaties.
Deze opvatting heeft twee gevolgen:
1. Het moet voor de onderzochte niet uitmaken wie de beoordelaar is.
2. Openheid en reproduceerbaarheid van test- en evaluatieprocedure.
Onafhankelijkheid tussen beoordelaars (intersubjectiviteitsprincipe) kan de mate van
objectiviteit bepalen door de naar de overeenstemming van de beoordelaars te kijken en
deze uit te drukken in interbeoordelaarsbetrouwbaarheid. Strategieën die je
hiervoor kunt gebruiken:
Rangcorrelatie: wanneer twee onafhankelijk van elkaar werkende beoordelaars
beiden een rangorde produceren. Dat kan met Spearmans rangcorrelatie of Kendalls
tau.
Grotere aantallen onafhankelijke worden vaak berekend met Kendalls 'coefficient of
concordance' bij overeenstemming van stimuli die zijn geordend naar dezelfde
eigenschappen, bijv. Spionageromans naar spanning van het verhaal.
Product-momentcorrelatie: wanneer de beoordelingen niet alleen een rangorde
betekenis hebben, maar de afstanden tussen de plaatsen in de rangorde een
betekenis hebben.
Ook kan een beoordeling zijn dat kinderen in een categorie worden ingedeeld
waarbij er geen sprake is van rangordening en afstand tussen de categorieën.
,Voorbeeld
Beoordelaar A en B zijn het 25 keer met elkaar eens: 25/40*100=62,5% oftewel Po (o van
overeenstemming) =0,625.
Fa geeft aan de frequentieverdeling van de beoordelaar. 12*12/40=3,6 is het aantal
personen waarover men eens is dat het dyslectisch is. In totaal is men dus in
(3,6+4,8+4,8)/40*100= 33% van de gevallen het met elkaar eens. 0,33 is de toevalskans en
wordt aangegeven met Pt (t van toeval).
Statische onafhankelijkheid: de waarden in de tabel hangen alleen af van de verdelingen van A en B.
De mate van overeenstemming vind je door kappa te berekenen: (0,625-0,33)/(1-0,33)=0,44.
0,44 is een 'middelmatige' overeenstemming (waarde van kappa ligt altijd tussen 0 en 1).
Bij een echt objectieve verwerking van testgegevens zijn geen andere 'belangen' van invloed:
belangen van de maatschappij, van een organisatie, van een groep of van een persoon.
5. Betrouwbaarheid: het meten van lichaamslengte is betrouwbaarder dan bij psychologische
metingen. Het is daarbij niet mogelijk om twee onafhankelijke metingen te verkrijgen,
omdat personen zich dingen zullen herinneren van de vorige keer of iets geleerd hebben.
Een hoge mate van betrouwbaarheid is van belang, omdat het niet zou mogen uitmaken
wanneer iemand getest wordt.
6. Validiteit: meet je wat je beoogt te meten. Er mag geen verschil van mening mogelijk zijn
over de interpretatie en betekenis van de testprestatie.
Bloemrijke, fenomenologische beschrijvingen of het gebruik van allerlei speculatieve
begrippen en neologistische 'verklaringen' van het testgedrag die in de praktijk wel eens de
plaats van empirische betekenisanalyses innemen moeten worden afgewezen.
Het praktisch voorspellend gebruik van een test moet altijd gebaseerd zijn op empirisch
onderzoek, waarin een veronderstelde samenhang is aangetoond.
2.2 meten van eigenschappen door middel van tests
Door middel van een test zouden we allerlei eigenschappen kunnen 'meten'.
2.2.1 meetniveaus en toegestane operaties
Er is sprake van meten zodra getallen volgens een consistente procedure aan objecten worden
toegekend. Dit leidt tot vier bekende meetniveaus:
Nominaal: personen of objecten volgens een bepaald principe verdelen in groepen, zoals
man en vrouw of rugnummers op voetbalshirts. Hier zou je niet het gemiddelde kunnen
, meten, maar wel de Cohens kappa om vast te stellen in hoeverre verschillende beoordelaars
het eens zijn over een diagnose van kinderen in diverse categorieën.
Ordinaal: getallen worden gebruikt om categorieën of objecten te ordenen. Hier zou je een
rangorde van bijvoorbeeld intelligentie kunnen vergelijken met een rangorde van het
inkomen van de vader en de overeenstemming uit te drukken in rangcorrelatie.
Interval: niet alleen de verschillende posities zijn geordend van minder naar meer, maar ook
de afstanden tussen verschillende posities hebben betekenis. Hier worden eenheden
aangegeven. Verder heeft het geen absoluut, maar een arbitrair nulpunt: het punt waarvan
men zich als het ware oriënteert. Op de Celsiusschaal is dat et smeltpunt van ijs.
Typisch voor de interval schaal is dat de verhouding van afstanden tussen meetwaarden van
vaste paren van objecten constant blijven met het nulpunt van de schaal over een afstand a
zou verschuiven en de eenheid met een factor b zou vermenigvuldigen.
Verhoudingsschaal (ratio scale): het heeft eenheden waarmee afstanden kunnen worden
weergegeven (zoals bij interval) en heeft een absoluut nulpunt --> alle rekenkundige
bewerkingen kunnen worden uitgevoerd.
Als meetwaarden op de X-schaal zijn uitgedrukt dan zijn voor verhoudingsschalen
transformaties van het type Y= bX toegestaan: een stok van 80cm is 2x zo groot als een stok
van 40cm en dan is ook zo bij 8dm en 4dm.
Binnen de vier schalen zijn transformaties toegestaan, die de betekenis van de vergelijking van
meetwaarden intact laten.
De meeste toepassingen van de psychologie vergen hoogstens een intervalschaal. De ordinale schaal
is vaak al voldoende.
2.2.2 opvatting over meten
De opvatting van Stevens over meten gaat eraan voorbij dat een verifieerbare theorie over relaties
tussen eigenschappen ten grondslag liggen aan een meetprocedure. Anders is in feite de procedure
zelf die bepaalt dat er sprake is van een meting, waarop de test gebaseerd is maakt dan niet uit.
Zo kwam Boring met de uitspraak dat intelligentie datgene is wat de test meer (het
operationalisme). Door deze opvatting raakte het meten in de psychologie in het slop, want van
theorievorming en kennisvorming was nauwelijks nog sprake.
Bouwmeester (2005) deed onderzoek naar transitief redeneren: men kan gegeven dat bijvoorbeeld
stok A langer is dan stok B en de laatste weer langer dan stok C is, zelf de conclusie trekken dat A
langer is dan C. Of dat als brood A goedkoper is dan B, C duurder is dan B en D evenveel kost als B, A
het goedkoopste is. Dankzij uitvoerig en grondig psychometrisch werk ontstonden er valide
meetinstrumenten wat van groot belang is.
2.2.3 de gangbare procedure voor het meten van psychologische eigenschappen
Er wordt vanuit gegaan dat psychologische eigenschappen ondersteund worden door theorieën,
zoals intelligentie en transitief redeneren. De procedure die wordt ontwikkeld om het te meten kan
dus niet samenvallen met de eigenschappen.
Intelligentie is dus niet wat de test meet, maar de test is een meer of minder geslaagde poging om
van deze eigenschap een goede schatting te maken. Het toekennen van scores op een
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller vkroeze. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.97. You're not tied to anything after your purchase.