Samenvatting psychodiagnostiek
Tutorial 1
Leerdoelen
1. Wat zijn de verschillende reliabilities (cronbach’s alfa)?
2. Hoe kan je dit testen?
3. Wat is de classical test theorie?
4. Wat is de item response theorie en hoe verschillen de twee theorieën?
5. Wat zijn testen voor belangrijke keuzes en minder belangrijke keuzes?
Literatuur
Book: Kaplan & Saccuzzo (Chapter 4)
Geschiedenis en theorie betrouwbaarheid → klassieke test theorie (classic test theory CTT)
→ gaat ervan uit dat elke persoon een echte score heeft die zou worden verkregen als er
geen fout in de metingen zou zijn
Aangezien er error is, zal waargenomen score bijna altijd verschillen van werkelijke
bekwaamheid of kenmerken van de persoon → meetfout (measurement error)
Geobserveerde score = true score + error
Aannames:
o Meetfouten zijn willekeurig
o Foutverdeling is belvormig
Het midden van de verdeling moet de ware
score vertegenwoordigen
De spreiding rond het gemiddelde van de
verdeling moet de verdeling van steekproeffouten weergeven
We kunnen de werkelijke score schatten door het gemiddelde van de
waarnemingen te vinden uit herhaalde toepassingen
Linkerverdeling → grote spreiding rond ware score = enkele waarneming kan ver van
ware score vallen
Rechterverdeling → kleine spreiding rond ware score = conclusie trekken op basis
van weinig waarnemingen zal waarschijnlijk weinig opleveren
Het gaat ervan uit dat het gedrag in de loop van de tijd constant is (bijv. als u een
agressief persoon bent, zult u de hele tijd agressief zijn)
o Belangrijke gedragskenmerken zoals motivatie, fluctueren in de tijd
Die variatie wordt verondersteld fouten te zijn (meer geavanceerde
theorie kan deze variatie voorspellen)
Standaard fout van meting (standard error of measurement) → vertelt ons hoeveel
een score afwijkt van de werkelijke score → ook wel standaarddeviatie van errors
o Het geeft de gemiddelde afwijking rond het gemiddelde aan
o De standaarddeviatie van de waargenomen score en de betrouwbaarheid van
de test worden gebruikt om de SEM te schatten
o Standaardfouten kunnen worden gebruikt om betrouwbaarheidsintervallen
rond waargenomen scores te creëren → schat de kans dat de echte score
binnen een bepaald interval valt
Hoe groter de standaardfout, hoe groter het interval en hoe minder
zeker men kan zijn
1
,Domein sampling model (domain sampling model) → ander centraal concept in de klassieke
testtheorie dat de problemen beschouwt die ontstaan door een beperkt aantal items te
gebruiken om een groter en ingewikkelder construct weer te geven
Wanneer tests worden gemaakt, is elk item een voorbeeld van het vermogen of het te
meten gedrag
Om een realistische evaluatie te maken, moeten we een steekproef van items
gebruiken in plaats van een volledige set
o Naarmate een steekproef groter wordt, vertegenwoordigt deze het domein
steeds nauwkeuriger
o Als gevolg hiervan, hoe groter het aantal items, hoe hoger de
betrouwbaarheid
De domeinsteekproefmethode conceptualiseert betrouwbaarheid als de verhouding
tussen de variantie van de waargenomen score op de kortere test en de variantie van
de langere echte score
We moeten dus de werkelijke score schatten
o De verdeling van deze schattingen moet willekeurig en normaal verdeeld zijn
o Om betrouwbaarheid in te schatten, maken we willekeurig parallelle tests door
herhaalde willekeurige steekproeven te nemen van items uit hetzelfde domein
o Vervolgens vinden we de correlatie tussen elk van deze tests en elk van de
andere tests
o Deze correlaties worden gemiddeld
Item response theorie (item response theory IRT) → klassieke testtheorie vereist dat aan
elke persoon dezelfde testitems worden afgenomen
Hierdoor concentreren weinig items zich op het exacte vaardigheidsniveau van een
persoon, wat de betrouwbaarheid van de intelligentiescore vermindert
Het richt zich op de moeilijkheidsgraad van een item die het beste helpt bij het
beoordelen van het vaardigheidsniveau van een persoon
Deze methode vereist een reeks items die systematisch zijn beoordeeld op
moeilijkheidsgraad
Modellen van betrouwbaarheid
De meeste betrouwbaarheidscoëfficiënten zijn correlaties
De betrouwbaarheidscoëfficiënt is de verhouding tussen de variantie van de
werkelijke scores op een test en de variantie van de waargenomen scores
Als de betrouwbaarheid van een test 0,40 is en een werkgever gebruikt de test om
sollicitanten te vergelijken, wordt 40% van de variatie (verschil tussen mensen)
verklaard door echte verschillen tussen mensen en 60% wordt toegeschreven aan
willekeurige of toevalsfactoren
Een geobserveerde score kan anders zijn dan true score door situationele factoren
2
,Time Wordt gebruikt om de fout te evalueren die gepaard gaat met het afnemen van een test
sampling → op twee verschillende tijdstippen.
test-retest Alleen bij het meten van "kenmerken" of kenmerken die niet veranderen in de tijd
methods Om de test-hertestbetrouwbaarheid te evalueren, berekenen we de correlatie tussen de
score van de twee administraties → er moeten echter verschillende overwegingen
worden gemaakt
o Overdrachtseffect (carryover effect) → treedt op wanneer de eerste testsessie de
scores van de tweede sessie beïnvloedt (= overschatting van de werkelijke
betrouwbaarheid) en is zorgwekkend wanneer veranderingen in de tijd willekeurig
zijn in plaats van systematisch
Systematische overdracht (systematic carryover) → ieders score verbetert
met hetzelfde aantal punten
Willekeurige overdracht (random carryover) → veranderingen zijn niet
voorspelbaar van eerdere scores of wanneer iets sommige maar niet alle
testpersonen treft
o Praktijkeffect (practice effect) → soort overdrachtseffect omdat sommige
vaardigheden verbeteren door te oefenen
Beïnvloedt deelnemers anders, dus veranderingen zijn vaak niet constant
in een groep
Vanwege deze effecten moeten intervallen tussen testsessies zorgvuldig worden
gekozen en geëvalueerd
Item sampling Vergelijking van twee equivalente vormen van een test die hetzelfde attribuut meten
→ parallel o De twee testen gebruiken verschillende items
form method De regels die worden gebruikt om items van een bepaalde moeilijkheidsgraad te
selecteren, zijn echter hetzelfde
De Pearson-productmomentcorrelatiecoëfficiënt wordt gebruikt als een schatting van de
betrouwbaarheid tussen beide vormen van de test
o Wanneer beide vormen op dezelfde dag worden gegeven, zijn de enige bronnen
van variatie willekeurige fouten en het verschil tussen de vormen van de test
o Wanneer de twee vormen van de test op verschillende tijdstippen worden
gegeven, wordt ook de fout in verband met tijdsteekproeven meegenomen in de
schatting van de betrouwbaarheid
Deze methode biedt een van de meest rigoureuze beoordelingen van betrouwbaarheid
Split-half Een test wordt gegeven en verdeeld in helften die afzonderlijk scores zijn
methods Het resultaat van de ene helft van de test wordt vergeleken met de resultaten van de
andere helft
De twee helften kunnen op meerdere manieren worden gemaakt:
o Random split → bereken een score voor de eerste helft als de items en een
andere score voor de tweede helft
o Odd-Even split → één sub-score wordt verkregen voor de oneven
genummerde items en een andere voor de even genummerde items
Om de betrouwbaarheid van de test te schatten, vindt u de correlatie tussen de twee
helften → onderschat echter de betrouwbaarheid omdat elke subtest slechts half zo
lang is als de volledige test
o Om een halve lengte te corrigeren, passen we de Spearman-Brown-formule
toe, waardoor we kunnen schatten wat de correlatie tussen twee helften zou
zijn geweest als de helft de lengte van de hele test was geweest
Estimated correlation between two halves = 2 (r) / 1 + r
o Waarbij r de correlatie is tussen de twee helften van de test
Wanneer twee testhelften ongelijke afwijkingen hebben, kan in plaats van Spearman-
Brown, de alfa van Cronbach worden gebruikt (= de laagste schatting van de
betrouwbaarheid die we kunnen verwachten)
o Als alfa hoog is, kunnen we aannemen dat de betrouwbaarheid van de test
acceptabel is (de laagste grens is hoog)
3
, KR20 formula De formule voor het berekenen van de
betrouwbaarheid van een test waarbij de items
dichotoom zijn (score 0 of 1) staat bekend als de
Kuder-Richardson 20
De formule vereist dat je het percentage mensen
vindt dat elk item 'juist' had
Er zijn echter veel tests waarvoor geen goede of
foute antwoorden zijn (bijv.
persoonlijkheids-/houdingsschalen)
Wiskundige bewijzen tonen aan dat de KR20-formule dezelfde schatting van de
betrouwbaarheid geeft die je zou krijgen als je het gemiddelde zou nemen van de
gesplitste betrouwbaarheidsschattingen die zijn verkregen door de test op alle mogelijke
manieren te verdelen
Coefficient Cronbach ontwikkelde een formule die de interne
alpha consistentie schat van toetsen waarin de items niet
als 0 of 1 (goed of fout) worden gescoord
Cronbach's alpha is een meer algemene
betrouwbaarheidsschatting
Alle metingen van interne consistentie evalueren de mate waarin de verschillende items
op een test dezelfde vaardigheid of eigenschap meten
Ze geven allemaal lage schattingen van de betrouwbaarheid als de test is ontworpen om
meerdere eigenschappen te meten
o Met behulp van het domeinsteekproefmodel definiëren we daarom een domein
dat een enkele eigenschap/kenmerk vertegenwoordigt
Elk item is een individueel voorbeeld van dit algemene kenmerk
o Wanneer een test verschillende kenmerken meet, kunnen we factoranalyse
gebruiken om de items in subgroepen te verdelen, elk intern consistent
Reliability of a Sommige toepassingen van psychologisch testen vereisen een verschilscore, die wordt
different score gecreëerd door de ene testscore van de andere af te trekken (bijv. verschil in prestatie op
twee tijdstippen, of een verschil tussen metingen van twee verschillende vaardigheden,
of verschil tussen twee mensen)
Verschilscore is echter niet zonder probleem
De error is naar verwachting groter dan waargenomen score of werkelijke score, omdat
de fout wordt geabsorbeerd uit beide scores die zijn gebruikt om verschilscore te creëren
o De betrouwbaarheid van een score zal naar verwachting lager zijn dan de
betrouwbaarheid van een van beide scores waarop deze is gebaseerd
o Vanwege de slechte betrouwbaarheid kunnen verschilscores niet worden afgeleid
voor het interpreteren van patronen
Betrouwbaarheid in gedragsmatige observatiestudies
Psychologen met gedragsoriëntaties maken bij voorkeur geen gebruik van
psychologische tests → ipv dat geven ze de voorkeur aan gedrag direct observeren,
het aantal waarneembare reacties in elke categorie in een tabel op te nemen
o Gedragswaarnemingen zijn vaak onbetrouwbaar vanwege discrepanties
tussen de werkelijke scores en de scores die door de waarnemer zijn
geregistreerd
Om deze problemen te beoordelen, moeten we de betrouwbaarheid van de
waarnemers schatten (inter-ratter betrouwbaarheid), die rekening houdt met de
consistentie tussen verschillende beoordelaars die hetzelfde gedrag evalueren
Kappa statistics → beste methode om de mate van overeenstemming vast te stellen
Kappa-waarden kunnen variëren tussen 1 (perfecte overeenstemming) en -1 (minder
overeenstemming dan verwacht op basis van toeval)
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller pleunreijnders. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.97. You're not tied to anything after your purchase.