Samenvatting van Psychodiagnostiek uit jaar 3 op Maastricht University (). Inclusief de alle wetenschappelijke artikelen die relevant waren en ook enkele lectures zijn erin verwerkt. Artikelen:
Task 1
- Books Gregory (Chapter 3B) and Kaplan & Saccuzzo (Chapter 4).
- Cortina, J.M. (1993). What is c...
[Meer zien]
Laatste update van het document: 7 maanden geleden
Psychodiagnostiek
Taak 1
Leerdoelen
1. Wat is betrouwbaarheid en welke soorten betrouwbaarheid zijn er/hoe meet je het?
2. Wat laat betrouwbaarheid toenemen/afnemen?
3. Wat is de klassieke test theorie en de item response theorie?
4. Wat is een hoge betrouwbaarheid en wanneer wil je een hoge betrouwbaarheid
(belangrijke/onbelangrijke beslissingen)?
Kaplan Hoofdstuk 4 Betrouwbaarheid
Geschiedenis en theorie van betrouwbaarheid
• Conceptualization of error
Psychologische dingen zijn lastig te meten omdat ze niet echt kwantitatief zijn en er is niet
zoveel vergelijkingsmateriaal dus het is lastig in te schatten in hoeverre iets aanwezig is.
Hierdoor ontstaan er altijd errors.
• Spearman’s vroege studies
Veel van betrouwbaarheidsonderzoek heeft men te danken aan Spearman. Ook De Moivre
(sampling error) en Pearson (correlatie) zijn belangrijk.
• Basics van de test score theorie
De klassieke test score theorie gaat ervan uit dat elke persoon een true score heeft die men
meet als er geen errors waren. Maar de echte score van een persoon wijkt altijd van die die
men meet (observed score). Dus: X (observed)= T (true) + E (error). Een assumptie van deze
theorie is dat errors random zijn (systematische errors komen ook voor maar leiden minder
vaak tot een foute conclusie). Hierdoor krijg je een normaalverdeling met scores van een
persoon waarbij het midden (hoogste punt) de true score voorstelt. Bij wijdere verdelingen
kan je het beste niet van 1 observatie uitgaan om de true score te bepalen (grote dispersion).
Bij een smaller verdeling kan je dus wel van minder observaties uitgaan om de true score te
bepalen→minder errors. De wijdt laat dus ook iets zien over de mate van de error.
Verder gaat de klassieke theorie ervan uit dat de true score niet verandert als men dezelfde
test vaker toepast. Maar door random errors kan dezelfde test wel andere scores
produceren. Random errors bepalen dus de wijdte van de verdeling. De standaarddeviatie
van de error verteld ons dan iets over de magnitude van measurement error. Omdat de
klassieke theorie ervan uit gaat dat de verdeling van errors voor iedereen gelijk is, gebruikt
men de standaarddeviatie van de error als bepaling voor de mate van de error (standard
error of measurement/ meas).
Bij de klassieke test theorie moet dezelfde test bij elke persoon worden afgenomen.
Yard-stick analogie: de rubberen yard-stick krimpt en strekt dus de ene keer meet je de
lengte van een tafel als 32cm en de andere keer als 28cm. Dus dezelfde methode geeft niet
altijd hetzelfde resultaat. Als men er echter vanuit gaat dat de stick random krimpt en strekt,
wordt de verdeling van de scores normaal. Het gemiddelde zegt dan iets over de true lengte
en de standaarddeviatie over de gemiddelde afwijking van de mean en de standard error of
measurement over de gemiddelde afwijking van een score van de true score. In de praktijk
wordt de betrouwbaarheid van de test en de standaarddeviatie van de geobserveerde
waarde gebruikt om de standard error of measurement te schatten.
Domain sampling model
De domain sampling model is een centraal concept in de klassieke test theorie. Bij dit model wordt
een klein aantal items gebruikt om een groter en gecompliceerder construct te representeren. Bv. als
je iemands spelling wilt meten ga je niet hem alle woorden in het woordenboek laten spellen maar
maar een deel (sample). De sample wordt gebruikt om je true score te schatten. Hierbij kan men een
error maken en deze wil men schatten bij een betrouwbaarheidsanalyse. Betrouwbaarheid (volgens
dit model): ratio van variantie van de geobserveerde waarde van de korte test en de variantie van de
1
,lange test. De maatstaaf van het domain sampling model is de error van een sample van items. Hoe
groter het sample, hoe accurater het hele domein representeert en hoe hoger de betrouwbaarheid.
Betrouwbaarheid van domain sampling kun je testen door parallele forms.
Als een test gemaakt wordt, is elk item een sample van de eigenschap (of dergelijke) wat je wilt
meten. Elk item moet de eigenschap goed representeren. De betrouwbaarheid wordt dan geschat
van de correlatie van de geobserveerde score met de true score. De true score is echter niet
beschikbaar dus deze wordt geschat en als items random gepakt worden uit een domein om een
sample te vormen dan krijg je inderdaad een unbiased geschatte true score. Maar door een sampling
error kunnen verschillende samples, verschillende schatting opleveren. Als je vervolgens weer heel
veel samples pakt uit hetzelfde domein, krijg je een normaalverdeling van de schatting van de true
score. Bv. met het spelling testen→meerdere lijsten met woorden uit een woordenboek pakken. Dit
zijn allemaal unbiased samples van spelling vaardigheid. Dan vindt men de correlatie van de
verschillende samples onderling en van elke test los. Deze correlaties worden dan weer gemiddeld
genomen.
Item response theorie
IRT gebruikt een range van items. Bv. als een individu een paar makkelijke vragen goed maakt, krijgt
hij moeilijkere vragen voorgelegd. Dit is betrouwbaarder dan een kleine test met minder items. Er
zijn echter wel veel nadelen; men moet een database hebben met items die getest zijn op de
moeilijkheid, veel moeite om de test te ontwikkelen, complexe computersoftware.
Modellen van betrouwbaarheid
Er is een bepaalde standaard van betrouwbaarheid nodig bij testen voor je deze mag gebruiken in
bepaalde settings.
De meeste betrouwbaarheidscoëfficiënten zijn correlaties maar soms kan het handig zijn om deze te
vertalen naar een ratio. De betrouwbaarheidscoëfficiënt is de ratio van variantie van de true scores
op een test gedeeld door de variantie in de geobserveerde scores: r = 2T/ 2X. Het cijfer wat eruit
komt is een soort van percentage→percentage van de geobserveerde variantie die toe te schrijven is
aan variantie in de true score. Als de deze ratio van 1 aftrekt houd je de variantie van de error over;
2X = 2T + 2E. Als je een betrouwbaarheid van 0.4 krijgt, is 40% van de verschillen door variantie in
de mensen en 60% door error/kans.
Bronnen van error
Er zijn heel veel verschillende bronnen van error. De betrouwbaarheid van een test wordt meestal
met 3 manieren geschat:
1. Time sampling: Test-retest: de error geassocieerd met het 2x afnemen van de test op
verschillende tijdsstippen. Dit doet men alleen bij eigenschappen die niet veranderen over
tijd (bv. IQ test). De correlatie tussen de test op de 2 tijdsstippen wordt dan gemeten.
Enkele nadelen zijn; carry-over effecten (als de eerste test sessie de tweede sessie beïnvloed,
alleen een probleem bij random veranderingen en niet bij systematische), oefen effecten
(soort carry-over effect). Vanwege deze problemen moet het tijdsinterval tussen de testen
goed worden gekozen maar als de correlatie hoog is tussen de 2 toetsen heb je geen carry-
over effecten/je ziet ze niet. Een lage test-retest betrouwbaarheid betekent niet altijd dat de
test onbetrouwbaar is maar ook gewoon dat er iets gebeurd is in de tussentijd of dat de
eigenschap veranderd is. De klassieke test theorie gaat ervan uit dat eigenschappen constant
zijn over tijd maar dit is niet altijd zo. In deze theorie zijn de veranderingen in de eigenschap
errors.
2. Item-sampling: Parallel forms: vergelijkt 2 versies van een test die hetzelfde meten
(equivalent forms betrouwbaarheid). De 2 versies hebben andere items maar de regels om
de items te selecteren zijn hetzelfde. De 2 versies kunnen aan dezelfde personen worden
gegeven op dezelfde dag→enige bron van variantie is dan random error en verschil tussen de
2
, 2 versies. Als de 2 versies op verschillende tijden worden gegeven heb je ook nog error
geassocieerd met time sampling. De Pearson product wordt gebruikt als schatter van de
betrouwbaarheid. Deze vorm van sampling is de meest strenge versie maar wordt niet zo
vaak gebruikt.
3. Split-half: test wordt verdeeld in 2 helften die met elkaar worden vergeleken. Bij een lange
test is de beste methode om de test in 2 random helften op te delen. De eerste helft
vergelijken met de tweede helft is niet altijd goed want de eerste helft kan
moeilijker/makkelijker zijn. Een betere methode is dan odd-even. Split-half lost parallel forms
op.
De correlatie tussen de 2 helften zou een onderschatting zijn van de betrouwbaarheid omdat
deze maar half zo lang zijn als de hele test (→betrouwbaarheid wordt groter met meer
items). Om hiervoor te corrigeren kan je de Spearman-Brown formule toepassen. Hiermee
schat je de correlatie van de 2 helften als deze de lengte hadden van de hele test. Corrected r
= 2r/ 1 + r. r is de geschatte correlatie tussen de 2 helften als deze zo lang waren als de hele
test en de correlatie tussen de 2 helften. Met deze formule wordt de geschatte
betrouwbaarheid groter. Deze formule moet men echter niet altijd gebruiken, bijvoorbeeld
als de 2 helften een andere variantie hebben kan men beter Crohnbach’s alpha gebruiken.
Deze is strenger en heeft altijd een lagere alpha (dus als zelfs deze hoog is, is de
betrouwbaarheid echt hoog). Maar als alpha dus laag is betekent het niet dat de
betrouwbaarheid ook echt laag is. De formule van alpha is:
Als de varianties van de 2 helften hetzelfde zijn dan geven alpha en Spearman-brown
hetzelfde resultaat.
KR20 formule
Hiermee wordt de betrouwbaarheid geschat van een enkele afname. Deze methode houdt rekening
met het verdelen van de test in alle mogelijke opties. Deze formule kan alleen gebruikt worden bij
items die dichotoom zijn.
pq is de variantie van een enkel item. Om niet 0 te krijgen bij de betrouwbaarheid, moet de variantie
van de totale test score groter zijn dan de variantie van individuele items. Dit is alleen zo als de items
dezelfde eigenschap meten. De enige manier waarbij de som van de individuele item variantie lager
is dan de totale variantie is als er covariantie is. Dit gebeurt als de items gecorreleerd zijn met elkaar.
Hoe hoger de covariantie hoe lager de som van de individuele item variantie. Als de items met elkaar
correleren dan meten ze dus hetzelfde en is de betrouwbaarheid hoog. De KR20 formule gaat uit van
een aantal assumpties en de belangrijkste is dat de items even moeilijk zijn of de gemiddelde
moeilijkheidsgraad 50% is (→percentage van de participanten die het items haalt). In de praktijk
wordt hier vaak niet aan voldaan en onderschat deze formule de betrouwbaarheid bij split-half.
Coëfficiënt Alpha
3
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper ActUM. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,99. Je zit daarna nergens aan vast.