LEERDOELEN :
1.Hoe meet je betrouwbaarheid?
Door bijvoorbeeld verschillende IQ testen te doen (parallel forms methode), IQ zou (rondom zelfde
leeftijd) gelijk moeten blijven. Dus de correlatie tussen de uitkomsten van deze testen zou dus hoog
moeten zijn (elke keer ongeveer dezelfde uitkomst). Als belangrijke beslissingen afhangen van de
uitkomst dan moet de correlatie minstens .90 zijn.
Ook kan je de test-retest methode doen waarbij je na een periode van tijd weer dezelfde test aan
dezelfde persoon geeft. Als hier weinig verschil in zit is er hoge betrouwbaarheid. Ook kan je de test
in 2 gelijken delen verdelen. Als de test betrouwbaar is zouden de resultaten van beide items (2
helften) gelijk zijn.
2.Hoe kies je de beste betrouwbaarheidstest? (Voor- en nadelen)
- Parallel forms methode: hierbij geef je twee verschillende testen die wel hetzelfde meten om te
kijken of de scores overeen komen
o Nadelen: kost veel moeite om twee dezelfde testen op te stellen en ze zullen nooit
precies hetzelfde zijn
- Test-retest methode: Hierbij geef je dezelfde test op verschillende momenten in tijd.
o Nadeel: carryover effecten kunnen optreden. En is niet uit te voeren bij traits die
kunnen veranderen over tijd
- Split half methode: hierbij verdeel je een test in gelijke helften.
o Voordelen:
o Nadelen: je kunt hem niet altijd gebruiken omdat de twee helften dezelfde variantie
moeten hebben en een helft kan moeilijker zijn dan de andere maar daar kan je
odd/even methode voor gebruiken
- Interrater methode: kijken of beide beoordelaren overeenkomen in hun beoordeling
o Voordeel: fijn voor observatie onderzoeken
- KR20: meet de betrouwbaarheid correlatie voor alleen dichotome items
- Cronbachs alpha: meet de betrouwbaarheid correlatie voor alle soort items
3.Wat is zijn de ‘tests for importance decisions’ en ‘tests for less important decisions’?
Test moet een bepaalde betrouwbaarheid (boven 0.90) zijn als je belangrijke beslissingen neemt over
een individu aan de hand van test uitslag. Als je bijv. IQ test voor jezelf afneemt hoeft deze niet heel
betrouwbaar te zijn omdat er geen hoge consequenties aan vast hangen.
4. Hoe kijk je naar betrouwbaarheid vanuit de Classical Test Theory en Item Response Theory?
5.Hoe kun je deze theorieën toepassen op de Wechsler Intelligence Test van course manual?
Split half: iedereen doet de hele taak, en dan splits je de items in twee helften hierbij kan je de
twee paren (1 en 2, 3 en 4 etc.) verdelen en om en om doen dus bijv. 1,4,5,8,9,12
Cronbach’s alpha De taken zijn niet homogeen omdat moeilijkheidsgraad verschilt bij tweede
taak moeten ze het in spiegelbeeld opnoemen
1
,Book: Kaplan & Saccuzzo (Chapter 4)
*Dit hoofdstuk kijkt naar de conceptualisatie en beoordeling van measurement errors testen met
weinig errors zijn betrouwbaar
Test theory model
Test theory model= helpt ons bij interpretatie van test scores en wat deze betekenen voor het
individu. 2 soorten: classical test theory (CTT) en item response theory (IRT)
Classical test theory
Classical test score theory (CTT)= elk persoon heeft een true score wanneer er geen measurement
errors zijn niet te voorkomen omdat meetinstrumenten niet perfect zijn. Het verschil tussen de
true score en de geobserveerde score van de deelnemer = de measurement error.
- X (geobserveerde score) = T (true score) + E (error)
- Bijv: gebruikt als je studenten wilt rang ordenen en niet wilt generaliseren buiten die setting,
of als je kleinere sample size hebt
- Domain sampling model is central component van CTT (zie hieronder uitgelegd)
- Betrouwbaarheidscoëfficiënt (cronbach’s alpha) geeft een schatting van precisie waarmee de
geobserveerde score (X) de kandidaat zijn true score (T) reflecteert
o Correlatie tussen scores op 2 parallelle testvormen (meten dezelfde inhoud en
deelnemers hebben dezelfde true score op beide testen met gelijke errors)
- Assumpties:
o Alle meet errors moeten random zijn
Dus niet allemaal dezelfde fouten (bijv: iemand die hout snijdt leest elke keer
de liniaal verkeerd af en snijdt het hout elke keer 1cm te kort, hij kan dus wel
nog hout snijden in dezelfde lengtes omdat het steeds maar 1cm te kort is
deze theorie zegt dat de liniaal dus eigenlijk elke keer krimpt en uitzet dus dat
er verschillende lengtes van hout komen (fig.4.1)
o De gemiddelde measurement error is 0 omdat ze even waarschijnlijk positief/negatief
kunnen zijn dus ze cancelen elkaar uit
o True scores en errors zijn niet gecorreleerd
o True score veranderd niet bij herhaaldelijk dezelfde test uitvoeren
Maar herhaling zorgt wel voor verschillende scores en CTT zegt dat error hier
verantwoordelijk voor is
Random error is verantwoordelijk voor die spreiding van scores bij
fig.4.1 en 4.2links
- Voordelen t.o.v. IRT:
o Makkelijkere assumpties waar je snel aan voldoet
o Minder grote sample size nodig
o Makkelijk te gebruiken en weinig wiskundige kennis nodig
- De Std.dev van spreiding van errors geeft ons de sterkte van meet errors aan omdat we
ervanuit gaan dat de spreiding van errors hetzelfde is bij alle personen, gebruikt classical test
theory de std.dev. van errors als de basis meting van error =standard error of measurement
(SEM) basic sampling theory= stelt dat de distributie van random errors bell shaped is
waarbij het midden de true score is, en de spreiding rondom het gemiddelde is de distributie
van sampling errors
- Limitaties:
o CTT gebaseerde statistieken zijn sample-afhankelijk
Bijv: p-waarde die aan item gekoppeld is weerspiegelt niet alleen
moeilijkheidsgraad van inhoud, maar ook het vaardigheidsniveau van de
2
, deelnemers CTT is dus alleen bruikbaar bij groepen/deelnemers die
vergelijkbaar zijn in vaardigheidsniveau
o CTT gaat ervanuit dat measurement errors identiek zijn voor alle scores
IRT pakt meeste limitaties aan
In fig.4.2 is de meest linker degene met de
meeste errors, je wilt hierbij niet te zeer afhankelijk zijn van een enkele observatie omdat deze te ver
van de true score kan afliggen. De meest rechter is degene met de minste errors, hierbij zijn de
meeste observaties dichtbij de true score, dus je kan hierbij beter conclusies nemen op basis van
enkele observaties.
Bijv: liniaal meet telkens hetzelfde, maar een rubberen liniaal die steeds uitrekt en krimpt meet
steeds iets anders. Maar als je meerdere malen met de rubberen liniaal meet krijg je een distributie
van scores waarvan het gemiddelde het dichtstbij de true score ligt. De std.dev. zegt je iets over de
gemiddelde deviatie rondom het gemiddelde. De standaard measurement error zegt, gemiddeld, hoe
ver een score varieert van de true score de std.dev. van de geobserveerde score en de
betrouwbaarheid van de test worden gebruikt om de standaard error of measurement te schatten.
- We kunnen de true score schatten door het gemiddelde van alle observaties te vinden
Item response theory (IRT)
CTT is lang de beste geweest, maar sommige wijken ervan af doordat CTT vereist dat exact dezelfde
test items aan elke deelnemer worden gegeven.
Item response theory (IRT)= een nieuwere aanpak; gebruiken computer om te focussen op de
moeilijkheidsgraad van het item dat helpt bij het beoordelen van het vaardigheidsniveau van
deelnemer
- Bruikbaar bij geavanceerde test ontwikkeling
o Bijv. als je alles goed hebt dan geeft PC je moeilijkere items en als je alles fout hebt
krijg je makkelijkere items dit vaardigheidsniveau wordt intens gesampled
resultaat is dat er een betrouwbaardere schatting van vaardigheid is verkregen door
het gebruik van een kortere test met minder items
- Zichtbaar gemaakt in item characteristic curve (ICC)
o Non linear
- Aanbevelingen voor de grootte van de steekproef:
o Voor 1 parametermodel 200
3
, o Voor 2-parametermodel 500
- Assumpties:
o Unidimensionality: een enkele onderliggende vaardigheid zorgt voor de prestatie op
de test (getest door factor analyse)
o Local independence: een antwoord op een item is ongerelateerd aan antwoord op
elk ander item in test
o Testen zijn niet versneld: versnelde resten zorgen voor extra dimensies die niet
gerelateerd zijn aan de vaardigheid die je wilt testen
- Problemen:
o Je moet database hebben met items die systematisch geëvalueerd zijn op hun
moeilijkheidsgraad
o Kost veel moeite om te ontwikkelen
o Complexe PC software nodig
- Voordelen t.o.v. CTT:
o Kan schatting maken, en vergelijken van deelnemers hun vermogen ongeacht de
testvormen die ze gedaan hebben
o Confounding effecten van item moeilijkheid en kandidaat vermogen in CTT zijn
opgelost in IRT
o Maakt sterkere assumpties en is wiskundig complexer
Als assumpties niet makkelijk voldaan kunnen worden kan je beter voor CTT
gaan
- Nadelen t.o.v. CTT:
o Sterkere assumpties
o Moeilijker toe te passen door wiskundige moeite en minimale sample size die je
nodig hebt die best groot is
CTT en IRT hebben verschil in aanname over measurement error CTT zegt dat measurement
error van iedereen gelijk is en IRT zegt dat iedereen andere error heeft bijv. als je aan uiteinde van
distributie zit heb je veel meer errors dan wanneer je in midden scoort.
in CTT zijn langere testen betrouwbaarder dan kortere, maar in IRT kunnen kortere testen
betrouwbaarder zijn (vooral wanneer er goede match is tussen moeilijkheidsniveau en
vaardigheidsniveau van deelnemer)
Domein sampling model
Centraal component van CTT
Domein sampling model= zegt dat de items die we selecteren maar een sample is van de
daadwerkelijk beschikbare items in dit domein.
- Bijv. Om spellingsvermogen te testen kan je het beste elk woord van woordenboek geven en
percentage correct te berekenen duurt te lang dus gebruiken ze een sample van
woorden.
o De true score zou je % goed zijn als je alle woorden uit woordenboek hebt gekregen.
o Betrouwbaarheidsanalyse schat onze errors die we zouden maken als we de score
van de kortere test gebruiken als een schatting van je ware vermogen.
- De meting is dus de error die optreedt door het gebruik van een sample van items en niet het
totale domein hoe groter het sample hoe accurater die het domein representeert en hoe
hoger de betrouwbaarheid
- True scores zijn bijna onmogelijk te verkrijgen dus alternatief is om te schatten wat de true
scores zouden zijn
4
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper StudentFPN. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €8,89. Je zit daarna nergens aan vast.