In deze samenvatting is alles van het hoorcollege en het boek samengevat. Met duidelijke voorbeelden (ook uit de werkcolleges), de vragen per hoorcollege (met uitwerkingen van de rekensommen) en een oud oefententamen.
Ik werk veel met kleurtjes dus, mocht je dit document willen printen, raad ik...
Summary Psychometrics, ISBN: 9781506389875 Test Theory
Measurement Theory and Assessment Book Notes
Measurement Theory and Assessment 2 // Meten en Diagnostiek 2 (Vrije Universiteit) Course Notes - Year 2, Period 2
All for this textbook (3)
Written for
Tilburg University (UVT)
Psychologie
Test Theorie (500216B5)
All documents for this subject (12)
2
reviews
By: Fest2000 • 1 year ago
By: yaravangeninden • 2 year ago
Seller
Follow
roshnikanhai
Reviews received
Content preview
Testtheorie Roshni Kanhai
Hoorcollege 1 Inleiding en basiskennis
Inleiding
Meten bij individuen gebruik je test met items (vragen). Items als indicatoren (reactie op
vragen) voor een construct (een psychologische eigenschap).
1. Aan de antwoorden worden scores toegekend (itemscores)
2. Itemscores worden verwerkt tot testscore (meestal optellen)
3. Testscores worden geïnterpreteerd
Wat kan je zeggen over iemand zijn testscores?
1. Zijn de testscores zinvol te interpreteren?
2. Meet je wel wat je wilt meten? En hoe kom je daarachter?
3. Zijn de vragen wel van goede kwaliteit?
4. Zijn er wel genoeg vragen in de test?
5. Hoe bepaal je de grenzen van de testscores (qua interpretatie) om conclusies te trekken
Het is dus belangrijk dat je een valide test gebruikt. Doe je dat niet? Dan doe je aan sloppy
science en dat is niet de bedoeling.
Er zijn geen kant en klare regels om testen te maken maar wel verschillende handvaten en
die worden besproken tijdens dit vak.
Basiskennis statistiek
Nu gaan we het hebben over de basisstatistiek. Dit hebben we al bij het vak ‘Inleiding
Statistiek’ gehad. De begrippen die hierin worden uitgelegd zijn belangrijk om testtheorie te
kunnen begrijpen. Het is dan ook handig om te weten wat ze zijn en hoe je ze kan
berekenen.
Het gaat vooral over het gemiddelde, de variantie, de standaarddeviatie, z-scores,
covariantie en een correlatie.
Om deze begrippen nog eens duidelijk uit te leggen gaan we
gebruik maken van een datamatrix. Deze worden gebruikt
bij de testtheorie en is een verzameling van datapunten.
Zoals je ziet hebben we de scores van 5 respondenten
genomen op 3 verschillende testen.
In een datamatrix staat dan welke waardes we hebben
gevonden voor de verschillende variabelen voor elke
respondent. De x gaat in dit geval over de tentamenscores
van de verschillende studenten, we weten op die manier dat de score kan lopen van 1 tot
10. De Y staat voor de itemscore over de eerste vraag van hetzelfde tentamen. In dit geval is
die binair weergegeven, degene die de eerste vraag goed heeft een 1 gekregen en degene
die de eerste vraag fout hebben een 0 gekregen. Dan staat W weer voor een andere
variabele, in dit voorbeeld staat W voor de intelligentiescore. We gaan nu verder de
verschillende begrippen berekenen aan de hand van deze matrix.
1
, Testtheorie Roshni Kanhai
Beschrijvende statistiek
Het gemiddelde
Het somteken geeft aan dat we naar Xi moeten gaan kijken. Hier is i de index
en die verwijst naar een persoon. We hebben het dan over de score van
persoon i op X. Onder het somteken staat waar je gaat beginnen met tellen
en boven het somteken staat waar je eindigt. In dit geval begin je bij persoon
1 en N boven het somteken geeft aan dat we dit voor alle respondenten gaan doen. Met
andere woorden gaan we dus de scores van alle respondenten op X optellen, deze delen
door N.
De deviatiescore/afwijkingsscore
Verder willen we ook weten hoe ver mensen van elkaar verschillen. Sommige
mensen scoren hoger dan het gemiddelde en andere scoren lager dan het
gemiddelde. De deviatiescore is eigenlijk voor iedere persoon de score op een
item en die daar trekken we dan het gemiddelde van af.
Dus 1 persoon heeft een deviatiescore van 6-8=-2. Let wel op dat je voor de deviatiescore de
kleine letter ‘x’ gebruikt. Het enige wat we doen met een deviatiescore is centreren. We
verschuiven dan de verdeling zo dat het gemiddelde precies op 0 uitkomt. Zo zal je zien dat
het gemiddelde van de deviatiescores van de verschillende personen ook altijd gelijk is aan
0.
2
, Testtheorie Roshni Kanhai
Variantie
Deze scores zeggen meer iets over de steekproef in zijn geheel. Je hebt de
deviatiescore nodig om de variantie te kunnen berekenen. En de variantie heb je
nodig om de standaarddeviatie te berekenen.
Deze formule is voor de variantie van x. S2 staat in dit geval voor de variantie en de
x geeft aan voor welke variabele we dat gaan doen. We gaan net als voor het gemiddelde
weer opnieuw delen door N, maar nu gaan we de som nemen van de deviatiescores in het
kwadraat. Let wel ook op dat je eerst kwadrateert en dan pas ze gaat optellen.
Wanneer je dit gaat doen voor persoon 1 dan heb je een score van 6, de deviatiescore is -2
en de x2 is dan 4. Want de deviatiescore moet je kwadrateren om verder te kunnen! Let op
dat door het kwadrateren alle minnetjes verdwijnen!
Voor de variantie tellen we van alle respondenten de x2 op (sum of squares) (10) en delen
we door N. Op die manier komen we uit om 2. Dus 2 is de variantie voor de variabele X.
Nu we weten dat de variantie gelijk is aan 2, weten we nog niet of dit veel of weinig is.
Daarom zetten we de variantie om in de standaarddeviatie.
Standaarddeviatie
Dit is echt heel simpel! Het is de wortel van de variantie. We gebruiken dus
vaak alleen de variantie om bij de standaarddeviatie terecht te komen. De
standaarddeviatie is dus dan de gemiddelde afwijking van personen t.o.v. het
gemiddelde. Ook gebruiken we de standaarddeviatie om de testscores meer
interpreteerbaar te kunnen maken.
Hoe bereken je dit?
De wortel van de variantie nemen.
3
, Testtheorie Roshni Kanhai
Standaardscores (z-scores)
z-scores zijn gestandaardiseerde scores met een gemiddelde van 0 en een
standaarddeviatie van 1. Dit doen we omdat we door de z-scores kunnen
zeggen hoe goed iemand het doet t.o.v. de anderen.
Hoe bereken je dit?
De deviatiescore delen door de standaarddeviatie
Samenhang, relaties tussen variabelen
Covariantie
Bij de covariantie zoomt in op de relaties tussen 2 variabelen. De
mate waarin 2 variabelen co-variëren, de mate waarin 2
variabelen, variantie delen. Wanneer gebeurt dat? Als de
afwijkingsscore van de ene variabele, samenhangt met de
afwijkingsscore van de andere variabele. Bijvoorbeeld, als
iemand hoog scoort op de eerste test, dan scoort diegene ook
hoog voor de tweede test.
Alleen weet je niet of deze samenhang nou hoog of laag is, dat komt omdat de covariantie
niet gestandaardiseerd is. Daarom gebruik je de covariantie nooit als ‘eindstation’ en vertaal
je deze naar een correlatie.
Hoe bereken je dit?
De deviatiescores van X en Y vermenigvuldigen (x*y), die van alle personen optellen en dit
delen door N.
Correlatie
Met de covariantie kan je de correlatie berekenen. De correlatie is eigenlijk de
gestandaardiseerde covariantie.
Waarom zou je dit willen? Door dit te doen kunnen we waarde hechten
aan de uitkomst. De uitkomst van de correlatie is een getal tussen de -1
en 1. Hierbij kan je dus wel concluderen of de samenhang hoog of laag
is.
Hoe bereken je dit?
De covariantie deel je door het product van de standaarddeviaties van X en Y.
Als je dit nog allemaal best lastig vindt, kan je altijd meerekenen met deze tabel! ☺
4
, Testtheorie Roshni Kanhai
Deze bovenstaande gegevens presenteren we in een matrix
De variantie-covariantie matrix
Op de diagonaal (van linksboven naar rechtsonder), staat de variantie
En in de overige vakken vul je de covarianties in, die je net hebt berekend.
De correlatiematrix
Op de diagonaal (van linksboven naar rechtsonder), staat ALTIJD 1, (dat is omdat de
correlatie van een variabele met zichzelf is altijd 1)
En in de overige vakken vul je de correlaties in, die je net hebt berekend.
5
, Testtheorie Roshni Kanhai
Hoofdstuk 1 Psychometrics and the Importance of Psychological Measurment
(Deel Hoorcollege 2 Eigenschappen van tests en items)
Volgens Cronbach is een psychologische test; 'een systematische procedure om het gedrag
van 2 of meer mensen te vergelijken.'
De definitie bevat 3 verschillende componenten:
1. De test heeft gedragsvoorbeelden nodig (observeerbaar)
2. Die voorbeelden moeten verzameld zijn op systematische wijze (objectief)
3. Het doel van de test is om het gedrag van 2 of meer mensen te vergelijken
Wat ook belangrijk is volgens Cronbach, is algemeenheid (generalisatie). Dat een steekproef
representatief is aan de populatie etc, etc, dit heb je eerder gehad!
Maar het gaat ook over de informatie die geproduceerd wordt door een test. Sommige
testen produceert sommige tests produceren getallen die de hoeveelheid van een
psychologisch kenmerk vertegenwoordigen dat een persoon bezit. Denk aan een test die
een vaardigheid meet. Zoals lezen.
Een ander extreem belangrijke functie van Cronbach's zijn definitie, is het algemene doel van
de psychologische testen. Meer specifiek, testen moeten in staat zijn om verschillende
gedragingen tussen personen (interindividuele verschillen) en verschillende gedragingen
binnen een persoon (interindividuele verschillen) te meten.
Verschillende/type soorten testen
Er bestaan heel veel verschillende soorten testen.
Prestatieniveau test (maximum performance tests) en gedragswijze test (typical performance
test)
Bij een maximum performance, draait het erom dat iedereen die deze test voor zijn neus
krijgt, maximaal laat zien wat degene kan doen. Er is dus sprake van een betere of slechtere
prestatie. En we gaan ervan uit dat iedereen een zo goed mogelijke prestatie wilt leveren.
De aanname hierbij is dus dat iedereen zijn best doet en zo hoog mogelijk wilt scoren. Je wilt
hierbij je maximale prestatie neerzetten en deze prestatie zegt ook iets over wat jij maximaal
kunt. Denk aan het tentamen van testtheorie.
De tegenhanger hiervan is de typical performance test. Waarom noemen we dit zo? We
willen met deze test een plaatje krijgen van wat nou typisch voor jou is. Wat beschrijft jou
als persoon? Denk aan een persoonlijkheidstest. Hierbij zijn er geen goede of foute
antwoorden. Er zijn alleen antwoorden die beter of slechter bij je past. En dus gaan we ervan
uit dat als een test valide is, dat iedereen antwoorden geeft die perfect aansluiten bij wie zij
als persoon zijn. Dus, hier komt geen waardeoordeel bij kijken!
Dus bij prestatieniveautests meet je vaardigheden en bij gedragswijzetests meet je onder
andere persoonlijkheidseigenschappen en attitudes.
Er zijn grote verschillen voor de aanpak bij de testontwikkeling. Maar er zijn nauwelijks
verschillen voor de statistische analyses van de testscores. Pff, dat scheelt ☺
6
, Testtheorie Roshni Kanhai
Je hebt twee types test voor prestatieniveau
De powertest en de speedtest. Powertests meten vaardigheid zonder tijdsdruk. Hierbij
hebben de meer vaardige personen meer vragen goed. De speedtests meten presentaties
onder zware tijdsdruk. De vragen zijn van triviale moeilijkheid. Dus de meer vaardige
personen beantwoorden meer vragen.
Criteriumgericht en normgericht
Psychologische testen zijn gecategoriseerd als 'criterium referenced' (domain referenced)
[criterion] of 'norm referenced'
Criterium-referenced tests zijn vaak te zien in settingen waar personen hun vaardigheden
worden gemeten. Een cutoff test score is vastgesteld als criterium. Er bestaan dan 2 groepen
1. Degenen van wie hun performance het criterium overschrijdt
2. Degenen bij wie dat niet gebeurt.
Maar bij norm-referenced testen, is dat juist niet. Deze testen worden juist gebruikt om een
persoon te vergelijken met andere personen.
Hierbij vergelijk je het individu met de 'gemiddelde persoon' en kijk je of diegene een hoge
of lage score heeft
In de praktijk werken deze 2 soorten testen vaak samen. De cutoff score bij een criterium
test zal altijd 'normed' zijn op een of andere manier. Denk aan een intelligentietest.
Wat hoort er bij een psychologische test?
- Testmateriaal
- Testformulieren
- Testhandleiding
1. Exacte testinstructie
2. Verwerkingsprocedure
3. Normtabellen
4. Bespreking van wetenschappelijke kwaliteiten
Als je de stap van antwoord naar score maakt, noem je dat de beoordeling.
Eigenschappen van een testscore
Testscores zijn vaak een optelsom van de itemscores. Dit is ook de belangrijkste uitkomst
van de test die gebruikt wordt. De testhandleiding geeft dus instructies hoe de score
geïnterpreteerd moet worden
Bij normgerichte tests zullen normgegevens geraadpleegd moeten worden.
Psychometrie
Psychometrie is de wetenschap die zich bezighoudt met het evalueren van de kenmerken
van psychologische tests. Net als hoe psychologische test gemaakt zijn om psychologische
attributen van mensen te meten (intelligentie, angst), evalueert psychometrie de attributen
van psychologische testen.
Drie daarvan, hebben we interesse in:
1. Het type informatie (scores) die verzameld zijn door psychologische testen
2. De betrouwbaarheid van de data van psychologische testen
7
, Testtheorie Roshni Kanhai
3. Problemen rondom de validiteit van de data die verzameld zijn door psychologische
testen
Psychometrie gaat over de procedures die nodig zijn om de attributen van een test te in te
schatten en evalueren.
Uitdagingen om te meten in de psychologie
Het moeilijke om te meten in de psychologie is dat we de maken hebben met complexe
psychologische fenomenen zoals; intelligentie, zelfvertrouwen en depressie. Met allemaal
verschillende aspecten. Dit alles moet samengevat worden in één getal.
Participanten reactiviteit
Participanten reactiviteit is ook een uitdaging om rekening mee te houden! In de meeste
gevallen weten participanten dat er psychologische fenomenen bij hun wordt gemeten. Het
feit dat ze dus in de gaten gehouden worden en weten dat ze worden geobserveerd, heeft
invloed op het meetproces en hun psychologische staat. Denk bijvoorbeeld aan een test
waarbij een onderzoeker vragen stelt aan de participant om te meten of hij/zij een racist is.
De gegeven antwoorden worden beïnvloed door degene die tegenover de participant zit.
Participanten reactiviteit kan vele vormen hebben. In sommige onderzoekssituaties
proberen participanten erachter te komen wat het doel is van een onderzoek en daar zich
naar te gedragen. Dit noemen we demand characteristics.
In onderzoekssituaties en meetprocessen, proberen participanten een sociaal wenselijk
antwoord te geven om indruk te maken op de onderzoeker. Dit noemen we social
desirability. Het tegenovergestelde, malingering, krijg je als de participant juist een slechte
indruk wil achterlaten.
Nog een uitdaging, in de psychologie hebben we het over observeerbare variabelen. Het
meten hiervan brengt wel verschillende vooroordelen (bias) en verwachtingen met zich
mee. Bias en verwachtingen zijn moeilijk op te sporen. Van de onderzoekers en
observatoren kunnen we verwachten dat niet extreem biased zijn met enorme
verwachtingen. Alleen hebben de kleinste, onbedoelde biases al effect.
Psychologen hebben de neiging om te vertrouwen op samengestelde scores als ze
psychologische fenomenen meten. Zulke testen zijn samengesteld uit een serie vragen.
Zulke testen hebben voordelen (die we laten gaan bespreken) maar ook nadelen. Bij
meerdere vragen kan je dus bepaalde verwachtingen en vooroordelen hebben terwijl ze in
de ‘fysieke’ wetenschap maar 1 meting hoeven te doen en dan weten ze het antwoord al.
Hier is er dus geen sprake van een samengestelde score, en veel minder bias die invloed kan
hebben op de uitkomst.
Gevoeligheid van de scores
Gevoeligheid van een score is belangrijk om te weten of je daadwerkelijk de goede
meetinstrumenten gebruikt voor dat wat je wilt meten. Als je bijvoorbeeld een stuk land wilt
opmeten, moet je niet aankomen met een liniaal van max 30 cm. Hoe vertaal je dit naar de
psychologie? ‘Vink het vakje aan dat uw algemene emotionele toestand van de afgelopen
week het beste beschrijft.’ En dan alleen de opties ‘goed’ en ‘slecht’ beschikbaar hebben
staan. Deze vraag is dus niet gevoelig genoeg voor dat wat we willen meten. Een preciezere
en gevoeligere oplossing hiervoor is dan een antwoordkeuze die op een schaal staat.
8
, Testtheorie Roshni Kanhai
De laatste uitdaging is, een gebrek aan bewustzijn van belangrijke psychometrische
informatie. Denk hierbij aan een leraar die zijn leerlingen wilt toetsen. Een goede toets of
meting die bedoeld is om de psychologische verschillen tussen mensen weer te geven.
Psychometrie gaat verder dan alleen ‘differentiële’ psychologie
Differentiële psychologie is de wetenschap van de psychologische verschillen tussen mensen
en hoe die vast te stellen. Galton, Spearman en anderen waren gericht op de variabiliteit van
menselijke kenmerken. Galton wordt geassocieerd met psychometrie en differentiële
psychologie. Dat komt omdat hij vooral geïnteresseerd was in de manier waarop mensen
van elkaar verschillen.
De auteurs van het boek zijn van menig dat iedereen in de psychologie te maken heeft met
psychometrie, ook degenen die meer een experimentele benadering hebben t.o.v menselijk
gedrag. Psychometrie is niet alleen beperkt tot problemen in de differentiële psychologie.
Hoofdstuk 2 Schalen
(Deel Hoorcollege 2 Eigenschappen van tests en items)
De eigenschap van identiteit
De meest fundamentele vorm van meten is het vermogen om te reflecteren ‘gelijkheid’ vs
‘ongelijkheid’. Bijvoorbeeld je vraagt aan een leraar of hij de kinderen in zijn klas kan
aanwijzen die gedragsproblemen hebben. De groep kinderen met gedragsproblemen zijn
vergelijkbaar, en de kinderen die geen gedragsproblemen hebben zijn verschillend ten
opzichte van de kinderen met gedragsproblemen.
De psychologie is het een vereiste om een groep mensen minstens in 2 groepen te verdelen.
Hierbij zijn er wel een paar regels:
1. De mensen in een categorie moeten aan de voorwaarden voldoen van identiteit. Dat wil
zeggen dat alle mensen binnen een bepaalde categorie 'identiek' moeten zijn met betrekking
tot het kenmerk dat door de categorie wordt weerspiegeld. (De kinderen geclassificeerd met
een gedragsprobleem moeten ook echt een gedragsprobleem hebben)
2. De categorieën moeten ‘mutually exclusive’ zijn [elkaar uitsluiten]. (De kinderen
geclassificeerd met een gedragsprobleem kunnen niet geclassificeerd worden als het niet
hebben van een gedragsprobleem)
3. De categorieën moeten ‘exhaustive’ zijn. Dat is het geval als je alle kinderen kan verdelen
over de categorieën. We hebben de categorieën ‘gedragsproblemen’ en ‘geen
gedragsproblemen’. Als er een groep kinderen in allebei niet in thuis hoort, moet je een 3e
categorie maken zodat ze alsnog bij een categorie horen.
De 4 meetniveaus
De testscore is een getal, alleen de interpretatie van dit getal hangt af van het meetniveau
van de testscore
De 4 meetniveaus
Nominaal Ordinaal Interval Ratio
Categorieën x x x x
Rangschikking x x x
Gelijke intervallen x x
Betekenisvol nulpunt x
Voorbeeld Geslacht Opleidingsniveau Temperatuur Leeftijd
9
, Testtheorie Roshni Kanhai
Hoofdstuk 3 Individuele verschillen en correlaties
(Deel Hoorcollege 2 Eigenschappen van tests en items)
Veel van dit hoofdstuk is eigenlijk besproken in hoorcollege 1! Het uitrekenen van het
gemiddelde, de variantie, de standaarddeviatie en de covariantie etc komt allemaal in dit
hoofdstuk voor. Plus, het is ook allemaal herhaling van de basiskennis die we al in eerdere
vakken hebben opgedaan. Een paar onderwerpen die niet in het hoorcollege zijn herhaald,
zullen hieronder nog even voorbijkomen. Puur om je geheugen even op te frissen☺
Distributievormen en normaalverdelingen
Dit is een normaalverdeling. Die krijg je als data ‘normaal verdeeld’ is. Dit is erg belangrijk
want door deze verdeling kan je uitspraken doen over hoe groot de kans is dat een
verschijnsel zich voordoet in de populatie.
Je kan ook een recht-scheve verdeling hebben. Aangezien de staart rechts
zit, noem je het dus een rechts-scheve verdeling. Hierbij is de data niet
normaal verdeeld en zit de meerderheid links.
Het compleet tegenovergestelde is de links-scheve verdeling. Aangezien de
staart links zit, noem je het dus een links-scheve verdeling. Hierbij is de
data niet normaal verdeeld en zit de meerderheid rechts.
Spreiding als wenselijke eigenschap
Een testscore moet verschillen tussen mensen
blootleggen. Dit kan alleen als mensen verschillen in hun
testscores. Dus een hoge mate van variantie in
testscores is wenselijk. Hieruit kan je dan ook de
aanname maken dat hoge variantie en hoge covariantie op de itemscores wenselijk is,
omdat de testscore opgebouwd is uit de itemscores.
Spreiding testscores
De testscore-variantie gaat omhoog als de itemscore-variantie toeneemt. Een goede
samenhang tussen items is ook belangrijk. Sommige mensen scoren hoog op vrijwel alle
items en sommigen scoren laag op vrijwel alle items. Daarmee heb je dus meer spreiding op
de testscore.
Binaire items/ multiple choice items
Sommige psychologische testen zijn gebaseerd op reacties op dichotome of binaire
10
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller roshnikanhai. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.44. You're not tied to anything after your purchase.