TESTTHEORIE
COLLEGE 0 - Voorkennis
- Meten en meetniveaus
- Beschrijven van verdelingen
- Beschrijven van samenhang
- Lineaire regressie
Meten en meetniveaus
- Meten = op consistente wijze getallen toekennen aan objecten/personen
o Vragenlijsten
o Interviews
o Observaties
- Meetniveaus = opgedeeld in vier meetniveaus door Stevens (1946)
o Nominaal
o Ordinaal
o Interval
o Ratio
Nominaal
= Classificatie/lidmaatschap
- Waarde van getallen arbitrair
- Onderzoeker bepaalt categorieën
o Voorbeeld geslacht: ‘jongen’ krijgt getal ‘0’, ‘meisje’ krijgt getal ‘1’
o Voorbeeld haarkleur: ‘lichte haarkleur’ = ‘0’, donkere haarkleur = ‘1’.
Ordinaal
= Sortering/rangordening
- Afstand tussen getallen arbitrair
- Voorbeeld: College interessant?
> Afstand tussen 1 en 2 is niet gelijk.
Interval
- Verschillen betekenisvol
- Geen absoluut nulpunt, maar afgesproken nulpunt
- Voorbeeld: Temperatuur (Graden Celsius)
Ratio
- Ratio (verhouding) betekenis
- Voorbeeld: Lengte (meter/feet)
> Als je wilt weten of een verhouding ratio is, gebruik dan een andere meetschaal (dus vergelijk meter
met feet).
Hiërarchie meetniveaus
,Beschrijven van verdelingen
Statistiek
Steekproef: Deel van de populatie wat beschikbaar is voor onderzoek. Om met onze steekproef
uitspraken te doen, maken we vaak assumpties over:
- De verdeling van de variabele in de populatie, bijvoorbeeld ‘normaal verdeeld’
- De samenhang tussen de variabelen in de populatie, bijvoorbeeld dat ze lineair samenhangen
Het uiteindelijke doel van statistiek: Uitspraken doen over de populatie (niet steekproef).
> Uitzonderingen:
- Wanneer de steekproef = populatie
- Testscore (uitspraken over individu)
Verdelingen
Voorbeeld:
Gemeten: gewicht, geslacht en lengte (N = 20)
Aanduiding:
Wat kunnen we over deze 20 personen zeggen?
- Sorteren
- Verdeling
- Centrummaten
- Spreidingsmaten
Frequentieverdeling
,Normaalverdeling
Deze verdeling wordt vaak verondersteld, omdat het vaak voorkomt en het veel bekende
eigenschappen heeft waardoor we beter conclusies kunnen trekken.
Dat onze variabele uit een normale verdeling komt, drukken we als volgt uit:
= ‘X komt uit een normale verdeling met een populatiegemiddelde … en een populatievariantie …'
Het gemiddelde is een centrummaat en de variantie is een spreidingsmaat.
Centrummaten
= Beschrijft midden van de verdeling
- Gemiddelde:
Formule:
- Andere centrummaten: mediaan (middelste observatie), modus (meest geobserveerde
observatie)
Spreiding: variantie
= Beschrijft de spreiding rondom het centrum
- Variantie:
Formule:
- Gemiddelde gekwadrateerde afwijking van het gemiddelde
- De variantie is altijd een positief getal
Spreiding: standaarddeviatie
Gemiddelde gekwadrateerde afwijkingen lastig te interpreteren, dus:
- Standaarddeviatie:
Formule:
Net als variantie altijd positief getal.
Lineaire transformatie
Bekende lineaire transformatie = afwijkingsscore : hoe zwaar is een specifiek
persoon ten opzichte van de gemiddelde groep?
>
Gemiddelde:
Variantie:
Standaardisatie
= Z-score: Hoeveel standaarddeviaties wijkt iemand af van het steekproefgemiddelde?
- Z(xi) = 0; score is gelijk aan gemiddelde
, - Z(xi) = -1; score ligt 1 SD onder gemiddelde
- Etc.
>
Standaardnormaalverdeling
Standaardiseerde scores geven aan hoe iemand scoort ten opzichte van andere mensen in de populatie.
Een normale verdeling voor de gestandaardiseerde scores noemen we een standaardnormaalverdeling.
Deze heeft altijd een gemiddelde van 0 en een standaarddeviatie van –1.
Iemand heeft Z-score van 0 = 50% zal lager scoren dan deze persoon
Iemand heeft Z-score van –1 = 15,9% zal lager scoren dan deze persoon
Beschrijven van samenhang
Samenhang bij testen
- Samenhang van de testscore met eigenschappen van de participant
Voorbeeld: Halen oudere participanten andere scores dan jongere participanten?
- Samenhang van testitems onderling: Als items in een test hetzelfde meten, verwachten we dat
ze samenhangen. Dit kunnen we doen door naar de correlatie en covariantie te kijken.
Covariantie
= Maat van gedeelde variantie; in hoeverre gaat een relatief hoge score op variabele X samen met een
relatief hoge score op variabele Y? (‘Relatief’: Ten opzichte van het gemiddelde.)
Positieve covariantie: Een hoog gewicht gaat samen met een hogere lengte.
Negatieve covariantie: Een hoog gewicht gaat samen met een lagere lengte.
,Teken geeft de richting van relatie aan:
- Positief: Hogere X = hogere Y
- Negatief: Hogere X = lagere Y
Het is symmetrisch: S(xy) = S(yx)
Correlatie
Interpretatie van de grootte van covariantie is niet makkelijk. Daarom:
Gestandaardiseerde covariantie = correlatie.
- Altijd een waarde tussen –1 en 1.
- Cohen: .10 zwak, .30 matig, .50 sterk
- Correlatie is ook symmetrisch
Non-lineaire relaties
Correlatie en covariantie geven een goede beschrijving van de lineaire relatie; kan tot rare conclusies
leiden als de werkelijkheid te veel afwijkt.
Dus: Kijk eerst naar de data in plaatjes.
Variantie-covariantiematrix
Bij toetsen hebben we vaak te maken met een som van variabelen.
De variantie van de som van twee variabelen:
Bij een test met drie of meer items:
- Rode balk: varianties
- Rest: covarianties
De som van deze drie items is gelijk aan de complete som van de covariantiematrix:
Lineaire regressie
Lineair verband
= Relatie tussen twee variabelen
> y = a + bx
- Y is de afhankelijke variabele; afhankelijk van de onafhankelijke variabele X
- Y is een combinatie van de constante a + een andere constante b, vermenigvuldigd met X
Hoe ingewikkelder het model; hoe beter de beschrijving:
,Waarom kiezen we dan voor een lijn?
Simpel model > betere voorspelling
We zoeken een model wat zo simpel mogelijk is + een zo goed mogelijke omschrijving van de data
geeft. Vaak komen we dan bij een lineair verband uit.
Lineaire regressie
Lineair verband y = a + bx, oftewel: Gewicht = a + b*lengte
- b (slope/helling): Hoeveel stijgt Y bij één eenheid van x?
- a (intercept): Wat is de waarde van Y als X=0?
- a en b = parameters
> Continue (interval, ratio) afhankelijke variabele
> Eén of meer onafhankelijke variabelen
Onafhankelijke variabele op de X-as; afhankelijke variabele op de Y-as.
> Hoe bepaal je de beste lijn?
De som van de gekwadrateerde afstanden van de punten tot de lijn moet zo klein mogelijk zijn.
OLS lineaire regressie
Kleinste gekwadrateerde verschillen:
,We kijken dus naar het verschil tussen geobserveerde en voorspelde punten.
Alternatieven
Statistisch model
(Griekse letters = over populatie)
- Yi = score op afhankelijke variabele Y voor persoon i (criteriumvariabele)
- Xi = score op onafhankelijke variabele X voor persoon i (predictorvariabele)
- Regressiecoëfficiënten (parameters)
o Β0 = intercept
o Β1 = helling (slope)
- = residu (error)
o
Schatten adhv model
Grafische weergave
,COLLEGE 1 – Testen en tests
- Overzicht
- Historische ontwikkeling van het testen (H1)
- Test: Definitie, kenmerken, toepassingen (H2)
- Test: Indelingen, onderscheidingen en begrippen (H3)
Hoofdstuk 1, 2 en 3 in Drenth & Sijtsma (2006), Testtheorie Klapper Testtheorie
Overzicht
Testen
= Meten van eigenschappen van mensen
- Tests, proeven, vragenlijsten
- Verschillende vormen en afnames
- Wetenschappelijke benadering
Nut van testen
Verschillende redenen:
- Onderscheid maken tussen mensen
- Vergelijken
- Beschrijven
Maatschappelijke redenen:
- Diagnose stoornissen, leer-/onderwijsproblemen
- Schoolvorderingen
- Voorspellen, plaatsing, etc.
> Om te onderzoeken:
- Vergelijking tussen groepen: Is er een verschil tussen jongens en meisjes wat faalangst
betreft?
- Relatie tussen variabelen: Is er een verband tussen de mate waarin leerkrachten zich
persoonlijk verantwoordelijk voelen voor hun onderwijs en de mate waarin ze in hun klas de
focus leggen op leren of op presteren?
Belangrijke vraag: Meten we wat we willen meten? > Validiteit en betrouwbaarheid
Testconstructie en kwaliteitsbepaling
Bij het construeren van een test komen veel dingen kijken:
- Wat willen we meten en waarom?
> Construct: Motivatie, intelligentie, ordelijkheid, schoolprestaties, doel
, - Hoe kunnen we dit operationaliseren (= concreet vormgeven in onderzoek) in vragen,
opgaven, uitspraken?
- Wat is de relatie tussen de delen (de vragen/items) en het geheel?
> Zijn alle subgebieden goed afgedekt?
- Kwaliteit: Doel, construct, betrouwbare meting
Historische ontwikkeling van het testen (H1)
Periode tot Binet-Simon-test (eind 19e eeuw)
Toetsen is iets relatiefs nieuws. Men doet dat iets langer dan 150 jaar; daarvoor was dat vrij
ongebruikelijk en werd er bijna niet getoetst.
Het toetsen wat we nu kennen is ontstaan in de psychiatrie, waar een behoefte was om de mensen een
beetje in te kunnen delen. Mensen met psychische problemen zaten met z'n allen bij elkaar, maar men
dacht dat dat opgedeeld zou kunnen worden door middel van toetsen.
Bij de experimentele psychologie (voorloper van ‘huidige’ psychologie) keek men een beetje naar
gedrag, in ieder geval niet naar de ingewikkelde vormen van gedrag. Onder invloed van de genetica
(eugenetica van Galton) heeft de psychologie meer invloed gekregen. Het idee was dat alleen de beste
mensen nakomelingen moesten krijgen. Galton wilde onderzoeken hoe men kon na kon gaan welke
mensen onder de categorie ‘betere mensen’ vielen.
- Wenselijkheid individuele verschillen: Hierbij ging hij individuele mensen onderzoeken.
- Systematisering van technieken (generalisatie conclusies): Hij probeerde de technieken te
systematiseren; op een systematische manier te werk gaan. Dat was voor die tijd nog weinig
aan de orde.
- Afwijkingen van het gemiddelde (statistische testen) om degene die buiten het gemiddelde
vielen te achterhalen.
Dit was de aanloop tot de ontwikkeling van testtheorie (waarbij op systematische manier toetsen en
toetsuitkomsten geanalyseerd worden). De constructen die gemeten werden, waren over het algemeen
eenvoudig; weinig complexe vaardigheden.
Binet (tot WO1)
Vanuit het ministerie vroeg men zich af waarom laagpresterende kinderen lager presteren: vanuit
luiheid of gebrek aan vaardigheden? Vanaf toen (Binet – Simon, 1904):
- Complexe opgaven
- Via empirisch onderzoek > moeilijkheidsgraad
- Werken met een totaalscore
- Begrip mentale leeftijd
> Men keek dus naar de capaciteiten van kinderen (eerste intelligentietest).
Via Terman: Stanford-Binet werd dit verbeterd:
- Formuleren van standaardinstructies
- Normen gebaseerd op representatieve steekproef
Stern bedacht vervolgens het intelligentiequotiënt: mentale leeftijd/kalenderleeftijd * 100.
De toetsen toentertijd gingen over het individu; groepen werden weinig bestudeerd. Ook was er
weinig valideringsonderzoek:
- Samenhang tests met latere prestaties: Heeft het voorspellende waarde voor volgende tests?
- Selecteren/wegen nog niet van toepassing
WO1 – WO2
Door nood aan selectie van personeel voor het leger in de WO > testen in stroomversnelling, want ze
werden in grote schaal ingezet.
, Na WO1:
- Europa: Individuele diagnostiek, maar later ook collectief
- VS: Veel migranten na WO2 > migrantenprobleem > collectief testen; niet-verbale testen:
Migranten spraken de taal niet goed
- Engeland: Tussenpositie: aandacht voor objectief evalueren van schoolprestatie (MC-test)
Tot dan toe ging een test voor theorie. Maar Thurstone (1931) legde focus op betrouwbaarheid en
criteriumvaliditeit: testgedrag buiten testsituatie voorspellen.
Begin WO2 – heden
Het aantal testen neemt toe; meer aandacht voor methodologie.
Educational Testing Service (Amerika) - 1947:
- Evalueren van het onderwijs
- Fundamenteel psychometrisch onderzoek
> Introductie computer maakt het makkelijker om grote testen af te nemen en te evalueren.
In Nederland kwam vanaf jaren 60 het idee om steeds meer te toetsen. Eerder heerste het idee dat een
goede afkomst bepalend was voor het niveau op school. Maar steeds meer kwam het idee dat het beter
was te kijken naar prestaties in plaats van afkomst van de ouders. Vanaf dat moment zijn we meer
gaan testen en toetsen gaan afnemen.
Test: Definitie, kenmerken, toepassingen (H2)
Definitie ‘test’
= ‘Een systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven,
met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in vergelijking
met anderen.’
Kenmerken test
- Efficiëntie: Het is veel efficiënter dan observeren.
- Standaardisatie: Je kunt veel mensen onder dezelfde condities testen door vragen en
instructies te standaardiseren.
- Normering: Er wordt op dezelfde manier gescoord.
- Objectiviteit: Resultaat van het onderzoek is onafhankelijk van degene die de gegevens
verzamelt of uitwerkt.
- Betrouwbaarheid (HC4)
- Validiteit (HC5)
Mate van overeenstemming
= In hoeverre zijn verschillende beoordelaars met elkaar eens?