Testkonstruktion: Vertiefung
1. Vorlesung
Wozu braucht man Testtheorien?
KTT= klassische Testtheorie: Erste Testtheorie
Einem Test muss eine Theorie zugrunde liegen, die beschreibt, wie Testverhalten
und das gemessene Konstrukt (Eigenschaft, Fähigkeit) zusammenhängen und wie
dieser Zusammenhang berechnet wird.
➔ Nur psychologische Tests, die eine strenge Überprüfung bestanden haben,
erlauben objektive Messungen und faire Vergleiche!
Probabilistische Testtheorie/ Item Response Theorie (IRT):
Eine Gruppe von modernen Testtheorien
Test nach KTT:
IQ-Werte
mit einem Mittelwert von 100 und Standardabweichung von 15.
IQ = 100 + 15z
T-Werte
mit einem Mittelwert von 50 und Standardabweichung von 10.
T = 50 + 10z
, Standardwerte oder SW
mit einem Mittelwert von 100 und Standardabweichung von 10.
SW = 100 + 10z
Stanine-Werte
mit einem Mittelwert von 5 und Standardabweichung von 2.
Stanine= 5 + 2z
•In Fragebögen stehen dem Antwortenden typischerweise verschiedene vorgegebene
Antwortalternativen zur Verfügung.
•Diese Antwortalternativen werden nach einem festen Auswertungsschlüssel in Zahlen übersetzt.
•Ein einzelnes Item stellt keine zuverlässige Schätzung einer Fähigkeit dar.
Regeln:
Test muss aus mehreren Items bestehen.
Die Items müssen unterschiedlich schwer sein.
Alle Probanden müssen alle Items (zu) beantworten (versuchen).
Test wird mit einer fixen Länge vorgelegt.
Beantwortete Items = gewisse Punktezahl für die Items = Testergebnis / Messwert / Rohwert
der Person.
Messwerte werden in die Standardwertetransformiert und mit anderen Probanden
(Eichstichprobe) verglichen und interpretiert.
Grundannahmen der KTT
Wichtige Begriffe: Messwert, Wahrer Wert, Messfehler
Messwert = Test-Score = Testergebnis = Anzahl der richtig gelösten
Items = quantitativer Repräsentant der Ausprägung des Merkmals
Wahrer Wert =„wahre“ Leistungsfähigkeit = sehr schwierig zu
berechnen, theoretisch = einen Intelligenztest 100-Mal bearbeiten und
den Mittelwert aller möglichen Test-Scores eines Probanden berechnen
Messfehler = nicht kontrollierbare Einflüsse der Situation und der
Person (Müdigkeit, Wetter, keine Lust)
,Beispiel:
Montag Freitag
•Intelligenztest •Intelligenztest
•10 aus 15 Aufgaben richtig gelöst •5 aus 15 Aufgaben richtig gelöst
•Ich war aber müde!!!
<- Wahrer Wert
Grundannahmen der KTT:
Grundannahmen: Axiome
•KTT entwickelte Tests bestehen aus mehreren Items;
•Alle beantwortete Items = gewisse Punktezahl für die Items = Testergebnis /
Messwert / Rohwert der Person.
•Axiome beschreiben theoretisch (!) warum dieser Messwert / Summenwert
dem wahren Wert einer Person entspricht / Axiome der KTT werden nicht
weiter gefragt oder empirisch untersucht!
•Problem 1:
Messfehler! (nicht kontrollierbare Faktoren / Messfehlerinnerhalb der getesteten
Person (Müdigkeit, Motivation) oder innerhalb einer Situation (Wetter))
•Problem 2:
Schwankung der Leistung einer Person in einem Bereich (mehrere Messungen
sind notwendig!)
•Axiome = theoretische Vermutungen darüber, warum man ohne wiederholte
Messungen den wahren Wert ermitteln kann (Axiom 1.) und wie
Messfehlertheoretisch ausgeschlossen werden können (Axiome 2. und 3.).
•KTT macht keine Aussagen darüber wie Items beantwortet werden (egal ob leicht
oder schwer) oder wie Leistung zustande kommt (zugrundeliegendes Konstrukt).
, Praktisch Theoretisch
1.Messung der „wahren“ Ausprägung der 1.Mehrmalige Durchführung
Leistungsmotivation = eines Testverfahrens bei den gleichen
Sie sollten das Probanden ist unrealistisch= ein Test
Leistungsmotivationsinventar MEHRMALS besteht aus VIELEN ITEMS, d.h. jedes Item
bearbeiten (am Ende des Semesters noch entspricht einer Durchführung.
Mal??).
2. Es gibt VIELE FAKTOREN, die Ihre 2. Diese Faktoren beeinflussen ALLE
Leistung / Testverhalten beeinflussen, PROBANDEN, d.h. sie sind nicht wichtig bei
Müdigkeit, fehlende Motivation, schlechte der Ermittlung der wahren Ausprägung der
Laune, usw.. Leistungsmotivation.
3. Der Summenwertder sich aus einzelnen 3. Der Summenwert ergibt den Sinn nur
Item-Scoresergibt, ist eine Zahl, die wenn er mit den Summenwerten ANDERER
NICHTSbedeutet (mein Summenwert ist PROBANDEN VERGLICHEN wird (mein
650??). Summenwert ist 650 < Summenwert des
Probanden A ist 670, usw.).
4. Ich habe an einem Training zur Steigerung 4. Merkmalsänderung ist NICHT MÖGLICH,
der Leistungsmotivation teilgenommen und d.h. alle Unterschiede des Messwerts sind
meine Leistungsmotivation durch Messfehler hervorgerufen / KTT ist für
VERBESSERT(die die Messung der zeitlich stabilen Merkmale
Persönlichkeitsmerkmale sind änderbar)! geeignet.
Grenzen und Schwächen der KTT
Vorteile Schwächen: Kritik
Das Modell der KTT gilt heute (noch) als das Methoden der KTT sind nicht empirisch
verbreiteste, da es mit der Annahme des prüfbar.
Messfehlers als einzige Fehlerquelle relativ
einfach handhabbar ist.
Praktische Bewährung: meisten der Annahme der Merkmalsstabilität: die
eingesetzten Testverfahren, welche über Veränderungen von Eigenschaften werden
Testverlage (Testzentrale) erhältlich von der KTT als Messfehler aufgefasst, keine
sind, sind KTT-basiert entwickelte Merkmalsänderung möglich.
Instrumente.
Aus den Axiomen werden die Gütekriterien Stichproben-, Populations-,
für Testverfahren (Reliabilität und und Situationsabhängigkeit: je nachdem,
Validität), sowie die Grundzüge von an welchen Personen die Messungen
Itemanalysenerschlossen: Grundlagen für die durchgeführt werden, können
Testrezensionen! unterschiedliche Ausprägungen für dieselben
Kennwerte resultieren, d.h. die gefundenen
Ergebnisse können nicht verallgemeinert
werden.