Diagnostische Methoden IV: Schulleistungstests (Testbeispiele. Kennen lernen unterschiedlicher schulrelevanter Testtypen und ihrer Anwendungsbedingungen): 2.1.4 Die wichtigsten Konstruktionsschritte des normorientierten Schulleistungstests

2. Typen von Schulleistungstests nach dem Vergleichsmaßstab

2.1.4 Die wichtigsten Konstruktionsschritte des normorientierten Schulleistungstests

Die oben aufgeworfene Frage nach der Bestimmung des Schulleistungstests ist mit Teilantworten angegangen worden, soll aber in konzentrischen Ringen weiter behandelt werden. Inzwischen ist es für das Verständnis des Anwenders günstig, die Entstehung des normorientierten Schulleistungstests in großen Schritten zu begleiten:

Festlegung von Inhalt, Schultyp und Jahrgangsstufe (s.o.).
Kritische inhaltliche Prüfung des Lehrplans (der Lehrpläne), gegebenenfalls Schnitt-menge bilden.
Sichtung der Lehrplanziele mit Hilfe einer differenzierenden Lehrzielmatrix. Die hier in Frage kommenden kognitiven Lehrziele werden häufig nach Bloom in die folgenden sechs Bereiche aufgegliedert (zit. nach Lukesch 1998, S. 435): Wissen, Verständnis, Anwendung, Analyse, Synthese und Evaluation. Es wäre günstig, diese Bereiche in der Itemkonstruktion zu berücksichtigen, wenn das Stoffgebiet das hergibt. Nötig ist dann die Bildung eines repräsentativen Itempools, d.h. Umsetzung der wichtigsten Lehrplanziele in Einzel-probleme. Dazu sollte ein/e Testautor/in, meist Psychologe/Psychologin, sich die Hilfe von Lehrplanexperten verschaffen. Das wären etwa besonders aktive Lehrkräfte, die einerseits den Unterricht in diesem Fach und dieser Jahrgangsstufe aus eigener Tätigkeit heraus kennen, aber auch Grundkenntnisse in pädagogisch-psychologischer Diagnostik haben. Der Inhalt erfasst stets den gesamten Lehrplanstoff eines Schuljahres. Damit ist auch der Durchführungszeitraum festgelegt: Er soll bei Untersuchung der ganzen Klasse durch Lehrkräfte am Ende des Schuljahres so liegen, dass die Schüler (bzw. die Lehrkräfte) mit dem Durcharbeiten des Lehrplans fertig sind, aber nicht in den allerletzten Tagen des Schuljahres. In diesen erreichen nämlich erfahrungsgemäß die Schüler nicht mehr ihr sonstiges Leistungsniveau im Hinblick auf Motivation, Konzentration und Mitarbeitsbereitschaft und damit ihr schulisches Wissen und Können, ganz abgesehen davon, dass eine Verwendung der Ergebnisse eine etwas frühere Durchführung ohnedies wünschenswert macht. Genauso gut möglich ist die Durchführung zu Beginn des nächsten Schuljahres, etwa von der zweiten oder dritten Woche an.
Die erstellte Sammlung von Einzelproblemen muss schrittweise in Testaufgaben umformuliert werden. Die Itemformulierung muss dem Inhalt möglichst gut entsprechen bzw. diesen sachangemessen und ökonomisch erfassen (mehr s. Kap. 4).
Es entsteht zunächst eine Test-Vorform, die der Endform schon möglichst nahe kommen soll. Das gilt für die Items, für deren Anordnung, eine eventuelle Bebilderung, für die Schriftart und Schriftgröße, für die notwendigen Übungs-beispiele, für die vollständige Testinstruktion u.ä. Da im weiteren Verlauf Items ausgeschieden werden, muss die Test-Vorform einige Items mehr (ca. 10 %) enthalten, als für die Endform angesetzt wird. Die Endform sollte altersgemäß als nicht zu lang konzipiert werden und darf für die Schüler nicht mehr als eine Schulstunde in Anspruch nehmen, es sei denn, es handelt sich um einen sogenannten Mehrfächertest.
Die Vorform könnte man von den Experten prüfen und beurteilen und an einigen Kindern/Jugendlichen ausprobieren lassen, ob diese damit grundsätzlich zurecht-kommen.
Die eigentliche Erprobung der Test-Vorform soll an einer Stichprobe von mehreren hundert Schülern, verteilt auf Klassen in unterschiedlichen Schulen und Regionen, vorgenommen werden. Je nach Anwendungsziel kann die Testdurchführung von den Klassen- oder Fachlehrern durchgeführt werden, wenn man die berechtigte Hoffnung hat, dass sich diese an die Instruktion halten und vor allem keine unerlaubten Hilfen geben. Ansonsten müssen die Testerhebungen vom Testautor selbst mit eigens geschulten Mitarbeitern durchgeführt werden.
Mit dem an der Vorform gewonnenen Datensatz wird dann die Itemanalyse gerechnet. Es wird dabei für jedes Item der Schwierigkeitsgrad p bestimmt. Dieser gibt an, wieviel Prozent der Schüler aus der Eichstichprobe das Item richtig gelöst haben. So bedeutet ein p von 89 ein leichtes Item, das von 89 % der Teilnehmer der Eichstichprobe gelöst wurde; ein p von 48 dagegen ist ein mittelschweres Item, das nur von 48 % gelöst wurde. Bei Statistik-Programmen wird das p auch als Hundertstel angegeben, also hier p = .89 bzw. p = .48).

Entscheidender ist der Trennschärfeindex, der für jedes Item ermittelt wird; wenn eine Differenzierung des Tests in Subtests vorliegt, wird das für jeden Subtest getrennt vorgenommen. Der Trennschärfeindex gibt an, wie gut das jeweilige Item zwischen starken und schwachen Schülern im gemessenen Gebiet (z.B. Englischleistung 6. Jhg. Gymnasium) unterscheiden kann. Es geht anders ausgedrückt darum, wie gut das eine Item die Leistung des ganzen Tests verkörpern kann. Zur Berechnung verwendet man einen speziellen Korrelationskoeffizienten (den punktbiserialen), bei dem dieses eine Item mit dem durch-schnittlichen, bereinigten Summenscore des Tests (Anzahl der richtigen Antworten unter Weglassung des jeweiligen Items) korreliert wird. (Berechnung s. Lienert und Raatz, 1998, S. 78 ff., ein vereinfachtes Verfahren s. Schelten, 1997, 132 ff). Wie bei allen Korrelations-koeffizienten entsteht bei dieser Berechnung eine Zahl zwischen -1 und 1. Tab. 10.2 zeigt eine gewichtete Zusammenstellung der Trennschärfeindizes von Ebel (nach Schelten, 1997). Hohe Trennschärfeindizes sind eine Voraussetzung für eine hohe Reliabilität.

Tabelle 10.2: Kritische Größen der Trennschärfeindizes und Empfehlungen zu deren Handhabung bei der Testkonstruktion nach Ebel, 1972, angelehnt an Schelten, 1997, S. 135.
Trennschärfeindex	Empfehlung
.4 und größer	Maximal
.3 - .39	Gut, evtl. verbessern
.2 - .29	Kaum brauchbar, dringend verbessern
unter .19	Item eliminieren oder grundlegend verbessern

Die Aufgabe bei diesem Schritt der Testkonstruktion heißt also, die Items mit den zu niedrigen Trennschärfeindizes zu eliminieren oder, falls das möglich sein sollte, zu verbessern. Zur Reihenfolge der Items kann man geteilter Meinung sein. Wir vertreten die Position, dass die Reihenfolge dem Schwierigkeitsgrad nach abgewechselt werden sollte. Es zeigt sich nämlich, dass bei ansteigendem Schwierigkeitsgrad die Schüler demotiviert werden und die sonst gut erkennbare Freude an der Mitarbeit schwindet. Ganz am Anfang sollte ohnedies ein leichtes Item stehen, das gelegentlich als Eisbrecher bezeichnet wird. Es sollten im Ganzen aber durchaus auch einige recht schwere und einige zu leichte Items enthalten sein, um im oberen und im unteren Extrembereich auch noch Unterschiede sichtbar zu machen. Das würde dann bedeuten, dass man bei diesen Items einen eher niedrigen Trennschärfeindex in Kauf nehmen muss, denn die hohen Trennschärfeindices gelingen besonders gut bei einem mittleren Schwierigkeitsgrad (Schelten, 1997, S. 134; Kleber, 1979, S. 6-68). – Die andere Position wäre, die Items nach aufsteigendem Schwierigkeitsgrad zu ordnen, was bei Speedtests gemacht wird.

Die endgültige Normierung. Hier wird eine repräsentative Stichprobe der Grundgesamtheit vorausgesetzt (s. z.B. Kubinger, 2009, S. 68-80). Die Grundgesamtheit z.B. für einen deutschlandweiten Englischtest für die 5. Jahrgangsstufe im Gymnasium wird von allen Schülerinnen und Schülern der 5. Gymnasialklassen in Deutschland gebildet. Die repräsentative Stichprobe muss als stark verkleinertes Abbild erstellt werden. Dabei ist auf die relative Verteilung mehrerer Personenvariablen zu achten, nämlich Geschlecht, Schicht, Bundesland, evtl. Gymnasialtyp. Faktisch erreicht man das durch regional breite Streuung der zugezogenen Schulen, in Großstädten auch nach Stadtteil, weil dadurch die soziale Schicht mit berücksichtigt ist. Für eine bundesweite Stichprobe sollten dann schon einige Tausend Schülerinnen und Schüler einbezogen sein.
Die Durchführung muss streng nach Instruktion geschehen. Das entscheidende Ergebnis der Normierung ist die Normtabelle. Diese sollte deutlich im Anhang des Tests abgedruckt sein, eventuell getrennt für Untergruppen. Zusätzlich sind Tabellen mit Angaben zu Schwierigkeitsgrad und Trennschärfeindex der Items sinnvoll. Das Manual selbst muss die möglichst empirisch gewonnenen Aussagen zu den drei Hauptgütekriterien enthalten, nämlich zu Objektivität, Reliabilität und Validität.