Diagnostische Methoden IV: Schulleistungstests (Testbeispiele. Kennen lernen unterschiedlicher schulrelevanter Testtypen und ihrer Anwendungsbedingungen)

Website:	WueCampus
Kurs:	vhb - Pädagogisch-Psychologische Diagnostik und Evaluation - Demo
Buch:	Diagnostische Methoden IV: Schulleistungstests (Testbeispiele. Kennen lernen unterschiedlicher schulrelevanter Testtypen und ihrer Anwendungsbedingungen)

Gedruckt von:	Gast
Datum:	Donnerstag, 28. November 2024, 03:35

Beschreibung

Inhaltsverzeichnis

Hans-Peter Trolldenier, Würzburg - Diagnostische Methoden IV: Schulleistungstests (Testbeispiele. Kennen lernen unterschiedlicher schulrelevanter Testtypen und ihrer Anwendungsbedingungen)
1. Eine erste Bestimmung: Was sind Schulleistungstests und was sind sie nicht? Und: Was ist eigentlich Schulleistung?
2. Typen von Schulleistungstests nach dem Vergleichsmaßstab
3. Typen von Schulleistungstests nach Standardisierungsgrad
- 3.1 Der standardisierte Schulleistungstest als Schulleistungstest schlechthin
- 3.2 Der informelle Schulleistungstest als wenig definiertes Mittelstück zwischen standardisiertem Schulleistungstest und Schulaufgaben/ Probearbeiten
4. Itemformen bei Schulleistungstests und Hinweise zu deren Ausgestaltung
5. Quantitative und qualitative Auswertungen
6. Möglichkeiten und Grenzen der Anwendung von Schulleistungstests
- 6.1 Anwendung durch Lehrkräfte
- 6.2 Anwendung durch andere Personen und Gruppen
7. Einteilung und Überblick über das derzeitige Vorkommen von Schulleistungstests
- 7.1 Inhaltliche Einteilungen
- 7.2 Ein Gesamtüberblick
8. Welchen Schulleistungstest wozu?
9. Literaturempfehlungen
10. Literaturverzeichnis
11. Übungsfragen

Hans-Peter Trolldenier, Würzburg - Diagnostische Methoden IV: Schulleistungstests (Testbeispiele. Kennen lernen unterschiedlicher schulrelevanter Testtypen und ihrer Anwendungsbedingungen)

Ziele

Die genannten diagnostischen Methoden verstehen und anwenden können, ihre jeweiligen Stärken und Schwächen und Probleme bei der Anwendung beurteilen können, die passende Methode für die jeweilige Fragestellung auswählen und begründen können, die Ergebnisse des jeweiligen Verfahrens sinnvoll interpretieren können.

1. Eine erste Bestimmung: Was sind Schulleistungstests und was sind sie nicht? Und: Was ist eigentlich Schulleistung?

Wenn ein Dozent in einem Diagnostik-Seminar für Lehramtsstudierende fragt, was denn eigentlich im Kontext der pädagogisch-psychologischen Diagnostik alles als Test bezeichnet wird, so werden unter Umständen alle schriftlichen und mündlichen und vielleicht auch handlungspraktischen Prüfverfahren genannt, die im schulischen Kontext üblich sind. Das ist das Ergebnis einer inflationären Verwendung des Testbegriffs, welche von der reinen Wortbedeutung (Probe, Prüfung) her sogar verständlich ist.

Spezieller fassen müssen wir aber den Testbegriff in der Psychologie. Ein Prüfverfahren ohne Konstruktion auf der Basis testtheoretischer Grundlagen und ohne vorherige Erprobung soll nicht als psychologischer Test bezeichnet werden. Damit können wir bereits festhalten: Schulaufgaben oder Probearbeiten (Bezeichnung je nach Schulart) oder Kollegstufen-klausuren im Gymnasium, sowie Stegreifaufgaben oder Extemporalien, praktische Prüfungen in den musischen Fächern Musik, Kunsterziehung oder Sport sowie in Handarbeit, technischem Werken u.ä., die üblicherweise zur Gewinnung von vorgeschriebenen Leistungs-urteilen (Schulnoten) abgehalten werden, sind keine psychologischen Tests. Der in dieser Lehreinheit 10 thematisierte Schulleistungstest, gleich welchen Typs, ist aber ganz eindeutig ein psychologischer Test und setzt sich also von allen üblichen schriftlichen Verfahren zur Notengewinnung ab, auch von den genauso notwendigen und üblichen mündlichen Abfragen sowie praktischen Prüfungen. Die durchaus übliche Bezeichnung "standardisierter Schul-leistungstest" soll das Vorhandensein einer testtheoretischen Basis gewährleisten, sowie eine Orientierung an den Hauptgütekriterien Objektivität, Reliabilität und Validität und an den wichtigsten Nebengütekriterien und einem gewissen Mindeststandard in deren Erfüllung (s. Lehreinheit 4: Qualität von Diagnostik). Der Zusatz "standardisiert" scheint mir im Rahmen dieser Lehreinheit entbehrlich zu sein, weshalb er von nun an kaum mehr auftauchen wird, aber bei Verwendung des Begriffs "Schulleistungstest" immer mit gemeint ist.

Dieser Abgrenzung nach Theorie und Konstruktion folgt nun eine Abgrenzung nach dem Inhalt. Bevor wir diese vollziehen können, braucht man noch folgende Klärung:

Es gibt eine große Zweiteilung der psychologischen Diagnostik, nämlich einerseits in Prüfverfahren im Persönlichkeits- und Sozialbereich (Beispiele: Lernmotivationstest, Angsttest, Interaktionsprozessanalyse nach Bales, Soziometrie, s. Lehreinheiten 9 und 10 im Modul "Differentielle Psychologie" und 7 und 8 im Modul "Pädagogisch-psychologische Diagnostik") und andererseits in Prüfverfahren im Leistungsbereich. Zweifellos gehören die Schulleistungstests zum Leistungsbereich. Sie sind innerhalb dieser großen Gruppe zunächst einmal abzusetzen von den bekanntesten Repräsentanten, nämlich den Intelligenztests. Intelligenz ist schließlich ein anderes Konstrukt als Schulleistung (s. Lehreinheiten 2, 3 und 4 im Modul "Differentielle Psychologie"). Ebenso wenig gehören sie zu den sogenannten Allgemeinen Leistungstests (Konzentrations- und Aufmerksamkeitstests).

Eine weitere Abgrenzung erfolgt von solchen benachbarten Verfahren, die auch im pädagogischen Feld angewendet werden: Tests im vorschulischen Bereich, etwa zur Erfassung von Vorläuferfertigkeiten des Lesens und Schreibens, oder Einschulungstests (s. Lehreinheit 9) sind ebenso wenig Schulleistungstests wie Leistungstests zum Gedächtnis oder auch zur Verfügbarkeit des Wortschatzes im geronto-psychologischen oder im klinisch-psychologischen Kontext.

Eine schematische Darstellung der terminologischen Unterscheidungskriterien zur nachbar-schaftlichen Abgrenzung des Schulleistungstests findet sich in Tabelle 10.1.

Tabelle 10.1: Schulleistungstests in der Nachbarschaft von Verfahren zur Leistungsprüfung, die in der pädagogisch-psychologischen Diagnostik beschrieben und erforscht werden (nicht einbezogen sind die verwendeten Verfahren der großen nationalen und internationalen Leistungsvergleiche, weil diese sich hier nicht ohne Weiteres einordnen lassen und zudem den Teilnehmerinnen und Teilnehmern des Moduls nicht zugänglich sind).
	Konventionelle Leistungsbeurteilung:	Informeller Schulleistungs-test:	Standardisierter Schulleistungs-test:	Intelligenztests; allgemeine Leistungstests:
Merkmale	Schulaufgaben, Probearbeiten, Stegreif-aufgaben, Oberstufen-klausuren; mündl. Abfrage	z.B. regional orientierte Leistungsstands-erhebungen	normorientierter Schulleistungstest (z.B. DEMAT 4+) oder kriteriums-orientierter Schulleistungstest	Einzel-intelligenztest (z.B. HAWIK IV) Konzentrations-test (z.B. d2)
auf Testtheorie basiert	kaum	wenig	ja	ja
Lehrplan-bezug	ja	ja	ja	nein
von Lehrkräften erstellt	ja	meist	nein, aber mithilfe von Lehrkräften	nein
von Lehrkräften einsetzbar	ja	gut möglich	gut möglich	nein

Klar geworden ist sicher: Schulleistungstests erfassen Schulleistung. Da stellt sich aber noch die Frage: Was ist Schulleistung?

Weinert (2001, S. 76) stellt die provokative Frage: "Schulleistungen – Leistungen der Schule oder der Schüler"? Es mag beides gelten. Mit Schulleistungen erfasst werden jedenfalls die individuellen schulischen Kenntnisse und Fähigkeiten der Schülerinnen und Schüler, und zwar immer operationalisiert nach dem engeren Kontext.

Diese Kenntnisse und Fähigkeiten lassen sich in unterschiedlicher Weise festlegen. Zum einen kann man das mit dem jeweiligen Lehrplan tun, also schultyp-, schulfach- und jahrgangsspezifisch. Zum anderen können auch über Schularten und sogar Ländergrenzen hinweg Konstrukte gebildet werden, welche die Lern- und Bildungsinhalte kristallisieren, nämlich die in den internationalen Vergleichsstudien benötigten Kompetenzen, in der PISA-Studie die Bereiche Lesekompetenz (Reading Literacy), mathematische Grundbildung (Mathematical Literacy), naturwissenschaftliche Grundbildung (Scientific Literacy) und fächerübergreifende Kompetenzen (Cross-Curricular Competencies) (Baumert, Stanat & Demmrich, 2001, S. 15/16). Das sind Konstrukte, welche die kognitive Durchdringung durch die Schüler und Schülerinnen meinen, häufig geprüft mit lebenspraktischen Fragestellungen, weltweit einsetzbar und eben nicht eng lehrplanorientiert (s. auch Arnold, 2001).

Der Begriff des Schulleistungstests in dieser Lehreinheit ist an der ersten dieser beiden Möglichkeiten orientiert, also eindeutig lehrplanbezogen und damit nah an der jeweiligen Schulrealität. Das hat Vorteile und Nachteile. Der Vorteil liegt in der konkreteren und breiteren Verwertbarkeit der Ergebnisse (s. Kapitel 6). Ein Nachteil liegt in der dadurch gleichzeitig entstehenden Enge des Anwendungsbezugs, weshalb ja für die länderüber-greifenden Studien das Kompetenz-Konzept herhalten muss.

Weil also der Lehrplanbezug hier eine so große Rolle spielt, wird er in Unterkapitel 2.1.3 noch einmal hervorgehoben. Eine andere Entwicklung soll hier noch genannt werden. Es gibt bei den Schulleistungstests zunehmend Differenzierungen, die über eine bloße Prüfung der Leistungsmenge hinausgehen und Basisvariablen der geprüften Schulleistung angehen, welche zu Stütz- und Fördermaßnahmen und bei wissenschaftlichen Studien für grund-sätzliche Erklärungen verwendbar sind (s. etwa Wilhelm & Kunina, 2009). Das ist aber keine Alternative, sondern eine Bereicherung.

2. Typen von Schulleistungstests nach dem Vergleichsmaßstab

Kritische Leserinnen und Leser werden hier einhaken und sagen: Jetzt endlich, nach all der Vorrede, wollen wir wissen, was Schulleistungstests denn wirklich sind. Eine verständliche Antwort erfordert aber noch die folgende Zweiteilung nach dem zugrunde liegenden Vergleichsmaßstab, nämlich in normorientierte und in kriteriumsorientierte Schulleistungs-tests.

Zunächst aber noch eine allgemeine Begriffsbestimmumg des psychologischen Tests, nach dem sehr bekannten Lehrbuch von Lienert und Raatz (1998, S. 1). Die Definition lautet hier folgendermaßen: „Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung.“

Als kurze Aufschlüsselung: „Wissenschaftlich“ meint hier, dass wissenschaftliche Theorien bei der Entstehung im Vordergrund stehen müssen, hier insbesondere die Beachtung der Testgütekriterien Objektivität, Reliabilität und Validität (s. Lehreinheit 4 oder für Schul-leistungstests Roick, 2008). Von „Routineverfahren“ ist die Rede, weil der Testleiter keine eigenen Entscheidungen fällen soll, sondern alles, was er zu tun hat, vom Testautor in der Testinstruktion festgelegt sein muss. „Empirisch abgrenzbare Persönlichkeitsmerkmale“ sind dann gegeben, wenn zu den erfassten Inhalten schon Vorstudien gelaufen sind, in denen quantitative Erfassungen dieser Merkmale (z.B. Rechtschreibfähigkeit) in operationa-lisierbarer Form bereits erfolgreich vorgenommen werden konnten. Die gewünschte „quantitative Aussage“ ist ein in Zahlen fassbares Ergebnis. Ein „relativer Ausprägungsgrad“ ist dann gegeben, wenn das Ergebnis mit dem von anderen Menschen (den Versuchspersonen der Eichstichprobe) oder mit einem Kriterium verglichen werden kann (Versuchspersonen, abgekürzt Vpn., nennt man die Personen, die an einer Studie teilnehmen, die dem Fortschritt der Wissenschaft dient. Probanden, abgekürzt Pbn. nennt man dagegen die Personen, die mit Hilfe eines Test untersucht werden und bei denen das Ergebnis eine persönliche Bedeutung hat und für Entscheidungen oder Beratung verwendet wird). Von jedem Pb. muss mit Hilfe eines Tests eine „individuelle Merkmalsausprägung“, also ein Einzelergebnis in der gemessenen Dimension, gewonnen werden können.

2.1 Normorientierte Schulleistungstests

Dieser Typ von Schulleistungstest ist der am stärksten verbreitete und im Grunde (fast) der einzige, der als direkt verwendbarer Test ausgearbeitet, publiziert und käuflich erwerbbar ist.

2.1.1 Einige allgemeine Aussagen zum normorientierten Schulleistungstest

Der normorientierte Schulleistungstest (bei Lukesch 1998 „sozialnormorientierter Schulleistungstest“) heißt so, weil die Ergebnisse auf dem Hintergrund eines Vergleichs mit den Leistungen anderer Schüler und Schülerinnen abgebildet werden (soziale Bezugsnorm). Insofern ist die Bezeichnung bei Lukesch nicht verkehrt, wird hier aber, weil sie doch recht lang ist und sich auch kaum eingeführt hat, doch nicht verwendet. Die beiden anderen Möglichkeiten einer Bezugsnorm zur Abbildung der Ergebnisse sind die sachliche (oder kriteriale) Bezugsnorm (die Leistungen einer Schülers werden mit den von der Sache kommenden, inhaltlichen Forderungen verglichen, also mit den Lehrplaninhalten. S. Unterkap. 2.1.3) und die individuelle Bezugsnorm (die Leistungen eines Schülers werden mit seinen eigenen, zurückliegenden Leistungen verglichen). Letzteres hat keinen Bezug zur Testnormierung.

Psychologische Tests werden vom Autor für den Nutzer meist recht ausführlich beschrieben, und zwar im Testmanual oder Testhandbuch. Hier wird Rechenschaft abgelegt über Ziel-setzung, Konstruktion, Aufbau und Handhabung des Tests.

2.1.2 Der normorientierte Schulleistungstest auf der Basis der „Klassischen Testtheorie“

Eine zentrale Rolle bei der meist zugrunde gelegten Klassischen Testtheorie spielt die Messfehlertheorie (s. Lehreinheit 3), bei der man die Ungenauigkeit einer Messung mithilfe des normorientierten Tests bereits annimmt und dazu Axiome (Grundannahmen) aufstellt. Das wichtigste besagt, dass jedes Testergebnis sich aus einem wahren Wert und einem Fehlerwert zusammensetzt. Je geringer der Anteil des Fehlerwerts ist, desto genauer ist die Messung (s. Reliabilität, Lehreinheit 4).

2.1.3 Der Lehrplanbezug als besonders wichtiges Merkmal von Schulleistungstests

Jeder psychologische Test hat einen genau definierten Inhaltsbereich zu erfassen. Dieser Zusammenhang spielt bei der Prüfung der Validität (s. Lehreinheit 4) eine Rolle. Schlicht formuliert müssen Testüberschrift und Testinhalt weitgehend zusammenfallen. Ein Test zur Prüfung von Kenntnissen und Fähigkeiten im Fach Erdkunde muss eben Kenntnisse und Fähigkeiten in Erdkunde erfassen und darf nicht von jemandem lösbar sein, der nur über eine gute Allgemeinintelligenz und gute Sprachkenntnisse verfügt und keine Erdkundekenntnisse besitzt. Das gilt analog für sämtliche Schulleistungstests, die ja schließlich alle an einem bestimmten, benannten Schulfach ausgerichtet sind.

Die Frage, wo denn eigentlich Schulfachinhalte definiert sind, ist vom Insider rasch beantwortet: Der Lehrplan bzw. das Curriculum ist der Ort, an dem der Inhalt eines jeden Fachs für die Lehrkräfte verbindlich vorgeschrieben ist. Damit mag vielleicht eine Eingangsfrage gelöst sein, aber nicht alle weiteren. Vielmehr tauchen neue Probleme auf, denn der Lehrplan z.B. für Deutsch ist nicht einfach der Lehrplan für Deutsch, sondern er unterscheidet sich, wie alle anderen auch, nach

Schulart (also z.B. Gymnasium, Realschule oder Hauptschule).
Jahrgangsstufe (also z.B. 4. Jahrgangsstufe). Eine zusätzliche Unterscheidung nach Alter der Schüler kann gelegentlich vorkommen, gilt aber im Zusammenhang unseres Themas meist als irrelevant.
Ländern, in denen in deutscher Sprache unterrichtet wird. Das sind jetzt nicht etwa nur die Länder Deutschland, Österreich und Schweiz (einmal der Größe nach geordnet), sondern innerhalb Deutschlands die 16 Bundesländer und innerhalb der Schweiz die 26 Kantone, die weitgehend selbstständige Schulpolitik machen und meist Lehrpläne mit gewissen Unterschieden hervorgebracht haben. Nicht so in Österreich, wo die Bildungshoheit beim Bund liegt.

Exkurs

Alternativen zum Lehrplan eines Bundeslands:

Kleine Gegenbewegungen in Deutschland sind etwa der Rahmenlehrplan Deutsch Grundschule, gemeinsam für die vier Bundesländer Brandenburg, Berlin, Mecklenburg-Vorpommern und Bremen entwickelt:

http://bildungsserver.berlin-brandenburg.de/fileadmin/bbb/unterricht/rahmenlehrplaene_und_curriculare_materialien/grundschule/Deutsch-RLP_GS_2004_Brandenburg.pdf

(Zugriff am 17.12.2012)

oder die Entwicklung von Rahmenlehrplänen der Deutschen Kultusministerkonferenz (KMK)

http://www.berlin.de/imperia/md/content/sen-bildung/schulorganisation/lehrplaene/sek2_deutsch.pdf?start&ts=1245159490&file=sek2_deutsch.pdf

(Zugriff am 16.01.2011)

oder eine begonnene Entwicklung zu länderübergreifenden "Bildungsstandards", die aber noch keine allgemeinverbindliche Verpflichtung bedeuten:

http://www.bildungsstandards.de

(Zugriff am 17.12.2012)

Testautoren müssen also ihre Schulleistungstests ausrichten nach Schulfach (oder Teil eines Schulfachs), Schultyp und Jahrgangsstufe, also z.B. Rechtschreiben, 2. Jahrgang, Grund-schule (und gegebenenfalls auch 3. Jahrgang Förderschule für Lernbeeinträchtigte bzw. in Bayern sonderpädagogische Diagnose- und Förderklasse 2, früher Sonderschule für Lern-behinderte, 3. Jahrgang). Bei Anwendungen des Tests in zwei Schultypen, z.B. Realschule und Gymnasium, müssen dann zwei getrennte Normtabellen erstellt werden.

Der Umgang mit den Unterschieden in den Bundesländern erfordert eine besondere Maßnahme: Den Unterschieden in den Lehrplänen kann der Testautor insbesondere dadurch gerecht werden, indem er gemeinsame Schnittmengen der Stoffinhalte bildet. Das geht in vielen Fällen gut, kann aber natürlich dazu führen, dass einzelne Teilziele aus Lehrplänen wegbleiben (davon berichten z.B. Krajewski, Liehm & Schneider, 2004, S. 13).

Da ein Anwendungsziel des Schulleistungstests in der Beratung von Lehrpersonen zur gezielteren Anwendung von Hilfs- und Stützmaßnahmen ihrer Schüler liegt, ist es klar, dass der Lehrplanbezug auf die konkret vorliegende Jahrgangsstufe gegeben sein muss. Ähnlich ist das übrigens auch bei Anwendung durch Schulberater (s. Unterkap. 6.1 und 6.2).

Aus all diesen Überlegungen erfolgt jetzt folgende Festlegung:

Bestimmungsmerkmale des Schulleistungstests

Ein Schulleistungstest ist ein psychologischer Test. Er hat eine testtheoretische Grundlage und muss sich im engeren Sinn beziehen auf

einen Schultyp
ein Schulfach (oder Teil eines Schulfachs)
eine Jahrgangsstufe

und damit auf den dafür gültigen Lehrplan. Fehlt einer dieser Bezugspunkte, so kann der Schulleistungstest nicht für alle (später noch ausführlich beschriebenen) Verwendungszwecke eingesetzt werden.

Die Festlegungen gelten für den norm- und für den später noch behandelten kriteriums-orientierten Schulleistungstest.

2.1.4 Die wichtigsten Konstruktionsschritte des normorientierten Schulleistungstests

Die oben aufgeworfene Frage nach der Bestimmung des Schulleistungstests ist mit Teilantworten angegangen worden, soll aber in konzentrischen Ringen weiter behandelt werden. Inzwischen ist es für das Verständnis des Anwenders günstig, die Entstehung des normorientierten Schulleistungstests in großen Schritten zu begleiten:

Festlegung von Inhalt, Schultyp und Jahrgangsstufe (s.o.).
Kritische inhaltliche Prüfung des Lehrplans (der Lehrpläne), gegebenenfalls Schnitt-menge bilden.
Sichtung der Lehrplanziele mit Hilfe einer differenzierenden Lehrzielmatrix. Die hier in Frage kommenden kognitiven Lehrziele werden häufig nach Bloom in die folgenden sechs Bereiche aufgegliedert (zit. nach Lukesch 1998, S. 435): Wissen, Verständnis, Anwendung, Analyse, Synthese und Evaluation. Es wäre günstig, diese Bereiche in der Itemkonstruktion zu berücksichtigen, wenn das Stoffgebiet das hergibt. Nötig ist dann die Bildung eines repräsentativen Itempools, d.h. Umsetzung der wichtigsten Lehrplanziele in Einzel-probleme. Dazu sollte ein/e Testautor/in, meist Psychologe/Psychologin, sich die Hilfe von Lehrplanexperten verschaffen. Das wären etwa besonders aktive Lehrkräfte, die einerseits den Unterricht in diesem Fach und dieser Jahrgangsstufe aus eigener Tätigkeit heraus kennen, aber auch Grundkenntnisse in pädagogisch-psychologischer Diagnostik haben. Der Inhalt erfasst stets den gesamten Lehrplanstoff eines Schuljahres. Damit ist auch der Durchführungszeitraum festgelegt: Er soll bei Untersuchung der ganzen Klasse durch Lehrkräfte am Ende des Schuljahres so liegen, dass die Schüler (bzw. die Lehrkräfte) mit dem Durcharbeiten des Lehrplans fertig sind, aber nicht in den allerletzten Tagen des Schuljahres. In diesen erreichen nämlich erfahrungsgemäß die Schüler nicht mehr ihr sonstiges Leistungsniveau im Hinblick auf Motivation, Konzentration und Mitarbeitsbereitschaft und damit ihr schulisches Wissen und Können, ganz abgesehen davon, dass eine Verwendung der Ergebnisse eine etwas frühere Durchführung ohnedies wünschenswert macht. Genauso gut möglich ist die Durchführung zu Beginn des nächsten Schuljahres, etwa von der zweiten oder dritten Woche an.
Die erstellte Sammlung von Einzelproblemen muss schrittweise in Testaufgaben umformuliert werden. Die Itemformulierung muss dem Inhalt möglichst gut entsprechen bzw. diesen sachangemessen und ökonomisch erfassen (mehr s. Kap. 4).
Es entsteht zunächst eine Test-Vorform, die der Endform schon möglichst nahe kommen soll. Das gilt für die Items, für deren Anordnung, eine eventuelle Bebilderung, für die Schriftart und Schriftgröße, für die notwendigen Übungs-beispiele, für die vollständige Testinstruktion u.ä. Da im weiteren Verlauf Items ausgeschieden werden, muss die Test-Vorform einige Items mehr (ca. 10 %) enthalten, als für die Endform angesetzt wird. Die Endform sollte altersgemäß als nicht zu lang konzipiert werden und darf für die Schüler nicht mehr als eine Schulstunde in Anspruch nehmen, es sei denn, es handelt sich um einen sogenannten Mehrfächertest.
Die Vorform könnte man von den Experten prüfen und beurteilen und an einigen Kindern/Jugendlichen ausprobieren lassen, ob diese damit grundsätzlich zurecht-kommen.
Die eigentliche Erprobung der Test-Vorform soll an einer Stichprobe von mehreren hundert Schülern, verteilt auf Klassen in unterschiedlichen Schulen und Regionen, vorgenommen werden. Je nach Anwendungsziel kann die Testdurchführung von den Klassen- oder Fachlehrern durchgeführt werden, wenn man die berechtigte Hoffnung hat, dass sich diese an die Instruktion halten und vor allem keine unerlaubten Hilfen geben. Ansonsten müssen die Testerhebungen vom Testautor selbst mit eigens geschulten Mitarbeitern durchgeführt werden.
Mit dem an der Vorform gewonnenen Datensatz wird dann die Itemanalyse gerechnet. Es wird dabei für jedes Item der Schwierigkeitsgrad p bestimmt. Dieser gibt an, wieviel Prozent der Schüler aus der Eichstichprobe das Item richtig gelöst haben. So bedeutet ein p von 89 ein leichtes Item, das von 89 % der Teilnehmer der Eichstichprobe gelöst wurde; ein p von 48 dagegen ist ein mittelschweres Item, das nur von 48 % gelöst wurde. Bei Statistik-Programmen wird das p auch als Hundertstel angegeben, also hier p = .89 bzw. p = .48).

Entscheidender ist der Trennschärfeindex, der für jedes Item ermittelt wird; wenn eine Differenzierung des Tests in Subtests vorliegt, wird das für jeden Subtest getrennt vorgenommen. Der Trennschärfeindex gibt an, wie gut das jeweilige Item zwischen starken und schwachen Schülern im gemessenen Gebiet (z.B. Englischleistung 6. Jhg. Gymnasium) unterscheiden kann. Es geht anders ausgedrückt darum, wie gut das eine Item die Leistung des ganzen Tests verkörpern kann. Zur Berechnung verwendet man einen speziellen Korrelationskoeffizienten (den punktbiserialen), bei dem dieses eine Item mit dem durch-schnittlichen, bereinigten Summenscore des Tests (Anzahl der richtigen Antworten unter Weglassung des jeweiligen Items) korreliert wird. (Berechnung s. Lienert und Raatz, 1998, S. 78 ff., ein vereinfachtes Verfahren s. Schelten, 1997, 132 ff). Wie bei allen Korrelations-koeffizienten entsteht bei dieser Berechnung eine Zahl zwischen -1 und 1. Tab. 10.2 zeigt eine gewichtete Zusammenstellung der Trennschärfeindizes von Ebel (nach Schelten, 1997). Hohe Trennschärfeindizes sind eine Voraussetzung für eine hohe Reliabilität.

Tabelle 10.2: Kritische Größen der Trennschärfeindizes und Empfehlungen zu deren Handhabung bei der Testkonstruktion nach Ebel, 1972, angelehnt an Schelten, 1997, S. 135.
Trennschärfeindex	Empfehlung
.4 und größer	Maximal
.3 - .39	Gut, evtl. verbessern
.2 - .29	Kaum brauchbar, dringend verbessern
unter .19	Item eliminieren oder grundlegend verbessern

Die Aufgabe bei diesem Schritt der Testkonstruktion heißt also, die Items mit den zu niedrigen Trennschärfeindizes zu eliminieren oder, falls das möglich sein sollte, zu verbessern. Zur Reihenfolge der Items kann man geteilter Meinung sein. Wir vertreten die Position, dass die Reihenfolge dem Schwierigkeitsgrad nach abgewechselt werden sollte. Es zeigt sich nämlich, dass bei ansteigendem Schwierigkeitsgrad die Schüler demotiviert werden und die sonst gut erkennbare Freude an der Mitarbeit schwindet. Ganz am Anfang sollte ohnedies ein leichtes Item stehen, das gelegentlich als Eisbrecher bezeichnet wird. Es sollten im Ganzen aber durchaus auch einige recht schwere und einige zu leichte Items enthalten sein, um im oberen und im unteren Extrembereich auch noch Unterschiede sichtbar zu machen. Das würde dann bedeuten, dass man bei diesen Items einen eher niedrigen Trennschärfeindex in Kauf nehmen muss, denn die hohen Trennschärfeindices gelingen besonders gut bei einem mittleren Schwierigkeitsgrad (Schelten, 1997, S. 134; Kleber, 1979, S. 6-68). – Die andere Position wäre, die Items nach aufsteigendem Schwierigkeitsgrad zu ordnen, was bei Speedtests gemacht wird.

Die endgültige Normierung. Hier wird eine repräsentative Stichprobe der Grundgesamtheit vorausgesetzt (s. z.B. Kubinger, 2009, S. 68-80). Die Grundgesamtheit z.B. für einen deutschlandweiten Englischtest für die 5. Jahrgangsstufe im Gymnasium wird von allen Schülerinnen und Schülern der 5. Gymnasialklassen in Deutschland gebildet. Die repräsentative Stichprobe muss als stark verkleinertes Abbild erstellt werden. Dabei ist auf die relative Verteilung mehrerer Personenvariablen zu achten, nämlich Geschlecht, Schicht, Bundesland, evtl. Gymnasialtyp. Faktisch erreicht man das durch regional breite Streuung der zugezogenen Schulen, in Großstädten auch nach Stadtteil, weil dadurch die soziale Schicht mit berücksichtigt ist. Für eine bundesweite Stichprobe sollten dann schon einige Tausend Schülerinnen und Schüler einbezogen sein.
Die Durchführung muss streng nach Instruktion geschehen. Das entscheidende Ergebnis der Normierung ist die Normtabelle. Diese sollte deutlich im Anhang des Tests abgedruckt sein, eventuell getrennt für Untergruppen. Zusätzlich sind Tabellen mit Angaben zu Schwierigkeitsgrad und Trennschärfeindex der Items sinnvoll. Das Manual selbst muss die möglichst empirisch gewonnenen Aussagen zu den drei Hauptgütekriterien enthalten, nämlich zu Objektivität, Reliabilität und Validität.

2.1.5 Die Normtabelle als ein zentrales Merkmal des normorientierten Schulleistungstests

Der bereits erwähnte Vergleich der Leistungen eines einzelnen Schülers mit dem anderer Schüler steht beim normorientierten Schulleistungstest auf stabilen Füßen. Aus Ergebnissen der großen Eichstichprobe errechnet der Testautor mit Hilfe eines der gängigen Statistikprogramme die Normtabelle. Dabei wird die empirische Verteilung der Eichstich-probe (Rohpunktverteilung) in die Normalverteilung überführt.

Unter Verwendung der Normtabelle ist der Testanwender nicht mehr nur auf die Rohpunktsumme angewiesen, welche, bei strenger Betrachtung, nur das Rangskalen-Niveau erreicht. Für den Anwender wichtig: Mit der Rohpunktsumme alleine kann keine Interpretation des individuellen Endergebnisses eines Schülers vorgenommen werden.

Ziel der statistischen Bearbeitung des Testautors und der Anwendung der Normtabelle durch den Testnutzer ist es, das Testergebnis in Standardwerte zu verwandeln und damit auf Intervallskalen-Niveau zu bringen (Lehreinheiten 4 und 5). Die für normorientierte Schul-leistungstests dabei eindeutig am meisten angewendete Skala ist die T-Skala mit dem Mittelwert von 50 und der Standardabweichung von 10 T-Punkten (s. Abb. 10.1). In Abbildung 10.1 sieht man auch, welchem Punkt der Normalverteilung ein T-Wert entspricht. Wenn ein Einzelergebnis (Rohwert) in einen T-Wert verwandelt ist, hat man mit diesem T-Wert gleich die interpretierbare Position des Schülers im gemessenen Merkmal, z.B. Rechtschreibfähigkeit im 5. Jahrgang Realschule.

Abbildung 10.1: Vergleich verschiedener Standardwerte und ihre Relation zur Normalverteilung, in Anlehnung an Michel & Conrad 1982, S. 78.

Nun gibt es außer dem T-Wert, in den sich die Nutzer erst einarbeiten müssen, noch eine andere Standardskala, nämlich die Prozentrangskala. Sie hat, wie der Name mitteilt, kein Intervallskalen-Niveau sondern eben nur das Rangskalen-Niveau, gleicht diesen Nachteil aber ein Stück weit durch ihre hohe Anschaulichkeit aus. So bedeutet etwa ein Prozentrangwert (PR) von 15:

Dieser Schüler ist im gemessenen Merkmal gleich stark oder stärker als 15 % der Schüler der Eichstichprobe. Ist die Eichstichprobe repräsentativ – und das sollte sie sein – kann man gleich weiter ausgreifen:

Leseprobe: Beispiel für einen Prozentrangwert

Der Schüler mit dem PR-Wert von 15 ist im gemessenen Merkmal gleich stark oder stärker als 15 % aller Schüler des angesprochenen Jahrgangs.

Das ist also ein niedriger Wert und genau dieser ist oft als Grenze gebräuchlich, von der ab ("nach unten") eine Förderung dieses Schülers aufgenommen werden sollte.

Der Bereich durchschnittlicher Leistung liegt zwischen dem T-Wert von 40 und dem T-Wert von 60. Das entspricht ungefähr den PR-Werten von 15 und 85. Ergebnisse unter dem PR=15 gelten als unterdurchschnittlich, über PR=85 als überdurchschnittlich.

In der Abbildung 10.1 ist auch die IQ-Skala (Intelligenzquotient) mit aufgenommen. Diese kann bei Schulleistungstests definitionsgemäß nicht angewendet werden. Es gibt aber Fragestellungen, bei denen es interessant ist, die Intelligenz und die Schulleistung eines Schülers in einem oder in mehreren Fächern zu vergleichen, so etwa im Fall des Underachievements, also der erwartungswidrigen Schlechten (wie L. Kemmler 1970 formulierte). Solange man an der sogenannten Diskrepanzdefinition der Legasthenie festhält (wie etwa im Bayerischen Legasthenie-Erlass), verlangt die damit einhergehende Definition zur Vergabe der Diagnose Legasthenie eine Diskrepanz der Rechtschreibleistung von der Intelligenzleistung. Die Rechtschreibleistung muss 10 oder 15 (in Bayern willkürlich auf 12 festgesetzt) T-Wert-Punkte (= eine ganze oder eineinhalb Standardabweichungen) unter dem gemessenen IQ liegen. Wenn man in Abbildung 10.1 den IQ durch eine senkrechte Linien-ziehung nach unten in den analogen T-Wert verwandelt, kann man prüfen, ob eine solche Diskrepanz vorliegt (zur Problematik der Diskrepanzdefinition s. Weber & Marx, 2008).

Die Anwendung der eigentlichen Normtabelle (Beispiel: s. Tabelle 10.3) geschieht nach folgendem einfachen Prinzip: Man lege ein Lineal quer über die Tabelle und schaue auf der dadurch entstehenden waagrechten Linie nach, welchem PR-Wert und welchem T-Wert der erreichte Rohpunktwert entspricht. Ein Ablesebeispiel: Dem Rohwert von 26 entsprechen in diesem Test ein PR-Wert von 31 und ein T-Wert von 45, der als "wahrer" Wert zwischen 43 und 48 liegt (zur Axiomatik der Klassischen Testtheorie s. Lehreinheit 3).

Tabelle 10.3: Ein Beispiel für eine Normtabelle
Rohpunkte RP	Prozentrang PR	T-Wert	T-Wert-Band
0	1	28	28 - 32
1	3	31	28-32
2	3	31	28 - 33
3	4	32	28 - 33
4	4	32	31 - 34
5	4	33	31 - 35
6	5	33	32 - 35
7	5	34	32 - 35
8	6	35	33 - 36
9	7	35	33 - 36
10	7	35	34 - 37
11	8	36	35 - 38
12	8	36	35 - 38
13	9	37	35 - 39
14	11	38	36 - 39
15	12	38	36 - 40
16	13	39	37 - 40
17	14	39	38 - 41
18	16	40	38 - 42
19	17	40	39 - 42
20	18	41	39 - 43
21	20	42	40 - 44
22	22	42	40 - 44
23	24	43	42 - 45
24	26	44	42 - 46
25	29	44	42 - 47
26	31	45	43 - 48
27	34	46	44 - 48
28	37	47	44 - 49
29	40	48	45 - 50
30	44	48	46 - 51
31	47	49	47 - 53
32	51	50	48 - 54
33	55	51	48 - 55
34	60	53	49 - 57
35	65	54	50 - 59
36	70	55	51 - 60
37	75	57	53 - 62
38	80	59	54 - 65
39	85	60	55 - 68
40	89	62	57 - 72
41	93	65	59 - 78
42	96	68	60 - 78
43	99	72	62 - 78
44	100	78	65 - 78

Ein Beispiel für eine Normtabelle (als Vorlage dient ein fiktives Beispiel mit maximal 44 möglichen Rohpunkten. Die Eichung wurde hier an 1 535 Schülern der angesprochenen Jahrgangsstufe durchgeführt). Mithilfe dieser Normtabelle kann man jeden vorkommenden Rohwert in einen Prozentrangwert oder einen T-Wert verwandeln. Das T-Wert-Band gibt das Vertrauensintervall an, innerhalb dessen der wahre Wert mit einer Wahrscheinlichkeit von p=0,.68 oder p=0,95 (oft nicht angegeben) liegt.

Übung 1

Über den unten folgenden Link können Sie ein Video aufrufen, welches eine Musterlösung demonstriert.

https://wuecampus.uni-wuerzburg.de/moodle/mod/resource/view.php?id=186260

Geben Sie bitte einen Rohpunktwert ein und klicken Sie auf den Button "Lösung" um sich die referenzierten Werte anzeigen zu lassen.

Normtabellen eines Tests können auch getrennt für Untergruppen der Population angelegt werden. So kann man etwa denselben Rechtschreibtest für die 5. Jahrgangsstufe der Realschule und getrennt davon für die 5. Jahrgangsstufe des Gymnasiums normieren. Bei manchen normorientierten Schulleistungstests findet man auch zusätzlich zu der allgemeinen Normtabelle eigene Normtabellen für Jungen und Mädchen. Die Handhabung dieser so gewonnenen unterschiedlichen Standardwerte für Jungen und Mädchen darf nur mit großer Vorsicht vorgenommen werden.

Zwischenstand:

Einzelschritte zur Durchführung und (quantitativen) Auswertung eines normorientierten Schulleistungstests für Lehrkräfte und Berater

Manual lesen; Instruktion genau zur Kenntnis nehmen, evtl. wichtige Passagen auswendig lernen.
Eine ruhige Stunde aussuchen, zu der die Schüler aber noch konzentriert sein können. Möglichen Störungen vorbeugen.
Testhefte austeilen (Einzeldurchführung immer möglich; Gruppendurchführung, also ganze Schulklasse, meistens). Bleistift, Abdeckblatt soweit gefordert.
Bei Durchführung in Gruppen: übliche Vorrichtung gegen Abschreiben. Evtl. Testhelfer dazu bitten.
Bei der Vorstellung der Aufgaben genau an die Testinstruktion halten. Stoppuhr unauffällig nutzen und vorgegebene Zeit einhalten.
Nach Ende der Bearbeitung durch Schüler rasch einsammeln, die Schüler loben, aber nicht die Aufgaben diskutieren.

Auswertungsschritt: Vergabe der Rohpunkte.
Genau nach der Auswertungsanleitung des Manuals vorgehen und jedem Item eine "1" zuschreiben, wenn Item richtig, eine "0", wenn Item falsch. Nun zählt man die Rohpunkte zusammen und erhält die Rohpunktsumme.
Auswertungsschritt: Umwandlung der Rohpunkte in Standardwerte
Mithilfe der Normtabelle verwandelt man die Rohpunktsumme in einen Standardwert (T-Wert oder PR-Wert), indem man diese Werte in der Zeile abliest, in welcher der fragliche Rohwert steht.

Mit Ermittlung des Standardwerts pro Schüler haben also die Lehrkräfte/die Berater einen relativen Wert, den sie in Lehrerhandlungen oder Beratungen umsetzen können.

Damit ist das Ende der quantitativen Testauswertung erreicht und die daraus resultierenden Handlungen können in Angriff genommen werden.

2.2 Kriteriumsorientierte Schulleistungstests

Der Unterschied zum normorientierten Schulleistungstest besteht in der anderen Grundfrage bei der Gewinnung und Behandlung des Testergebnisses. Das gewonnene Testergebnis in Form der erreichten Punktezahl wird mit dem Kriterium selbst verglichen. Das Kriterium besteht in unserem Fall aus den Forderungen des Lehrplans. Auf diese Forderungen geht der Test ein und deshalb heißt seine Fragestellung:

Ist das Lehrziel erreicht?

Die Antwort ist dichotom. Sie heißt entweder "ja" oder "nein".

Damit wird dem Leser klar, dass wir es hier mit einem völlig anderen Vergleichsmaßstab zu tun haben müssen.

Zuvor aber noch das gängige Missverständnis:

Es liegt bis jetzt schon klar auf der Hand, dass der kriteriumsorientierte (oder lehrplanorientierte) Schulleistungstest sich sehr deutlich am Lehrplan orientieren muss und dass er also dazu geeignet sein muss, die Lehrplanforderungen (die Summe der dort genannten einzelnen Lehrziele) zu prüfen. Der normorientierte Schulleistungstest tut das aber auch. Insofern ist der Lehrplanbezug kein Unterscheidungskriterium. Und nun der Vergleich mit dem normorientierten Schulleistungstest: Macht dieser das nicht? Wie oben schon entwickelt, ist gerade die Ableitung der Testinhalte für Schulleistungstests aus dem Lehrplan ein Wesensmerkmal auch des normorientierten Schulleistungstests, also beider Grundtypen. Bei der Lehrplanorientierung als solcher liegt also kaum ein Unterschied vor, auch wenn sie beim kriteriumsorientierten Schulleistungstest quasi ideell stärker gewichtet wird.

Bei dem kriteriumsorientierten Schulleistungstest muss die Testtheorie bei folgender Frage eine Hilfestellung leisten:

Von wie vielen richtig gelösten Items an kann ein Test mit n Items als bewältigt gelten, d.h. wie viele Punkte müssen erreicht sein, damit die Antwort heißen kann: "Ja, das Lehrziel ist erreicht"? Das Binomialmodell (s. Klauer, 1987, S. 137 ff.) geht von der Bernoulli-Algebra aus, hier der Wahrscheinlichkeit beim Ziehen von weißen und schwarzen Kugeln aus einer Urne und wendet diese Grundannahmen für die Bestimmung der nötigen Lösungsmenge an. Es gibt dabei zwei Parameter, nämlich das π als den Prozentsatz, mit dem das Lehrziel erreicht sein soll (z.B. 0,90), und die auch sonst übliche Irrtumswahrscheinlichkeit (z.B. 2 α = 0,05). Aus den Binomialtabellen (Klauer, 1987; oder auch Kleber, 1979) kann man nun ablesen, was die Mindestzahl von zu fordernden richtig gelösten Items bei einer bestimmten Anzahl n der Testitems ist. So ist etwa bei der oben festgelegten Kombination von π = 0,90 und 2 α = 0,05 bei einer Testlänge von 20 Items nach Klauers "Ein-Fehler-Modell" die Grenze bei 15 richtig gelösten Items. Hat ein Schüler nur 14 oder weniger Items gelöst, so gilt er als Nichtkönner (hat Lehrziel nicht erreicht), von 15 ab nach oben dann als Könner (hat Lehrziel erreicht).

Von der Logik her kann man einen kriteriumsorientierten Test verwenden, um z.B. die ausreichende Qualität der Englischkenntnisse für ein Auslandsstudium zu prüfen. Ein normorientierter Test dagegen kann verwendet werden, wenn z.B. 10 Plätze auf einer USA-Exkursion für Anglistikstudenten im 4. Semester mit ausgezeichneten Englisch-kenntnissen als Voraussetzung vorhanden sind und diese mit den am besten geeigneten besetzt werden sollen.

Nun ist allerdings die Vielzahl der in der Literatur beschriebenen unterschiedlichen Binomialmodelle (Klauer, 1987) für den Nutzer etwas undurchsichtig und die Handhabung der Binomialtabellen (s. auch Kleber, 1979) nicht ganz einfach, was vielleicht als Hindernis für die Verbreitung dieses Testtyps gesehen werden kann. Außerdem müsste eigentlich jeweils in einer Vorstudie sichergestellt sein, dass die Items gleich schwer sind.

Im Grunde wäre dieser Testtyp für bestimmte Anwendungen durch Lehrkräfte ideal. Er gibt für jeden Schüler die Antwort, ob dieser das Lehrziel erreicht hat oder nicht oder eventuell auch, wie nahe er dran ist (Als ein konkretes Beispiel, das im Rahmen eines Förder-programms beschrieben ist, kann eine Serie von Klauer für das 2.-4. Schuljahr genannt werden, herausgegriffen das Lehrerheft für 4. Schuljahr: Klauer, 1994). Die didaktische Konsequenz nach Anwendung des kriteriumsorientierten Schulleistungstests ist einfach: Ist das Lehrziel erreicht, kann die Lehrkraft getrosten Herzens mit dem Unterricht fortfahren und das nächste Lehrziel in Angriff nehmen. Ist das Lehrziel bei einem Schüler (oder mehreren Schülern) nicht erreicht, dann muss etwas unternommen werden. Das kann zunächst eine Wiederholung im engeren unterrichtlichen Rahmen sein oder zusätzliche Förder-maßnahmen im größeren schulischen Rahmen, soweit es solche gibt, etwa als Förderkurse bei Legasthenie, oder es kann die klassische Nachhilfe durchgeführt werden. Bei häufigerem Vorkommen des Nichterreichens muss auch die noch weiterreichende Frage geprüft werden, ob ein solcher Schüler in dieser Jahrgangsstufe oder in diesem Leistungskurs an der richtigen Stelle ist, mit allen zusätzlich nötigen Diagnose- und Beratungsschritten in Folge.

So praktisch also der kriteriumsorientierte Test für Lehrkräfte sein könnte, so wenig hat er sich durchgesetzt. Es gibt im Gegensatz zu einem bescheidenen früheren Vorkommen etwa in den 70er-Jahren keine publizierten kriteriumsorientierten Tests, die für sich alleine stehen, sondern höchstens als Teil eines in sich abgeschlossenen Übungsprogramms. Ansonsten liegt der Verwendungszweck, wenn sich keine Renaissance des Angebots abzeichnet, schwerpunktmäßig in der Forschung.

3. Typen von Schulleistungstests nach Standardisierungsgrad

Eine andere nötige Differenzierung der Schulleistungstests liegt im Grad ihres Ausbaus. Dabei wird bei einigen Autoren zwischen formellen Schulleistungstests und informellen Schulleistungstests unterschieden. Dabei kann "formell" auch durch "standardisiert" ersetzt sein.

3.1 Der standardisierte Schulleistungstest als Schulleistungstest schlechthin

Wenn wir noch einmal auf die eingangs gegebene Testdefinition von Lienert und Raatz zurückgreifen, liegen die Bestimmungsstücke für den voll ausgebauten, den "standardisierten", Test vor uns. Auf Schulleistungstests übertragen wird also verlangt:

Eine vollständig ausformulierte Instruktion (Beitrag zur Durchführungsobjektivität).
Komplett ausgearbeitete Aufgaben, in aller Regel als Testheft oder analog in Computerform.
Klare und für alle Problemfälle ausreichende Hinweise zur Testauswertung, also zur Vergabe der Rohpunkte, am besten auch mit Schablonen o.ä. (Beitrag zur Auswertungsobjektivität).
Klare Hilfestellung zur weiteren Verarbeitung bei der quantitativen Auswertung: Beim normorientierten Test die Möglichkeit zur Umwandlung in Standardwerte durch Wiedergabe einer klaren Normtabelle, beim kriteriumsorientierten Test durch Angabe von Grenzwerten. (Beitrag zur Interpretationsobjektivität)
Günstig ist auch eine qualitative Auswertung (Ausführung in Kap. 5).
Sorgfalt bei der Testkonstruktion und Erlangung einer hohen Reliabilität, r ≥ .8, wobei man heute teilweise auch schon r ≥ .9 erwartet.
Klar erkennbare Umsetzung des fraglichen Lehrplans in die Itemmenge und damit ein Beitrag zur curricularen Validität.
Angaben zur empirischen Verarbeitung der erfassten Variablen, möglichst als Aussagen zur empirischen Validität.

Die Festlegung des standardisierten oder formellen Schulleistungstests wird in der Literatur in aller Regel im hier beschriebenen Sinne aufgefasst.

3.2 Der informelle Schulleistungstest als wenig definiertes Mittelstück zwischen standardisiertem Schulleistungstest und Schulaufgaben/ Probearbeiten

Anders sieht es beim Gegenstück, dem informellen Schulleistungstest, aus. In dem Lehrbuch von Jäger (2001, S. 281) betrifft die Unterscheidung "vor allem die Art der Konstruktion der Testaufgabe. Eine Klassenarbeit (in Bayern Schulaufgabe oder Probearbeit, der Verf.) gilt eher als ein informeller Test, weil die Aufwendungen zur Konstruktion eher gering sind. Ein formeller Test ist dagegen nur dann zu realisieren, wenn eine Reihe von Konstruktions-schritten durchgeführt wurde und die sogenannten Gütekriterien erfüllt sind". Nähere Beschreibungen des informellen Schulleistungstests bei Jäger bleiben aus.

Heller und Hany (2001) äußern, dass die Einführung der Gesamtschule in den 60er-Jahren zur schulinternen Leistungsdifferenzierung "die Entwicklung von ‚teacher-made' Tests erforderlich [machte], die man – in Abhebung zu den von Testexperten konstruierten (standardisierten oder formellen) Schulleistungstests – als ‚informelle Tests' bezeichnete". Dabei beziehen sie sich hauptsächlich auf Gaude und Teschner (1970), die zum Ausdruck brachten, dass ein sorgfältig entwickelter informeller Test mehr Gemeinsamkeiten mit den formellen Testverfahren habe als mit Lehrerurteilen und anderen "subjektiven" Verfahren. Formelle Tests seien fast immer normorientiert, informelle könnten normorientiert oder kriteriumsorientiert sein.

Die neueste der sehr wenigen Fundstellen in der Literatur, welche den Begriff des informellen Schulleistungstests aufgreift, ist der Aufsatz von Leutner (2010) in dem von Rost heraus-gegebenen "Handwörterbuch Pädagogische Psychologie". Der Autor schreibt zunächst von den formellen, dass sie auf einer spezifischen Testtheorie basieren und dass sie "durch ein hohes Maß an Standardisierung bei der Testdurchführung, Testauswertung und Interpretation gekennzeichnet [sind], um die für psychologische Tests geforderten Gütekriterien Objektivität, Reliabilität und Validität zu erfüllen" (Leutner, 2010, S. 629). Er fährt fort: "Informelle Tests dagegen sind für bestimmte Testzwecke ad hoc zusammengestellte Instrumente. Sie sind zwar nicht geeicht, können aber dennoch auf einer Testtheorie basieren und müssen nicht notwendig reduzierten Güteansprüchen entsprechen."

Bei diesem Stand der Literatur lässt sich eine konkrete Beschreibung informeller Schulleistungstests nicht entnehmen, geschweige denn, dass Beispiele zu finden wären.

(Das Beispiel für informelle Tests in der zur Zielorientierung an den Anfang gesetzten Tab. 10.1 stammt vom Autor).

Die geschilderte Lage führt jetzt zu folgender Entscheidung. Wir schlagen hier vor, den Begriff des informellen Schulleistungstests, bis er aktueller und klarer festgelegt wird, vorerst einmal nicht länger aktiv zu verwenden, auch weil wir keinen unmittelbaren Nutzen in der Verwendung sehen. Heute wird mit Schulleistungstest ohnedies eigentlich weitestgehend nur noch der standardisierte Schulleistungstest in der oben skizzierten Form angesprochen.

4. Itemformen bei Schulleistungstests und Hinweise zu deren Ausgestaltung

Der Behandlung der möglichen Itemformen von Schulleistungstests liegt neben der Vorstellung zur besseren Handhabung bei einigen Autoren das unausgesprochene Bestreben zugrunde, den Lehrkräften damit auch Vorschläge zur Gestaltung ihrer konventionellen schulischen Prüfverfahren (Schulaufgaben/Probearbeiten) zu machen. Das ist sicher sinnvoll und gilt nach unserer Erfahrung besonders für die Gestaltung der Prüfungsaufgaben selber (s. im Kasten unten und Exkurs 2).

Systematische Zusammenstellung der Itemformen für Schulleistungstests, angelehnt an Herbig (1974), Schelten (1997) und Klauer (2001)

Die Aufgabenarten im Einzelnen und Hinweise zu deren Konstruktion siehe Exkurs 2:

Exkurs

Freie Beantwortung
Hier wird das Schreiben von Wörtern, Zahlen oder Sätzen verlangt.

a) Kurzantwort

Frage oder Aufforderung zur Kurzantwort

Welche Himmelsrichtung liegt dem Norden entgegengesetzt? (Süden)
Wie groß ist die Winkelsumme im Dreieck? (180 Grad)
3 x 7 = (21)
Bilde von "to go" das simple past (auf Deutsch 1. Vergangenheit), 3. Person, Einzahl! (he, she, it went)

b) Ergänzungsaufgaben (ist eigentlich eine besondere Form von Kurzantwort)

Der 30-jährige Krieg wurde mit dem ………………………. beendet. (Westfälischen Frieden)
Die Biene bringt bei der Bestäubung …………….. auf den Stempel der Blüte. (Pollen oder Blütenstaub)
20 € sind ………………. % von 200 € (10)

Lückentextdiktat als eine Spezialform der Ergänzungsaufgabe

Vom Schiff aus sahen wir einen ………… am Flussufer. ("Elefanten", wird 1x vorgelesen, dann der ganze Satz mit "Elefanten" und schließlich ein weiteres Mal das Wort "Elefanten" alleine).

c) Frage oder Aufforderung zum Kurzaufsatz

Welche Bedeutung spielt die Photosynthese für die Umwelt? (Abbau von Kohlendioxid; Freisetzung von Sauerstoff)
Warum kann man mithilfe einer Lupe Zunder zum Brennen bringen? (Sonnenlicht bündeln)
Beschreibe die Charakteristik der "Sturm-und-Drang-Periode" in der deutschen Literaturgeschichte! (Geistige und literarische Strömung in der zweiten Hälfte des 18. Jahrhunderts in Deutschland, in der das Gefühl, die Spontaneität und der Trieb höher als Verstand und Vernunft eingeschätzt werden)

Gebundene Beantwortung

Hier wird das Kennzeichnen einer Antwort aus bereits vorgegebenen richtigen oder falschen Lösungen verlangt oder die Verbindung von Antwortteilen untereinander.

a) Auswahlantwort

Die Aufgabe besteht aus der Beurteilung oder der Auswahl zwischen zwei oder mehreren vorgegebenen Antworten.

Richtig-falsch-Antwort

Die Aufgabe verlangt die Beurteilung einer vorgegebenen Aussage als richtig oder falsch, von denen die eine falsch, die andere richtig ist (auch "Zweifachwahlaufgaben" genannt).

4/5 ist mehr als 5/6. (F)
Das Erbgut von Bayern und Inuit ist zu 99,99 identisch. (R)
Ein starker Euro verbessert die Exportchancen der deutschen Wirtschaft. (F)

Multiple-Choice-Frage (Mehrfachwahl-Aufgabe)

Auswahl aus mehreren vorgegebenen Sätzen. Dabei können nur eine (Typ 1) oder mehrere (Typ 2) Alternativen (= vorgegebene Antworten) richtig sein.

Multiple-Choice-Typ 1: nur eine der vorgegebenen Antworten ist richtig.

Wie viele Primzahlen gibt es in der Zahlenreihe von 1-20? (b)

Benenne die beste Übersetzung (ist Spezialtyp "beste Antwort"): Das Grundstück gehört immer noch Vater. (d)

Father always hears good pieces.
The piece of ground still belongs to Father.
The property still hears to father.
The property still belongs to father.

Multiple-Choice-Typ 2: Mehrere der vorgegebenen Antworten sind richtig. Dabei gibt es die Variante mit Angabe der Anzahl der richtigen und die Variante, bei der nicht angegeben ist, wieviele Antwortmöglichkeiten richtig sind.

Welche Wörter passen nicht zum Thema "Diktatur"? (b, d)

Präsident
freie Meinungsbildung
Reichstag
Koalitionsregierung

Welche Tonart hat 3 Kreuze: (a, c)

fis-Moll
cis-Moll
A-Dur
D-Dur

b) Ordnungsantwort

Zuordnung: Begriffe einer ersten Reihe müssen einer zweiten zugeordnet werden (bei Umordnung muss eine falsche Reihenfolge richtig gestellt werden)

Welche Konstruktionsschritte eines Schulleistungstests passen am besten zu den genannten Testgütekriterien. Schreiben Sie einen passenden Buchstaben hinter die folgenden Aussagen:

Genaue Übernahme des Testinhalts vom Lehrplan. d
Auswahl der Items nach Trennschärfeindex. c
Verfassen einer genauen Instruktion. a
Genaue Hinweise zur Punktevergabe bei der Auswertung verfassen. b

Durchführungssobjektivität
Auswertungsobjetivität
Reliabilität
Validität

Vor- und Nachteile

Alle Formen der gebundenen Beantwortung haben den großen Vorteil der kaum anzuzweifelnden absoluten Auswertungsobjektivität. Der Nachteil liegt darin, dass es in der Praxis oft sehr schwer ist, sinnvolle Alternativen zu formulieren, die sich gegenseitig ausschließen und die tatsächlich absolut falsch bzw. absolut richtig sind. Eine ebenfalls nicht als zu gering einzuschätzende Schwierigkeit liegt darin, die verschiedenen Ebenen von kognitiven Lernzielen über eine bloße Wissensabfrage hinaus zur Geltung zu bringen. Es ist aber möglich, angemessene Itemsammlungen zu erstellen! Teamarbeit ist günstig! Freie Aufgaben: Kurzantwortaufgaben und Ergänzungsaufgaben sind oft die einzigen Möglichkeiten für die Abfrage des aktiven Wissens, was der Lebenssituation manchmal näher kommt als das passive. Das gilt insbesondere für Rechtschreibtests aber auch für andere Schulleistungstests. Objektivitätsprobleme müssen durch genaue Anleitungen im Manual (auch Beispiele!) geklärt werden. Der Kurzaufsatz mag sich manchmal anbieten, schafft aber die größten Probleme bei der Auswertungsobjektivität. Klare Richtlinien könnten helfen.

5. Quantitative und qualitative Auswertungen

Die bisher besprochene Auswertung ist die sogenannte "quantitative Auswertung"; bei ihr geht es um die Gesamtleistung im Test (gegebenenfalls im Subtest), die als Rohwertsumme ermittelt und mithilfe der Normtabelle in einen Standardwert umgewandelt wird. (Anwendungen werden in Kap. 6 besprochen)

Ein differenzierender Spezialfall: Ist ein Schulleistungstest in mehrere Subtests aufgeteilt, so wird es im Rahmen der quantitiven Auswertung mehrere Rohwertsummen geben. Das kommt bei den Mehrfächertests vor (z.B: AST 3 von Fippinger, 1991; die Teile bzw. Subtests hier heißen Sprachverständnis, Sachkunde, Zahlenrechnen, Textaufgaben und Rechtschreiben). Die einzelnen Teile werden also völlig getrennt ausgewertet und die einzelnen Rohwert-summen mit je eigenen Normtabellen in Standardwerte umgewandelt. Zusätzlich wird auch ein Gesamtwert ermittelt.

Es gibt jedoch auch Tests, die sich nur auf ein einziges Unterrichtsfach beziehen und dennoch in Subtests aufteilbar sind. Besonders sinnvoll ist diese Aufteilung, wenn die Subtests "faktorenrein" sind. Das verlangt in der Konstruktionsphase eine Eingabe aller Testitems in das statistische Verfahren der Faktorenanalyse. Damit werden unabhängige Faktoren (Teilinhalte) ermittelt. Wenn das Verfahren erfolgreich anwendbar war, kann jedes Item je einem der ermittelten Faktoren (Subtests) zugeordnet werden. Ein Beispiel ist der DEMAT 4 (Görlitz, Roick & Hasselhorn, 2006); die drei gewonnenen Faktoren, dort Bereiche genannt, heißen Arithmetik, Sachrechnen und Geometrie. Für jeden der Faktoren gibt es eine Norm-tabelle, ebenso wie für die Gesamtleistung.

Zusätzlich zur quantitativen bieten manche Tests auch eine "qualitative Auswertung" an. Obwohl heute bei den meisten Schulleistungstests das Ergebnis aus Punkten für richtige Lösungen gebildet wird, richtet man bei der qualitativen Auswertung den Blick auf die Fehler, weshalb man hier auch "Fehleranalyse" sagen kann. Als sprachliche Klärung dieses üblichen Begriffs: Es geht um die Qualität, also die Art der Fehler. Es leuchtet unmittelbar ein, dass mit einem Einblick in die Fehlerstruktur der einzelnen Schüler eine weitere Dimension der Testaussage gewonnen ist. Der Auswerter kann die Fehler analysieren und, was ein besonderes praktisches Ziel darstellt, auf dieser Grundlage Inhalte für Stütz- und Förder-maßnahmen empfehlen.

Wenn eine solche qualitative Auswertung angeboten werden soll, muss zuerst ein System von Fehlerkategorien entwickelt werden. Das kommt am häufigsten bei Rechtschreibtests und bei Mathematiktests vor. Ein Beispiel für ein System von Fehlerkategorien aus dem Würzburger Rechtschreibtest für 2. Jahrgangsstufe (WÜRT 2+), Trolldenier (2014), Fehlersystem angelehnt an Kossow (1991) und erweitert:

Fehlerkategorien WÜRT

A (Auslassung eines Lautes)
Anwendung: Ein hörbarer Laut wird ausgelassen. Beispiel: Krsche statt Kirsche
H (Hinzufügung eines Lautes)
Anwendung: Ein hörbarer Laut wird hinzugefügt. Beispiel: gehenen statt gehen
LV (Lautverwechslung)
Anwendung: Ein Laut wird mit einem hörbar unterschiedlichen Laut vertauscht. Beispiel: Kemüse statt Gemüse
SW (Starke Wortbildveränderung)
Anwendung: Das Wort ist zu stark verändert, um es sinnvoll in einzelne Fehlerkategorien einzuteilen. Beispiel: diken statt blühen
GK (Verstöße gegen die Groß- und Kleinschreibung)
Anwendung: Ein Buchstabe wurde fälschlicherweise groß- oder kleingeschrieben. Beispiel: apfel statt Apfel
Lf (Lautgetreu, aber falsch)
Anwendung: Ein Laut wurde phonetisch richtig, jedoch orthografisch falsch geschrieben. Beispiel: Schpiel statt Spiel
AW (Auslassung eines ganzen Wortes)
Anwendung: Das Wort wird vollständig ausgelassen oder durch ein anderes Wort oder Zeichen ersetzt.
R (Restfehler)
Anwendung kommt kaum vor: ist ein Sammelbecken für die sehr seltenen Fälle, in denen einmal eine Einordnung in eine der anderen Kategorien nicht möglich ist.

Noch ein Begriffspaar:

Nach der Verarbeitung der Ergebnisse unterscheidet man zwischen selektionsorientierter und förderorientierter Diagnostik (s. etwa Jäger, 2003). Das geschieht häufig in der sonder-pädagogisch-psychologischen Diagnostik, die sich an manchen Standorten Förderdiagnostik nennt. Dieser Zweiteilung kann die Unterscheidung in quantitative und qualitative Auswertung in etwa entsprechen, ohne dass wir hier diese gelegentlich etwas vorbelastete Diskussion stärker ausbreiten wollen.

6. Möglichkeiten und Grenzen der Anwendung von Schulleistungstests

Den Anwenderkreis von Schulleistungstests unterscheiden wir nach Lehrkräften (Klassenlehrkräfte, Fachlehrkräfte, als Interessenten häufig Lehrkräfte an Förderschulen) einerseits und Berater andererseits. Berater sind insbesondere Schulpsychologen und Beratungslehrer im Schuldienst, Diplom-Psychologen in Erziehungsberatungsstellen, Heimen, Horten oder im Gesundheitswesen und evtl. Angehörige anderer Berufe in solchen Einrichtungen. Diese Tests sind für beide Berufsgruppen konzipiert, wobei sich aber unterschiedliche Anwendungsschwerpunkte unterscheiden lassen. Als Drittes kommt noch der Einsatz in der Forschung hinzu.

6.1 Anwendung durch Lehrkräfte

Schulleistungstests können von Lehrkräften für verschiedene Zwecke verwendet werden. Es geht dabei meistens um eine Ergänzung oder Präzisierung der herkömmlichen Schul-leistungsbeurteilungen. Im Einzelnen:

Ausschaltung von Beurteilungsfehlern.
Grundsätzliche Absicherung der eigenen (konventionellen) Leistungsbeurteilung.

Dabei spezielle Fragestellungen:

Absicherung der eigenen Beurteilung bei besonders kritischen Fällen wie Jahrgangs-wiederholung.
Hilfe bei Zuweisung in einem schulischen Kurssystem.
Hilfe bei Zuweisung zu Förderkursen.
Bei Übernahme einer neuen Klasse: Prüfung des erreichten Lernstands der Klasse und der einzelnen Schüler, um für alle an der "richtigen" Stelle anzusetzen. Am Schuljahresanfang (in Bayern September) muss dann z.B. in einer 3. Klasse ein Schulleistungstest verwendet werden, der für die 2. Jahrgangsstufe (dort Schuljahresende) erstellt und normiert ist.
Kritische Prüfung (Vergleich mit Grundgesamtheit) einzelner Schülergruppen mit dem Ziel, gegebenenfalls interne Differenzierungen vorzunehmen (bes. bei Schülern aus sozial schwachen Schichten, bei Schülern mit Migrationshintergrund, bei Schülern mit Verhaltensauffälligkeiten oder ADHS, bei Schülern mit allgemeinen oder speziellen Lernausfällen).
Schulinterne Klassenvergleiche.
Schulinterne Methodenvergleiche (z.B. Wahl eines Lehrbuchs).
Systeminterne Evaluation.

In diesem Unterkapitel soll auch die Frage gestreift werden, welche Tests eigentlich von Lehrkräften durchgeführt werden dürfen. In seiner Zusammenstellung "Rechtsgrundlagen – Deutschland" sieht Heyse (2003) keine rechtlichen Probleme bei der Anwendung von Verfahren, die "zur Feststellung schulischer Leistungen (z.B. Mathematiktests) bzw. zur Eignungsfeststellung für bestimmte Schularten vorgesehen sind" (Heyse, 2003, S. 365; ähnlich schon Avenarius, 1990). Bei Fragen der Schullaufbahnberatung wird es dabei für zweckmäßig gehalten, die Zustimmung der Erziehungsberechtigten einzuholen. In der Literatur wird in aller Regel der Einsatz von Schulleistungstests durch Lehrkräfte bei angemessener Handhabung als problemlos eingeschätzt, auch auf dem Terrain der Fach-didaktik, so etwa bei Schöler (2006) oder bei Herné (2006). Nicht für die Hand der Lehrkräfte gedacht sind Persönlichkeitstests und auch Intelligenztests. Ausnahmen dabei bilden Beratungslehrkräfte und Sonderschullehrkräfte.

Grenzen der Anwendung von Schulleistungstests durch Lehrkräfte: Der normorientierte Schulleistungstest, der auf der Klassischen Testtheorie aufgebaut ist, eignet sich eher für die sogenannte Statusdiagnostik als für die Prozessdiagnostik (Unter-scheidung ursprünglich von Pawlik, 1976, zit. nach Jäger, 2003, S. 166). Die Statusdiagnostik trifft Aussagen über den Ist-Zustand, bei uns über den Ist-Zustand der erbrachten Schul-leistung. Zur Prozessdiagnostik nennt Jäger die Vorher-Nachher-Messung (Prä-Post-Design). Dazu eignet sich der normorientiere Schulleistungstest nur bei einem längeren Abstand beider Messungen, weil er i.d.R. nur einmal im Schuljahr eingesetzt werden kann und damit nur der Lernprozess eines Jahres erfasst werden kann (Man könnte entgegnen: aber immerhin). Durch die Wiedergabe der Ergebnisse in Standardwerten kann auch nur ein relativer Zuwachs ermittelt werden.

6.2 Anwendung durch andere Personen und Gruppen

Der oben skizzierte Kreis von Beratern wird etwas andere Verwendungsmöglichkeiten anstreben, als das Lehrkräfte tun. Infrage kommt besonders die Schullaufbahnberatung (etwa bei Schultypwechsel oder bei Umzügen) oder andere Fragen zu Einzelanalysen, etwa eine umfassende Persönlichkeitsdiagnose mit schulischem Hintergrund, hartnäckige Lern- oder Verhaltensstörungen und Ähnliches.

Ein ganz anderer Einsatzzweck von Schulleistungstests ist der als Messinstrument bei wissenschaftlichen Studien, z.B. bei der Evaluierung eines Rechtschreibprogramms, bei Vergleich von Schultypen, bei Leistungsunterschieden zwischen den Geschlechtern in ausgewählten Schulfächern u.a.m. Da viele Studien der Pädagogischen Psychologie unter Einsatz von Schulleistungstests durchgeführt worden sind und werden, ist die Kenntnis dieses Testtyps auch für das Lehramtsstudium außerhalb der pädagogisch-psychologischen Diagnostik von Nutzen, und zwar in der Psychologie im Erziehungswissenschaftlichen Studium und auch für das Studium der Fachdidaktiken, so sie empirisch ausgelegt sind.

7. Einteilung und Überblick über das derzeitige Vorkommen von Schulleistungstests

7.1 Inhaltliche Einteilungen

7.2 Ein Gesamtüberblick

7.1 Inhaltliche Einteilungen

Neben der Einteilung nach Testtheorie und nach Standardisierungsgrad und eventuell noch nach der Möglichkeit einer "qualitativen" Auswertung kann man Schulleistungstests nach den Schul(teil)fächern einteilen, für die sie konzipiert sind. So geschieht das auch in zusammen-fassenden Kompendien, etwa dem zweibändigen "Brickenkamp-Handbuch psychologischer und pädagogischer Tests" (Brähler, Holling, Leutner & Permann, 2002), dessen 1. Auflage 1975 noch aus einem schmalen Band bestand, im Zeitalter des Internets aber wohl kaum mehr frisch aufgelegt werden wird, sondern im Grunde durch Verlagsangaben (als Katalog gedruckt oder online) ersetzt bleiben wird.

"Der Brickenkamp" führt also die Schulleistungstest nach "Einschulungstests" und "Speziellen Schuleignungstests" auf und gliedert sie in die folgenden fünf Gruppen, für die hier jeweils ein Belegbeispiel genannt wird:

Mehrfächertests (Kautter, Storz & Munz, 2002)
Lesetests (Lenhard & Schneider, 2006)
Rechtschreibtests (Grund, Haug & Naumann, 2003)
Mathematik- und Rechentests (Gölitz, Roick & Hasselhorn, 2006)
Sonstige Schultests (Doyé & Lüttge, 1977).

7.2 Ein Gesamtüberblick

Ausführliche Beispieldarstellungen scheinen in der Lehreinheit nicht möglich zu sein, auch wenn wir uns das bei der Konzeption vorgenommen hatten. Stattdessen bieten wir eine zum Redaktionsschluss aktualisierte Gesamtliste aller verfügbaren Schulleistungstests als Exkurs. Wir haben den Eindruck, dass in den letzten Jahren viel Bewegung ins Spiel gekommen ist und dass die Sekundarstufe auch wieder stärker ins Auge gefasst wird, wie das in den 70er-Jahren schon einmal ansatzweise der Fall war.

Exkurs

Schulleistungstests, Stand Februar 2014. Alphabetische Reihenfolge nach Testabkürzungen

1. Schulleistungstests für Deutsch

ADST – Allgemeiner Deutscher Sprachtest. J. Steinert. Göttingen: Hogrefe, 1978. Einsatzbereich: Schüler im 3. bis 10. Schuljahr in Grundschule, Gymnasium, Realschule, Hauptschule, LB-Sonderschule.
BSL/ TeDeL 1+ - Bonner Silben-Lesetest. U. Findeisen und G. Melenk. 2011. Einsatzbereich: ab Mitte 1. Klasse bis Anfang 2. Klasse zu den Normzeiten, bis Ende 3. Klasse zur qualitativen Förderdiagnose.
CT-D 4 – Schulleistungstest Deutsch für 4. Klassen. U. Raatz und C. Klein-Braley. Weinheim: Beltz, 1992.
DBL – Die Diagnostischen Bilderlisten. Siebungsverfahren zur Früherkennung von Leselernschwierigkeiten im Leselernprozess. L. Dummer-Smoch. Göttingen: Hogrefe 2000. Einsatzbereich: Am Ende der 1. Klasse/am Anfang der 2. Klasse.
DERET 1-2+ – Deutscher Rechtschreibtest für das erste und zweite Schuljahr. C. Stock und W. Schneider. Göttingen: Hogrefe, 2008.
DERET 3-4+ – Deutscher Rechtschreibtest für das dritte und vierte Schuljahr. C. Stock und W. Schneider. Göttingen: Hogrefe, 2008.
DLF 1-2 – Diagnostischer Lesetest zur Frühdiagnose. R. Müller. Weinheim: Beltz, 1984.
DRT 1 – Diagnostischer Rechtschreibtest für 1. Klassen. R. Müller. 2., akt. Aufl., Göttingen: Hogrefe, 2003.
DRT 2 – Diagnostischer Rechtschreibtest für 2. Klassen. R. Müller. 4., akt. Aufl., Weinheim: Beltz, 2003.
DRT 3 – Diagnostischer Rechtschreibtest für 3. Klassen. R. Müller. 4., akt. Aufl., Weinheim: Beltz, 2003.
DRT 4 – Diagnostischer Rechtschreibtest für 4. Klassen. M. Grund, G. Haug und C. L. Naumann. 2., akt. Aufl., Weinheim: Beltz, 2003.
DRT 5 – Diagnostischer Rechtschreibtest für 5. Klassen. M. Grund, G. Haug und C. L. Naumann. 2., akt. Aufl., Weinheim: Beltz, 2003.
DTD – Diagnostischer Test Deutsch. J. Nauck und R. Otte. Göttingen: Hogrefe, 1980. Einsatzbereich: 4. bis 6. Klassen.
ELFE – Ein Leseverständistest für Erst- bis Sechstklässler. W. Lenhard und W. Schneider. Göttingen: Hogrefe, 2006.
FIPS – Fähigkeitsindikatoren Primarschule. Ein computerbasiertes Diagnoseinstrument zu Erfassung der Lernausgangslage und der Lernentwicklung von Schulanfängern, K. Bäuerlein, A. Beinicke, N. Berger, G. Faust, M. Jost und W. Schneider, Göttingen: Hogrefe, 2012.
FLVT 5-6 – Frankfurter Leseverständnistest für 5. bis 6. Klassen. E. Souvignier, I. Trenk-Hinterberger, S. Adam-Schwebe und A. Gold. Göttingen: Hogrefe, 2008. Einsatzbereich: verschiedene Schularten.
HAMLET 3-4 – Hamburger Lesetest für 3. und 4. Klassen. R. H. Lehmann, R. Peek und J. Poerschke. 2., überarb. Aufl., Göttingen: Hogrefe, 2006.
HSP 1-9 – Hamburger Schreib-Probe 1-9. P. May, Hamburg: vpm, 2002.
HSP 1 – 10 – Hamburger Schreib-Probe 1-10 (6. Aufl.) P. May. Dortmund: Verlag für pädagogische Medien (vpm), 2012. Einsatzbereich: Mitte der 1. bis Ende der 10. Klasse; geeignet für alle Schulformen; Gruppen- und Einzeltest.
IEL – 1 – Inventar zur Erfassung der Lesekompetenzen im 1. Schuljahr, K. Diehl, B. Hartke. Göttingen: Hogrefe, 2012.
KNUSPEL-L – Knuspels Leseaufgaben. H. Marx. Göttingen: Hogrefe, 1998. Einsatzbereich: Kinder vom ersten bis zum Ende des vierten Schuljahres.
LESEN 6-7 – Lestestbatterie für die Klassenstufen 6-7. K. Bäuerlein, W. Lenhard und W. Schneider. Göttingen: Hogrefe, 2012.
LESEN 8-9 – Lesetestbatterie für die Klassenstufen 8-9. K. Bäuerlein, W. Lenhard und W. Schneider. Göttingen: Hogrefe, 2012.
LGVT 6-12 – Lesegeschwindigkeits- und -verständnistest für die Klassen 6-12. W. Schneider, M. Schlagmüller und M. Ennemoser. Göttingen: Hogrefe, 2007.
LT 2 – Lesetest für 2. Klassen. E. Samtleben, F. Biglmaier und K. Ingenkamp. 3. Aufl., Weinheim: Beltz, 1971.
LUV – Lesen und Verstehen, Diagnose und Training. G. Kalb, R. Rabenstein und D. H. Rost. Göttingen: Hogrefe, 1979. Einsatzbereich: Grundschulkinder der 1. und 2. Klassen.
MRA – Münsteraner Rechtschreibanalyse. Individuelle Förderung mit dem Lernserver. F. Schönweiss. Münster: lernserver, 2004. Einsatzbereich: Schüler der Klassenstufen 1 bis 6.
R-Fit 5-6+ – Fehleridentifikationstest – Rechtschreibung für fünfte und sechste Klassen. M. Schneider, R. Matinez Méndez und M. Hasselhorn. Göttingen: Hogrefe, 2014.
RST 1 – Rechtschreibtest für 1. Klassen. P. Rathenow und U. Raatz. 2. Aufl., Weinheim: Beltz, 1993.
RST 6-7 – Rechtschreibtest für 6. und 7. Klassen. O. Rieder. 2. Aufl., Weinheim: Beltz, 1992.
RST-ARR – Rechtschreibtest – aktuelle Rechtschreibregelung. S. Bulheller, H.O. Häcker, N. Ibrahimovic.3. Auflage. Frankfurt am Main: Pearson, 2012. Einsatzbereich: Jugendliche und Erwachsene.
SFD – Sprachstandsüberprüfung und Förderdiagnostik für Ausländer- und Aussiedlerkinder. A. Hobusch, L. Nevin und U. Wiest. Göttingen: Hogrefe, 2011.
SLRT-II – Lese- und Rechtschreibtest. Weiterentwicklung des Salzburger Lese- und Rechtschreibtests (SLRT). K. Moll und K. Landerl. Bern: Huber, 2010. Einsatzbereich: 1. bis 6. Klasse.
SLS 1-4 – Salzburger Lese-Screening für die Klassenstufen 1-4. H. Mayringer und H. Wimmer. Bern: Huber, 2003.
SLS 5-8 – Salzburger Lese-Screening für die Klassenstufen 5-8. M. Auer, G. Gruber, H. Mayringer und H. Wimmer. Bern: Huber, 2005.
TeDeL 1-2/LS-L – Test für die Dekodierungs- und Leseleistung 1-2. U. Findeisen und G. Melenk. Göttingen: Hogrefe, 2011.
TeDeL 3-5/LS-L – Test für die Dekodierungs- und Leseleistung 3-5. U. Findeisen und G. Melenk. Göttingen: Hogrefe, 2013.
VSL – Verlaufsdiagnostik sinnerfassenden Lesens. J. Walter. Göttingen: Hogrefe, 2013. Einsatzbereich: Klassenstufe 2 – 6 sowie Förderunterricht.
WLLP –R Würzburger Leise Leseprobe Revision. W. Schneider, I. Blanke, V. Faust und P. Küspert. Göttingen: Hogrefe, 2011. Einsatzbereich: Grundschulklassen 1 bis 4.
WST – Wortschatztest – aktiv und passiv. Deutsche Version der Mill Hill Vocabulary Scale. J.C. Raven, Autoren der deutschen Version: N. Ibrahimovic & S. Bulheller. Frankfurt am Main: Pearson, 2005.
WRT 1+ – Weingartener Grundwortschatz. Rechtschreib-Test für 1. und 2. Klassen. P. Birkel. 2., neu norm. und vollst. überarb. Aufl., Göttingen: Hogrefe, 2007.
WRT 2+ – Weingartener Grundwortschatz. Rechtschreibtest für 2. und 3. Klassen. P. Birkel. 2., neu normierte und vollständig überarbeitete Aufl., Göttingen: Hogrefe, 2007.
WRT 3+ – Weingartener Grundwortschatz. Rechtschreibtest für 3. und 4. Klassen. P. Birkel. 2., neu normierte und vollständig überarbeitete Aufl., Göttingen: Hogrefe, 2007.
WRT 4/5 – Westermann Rechtschreibtest 4/5. P. Rathenow. 2. Aufl., Göttingen: Hogrefe, 1980.
WRT 4+ – Weingartener Grundwortschatz. Rechtschreibtest für 4. und 5. Klassen der Grund- und Hauptschule. P. Birkel. 2., neu normierte und vollständig überarbeitete Aufl., Göttingen: Hogrefe, 2007.
WRT 6+ – Westermann Rechtschreibtest 6+. P. Rathenow, J. Vöge und D. Laupenmühlen. Göttingen: Hogrefe, 1980. Einsatzbereich: 5. bis 7. Klasse.
WÜRT 1-2 – Würzburger Rechtschreibtest für 1. und 2. Klassen. H.-P. Trolldenier. Göttingen: Hogrefe, 2014.
ZLT – Zürcher Lesetest. M. Linder und H. Grissemann. 6. Aufl. mit neuer deutscher Rechtschreibung. Bern: Huber, 2000. Einsatzbereich: 2. bis 6. Klasse.
ZLT-II – Zürcher Lesetest- II. M. Daseking und P. Petermann. Bern: Huber, 2012. Einsatzbereich: 1. Bis 8. Klassenstufe
ZLVT 4-6 – Zürcher Leseverständnistest für das 4. bis 6. Schuljahr. H. Grissemann und W. Baumberger. 2. Aufl. mit neuer deutscher Rechtschreibung. Bern: Huber , 2000.

2. Schulleistungstests für Mathematik

BASIS-Math 4–8 – Basisdiagnostik für die Klassen 4–8. E. Moser, Opitz, L. Reusser, M. Moeri Müller, B. Anliker, C. Wittich und O. Freesemann. Bern: Huber, 2010.
BRT – Berufsbezogener Rechentest. H. Balser, O. Ringsdorf und A. Traxler. Weinheim: Beltz, 1986. Einsatzbereich: Abschlussklassen (Klasse 8-10) der allgemeinbildenden Schulen sowie der beruflichen Schulen und Ausbildungsbetriebe.
BST – Bausteine-Test. Ein Test zur Erfassung des räumlichen Vorstellungsvermögens. P. Birkel, S. A. Schein und H. Schumann. Göttingen: Hogrefe, 2002. Einsatzbereich: Klassen 8 bis 10 bzw. 11 der Haupt-, Real-, und Gesamtschule und des Gymnasiums.
DBZ 1 – Diagnostikum: Basisfähigkeiten im Zahlenraum 0 bis 20. H.-J. Wagner und C. Born. Weinheim: Beltz, 1994. Einsatzbereich: Ende der 1. bis Mitte der 2. Klasse.
DEMAT 1+ – Deutscher Mathematiktest für erste Klassen. K. Krajewski, P. Küspert und W. Schneider. Weinheim: Beltz, 2006.
DEMAT 2+ – Deutscher Mathematiktest für zweite Klassen. K. Krajewski, S. Liehm und W. Schneider. Weinheim: Beltz, 2004.
DEMAT 3+ – Deutscher Mathematiktest für dritte Klassen. T. Roick, D. Gölitz und M. Hasselhorn. Weinheim: Beltz, 2004.
DEMAT 4 – Deutscher Mathematiktest für vierte Klassen. D. Gölitz, T. Roick und M. Hasselhorn. Göttingen: Hogrefe, 2006.
DEMAT 5+ - Deutscher Mathematiktest für fünfte Klassen. L. Götz, K. Lingel, W. Schneider. Göttingen: Hogrefe, 2013.
DEMAT 6 + - Deutscher Mathematiktest für sechste Klassen. L. Götz, K. Lingel, W. Schneider. Göttingen: Hogrefe, 2013.
DEMAT 9 – Deutscher Mathematiktest für neunte Klassen. S. Schmidt, M. Ennemoser und K. Krajewski, Göttingen: Hogrefe, 2012.
DIFMaB – Diagnostisches Inventar zur Förderung Mathematischer Basiskompetenzen. C. de Vries. Dortmund: Modernes Leben, 2008. Einsatzbereich: Förderdiagnostik im Bereich Mathematik und richtet sich an Lehrkräfte in Förderschulen, Erzieher in der Vorschule, Grundschullehrer und Eltern.
DIRG – Diagnostisches Inventar zu Rechenfertigkeiten im Grundschulalter. D. Grube, U. Weberschock, M. Stuff und M. Hasselhorn, unter Mitarbeit von D. Gölitz. Göttingen: Hogrefe, 2010.
DRE 3 – Diagnostischer Rechentest für 3. Klassen. K. Samstag, A. Sander und R. Schmidt. 2. Aufl., Weinheim: Beltz, 1992.
ERT 0+ - Eggenberger Rechentest 0+. Diagnostikum für Dyskalkulie-Disposition für das Ende des Kinderartenalters bis Mitte der 1. Schulstufe. F. Lenart, N. Holzer und H. Schaupp. Bern: Huber, 2014
ERT 1+ – Eggenberger Rechentest 1+. Diagnostikum für Dyskalkulie für das Ende der 1. Schulstufe bis Mitte der 2. Schulstufe. H. Schaupp, N. Holzer und F. Lenart. Bern: Huber, 2007.
ERT 2+ – Eggenberger Rechentest 2+. Diagnostikum für Dyskalkulie für das Ende der 2. Schulstufe bis Mitte der 3. Schulstufe. F. Lenart, N. Holzer und H. Schaupp. Bern: Huber, 2008.
ERT 3+ – Eggenberger Rechentest 3+. Diagnostikum für Dyskalkulie für das Ende 3. Schulstufe bis Mitte 4. Schulstufe. N. Holzer, H. Schaupp und F. Lenart. Bern: Huber, 2010.
ERT 4+ – Eggenberger Rechentest 4+. Diagnostikum für Dyskalkulie für das Ende der 4. Schulstufe bis Mitte der 5. Schulstufe. H. Schaupp, N. Holzer und F. Lenart. Bern: Huber, 2010.
HRT 1-4 – Heidelberger Rechentest. Erfassung mathematischer Basiskompetenzen im Grundschulalter. J. Haffner, K. Baro, P. Parzer und F. Resch. Göttingen: Hogrefe, 2005.
KALKULIE – Handreichung zur Durchführung der Diagnose. A. Fritz, G. Ricken und M. Gerlach. Berlin: Cornelsen, 2007. Einsatzbereich: vom Schulbeginn bis zum Ende der zweiten Klasse.
KR 3–4 – Kettenrechner für dritte und vierte Klassen. T. Roick, D. Gölitz und M. Hasselhorn. Göttingen: Hogrefe, 2012.
LVD-M 2-4 – Lernverlaufsdiagnostik Mathematik für 2. – 4. Klasse. A.M. Strathmann, K. J. Klauer. Göttingen: Hogrefe, 2012.
Mathematiktest – Grundkenntnisse für Lehre und Beruf. S. Bulheller und N. Ibrahimovic. Frankfurt a. M.: Pearson, 2005. Einsatzbereich: Überprüfung mathematischer Grundkenntnisse für die Berufsausbildung mit den curricularen Anforderungen der 6., 7., 8. und 9. Klasse allgemeinbildender Schulen.
MAESTRA 5-6+ - Mathematisches Strategiewissen für 5. und 6. Klassen. C. Artelt, L. Götz, K. Lingel, W. Schneider. Göttingen: Hogrefe, 2013.
RT 9+ – Rechentest 9+. M.H. Bremm und R. Kühn. Weinheim: Beltz, 1992. Einsatzbereich: Ende der 9. Klasse bzw. Anfang der 10. Klasse in Hauptschule und Realschule.
RZD 2-6 – Rechenfertigkeiten- und Zahlenverarbeitungs-Diagnostikum für die 2. bis 6. Klasse. C. Jacobs und F. Petermann. Göttingen: Hogrefe, 2005.
TeDDy-PC – Test zur Diagnose von Dyskalkulie. U. Schroeders und W. Schneider. Göttingen: Hogrefe, 2008. Einsatzbereich: Am Ende der 1. bis Anfang des 4. Schuljahres.
TeMaTex – Test zum Mathematischen Textverständnis. R. Jordan, J. Stein. Münster: WTM. 2011. Einsatzbereich: Klassenstufe 9 und 10, sowie berufsbildende Schulen.
ZAREKI -R – Testverfahren zur Dyskalkulie bei Kindern – revidierte Fassung. M. von Aster, M. Weinhold und R. Horn. 2. Aufl., Frankfurt a. M.: Pearson, 2006.

3. Mehrfächertests

AST 2 – Allgemeiner Schulleistungstest für 2. Klassen. O. Rieder. 2. Aufl., Weinheim: Beltz, 1991.
AST 3 – Allgemeiner Schulleistungstest für 3. Klassen. F. Fippinger. 2., völlig neu bearb. Aufl., Weinheim: Beltz, 1991.
AST 4 – Allgemeiner Schulleistungstest für 4. Klassen. F. Fippinger. 3., völlig neu bearb. Aufl., Weinheim: Beltz, 1992.
HST 4/5 – Schulleistungstest für vierte und fünfte Klassen. G. Mietzel und H. Willenberg. Göttingen: Hogrefe, 2001.
KLASSE 4 – Kombiniertes Leistungsinventar zur allgemeinen Schulleistung und für Schullaufbahnempfehlungen in der vierten Klasse. W. Lenhard, M. Hasselhorn und W. Schneider, Göttingen: Hogrefe, 2011.
LDL – Lernfortschrittsdiagnose. J. Walter. Ein curriculumbasiertes Verfahren. Göttingen: Hogrefe, 2009. Einsatzbereich: Vom Ende der 1. bis zur 9. Klasse, für Grund-, Haupt- und Förderschulunterricht.
SBL I – Schultestbatterie zur Erfassung des Lernstandes in Mathematik, Lesen und Schreiben I. H. Kautter, L. Storz und W. Munz. 2. Aufl., Weinheim: Beltz, 2000. Einsatzbereich: Ende 1. Klasse der Grundschule und entsprechende Leistungsstufen der Sonderschulen.
SBL II – Schultestbatterie zur Erfassung des Lernstandes in Mathematik, Lesen und Schreiben II. H. Kautter, L. Storz und W. Munz. 3. Aufl., Weinheim: Beltz, 2002. Einsatzbereich: Ende 2. Klasse der Grundschule und entsprechende Leistungsstufen der Sonderschulen.

8. Welchen Schulleistungstest wozu?

Die Anwendung von Schulleistungstests ist den Lehrkräften, Beratern und Forschern natürlich freigestellt. Diese Lehreinheit soll die Verfahren grundsätzlich vorstellen und Anwendungen nennen. Dazu ganz zum Ende noch drei Fragen mit Schwerpunkt der Anwendung durch Lehrkräfte:

Eine 1. Frage

Welchen Typ von Schulleistungstest soll ich verwenden?

Will man nicht selbst konstruieren, sondern auf Angebote der Testverlage zurückgreifen, dann kommt nur der normorientierte Schulleistungstest infrage, und zwar in seiner formellen, standardisierten Ausprägung.

Eine 2. Frage

Welchen Schulleistungstest kann ich konkret verwenden?

Die Zuordnung zu Unterrichtsfach, Jahrgang, Schultyp muss stimmen. Testgütekriterien sollten im Manual als gut brauchbar nachgewiesen sein.

Hier zeigen sich allerdings große Lücken im Sekundarstufenbereich, die erst allmählich geschlossen werden können. Verwendbar sind vielleicht aber auch dann doch eigens angelegte Kontrollfragen in manchen Sekundarstufen-Lehrbüchern, die in die Nähe informeller Tests eingeordnet werden können.

Eine 3. Frage

Kann ich Informationen über die Inhalte von Differenzierungs- oder Fördermaßnahmen (bei leistungsschwachen oder bei überdurchschnittlich leistungsstarken Schülern) bekommen?

Das ist bei solchen Schulleistungstests möglich, die entweder eine qualitative Auswertung ermöglichen oder die das gemessene Gesamtkonstrukt in Unterkonstrukte einteilen. Dazu muss man sich die angebotenen Tests kritisch ansehen.

Eine Empfehlung einzelner Schulleistungstests aus dem Gesamtangebot der Testautoren und -verlage wird hier nicht vorgenommen, sondern dem Nutzer überlassen.

Viel Erfolg bei der Anwendung!

9. Literaturempfehlungen

Langfeldt, H.-P. & Tent, L. (1999). Pädagogisch-psychologische Diagnostik. Band 2: Anwendungsbereiche und Praxisfelder. (Kapitel 5: Tests zur Beschreibung des Schulleistungsstandes, S. 85-889). Göttingen: Hogrefe.

Lukesch, H. (1998). Einführung in die pädagogisch – psychologische Diagnostik (2. Aufl.) (Kap. 13 Schulleistungstests - Grundlagen und Kap. 14 Wissensdiagnose durch Schulleistungstests, S. 500-595). Regensburg: Roderer.

10. Literaturverzeichnis

Arnold, K.-H. (2001). Qualitätskriterien für eine standardisierte Messung von Schulleistungen. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 117-130). Weinheim: Beltz.

Avenarius, H. (1990). Anwendung Diagnostischer Testverfahren in der Schule. Ein Rechtsgutachten. Weinheim: Beltz.

Baumert, J., Stanat, P. & Demmrich, A. (2001). PISA 2000: Untersuchungsgegenstand, theoretische Grundlagen und Durchführung der Studie. In J. Baumert, E Klieme, M. Neubrand, M. Prenzel, K. Schiefele, W. Schneider, P. Stanat, K.-J. Tillmann & M. Weiß et al. (Hrsg.), PISA 2000, Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 15-68). Opladen: Leske + Budrich.

Brähler, E., Holling, H., Leutner, D. & Petermann, F. (2002). (Hrsg.). Brickenkamp Handbuch psycholog. und pädagogischer Tests. (3. vollst. überarb. und erw. Aufl.). Göttingen: Hogrefe.

Doyé, P. & Lüttge, D. (1977). Diagnostischer Leistungstest Englisch 5/6 (DLE 5-6). Braunschweig: Westermann.

Fippinger, F. (1991). AST 3 – Allgemeiner Schulleistungstest für 3. Klassen. Weinheim: Beltz.

Gaude, P. & Teschner, W.P. (1970). Objektivierte Leistungsmessung in der Schule. Frankfurt: Diesterweg.

Gölitz, D., Roick, T. & Hasselhorn M. (2006). DEMAT 4 – Deutscher Mathematiktest für vierte Klassen. Göttingen: Hogrefe.

Grund, M., Haug, G. & Naumann, C.L. (2003). DRT 5. Diagnostischer Rechtschreibtest für 5. Klassen. (2. akt. Aufl.). Göttingen: Hogrefe.

Heller, K. A. & Hany, E. A. (2001). Standardisierte Schulleistungsmessungen. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 87-101). Weinheim: Beltz.

Herbig, M. (1974). Aufgabentypen zur Leistungsüberprüfung. In K.-J. Klauer, R. Fricke, M. Herbig, H. Rupprecht & F. Schott (Hrsg.), Lehrzielorientierte Tests (2. Aufl., S. 74-100). Düsseldorf: Schwann.

Herné, K.-L. (2006). Rechtschreibtests. In U. Bredel, H. Günther, P. Klotz, J. Ossner & G. Siebert-Ott (Hrsg.), Didaktik der deutschen Sprache. Ein Handbuch. 2. Teilband (2. Auflage, S. 883-897). Paderborn: Schöningh.

Heyse, H. (2003). Rechtsgrundlagen - Deutschland. In K. D. Kubinger & R. S. Jäger (Hrsg.), Schlüsselbegriffe der Psychologischen Diagnostik (S. 362-368). Weinheim: Beltz.

Jäger, R. S. (2001). Von der Beobachtung zur Notengebung – Ein Lehrbuch (4. Aufl.). Landau: Verlag Empirische Pädagogik.

Jäger, R. S. (2003). Fragestellung, psychologisch-diagnostische. In K. D. Kubinger & R. S. Jäger (Hrsg.), Schlüsselbegriffe der Psychologischen Diagnostik (S. 164-168). Weinheim: Beltz.

Kautter, H., Storz, L. & Munz, W. (2002). Schulleistungstestsbatterie zur Erfassung des Lernstands in Mathematik, Lesen und Schreiben II. (3. Aufl.). Göttingen: Hogrefe.

Kemmler, L. (1970). Erfolg und Versagen in der Grundschule, Empirische Untersuchungen (2. Aufl.). Göttingen: Hogrefe.

Klauer, K. J. (1987). Kriteriumsorientierte Tests. Lehrbuch der Theorie und Praxis lehrzielorientierten Messens. Göttingen: Hogrefe.

Klauer, K. J. (1994). Diagnose- und Förderblätter 4. Rechenfertigkeiten 4. Schuljahr. Berlin: Cornelsen.

Klauer, K. J. (2001). Wie misst man Schulleistungen? In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 103-115). Weinheim: Beltz.

Kleber, E. W. (1979). Tests in der Schule. Instrumente zur Gewinnung diagnostischer Information zur Lernsteuerung und Lernkontrolle.München: Reinhardt.

Kossow, H.-J. (1991). Leitfaden zur Bekämpfung der Lese- Rechtschreibschwäche (2. Aufl.). Berlin: Deutscher Verlag der Wissenschaften.

Krajewski, K., Liehm, S. & Schneider, W. (2004). DEMAT 2 +. Deutscher Mathematiktest für 2. Klassen (Manual). Göttigen: Hogrefe.

Kubinger, K. D. (2009). Psychologische Diagnostik. Theorie und Praxis psychologischen Diagnostizierens (2. Aufl.). Göttingen: Hogrefe.

Lenhard, W. & Schneider, W. (2006). ELFE 1-6. Ein Leseverständnistest für Erst- bis Sechstklässler. Göttingen: Hogrefe.

Leutner, D. (2010). Pädagogisch-psychologische Diagnostik. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (4. Aufl., S. 624-635). Weinheim: Beltz.

Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Psychologie Verlags Union.

Lukesch, H. (1998). Einführung in die pädagogisch – psychologische Diagnostik (2. Aufl.). Regensburg: Roderer.

Roick, T. (2008). Standardisierte Schulleistungstests. In W. Schneider & M. Hasselhorn (Hrsg.), Handbuch der Pädagogischen Psychologie (S. 271-281). Göttingen: Hogrefe.

Schelten, A. (1997). Testbeurteilung und Testerstellung. Grundlagen der Teststatistik und Testtheorie für Pädagogen und Ausbilder in der Praxis (2. Aufl.). Stuttgart: Steiner.

Schöler, H. (2006). Sprachleistungsmessungen. In U. Bredel, H. Günther, P. Klotz, J. Ossner & G. Siebert-Ott (Hrsg.), Didaktik der deutschen Sprache. Ein Handbuch. (2. Teilband, 2. Aufl., S. 898-913).. Paderborn: Schöningh.

Trolldenier, H.-P. (2014). Würzburger Rechtschreibtest für 1. und 2. Klassen (WÜRT 1-2). Ein Verfahren für Grund- und Förderschüler. Göttingen: Hogrefe.

Weber, J. & Marx, P. (2008). Lese-Rechtschreibschwierigkeiten. In W. Schneider & M. Hasselhorn (Hrsg.), Handbuch der Pädagogischen Psychologie (S. 632-641). Göttingen: Hogrefe.

Weinert, F. E. (2001). Schulleistungen – Leistungen der Schule oder der Schüler?. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 73-86). Weinheim: Beltz.

Wilhelm, O. & Kunina, O. (2009). Pädagogisch-psychologische Diagnostik. In E. Wild & J. Möller (Hrsg.), Pädagogische Psychologie (S. 307-331). Springer: Heidelberg.

11. Übungsfragen

Welche Gruppen von Tests gibt es in der pädagogisch-psychologischen Diagnostik und nach welchen Prinzipien werden diese unterschieden? (dabei auch frühere Lehreinheiten mit einbeziehen).
Wodurch unterscheiden sich Schulleistungstests von Schulaufgaben/ Probearbeiten/Oberstufenklausuren?
Welche Inhalte liegen den Schulleistungstests zugrunde im Vergleich mit PISA?
Was sind die Definitionskriterien des psychologischen Tests und wie wird dafür gesorgt, dass diese bei der Testkonstruktion realisiert werden?
Was ist curriculare Validität? Wir kann diese sichergestellt werden?
Wozu braucht man bei der Testkonstruktion eine "Testvorform"?
Was ist Eichung eines Tests?
Wozu benötigt der Testbenutzer (Lehrkraft) die Normtabelle? Was unterscheidet ein damit verarbeitetes Testergebnis von der Rohpunktsumme?
Gemeinsamkeiten und Unterschiede zwischen normorientierten und kriteriumsorientierten Schulleistungstests. Anwendungsschwerpunkte für beide skizzieren!
Unterschied zwischen quantitativer und qualitativer Auswertung eines Schulleistungstests.
Welche Informationen können Sie aus der Anwendung eines normorientierten Schulleistungstests ziehen, die für Ihren beruflichen Alltag als Lehrkraft von Interesse sein können?
Welche Vorteile bringt für Sie als Lehramtsstudierende/r die Kenntnis von Schulleistungstests?