INSBAT Intelligenz-Struktur-Batterie

L.F. Hornke, M. Arendasy, M. Sommer, J. Häusler, M. Wagner-Menghin, G. Gittler, B. Bognar, M. Wenzl © SCHUHFRIED GmbH

Die Testbatterie INSBAT ist eine modulare, theoriegeleitet konstruierte Intelligenz-Testbatterie und dient zur fairen und ökonomischen Erfassung berufsrelevanter Fähigkeiten.

Anwendung
Erfassung von Intelligenzniveau und Intelligenzstruktur; einsetzbar ab 14 Jahre.

Theoretischer Hintergrund
Im Sinne einer entscheidungsorientierten psychologischen Diagnostik ist die INSBAT modular aufgebaut. Dies bedeutet, dass jeweils nur jene Subtests vorgegeben werden müssen, die zur Beantwortung der Fragestellung maximal informativ sind.
Die INSBAT basiert auf dem hierarchischen Intelligenzmodell von Cattell-Horn-Carroll (Carroll, 1993; Horn, 1989; Horn & Noll, 1997). Das Modell geht davon aus, dass sich die Interkorrelationen zwischen den Subtests zur Erfassung der Primärfaktoren durch neun inhaltlich breiter angelegte Sekundärfaktoren erklären lassen. Die Zusammenhänge zwischen den Sekundärfaktoren werden durch einen Generalfaktor der Intelligenz erklärt, der die Spitze des hierarchischen Intelligenzmodells bildet. Die Gültigkeit dieser Faktorenstruktur konnte in einer Vielzahl an Studien aus unterschiedlichen Ländern repliziert werden (z.B. Arendasy, Hergovich & Sommer, 2008, Brickley, Keith & Wolfe, 1995; Carroll, 1989; Gustafsson, 1984; Horn & Stankov, 1982; Undheim & Gustafsson, 1987).
Bei der Konstruktion der INSBAT wurden folgende Sekundärfaktoren ausgewählt, die für praktische Anwendungsgebiete wie die Arbeits-, Betriebs- und Organisationspsychologie oder die Pädagogische Psychologie von Interesse sind:

Fluide Intelligenz: Die Fähigkeit, Relationen zwischen Reizen zu erkennen, Implikationen zu verstehen und logische Schlüsse zu ziehen (Subtests: Numerisch-induktives Denken, Figural-induktives Denken, Verbal-deduktives Denken).

Kristalline Intelligenz: Die Breite und Tiefe des erworbenen Kulturwissens, sowie Wortflüssigkeit und Wortverständnis (Subtests: Allgemeinbildung, Verbale Flüssigkeit, Wortbedeutung).

Kurzzeitgedächtnis: Die Fähigkeit, Informationen visueller und verbaler Art kurzfristig zu behalten und akkurat zu reproduzieren (Subtests: Visuelles Kurzzeitgedächtnis, Verbales Kurzzeitgedächtnis).

Langzeitgedächtnis: Die Fähigkeit, Informationen längerfristig zu behalten und in die eigene Wissensbasis zu integrieren sowie akkurat abzurufen (Subtest: Langzeitgedächtnis).

Visuelle Verarbeitung: Die Fähigkeit, sich das Erscheinungsbild von Objekten in Folge einer mentalen Rotation oder Transformation vorstellen zu können (Subtest: Raumvorstellung).

Verarbeitungsgeschwindigkeit: Definiert durch die Anzahl der basalen kognitiven Operationen, die in einem bestimmten Zeitraum durchführbar sind, (Subtest: Betrachtungszeit).

Entscheidungssicherheit: Bestimmt durch die Anzahl erforderlicher basaler kognitiver Operationen, die für eine schnelle und gleichzeitig akkurate Entscheidung bei nicht-trivialen Aufgaben erforderlich sind (Subtest: Entscheidungssicherheit).

Quantitatives Denken: Das Verständnis und die Fähigkeit zur Anwendung mathematischer Konzepte und Fertigkeiten (Subtests: Arithmetische Schätzfähigkeit, Arithmetische Kompetenz, Arithmetische Flexibilität, Algebraisches Denken).

Insgesamt stehen somit 16 Subtests zur Verfügung. Die Aufgaben der einzelnen Subtests wurden mit Hilfe unterschiedlicher Ansätze der Automatisierten Itemgenerierung (AIG: Arendasy & Sommer, in press; Irvine & Kyllonen, 2002) unter Verwendung aktueller 
Forschungsergebnisse aus den Kognitionswissenschaften und der Angewandten Psychometrie konstruiert. Die Itemkonstruktion erfolgte dabei entweder mit Hilfe menschlicher Itemschreiber oder auch vollautomatisch mit Hilfe von Itemgeneratoren. Im Hinblick auf die psychometrischen Eigenschaften des Itemmaterials wurde darauf Wert gelegt, dass die Items der einzelnen Subtests (1) nach dem 1PL-Rasch Modell skalierbar sind, und (2) das den Items zugrunde liegende theoretische Modell zumindest 50 Prozent der Varianz in den Itemschwierigkeitsparametern aufklären kann. Hieraus ergibt sich für den praktischen Anwender der Vorteil der Verrechnungsfairness und Interpretationseindeutigkeit der einzelnen Subtestergebnisse.

Durchführung
Die INSBAT wurde als modulare Intelligenztestbatterie entwickelt. Dies bedeutet, dass nur jene Subtests vorgegeben werden müssen, die zur Beantwortung der diagnostischen Fragestellung relevant sind. Dies lässt sich in den Variablen Form I (S1) und der Variablen Form II (S2) realisieren. Während in der Testform S1 ausschließlich die Subtests ausgewählt werden können, besteht in der Testform S2 die Möglichkeit, die Subtestreihenfolge, sowie die Endbedingungen der adaptiven Tests an die Fragestellung optimal anzupassen. Diese beiden Testformen eignen sich vor allem zur Prognose des beruflichen und schulischen Erfolgs in Branchen mit klar definierten Anforderungsprofilen. Zur differenzierten Überprüfung des Intelligenzniveaus und der Intelligenzstruktur sollte jeder Sekundärfaktor durch einen Markersubtest (Figural-induktives Denken, Wortschatz, Visuelles Kurzzeitgedächtnis, Langzeitgedächtnis, Raumvorstellung und Betrachtungszeit) erfasst werden. Ergänzend kann dann noch ein zweiter Subtest pro Sekundärfaktor herangezogen werden, um die inhaltliche Breite des Sekundärfaktors zu gewährleisten. Dieser Ansatz ist bereits in der Globalform (S3) realisiert. Nach Schmidt und Hunter (1998) eignet sich ein derartiges Vorgehen vor allem bei der Prognose der beruflichen Leistung von Personen in sehr abwechslungsreichen Berufen mit heterogenen Aufgabenfeldern. Sollten die zeitlichen Ressourcen für eine differenzierte Erfassung der  Leistungsfähigkeit einer Person nicht ausreichen, kann auf die Kurzform (S4) zurückgegriffen werden.
Für jeden Subtest liegt eine standardisierte Instruktion mit Übungsbeispielen vor, welche auf Prinzipien des programmierten Unterrichts und „mastery learning“ basieren. Die Antworteingabe erfolgt je nach Subtest im Multiple-Choice-Format oder in automatisierter freier Beantwortung. Die Aufgaben der einzelnen Subtests werden zum Teil als Power-Testung und zum Teil mit itemweisem Zeitlimit vorgegeben. Bei 11 Subtests werden die Aufgaben als adaptiver Test (CAT) mit einem anhand soziodemografischer Daten optimierten Testeinstieg vorgegeben, wodurch die gewonnene Information ohne Überforderungen bzw. Unterforderung der Probanden durch einzelne Aufgaben maximiert wird.

Testformen
Es stehen insgesamt vier Testformen zur Verfügung: Testform S1 (Variable Form I), Testform S2 (Variable Testform II), Testform S3 (Globalform) und Testform S4 (Kurzform)

Auswertung
Für jeden der ausgewählten Subtests wird der Fähigkeitsparameter nach dem Rasch Modell ausgegeben. Während die Anzahl der richtig bearbeiteten Items lediglich ein Maß für die Performanz einer Person darstellt, erlaubt der Fähigkeitsparameter die Schätzung der zugrunde liegenden, latenten Fähigkeitsdimension. Dies stellt einen wesentlichen und zugleich auch diagnostisch notwendigen Inferenzschritt dar. Dieser Inferenzschritt ist jedoch an die Passung des Rasch Modells gebunden, die für die Subtests der INSBAT gezeigt werden konnte (vgl. dazu van der Linden & Hambelton, 1997).
Sofern zu einem Sekundärfaktor mehr als ein Subtest ausgewählt wurde, wird ein Fähigkeits-parameter für den entsprechenden Sekundärfaktor berechnet. Der Fähigkeitsparameter für den Generalfaktor Allgemeine Intelligenz (G) wird berechnet, wenn aus vier der sechs Sekundärfaktoren fluide Intelligenz (Gf), kristalline Intelligenz (Gc), visuelle Verarbeitung (Gv), quantitatives Denken (Gq), Kurzzeitgedächtnis (Gstm) und Langzeitgedächtnis (Gltm) zumindest ein Subtest ausgewählt wurde. Neben der Ausgabe der Fähigkeitsparameter und Faktorscores wird ein Normvergleich (Prozentränge und IQ; Vertrauensintervall) durchgeführt. Die Ergebnisse werden im Anschluss an die Testdurchführung sowohl in Form einer Tabelle, als auch in Form eines Profils im Ergebnisausdruck dargestellt. Dem Testprotokoll zu den einzelnen Subtests können die itemweisen Latenzzeiten, die gewählte Antwort, sowie deren Bewertung und Statistiken zum adaptiven Vorgang entnommen werden.
Darüber hinaus bietet die INSBAT auch die Möglichkeit einer automatischen Übertragung der Testresultate in eine Befundvorlage.

Zuverlässigkeit
Aufgrund der adaptiven Itemvorgabe der einzelnen Subtests und der dafür notwendigen Geltung eines probabilistischen Testmodells kann jede gewünschte Messgenauigkeit erreicht werden. Aus Ökonomiegründen liegt die Reliabilität der einzelnen Aufgabengruppen zwischen r=0.70 und r=0.95. Die Stabilität der Subtests nach rund 15 Monaten schwankt zwischen r=0.63 und r=0.87.

Gültigkeit
Die Konstruktrepräsentation (Embretson, 1983) der einzelnen Subtests der INSBAT wurde in Studien nachgewiesen, in denen die Itemschwierigkeiten anhand von Aufgabeneigenschaften vorhergesagt wurden, die sich aus den theoretischen Modellen zur Lösung dieser Aufgabentypen ableiten. Die multiplen Korrelationen zwischen den Itemschwierigkeits-parametern des Rasch-Modells (Rasch, 1980) und den so ermittelten Itemmerkmalen liegen bei den einzelnen Subtests zwischen R=0.70 und R=0.97. Dies bedeutet, dass durch die theoretischen Modelle, die als Grundlage für die Konstruktion der Items in den einzelnen Subtests herangezogen wurden, zwischen 50 und 94 Prozent der Unterschiede in den Itemschwierigkeiten erklärt werden können.
Darüber hinaus liegen mittlerweile zahlreiche Studien zur nomothetischen Spanne (Embretson, 1983) der einzelnen Subtests vor. Eine Studie von Sommer und Arendasy (2005; Sommer, Arendasy & Häusler, 2005) erbrachte den Nachweis der Konstruktvalidität für die Gesamttestbatterie, sowie für die Globalform und die Kurzform. Die Autoren konnten mit Hilfe von konfirmatorischen Faktorenanalysen die theoriegeleitete Zuteilung der einzelnen Subtests zu den Sekundärfaktoren des Cattell-Horn-Carroll Modells bestätigen. Diese Ergebnisse werden durch die Studien von Arendasy und Sommer (2007), sowie Arendasy, Hergovich und Sommer (2008) ergänzt, in denen die zuvor berichteten Ergebnisse unter Einbeziehung alternativer Subtests anhand einer unabhängigen Stichprobe repliziert werden konnten.
Hinweise auf die Kriteriumsvalidität der einzelnen INSBAT Subtests liegen aus dem Bereich der Flugpsychologie (Auswahl von Pilotenanwärtern) und der Bildungsberatung (Prognose des Ausbildungserfolgs an Fachhochschulen) vor.

Normen
Es stehen Normen im Umfang von 904 Erwachsenen im Alter von 16 bis 73 Jahren zur Verfügung, sowie Normen einer Stichprobe von 1595 Jugendlichen im Alter 12 und 15 Jahren. Beide Normen liegen auch getrennt nach Alter, Geschlecht und Bildung vor.

Literatur

Arendasy, A., Sommer, M. & Hergovich, A. (2007). Automatische Zwei-Komponenten-Itemgenerierung am Beispiel eines neuen Aufgabentyps zur Messung der Numerischen Flexibilität. Diagnostica, 53, 119-130.

Arendasy, M. (2004). Automatisierte Itemgenerierung und psychometrische Qualitätssicherung am Beispiel des Matrizentests GEOM. Wien: Habilitationsschrift der Universität Wien.

Arendasy, M. (2005). Automatic generation of Rasch-calibrated items: Figural Matrices Test GEOM and Endless Loops Test EC. International Journal of Testing, 5, 197-224.

Arendasy, M., & Sommer, M. (2007). Automatic generation of quantitative reasoning items: A schema-based isomorphic approach. Learning and Individual Differences, 17, 366-383.

Arendasy, M., Sommer, M., Gittler, G. & Hergovich, A. (2006). Automatic generation of quantitative reasoning items:  pilot study. Journal of Individual Differences, 27, 2-14.

Daurer, U. D. (1997). Erstellung einer Jugendlichenform des Tests "Lexikonwissen". Unpublished Master Thesis, University of Vienna, Vienna.

Gittler, G. (1990). Dreidimensionaler Würfeltest. Ein Rasch-skalierter Test zur Messung des räumlichen Vorstellungsvermögens. Theoretische Grundlagen und Manual. Weinheim: Beltz.

Gittler, G. (1999). Manual Adaptiver Dreidimensionaler Würfeltest. Mödling: Dr. G. Schuhfried GmbH.

Hornke, L. F. (2002). Item-generation models for higher order cognitive functions. In S. H. Irvine & P. C. Kyllonen (Eds.), Item generation for test development (pp. 159-178). London: Lawrence Erlbaum.

Hornke, L.F., Etzel, S. & Küppers, A.. (2000). Konstruktion und Evaluation eines adaptiven Matrizentests. Diagnostica, 46, 182-188.

Wagner, M. M. (1999). Lexikon-Wissen-Test (LEWITE) Leistungstest- und/oder Objektiver Test zur Beurteilung der Realitätsangemessenheit der Selbsteinschätzung. Unpublished Dissertation, University of Vienna, Vienna.

Infobox