18. August 2010 | Tanja Gabriele Baudson

Wie man mit alten Tests Hochbegabte produziert

So, Frau Baudson ist wieder aus dem Urlaub zurück (schön war's!) – jetzt wird wieder gebloggt! Heute geht es um eine Frage, die Herr Müller und ich im letzten Artikel kurz angerissen haben: die Frage nach der Normierung von Tests. Normierung, das klingt nach Gleichmacherei, Auf-Spur-Bringen. In der Psychologie (und insbesondere, wenn es um die Messung menschlicher Eigenschaften geht) ist das aber ganz und gar kein negativer Begriff, sondern im Gegenteil etwas sehr Nützliches!
Normierung heißt für uns Psychologen, einen Vergleichsmaßstab schaffen. Um einen repräsentativen Vergleich zu haben, braucht man viele Leute; und genau das macht man, wenn man einen Intelligenztest entwickelt. Vorab überlegt man sich, welche Aufgaben sinnvoll sind, um Intelligenz zu messen. Da Intelligenz ja ein recht komplexes Konstrukt ist, gibt es eine Vielzahl von Aspekten, die man erfassen kann. Manche Tests wie der HAWIK (Hamburg-Wechsler-Intelligenztest für Kinder), der wohl am weitesten verbreitete Intelligenztest für Kinder, sind eher sprachlastig; andere wie der CFT (Grundintelligenztest – Culture-Fair Test) verwenden eher abstrakte grafische Aufgaben. Was man messen will, hängt auch von der Zielsetzung des Tests ab. Sprachliche Fähigkeiten sind für den Schulerfolg besonders wichtig; wenn ich etwa überprüfen will, ob ein Kind früher eingeschult werden kann, würde ich folglich einen Test verwenden, der Sprachaufgaben mit einschließt. Wenn ich vermute, dass ein Kind aus einem bildungsfernen Elternhaus kommt (und seine sprachlichen Fähigkeiten folglich nicht so ausgeprägt sind wie bei einem anderen, das jeden Abend vorgelesen bekommt, wo Konflikte verbal ausgetragen und Emotionen in Worte gefasst werden), würde ich eher etwas mehr oder weniger Sprachfreies verwenden, eben abstrakte Aufgaben, bei denen eher die Fähigkeit zum logischen Schlussfolgern gemessen wird.

Nachdem die Aufgaben also stehen, wird erst einmal optimiert. Hierbei spielen statistische Kennwerte eine Rolle. Gemäß der klassischen Testtheorie muss eine Aufgabe – oder, wie wir Psychologen sagen, ein Item – zunächst einmal Vielfalt bei den Antworten zulassen. Die Statistiker sprechen von "Streuung" oder "Varianz". Darüber hinaus ist die Schwierigkeit von Bedeutung. Insbesondere bei Hochbegabten ist es wichtig, dass auch eine ausreichend hohe Anzahl schwieriger Items dabei ist, damit der Test auch im Extrembereich gut differenziert. Die Trennschärfe ist das dritte Kriterium: Sie bezeichnet, wie gut einzelne Aufgaben mit dem Gesamttest zusammenhängen. Wenn ich ein trennscharfes Item lösen kann, ist die Wahrscheinlichkeit hoch, dass ich auch insgesamt ein gutes Ergebnis erziele. Auf Grundlage dieser drei Kriterien wählen wir die endgültigen Aufgaben dann aus.

So, wir haben es geschafft, unser Test liegt vor uns! Jetzt gilt es, ihn mit einer ausreichend großen Stichprobe (mindestens mehrere hundert Teilnehmer, besser im vierstelligen Bereich), die für meine Zielgruppe repräsentativ ist, durchzuführen. Hinreichend groß sollte sie sein, um systematische Verzerrungen zu vermeiden (sobald genug Leute zusammen sind, nullen sich die Fehler heraus – wenn ein paar Leute am Testtag nicht in Form sind, gibt es dafür auch ein paar, die besser in Form sind als sonst), repräsentativ, damit aussagekräftige Ergebnisse abgeleitet werden können. Einen Intelligenztest, der auf Hochbegabte abzielt, sollte man also sinnigerweise nicht an Kindern mit Lernbehinderungen normieren, da er für diese Gruppe zu schwer ist. Wenn ich alle Ergebnisse beisammen habe, schaue ich mir die Verteilung an; diese sollte etwa der Normalverteilung entsprechen. Diese "Rohwerte" lassen sich dann durch eine relativ unkomplizierte mathematische Transformation in die bekannte IQ-Verteilung überführen, mit dem Mittelwert von 100 und der Standardabweichung (der Wurzel aus der Varianz) von 15. So bekomme ich meine Vergleichsgruppe, anhand der ich ein individuelles Testergebnis einordnen kann.

Für die nächsten Jahre haben wir erst einmal Ruhe. Leider nur für die nächsten Jahre, denn ein neuseeländischer Forscher namens Flynn hat beobachtet, dass die Menschen heute mehr Aufgaben aus einem Intelligenztest der 1960er Jahre lösen können als Gleichaltrige in den 1960er Jahren. Pro zehn Jahre macht das etwa ein Plus von drei IQ-Punkten aus – das ist eine ganze Menge! Der "Flynn-Effekt" wurde dann auch nach dem Entdecker benannt. (Inzwischen haben einige Forscher beobachtet, dass der Effekt seit etwa zehn Jahren leicht rückläufig ist; ob dies alle Bevölkerungsgruppen gleichermaßen betrifft, wird noch diskutiert.) Werden unsere Kinder also schlauer? Nicht wirklich – denn wir nehmen ja an, dass sich die Intelligenz über die Zeit und über die gesamte Bevölkerung immer gemäß der IQ-Verteilung darstellt. Deshalb ist es notwendig, Tests kontinuierlich neu zu normieren, damit die Vergleichsgruppe stimmt und das Ergebnis somit zuverlässig die wahre Intelligenz repräsentiert. Im Extremfall lassen sich mit alten Tests sogar selektiv Hochbegabte "produzieren" – deshalb sollte man darauf achten, wie alt die Normen sind (als Faustregel sollten sie nicht älter als etwa sieben Jahre sein). Einem Kind, das fälschlicherweise als hochbegabt diagnostiziert wird und dann möglicherweise durch gut gemeinte Fördermaßnahmen überfordert wird, tut man keinen Gefallen.