Diagnostik mit Intelligenztests
BEFKI 5-7 – Berliner Test zur Erfassung fluider und kristalliner Intelligenz für die 5. bis 7. Jahrgangsstufe
Altersbereich: 5. bis 7. Klasse (ca. 10;0 bis 13;11 Jahre)
Test-Typ: Einzel- und Gruppentest
Erscheinungsjahr: 2020
Verlag: Hogrefe, Göttingen

1 Beschreibung
1.1 Zielsetzung und Grundlagen
Der BEFKI 5-7 dient der altersgerechten Erfassung fluider (gf) und kristalliner Intelligenz (gc) für die Klassenstufen 5 bis 7.
Im Kanon der BEFKI-Testreihe ermöglicht der BEFKI 5-7 in Kombination mit anderen BEFKI-Verfahren die altersstufengerechte Erfassung von fluider und kristalliner Intelligenz, aufgrund teilweise übereinstimmender (verlinkter) Testitems. Intelligenztheoretisch fußt das Verfahren auf der gf-gc-Theorie (Cattell, 1963, 1971; Horn & Noll, 1997) sowie der 3-Stratum-Theorie (Carroll, 1993). Besonders relevant für längsschnittliche Forschungsarbeiten.
1.2 Aufbau
- Der BEFKI 5-7 besteht aus drei Untertests der fluiden Intelligenz (gf) mit je 16 Aufgaben:
- Schlussfolgerndes Denken — verbaler Teil (gfv),
- Schlussfolgerndes Denken — numerischer Teil (gfn),
- Schlussfolgerndes Denken — figuraler Teil (gff),
- Es gibt zwei Pseudoparallelformen (A und B) mit veränderter Reihenfolge der Antwortoptionen (für gf) bzw. der Aufgabenabfolge (für gc) sowie eine Kurzform, die aus den Subtests gff und gc besteht.
1.3 Quellen
Schroeders, U., Schipolowski, S., & Wilhelm, O. (2020). BEFKI 5-7: Berliner Test zur Erfassung fluider und kristalliner Intelligenz für die 5. bis 7. Jahrgangsstufe. Hogrefe.
2 Anwendung
2.1 Zusammenfassung
Verwendung zur Hochbegabungsdiagnostik nur in Kombination mit weiteren Verfahren (bspw. BIS-HB; Jäger et al., 2006) empfohlen.
Fehlende bzw. eingeschränkte Reliabilitätsbelege müssen bei der Anwendung unbedingt beachtet werden.
Autoren vertreten kritische Sicht auf Schwellendefinitionen von Hochbegabung.
Fähigkeitsprofile ermöglichen differenzierte Intelligenzerfassung, sind bisher jedoch ohne Profilreliabilitätsnachweise.
Deckeneffekte für Gesamtskalen schränken Differenzierungsbereich im oberen Intelligenzspektrum ab 12 Jahren ein.
Keine differenziellen Validitätsbelege für Hochbegabungsbereich.
2.2 Eignung als Screening
Als Screening eingeschränkt geeignet
Gruppentestung möglich.
Verwendung der Kurzform (gff + gc) nur empfohlen, wenn 70-minütige Testung mit Gesamtverfahren nicht realisierbar. Keine separaten Normen für Kurzform. Reliabilität der gff-Skala für Intelligenzmessung eher niedrig (Rel ≤ .80).
2.3 Eignung zur Profilerstellung
Fähigkeitsprofil weitestgehend möglich
Profilerstellung für gf (gff/gfv/gfn) und gc (Natur-/ Geistes-/ Sozialwissenschaften) inklusive Konfidenzintervallen für entsprechende Subtests prinzipiell möglich, jedoch ohne Profilreliabilitätsangaben.
Kritische Differenzwerte werden in Fallbeispielen angesprochen, sind aber nicht Teil des Manuals (bspw. in Tabellenform) oder der Auswertungsbögen.
2.4 Eignung für die Schullaufbahnberatung
Für die Schullaufbahnberatung eingeschränkt geeignet
In Kombination mit Verfahren mit hoher konkurrenter oder prädiktiver Validität im schulischen Bereich (z. B. Schulleistungstests) geeignet.
Kriteriumsvaliditäten für Schulnoten (retrospektiv, selbstberichtet) gegeben, Zusammenhänge aber insgesamt eher gering (r < .50).
Klassenstufennormen mit deutlichen Deckeneffekten in Klassenstufe 7 (gfmax = 120; gcmax = 123 auf Z-Skala).
Prognostische Validitätsbelege für Schulleistungen fehlen.
2.5 Eignung für Selektionsentscheidungen
Für Selektionsentscheidungen eingeschränkt geeignet
In Kombination mit zusätzlichen mehrdimensionalen Intelligenztestungen sowie nicht-fähigkeitsbezogenen Merkmalen (z. B. Leistungsmotivation, akademisches Selbstkonzept) geeignet.
Für Hochbegabungsdiagnostik empfohlene Altersnormen für Gesamtskalen mit deutlichen Deckeneffekten ab 12 Jahren (gfmax = 121; gcmax = 123 auf Z-Skala).
Prognostische Validitätsbelege für Schulleistungen fehlen.
3 Normierung
3.1 Vorbemerkungen
Klassenstufennormen sollten gegenüber den Altersnormen bevorzugt werden.
3.2 Aktualität der Normen
Überprüfung/Aktualisierung der Normen in den nächsten Jahren erforderlich
Normierungszeitraum: Dezember 2009 – März 2010.
Klassenstufennormen (5., 6. und 7. Klassenstufe), Altersgruppennormen (10, 11, 12 und 13 Jahre), geschlechts- (Mädchen vs. Jungen) und schulartspezifische Normen (Gymnasium vs. nichtgymnasiale Schulformen).
3.3 Repräsentativität der Normen
Repräsentativität der Normen eingeschränkt gegeben
n = 4.216 Schüler:innen verschiedener allgemeinbildender Schulen in Deutschland (Baden-Württemberg, Berlin, Hessen, Niedersachsen, Thüringen).
Mängeln in ursprünglicher Populationsrepräsentativität der Normierungsstichprobe bzgl. Schulart- und Geschlechterverteilung wurde über die Ermittlung von Gewichtungsfaktoren auf Basis der Zielpopulationsanteile für die Normwertbestimmung (Z-Werte; PR) begegnet.
Einschränkungen ergeben sich v. a. für (ursprünglich) nicht repräsentative Geschlechtsnormen (bspw. zu viele weibliche Schülerinnen aus Schulen mit mehreren Bildungsgängen; zu wenige männliche Hauptschüler; gilt jeweils für Jahrgangsstufe 7) und nur gering gestaffelte Schulartnormen (Gymnasien vs. nicht-gymnasiale Schulformen).
4 Objektivität
4.1 Vorbemerkungen
Keine speziellen Hinweise
4.2 Durchführungsobjektivität
Durchführungsobjektivität gegeben
Detaillierte Durchführungshinweise (u. a. wörtliche Instruktionen, präzise Zeitangaben für Subtestbearbeitung) inklusive allgemeiner Voraussetzungen an Testperson, Testung und Testleiter.
Fokus auf Gruppentestung mit Empfehlung zur Nutzung der Pseudoparallelformen.
4.3 Auswertungsobjektivität
Auswertungsobjektivität weitestgehend gegeben
Separate Auswertungsbögen und -schablonen für Kurz- und Langform vorhanden.
Einfache, klar verständliche Auswertungshinweise im Manual gegeben.
Keine Tabellen für ipsative Profilanalysen (kritische Differenzwerte).
4.4 Interpretationsobjektivität
Interpretationsobjektivität weitestgehend gegeben
Kontextspezifische Anwendungsempfehlungen für verschiedene Normarten vorhanden (bspw. Altersgruppennormen für Hochbegabungsfragestellungen).
Hinweise zur Ergebnisrückmeldung inklusive verständlicher Textbeispiele.
Ergebnisrückmeldung erfolgt lediglich auf Basis der Normwerte, anstatt auf Basis vorhandener Konfidenzintervalle (90 %/ 95 %/ 99 %), sodass angestrebte Verwendung der Rückmeldungshinweise im Manual in psychologischen Begutachtungen fraglich.
5 Reliabilität
5.1 Vorbemerkungen
Keine speziellen Hinweise
5.2 Paralleltest-Reliabilität
Paralleltest-Reliabilität entfällt
Lediglich Pseudoparallelformen vorhanden.
5.3 Testhalbierungsreliabilität
Angaben zur Beurteilung der Testhalbierungsreliabilität fehlen
5.4 Retest-Reliabilität
Angaben zur Beurteilung der Retest-Reliabilität fehlen
5.5 Interne Konsistenz
Interne Konsistenz eingeschränkt gegeben
Skalenreliabilität für Gesamt-IQ-Werte gegeben (gf: .85 ≤ α ≤ .88, .85 ≤ ρ ≤ .88; gc: .85 ≤ α ≤ .88, .85 ≤ ρ ≤ .89; basierend auf Normdaten für Klassenstufen).
Auf Subtestebene teilweise für Leistungsmessung zu geringe Skalenreliabilitäten (gf: .63 ≤ α ≤ .78, .65 ≤ ρ ≤ .79; gc: .63 ≤ α ≤ .75, .64 ≤ ρ ≤ .78; basierend auf Normdaten für Klassenstufen).
Faktorreliabilitäten für Subtests gut (.84 ≤ ω ≤ .88).
Detaillierte Empfehlungen zur Nutzung verschiedener Reliabilitätskennwerte (bspw. zur Bestimmung von Konfidenzintervallen) gegeben.
5.6 Profilreliabilität
Angaben zur Beurteilung der Profilreliabilität fehlen
6 Validität
6.1 Vorbemerkungen
Hohe Nachvollziehbarkeit und Transparenz in Darstellung der Validitätsbefunde im Manual.
6.2 Konstruktvalidität
Konstruktvalidität eigeschränkt gegeben
Faktorielle Validität:
Für Gesamtskala gf ist 3-Faktormodell einfachem g-Modell überlegen (Δ CFI = +.022).
Für Gesamtskala gc ergeben sich kaum Unterschiede zwischen 3-Faktor- und g-Modell (Δ CFI = +.001 für 3-Faktormodell), wobei keines die Datengrundlage sehr gut abbildet (CFI ≤ .924). Die Bevorzugung des einfachen g-Modells durch die Autoren bleibt auf Grundlage der Faktorenanalyseergebnisse unklar.
Insgesamt für gf gegeben, für gc eher nicht gegeben.
Konvergente und diskriminante Validität:
Für gf und gc in Normierungsstudie sowie einer weiteren Validitätsstudie (n = 333) überprüft.
Sehr hohe konvergente Zusammenhänge für gf zum KFT 4-12+R (Heller & Perleth, 2000; r = .93) sowie zu PSB-Verfahren (Horn et al., 2002, 2003; r = .87).
Erwartbar hohe konvergente Zusammenhänge für gc (KFT 4-12+R: r = .79; PSB: r = .73).
Hohe, diskriminante Zusammenhänge für gf zum WST (Schmidt & Metzler, 1992; r = .69) sowie zum Subtest Allgemeinwissen des PSB (r = .61).
Für gc hoher diskriminanter Zusammenhang zum PSB (.66); sehr hoher diskriminanter Zusammenhang zum KFT 4-12+R (r = .81).
Gleichheit erfasster Faktoren über Modelltests (∆χ²) mit entsprechenden Gleichheitsrestriktionen ausgeschlossen.
Insgesamt fallen viele konvergente wie auch diskriminante Validitätsbelege zu hoch aus. Weitere Befunde v. a. zu klarer von Intelligenz abgrenzbaren Leistungsmerkmalen (z. B. Konzentrationsfähigkeit) wünschenswert.
6.3 Kriteriumsvalidität
Kriteriumsvalidität eigeschränkt gegeben
Korrelative Zusammenhänge von gf und gc mit (selbstberichteten) Schulnoten in verschiedenen Fächern in Normierungsstudie überprüft.
Insgesamt eher geringe Zusammenhänge (max: rgf, Mathematiknote = .44), wobei Relationen zwischen Korrelationen verschiedener Fächer mit gf erwartungsgemäß (Mathematik > Naturwissenschaften / Deutsch > Kunst/Sport). Weniger stringenter Befund für gc (max: rgc, Deutschnote = .33).
Differenzielle Validität:
Erwartbare Leistungsunterschiede in Abhängigkeit der Jahrgangsstufe (5 < 6 < 7), wobei gc mit größeren Unterschieden als gf.
Keine Geschlechtsunterschiede für Gesamtskalen. Geringfügige Vorteile für Jungen in gfn (d = .26) und in naturwissenschaftlichen gc-Aufgaben (d = .27).
Teilweise große Unterschiede zwischen Schularten in Gesamtskalen, wobei Gymnasien gegenüber nicht-gymnasialen Schularten stark im Vorteil sind (dgf = 1.10; dgc = 1.03).
Differenzielle Validität für Hochbegabungsbereich nicht untersucht.
6.4 Prognostische Validität
Angaben zur Beurteilung der Prognostischen Validität fehlen
Schulnoten in o. g. Validitätsbefunden wurden retrospektiv im Selbstbericht erfasst.
7 Ökonomie
7.1 Vorbemerkungen
Fokus liegt auf Einsatz als Gruppentest.
7.2 Durchführungsökonomie
Durchführung ökonomisch
Langform inkl. Instruktion: 70 min.
Kurzform inkl. Instruktion: 40 min.
Keine Unterschiede in Testdauer für Einzel- vs. Gruppentestung.
7.3 Auswertungsökonomie
Auswertung ökonomisch
Einfache, wenig aufwändige Auswertung aufgrund von Schablonen und übersichtlichen Auswertungsbögen.
Verständliche Auswertungshinweise (inklusive Fallbeispielen).
Computergestützte Auswertungsmöglichkeit nicht vorhanden.
8 Weiterführendes
8.1 Vorgängerversion
Vorgängerversionen sind nicht vorhanden.
8.2 Literaturangaben
Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. Cambridge University Press. https://doi.org/10.1017/CBO9780511571312
Cattell, R. B. (1963). Theory of fluid and crystallized intelligence: A critical experiment. Journal of Educational Psychology, 54(1), 1–22. https://doi.org/10.1037/h0046743
Cattell, R. B. (1971). Abilities: Their structure, growth, and action. Houghton Mifflin Company.
Heller, K. A., & Perleth, C. (2000). Kognitiver Fähigkeitstest für 4. bis 12. Klassen, Revision. Hogrefe.
Horn, J. L., & Noll, J. (1997). Human Cognitive Capabilities: Gf-Gc Theory. In D. Flanagan, J. Genshaft, & P. Harrison (Eds.), Contemporary Intellectual Assessment: Theories, Tests, and Issues (pp. 53-91). Guilford.
Horn, W., Lukesch, H., Kormann, A., & Mayrhofer, S. (2002). Prüfsystem für Schul- und Bildungsberatung für 4.-6. Klassen. Hogrefe.
Horn, W., Lukesch, H., Mayrhofer, S., & Kormann, A. (2003). Prüfsystem für Schul- und Bildungsberatung für 6.-13. Klassen. Hogrefe.
Jäger, A. O., Holling, H., Preckel, F., Schulze, R., Vock, M., Süß, H.-M., & Beauducel, A. (2006). Berliner Intelligenzstrukturtest für Jugendliche: Begabungs- und Hochbegabungsdiagnostik. Hogrefe.
Schmidt, K.-H., & Metzler, P. (1992). Wortschatztest. Hogrefe.