die Vortestergebnisse bei der vergleichenden Beurteilung der Nachtestresultate als Kovariate nutzen, um auf diese Weise die statistische Teststärke zu erhöhen. Falls mit einer bestehenden Teilpopulation gearbeitet wird, die der Forscher selbst in Kontroll- und Experimentalgruppen einteilen kann, sind Vortestergebnisse notwendig, um auf deren Grundlage gezielt möglichst vergleichbare Gruppen zu bilden(Stratifizierung). Bei alledem ist jedoch zu bedenken, daß eine nichtäquivalente Kontrollgruppenstudie schwieriger zu interpretieren ist als eine vollständig randomisierte Gruppenvergleichsstudie. Bei der letzteren fungiert die Randomisierung als Omnibusmethode zur gleichzeitigen Kontrolle bekannter wie unbekannter Störvariablen, während sich durch Vortestmessungen nur bekannte Störfaktoren abschätzen lassen, und: Vortests sollten nicht eingesetzt werden, wenn dadurch eine Sensitivierung der Versuchspersonen droht, wie dies etwa bei Einstellungsmessungen der Fall ist oder wenn zu befürchten ist, daß Testwiederholungseffekte mit den Interventionseffekten konfundiert werden. Zwar gibt es— zumeist komplexe und vergleichsweise anspruchsvolle— Designalternativen, die hier zusätzliche Kontrollen einführen (vgl. Campbell& Stanley 1970; Cook& Campbell 1979), aber diese sind unter Praxisbedingungen so schwierig zu realisieren, daß Langfeldt zuzustimmen ist, wenn er schreibt(1990, 283):„In der Praxis funktioniert es nicht!“ Wir wollen im folgenden— unter anderem durch Rückgriff auf ausgesuchte Argumente von Krauth(1983), Langfeldt(1990) und White(1984)— zeigen, daß schon die Realisierung der in Abbildung 3 aufgeführten Designs von niedriger Komplexität unter Bedingungen der sonderpädagogischen Praxis nur schwer zu realisieren sind und daß diese wie alle gruppenvergleichenden Designs bestimmte sonderpädagogische Fragestellungen nicht oder nur sehr bedingt beantworten können.
Probleme bei sonderpädagogischen Fragestellungen
Gruppenvergleichende Designs wie die in Abbildung 3 dargestellten stoßen bei der Lösung sonderpädagogischer Fragestellungen auf zwei Arten von Schwierigkeiten: Oft sind sie gar nicht realisierbar, und wenn, dann sind sie manchmal trotzdem nicht angezeigt, weil es ihnen an Praxisrelevanz mangelt. Wir werden zunächst vier Realisierbarkeitsprobleme betrachten, welche die Randomisierung, die Bildung von Kontrollgruppen, die Stichprobengröße und die Homogenität von Vergleichsgruppen betreffen, um anschließend gruppenvergleichende Studien hinsichtlich ausgesuchter praxisrelevanter Eigenschaften zu hinterfragen, besonders hinsichtlich ihrer räumlichen, zeitlichen und personellen Flexibilität, hinsichtlich ihrer Sensitivität für interindividuelle Differenzen und hinsichtlich ihrer Repräsentativität für Individuen.
Probleme der Realisierbarkeit
Weil in Kontroll- und Experimentalgruppen im Verlaufe eines Forschungsprojekts eine Vielzahl von operativen Störfaktoren wirksam werden können(vgl. Langfeldt 1990, 283-284) und weil sich zwei Stichproben ohnehin in Bezug auf beliebig viele Variablen unterscheiden können, läßt sich nur per Randomisierung Äquivalenz herstellen und nur dann sind die Voraussetzungen gegeben, inferenzstatistische Tests mit kontrollierter Wahrscheinlichkeit für Fehlentscheidungen zu verwenden. Da Randomisierung bei sonderpädagogischen Forschungsvorhaben praktisch nie erreicht werden kann, weil schon datenrechtliche Belange dies nicht zulassen,„... muß man immer damit rechnen, daß irgendwelche systematischen Unterschiede zwischen den beiden erhobenen Stichproben die statistische Entscheidung über einen Populationsunterschied sowohl in Bezug auf die Wahrscheinlichkeit für einen Fehler 1. Art als auch in Bezug auf die Wahrscheinlichkeit für einen
HEILPÄDAGOGISCHE FORSCHUNG Band XX, Heft 3, 1994
Franz B. Wember- Evaluation in Einzelfallstudien
Fehler 2. Art beeinträchtigen können“ (Krauth 1983, 4). Wer mit nicht-äquivalenten Gruppen forscht, läuft also Gefahr, sowohl die Nullhypothese wie auch die Alternativhypothese irrtümlich zu verwerfen. Schließlich weiß man nie, welche Störvariablen einen eventuellen Interventionseffekt möglicherweise überlagern und in welche Richtung sich solche Konfundierungen auswirken. Es bleibt nichts anderes übrig, als über statistische Kontrollverfahren Fehlerschätzungen durchzuführen und ansonsten zu versuchen,„... alle denkbaren Alternativerklärungen für das vorgefundene Ergebnis zu widerlegen, indem man entweder zeigt, daß sie unplausibel sind oder nach Größe und Richtung des Effekts vermutlich nicht zu dem vorgefundenen Ergebnis geführt haben“(Krauth 1983, 5). Bei solch einer interpretativen Lösung sollte es, so Krauth an gleicher Stelle,„... unter Einsatz des eigenen und des Sachverstandes von Fachkollegen doch möglich sein, zu einer Interpretation der Daten zu kommen, die gegen alle offensichtlichen Einwände abgesichert ist.“ Zu bedenken bleibt jedoch, daß auf diese Weise nur solche Störfaktoren berücksichtigt werden können, die der Forscher bereits kennt; der interpretierende Kontrollversuch kann folglich bestenfalls nur so gut wie das zum Forschungsproblem bereits existierende Wissen sein,— Störfaktoren, die zum Zeitpunkt der Untersuchung unbekannt sind, lassen sich so nicht kontrollieren.
Als Alternative zur randomisierten Stichprobenziehung bietet sich die geschichtete Stichprobeneinteilung an, aber auch diese stößt in der sonderpädagogischen Praxis auf Schwierigkeiten, denn nichtäquivalente Vergleichsgruppen erfordern relativ große Stichprobenumfänge. Um etwa bei einem Fehlerrisiko 1. Art von 5% und einer Teststärke von 95% einen Effekt zu entdecken, dessen wahrer Wert bei 0,33 Standardabweichungen liegt, benötigt man nach Berechnungen von White(1984, 74) mindestens 142 Versuchspersonen. Solche Stichprobenumfänge sind bei Lern- oder Sprachbehinderten nur selten und bei Behinderungen von geringer Inzidenz überhaupt
105