Franz B. Wember- Evaluation in Einzelfallstudien
gen Variable stärker als die alte Intervention, indem sie diese in eine gerichtete statistische Hypothese übersetzt, etwa M,> M,. Sie wird, wie in Abbildung 2 schematisch dargestellt, gegen Ende ihrer Untersuchung vergleichende Messungen vornehmen und prüfen, ob sich die Ausprägung der abhängigen Variablen in der Experimentalgruppe in der vorhergesagten Richtung und in statistisch signifikanter Weise geändert hat und ob die Effektstärke groß genug ist, um für praktische Zwecke von Belang zu sein (Masendorf 1988). Sollte dies der Fall sein, hat die statistische Hypothese den empirischen Test überstanden und die Forscherin wird per modus tollens folgern, daß sich auch die vorgeordnete theoretische Hypothese von der überlegenen Wirksamkeit der neuen Intervention bewährt hat— diese wird bis auf weiteres akzeptiert bzw. verworfen, falls die abschließenden Messungen keine statistisch und praktisch bedeutsamen Unterschiede zugunsten der Experimentalgruppe ergeben haben. Hierbei werden, wie die Bezeichnung Gruppenvergleichsstudie andeutet, ausschließlich gruppenbezogene Statistiken berechnet, in aller Regel Mittelwerte und/oder Streuungen, individuelle Lern- und Entwicklungsverläufe bleiben unberücksichtigt, inter- und intraindividuelle Differenzen werden als Fehlervarianz behandelt.
Abbildung 3 zeigt die Struktur von drei ausgewählten gruppenvergleichenden Designs, die sich für pädagogische Evaluationsstudien anbieten, indem jeweils die Personenstichproben und die Zeitstichproben verglichen werden. Das erste ist das vollständig randomisierte Kontrollgruppendesign, ein strukturell einfaches und zugleich aussagekräftiges Design: Aus einer wohldefinierten Population wird per Zufallsauswahl eine Gesamtstichprobe gezogen und diese wird wiederum rein zufällig in Experimental- und Kontrollgruppe aufgeteilt. Da über die Ziehung der Versuchspersonen und die Zuteilung der Versuchsbedingungen allein der Zufall entscheidet, kann man nicht nur mit vergleichsweise geringen Stichprobenumfängen ausreichende Teststärke erzielen, sondern darüber hinaus davon ausgehen,
104
Design
Personenstichproben Zeitstichproben
vollständig randomisiertes Kontrollgruppendesign
Eg N z24 R
Kg N> 24
Randomisiertes
Eg N 24 R Kg N 2 24
Kontrollgruppendesign mit Testwiederholung Abb. 3: Drei für Nichtäquivalentes pädagogische Kontrollgruppen Evaluationsforschung design geeignete gruppenvergleichende Designs
daß sich die beiden zu vergleichenden Gruppen hinsichtlich sämtlicher versuchsrelevanter Eigenschaften nicht wesentlich unterscheiden. Vollständige Randomisierung ist folglich ein ausgesprochen wirksames Verfahren zur Kontrolle bekannter wie unbekannter Störfaktoren und sollte wann immer möglich angestrebt werden.
Weil vollständige Randomisierung ein wirksames Kontrollverfahren ist, kommt das erste Design mit einer relativ kleinen Personenstichprobe(hier N= 48) und mit einer sehr kleinen Zeitstichprobe (t= 1) aus; da von Äquivalenz der Kontroll- und der Experimentalgruppe auszugehen ist, reicht allein eine Messung nach Beendigung der Intervention; eventuell auftretende Unterschiede zugunsten der Experimentalgruppe können mit relativ hoher Sicherheit auf die zu prüfende Intervention zurückgeführt werden. Bei pädagogischen Fragestellungen interessiert jedoch oft, welche Effektstärke sich in einem bestimmten Zeitraum ergibt. In solch einem Fall wird das vollständig randomisierte Kontrollgruppendesign um eine Vortestmessung erweitert(t= 2): Nun können nicht nur die Nachtestmessungen(O,) zwischen Kontroll- und Experimentalgruppe verglichen werden, sondern diese können auch auf die Vortestmessungen(O,) relativiert werden, um beispielsweise den unter alten versus neuen Interventionsbedingungen erzielten Lernfortschritt in Abhängigkeit von der Zeit abzuschätzen. Ein günstiger Nebeneffekt ist, daß die Vortestresultate außerdem als Kovariate bei der Analyse der Nachtestergebnisse
verwendet werden können; auf diese Weise wird die Trennschärfe des Inferenztestes erhöht und die Stichprobengröße braucht auf keinen Fall vergröBert zu werden, sie kann u.U. sogar verringert werden.
Die bislang vorgestellten Designs sind zwar aussagekräftige und leicht zu interpretierende Designs, sie sind in der pädagogischen Evaluationsforschung jedoch äußerst selten anzutreffen, weil in praktischen Handlungsfeldern vollständige Randomisierung fast nie zu erreichen ist. Deswegen wird in der sonderpädagogischen Forschung so gut wie immer mit anfallenden Stichproben gearbeitet, z.B. mit bestehenden Schulklassen, Kleingruppen, den Mitgliedern eines Freizeitclubs usw. Falls ein Forscher solche in der Praxis vorfindbare Gruppen verwendet, kann er im Gegensatz zur vollständigen Randomisierung nicht mehr davon ausgehen, daß seine Teilstichproben äquivalent sind(in Abb. 3 angezeigt durch eine gestrichelte Linie). Er wird zum einen den Stichprobenumfang erhöhen müssen(hier N= 9), weil bei mangelnder Äquivalenz der Fehleranteil in den Messungen zunehmen wird, und zum anderen Vortestmessungen vor Beginn der Intervention durchführen. Im Gegensatz zu randomisierten Designs ist der Vortest bei nicht-äquivalenten Kontrollgruppen zwingend erforderlich: denn nun kann man anhand der Vortestergebnisse abschätzen, wie vergleichbar diese Gruppen hinsichtlich der Ausprägung der abhängigen Variablen und/oder anderer interventionsrelevanter Variablen sind, und man kann
HEILPÄDAGOGISCHE FORSCHUNG Band XX, Heft 3, 1994