Zeitschrift 
Heilpädagogische Forschung : Zeitschrift für Pädagogik und Psychologie bei Behinderungen
Seite
104
Einzelbild herunterladen

Franz B. Wember- Evaluation in Einzelfallstudien

gen Variable stärker als die alte Inter­vention, indem sie diese in eine gerich­tete statistische Hypothese übersetzt, etwa M,> M,. Sie wird, wie in Abbildung 2 schematisch dargestellt, gegen Ende ih­rer Untersuchung vergleichende Messun­gen vornehmen und prüfen, ob sich die Ausprägung der abhängigen Variablen in der Experimentalgruppe in der vor­hergesagten Richtung und in statistisch signifikanter Weise geändert hat und ob die Effektstärke groß genug ist, um für praktische Zwecke von Belang zu sein (Masendorf 1988). Sollte dies der Fall sein, hat die statistische Hypothese den empirischen Test überstanden und die Forscherin wird per modus tollens fol­gern, daß sich auch die vorgeordnete theoretische Hypothese von der überle­genen Wirksamkeit der neuen Interven­tion bewährt hat diese wird bis auf weiteres akzeptiert bzw. verworfen, falls die abschließenden Messungen keine sta­tistisch und praktisch bedeutsamen Un­terschiede zugunsten der Experimental­gruppe ergeben haben. Hierbei werden, wie die Bezeichnung Gruppenvergleichs­studie andeutet, ausschließlich grup­penbezogene Statistiken berechnet, in aller Regel Mittelwerte und/oder Streu­ungen, individuelle Lern- und Entwick­lungsverläufe bleiben unberücksichtigt, inter- und intraindividuelle Differenzen werden als Fehlervarianz behandelt.

Abbildung 3 zeigt die Struktur von drei ausgewählten gruppenvergleichenden Designs, die sich für pädagogische Eva­luationsstudien anbieten, indem jeweils die Personenstichproben und die Zeit­stichproben verglichen werden. Das er­ste ist das vollständig randomisierte Kon­trollgruppendesign, ein strukturell ein­faches und zugleich aussagekräftiges Design: Aus einer wohldefinierten Popu­lation wird per Zufallsauswahl eine Gesamtstichprobe gezogen und diese wird wiederum rein zufällig in Expe­rimental- und Kontrollgruppe aufgeteilt. Da über die Ziehung der Versuchsper­sonen und die Zuteilung der Versuchs­bedingungen allein der Zufall entschei­det, kann man nicht nur mit vergleichs­weise geringen Stichprobenumfängen ausreichende Teststärke erzielen, son­dern darüber hinaus davon ausgehen,

104

Design

Personenstichproben Zeitstichproben

vollständig rando­misiertes Kontroll­gruppendesign

Eg N z24 R

Kg N> 24

Randomisiertes

Eg N 24 R Kg N 2 24

Kontrollgruppen­design mit Test­wiederholung Abb. 3: Drei für Nichtäquivalentes pädagogische Kontrollgruppen Evaluationsforschung design geeignete gruppenver­gleichende Designs

daß sich die beiden zu vergleichenden Gruppen hinsichtlich sämtlicher ver­suchsrelevanter Eigenschaften nicht we­sentlich unterscheiden. Vollständige Randomisierung ist folglich ein ausge­sprochen wirksames Verfahren zur Kon­trolle bekannter wie unbekannter Stör­faktoren und sollte wann immer mög­lich angestrebt werden.

Weil vollständige Randomisierung ein wirksames Kontrollverfahren ist, kommt das erste Design mit einer relativ klei­nen Personenstichprobe(hier N= 48) und mit einer sehr kleinen Zeitstichprobe (t= 1) aus; da von Äquivalenz der Kon­troll- und der Experimentalgruppe aus­zugehen ist, reicht allein eine Messung nach Beendigung der Intervention; even­tuell auftretende Unterschiede zugunsten der Experimentalgruppe können mit re­lativ hoher Sicherheit auf die zu prüfen­de Intervention zurückgeführt werden. Bei pädagogischen Fragestellungen in­teressiert jedoch oft, welche Effektstärke sich in einem bestimmten Zeitraum er­gibt. In solch einem Fall wird das voll­ständig randomisierte Kontrollgruppen­design um eine Vortestmessung erwei­tert(t= 2): Nun können nicht nur die Nachtestmessungen(O,) zwischen Kon­troll- und Experimentalgruppe vergli­chen werden, sondern diese können auch auf die Vortestmessungen(O,) relativiert werden, um beispielsweise den unter al­ten versus neuen Interventionsbedin­gungen erzielten Lernfortschritt in Ab­hängigkeit von der Zeit abzuschätzen. Ein günstiger Nebeneffekt ist, daß die Vortestresultate außerdem als Kovariate bei der Analyse der Nachtestergebnisse

verwendet werden können; auf diese Weise wird die Trennschärfe des Infe­renztestes erhöht und die Stichproben­größe braucht auf keinen Fall vergrö­Bert zu werden, sie kann u.U. sogar ver­ringert werden.

Die bislang vorgestellten Designs sind zwar aussagekräftige und leicht zu in­terpretierende Designs, sie sind in der pädagogischen Evaluationsforschung je­doch äußerst selten anzutreffen, weil in praktischen Handlungsfeldern vollstän­dige Randomisierung fast nie zu errei­chen ist. Deswegen wird in der sonder­pädagogischen Forschung so gut wie immer mit anfallenden Stichproben ge­arbeitet, z.B. mit bestehenden Schulklas­sen, Kleingruppen, den Mitgliedern ei­nes Freizeitclubs usw. Falls ein Forscher solche in der Praxis vorfindbare Grup­pen verwendet, kann er im Gegensatz zur vollständigen Randomisierung nicht mehr davon ausgehen, daß seine Teil­stichproben äquivalent sind(in Abb. 3 angezeigt durch eine gestrichelte Linie). Er wird zum einen den Stichproben­umfang erhöhen müssen(hier N= 9), weil bei mangelnder Äquivalenz der Feh­leranteil in den Messungen zunehmen wird, und zum anderen Vortestmessun­gen vor Beginn der Intervention durch­führen. Im Gegensatz zu randomisierten Designs ist der Vortest bei nicht-äqui­valenten Kontrollgruppen zwingend er­forderlich: denn nun kann man anhand der Vortestergebnisse abschätzen, wie vergleichbar diese Gruppen hinsichtlich der Ausprägung der abhängigen Varia­blen und/oder anderer interventionsre­levanter Variablen sind, und man kann

HEILPÄDAGOGISCHE FORSCHUNG Band XX, Heft 3, 1994