Heft 
(2023) 115
Seite
131
Einzelbild herunterladen

Vermessung des ›Unvollendeten‹  Sluyter-Gäthje, Skorinkin, Trilcke 131 falls in historischer Orthographie nach den Erstdrucken edierten Texte zu­rück, die das Deutsche Textarchiv anbietet. 11 Allerdings sind hier nicht alle Werke Fontanes vorhanden, 12 so dass wir mit folgenden Texten in unserem Korpus arbeiten: a) Fontanes fiktionalen Prosa-Werken(7 Texte, rot), b) Fontanes faktualen Prosa-Werken(7 Texte, grün) und c) Fontanes Fragmenten(152 Texte, blau). Im Clustering(siehe Abb. 2) zerfällt das Korpus der Fragmente(also die Tex­te in Blau) in zwei Gruppen: Eine Gruppe(unten in Abb. 2) wird insgesamt von allen anderen Texten separiert, eine andere Gruppe(oben in Abb. 2) wird zunächst mit Fontanes fiktionalen und faktualen Prosa-Werken zusammen­gefasst. Die Aufteilung der Fragmente in zwei Gruppen, wie sie Abb. 2 nahelegt, erweist sich jedoch in erster Linie als ein Resultat der Textlänge: Die Be­rechnung von statistischen Werten, wie sie in der stilometrischen Methode vorgenommen wird, sagt für kurze Texte wenig über deren Distinktheit aus; verschiedentlich wurden mindestens 1.500 Wörter als minimale Text­länge benannt. 13 Um ein besseres Verständnis des Clustering-Verfahrens zu gewinnen, unterteilen wir die Fragmente entsprechend in zwei Untergrup­pen, eine mit Texten mit mehr als 1.500 Token(i. d. R. Wörter) und eine mit Texten mit 1.500 Token(i. d. R. Wörter) oder weniger. Für die folgende Ana­lyse setzt sich unser Korpus also so zusammen: a) Fontanes fiktionale Prosa-Werke(7 Texte, grün), b) Fontanes faktuale Prosa-Werke(7 Texte, blau), c) Fontanes Fragmente lang(26 Texte, rot), 14 d) Fontanes Fragmente kurz(126 Texte, schwarz). Das Ergebnis(Abb. 3) zeigt zum einen ein sehr großes homogenes Cluster mit kurzen Fragmenten auf dem unteren Zweig; auch im oberen Zweig des Dendrogramms clustern die unterschiedlichen Textgruppen recht homo­gen. Die rot-schwarz-gemischte Gruppe umfasst dabei einige der ›längeren‹ kurzen Fragmente, 15 was deutlich macht, dass die Grenzen hier fließend sind und jedenfalls in unserem Experiment nicht so definitiv, wie der pos­tulierte Schwellenwert von 1.500 Token suggeriert. Die Analyse bestätigt aber zumindest tendenziell die Vermutung, dass Textlänge ein sowohl wesentlicher als auch das Clustering irritierender Fak­tor ist. Entsprechend konzentrieren wir uns im nächsten Schritt auf die lan­gen Fragmente. Das Korpus der nächsten Analyse setzt sich also wie folgt zusammen: a) Fontanes fiktionale Prosa-Werke(7 Texte, grün), b) Fontanes faktuale Prosa-Werke(7 Texte, blau), c) Fontanes Fragmente lang(26 Texte, rot). Im Ergebnis(siehe Abb. 4) erweist sich Textlänge weiterhin als ein einfluss­reicher Faktor: Im unteren Cluster finden sich vor allem die ›kürzeren‹