Vermessung des ›Unvollendeten‹ Sluyter-Gäthje, Skorinkin, Trilcke 131 falls in historischer Orthographie nach den Erstdrucken edierten Texte zurück, die das Deutsche Textarchiv anbietet. 11 Allerdings sind hier nicht alle Werke Fontanes vorhanden, 12 so dass wir mit folgenden Texten in unserem Korpus arbeiten: a) Fontanes fiktionalen Prosa-Werken(7 Texte, rot), b) Fontanes faktualen Prosa-Werken(7 Texte, grün) und c) Fontanes Fragmenten(152 Texte, blau). Im Clustering(siehe Abb. 2) zerfällt das Korpus der Fragmente(also die Texte in Blau) in zwei Gruppen: Eine Gruppe(unten in Abb. 2) wird insgesamt von allen anderen Texten separiert, eine andere Gruppe(oben in Abb. 2) wird zunächst mit Fontanes fiktionalen und faktualen Prosa-Werken zusammengefasst. Die Aufteilung der Fragmente in zwei Gruppen, wie sie Abb. 2 nahelegt, erweist sich jedoch in erster Linie als ein Resultat der Textlänge: Die Berechnung von statistischen Werten, wie sie in der stilometrischen Methode vorgenommen wird, sagt für kurze Texte wenig über deren Distinktheit aus; verschiedentlich wurden mindestens 1.500 Wörter als minimale Textlänge benannt. 13 Um ein besseres Verständnis des Clustering-Verfahrens zu gewinnen, unterteilen wir die Fragmente entsprechend in zwei Untergruppen, eine mit Texten mit mehr als 1.500 Token(i. d. R. Wörter) und eine mit Texten mit 1.500 Token(i. d. R. Wörter) oder weniger. Für die folgende Analyse setzt sich unser Korpus also so zusammen: a) Fontanes fiktionale Prosa-Werke(7 Texte, grün), b) Fontanes faktuale Prosa-Werke(7 Texte, blau), c) Fontanes Fragmente lang(26 Texte, rot), 14 d) Fontanes Fragmente kurz(126 Texte, schwarz). Das Ergebnis(Abb. 3) zeigt zum einen ein sehr großes homogenes Cluster mit kurzen Fragmenten auf dem unteren Zweig; auch im oberen Zweig des Dendrogramms clustern die unterschiedlichen Textgruppen recht homogen. Die rot-schwarz-gemischte Gruppe umfasst dabei einige der ›längeren‹ kurzen Fragmente, 15 was deutlich macht, dass die Grenzen hier fließend sind – und jedenfalls in unserem Experiment nicht so definitiv, wie der postulierte Schwellenwert von 1.500 Token suggeriert. Die Analyse bestätigt aber zumindest tendenziell die Vermutung, dass Textlänge ein sowohl wesentlicher als auch das Clustering irritierender Faktor ist. Entsprechend konzentrieren wir uns im nächsten Schritt auf die langen Fragmente. Das Korpus der nächsten Analyse setzt sich also wie folgt zusammen: a) Fontanes fiktionale Prosa-Werke(7 Texte, grün), b) Fontanes faktuale Prosa-Werke(7 Texte, blau), c) Fontanes Fragmente lang(26 Texte, rot). Im Ergebnis(siehe Abb. 4) erweist sich Textlänge weiterhin als ein einflussreicher Faktor: Im unteren Cluster finden sich vor allem die ›kürzeren‹
Heft
(2023) 115
Seite
131
Einzelbild herunterladen
verfügbare Breiten