Ein weites Wortfeld 123 Innerhalb der separierten Figurenreden wurden mithilfe eines sogenannten Part-of-Speech-Taggers – eines Programms, das automatisiert die Wortart für jedes Wort bestimmt – die Substantive, Verben und Adjektive identifiziert, jeweils separat extrahiert und ebenfalls in je einem Text-Dokument gespeichert. Diese Wortlisten wurden dabei in lemmatisierter Form angelegt. Bei der Lemmatisierung führt man die einzelnen Wörter auf ihre Grundform zurück, wodurch sie Tempus, Numerus und Kasus verlieren (aus ›Häuser‹ wird z. B. die Grundform ›Haus‹, aus ›ist‹ oder ›bin‹ wird die Grundform ›sein‹). Die Entscheidung für eine Lemmatisierung erfolgte, um den Fokus insbesondere auf die Semantik der Äußerungen und weniger auf syntaktische Aspekte zu legen. Auf diese Weise konnte sichergestellt werden, dass unterschiedliche Flexionsformen desselben Wortes unter der Grundform zusammengefasst und nicht als Einzelfälle erfasst werden. Diese Verfahrensschritte zur Vorbereitung der Daten für die Analyse (das sogenannte Preprocessing) sei an einem Beispiel veranschaulicht. Die erste direkte Rede des Romans, die von Effis Mutter Luise von Briest vorgebracht wird, lautet:»Effi, eigentlich hättest Du doch wohl Kunstreiterin werden müssen. Immer am Trapez, immer Tochter der Luft. Ich glaube beinah, daß du so was möchtest.« Im Zuge des Preprocessing wurde daraus, in Hinblick auf die Substantive, die Liste ›Kunstreiterin‹, ›Trapez‹, ›Tochter‹, ›Luft‹ extrahiert, in Hinblick auf die Verben die Liste ›haben‹, ›werden‹, ›müssen‹, ›glauben‹, ›möchten‹. Die anschließende Analyse der auf diese Weise erzeugten Datensätze konzentrierte sich auf die Romanfiguren Effi von Briest, Geert von Innstetten, Major von Crampas, Luise von Briest und Roswitha. Entscheidend für die Auswahl einer Figur waren einerseits eine hohe Relevanz für die Handlung sowie andererseits ein Mindestmaß an Redeanteilen. Ein zu geringer Redeanteil einer Figur kann zu Ergebnissen führen, die im Vergleich zum Gesamtkorpus auch selten verwendete Wörter unter den MFW aufweisen. Bei einem insgesamt höheren Redeanteil gestalten sich die Sprechakte in ihrer Wortwahl hingegen deutlich differenzierter, wodurch die Liste eine höhere Anzahl hochfrequenter Wörter enthält. Nach der Korpuserstellung und der Auswahl der Figuren wurden die Dokumente mit den Figurenreden digital analysiert, wobei die Häufigkeiten der Wörter ermittelt wurden. Um dabei den Fokus auf aussagekräftige Wörter legen zu können, wurde eine Stopword-Liste verwendet. Eine solche Liste definiert Wörter, welche bei der Auswahl der MFW ignoriert werden sollen und enthält vor allem Ortsnamen, Personennamen und Hilfs- und Modalverben(darüber hinaus auch Artikel, Pronomen und Konjunktionen, die in unserem Fall allerdings nicht zum Tragen kamen), da diese in nahezu jedem Redeanteil überdurchschnittlich häufig vorkommen. Die Stopword-Liste verhindert dementsprechend, dass sich die MFW vorrangig aus Wörtern wie»Effi«,»sein« oder»haben« zusammensetzen.
Heft
(2018) 106
Seite
123
Einzelbild herunterladen
verfügbare Breiten