Heft 
(2018) 106
Seite
123
Einzelbild herunterladen

Ein weites Wortfeld 123 Innerhalb der separierten Figurenreden wurden mithilfe eines sogenann­ten Part-of-Speech-Taggers eines Programms, das automatisiert die Wort­art für jedes Wort bestimmt die Substantive, Verben und Adjektive iden­tifiziert, jeweils separat extrahiert und ebenfalls in je einem Text-Dokument gespeichert. Diese Wortlisten wurden dabei in lemmatisierter Form ange­legt. Bei der Lemmatisierung führt man die einzelnen Wörter auf ihre Grundform zurück, wodurch sie Tempus, Numerus und Kasus verlieren (aus ›Häuser‹ wird z. B. die Grundform ›Haus‹, aus ›ist‹ oder ›bin‹ wird die Grundform ›sein‹). Die Entscheidung für eine Lemmatisierung erfolgte, um den Fokus insbesondere auf die Semantik der Äußerungen und weniger auf syntaktische Aspekte zu legen. Auf diese Weise konnte sichergestellt wer­den, dass unterschiedliche Flexionsformen desselben Wortes unter der Grundform zusammengefasst und nicht als Einzelfälle erfasst werden. Diese Verfahrensschritte zur Vorbereitung der Daten für die Analyse (das sogenannte Preprocessing) sei an einem Beispiel veranschaulicht. Die erste direkte Rede des Romans, die von Effis Mutter Luise von Briest vorge­bracht wird, lautet:»Effi, eigentlich hättest Du doch wohl Kunstreiterin werden müssen. Immer am Trapez, immer Tochter der Luft. Ich glaube bei­nah, daß du so was möchtest.« Im Zuge des Preprocessing wurde daraus, in Hinblick auf die Substantive, die Liste ›Kunstreiterin‹, ›Trapez‹, ›Tochter‹, ›Luft‹ extrahiert, in Hinblick auf die Verben die Liste ›haben‹, ›werden‹, ›müssen‹, ›glauben‹, ›möchten‹. Die anschließende Analyse der auf diese Weise erzeugten Datensätze konzentrierte sich auf die Romanfiguren Effi von Briest, Geert von Innstet­ten, Major von Crampas, Luise von Briest und Roswitha. Entscheidend für die Auswahl einer Figur waren einerseits eine hohe Relevanz für die Hand­lung sowie andererseits ein Mindestmaß an Redeanteilen. Ein zu geringer Redeanteil einer Figur kann zu Ergebnissen führen, die im Vergleich zum Gesamtkorpus auch selten verwendete Wörter unter den MFW aufweisen. Bei einem insgesamt höheren Redeanteil gestalten sich die Sprechakte in ihrer Wortwahl hingegen deutlich differenzierter, wodurch die Liste eine höhere Anzahl hochfrequenter Wörter enthält. Nach der Korpuserstellung und der Auswahl der Figuren wurden die Dokumente mit den Figurenreden digital analysiert, wobei die Häufigkei­ten der Wörter ermittelt wurden. Um dabei den Fokus auf aussagekräftige Wörter legen zu können, wurde eine Stopword-Liste verwendet. Eine sol­che Liste definiert Wörter, welche bei der Auswahl der MFW ignoriert werden sollen und enthält vor allem Ortsnamen, Personennamen und Hilfs- und Modalverben(darüber hinaus auch Artikel, Pronomen und Kon­junktionen, die in unserem Fall allerdings nicht zum Tragen kamen), da diese in nahezu jedem Redeanteil überdurchschnittlich häufig vorkom­men. Die Stopword-Liste verhindert dementsprechend, dass sich die MFW vorrangig aus Wörtern wie»Effi«,»sein« oder»haben« zusammensetzen.