Schriftliche Zeugnisse zählen seit jeher zu den zentralen Quellen der Geschichtswissenschaften. Durch die umfassende Digitalisierung in den letzten Jahrzehnten liegt ein beständig anwachsender Anteil natürlichsprachlicher Texte auch in digitaler Form vor, etwa als Digitalisat einer mittelalterlichen Handschrift oder Kurznachricht im Mikrobloggingdienst Twitter. Verstehen wir diese Texte als numerisch quantifizierbare Daten, können sie mittels computergestützter Analysemethoden auf vielfältige Weise sowie in größerer Zahl ausgewertet und für geschichtswissenschaftliche Fragestellungen fruchtbar gemacht werden.

Die Übung bietet einen praxisnahen Überblick über die verschiedenen Möglichkeiten zur digitalen Textanalyse. Gemeinsam wird erarbeitet, wie die vor allem aus den Computer- und Sprachwissenschaften stammenden Methoden für das historische Arbeiten nutzbar gemacht werden können und in welcher Form die Textdaten für die maschinelle Verarbeitung vorliegen müssen. Neben einfacheren Verfahren wie der Frequenz- oder Kookkurrenzanalyse sollen auch komplexere Methoden aus dem Bereich des Maschinellen Lernens angewendet werden, wie beispielsweise Topic Modeling. Wo möglich wird dazu auf bereits etablierte Werkzeuge zurückgegriffen, um für den methoden- und softwarekritischen Umgang mit den digitalen Angeboten zu sensibilisieren.

Semester: SoSe 2020