Beschreibung des Abschnitts: 2021w-Von der digitalisierten Buchseite zum digitalen Text

2021w-Von der digitalisierten Buchseite zum digitalen Text

Texterkennung, also die Umwandlung einer gescannten Buchseite in einen Volltext, ist einer der ersten und wesentlichsten Schritte bei der Aufbereitung von Daten für die Geisteswissenschaften. Solche Verfahren werden häufig durch das Maschinelle Lernen unterstützt, so dass sie auch auf nichtstandardisierte historische Quellen angewendet werden können. Der eigentliche Prozess ist dabei deutlich komplexer, als man bisweilen annimmt. In unserer Übung werden wir auf Grundlage der Software OCR4all diese Verfahren entsprechend Schritt für Schritt an den Chroniken der deutschen Städte anwenden, wie sie in der Zeit zwischen 1862 und 1931 zumeist in einer Mischung von Frakturschrift und Antiqua als Editionen erschienen. Wir werden lernen, wie textbasierte Forschungsdaten entstehen, wie sie mit Hilfe der von der Text Encoding Initiative (TEI) bereitgestellten Richtlinien aufbereitet und schließlich als geisteswissenschaftliche bzw. historische Forschungsdaten veröffentlicht werden. Sie lernen die konkreten Grundlagen dieser Quellen kennen, machen sich mit digitalen Textmodellen vertraut und setzen sich mit den einzelnen konkreten Schritten der Texterkennungsverfahren auseinander. In kleinen Projektgruppen werden Sie dabei auch selbst solche Daten produzieren. Am Ende wollen wir dann anhand des gemeinsam erarbeiteten Beispiels gemeinsam über das digitale Forschungsparadigma und dessen Möglichkeiten und Grenzen diskutieren.
Die Veranstaltung findet als Kooperation zwischen der Digital History der Philosophische Fakultät und dem Forschungsdatenmanagement der Sprach- und literaturwissenschaftlichen Fakultät statt, in enger Zusammenarbeit mit dem Zentrum für Philologie und Digitalität der Universität Würzburg.

Kursverantwortliche/r: Torsten Hiltmann
Kursverantwortliche/r: Annika Müller
Kursverantwortliche/r: Dr. Carolin Odebrecht

Semester: WiSe 2021/22