Startseite // C2DH // News & E... // Textmining von 200 Jahre alten historischen Zeitungen

Textmining von 200 Jahre alten historischen Zeitungen

twitter linkedin facebook google+ email this page
Veröffentlicht am Dienstag, den 04. Juli 2017

Das Projekt mit dem Titel „Impresso: Media Monitoring of the Past. Mining 200 years of historical newspapers“ hat das Ziel, digitalisierte Sammlungen von Zeitungstexten in der Schweiz, Luxemburg, Frankreich und Deutschland miteinander zu verknüpfen und neue Methoden für deren Auswertung zu entwickeln.

Während der nächsten drei Jahre wird das Luxembourg Centre for Contemporary and Digital History (C²DH) der Universität Luxemburg zusammen mit dem DHLAB der École polytechnique fédérale de Lausanne (EPFL) und dem Institut für Computerlinguistik der Universität Zürich an diesem Projekt arbeiten, das mit 1,7 Millionen Schweizer Franken (1,55 Millionen Euros) vom Schweizer Nationalfonds (SNF) gefördert wird.

Digitale Technologien für die Forschung verbessern

Historische Zeitungen zählen zu den reichhaltigsten historischen Quellen und liegen bereits in großen Mengen digitalisiert vor. Trotzdem treten in der wissenschaftlichen Arbeit mit diesen Quellen eine Reihe von Problemen auf. Dazu gehören mangelnde Durchsuchbarkeit, verursacht durch fehlerhafte Texterkennung und fehlende Metadaten, die relative Isolation der digitalisierten Zeitungen in den jeweiligen Archiven, schwer nachvollziehbare Suchfunktionen und unzureichende Benutzeroberflächen. Daneben bieten Fortschritte in der Textanalyse neue Möglichkeiten für die Erforschung von großen Textsammlungen.

Das Projekt wird für die Korrektur von Fehlern in der Texterkennung neue „deep learning“-Methoden entwickeln, einer Sparte des maschinellen Lernen. Es wird ebenfalls an der verbesserten Identifizierung von Personennamen, Institutionen und Orten sowie an der Anreicherung dieser Eigennamen mit Hilfe von externen Datenarchiven arbeiten. Das C2DH wird für die Entwicklung einer Benutzeroberfläche verantwortlich sein, die neue Suchfunktionen integrieren und die kritische Auseinandersetzung mit dem Zeitungskorpus erleichtern wird. Dazu gehören etwa Informationen zur Herkunft der Daten, zur Qualität der automatisch generierten Annotationen aber auch Hinweise auf Lücken innerhalb des Bestandes.

Ein unfassendes und kollaboratives Projekt

Um eine hohe Relevanz des Projekts für die Geschichts-, Geistes- und Sozialwissenschaften im Allgemeinen zu gewährleisten, wird das C2DH eine Reihe von Workshops koordinieren, die den direkten Austausch zwischen Nutzern und Entwicklern ermöglichen werden. „Ein ebenfalls vom C2DH geleitetes Forschungsprojekt wird sich mit den Widerständen gegen die Idee einer europäischen Einigung im späten 19. und frühen 20. Jahrhundert befassen, und damit für eine zusätzliche Verzahnung von Geschichtswissenschaft, Informatik und Design sorgen,“ erklärt Dr. Marten Düring, der das Projekt an der Universität Luxemburg koordiniert. „Schließlich wird das Projekt auch in die universitäre Lehre eingebunden und Nachwuchshistorikern die Gelegenheit bieten, sich mit automatisierten Verfahren für die Extraktion und Repräsentation von Informationen aus historischen Quellen auseinanderzusetzen.“

Am Ende des Projekts werden neben wissenschaftlichen Publikationen auch die einzelnen Systeme für die Aufbereitung, Analyse und Speicherung als Open-Source-Dokument für die freie Nachnutzung und Weiterentwicklung zur Verfügung stehen.

Zu den assoziierten Projektpartnern gehören neben der Luxemburger Nationalbibliothek auch die Schweizer Nationalbibliothek, Le Temps, Neue Zürcher Zeitung, schweizerische Archive sowie Forscher der Universität Lausanne. Auf Luxemburger Seite wird das Projekt von Dr. Marten Düring, Dr. Lars Wieneke und Prof. Dr. Andreas Fickers koordiniert in Zusammenarbeit mit Daniele Guido und Estelle Bunout.