Volltextsuche über das Angebot:

7 ° / 1 ° Regenschauer

Navigation:
Revolution im Archivwesen steht bevor

Forschung Marburg Revolution im Archivwesen steht bevor

Die automatisierte Handschriftenerkennung in schriftlich vorliegendem Archivgut wollen der Marburger Archivar Dr. Francesco Roberg und der Innsbrucker Computerwissenschaftler Dr. Günther Mühlberger vorantreiben.

Voriger Artikel
Windkraft erhitzt weiterhin Gemüter
Nächster Artikel
Von Schlüsselwörtern zum Multi-Methoden-Ansatz

Dr. Francesco Roberg und Dr. Annegret Wenz-Haubfleisch zeigen Katasterbände im Magazin im Staatsarchiv.

Quelle: Thorsten Richter

Marburg. Viele hundert Millionen Akten, Urkunden, ­Rechnungsbände und Protokolle, Karten und Pläne aus mehr als 1200 Jahren europäischer Geschichte werden in Archiven verwahrt. Sie bilden das Gedächtnis Europas und seiner Bürger und können im Idealfall dazu dienen, Verwaltungshandeln transparent zu machen oder Rechte zu sichern und stehen jedermann für die historische Forschung zur Verfügung.

Aber bei diesem Archivgut handelt es sich um einen der letzten „ungehobenen Schätze“ des kulturellen Erbes, meint Dr. Francesco Roberg. Denn einerseits fänden sich darin fast ausschließlich Unikate, und andererseits sei der allergrößte Teil dieser Dokumente bisher nicht veröffentlicht worden. Weil ein großer Teil der historischen Dokumente nur handgeschrieben vorliege, sei er auch nur von Experten entzifferbar.

Forscher wollen mit Digitalisierung im großen Stil vollautomatische Handschriftenerkennung perfektionieren.

Zur Bildergalerie

Das soll sich jetzt ändern auch dank einer von Roberg angestoßenen Forschungskooperation zwischen Computerwissenschaftlern mit ihrem an der Universität Innsbruck koordinierten Projekt „READ“ (siehe „HINTERGRUND“) auf der einen Seite sowie Archivaren und Forschern aus dem Projekt „co:op“ (Cooperation as Opportunity) auf der anderen Seite. Bei „co:op“ handelt es sich um einen Zusammenschluss von 17 Archiven und Universitäten aus 11 Ländern unter der Leitung von Dr. Francesco Roberg vom Hessischen Staatsarchiv Marburg.

Das Ende 2014 begonnene Projekt läuft noch bis einschließlich 2018 und hat ein Finanzierungsvolumen von vier Millionen Euro, wovon die beteiligten Institutionen die Hälfte aus eigenen Etats aufbringen müssen. Dabei geht es um die Erschließung wichtiger handgeschriebener Dokumente aus allen Epochen mittels modernster Methoden.

Schon die automatisierte Schreib­erkennung, die nur aufgrund des „Schriftbildes“ einer Handschrift in der Lage ist, Dokumente einem bestimmten Schreiber zuzuweisen und diese nach diversen Kriterien wie Entstehungszeit oder Schriftart zu ordnen, bietet den Nutzern neue Möglichkeiten.

Die Universität Innsbruck arbeitet nun aber auch an einem ersten Prototyp einer umfassenden Software zur automatisierten Erkennung historischer Handschriften und ihrer Übertragung in unsere herkömmliche Druckschrift.

Bisherige Software zur automatisierten Schrifterkennung (OCR) kann nur bei gedruckten Beständen erfolgreich eingesetzt werden. Das „READ“-Projekt“ hat sich die vollautomatisierte Lesbarkeit handgeschriebener Texte zum Ziel gesetzt. Dies komme also einer Revolution für das Archivwesen gleich, meint der Marburger Historiker und Archivar Roberg.

Hilfe für Historiker

So sollen in den kommenden Jahren Katasterbände, Kirchenbücher, Briefe, aber auch Listen von Emigranten und Soldaten oder Ratsprotokolle computerlesbar gemacht werden. Was das beispielsweise für die im Marburger Staatsarchiv auf 2000 Regalmetern gelagerten Katasterbände bedeuten könnte, erläutert die stellvertretende Archivleiterin Dr. Annegret Wenz-Haubfleisch im Gespräch mit der OP.

Eine flächendeckende digitale Erfassung und Lesbarmachung der in die Vergangenheit zurückreichenden Informationen über Gebäude könne beispielsweise der Feuerwehr helfen, wenn im Brandfall schnell Detailinformationen benötigt würden, erklärt Wenz-Haubfleisch.

Viele Archivdokumente weisen ein komplexes Layout auf, Tabellen und Formulare werden seit dem 16. Jahrhundert immer häufiger verwendet. Historiker und Sozialwissenschaftler, die historische Steuerabgaben oder die Passagierlisten von Auswandererschiffen quantitativ untersuchen wollen, stoßen hier bisher rasch an die Grenzen. Eine verbesserte Layout-, Tabellen- und Formularerkennung soll hier Abhilfe schaffen.

Und so soll das Ganze funktionieren: Bei der von Informatikern entwickelten Methode der „Handwritten Text Recognition“ werden Worte und Buchstaben der eingescannten Texte mit hochkomplexen IT-Verfahren analysiert, von der Handschrift automatisch in Druckschrift transkribiert und in Textdateien abgelegt.

Extrem kompliziert und aufwändig ist das Lesen und Transkribieren dieser handschriftlichen Texte aber aufgrund der Individualität und Vielfältigkeit der einzelnen Handschriften. Deswegen benötigt eine solche Software möglichst viele Vergleichsdaten, um den Erfolg zu erhöhen. Bisher liegt die Trefferquote nicht höher als 60 Prozent, erläutert Roberg. Auch die große Anzahl von vorkommenden Vokabeln, die oft nicht im Duden oder in Spezialwörterbüchern nachweisbar sind, macht die Software-Erstellung schwieriger.

„Deshalb ist der Aufbau einer freien Serviceplattform von zentraler Bedeutung im ­READ-Projekt“, meint Roberg. Die meisten der angewandten Verfahren beruhen auf maschinenlernenden Methoden, die auf hohe Mengen von Daten angewiesen sind.

Je mehr Dokumente aber in der Plattform bearbeitet werden, desto mehr Daten stehen der Forschung zur Verfügung und desto besser sollten künftige Modelle funktionieren.

Die Seitenmenge der erfassten handschriftlichen Dokumente soll von bisher 80 transkribierten Seiten auf rund das Zehntausendfache gesteigert werden.

von Manfred Hitzeroth

  • Hintergrund: Mit 8,2 Millionen EUR wird das Projekt READ (Recognition und Enrichment of Archival Documents) von der Europäischen Kommission im Rahmen des H2020 Programms gefördert. Koordiniert wird das Projekt an der Uni Innsbruck, herausragende Partner sind die Hochschulen aus Rostock und Valencia. So sollen die automatisierte Handschriftenerkennung, die Layout-Erkennung komplexer Dokumente, aber auch verbesserte Suchalgorithmen und die automatische Schreiberkennung die Erschließung von Archivdokumenten auf eine völlig neue Ebene heben. Zusätzlich zu einzelnen Technologiepaketen werden diese im Rahmen einer Serviceplattform frei zugänglich gemacht. Ein erster Prototyp zur Handschriftenerkennung steht bereits auf der Website der Plattform ( http://transkribus.eu/) für jedermann frei zur Verfügung.Im Forschungsprojekt ­„READ“ werden Archivdokumente aus diversen deutschen Institutionen verarbeitet. Das sind neben dem Staatsarchiv Marburg auch das Archiv der Diözese Passau, die Gottfried Wilhelm Leibniz Bibliothek, die Forschungsbibliothek Gotha sowie das Musikinstrumenten-Museum der Universität Leipzig, aber auch internationale Archive wie das Nationalarchiv aus Finnland.
Voriger Artikel
Nächster Artikel
Von Schlüsselwörtern zum Multi-Methoden-Ansatz

Eine internationale Tagung zur automatisierten Handschriftenerkennung fand in dieser Woche im Staatsarchiv statt.

mehr

Auf der Meinungsseite der OP finden Sie Kommentare zu lokalen und regionalen Ereignissen und zum politischen Weltgeschehen. Sportliche "Einwürfe" und lokale Glossen gehören zum meinungsstarken Erscheinungsbild der Oberhessischen Presse. mehr