15 Jahre e-rara: Neue Suchmöglichkeiten und erweiterte Volltexterkennung

Neue Einstiege für Orte, Personen und Themen sowie erweiterte Volltexterkennung erleichtern den Zugang zu digitalisierten Drucken.

Die Plattform externe Seite e-rara feiert ihr 15-jähriges Jubiläum und ist seither inhaltlich stetig gewachsen sowie funktional und technisch ständig weiterentwickelt worden. Seit 2025 finden Sie auf der Startseite die Einstiege für die Entitätentypen «externe Seite Personen», «externe Seite Orte» und «externe Seite Themen» und für die Volltexterkennung werden zusätzliche OCR-Tools verwendet. 

e-rara Startseite mit den neuen Sucheinstiegen für Personen, Orte und Themen
e-rara-Startseite mit den neuen Sucheinstiegen für Personen, Orte und Themen

Genfer See, Lake Geneva oder Lacus Lemanus – Alle Treffer mit einer Suche auf e-rara
Mittels Named Entity Recognition (NER) und Named Entity Linking (NEL) werden Entitäten, also Personen, Themen und Orte, in Volltexten erkannt und mit der Normdatenbank GND verlinkt. Damit stehen alle vorhandenen Normdaten für die Suche nach solchen Entitäten auf e-rara zur Verfügung. Die Suche nach «Genfersee» im Orte-Sucheinstieg führt nicht nur zu wortgleichen Treffern, sondern findet auch Textstellen, an denen der Genfersee in anderen Sprachen oder Schreibweisen vorkommt.

Geografika in Volltexten werden identifiziert und mit der Normdatenbank GND verlinkt
Geografika in Volltexten werden identifiziert und mit der Normdatenbank GND verlinkt

Über die Personensuche lässt sich in gleicher Weise nach einer konkreten Person suchen. Die Liste der Suchergebnisse kann nach Personen- und Körperschaftstypen, Berufen, Wirkungsorten oder Lebensdaten gefiltert werden.
So lässt sich das Trefferset einer Suche nach «Pestalozzi» auf den Beruf «Kartograf» filtern, um den Zürcher Ingenieur externe Seite Heinrich Pestalozzi (1790-1857) zu finden und nicht den viel häufiger vorkommenden Pädagogen externe Seite Johann Heinrich Pestalozzi (1746-1827).

Berufe der in der Trefferliste vorkommenden Personen, basierend auf der Normdatenbank GND
Berufe der in der Trefferliste vorkommenden Personen, basierend auf der Normdatenbank GND  

Verbesserte Volltexterkennung für e-rara
Grundlage für NER und NEL ist eine qualitativ gute Volltexterkennung in digitalisierten Drucken. Dafür stehen in e-rara seit 2024 neue OCR-Optionen zur Verfügung. Neben der bisher verwendeten Lösung Abbyy Finereader wird neu unter anderem auch die Open Source-Software Tesseract verwendet. Dank spezifisch trainierter Sprach- und Schriftmodelle erzielt Tesseract auch gute Ergebnisse für ältere Drucke.

OCR-Ergebnis von Tesseract für einen Druck des 17. Jahrhunderts.
OCR-Ergebnis von Tesseract für einen Druck des 17. Jahrhunderts.  
Text

Tesseract erkennt je nach verwendetem Schriftmodell auch Sonderzeichen wie ſ, ꝛ oder uͤ.
Technisch basieren die neuen Erschliessungsmöglichkeiten von e-rara auf dem Modul Textlab im Backend: Es erlaubt die Einbindung verschiedener OCR- und NER/NEL-Lösungen. Volltexte können wie bisher direkt auf e-rara durchsucht oder als Plaintext, AltoXML oder im PDF heruntergeladen werden. Weitere Informationen zu NER/NEL und OCR auf e-rara finden Sie auf der entsprechenden externe Seite Info-Seite auf e-rara.

externe Seite e-rara ist die Plattform für digitalisierte Drucke aus Schweizer Bibliotheken.

JavaScript wurde auf Ihrem Browser deaktiviert