Article,

Semantische Tiefenerschließung historischer Lexika mittels Text- und Typographieerkennung

.
Ursula Rautenberg/Anja Voeste (Hgg.): Typographie. Theoretische Konzeptionen, historische Perspektiven, künstlerische Applikationen, (2022)

Abstract

Bei der Konvertierung typographisch komplexer Textvorlagen in eine elektronische Form stellt die rein textuelle Erfassung, z. B. mittels Optical Character Recognition (OCR), häufig nur den ersten Bearbeitungsschritt dar. Um die logische Struktur solcher Texte zu erschließen, ist zudem eine präzise automatische Erkennung der enthaltenen typographischen Attribute nötig. Dieser Artikel stellt eine Methode vor, die durch Training einer frei verfügbaren Texterkennungssoftware eine feinkörnige Klassifikation typographischer Auszeichnungsmittel ermöglicht und die so gewonnenen semantischen Informationen auf das Ergebnis der textuellen Erkennung abbildet. Als Anwendungsbeispiel dient Daniel Sanders‘ Wörterbuch der Deutschen Sprache, in dem der Typographie eine besonders wichtige und komplexe semantische Funktion zukommt.

Tags

Users

  • @chreul

Comments and Reviews