Abstract
Bei der Konvertierung typographisch komplexer Textvorlagen in eine elektronische Form stellt die rein textuelle Erfassung, z. B. mittels Optical Character Recognition (OCR), häufig nur den ersten Bearbeitungsschritt dar. Um die logische Struktur solcher Texte zu erschließen, ist zudem eine präzise automatische Erkennung der enthaltenen typographischen Attribute nötig. Dieser Artikel stellt eine Methode vor, die durch Training einer frei verfügbaren Texterkennungssoftware eine feinkörnige Klassifikation typographischer Auszeichnungsmittel ermöglicht und die so gewonnenen semantischen Informationen auf das Ergebnis der textuellen Erkennung abbildet. Als Anwendungsbeispiel dient Daniel Sanders‘ Wörterbuch der Deutschen Sprache, in dem der Typographie eine besonders wichtige und komplexe semantische Funktion zukommt.
Users
Please
log in to take part in the discussion (add own reviews or comments).