arbido, die Fachzeitschrift für alle, die in Archiven, Bibliotheken, Dokumentationsstellen und Museen arbeiten, diese besuchen, benutzen oder unterstützen.
Mit einem Projekt im Rahmen der nationalen KI-Strategie untersucht die DNB, welche der vielversprechenden aktuellen Entwicklungen aus den Bereichen des maschinellen Lernens und der natürlichen Sprachverarbeitung sich für die Erschließung textbasierter Medienwerke eignen. Die Gemeinsame Normdatei (GND) mit potentiell 1,3 Millionen Deskriptoren zur Inhaltserschließung stellt für die maschinellen Verfahren dabei ein sehr komplexes Zielvokabular dar und macht das Problem der Beschlagwortung zu einem sog. „Extreme Multi Label Classification“ (XMLC) Problem. Wir wollen skizzieren, welche Implikationen dies für die Anwendung maschineller Verfahren zur Inhaltserschließung mit sich bringt, und welche Lösungen es dazu aktuell gibt.
Die Flut von Dokumenten, die in Wirtschaft und Gesellschaft täglich entsteht, stellt eine enorme Herausforderung dar. Informationen aus zahlreichen unterschiedlichen Quellen müssen sortiert, verarbeitet und bewertet werden. Betroffen davon sind Unternehmen, aber auch Behörden, Forschungseinrichtungen und Krankenhäuser. Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS hat Lösungen entwickelt, die Dokumente aller Art klassifizieren und die Textinhalte erschließen. Den Schlüssel bilden dabei KI-basierte Sprachmodelle, die mit Deep-Learning-Verfahren trainiert werden.