Techreport,

Dublettenbehandlung (Match- und Merge-Verfahren) in der KOBV-Suchmaschine - Grundlagen -

.
Konrad-Zuse-Zentrum für Informationstechnik Berlin, (1999)

Abstract

Die Recherche über die KOBV-Suchmaschine liefert Datensätze aus unterschiedlichen Bibliotheken. Damit der Nutzer nicht viele, unter Umständen lange Listen für jede Bibliothek durchblättern muss werden die Datensätze in der KOBV-Suchmaschine einer Dublettenbehandlung (Match- und Merge-Verfahren) unterzogen. Ziel dieses Verfahrens ist es, dem Nutzer möglichst nur einen einzigen Datensatz mit allen zugehörigen Bestandsnachweisen aus den Bibliotheken anzuzeigen. In dem vorliegenden Papier steht das Match-Verfahren, das von der KOBV-Projektgruppe eigens für den Einsatz in der KOBV-Suchmaschine entwickelt wurde, im Vordergrund. Das Merge-Verfahren, das auf Konzepte von Ex Libris zurückgeht, ist lediglich am Rande erwähnt. Ziel bei der Entwicklung des Match- und Merge-Verfahrens war es, in der KOBV-Suchmaschine ein Verfahren zu implementieren, das vollkommen automatisiert, ohne Zuhilfenahme manueller und intellektueller Eingriffe, abläuft. In diesem Papier sind die Grundlagen zum Match- und Merge-Verfahren in der KOBV-Suchmaschine zusammengefaßt. Zunächst wird definiert, was unter einer Dublette überhaupt zu verstehen ist. Die Begriffe Dokument und Werk werden analysiert, die wesentlich sind für die Entscheidung, welche Datensätze in der KOBV-Suchmaschine letztendlich zusammengeführt werden. Anhand umfassender Literaturrecherchen werden die zur Dublettenbehandlung herangezogenen bibliographischen Beschreibungselemente (Attribute) in verschiedenen MARC- und MAB-Datenbanken ermittelt und grundsätzliche Probleme beim Erkennen dubletter bibliographischer Datensätze aufgezeigt. Schließlich werden Verfahren vorgestellt und diskutiert, wie die Attribute in das Match- und Merge-Verfahren eingebunden werden: bei nur einer Gewichtung (positiver Wert) und bei zwei Gewichtungen (positiver und negativer Wert). Auf dieser Basis werden Tabellen mit Werten für zwei unterschiedliche Gewichtungsverfahren in der KOBV-Suchmaschine entwickelt, die als Ausgangswerte für erste Testverfahren in den Match- und Merge-Algorithmus in der KOBV-Suchmaschine implementiert werden.

Tags

Users

  • @nichtich

Comments and Reviews