,

Konzeption und prototypische Realisierung einer begriffsbasierten Texterschließung

.
Universität Trier, Trier, Dissertation, (2006)

Аннотация

Menschen kommunizieren zu einem großen Teil durch ihre Sprache. Durch deren Aufzeichnung als Texte lassen sich Kenntnisse, Fertigkeiten und somit Wissen übertragen. Der maschinelle Zugriff auf das in Texten explizit gemachte Wissen stellt trotz der Unterstützung durch Rechentechnik einen zeit- und damit kostenintensiven Prozess dar, dem große wirtschaftliche Bedeutung zukommt KöRe98;TsiLa02. Der sich diesem Problem widmende Forschungszweig des Information Retrieval (IR) hat eine Vielzahl von Methoden hervorgebracht oder adaptiert, um dieser Herausforderung zu begegnen. Die Problematik der fehlenden inhaltlichen Erschließung mit Hilfe maschineller Verfahren besteht jedoch weiterhin. Bestehende IR-Systeme zielen auf die Unterstützung des Wiederfindens von Dokumenten oder Teilen davon. Sie orientieren sich an einzelnen, als Indexterme bezeichneten Worten. Diese werden entweder manuell einem Text zugeordnet oder maschinell auf Grund statistischer Maße ermittelt. Eine Suchanfrage liefert dann Verweise auf diejenigen Dokumente, denen diese Indexterme zugeordnet sind. Es werden also keine Informationen über den gesuchten Sachverhalt sondern lediglich Verweise darauf geliefert. Als Konsequenz bleibt es dem Nutzer überlassen festzustellen, ob und in welchem Ausmaß die gesuchten Informationen in den Dokumenten enthalten sind. Der Informationsbedarf wird folglich nur mittelbar befriedigt. Eine weitere Folge dieser am Wort orientierten Vorgehensweise ist, dass nicht bedeutungsbezogen gesucht werden kann. Da nicht bekannt ist, welchen Begriff ein Term symbolisiert, kann ein IR-System Fragen nach Personen, deren Funktionen, etc. nicht beantworten. Dies wird erst durch die als Information Extraction bezeichnete, inhaltliche Erschließung möglich. Deren Ziel ist es, unstrukturierte Daten aus Texten so zu strukturieren, dass ein gezielter Zugriff ermöglicht wird. Neben vielen Ansätzen innerhalb der Information Extraction, die sich sehr speziellen und tiefgehenden Detailfragen widmen, hat sich der Bereich der Erkennung von Eigennamen etabliert. Diese unter der Bezeichnung Named Entity Recognition zusammengefassten Vorgehensweisen zielen auf besonders häufig anzutreffende Namen wie die von Personen, Organisationen und Orten. Damit lassen sich ähnlich einer Datenbank auch direkte Anfragen nach diesen Eigennamen beantworten, die auf Grund ihrer Seltenheit kaum als Indexterme in Frage kämen. Allerdings zielen diese Verfahren nur auf echte Eigennamen oder durch äußerliche Regelmäßigkeiten eindeutig beschreibbare Größen wie beispielsweise Datumsangaben. Gattungsnamen oder Bezeichnungen abstrakter Sachverhalte werden nicht betrachtet. Allen diesen Vorgehensweisen gemeinsam ist deren Orientierung am Wort. Sie betrachten einen Text als eine Folge einzelner Worte, die mit einer bestimmten Wahrscheinlichkeit auftreten. Insbesondere die Erkennung von Eigennamen ist daher auf eine vorhergehende syntaktische Analyse der Texte angewiesen, weil dann auf Grund der ermittelten Wortarten auch auf seltenere und damit weniger wahrscheinliche Bezeichner geschlossen werden kann. Trotz der zusätzlichen syntaktischen Informationen werden große Mengen manuell aufbereiteter Trainingsdaten benötigt, um statistisch relevante Aussagen für maschinelle Lernverfahren treffen zu können. Daher findet die inhaltliche Erschließung im IR praktisch keine Verwendung. Stattdessen werden immer mehr Worte zur Indexierung benutzt, ohne damit jedoch Bedeutungen erschließen zu können. Der Grund für die Probleme der inhaltlichen Texterschließung ist die historisch gewachsene Orientierung am Wort. Dementsprechend verspricht der Übergang vom Wort zu dem dadurch bezeichneten Begriff ein Weg zur Überwindung dieser Schwierigkeiten zu sein. Basis dieser Überlegungen ist, dass Kommunikation in natürlicher Sprache einem Protokoll folgt, also strukturiert abläuft. Dieses findet sich in Form typischer Kommunikationsmuster auch in der geschriebenen Sprache wieder. Da diese Muster aus zueinander in Beziehung stehenden Begriffen bestehen, erlauben die resultierenden Begriffsnetze die Identifikation gesuchter Bedeutungen sowie die Erschließung begrifflicher Zusammenhänge.

тэги

Пользователи данного ресурса

  • @lepsky
  • @genealogie
  • @dblp

Комментарии и рецензии