@jaeschke

Entwicklung eines ontologisch-fokussierten Web-Crawlers auf Basis von Heritrix

. Johannes Kepler Universität Linz, Linz, Diplomarbeit, (September 2010)

Abstract

Aufgrund der wachsenden Anzahl und Vielfalt der Informationen im WWW habensich in den letzten Jahren sogenannte vertikale Suchmaschinen etabliert, die sich auf bestimmte Themenbereiche konzentrieren. Vertikale Suchmaschinen beruhen auf fokussierten Web-Crawlern, die bereits beim automatischen Durchlaufen des WWW, jene Webseiten ausschließen, die nicht zum zuvor bestimmten Themenkreis passen. Ob eine Webseite gegenüber einem Themenbereich eine gewisse Relevanz aufweist, stellt keine triviale Entscheidung dar und bedarf normalerweise den Abgleich von Textfragmenten bereits besuchter Webseiten mit dem Themenbereich. Dieser Abgleich wird zusätzlich dadurch erschwert, dass die Webseiten größtenteils aus HTML-Sprachelementen bestehen, die zwar eine syntaktische aber keine semantische Überprüfung ermöglichen. Obwohl die Konzepte zur Implementierung einer Semantik in Webseiten bereits vorhanden sind, haben diese bis dato noch keinen flächendeckenden Erfolg im WWW gefeiert. Dennoch kann, wie bereits mehrere Ansätze in der Literatur bestätigen, die Abbildung des Themenbereichs mithilfe einer Ontologie zu einer präzisieren und effizienteren Fokussierung eines Web-Crawlers beitragen.Diese Diplomarbeit soll eine weitere Anstrengung in dieser Hinsicht darstellen und ausloten inwiefern sich die Ontologie-Sprache OWL zu diesem Zweck eignet. Nach einer theoretischen Einleitung in den Ontologiebegriff bzw. der Sprache OWL sowie der Erklärungder Funktionsweise eines Web-Crawlers folgt die Spezifikation und Implementierung eines ontologisch-fokussierten Web-Crawlers auf Basis des Open-Source Web-Crawlers Heritrix. Dessen Bewertung bzw. eine Zusammenfassung der Ausarbeitung runden diese Diplomarbeit ab.

Links and resources

Tags