@datentaste

Erschließung von Tondokumenten mittels Audiomining

. Veröffentlichungen der Archivschule Marburg, (2007)

Abstract

Inhalt des Beitrages ist die Darstellung von Methoden und Systemen zur inhaltlichen Strukturierung und Erschließung von Tondokumen- ten. Neuartige Entwicklungen aus dem Bereich der Informationsver- arbeitung erlauben mittlerweile eine semi-automatische Erschließung von audio-visuellen Daten. Anhand von Beispielen aus dem Bereich der Dokumentation in den Archivabteilungen von Rundfunkanstalten wird gezeigt, welche Möglichkeiten zur rechnerunterstützten Doku- mentation von Radiosendungen bestehen. Zum einen werden Tonbei- träge automatisch in logische Einheiten unterteilt und Strukturinfor- mationen erzeugt (z.B. Sprecherabschnitte). Zum anderen ermöglicht eine automatische Spracherkennung die Suche nach relevanten Beg- riffen, wie beispielsweise Personennamen. Der Artikel beschreibt das Audiominingsystem, das am Fraunhofer IAIS in Zusammenarbeit mit den Archivabteilungen der Deutschen Welle und dem WDR entwi- ckelt wurde. Die bestehenden Funktionalitäten und Funktionsweisen werden anhand von konkreten Beispielen erläutert. Das Audiomining- system kann ebenso in anderen Bereichen eingesetzt werden, wie beispielsweise zur Erschließung und Aufbereitung von Parlamentsre- den oder historischen Tonarchiven.

Description

Erschließung von Tondokumenten mittels Audiomining Own Abstract Project Description of Fraunhofer IAIS Audiomining Platform (iFinder) which was deployed for WDR & DW and finished in Sept 2006. The platform supports automatic segmentation and retrieval of entities by the use of phonemes-analysis. Recent audiomining technology is reviewed on a very basic level but gives plain overview on state-of-the-art, problems of ASR and requirements of a broadcaster. Objectives Support media-documentation by automatic metadata generation (segmentation, entity-retrieval). Use of fuzzy-search of phonemes works with high precision for polysyllabic entities (Nel-son-man-de-la) Functionality of iFinder plattform: automatic segmentation music or speech segment recognition of same speaker recognition of type of broadcast (use of pattern matching) Contents at a glance Main thesis and results 3-8 h working time to index an audio-document with length of 1h (depending on requirements of indexing) (p.236) The retrieval of entities is feasible by using a syllable approach, which is sometimes better than word-based (lexical approach) or can supplement it. error-rates for broadcast-ASR between 10%-40%, in controlled environments as eg. studio (p. 246) 160 h of audio was analized (p. 249) Used Technologies Segmentation: Bayesian Information Criterion (BIC) Fuzzy Retrieval

Links and resources

Tags