Erschließung von Tondokumenten mittels Audiomining
J. Köhler. Veröffentlichungen der Archivschule Marburg, (2007)
Abstract
Inhalt des Beitrages ist die Darstellung von Methoden und Systemen
zur inhaltlichen Strukturierung und Erschließung von Tondokumen-
ten. Neuartige Entwicklungen aus dem Bereich der Informationsver-
arbeitung erlauben mittlerweile eine semi-automatische Erschließung
von audio-visuellen Daten. Anhand von Beispielen aus dem Bereich
der Dokumentation in den Archivabteilungen von Rundfunkanstalten
wird gezeigt, welche Möglichkeiten zur rechnerunterstützten Doku-
mentation von Radiosendungen bestehen. Zum einen werden Tonbei-
träge automatisch in logische Einheiten unterteilt und Strukturinfor-
mationen erzeugt (z.B. Sprecherabschnitte). Zum anderen ermöglicht
eine automatische Spracherkennung die Suche nach relevanten Beg-
riffen, wie beispielsweise Personennamen. Der Artikel beschreibt das
Audiominingsystem, das am Fraunhofer IAIS in Zusammenarbeit mit
den Archivabteilungen der Deutschen Welle und dem WDR entwi-
ckelt wurde. Die bestehenden Funktionalitäten und Funktionsweisen
werden anhand von konkreten Beispielen erläutert. Das Audiomining-
system kann ebenso in anderen Bereichen eingesetzt werden, wie
beispielsweise zur Erschließung und Aufbereitung von Parlamentsre-
den oder historischen Tonarchiven.
Description
Erschließung von Tondokumenten mittels Audiomining
Own Abstract
Project Description of Fraunhofer IAIS Audiomining Platform (iFinder) which was deployed for WDR & DW and finished in Sept 2006. The platform supports automatic segmentation and retrieval of entities by the use of phonemes-analysis. Recent audiomining technology is reviewed on a very basic level but gives plain overview on state-of-the-art, problems of ASR and requirements of a broadcaster.
Objectives
Support media-documentation by automatic metadata generation (segmentation, entity-retrieval).
Use of fuzzy-search of phonemes works with high precision for polysyllabic entities (Nel-son-man-de-la)
Functionality of iFinder plattform:
automatic segmentation
music or speech segment
recognition of same speaker
recognition of type of broadcast (use of pattern matching)
Contents at a glance
Main thesis and results
3-8 h working time to index an audio-document with length of 1h (depending on requirements of indexing) (p.236)
The retrieval of entities is feasible by using a syllable approach, which is sometimes better than word-based (lexical approach) or can supplement it.
error-rates for broadcast-ASR between 10%-40%, in controlled environments as eg. studio (p. 246)
160 h of audio was analized (p. 249)
Used Technologies
Segmentation: Bayesian Information Criterion (BIC)
Fuzzy Retrieval
%0 Journal Article
%1 koehler2007erschlieung
%A Köhler, Joachim
%D 2007
%E Bischoff, Frank M.
%J Veröffentlichungen der Archivschule Marburg
%K Broadcast IAIS WDR audiomining general iFinder indexing overview segmentation
%N 46
%P 233-258
%T Erschließung von Tondokumenten mittels Audiomining
%U http://www.archivschule.de/uploads/Publikation/VOE46/Voe_46_13_Koehler.pdf?PHPSESSID=38e8857a1a67613e8553d43fd8459a7f
%X Inhalt des Beitrages ist die Darstellung von Methoden und Systemen
zur inhaltlichen Strukturierung und Erschließung von Tondokumen-
ten. Neuartige Entwicklungen aus dem Bereich der Informationsver-
arbeitung erlauben mittlerweile eine semi-automatische Erschließung
von audio-visuellen Daten. Anhand von Beispielen aus dem Bereich
der Dokumentation in den Archivabteilungen von Rundfunkanstalten
wird gezeigt, welche Möglichkeiten zur rechnerunterstützten Doku-
mentation von Radiosendungen bestehen. Zum einen werden Tonbei-
träge automatisch in logische Einheiten unterteilt und Strukturinfor-
mationen erzeugt (z.B. Sprecherabschnitte). Zum anderen ermöglicht
eine automatische Spracherkennung die Suche nach relevanten Beg-
riffen, wie beispielsweise Personennamen. Der Artikel beschreibt das
Audiominingsystem, das am Fraunhofer IAIS in Zusammenarbeit mit
den Archivabteilungen der Deutschen Welle und dem WDR entwi-
ckelt wurde. Die bestehenden Funktionalitäten und Funktionsweisen
werden anhand von konkreten Beispielen erläutert. Das Audiomining-
system kann ebenso in anderen Bereichen eingesetzt werden, wie
beispielsweise zur Erschließung und Aufbereitung von Parlamentsre-
den oder historischen Tonarchiven.
@article{koehler2007erschlieung,
abstract = {Inhalt des Beitrages ist die Darstellung von Methoden und Systemen
zur inhaltlichen Strukturierung und Erschließung von Tondokumen-
ten. Neuartige Entwicklungen aus dem Bereich der Informationsver-
arbeitung erlauben mittlerweile eine semi-automatische Erschließung
von audio-visuellen Daten. Anhand von Beispielen aus dem Bereich
der Dokumentation in den Archivabteilungen von Rundfunkanstalten
wird gezeigt, welche Möglichkeiten zur rechnerunterstützten Doku-
mentation von Radiosendungen bestehen. Zum einen werden Tonbei-
träge automatisch in logische Einheiten unterteilt und Strukturinfor-
mationen erzeugt (z.B. Sprecherabschnitte). Zum anderen ermöglicht
eine automatische Spracherkennung die Suche nach relevanten Beg-
riffen, wie beispielsweise Personennamen. Der Artikel beschreibt das
Audiominingsystem, das am Fraunhofer IAIS in Zusammenarbeit mit
den Archivabteilungen der Deutschen Welle und dem WDR entwi-
ckelt wurde. Die bestehenden Funktionalitäten und Funktionsweisen
werden anhand von konkreten Beispielen erläutert. Das Audiomining-
system kann ebenso in anderen Bereichen eingesetzt werden, wie
beispielsweise zur Erschließung und Aufbereitung von Parlamentsre-
den oder historischen Tonarchiven. },
added-at = {2010-05-07T10:26:24.000+0200},
author = {Köhler, Joachim},
biburl = {https://www.bibsonomy.org/bibtex/2c28c509d566fe6e4ff1853a98921f44b/datentaste},
description = {Erschließung von Tondokumenten mittels Audiomining
Own Abstract
Project Description of Fraunhofer IAIS Audiomining Platform (iFinder) which was deployed for WDR & DW and finished in Sept 2006. The platform supports automatic segmentation and retrieval of entities by the use of phonemes-analysis. Recent audiomining technology is reviewed on a very basic level but gives plain overview on state-of-the-art, problems of ASR and requirements of a broadcaster.
Objectives
Support media-documentation by automatic metadata generation (segmentation, entity-retrieval).
Use of fuzzy-search of phonemes works with high precision for polysyllabic entities (Nel-son-man-de-la)
Functionality of iFinder plattform:
automatic segmentation
music or speech segment
recognition of same speaker
recognition of type of broadcast (use of pattern matching)
Contents at a glance
Main thesis and results
3-8 h working time to index an audio-document with length of 1h (depending on requirements of indexing) (p.236)
The retrieval of entities is feasible by using a syllable approach, which is sometimes better than word-based (lexical approach) or can supplement it.
error-rates for broadcast-ASR between 10%-40%, in controlled environments as eg. studio (p. 246)
160 h of audio was analized (p. 249)
Used Technologies
Segmentation: Bayesian Information Criterion (BIC)
Fuzzy Retrieval},
editor = {Bischoff, Frank M.},
interhash = {b31226b3d662f58b0fc62ddc657865c4},
intrahash = {c28c509d566fe6e4ff1853a98921f44b},
journal = {Veröffentlichungen der Archivschule Marburg},
keywords = {Broadcast IAIS WDR audiomining general iFinder indexing overview segmentation},
number = 46,
pages = {233-258},
timestamp = {2010-05-07T10:26:24.000+0200},
title = {Erschließung von Tondokumenten mittels Audiomining},
url = {http://www.archivschule.de/uploads/Publikation/VOE46/Voe_46_13_Koehler.pdf?PHPSESSID=38e8857a1a67613e8553d43fd8459a7f},
year = 2007
}