Abstract
O reconhecimento da fala permite a comunicação natural entre humanos e máquina. Com a Indústria 4.0 existe uma grande demanda por sistemas que executam essa tarefa visto que as integrações humano-máquina são cada vez mais atrativas. Existem diversas ferramentas e recursos que realizam essa atividade, empresas fornecem seus serviços de reconhecimento de áudio por meio de Interface de Programação de Aplicações. Pode-se citar a Microsoft, Google, IBM e Wit, por outro lado existem bibliotecas offline e de código aberto que também podem ser exploradas como a Vosk. Cada empresa tem sua regra de negócio e sua especificidade, nesse sentido fica difícil saber qual é a mais atrativa para cada situação. No entanto, busca-se expor uma comparação em termos de usabilidade, limitações e precisão de reconhecimento (usando métricas de desempenho de reconhecimento de voz), por meio de testes realizados em um determinado conjuntos de áudios usando a linguagem de programação Python.
Users
Please
log in to take part in the discussion (add own reviews or comments).