Mastersthesis,

Aplicação de técnicas de inteligência computacional para análise da expressão facial em reconhecimento de sinais de Libras

T. Rezende.
Universidade Federal de Minas Gerais (UFMG), Belo Horizonte, Minas Gerais, Brasil, mastersthesis, (Dec 16, 2016)

Abstract

The automatic recognition of facial expressions is a complex problem that requires the application of Computational Intelligence techniques, especially those related to Pattern Recognition. The use of these techniques aims to establish an approach that allows identify signs of the Brazilian Sign Language, known as Libras, through one of its phonological parameters: non-manual expressions. These expressions are formed by movement of the face, eyes, head and/or trunk. The main objective of the present research was to measure the importance of facial expression during the execution of sign in Libras and to verify if only the change in physiognomy is enough to identify one. From this premise, a methodology for the automatic recognition of Libras signs was structured and validated by a database composed of 10 Libras signs recorded by a RGB-D (Kinect) sensor. This sign database was built for this application and in it each sign selected for its composition was executed by only one flag. The Libras sign database provides the coordinates (x,y) of the 121-point face position and the videos of each recording of each signal. From this available information, the following steps were implemented: (i) face detection and clipping, which is the region of interest in this work; (ii) summarization videos with face images using the concept of maximizing diversity in terms of temporal distance and color difference in RGB pattern between frames. This step was necessary to eliminate redundant information and through it the five most significant frames of the recordings of each signal were obtained; (iii) creation of two characteristic vectors: one from the concatenation of the 121 cartesian points available in the sign database and another from the information obtained by applying the LBP (Binary Local Patterns) texture descriptor in each of the significant frames; and (iv) classification of the signs by applying k-NN (k-nearest neighbors) and SVM (Support Vector Machine). The best parameters for these classifiers (respectively the parameter k of the first, and C and of the second) were obtained from cross validation. The classification of the signs of the database created by means of the characteristic generated by the application of the descriptor LBP in the most significant pictures of the videos of the recordings of each sign had better performance than the characteristic derived from the concatenation of cartesian points. In relation to the classifiers, the SVM returned better hit rates. Thus, the mean accuracy of sign recognition obtained from the analysis of the methodology proposed here was of 95.3% evidencing the potentiality of the proposed model. This work contributes to the growth of studies that involve the visual aspects of the structure of Libras and focuses on the importance of facial expression in the identification of signs in an automated way., O reconhecimento automático de expressões faciais é um problema complexo que requer a aplicação de técnicas de Inteligência Computacional, em especial aquelas relacionadas a área de Reconhecimento de Padrões. A utilização destas técnicas nesse trabalho tem como objetivo estabelecer uma abordagem que permita a diferenciação de sinais da Língua Brasileira de Sinais, conhecida por Libras, por meio de um dos seus parâmetros fonológicos: as expressões não-manuais. Estas expressões são formadas pelo movimento da face, dos olhos, da cabeça e/ou do tronco. O objetivo principal da presente pesquisa foi mensurar a importância da expressão facial durante a execução do sinal de Libras e verificar se apenas a mudança na fisionomia é suficiente para identificar um sinal. A partir desta premissa, uma metodologia para o reconhecimento automático de sinais da Libras foi estruturada e validada por uma base de dados composta por 10 sinais de Libras capturados por um sensor RGB-D (Kinect). Esta base de sinais foi construída para esta aplicação e nela cada sinal selecionado para sua composição foi executado por apenas um sinalizador. A base de sinais de Libras disponibiliza as coordenadas (x,y) da posição de 121 pontos do rosto e os vídeos de cada gravação de cada sinal. A partir destas informações disponíveis, as etapas a seguir foram implementadas: (i) detecção e recorte da face, que é a região de interesse desse trabalho; (ii) sumarização dos vídeos com as imagens do rosto utilizando o conceito da maximização da diversidade em termos de distância temporal e da diferença de cores no padrão RGB entre os quadros. Esta etapa foi necessária para eliminar informações redundantes e por meio dela foram obtidos os cinco quadros mais significativos das gravações de cada sinal; (iii) criação de dois vetores de características: um a partir da concatenação dos 121 pontos cartesianos disponíveis na base de sinais e outro a partir da informação obtida pela aplicação do descritor de textura LBP (Padrões Locais Binários) em cada um dos quadros significativos; e (iv) classificação dos sinais aplicando o k-NN (k-vizinhos mais próximos) e a SVM (Máquina de Vetores de Suporte). Os melhores parâmetros para estes classificadores (respectivamente o parâmetro k do primeiro, e C e do segundo) foram obtidos a partir de validação cruzada. A classificação dos sinais da base criada por meio da característica gerada pela aplicação do descritor LBP nos quadros mais significativos dos vídeos das gravações de cada sinal teve melhor desempenho que a característica derivada da concatenação dos pontos cartesianos. Já em relação aos classificadores, o SVM retornou melhores taxas de acerto. Com isso, a acurácia média de reconhecimento dos sinais obtida da análise da metodologia proposta aqui foi de 95,3% evidenciando a potencialidade do modelo proposto. Esse trabalho contribui para o crescimento dos estudos que envolvem os aspectos visuais próprios da estrutura da Libras e tem como foco principal a importância da expressão facial na identificação dos sinais de forma automatizada.

BibTeX key: rezende2016aplicao
entry type: mastersthesis
address: Belo Horizonte, Minas Gerais, Brasil
year: 2016
month: 12
day: 16
publisher: Universidade Federal de Minas Gerais (UFMG)
school: Universidade Federal de Minas Gerais (UFMG)
type: mastersthesis
language: por
id: http://hdl.handle.net/1843/RAOA-BC5HK9
url: https://repositorio.ufmg.br/handle/1843/RAOA-BC5HK9

Users

Comments and Reviewsshow / hide

Please log in to take part in the discussion (add own reviews or comments).

Cite this publication

%0 Thesis %1 rezende2016aplicao %A Rezende, Tamires Martins %C Belo Horizonte, Minas Gerais, Brasil %D 2016 %E de Castro, Cristiano Leite %E Almeida, Silvia Grasiella Moreira %E Guimarães, Frederico Gadelha %E Torres, Luiz Carlos Bambirra %I Universidade Federal de Minas Gerais (UFMG) %K brazilian-sign-language bsl facial-expression k-nn libras real rgb-d-sensor %T Aplicação de técnicas de inteligência computacional para análise da expressão facial em reconhecimento de sinais de Libras %U https://repositorio.ufmg.br/handle/1843/RAOA-BC5HK9 %X The automatic recognition of facial expressions is a complex problem that requires the application of Computational Intelligence techniques, especially those related to Pattern Recognition. The use of these techniques aims to establish an approach that allows identify signs of the Brazilian Sign Language, known as Libras, through one of its phonological parameters: non-manual expressions. These expressions are formed by movement of the face, eyes, head and/or trunk. The main objective of the present research was to measure the importance of facial expression during the execution of sign in Libras and to verify if only the change in physiognomy is enough to identify one. From this premise, a methodology for the automatic recognition of Libras signs was structured and validated by a database composed of 10 Libras signs recorded by a RGB-D (Kinect) sensor. This sign database was built for this application and in it each sign selected for its composition was executed by only one flag. The Libras sign database provides the coordinates (x,y) of the 121-point face position and the videos of each recording of each signal. From this available information, the following steps were implemented: (i) face detection and clipping, which is the region of interest in this work; (ii) summarization videos with face images using the concept of maximizing diversity in terms of temporal distance and color difference in RGB pattern between frames. This step was necessary to eliminate redundant information and through it the five most significant frames of the recordings of each signal were obtained; (iii) creation of two characteristic vectors: one from the concatenation of the 121 cartesian points available in the sign database and another from the information obtained by applying the LBP (Binary Local Patterns) texture descriptor in each of the significant frames; and (iv) classification of the signs by applying k-NN (k-nearest neighbors) and SVM (Support Vector Machine). The best parameters for these classifiers (respectively the parameter k of the first, and C and of the second) were obtained from cross validation. The classification of the signs of the database created by means of the characteristic generated by the application of the descriptor LBP in the most significant pictures of the videos of the recordings of each sign had better performance than the characteristic derived from the concatenation of cartesian points. In relation to the classifiers, the SVM returned better hit rates. Thus, the mean accuracy of sign recognition obtained from the analysis of the methodology proposed here was of 95.3% evidencing the potentiality of the proposed model. This work contributes to the growth of studies that involve the visual aspects of the structure of Libras and focuses on the importance of facial expression in the identification of signs in an automated way., O reconhecimento automático de expressões faciais é um problema complexo que requer a aplicação de técnicas de Inteligência Computacional, em especial aquelas relacionadas a área de Reconhecimento de Padrões. A utilização destas técnicas nesse trabalho tem como objetivo estabelecer uma abordagem que permita a diferenciação de sinais da Língua Brasileira de Sinais, conhecida por Libras, por meio de um dos seus parâmetros fonológicos: as expressões não-manuais. Estas expressões são formadas pelo movimento da face, dos olhos, da cabeça e/ou do tronco. O objetivo principal da presente pesquisa foi mensurar a importância da expressão facial durante a execução do sinal de Libras e verificar se apenas a mudança na fisionomia é suficiente para identificar um sinal. A partir desta premissa, uma metodologia para o reconhecimento automático de sinais da Libras foi estruturada e validada por uma base de dados composta por 10 sinais de Libras capturados por um sensor RGB-D (Kinect). Esta base de sinais foi construída para esta aplicação e nela cada sinal selecionado para sua composição foi executado por apenas um sinalizador. A base de sinais de Libras disponibiliza as coordenadas (x,y) da posição de 121 pontos do rosto e os vídeos de cada gravação de cada sinal. A partir destas informações disponíveis, as etapas a seguir foram implementadas: (i) detecção e recorte da face, que é a região de interesse desse trabalho; (ii) sumarização dos vídeos com as imagens do rosto utilizando o conceito da maximização da diversidade em termos de distância temporal e da diferença de cores no padrão RGB entre os quadros. Esta etapa foi necessária para eliminar informações redundantes e por meio dela foram obtidos os cinco quadros mais significativos das gravações de cada sinal; (iii) criação de dois vetores de características: um a partir da concatenação dos 121 pontos cartesianos disponíveis na base de sinais e outro a partir da informação obtida pela aplicação do descritor de textura LBP (Padrões Locais Binários) em cada um dos quadros significativos; e (iv) classificação dos sinais aplicando o k-NN (k-vizinhos mais próximos) e a SVM (Máquina de Vetores de Suporte). Os melhores parâmetros para estes classificadores (respectivamente o parâmetro k do primeiro, e C e do segundo) foram obtidos a partir de validação cruzada. A classificação dos sinais da base criada por meio da característica gerada pela aplicação do descritor LBP nos quadros mais significativos dos vídeos das gravações de cada sinal teve melhor desempenho que a característica derivada da concatenação dos pontos cartesianos. Já em relação aos classificadores, o SVM retornou melhores taxas de acerto. Com isso, a acurácia média de reconhecimento dos sinais obtida da análise da metodologia proposta aqui foi de 95,3% evidenciando a potencialidade do modelo proposto. Esse trabalho contribui para o crescimento dos estudos que envolvem os aspectos visuais próprios da estrutura da Libras e tem como foco principal a importância da expressão facial na identificação dos sinais de forma automatizada.

@mastersthesis{rezende2016aplicao, abstract = {The automatic recognition of facial expressions is a complex problem that requires the application of Computational Intelligence techniques, especially those related to Pattern Recognition. The use of these techniques aims to establish an approach that allows identify signs of the Brazilian Sign Language, known as Libras, through one of its phonological parameters: non-manual expressions. These expressions are formed by movement of the face, eyes, head and/or trunk. The main objective of the present research was to measure the importance of facial expression during the execution of sign in Libras and to verify if only the change in physiognomy is enough to identify one. From this premise, a methodology for the automatic recognition of Libras signs was structured and validated by a database composed of 10 Libras signs recorded by a RGB-D (Kinect) sensor. This sign database was built for this application and in it each sign selected for its composition was executed by only one flag. The Libras sign database provides the coordinates (x,y) of the 121-point face position and the videos of each recording of each signal. From this available information, the following steps were implemented: (i) face detection and clipping, which is the region of interest in this work; (ii) summarization videos with face images using the concept of maximizing diversity in terms of temporal distance and color difference in RGB pattern between frames. This step was necessary to eliminate redundant information and through it the five most significant frames of the recordings of each signal were obtained; (iii) creation of two characteristic vectors: one from the concatenation of the 121 cartesian points available in the sign database and another from the information obtained by applying the LBP (Binary Local Patterns) texture descriptor in each of the significant frames; and (iv) classification of the signs by applying k-NN (k-nearest neighbors) and SVM (Support Vector Machine). The best parameters for these classifiers (respectively the parameter k of the first, and C and of the second) were obtained from cross validation. The classification of the signs of the database created by means of the characteristic generated by the application of the descriptor LBP in the most significant pictures of the videos of the recordings of each sign had better performance than the characteristic derived from the concatenation of cartesian points. In relation to the classifiers, the SVM returned better hit rates. Thus, the mean accuracy of sign recognition obtained from the analysis of the methodology proposed here was of 95.3% evidencing the potentiality of the proposed model. This work contributes to the growth of studies that involve the visual aspects of the structure of Libras and focuses on the importance of facial expression in the identification of signs in an automated way., O reconhecimento automático de expressões faciais é um problema complexo que requer a aplicação de técnicas de Inteligência Computacional, em especial aquelas relacionadas a área de Reconhecimento de Padrões. A utilização destas técnicas nesse trabalho tem como objetivo estabelecer uma abordagem que permita a diferenciação de sinais da Língua Brasileira de Sinais, conhecida por Libras, por meio de um dos seus parâmetros fonológicos: as expressões não-manuais. Estas expressões são formadas pelo movimento da face, dos olhos, da cabeça e/ou do tronco. O objetivo principal da presente pesquisa foi mensurar a importância da expressão facial durante a execução do sinal de Libras e verificar se apenas a mudança na fisionomia é suficiente para identificar um sinal. A partir desta premissa, uma metodologia para o reconhecimento automático de sinais da Libras foi estruturada e validada por uma base de dados composta por 10 sinais de Libras capturados por um sensor RGB-D (Kinect). Esta base de sinais foi construída para esta aplicação e nela cada sinal selecionado para sua composição foi executado por apenas um sinalizador. A base de sinais de Libras disponibiliza as coordenadas (x,y) da posição de 121 pontos do rosto e os vídeos de cada gravação de cada sinal. A partir destas informações disponíveis, as etapas a seguir foram implementadas: (i) detecção e recorte da face, que é a região de interesse desse trabalho; (ii) sumarização dos vídeos com as imagens do rosto utilizando o conceito da maximização da diversidade em termos de distância temporal e da diferença de cores no padrão RGB entre os quadros. Esta etapa foi necessária para eliminar informações redundantes e por meio dela foram obtidos os cinco quadros mais significativos das gravações de cada sinal; (iii) criação de dois vetores de características: um a partir da concatenação dos 121 pontos cartesianos disponíveis na base de sinais e outro a partir da informação obtida pela aplicação do descritor de textura LBP (Padrões Locais Binários) em cada um dos quadros significativos; e (iv) classificação dos sinais aplicando o k-NN (k-vizinhos mais próximos) e a SVM (Máquina de Vetores de Suporte). Os melhores parâmetros para estes classificadores (respectivamente o parâmetro k do primeiro, e C e do segundo) foram obtidos a partir de validação cruzada. A classificação dos sinais da base criada por meio da característica gerada pela aplicação do descritor LBP nos quadros mais significativos dos vídeos das gravações de cada sinal teve melhor desempenho que a característica derivada da concatenação dos pontos cartesianos. Já em relação aos classificadores, o SVM retornou melhores taxas de acerto. Com isso, a acurácia média de reconhecimento dos sinais obtida da análise da metodologia proposta aqui foi de 95,3% evidenciando a potencialidade do modelo proposto. Esse trabalho contribui para o crescimento dos estudos que envolvem os aspectos visuais próprios da estrutura da Libras e tem como foco principal a importância da expressão facial na identificação dos sinais de forma automatizada.}, added-at = {2019-09-15T05:30:21.000+0200}, address = {Belo Horizonte, Minas Gerais, Brasil}, author = {Rezende, Tamires Martins}, biburl = {https://www.bibsonomy.org/bibtex/2cdfeea7a2ec6cc7d65860b54d2633bd1/jpmor}, day = 16, editor = {de Castro, Cristiano Leite and Almeida, Silvia Grasiella Moreira and Guimarães, Frederico Gadelha and Torres, Luiz Carlos Bambirra}, id = {http://hdl.handle.net/1843/RAOA-BC5HK9}, interhash = {a7ab70e0f5aef569c262393cad123cec}, intrahash = {cdfeea7a2ec6cc7d65860b54d2633bd1}, keywords = {brazilian-sign-language bsl facial-expression k-nn libras real rgb-d-sensor}, language = {por}, month = {12}, publisher = {Universidade Federal de Minas Gerais (UFMG)}, school = {Universidade Federal de Minas Gerais (UFMG)}, timestamp = {2020-10-07T13:36:50.000+0200}, title = {Aplicação de técnicas de inteligência computacional para análise da expressão facial em reconhecimento de sinais de Libras}, type = {mastersthesis}, url = {https://repositorio.ufmg.br/handle/1843/RAOA-BC5HK9}, year = 2016 }

BibSonomy

Aplicação de técnicas de inteligência computacional para análise da expressão facial em reconhecimento de sinais de Libras

Abstract

Tags

Users

Comments and Reviewsshow / hide

Cite this publication

More citation styles

search on