Escolar Documentos
Profissional Documentos
Cultura Documentos
SÃO CARLOS
2017
II
SÃO CARLOS
2017
III
FOLHA DE APROVAÇÃO
Orientador(a)
______________________________________
Dr. Robson Barcellos
Departamento de Engenharia Elétrica - UFSCar
Examinador
______________________________________
Dr. Celso Aparecido de França
Departamento de Engenharia Elétrica - UFSCar
Examinadora
________________________________________
Ma. Mariana de Lima Isaac Leandro Campos
Departamento de Psicologia - UFSCar
IV
RESUMO
ABSTRACT
Software for translating Portuguese to Libras are available. The inverse, i.e., Libras to
Portuguese, still need development and most of the related projects use the depth sensor Kinect.
This work has the objective of developing a computer software capable of recognizing
and translating the Libras Alphabet into Portuguese alphabet from images captured by a
webcam device.
Topics related to subjects of image processing and computing will be used, including
color image segmentation, morphological operations, canny edge detector, radius signature and
circular Hough transform.
It is proposed a method for wrist detection, the change of reference center for the
extraction of the radius signature and a method for fingertip detection in the image.
LISTA DE FIGURAS
Figura 1 - Espaço de cor CIELAB. O vetor Delta E representa a distância entre duas cores
distintas neste espaço. ................................................................................................................. 5
Figura 2 - Transformação de Translação .................................................................................... 7
Figura 3 - Conjunto B à esquerda e sua reflexão 𝑩 à direita ...................................................... 8
Figura 4 - Conjunto A, o elemento estruturante B e a erosão AƟB. .......................................... 8
Figura 5 - Novo elemento estruturante B e a erosão AƟB. ........................................................ 9
Figura 6 - Dilatação de A por B utilizando-se diferentes elementos estruturantes B. ................ 9
Figura 7 - Cada ponto no espaço geométrico (esquerda) gera um círculo no espaço dos
parâmetros (direita). Os círculos no espaço dos parâmetros interceptam em (a, b) que é o centro
no espaço geométrico. .............................................................................................................. 11
Figura 8 - Diagrama da etapa da segmentação ......................................................................... 13
Figura 9 - Média de cores do fundo e média de cores da mão ................................................. 13
Figura 10 - Máscara da região de interesse .............................................................................. 14
Figura 11 - Imagem após o detector de bordas. a) contorno externo e b) aplicação do detector
de canny .................................................................................................................................... 14
Figura 12 - Imagem fatiada para a detecção do pulso. As áreas das 4 primeiras fatias são
mostradas ao lado (em milhar de pixels) .................................................................................. 15
Figura 13 - Imagem recortada .................................................................................................. 15
Figura 14 - Diagrama do processo de caracterização da mão .................................................. 16
Figura 15 - Maior circunferência inscrita coincidindo com a região da palma da mão ........... 17
Figura 16 - Extração da assinatura radial da mão. a) Distância do centro da MCI à borda e b)
Assinatura radial da mão .......................................................................................................... 17
Figura 17 - Transformada de Hough circular aplicada para detecção das pontas de dedos ..... 18
Figura 18 - Regiões para extração da média das cores. a) imagem a ser processada; b) região
para o cálculo da média de cores da mão; c) região para o cálculo da média de cores do fundo
.................................................................................................................................................. 20
Figura 19 - Regiões para extração da média de cores da mão (esquerda) e fundo (direita) ..... 21
Figura 20 - Média de cores da mão e do fundo ........................................................................ 21
Figura 21 - Classificação dos pixels ......................................................................................... 21
Figura 22 - Blob de maior área, que se refere ao objeto principal da imagem ......................... 22
Figura 23 - Processo de fechamento. Imagem original à esquerda e a imagem resultante à
direita. ....................................................................................................................................... 22
Figura 24 - Detecção do pulso para a letra A, L e B, respectivamente .................................... 23
Figura 25 - a) Imagem original à esquerda e b) a representação da matriz de distâncias à direita
.................................................................................................................................................. 24
Figura 26 - Maior circunferência que se pode inscrever na mão.............................................. 24
Figura 27 - MCI na mão nas configurações de a, b e g ............................................................ 25
Figura 28 - Centro de massa em vermelho e centro da MCI em azul. Configuração de letra A.
.................................................................................................................................................. 25
Figura 29 - Comparação da assinatura radial da letra A obtida utilizando-se a) o centro de massa
e b) o centro da MCI ................................................................................................................. 26
Figura 30 - Centro de massa em vermelho e centro da MCI em azul. Configuração de letra B.
.................................................................................................................................................. 26
Figura 31 - Comparação da assinatura radial da letra B obtida utilizando-se a) o centro de massa
e b) o centro da MCI ................................................................................................................. 27
Figura 32 - Localização dos picos da assinatura radial para configuração da letra V .............. 28
VII
SUMÁRIO
1 Introdução ........................................................................................................................... 1
1.1 Contexto...................................................................................................................... 1
1.1.1 Comunicação dos surdos............................................................................. 1
5 Conclusões ........................................................................................................................ 36
5.1 Contribuições e Limitações do Trabalho .................................................................. 36
6 Trabalhos Futuros ............................................................................................................. 37
7 Bibliografia ....................................................................................................................... 38
8 Apêndice A ....................................................................................................................... 40
9 Anexo A ............................................................................................................................ 45
1
1 INTRODUÇÃO
1.1 Contexto
1.1.1 Comunicação dos surdos
No Brasil há cerca de 9,7 milhões de pessoas com algum nível de deficiência auditiva.
Dentre eles, 344 mil não conseguem de modo algum ouvir (IBGE, 2010). Esta perspectiva de
divisão em níveis de deficiência auditiva não é a única que existe. De um ponto de vista cultural
e com perspectiva histórica, de acordo com Bisol e Valentini (2011),
os surdos, ou Surdos com letra maiúscula, como proposto por alguns autores, são pessoas
que não se consideram deficientes, utilizam uma língua de sinais, valorizam sua história,
arte e literatura e propõem uma pedagogia própria para a educação das crianças surdas. Os
deficientes auditivos seriam as pessoas que não se identificam com a cultura e a comunidade
surda.
detalhes podem ser analisados quando comparado com a captura de imagens em duas
dimensões pelas câmeras convencionais. Porém câmeras convencionais são populares e podem
ser encontradas facilmente em celulares e notebooks. Dentre as pesquisas que utilizam o sensor
de profundidade, podemos citar o Kinect Sign Language Translator Project e o trabalho de
mestrado de Souza (2013). A Microsoft Research começou em 2012 a colaborar com a Chinese
Academy of Sciences em um projeto que, após 18 meses de desenvolvimento, o sensor Kinect
pode reconhecer 370 das mais populares palavras na língua de sinais chinesa e americana
(PCWorld, 2013).
Um sistema que possa traduzir Libras para português pode ajudar a comunicação entre
surdos e ouvintes. O processo inverso, ou seja, a tradução de português para Libras, é mais
comum e não necessita de captura de imagens. Aplicativos para celular como o ProDeaf1 e o
Hand Talk2 realizam apenas a tradução de português para Libras. A tradução de Libras para
português complementa a tecnologia existente, uma vez que a comunicação deve ser uma via
de mão dupla entre os comunicantes.
1.2 Objetivos
O trabalho tem como objetivo o desenvolvimento de um programa capaz de reconhecer
e traduzir o alfabeto em Libras para o alfabeto português a partir da captura de imagens com o
uso de uma webcam, focando no processamento de imagens para possibilitar a extração das
características e a classificação.
Também é objetivo deste trabalho contribuir e incentivar o desenvolvimento de
ferramentas de tradução de línguas de sinais, uma vez que ainda falta desenvolvimento neste
sentido.
1
Mais informações em <http://prodeaf.net/>
2
Mais informações em <https://handtalk.me/>
3
2 REVISÃO BIBLIOGRÁFICA
Os trabalhos encontrados na literatura que empenham no mesmo objetivo de tradução
de Libras por webcam e processamento de imagens são escassos, porém são encontrados
trabalhos em reconhecimento de gestos para interfaceamento homem-máquina que contém
conceitos semelhantes.
O trabalho de Pavan (2012) realiza o reconhecimento de 4 caracteres de Libras em uma
sequência de imagens capturada por uma webcam. Após a captura, é realizada a segmentação3
da região de interesse, inicialmente com a seleção manual da região da mão dentro da imagem
e, para os frames seguintes, com o uso de um algoritmo que acompanha o deslocamento do
objeto (camshift). A região segmentada passa por um detector de bordas, processo no qual são
salientados os contornos dos objetos. A imagem resultante passa por um classificador, que
categoriza o gesto manual em uma letra.
Siola (2010) também trabalha na tradução de Libras através da captura de imagens e
visão computacional, porém não é focado no reconhecimento de gestos estáticos como a
maioria das letras do alfabeto, mas sim no reconhecimento de gestos dinâmicos onde a
movimentação e posição das mãos são de igual ou maior importância que sua configuração. A
solução por ele encontrada para facilitar a segmentação é fazer o usuário vestir luvas coloridas,
de fácil identificação na imagem. Assim, o rastreio do movimento das mãos se resume a rastrear
os pixels que possuem cor semelhante à das luvas. Além de detectar a posição das mãos na
imagem, é detectado a face e calculado a relação de distância e ângulo entre elas. A classificação
é feita a partir de uma matriz de probabilidade de transição de estado (modelo oculto de
Markov), muito usada em reconhecimento de padrões, falas, escrita e gestos.
Dentre os trabalhos de reconhecimento de gestos, Wachs, Sterne e Edan (2006)
desenvolvem um sistema de interface com o computador através de gestos manuais, afim de
substituir o mouse em ambientes médicos onde há riscos de contaminação. A imagem é obtida
através da webcam, e a mão que irá realizar os gestos deve, inicialmente, ser posicionada em
uma determinada região para se determinar a cor média da pele (ou luva) do usuário para iniciar
o rastreio da mão pelo algoritmo camshift. Um classificador tipo fuzzy C-means é utilizado em
conjunto com o uso de características tipo Haar para identificar os comandos.
O trabalho de Hui-Shyong Yeo (2015) foca no desenvolvimento de um sistema de
interface homem-computador, fazendo o uso de webcam ou do sensor de profundidade Kinect.
3
Segmentação: termo usado em processamento de imagens para o processo de dividir ou separar a região do objeto
de interesse na imagem com o intuito de facilitar sua análise.
4
Com a webcam, primeiramente é feita a detecção do rosto (algoritmo de Viola e Jonnes) e sua
exclusão da imagem, pois a semelhança de pigmentação entre rosto e mão pode dificultar a
segmentação da mão. Com o Kinect, a etapa de segmentação é feita com base na profundidade
do objeto de interesse. As características defeitos de convexidade, ângulos da curvatura k e a
máxima circunferência inscrita na mão são utilizadas para distinguir os dedos e suas direções
para assim se identificar os gestos.
5
3.2.2.1 Translação
“Pode-se efetuar a Translação de pontos no plano (x, y) adicionando-se quantidades
inteiras as suas coordenadas. Assim, cada ponto P(x, y) pode ser movido por d x unidades em
relação ao eixo x, e por dy unidades em relação ao eixo y” (TRAINA e OLIVEIRA, 2004).
Seja o ponto P
𝑥
𝑃 = [𝑦 ]
e a matriz de translação T
𝑑𝑥
𝑇 = [𝑑 ]
𝑦
A translação de um conjunto B pelo ponto z = (z1, z2), denotado por (B)z, é definido
como
(𝐵)𝑧 = {𝑐|𝑐 = 𝑏 + 𝑧, 𝑝𝑎𝑟𝑎 𝑏 ∈ 𝐵}
3.2.2.2 Reflexão
A reflexão de um conjunto B, cujos pontos são denotados por (x, y), é o conjunto 𝐵̂,
cujos pontos são denotados por (-x, -y).
A Figura 3 ilustra a reflexão de um conjunto B.
8
̂ à direita
Figura 3 - Conjunto B à esquerda e sua reflexão 𝑩
3.2.3 Erosão
Sejam A e B conjuntos em Z2. A Erosão de A por B, denotada por AƟB, é definida
como
AƟB = {z|(𝐵)𝑧 ⊆ 𝐴}
“A erosão de A por B é o conjunto de todos os pontos z tal que B, transladado por z,
está contido em A” (GONZALES e WOODS, 2014).
Como B deve estar contido em A, sem compartilhar nenhum elemento com o fundo da
imagem (elementos que não pertencem a A), então a erosão também pode ser expressa por
AƟB = {z|(𝐵)𝑧 ∩ 𝐴𝑐 = ∅}
onde 𝐴𝑐 é o conjunto complementar de A.
Na Figura 4 podemos ver o conjunto A, com dimensões d x d, o elemento estruturante
B, com dimensões d/4 x d/4, e a erosão de A por B (AƟB).
Figura 4 - Conjunto A, o elemento estruturante B e a erosão AƟB.
3.2.4 Dilatação
Sejam A e B conjuntos em Z2. A dilatação de A por B, denotada por A⊕B, é definida
como
A ⊕ B = {z|(𝐵̂)𝑧 ∩ 𝐴 ≠ ∅}
3.2.5 Fechamento
Chama-se fechamento a operação morfológica de dilatação seguida de erosão. O
fechamento de uma matriz A por um elemento estruturante B é representado por A • B = (A ⊕
B) ƟB.
A operação de fechamento preenche pequenos buracos e conecta componentes
próximos na imagem.
mais prováveis de serem centro de uma circunferência de raio r, com a e b sendo as coordenadas
do centro.
𝑥 = 𝑎 + 𝑅 cos(𝜃)
{
𝑦 = 𝑏 + 𝑅 sen(𝜃)
Cada pixel da borda na imagem original gera uma circunferência na matriz
acumuladora. Os pixels das circunferências são somados e o local de maior interseção será o
local de maior valor, o que indica o centro de uma circunferência, como ilustrado na Figura 7.
Figura 7 - Cada ponto no espaço geométrico (esquerda) gera um círculo no espaço dos parâmetros (direita). Os
círculos no espaço dos parâmetros interceptam em (a, b) que é o centro no espaço geométrico.
Quando não se tem um valor de raio fixo, mas um intervalo, a matriz acumuladora passa
a ser uma matriz de 3 dimensões, aumentando o processamento requerido na execução do
algoritmo.
A detecção de círculos será usada neste trabalho para detectar as pontas dos dedos
quando apontados para baixo.
12
4 METODOLOGIA
A partir da leitura de trabalhos com propósitos similares é possível perceber algumas
semelhanças entre as etapas do desenvolvimento, porém usando técnicas diversas de
processamento em cada etapa.
Uma etapa em comum é a segmentação da imagem relativa à mão que realizará os sinais.
Neste trabalho será utilizado a segmentação por cor, assumindo que o objeto de análise (mão)
estará na região central da imagem capturada, dispensando a seleção manual.
Outra etapa importante é a extração de informações que caracterizam a imagem
segmentada. Essas informações são utilizadas de modo que um classificador possa identificar
a qual classe uma dada imagem pertence. Para este trabalho, serão avaliados o uso da distância
entre o contorno da mão e o centro da máxima circunferência inscrita na palma da mão e a
transformada de Hough circular para a detecção das pontas de dedos, cujas posições e
quantidade serão usadas como características da configuração da mão.
Por fim, a etapa final é a classificação das imagens com base nas características
extraídas.
O presente trabalho será dividido entre as 3 etapas definidas: segmentação, extração de
características e classificação.
4.1 Segmentação da região de interesse
A segmentação da região de interesse é o processo de separar da imagem original apenas
a região ocupada pelos objetos que serão analisados. Neste trabalho, o objeto a ser analisado é
a mão que realiza os gestos. A sequência de passos nesta etapa é mostrada na Figura 8.
O primeiro passo nesta etapa é o processo da seleção dos pixels de cores próximas à cor
da pele. As cores serão representadas no espaço CIELAB, e as informações de cores
consideradas para o cálculo da média de cores serão o eixo a (vermelho-verde) e b (amarelo-
azul), descartando-se o eixo L (luminosidade) para atenuar os efeitos que a iluminação e
sombras podem causar. Será assumido que a mão, principal objeto de estudo, estará localizada
na região central da imagem capturada. Serão extraídas duas médias de cores: uma formada
pela média dos valores de a e pela média de valores de b dos pixels da região central, que
doravante será denominado média de cores da mão; e outra formada pela média dos valores de
a e pela média de valores de b dos pixels da região periférica, doravante denominada média de
cores do fundo. A Figura 9 ilustra a extração destas duas médias, e os respectivos valores na
escala CIELAB.
13
Com o pulso delimitado, a imagem é cortada de modo a manter somente a área dos
pixels pertencentes à mão, como mostrado na Figura 13. Caso haja dedos estendidos para baixo
do pulso (o método de detecção destes dedos será explicado adiante), o corte deverá ser
realizado abaixo destes dedos.
Figura 13 - Imagem recortada
4.3 Classificação
A classificação dos gestos levará em consideração as seguintes características para fazer
a identificação dos gestos:
• Contagem do número de dedos estendidos para cima
• Contagem do número de dedos apontados para baixo
• Distância das pontas dos dedos detectados ao centro da MCI
• Posição das pontas dos dedos em relação ao centro da MCI
• Posição das pontas dos dedos em relação a outra ponta de dedo
• Presença ou não de buraco na imagem segmentada
• Tamanho do raio da MCI
• Proximidade entre dedo e palma
19
Com bases nestas características, o classificador seguirá uma série de regras elaboradas
para identificar cada uma das letras.
20
RESULTADOS
A plataforma escolhida para implementar o programa foi o software Matlab da
Mathworks, devido a vasta gama de funções disponíveis em processamento de imagens.
Os dispositivos de captura de imagem utilizados foram a câmera integrada do notebook
Dell 7559 e a webcam Microsoft HD-3000.
Para ilustrar, as aplicações das máscaras da Figura 18-b e Figura 18-c na imagem da
Figura 18-a resultam nas imagens da Figura 19.
Figura 19 - Regiões para extração da média de cores da mão (esquerda) e fundo (direita)
As regiões que não estão em preto tiveram as médias das componentes a e b computadas,
conforme mostrado na Figura 20.
Figura 20 - Média de cores da mão e do fundo
Com as médias calculadas, os pixels da imagem são classificados de acordo com a cor
mais próxima. Na Figura 21 é possível observar os pixels com cores mais próximas à média de
cores da mão, em preto, e os pixels com cores mais próximas à média de cores do fundo, em
branco.
Figura 21 - Classificação dos pixels
Como se pode notar na figura Figura 21, há mais de um objeto presente. Cada objeto
pode ser denominado um blob (Binary Large Object), termo usado para se referir a um conjunto
de pixels conectados. Para excluir os blobs que não fazem parte da mão (parte do rosto, objetos
no fundo de cor semelhante à pele e outros ruídos), selecionou-se o blob de maior área e
descartou-se todos os outros pixels. A imagem resultante é mostrada na Figura 22.
área de uma secção for maior que a anterior em 5% ou mais (valor obtido empiricamente), será
considerado a junção do pulso.
As figuras seguintes ilustram onde o pulso foi detectado com uma linha azul.
Figura 24 - Detecção do pulso para a letra A, L e B, respectivamente
a) b)
Fonte: figura elaborada pelo autor
A MCI obtida para outras configurações de mão pode ser visualizada na Figura 27.
25
Figura 31 - Comparação da assinatura radial da letra B obtida utilizando-se a) o centro de massa e b) o centro da
MCI
Nota-se que os outros 5 pontos de menor valor são saliências encontradas na curvatura
da mão. A distância entre a ponta do dedo e o centro da MCI para se determinar se um dedo
está esticado ou não foi determinado para cada letra utilizando-se unidades de raio da MCI.
Figura 33 - Configuração da letra V e os picos detectados
O valor do raio para realizar a busca de formas circulares com tamanho compatível com
as pontas de dedos foi determinado empiricamente e é dado em fração do raio da MCI.
Nota-se que foram detectados dois círculos para o dedo anelar da Figura 36. Para este
problema não afetar na contagem de dedos apontados para baixo, foi feito uma função para se
verificar quantos corpos circulares foram detectados de fato, descartando-se círculos com
centros muito próximos de outro círculo.
4.8 Classificação
A classificação é feita com base em informações como quantidade e posição das pontas
dos dedos detectadas. Também são analisadas as distâncias entre as pontas dos dedos e o centro
da MCI. As características de cada letra foram organizadas na Tabela 1 no Apêndice.
Embora estas características consigam separar as letras em grupos menores de letras
semelhantes, em alguns casos é preciso extrair mais informações para poder classificá-las.
As letras J e A, mostradas na Figura 37, são caracterizadas por possuírem apenas uma ponta
de dedo estendido detectada, localizada acima e à direita da MCI. Utilizando-se apenas destas
informações não é possível identificar as letras em questão. Para este caso, foi escrita uma
função para identificar se o dedo estendido está só (dedo mindinho da letra J) ou se está junto
aos outros dedos (polegar, na configuração da letra A).
A função cria o espaço de uma circunferência em torno da ponta de dedo detectada, e cada
ponto desta circunferência terá valor 1 caso faça parte da região da mão e 0, caso contrário. A
31
Contando-se o número de pixels cujo valor é 1, pode-se saber se o dedo está esticado
sozinho ou se está junto a outros dedos.
Figura 38 - Círculo binário das letras J (esquerda) e A (direita)
Outro caso que merece atenção é a classificação das letras D e R. A configuração da letra
R requer dois dedos estendidos, porém como se sobrepõem, muitas vezes é detectado apenas
um dos dedos, assim como a letra D. As posições dos dedos detectados em ambos os casos são
semelhantes, como mostra a Figura 39.
Para contornar este caso foi escrita uma função que realiza a análise da espessura horizontal
da região de cor branca logo abaixo do dedo. Em uma pequena região abaixo da ponta de dedo
detectada são registradas a maior e menor espessura que ocorre neste intervalo, ilustrada em
32
azul e vermelho na Figura 40. A proporção entre a linha azul e a linha vermelha sugere que
existe um estreitamento na região da linha vermelha, indicando a sobreposição dos dedos
indicador e do meio, que configuram a letra R.
Figura 39 - Semelhanças das configurações das letras D (esquerda) e R (direita).
4.8.1 Estatísticas
Foram realizadas três baterias de testes com as configurações da mão retiradas de vídeos
disponíveis na internet.
Para cada vídeo, foram capturadas a tela no momento em que o usuário realizava a
configuração. Realizou-se também a centralização da mão através de edição. Letras feitas com
configuração ou perspectiva diferente do qual o classificador é baseado não foram levadas em
consideração.
No primeiro teste, com o vídeo de SurdosOnline, foram testadas 19 letras. Dentre elas,
15 foram reconhecidas corretamente, 2 foram reconhecidas erradas e 2 não foram identificadas.
No segundo vídeo, disponibilizado pelo canal do youtube br dk, foram levadas em
consideração 14 letras, das quais 8 foram conhecidas corretamente, 4 foram reconhecidas
erradas e 2 não foram identificadas.
No terceiro vídeo, com o vídeo retirado do canal do youtube de Wilson Otoni (2013),
foram testadas 19 letras. Dentre elas, 13 foram reconhecidas corretamente, 6 foram
reconhecidas erradas e uma letra não foi classificada.
No total, houveram 52 letras testadas, das quais 36 (69%) foram reconhecidas
corretamente, 6 (21%) foram reconhecidas como outra letra e 5 (10%) não foram identificadas
como letra alguma.
Dentre os casos que a identificação não foi efetiva, pode-se notar que a segmentação
não ocorreu de modo perfeito. A imagem retirada do vídeo é mostrada na Figura 43.
Figura 43 Imagem de teste para a configuração da letra U
originariamente U, que possui 2 dedos levantados, como sendo a letra W, que se identifica por
ter 3 dedos estendidos para cima.
Figura 44 Imperfeição na segmentação faz a letra U ser identificada incorretamente
5 CONCLUSÕES
5.1 Contribuições e Limitações do Trabalho
Foram propostos meios para a resolver cada uma das etapas definidas na metodologia
(segmentação, caracterização e classificação). Assim, a validação do método pode ser avaliada
individualmente para cada etapa.
A segmentação com base na média de cores apresentou bons resultados sob iluminação
adequada e ambiente controlado. Uma limitação ocorre quando não é possível atender a estas
condições, onde o fundo da imagem é composto por diversas cores. O algoritmo para a
localização do pulso se mostrou eficaz, realizando o corte para todas as imagens testadas.
Na etapa de caracterização, a adoção do centro da MCI como referência para a assinatura
radial apresentou vantagens em relação ao uso do centro de massa tradicionalmente usado,
explicitando os pontos em que os dedos estão estendidos. O uso da assinatura radial e detecção
de picos para a detecção das extremidades dos dedos estendidos para cima foi capaz de detectar
as pontas de dedos exceto quando houve imperfeições na segmentação. As extremidades dos
dedos apontados para baixo, que são detectados com o uso da transformada de Hough, também
foram detectados, porém são dependentes da detecção de bordas com o método de canny. Por
isso, um bom ajuste de parâmetros é desejado.
O uso de características como número de dedos estendidos, posição das extremidades
dos dedos em relação ao centro da MCI e relações de distância foram capazes de caracterizar
as letras do alfabeto. Em alguns casos, características peculiares precisam ser extraídas. Para a
classificação, a maior limitação é o próprio classificador cuja natureza é crisp4. Adicionalmente,
os dados utilizados para estruturar o classificador são baseados em poucas amostras para cada
letra. Um classificador que consegue lidar com a variabilidade dos gestos requer um número
muito grande de amostras. Devido a limitação no número de amostras, algumas variações dos
gestos decorrente do regionalismo para representar uma letra não foram inclusas.
O método, de modo geral, se mostrou funcional, caracterizando corretamente 69% das
letras testadas, realizadas por pessoas distintas. Além disso, a aplicação das técnicas
apresentadas não se limita ao reconhecimento do alfabeto Libras, mas pode se estender para o
reconhecimento dos sinais em Libras, pois estas também fazem uso de gestos cujas
configurações da mão se assemelham às configurações assumidas no alfabeto.
4
Em oposição aos classificadores fuzzy, os classificadores crisp (ou tradicionais) assumem que
as classes são mutuamente exclusivas
37
6 TRABALHOS FUTUROS
Como possíveis trabalhos futuros, pode-se sugerir:
• Expansão do número de amostras de imagens para contemplar maior variabilidade
dos gestos
• Utilização de aprendizado de máquina para o treinamento de um classificador
• Utilização de processamento paralelo em placa de vídeo (tecnologia CUDA ou
openCL) em tempo real
• Implementação do processamento em nuvem, possibilitando a captura da imagem
com dispositivo móvel e o processamento externo
38
7 BIBLIOGRAFIA
AMANPREET KAUR, B. V. K. Comparison between YCbCr Color Space and CIELab Color
Space for Skin Color Segmentation. International Journal of Applied Information Systems,
New York, July 2012. 30-33.
BRASIL. Lei nº 10.436, de 24 de Abril de 2002. Dispõe sobre a Língua Brasileira de Sinais
- Libras e dá outras providëncias, Brasília, DF, 24 Abril 2002.
GONZALES, R. C.; WOODS, R. E. Digital Image Processing. 3. ed. [S.l.]: Pearson, 2014.
HUI-SHYONG YEO, B.-G. L. H. L. Hand tracking and gesture recognition system for human-
computer interaction using low-cost hardware. Multimed Tools Appl, p. 2687-2715, 2015.
MICROSOFT. Kinect Sign Language Translator. Site da Microsoft, 2013. Disponivel em:
<https://www.microsoft.com/en-us/research/blog/kinect-sign-language-translator-part-1/>.
Acesso em: 15 Dezembro 2017.
PCWORLD. Microsoft uses Kinect to interpret sign language from deaf people. PCWorld,
2013. Disponivel em: <http://www.pcworld.com/article/2059880/microsoft-uses-kinect-to-
interpret-sign-language-from-deaf-people.html>. Acesso em: 05 maio 2017.
WACHS, J.; STERNE, H.; EDAN, Y. A Real-Time Hand Gesture onary System Based on
Evolutionary Search. Vision, v. 22, n. 3, Third Quarter 2006.
40
8 APÊNDICE A
As características para a classificação de cada letra são mostradas na tabela abaixo.
Tabela 1 - Tabela de características para classificação das letras
Letra A
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 0 ou 1
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente perto
da circunferência
À direita na imagem
Outros O dedo estendido (polegar) deve estar
junto aos outros dedos
Letra B
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 4
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 2 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 3 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 4 Região acima da MCI, relativamente
distante da circunferência
Letra C
Tamanho do raio da MCI Menor que 32% da altura da imagem e
menor que 24% da largura da imagem
Letra D
Quantidades de dedos detectados para 0
baixo
Quantidades de dedos detectados para cima 1
Posição da ponta do dedo 1 Região acima da MCI, à direita do centro da
MCI
Letra E
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 0
cima/lado
Altura da região da silhueta da mão Maior que 2,7 vezes o raio da MCI
Letra F
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 3
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
41
9 ANEXO A
O alfabeto em libras é mostrado na Figura 45.
Figura 45 - Alfabeto em Libras.