Você está na página 1de 54

I

UNIVERSIDADE FEDERAL DE SÃO CARLOS


CENTRO DE CIÊNCIAS EXATAS E TECNOLOGIA
Departamento de Engenharia de Elétrica

Reconhecimento do alfabeto em Libras (Língua Brasileira de


Sinais) através do Processamento de Imagens

Helder Eiki Oshiro

SÃO CARLOS
2017
II

UNIVERSIDADE FEDERAL DE SÃO CARLOS


CENTRO DE CIÊNCIAS EXATAS E TECNOLOGIA
Departamento de Engenharia de Elétrica

Reconhecimento do alfabeto em Libras (Língua Brasileira de Sinais)


através do Processamento de Imagens

Helder Eiki Oshiro

Trabalho de Conclusão de Curso


apresentado ao curso de Engenharia
Elétrica do Centro de Ciências
Exatas e Tecnologia da Universidade
Federal de São Carlos, como parte
dos requisitos para obtenção do título
de Bacharel em Engenharia Elétrica.

Orientação: Prof. Dr. Robson


Barcellos

SÃO CARLOS
2017
III

FOLHA DE APROVAÇÃO

HELDER EIKI OSHIRO

RECONHECIMENTO DO ALFABETO EM LIBRAS (LÍNGUA BRASILEIRA DE


SINAIS) ATRAVÉS DO PROCESSAMENTO DE IMAGENS

Monografia apresentada ao Curso de Graduação


em Engenharia Elétrica, para obtenção do título
de bacharel em Engenharia Elétrica.
Universidade Federal de São Carlos. São Carlos,
22 de Novembro de 2017.

Orientador(a)

______________________________________
Dr. Robson Barcellos
Departamento de Engenharia Elétrica - UFSCar

Examinador

______________________________________
Dr. Celso Aparecido de França
Departamento de Engenharia Elétrica - UFSCar

Examinadora

________________________________________
Ma. Mariana de Lima Isaac Leandro Campos
Departamento de Psicologia - UFSCar
IV

RESUMO

Atualmente existem disponíveis softwares que realizam a tradução de português para


Libras. O sentido inverso, isto é, de Libras para português, ainda necessita de desenvolvimento,
e a maior parte dos projetos neste sentido utilizam o sensor de profundidade Kinect.
Este trabalho tem como objetivo o desenvolvimento de um programa capaz de
reconhecer e traduzir o alfabeto em Libras para o alfabeto português a partir da captura de
imagens com o uso de uma webcam.
Serão utilizados tópicos relacionados às disciplinas de processamento de imagens e
computação, entre eles a segmentação de imagem por semelhança de cores, operações
morfológicas, detecção de bordas, assinatura radial, transformada circular de Hough e detector
de bordas canny.
Serão propostos um método para a detecção do pulso, a mudança de referência para a
extração da assinatura radial e um método para localizar as pontas dos dedos estendidos na
imagem.

Palavras-chave: Reconhecimento de Gestos. Tradução de Língua de sinais.


Segmentação de imagens. Processamento digital de imagem. Libras.
V

ABSTRACT

Software for translating Portuguese to Libras are available. The inverse, i.e., Libras to
Portuguese, still need development and most of the related projects use the depth sensor Kinect.
This work has the objective of developing a computer software capable of recognizing
and translating the Libras Alphabet into Portuguese alphabet from images captured by a
webcam device.
Topics related to subjects of image processing and computing will be used, including
color image segmentation, morphological operations, canny edge detector, radius signature and
circular Hough transform.
It is proposed a method for wrist detection, the change of reference center for the
extraction of the radius signature and a method for fingertip detection in the image.

Keywords: Gesture recognition. Sign Language Translation. Image segmentation.


Digital Image Processing. Libras.
VI

LISTA DE FIGURAS

Figura 1 - Espaço de cor CIELAB. O vetor Delta E representa a distância entre duas cores
distintas neste espaço. ................................................................................................................. 5
Figura 2 - Transformação de Translação .................................................................................... 7
Figura 3 - Conjunto B à esquerda e sua reflexão 𝑩 à direita ...................................................... 8
Figura 4 - Conjunto A, o elemento estruturante B e a erosão AƟB. .......................................... 8
Figura 5 - Novo elemento estruturante B e a erosão AƟB. ........................................................ 9
Figura 6 - Dilatação de A por B utilizando-se diferentes elementos estruturantes B. ................ 9
Figura 7 - Cada ponto no espaço geométrico (esquerda) gera um círculo no espaço dos
parâmetros (direita). Os círculos no espaço dos parâmetros interceptam em (a, b) que é o centro
no espaço geométrico. .............................................................................................................. 11
Figura 8 - Diagrama da etapa da segmentação ......................................................................... 13
Figura 9 - Média de cores do fundo e média de cores da mão ................................................. 13
Figura 10 - Máscara da região de interesse .............................................................................. 14
Figura 11 - Imagem após o detector de bordas. a) contorno externo e b) aplicação do detector
de canny .................................................................................................................................... 14
Figura 12 - Imagem fatiada para a detecção do pulso. As áreas das 4 primeiras fatias são
mostradas ao lado (em milhar de pixels) .................................................................................. 15
Figura 13 - Imagem recortada .................................................................................................. 15
Figura 14 - Diagrama do processo de caracterização da mão .................................................. 16
Figura 15 - Maior circunferência inscrita coincidindo com a região da palma da mão ........... 17
Figura 16 - Extração da assinatura radial da mão. a) Distância do centro da MCI à borda e b)
Assinatura radial da mão .......................................................................................................... 17
Figura 17 - Transformada de Hough circular aplicada para detecção das pontas de dedos ..... 18
Figura 18 - Regiões para extração da média das cores. a) imagem a ser processada; b) região
para o cálculo da média de cores da mão; c) região para o cálculo da média de cores do fundo
.................................................................................................................................................. 20
Figura 19 - Regiões para extração da média de cores da mão (esquerda) e fundo (direita) ..... 21
Figura 20 - Média de cores da mão e do fundo ........................................................................ 21
Figura 21 - Classificação dos pixels ......................................................................................... 21
Figura 22 - Blob de maior área, que se refere ao objeto principal da imagem ......................... 22
Figura 23 - Processo de fechamento. Imagem original à esquerda e a imagem resultante à
direita. ....................................................................................................................................... 22
Figura 24 - Detecção do pulso para a letra A, L e B, respectivamente .................................... 23
Figura 25 - a) Imagem original à esquerda e b) a representação da matriz de distâncias à direita
.................................................................................................................................................. 24
Figura 26 - Maior circunferência que se pode inscrever na mão.............................................. 24
Figura 27 - MCI na mão nas configurações de a, b e g ............................................................ 25
Figura 28 - Centro de massa em vermelho e centro da MCI em azul. Configuração de letra A.
.................................................................................................................................................. 25
Figura 29 - Comparação da assinatura radial da letra A obtida utilizando-se a) o centro de massa
e b) o centro da MCI ................................................................................................................. 26
Figura 30 - Centro de massa em vermelho e centro da MCI em azul. Configuração de letra B.
.................................................................................................................................................. 26
Figura 31 - Comparação da assinatura radial da letra B obtida utilizando-se a) o centro de massa
e b) o centro da MCI ................................................................................................................. 27
Figura 32 - Localização dos picos da assinatura radial para configuração da letra V .............. 28
VII

Figura 33 - Configuração da letra V e os picos detectados ...................................................... 28


Figura 34 - Configuração da letra F e os picos detectados ....................................................... 29
Figura 35 - Aplicação do detector de bordas canny. a) Imagem original (adaptado de
SurdosOnline) e b) Bordas detectadas ...................................................................................... 29
Figura 36 - Detecção de círculos na configuração de letra M .................................................. 30
Figura 37 - Semelhança entre as letras J (esquerda) e A (direita). ........................................... 31
Figura 38 - Círculo binário das letras J (esquerda) e A (direita) .............................................. 31
Figura 39 - Semelhanças das configurações das letras D (esquerda) e R (direita).................. 32
Figura 40 - Análise da espessura do dedo na configuração da letra R ..................................... 32
Figura 41 - Configurações das letras E (adaptado de SurdosOnline), O e S, respectivamente 33
Figura 42 - Segmentação das letras E, O e S ............................................................................ 33
Figura 43 Imagem de teste para a configuração da letra U ...................................................... 34
Figura 44 Imperfeição na segmentação faz a letra U ser identificada incorretamente ............. 35
Figura 45 - Alfabeto em Libras. ............................................................................................... 45
VIII

SUMÁRIO
1 Introdução ........................................................................................................................... 1
1.1 Contexto...................................................................................................................... 1
1.1.1 Comunicação dos surdos............................................................................. 1

1.1.2 Uso de tecnologia para auxílio aos surdos .................................................. 1

1.2 Objetivos ..................................................................................................................... 2


2 Revisão Bibliográfica ......................................................................................................... 3
3 Revisão Teórica das Técnicas Utilizadas!%Ô@#YJ .......................................................... 5
3.1 Espaço de cor .............................................................................................................. 5
3.1.1 CIELAB ...................................................................................................... 5

3.2 Operações morfológicas ............................................................................................. 5


3.2.1 Teoria de Conjuntos .................................................................................... 6

3.2.2 Transformações Geométricas 2D ................................................................ 6

3.2.3 Erosão ......................................................................................................... 8

3.2.4 Dilatação ..................................................................................................... 9

3.2.5 Fechamento ............................................................................................... 10

3.3 Detecção de bordas ................................................................................................... 10


3.3.1 Detector de borda canny ........................................................................... 10

3.4 Transformada de Hough ........................................................................................... 10


4 Metodologia ...................................................................................................................... 12
4.1 Segmentação da região de interesse ......................................................................... 12
4.1.1 Detecção do pulso e recorte do objeto ...................................................... 15

4.2 Caracterização do objeto .......................................................................................... 16


4.2.1 Detecção da palma da mão ....................................................................... 16

4.2.2 Detecção das pontas dos dedos ................................................................. 17

4.3 Classificação ............................................................................................................. 18


Resultados................................................................................................................................. 20
4.4 Segmentação da região de interesse ......................................................................... 20
4.5 Segmentação por cor ................................................................................................ 20
4.5.1 Operações morfológicas............................................................................ 22

4.5.2 Detecção do pulso ..................................................................................... 22


IX

4.6 Detecção da palma da mão ....................................................................................... 23


4.6.1 Comparação entre centro da máxima circunferência inscrita e centro de massa
25

4.7 Detecção das pontas dos dedos estendidos ............................................................... 27


4.7.1 Dedos estendidos para cima ...................................................................... 27

4.7.2 Dedos abaixados ....................................................................................... 29

4.8 Classificação ............................................................................................................. 30


4.8.1 Estatísticas................................................................................................. 34

5 Conclusões ........................................................................................................................ 36
5.1 Contribuições e Limitações do Trabalho .................................................................. 36
6 Trabalhos Futuros ............................................................................................................. 37
7 Bibliografia ....................................................................................................................... 38
8 Apêndice A ....................................................................................................................... 40
9 Anexo A ............................................................................................................................ 45
1

1 INTRODUÇÃO
1.1 Contexto
1.1.1 Comunicação dos surdos
No Brasil há cerca de 9,7 milhões de pessoas com algum nível de deficiência auditiva.
Dentre eles, 344 mil não conseguem de modo algum ouvir (IBGE, 2010). Esta perspectiva de
divisão em níveis de deficiência auditiva não é a única que existe. De um ponto de vista cultural
e com perspectiva histórica, de acordo com Bisol e Valentini (2011),

os surdos, ou Surdos com letra maiúscula, como proposto por alguns autores, são pessoas
que não se consideram deficientes, utilizam uma língua de sinais, valorizam sua história,
arte e literatura e propõem uma pedagogia própria para a educação das crianças surdas. Os
deficientes auditivos seriam as pessoas que não se identificam com a cultura e a comunidade
surda.

Para realizar a comunicação, os deficientes auditivos podem fazer uso de aparelhos


auditivos, leitura labial, oralismo ou a Libras (Língua Brasileira de Sinais) (OLIVEIRA, 2011).
A Libras é a lingua mais usada pelos surdos dos centros urbanos brasileiros e, ao
contrário do que se acreditava, as Línguas de Sinais não constituem mímica, mas são línguas
com estruturas gramaticais próprias, assim como outras línguas (LÉLIS, 2016). Em 2002 foi
reconhecida como meio legal de comunicação e expressão no Brasil (2002).
Segundo Guarinello, et al (2009), grande parte dos surdos não dominam a língua
portuguesa em sua forma escrita. Por serem, muitas vezes, considerados iletrados funcionais,
podem ter dificuldades na inserção no mercado de trabalho.

1.1.2 Uso de tecnologia para auxílio aos surdos


Em tempos modernos, o fácil acesso a computadores e outros recursos facilita o
desenvolvimento de tecnologias sociais por grupos menores, atingindo um público muitas vezes
deixado de lado pelas grandes indústrias.
A visão computacional e processamento de imagens são áreas amplamente utilizadas
em aplicações industriais, médicas, militares e, mais recentemente, automobilísticas em carros
autônomos.
As aplicações da visão computacional para a tradução de Línguas de Sinais ainda são
escassas. As pesquisas que tiveram melhores resultados utilizam o sensor 3D Kinect, da
Microsoft. Por se tratar de um sensor que faz a captura da imagem em três dimensões, maiores
2

detalhes podem ser analisados quando comparado com a captura de imagens em duas
dimensões pelas câmeras convencionais. Porém câmeras convencionais são populares e podem
ser encontradas facilmente em celulares e notebooks. Dentre as pesquisas que utilizam o sensor
de profundidade, podemos citar o Kinect Sign Language Translator Project e o trabalho de
mestrado de Souza (2013). A Microsoft Research começou em 2012 a colaborar com a Chinese
Academy of Sciences em um projeto que, após 18 meses de desenvolvimento, o sensor Kinect
pode reconhecer 370 das mais populares palavras na língua de sinais chinesa e americana
(PCWorld, 2013).
Um sistema que possa traduzir Libras para português pode ajudar a comunicação entre
surdos e ouvintes. O processo inverso, ou seja, a tradução de português para Libras, é mais
comum e não necessita de captura de imagens. Aplicativos para celular como o ProDeaf1 e o
Hand Talk2 realizam apenas a tradução de português para Libras. A tradução de Libras para
português complementa a tecnologia existente, uma vez que a comunicação deve ser uma via
de mão dupla entre os comunicantes.

1.2 Objetivos
O trabalho tem como objetivo o desenvolvimento de um programa capaz de reconhecer
e traduzir o alfabeto em Libras para o alfabeto português a partir da captura de imagens com o
uso de uma webcam, focando no processamento de imagens para possibilitar a extração das
características e a classificação.
Também é objetivo deste trabalho contribuir e incentivar o desenvolvimento de
ferramentas de tradução de línguas de sinais, uma vez que ainda falta desenvolvimento neste
sentido.

1
Mais informações em <http://prodeaf.net/>
2
Mais informações em <https://handtalk.me/>
3

2 REVISÃO BIBLIOGRÁFICA
Os trabalhos encontrados na literatura que empenham no mesmo objetivo de tradução
de Libras por webcam e processamento de imagens são escassos, porém são encontrados
trabalhos em reconhecimento de gestos para interfaceamento homem-máquina que contém
conceitos semelhantes.
O trabalho de Pavan (2012) realiza o reconhecimento de 4 caracteres de Libras em uma
sequência de imagens capturada por uma webcam. Após a captura, é realizada a segmentação3
da região de interesse, inicialmente com a seleção manual da região da mão dentro da imagem
e, para os frames seguintes, com o uso de um algoritmo que acompanha o deslocamento do
objeto (camshift). A região segmentada passa por um detector de bordas, processo no qual são
salientados os contornos dos objetos. A imagem resultante passa por um classificador, que
categoriza o gesto manual em uma letra.
Siola (2010) também trabalha na tradução de Libras através da captura de imagens e
visão computacional, porém não é focado no reconhecimento de gestos estáticos como a
maioria das letras do alfabeto, mas sim no reconhecimento de gestos dinâmicos onde a
movimentação e posição das mãos são de igual ou maior importância que sua configuração. A
solução por ele encontrada para facilitar a segmentação é fazer o usuário vestir luvas coloridas,
de fácil identificação na imagem. Assim, o rastreio do movimento das mãos se resume a rastrear
os pixels que possuem cor semelhante à das luvas. Além de detectar a posição das mãos na
imagem, é detectado a face e calculado a relação de distância e ângulo entre elas. A classificação
é feita a partir de uma matriz de probabilidade de transição de estado (modelo oculto de
Markov), muito usada em reconhecimento de padrões, falas, escrita e gestos.
Dentre os trabalhos de reconhecimento de gestos, Wachs, Sterne e Edan (2006)
desenvolvem um sistema de interface com o computador através de gestos manuais, afim de
substituir o mouse em ambientes médicos onde há riscos de contaminação. A imagem é obtida
através da webcam, e a mão que irá realizar os gestos deve, inicialmente, ser posicionada em
uma determinada região para se determinar a cor média da pele (ou luva) do usuário para iniciar
o rastreio da mão pelo algoritmo camshift. Um classificador tipo fuzzy C-means é utilizado em
conjunto com o uso de características tipo Haar para identificar os comandos.
O trabalho de Hui-Shyong Yeo (2015) foca no desenvolvimento de um sistema de
interface homem-computador, fazendo o uso de webcam ou do sensor de profundidade Kinect.

3
Segmentação: termo usado em processamento de imagens para o processo de dividir ou separar a região do objeto
de interesse na imagem com o intuito de facilitar sua análise.
4

Com a webcam, primeiramente é feita a detecção do rosto (algoritmo de Viola e Jonnes) e sua
exclusão da imagem, pois a semelhança de pigmentação entre rosto e mão pode dificultar a
segmentação da mão. Com o Kinect, a etapa de segmentação é feita com base na profundidade
do objeto de interesse. As características defeitos de convexidade, ângulos da curvatura k e a
máxima circunferência inscrita na mão são utilizadas para distinguir os dedos e suas direções
para assim se identificar os gestos.
5

3 REVISÃO TEÓRICA DAS TÉCNICAS UTILIZADAS!%Ô@#YJ


3.1 Espaço de cor
Um espaço de cor é um modelo usado para especificar cores. Funciona como um sistema
de coordenadas, onde cada ponto representa uma cor. Os modelos mais comuns são o RGB,
usados em monitores e câmeras; o CMYK, usado para impressão; e o HSI, que é o modo mais
natural para os humanos descreverem cores (GONZALES e WOODS, 2014)
3.1.1 CIELAB
Para este trabalho, foi usado o espaço de cor CIELAB, que consiste de um eixo com
informação sobre a luminosidade ‘L’, um eixo verde-vermelho ‘a’, e um eixo azul-amarelo ‘b’.
A extremidade verde é representada por ‘-a’, e a vermelha, por ‘a’. A extremidade azul é
representada por ‘-b’ e a amarela por ‘b’. No centro dos eixos ‘a’ e ‘b’ as cores são neutras,
como mostra a Figura 1.
O CIELAB foi usado na etapa da segmentação devido a possibilidade de se amenizar o
efeito das variações de cor causadas pela iluminação desprezando-se o eixo L, fato que o torna
um dos melhores espaços de cores para segmentação de tons de pele, segundo Amanpreet (
2012).
Figura 1 - Espaço de cor CIELAB. O vetor Delta E representa a distância entre duas cores distintas neste espaço.

Fonte: Golden Artist Colors, 2016

3.2 Operações morfológicas


Segundo o dicionário Michaelis On-Line, em biologia o termo morfologia significa o
“estudo das formas e dos aspectos estruturais de seres organizados”.
Em processamento de imagens, a morfologia matemática é utilizada para remover
imperfeições na forma de uma imagem segmentada ou então para extrair componentes
representativos da imagem, como bordas, convex hull, componentes conectados, entre outros.
Segundo Marques Filho e Vieira Neto (1999), a base da morfologia consiste em “extrair as
informações relativas a geometria e a topologia de um conjunto desconhecido (no caso uma
6

imagem) pela transformação através de outro conjunto bem-definido, chamado elemento


estruturante”. Para isto, são utilizadas operações básicas de teoria dos conjuntos e
transformações geométricas 2D.
As operações morfológicas mais comuns em imagens digitais são a erosão e a dilatação,
que serão utilizadas neste trabalho para amenizar imperfeições na segmentação da imagem.
3.2.1 Teoria de Conjuntos
A teoria dos conjuntos contém a base para a definição das operações morfológicas.
3.2.1.1 Combinação de conjuntos
Dados dois conjuntos A e B
o União
A união entre dois conjuntos A e B resulta em um conjunto que contém elementos de A
ou B ou ambos.
Exemplo: Sejam dois conjuntos A = {1, 2, 3} e B = {3, 4, 5}. Então a união entre A e B
é dada por
𝐴 ∪ 𝐵 = {1, 2, 3, 4, 5}
o Interseção
A interseção de dois conjuntos A e B é o conjunto formado pelos elementos que
pertencem tanto a A quanto a B. Se não existirem elementos comuns entre eles, os conjuntos A
e B são ditos disjuntos.
Exemplo: Sejam dois conjuntos A = {1, 2, 3} e B – {3, 4, 5}. Então a interseção entre
A e B é dada por
𝐴 ∩ 𝐵 = {3}
o Diferença
A diferença entre dois conjuntos A e B é o conjunto formado pelos elementos que
pertencem a A mas não a B.
Exemplo: Sejam dois conjuntos A = {1, 2, 3} e B – {3, 4, 5}. Então a diferença entre A
e B é dada por
𝐴 − 𝐵 = {1, 2}
e a diferença entre B e A é dada por
𝐵 − 𝐴 = {4, 5}
3.2.2 Transformações Geométricas 2D
Transformações geométricas são usadas para inúmeras aplicações gráficas como por
exemplo na rotação ou redimensionamento de um símbolo no desenho de um circuito elétrico
ou no reposicionamento de objetos em um software de simulação 3D. Serão utilizadas nas
operações morfológicas de erosão e dilatação.
7

3.2.2.1 Translação
“Pode-se efetuar a Translação de pontos no plano (x, y) adicionando-se quantidades
inteiras as suas coordenadas. Assim, cada ponto P(x, y) pode ser movido por d x unidades em
relação ao eixo x, e por dy unidades em relação ao eixo y” (TRAINA e OLIVEIRA, 2004).
Seja o ponto P
𝑥
𝑃 = [𝑦 ]

e a matriz de translação T
𝑑𝑥
𝑇 = [𝑑 ]
𝑦

Então o ponto transladado P por T é dado por


𝑥 + 𝑑𝑥
𝑃′ = [ 𝑦 + 𝑑 ]
𝑦

Graficamente, a translação de um objeto se traduz como o deslocamento deste objeto no


espaço do plano, como mostrado na Figura 2.
Figura 2 - Transformação de Translação

Fonte: (TRAINA e OLIVEIRA, 2004)

A translação de um conjunto B pelo ponto z = (z1, z2), denotado por (B)z, é definido
como
(𝐵)𝑧 = {𝑐|𝑐 = 𝑏 + 𝑧, 𝑝𝑎𝑟𝑎 𝑏 ∈ 𝐵}
3.2.2.2 Reflexão
A reflexão de um conjunto B, cujos pontos são denotados por (x, y), é o conjunto 𝐵̂,
cujos pontos são denotados por (-x, -y).
A Figura 3 ilustra a reflexão de um conjunto B.
8

̂ à direita
Figura 3 - Conjunto B à esquerda e sua reflexão 𝑩

Fonte: (GONZALES e WOODS, 2014)

3.2.3 Erosão
Sejam A e B conjuntos em Z2. A Erosão de A por B, denotada por AƟB, é definida
como
AƟB = {z|(𝐵)𝑧 ⊆ 𝐴}
“A erosão de A por B é o conjunto de todos os pontos z tal que B, transladado por z,
está contido em A” (GONZALES e WOODS, 2014).
Como B deve estar contido em A, sem compartilhar nenhum elemento com o fundo da
imagem (elementos que não pertencem a A), então a erosão também pode ser expressa por
AƟB = {z|(𝐵)𝑧 ∩ 𝐴𝑐 = ∅}
onde 𝐴𝑐 é o conjunto complementar de A.
Na Figura 4 podemos ver o conjunto A, com dimensões d x d, o elemento estruturante
B, com dimensões d/4 x d/4, e a erosão de A por B (AƟB).
Figura 4 - Conjunto A, o elemento estruturante B e a erosão AƟB.

Fonte: (GONZALES e WOODS, 2014)

Com o mesmo conjunto A inicial, mas mudando o elemento estruturante B para


dimensões d/4 x d, podemos ver o seguinte resultado da erosão de A por B.
9

Figura 5 - Novo elemento estruturante B e a erosão AƟB.

Fonte: (GONZALES e WOODS, 2014)

3.2.4 Dilatação
Sejam A e B conjuntos em Z2. A dilatação de A por B, denotada por A⊕B, é definida
como
A ⊕ B = {z|(𝐵̂)𝑧 ∩ 𝐴 ≠ ∅}

“A dilatação de A por B é o conjunto de pontos de todos os deslocamentos z tal que 𝐵̂


e A se sobrepõe em pelo menos um elemento” (GONZALES e WOODS, 2014).
A operação de dilatação de um conjunto e o efeito causado por diferentes elementos
estruturantes são mostrados na Figura 6.
Figura 6 - Dilatação de A por B utilizando-se diferentes elementos estruturantes B.

Fonte: (MARQUES FILHO e VIEIRA NETO, 1999)


10

3.2.5 Fechamento
Chama-se fechamento a operação morfológica de dilatação seguida de erosão. O
fechamento de uma matriz A por um elemento estruturante B é representado por A • B = (A ⊕
B) ƟB.
A operação de fechamento preenche pequenos buracos e conecta componentes
próximos na imagem.

3.3 Detecção de bordas


Os pixels das bordas são pixels cuja intensidade mudam abruptamente em relação aos
seus vizinhos na imagem.

3.3.1 Detector de borda canny


A técnica canny para detecção de bordas se baseia em três objetivos básicos:
1) Todos os pixels da borda devem ser encontrados, e o número de falso-positivos deve
ser mínimo
2) A localização dos pontos da borda devem ser o mais próximo possível do centro da
borda real
3) O detector deve retornar apenas um ponto para cada ponto da borda verdadeira
Canny expressou matematicamente os três critérios acima formulando um método para
detecção da borda. De acordo com (GONZALES e WOODS, 2014), o algoritmo desenvolvido
se resume aos seguintes passos:
1) Suavizar a imagem com o filtro Gaussiano
2) Computar as imagens do gradiente de magnitude e direção (ângulo)
3) Aplicar supressão não máxima na imagem do gradiente de magnitude
4) Usar limiar duplo e análise de conectividade para detectar e unir as bordas

3.4 Transformada de Hough


A transformada de Hough circular é um método para a detecção de círculos em imagens.
Para usá-la, é importante que a imagem tenha passado por um processo de detecção de bordas
como a técnica canny explicada anteriormente.
Dado os parâmetros de raio e resolução da matriz de acumulação, o algoritmo pesquisa,
por meio da definição matemática de círculo dada pelo sistema de equação abaixo, os pontos
11

mais prováveis de serem centro de uma circunferência de raio r, com a e b sendo as coordenadas
do centro.
𝑥 = 𝑎 + 𝑅 cos(𝜃)
{
𝑦 = 𝑏 + 𝑅 sen(𝜃)
Cada pixel da borda na imagem original gera uma circunferência na matriz
acumuladora. Os pixels das circunferências são somados e o local de maior interseção será o
local de maior valor, o que indica o centro de uma circunferência, como ilustrado na Figura 7.

Figura 7 - Cada ponto no espaço geométrico (esquerda) gera um círculo no espaço dos parâmetros (direita). Os
círculos no espaço dos parâmetros interceptam em (a, b) que é o centro no espaço geométrico.

Fonte: (HARVEY e CHESTER, 2005)

Quando não se tem um valor de raio fixo, mas um intervalo, a matriz acumuladora passa
a ser uma matriz de 3 dimensões, aumentando o processamento requerido na execução do
algoritmo.
A detecção de círculos será usada neste trabalho para detectar as pontas dos dedos
quando apontados para baixo.
12

4 METODOLOGIA
A partir da leitura de trabalhos com propósitos similares é possível perceber algumas
semelhanças entre as etapas do desenvolvimento, porém usando técnicas diversas de
processamento em cada etapa.
Uma etapa em comum é a segmentação da imagem relativa à mão que realizará os sinais.
Neste trabalho será utilizado a segmentação por cor, assumindo que o objeto de análise (mão)
estará na região central da imagem capturada, dispensando a seleção manual.
Outra etapa importante é a extração de informações que caracterizam a imagem
segmentada. Essas informações são utilizadas de modo que um classificador possa identificar
a qual classe uma dada imagem pertence. Para este trabalho, serão avaliados o uso da distância
entre o contorno da mão e o centro da máxima circunferência inscrita na palma da mão e a
transformada de Hough circular para a detecção das pontas de dedos, cujas posições e
quantidade serão usadas como características da configuração da mão.
Por fim, a etapa final é a classificação das imagens com base nas características
extraídas.
O presente trabalho será dividido entre as 3 etapas definidas: segmentação, extração de
características e classificação.
4.1 Segmentação da região de interesse
A segmentação da região de interesse é o processo de separar da imagem original apenas
a região ocupada pelos objetos que serão analisados. Neste trabalho, o objeto a ser analisado é
a mão que realiza os gestos. A sequência de passos nesta etapa é mostrada na Figura 8.
O primeiro passo nesta etapa é o processo da seleção dos pixels de cores próximas à cor
da pele. As cores serão representadas no espaço CIELAB, e as informações de cores
consideradas para o cálculo da média de cores serão o eixo a (vermelho-verde) e b (amarelo-
azul), descartando-se o eixo L (luminosidade) para atenuar os efeitos que a iluminação e
sombras podem causar. Será assumido que a mão, principal objeto de estudo, estará localizada
na região central da imagem capturada. Serão extraídas duas médias de cores: uma formada
pela média dos valores de a e pela média de valores de b dos pixels da região central, que
doravante será denominado média de cores da mão; e outra formada pela média dos valores de
a e pela média de valores de b dos pixels da região periférica, doravante denominada média de
cores do fundo. A Figura 9 ilustra a extração destas duas médias, e os respectivos valores na
escala CIELAB.
13

Figura 8 - Diagrama da etapa da segmentação

Fonte: figura elaborada pelo autor

Figura 9 - Média de cores do fundo e média de cores da mão

Fonte: figura elaborada pelo autor


14

Cada pixel da imagem será classificado em 1 (pixel pertencente à mão) ou 0 (pixel


pertencente ao fundo), de acordo com a proximidade entre sua cor e a média de cores da mão
e a média de cores do fundo. Estes valores gerarão um mapa binário (ver Figura 10), de mesma
dimensão da imagem, indicando quais os pixels de interesse. Será assumido que o maior
agrupamento de pixels de valor 1 se refere à mão, e agrupamentos com áreas menores serão
considerados ruído causados por objetos de cor semelhante à da pele.
Figura 10 - Máscara da região de interesse

Fonte: figura elaborada pelo autor

Os pixels pertencentes ao fundo serão descartados, e os pixels pertencentes à mão serão


utilizados nas etapas seguintes. Em seguida a imagem é submetida a ao processo morfológico
de fechamento para corrigir imperfeições da segmentação.
Também na etapa de segmentação, as bordas da imagem deverão ser detectadas. Serão
obtidas duas imagens para representação das bordas. A primeira é um contorno simples da
região de interesse (Figura 11-a). A segunda é obtida com o uso do detector de bordas canny
(Figura 11-b).
Figura 11 - Imagem após o detector de bordas. a) contorno externo e b) aplicação do detector de canny

Fonte: figura elaborada pelo autor


15

4.1.1 Detecção do pulso e recorte do objeto


A imagem deverá ser recortada de modo que a mão ocupe o maior espaço possível da
imagem resultante. Será necessário a localização do pulso para a remoção dos pixels do
antebraço.
Analisando a Figura 12 de baixo para cima, é possível notar que há um aumento
considerável na largura do objeto de interesse onde há a junção entre pulso e mão. A imagem é
fatiada, e cada fatia tem sua área (número de pixels brancos) computada. Partindo-se da fatia
de baixo, e comparando uma fatia com a fatia imediatamente superior, a primeira junção onde
houver aumento significativo na área da fatia será considerada a localização do pulso da mão.
Figura 12 - Imagem fatiada para a detecção do pulso. As áreas das 4 primeiras fatias são mostradas ao lado (em
milhar de pixels)

Fonte: figura elaborada pelo autor

Com o pulso delimitado, a imagem é cortada de modo a manter somente a área dos
pixels pertencentes à mão, como mostrado na Figura 13. Caso haja dedos estendidos para baixo
do pulso (o método de detecção destes dedos será explicado adiante), o corte deverá ser
realizado abaixo destes dedos.
Figura 13 - Imagem recortada

Fonte: figura elaborada pelo autor


16

4.2 Caracterização do objeto


Nesta etapa, a imagem será trabalhada com o intuito de se obter características para
tornar a sua classificação possível. A sequência de passos nesta etapa é mostrada no diagrama
da Figura 14.
Figura 14 - Diagrama do processo de caracterização da mão

Fonte: figura elaborada pelo autor

4.2.1 Detecção da palma da mão


Para poder caracterizar a imagem, o primeiro passo é localizar o centro da palma da
mão. Será assumido que a palma da mão coincide com a região da maior circunferência que se
pode inscrever na mão (MCI), como na Figura 15. A detecção do centro desta circunferência é
realizada através da criação de uma matriz de distâncias, que armazena a menor distância entre
cada pixel pertencente à mão e a borda, detectada anteriormente. O elemento desta matriz que
contiver o maior valor será o centro da MCI.
17

Figura 15 - Maior circunferência inscrita coincidindo com a região da palma da mão

Fonte: figura elaborada pelo autor

4.2.2 Detecção das pontas dos dedos


A detecção das pontas dos dedos será essencial para caracterizar o gesto realizado. Serão
utilizadas duas técnicas para a detecção, uma para quando os dedos estiverem estendidos para
cima e outra em situações em que os dedos estão apontados para baixo, sobrepondo a região do
pulso.
4.2.2.1 Detecção das pontas dos dedos estendidos para cima
Encontrado o centro da maior circunferência inscrita na mão, é possível extrair a relação
de distância entre ele e os pixels da borda. A distância entre o centro obtido e um pixel da borda
é ilustrado na Figura 16-a. Fazendo-se a varredura em sentido horário, obtêm-se um sinal
denominado assinatura radial da mão, mostrado na Figura 16-b.
Figura 16 - Extração da assinatura radial da mão. a) Distância do centro da MCI à borda e b) Assinatura radial da
mão

Fonte: figura elaborada pelo autor


18

Os picos detectados na assinatura radial correspondem às pontas dos dedos estendidos,


destacados com um círculo na Figura 16-b.
4.2.2.2 Detecção das pontas dos dedos estendidos para baixo
As pontas dos dedos possuem formato aproximadamente circular. A Transformada de
Hough circular será utilizada para detectar estes formatos, utilizando como base a imagem com
as bordas detectadas pelo algoritmo canny.
A transformada de Hough é utilizada no lugar da assinatura radial para detectar dedos
apontados para baixo pois, devido ao fato das pontas dos dedos estarem sobrepondo o pulso na
imagem, estas não seriam detectadas pelo método anterior, que leva em consideração o
contorno externo da imagem para a extração da assinatura radial.
Figura 17 - Transformada de Hough circular aplicada para detecção das pontas de dedos

Fonte: figura elaborada pelo autor

4.3 Classificação
A classificação dos gestos levará em consideração as seguintes características para fazer
a identificação dos gestos:
• Contagem do número de dedos estendidos para cima
• Contagem do número de dedos apontados para baixo
• Distância das pontas dos dedos detectados ao centro da MCI
• Posição das pontas dos dedos em relação ao centro da MCI
• Posição das pontas dos dedos em relação a outra ponta de dedo
• Presença ou não de buraco na imagem segmentada
• Tamanho do raio da MCI
• Proximidade entre dedo e palma
19

Com bases nestas características, o classificador seguirá uma série de regras elaboradas
para identificar cada uma das letras.
20

RESULTADOS
A plataforma escolhida para implementar o programa foi o software Matlab da
Mathworks, devido a vasta gama de funções disponíveis em processamento de imagens.
Os dispositivos de captura de imagem utilizados foram a câmera integrada do notebook
Dell 7559 e a webcam Microsoft HD-3000.

4.4 Segmentação da região de interesse


A determinação da região útil da imagem é essencial para que se possa extrair
corretamente as características que servirão de informações para a identificação dos gestos.
Nesta etapa, será verificado o desempenho da segmentação feita com base nas cores.

4.5 Segmentação por cor


A segmentação por cor utilizará as componentes a e b do espaço CIELAB para
classificar cada pixel em pixel pertencente à mão ou pixel pertencente ao fundo de acordo com
a seus valores.
Para se estabelecer a média de cores da mão, é considerado um conjunto de pixels na
região central da imagem (Figura 18-b), assumindo que o objeto de interesse (mão) esteja
posicionado nesta região. Para a média de cores do fundo, são considerados os pixels das laterais
da imagem (Figura 18-c).
Figura 18 - Regiões para extração da média das cores. a) imagem a ser processada; b) região para o cálculo da média
de cores da mão; c) região para o cálculo da média de cores do fundo

Fonte: figura elaborada pelo autor


21

Para ilustrar, as aplicações das máscaras da Figura 18-b e Figura 18-c na imagem da
Figura 18-a resultam nas imagens da Figura 19.

Figura 19 - Regiões para extração da média de cores da mão (esquerda) e fundo (direita)

Fonte: figura elaborada pelo autor

As regiões que não estão em preto tiveram as médias das componentes a e b computadas,
conforme mostrado na Figura 20.
Figura 20 - Média de cores da mão e do fundo

Fonte: figura elaborada pelo autor

Com as médias calculadas, os pixels da imagem são classificados de acordo com a cor
mais próxima. Na Figura 21 é possível observar os pixels com cores mais próximas à média de
cores da mão, em preto, e os pixels com cores mais próximas à média de cores do fundo, em
branco.
Figura 21 - Classificação dos pixels

Fonte: figura elaborada pelo autor


22

Como se pode notar na figura Figura 21, há mais de um objeto presente. Cada objeto
pode ser denominado um blob (Binary Large Object), termo usado para se referir a um conjunto
de pixels conectados. Para excluir os blobs que não fazem parte da mão (parte do rosto, objetos
no fundo de cor semelhante à pele e outros ruídos), selecionou-se o blob de maior área e
descartou-se todos os outros pixels. A imagem resultante é mostrada na Figura 22.

Figura 22 - Blob de maior área, que se refere ao objeto principal da imagem

Fonte: figura elaborada pelo autor

4.5.1 Operações morfológicas


A imagem segmentada é submetida à operação morfológica de fechamento. Algumas
imperfeições presentes na segmentação são atenuadas como mostrado na Figura 23.
Figura 23 - Processo de fechamento. Imagem original à esquerda e a imagem resultante à direita.

Fonte: figura elaborada pelo autor

4.5.2 Detecção do pulso


A detecção do pulso é obtida através da análise do aumento de espessura que ocorre do
antebraço para a mão. A imagem é dividida em 20 fatias horizontais de altura igualmente
espaçadas, e a área de cada uma delas é calculada. Partindo-se de baixo para cima, quando a
23

área de uma secção for maior que a anterior em 5% ou mais (valor obtido empiricamente), será
considerado a junção do pulso.
As figuras seguintes ilustram onde o pulso foi detectado com uma linha azul.
Figura 24 - Detecção do pulso para a letra A, L e B, respectivamente

Fonte: figura elaborada pelo autor

4.6 Detecção da palma da mão


Será assumido que a palma da mão coincidirá com a região da maior circunferência que
se pode inscrever na mão. A palma da mão é detectada encontrando-se o pixel com maior
distância entre ele e a borda mais próxima, que será o centro de tal circunferência. Para isto, é
feito uma matriz onde cada pixel da imagem possui um correspondente contendo a distância
entre ele e a borda mais próxima.
Para reduzir o custo computacional, a imagem é redimensionada e então efetua-se o
cálculo das distâncias. Encontrado o pixel com maior valor na imagem reduzida, sua localização
é convertida para coincidir com a imagem de tamanho original.
24

Figura 25 - a) Imagem original à esquerda e b) a representação da matriz de distâncias à direita

a) b)
Fonte: figura elaborada pelo autor

A matriz de distâncias da Figura 25-a é representada visualmente na Figura 25-b.


Quanto maior o valor da distância entre o pixel e a borda mais próxima, mais claro ele está
representado. O ponto mais claro é o centro da MCI que, por sua vez, é mostrada na Figura 26.
Figura 26 - Maior circunferência que se pode inscrever na mão

Fonte: figura elaborada pelo autor

A MCI obtida para outras configurações de mão pode ser visualizada na Figura 27.
25

Figura 27 - MCI na mão nas configurações de a, b e g

Fonte: figura elaborada pelo autor

4.6.1 Comparação entre centro da máxima circunferência inscrita e centro de massa


O centro da MCI foi utilizado para se extrair a assinatura radial da imagem.
Tradicionalmente, para se obter esta assinatura, é utilizado o centro de massa da figura ao invés
do centro da maior circunferência inscrita.
A utilização do centro da MCI como ponto de referência apresentou vantagens em
relação à utilização do centro de massa por coincidir melhor sua localização com o centro da
palma da mão e, consequentemente, gerar uma assinatura radial que melhor representa a relação
de distância entre o centro escolhido a borda dos dedos.
Figura 28 - Centro de massa em vermelho e centro da MCI em azul. Configuração de letra A.

Fonte: figura elaborada pelo autor


26

A Figura 28 mostra a diferença na localização do centro de massa (círculo menor em


vermelho) e o centro da MCI (círculo menor em azul) para configuração da letra A. Neste caso,
como todos os dedos estão fechados, o espaço ocupado pela mão fica concentrado e o centro
de massa coincide com o centro da MCI. Já na configuração da letra B, mostrado na Figura 30,
os dedos estão estendidos e o centro de massa se desloca em relação ao centro da MCI. A
assinatura radial obtida por cada um dos métodos para as letras A e B são mostradas na Figura
29 e Figura 31, respectivamente.
A assinatura radial da letra B obtida utilizando-se o centro da MCI apresenta os picos
com maior contraste quando comparado à assinatura obtida com o centro de massa como
referência.
Figura 29 - Comparação da assinatura radial da letra A obtida utilizando-se a) o centro de massa e b) o centro da MCI

Fonte: figura elaborada pelo autor

Figura 30 - Centro de massa em vermelho e centro da MCI em azul. Configuração de letra B.

Fonte: figura elaborada pelo autor


27

Figura 31 - Comparação da assinatura radial da letra B obtida utilizando-se a) o centro de massa e b) o centro da
MCI

Fonte: figura elaborada pelo autor

4.7 Detecção das pontas dos dedos estendidos


A detecção das pontas dos dedos estendidos e do centro da palma da mão nos permite
identificar a posição e estado de cada dedo, informações que serão importantes na etapa de
classificação dos gestos.

4.7.1 Dedos estendidos para cima


Assumindo que as pontas dos dedos estendidos são os pontos mais distantes do centro
da palma da mão, é possível determinar a quantidade de dedos estendidos localizando-se os
picos da assinatura radial e analisando seus valores.
A Figura 32 mostra a assinatura radial e a localização dos picos para a configuração da
letra V. Nota-se que existem 2 picos com maiores valores, que correspondem aos 2 dedos
estendidos mostrados na Figura 33.
28

Figura 32 - Localização dos picos da assinatura radial para configuração da letra V

Fonte: figura elaborada pelo autor

Nota-se que os outros 5 pontos de menor valor são saliências encontradas na curvatura
da mão. A distância entre a ponta do dedo e o centro da MCI para se determinar se um dedo
está esticado ou não foi determinado para cada letra utilizando-se unidades de raio da MCI.
Figura 33 - Configuração da letra V e os picos detectados

Fonte: figura elaborada pelo autor

Outro exemplo é mostrado na Figura 34, com a configuração da letra F.


29

Figura 34 - Configuração da letra F e os picos detectados

Fonte: figura elaborada pelo autor

4.7.2 Dedos abaixados


A detecção de dedos voltados para baixo se baseia na procura de formas circulares
(unhas e ponta de dedos) sobre a borda da imagem.

4.7.2.1 Detecção de bordas


As bordas internas das imagens foram detectadas utilizando-se o método de canny.
A Figura 35 mostra a detecção de bordas da configuração da letra M.
Figura 35 - Aplicação do detector de bordas canny. a) Imagem original (adaptado de SurdosOnline) e b) Bordas
detectadas

Fonte: figura elaborada pelo autor


30

4.7.2.2 Transformada de Hough


A Transformada de Hough para círculos é aplicada sobre as bordas, na região inferior
da imagem. Os círculos detectados correspondem às pontas de dedos apontados para baixo. A
Figura 36 mostra a detecção de círculos usando a transformada sobre a Figura 35-b).
Figura 36 - Detecção de círculos na configuração de letra M

Fonte: figura elaborada pelo autor

O valor do raio para realizar a busca de formas circulares com tamanho compatível com
as pontas de dedos foi determinado empiricamente e é dado em fração do raio da MCI.
Nota-se que foram detectados dois círculos para o dedo anelar da Figura 36. Para este
problema não afetar na contagem de dedos apontados para baixo, foi feito uma função para se
verificar quantos corpos circulares foram detectados de fato, descartando-se círculos com
centros muito próximos de outro círculo.
4.8 Classificação
A classificação é feita com base em informações como quantidade e posição das pontas
dos dedos detectadas. Também são analisadas as distâncias entre as pontas dos dedos e o centro
da MCI. As características de cada letra foram organizadas na Tabela 1 no Apêndice.
Embora estas características consigam separar as letras em grupos menores de letras
semelhantes, em alguns casos é preciso extrair mais informações para poder classificá-las.
As letras J e A, mostradas na Figura 37, são caracterizadas por possuírem apenas uma ponta
de dedo estendido detectada, localizada acima e à direita da MCI. Utilizando-se apenas destas
informações não é possível identificar as letras em questão. Para este caso, foi escrita uma
função para identificar se o dedo estendido está só (dedo mindinho da letra J) ou se está junto
aos outros dedos (polegar, na configuração da letra A).
A função cria o espaço de uma circunferência em torno da ponta de dedo detectada, e cada
ponto desta circunferência terá valor 1 caso faça parte da região da mão e 0, caso contrário. A
31

Figura 38 representa o círculo binário gerado, representando em vermelho os pixels da


circunferência que fazem parte da mão, e de azul os demais pixels.
Figura 37 - Semelhança entre as letras J (esquerda) e A (direita).

Fonte: figura elaborada pelo autor

Contando-se o número de pixels cujo valor é 1, pode-se saber se o dedo está esticado
sozinho ou se está junto a outros dedos.
Figura 38 - Círculo binário das letras J (esquerda) e A (direita)

Fonte: figura elaborada pelo autor

Outro caso que merece atenção é a classificação das letras D e R. A configuração da letra
R requer dois dedos estendidos, porém como se sobrepõem, muitas vezes é detectado apenas
um dos dedos, assim como a letra D. As posições dos dedos detectados em ambos os casos são
semelhantes, como mostra a Figura 39.
Para contornar este caso foi escrita uma função que realiza a análise da espessura horizontal
da região de cor branca logo abaixo do dedo. Em uma pequena região abaixo da ponta de dedo
detectada são registradas a maior e menor espessura que ocorre neste intervalo, ilustrada em
32

azul e vermelho na Figura 40. A proporção entre a linha azul e a linha vermelha sugere que
existe um estreitamento na região da linha vermelha, indicando a sobreposição dos dedos
indicador e do meio, que configuram a letra R.
Figura 39 - Semelhanças das configurações das letras D (esquerda) e R (direita).

Fonte: figura elaborada pelo autor

Figura 40 - Análise da espessura do dedo na configuração da letra R

Fonte: figura elaborada pelo autor

As letras E, O e S apresentam uma característica em comum: não possuem dedos


estendidos Figura 41. Por esta razão é necessária a extração de outras características. As
imagens segmentadas destas letras são mostradas na Figura 45.
33

Figura 41 - Configurações das letras E (adaptado de SurdosOnline), O e S, respectivamente

Fonte: figura elaborada pelo autor

Figura 42 - Segmentação das letras E, O e S

Fonte: figura elaborada pelo autor

A letra O se identifica pela presença de um buraco na segmentação. Já as letras E e S


𝑎𝑙𝑡𝑢𝑟𝑎
podem ser distinguidas pela relação de 𝑙𝑎𝑟𝑔𝑢𝑟𝑎 das mesmas. Neste projeto, ao invés da relação
𝑎𝑙𝑡𝑢𝑟𝑎 𝑎𝑙𝑡𝑢𝑟𝑎
, é calculada a relação , pois a largura é mais susceptível a variações devido a
𝑙𝑎𝑟𝑔𝑢𝑟𝑎 𝑟𝑎𝑖𝑜 𝑑𝑎 𝑀𝐶𝐼

inclinação da mão ou artefatos adquiridos na segmentação, quando comparada ao raio da MCI.


𝑟𝑎𝑖𝑜 𝑑𝑎 𝑀𝐶𝐼
A letra C, por sua vez, é caracterizada por conter a maior relação , uma vez
𝑎𝑙𝑡𝑢𝑟𝑎

que esta configuração utiliza a mão de lado


34

4.8.1 Estatísticas
Foram realizadas três baterias de testes com as configurações da mão retiradas de vídeos
disponíveis na internet.
Para cada vídeo, foram capturadas a tela no momento em que o usuário realizava a
configuração. Realizou-se também a centralização da mão através de edição. Letras feitas com
configuração ou perspectiva diferente do qual o classificador é baseado não foram levadas em
consideração.
No primeiro teste, com o vídeo de SurdosOnline, foram testadas 19 letras. Dentre elas,
15 foram reconhecidas corretamente, 2 foram reconhecidas erradas e 2 não foram identificadas.
No segundo vídeo, disponibilizado pelo canal do youtube br dk, foram levadas em
consideração 14 letras, das quais 8 foram conhecidas corretamente, 4 foram reconhecidas
erradas e 2 não foram identificadas.
No terceiro vídeo, com o vídeo retirado do canal do youtube de Wilson Otoni (2013),
foram testadas 19 letras. Dentre elas, 13 foram reconhecidas corretamente, 6 foram
reconhecidas erradas e uma letra não foi classificada.
No total, houveram 52 letras testadas, das quais 36 (69%) foram reconhecidas
corretamente, 6 (21%) foram reconhecidas como outra letra e 5 (10%) não foram identificadas
como letra alguma.
Dentre os casos que a identificação não foi efetiva, pode-se notar que a segmentação
não ocorreu de modo perfeito. A imagem retirada do vídeo é mostrada na Figura 43.
Figura 43 Imagem de teste para a configuração da letra U

Fonte: Adaptado de Surdos Online

Como é possível notar na Figura 44, a imperfeição na segmentação na região próxima


às pontas dos dedos faz o programa detectar 3 picos, consequentemente classificando a letra
35

originariamente U, que possui 2 dedos levantados, como sendo a letra W, que se identifica por
ter 3 dedos estendidos para cima.
Figura 44 Imperfeição na segmentação faz a letra U ser identificada incorretamente

Fonte: imagem de br dk, processada pelo autor

Outros casos onde as letras foram classificadas incorretamente ocorreram na


classificação de letras que possuem um par de configuração semelhante, como as letras F e T
ou R e D, mostradas na Figura 45 no Anexo A.
36

5 CONCLUSÕES
5.1 Contribuições e Limitações do Trabalho
Foram propostos meios para a resolver cada uma das etapas definidas na metodologia
(segmentação, caracterização e classificação). Assim, a validação do método pode ser avaliada
individualmente para cada etapa.
A segmentação com base na média de cores apresentou bons resultados sob iluminação
adequada e ambiente controlado. Uma limitação ocorre quando não é possível atender a estas
condições, onde o fundo da imagem é composto por diversas cores. O algoritmo para a
localização do pulso se mostrou eficaz, realizando o corte para todas as imagens testadas.
Na etapa de caracterização, a adoção do centro da MCI como referência para a assinatura
radial apresentou vantagens em relação ao uso do centro de massa tradicionalmente usado,
explicitando os pontos em que os dedos estão estendidos. O uso da assinatura radial e detecção
de picos para a detecção das extremidades dos dedos estendidos para cima foi capaz de detectar
as pontas de dedos exceto quando houve imperfeições na segmentação. As extremidades dos
dedos apontados para baixo, que são detectados com o uso da transformada de Hough, também
foram detectados, porém são dependentes da detecção de bordas com o método de canny. Por
isso, um bom ajuste de parâmetros é desejado.
O uso de características como número de dedos estendidos, posição das extremidades
dos dedos em relação ao centro da MCI e relações de distância foram capazes de caracterizar
as letras do alfabeto. Em alguns casos, características peculiares precisam ser extraídas. Para a
classificação, a maior limitação é o próprio classificador cuja natureza é crisp4. Adicionalmente,
os dados utilizados para estruturar o classificador são baseados em poucas amostras para cada
letra. Um classificador que consegue lidar com a variabilidade dos gestos requer um número
muito grande de amostras. Devido a limitação no número de amostras, algumas variações dos
gestos decorrente do regionalismo para representar uma letra não foram inclusas.
O método, de modo geral, se mostrou funcional, caracterizando corretamente 69% das
letras testadas, realizadas por pessoas distintas. Além disso, a aplicação das técnicas
apresentadas não se limita ao reconhecimento do alfabeto Libras, mas pode se estender para o
reconhecimento dos sinais em Libras, pois estas também fazem uso de gestos cujas
configurações da mão se assemelham às configurações assumidas no alfabeto.

4
Em oposição aos classificadores fuzzy, os classificadores crisp (ou tradicionais) assumem que
as classes são mutuamente exclusivas
37

6 TRABALHOS FUTUROS
Como possíveis trabalhos futuros, pode-se sugerir:
• Expansão do número de amostras de imagens para contemplar maior variabilidade
dos gestos
• Utilização de aprendizado de máquina para o treinamento de um classificador
• Utilização de processamento paralelo em placa de vídeo (tecnologia CUDA ou
openCL) em tempo real
• Implementação do processamento em nuvem, possibilitando a captura da imagem
com dispositivo móvel e o processamento externo
38

7 BIBLIOGRAFIA

AMANPREET KAUR, B. V. K. Comparison between YCbCr Color Space and CIELab Color
Space for Skin Color Segmentation. International Journal of Applied Information Systems,
New York, July 2012. 30-33.

BISOL, C. A.; VALENTINI, C. B. Surdez e Deficiência Auditiva - qual a diferença? OBJETO


DE APRENDIZAGEM INCLUIR, 2011. Disponivel em:
<http://www.grupoelri.com.br/Incluir/downloads/OA_SURDEZ_Surdez_X_Def_Audit_Text
o.pdf>. Acesso em: 10 dez. 2017.

BR DK. Alfabeto em Libras. Canal do youtube BR DK. Disponivel em:


<https://www.youtube.com/watch?v=ymMSszwp4Tw>. Acesso em: 01 Dezembro 2017.

BRASIL. Lei nº 10.436, de 24 de Abril de 2002. Dispõe sobre a Língua Brasileira de Sinais
- Libras e dá outras providëncias, Brasília, DF, 24 Abril 2002.

GOLDEN ARTIST COLORS, INC. Delta E: A Key to Understanding Lightfastness Readings.


Just Paint, 2016. Disponivel em: <http://www.justpaint.org/delta-e/>. Acesso em: 05 maio
2017.

GONZALES, R. C.; WOODS, R. E. Digital Image Processing. 3. ed. [S.l.]: Pearson, 2014.

GUARINELLO, A. C. et al. Surdez e Letramento: pesquisa com surdos universitários de


Curitiba e Florianópolis. Revista Brasileira de Educação Edpecial, Marília, v. 15, n. 1, p. 99-
120, jan-abr 2009.

HANDTALK. App. Disponivel em: <https://handtalk.me/app>. Acesso em: 04 jun. 2017.

HARVEY, R.; CHESTER, C. F. Hough Circle Transform. [S.l.]: [s.n.], 2005.

HUI-SHYONG YEO, B.-G. L. H. L. Hand tracking and gesture recognition system for human-
computer interaction using low-cost hardware. Multimed Tools Appl, p. 2687-2715, 2015.

IBGE. Características gerais da população, religião e pessoas com deficiência. Censo


Demográfico 2010, 2010. Disponivel em:
<http://biblioteca.ibge.gov.br/visualizacao/periodicos/94/cd_2010_religiao_deficiencia.pdf>.
Acesso em: 16 Abril 2017.

LÉLIS, G. LIBRAS: Língua Brasileira de Sinais. [S.l.]: UNIFAP, 2016.

MARQUES FILHO, O.; VIEIRA NETO, H. Processamento Digital de Imagens. Rio de


Janeiro: Brasport, 1999.

MICROSOFT. Kinect Sign Language Translator. Site da Microsoft, 2013. Disponivel em:
<https://www.microsoft.com/en-us/research/blog/kinect-sign-language-translator-part-1/>.
Acesso em: 15 Dezembro 2017.

MORFOLOGIA. Michaelis On-line. Disponivel em:


<http://michaelis.uol.com.br/busca?r=0&f=0&t=0&palavra=morfologia>. Acesso em: 06 maio
2017.
39

OLIVEIRA, G. A. D. S. O Surdo: meios de comunicação. 9ª Mostra Acadêmica UNIMEP:


"Ambiente e Sustentabilidade". [S.l.]: [s.n.]. 2011.

OTONI, W. Datilología Alfabeto Manual. Youtube, 2013. Disponivel em:


<https://www.youtube.com/watch?v=U2ml3rwV3FA>. Acesso em: 12 Dezembro 2017.

PAVAN, A. R. Reconhecimento de gestos com segmentação de imagens dinâmicas aplicadas


a libras. Anuário da produção de iniciação científica discente, 13, 5 Novembro 2012. 367-
378.

PCWORLD. Microsoft uses Kinect to interpret sign language from deaf people. PCWorld,
2013. Disponivel em: <http://www.pcworld.com/article/2059880/microsoft-uses-kinect-to-
interpret-sign-language-from-deaf-people.html>. Acesso em: 05 maio 2017.

PIZZOLATO, E. B.; ANJO, M. D. S.; PEDROSO, G. C. Automatic recognition of finger


spelling for libras based on a two-layer architecture. Proceedings of the 2010 ACM
Symposium on Applied Computing, 2010.

PRODEAF TECNOLOGIAS ASSISTIVAS LTDA. O que é? ProDeaf. Disponivel em:


<http://prodeaf.net/>. Acesso em: 04 jun. 2017.

SIOLA, F. B. Desenvolvimento de um software para reconhecimento de sinais em LIBRAS


através de vıdeo. UFABC. [S.l.]. 2010.

SOUZA, C. R. D. Reconhecimento de gestos da Língua Brasileira de Sinais através de


Máquinas de Vetores de Suporte e Campos Aleatórios Condicionais Ocultos. São Carlos:
[s.n.], 2013.

SURDOS ONLINE. Youtube. Disponivel em:


<https://www.youtube.com/watch?v=fYaXJXf60gU>. Acesso em: 15 Dezembro 2017.

TRAINA, A. J. M.; OLIVEIRA, M. C. F. D. Apostila de Computação Gráfica. São Carlos:


[s.n.], 2004.

WACHS, J.; STERNE, H.; EDAN, Y. A Real-Time Hand Gesture onary System Based on
Evolutionary Search. Vision, v. 22, n. 3, Third Quarter 2006.
40

8 APÊNDICE A
As características para a classificação de cada letra são mostradas na tabela abaixo.
Tabela 1 - Tabela de características para classificação das letras
Letra A
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 0 ou 1
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente perto
da circunferência
À direita na imagem
Outros O dedo estendido (polegar) deve estar
junto aos outros dedos

Letra B
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 4
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 2 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 3 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 4 Região acima da MCI, relativamente
distante da circunferência
Letra C
Tamanho do raio da MCI Menor que 32% da altura da imagem e
menor que 24% da largura da imagem
Letra D
Quantidades de dedos detectados para 0
baixo
Quantidades de dedos detectados para cima 1
Posição da ponta do dedo 1 Região acima da MCI, à direita do centro da
MCI
Letra E
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 0
cima/lado
Altura da região da silhueta da mão Maior que 2,7 vezes o raio da MCI
Letra F
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 3
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
41

Posição da extremidade do dedo 2 Região acima da MCI, relativamente


distante da circunferência
Posição da extremidade do dedo 3 Região acima da MCI, relativamente
distante da circunferência
Letra G
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 2
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 2 Região acima da MCI, relativamente
perto da circunferência
Outros A distância horizontal entre os dois dedos
não deve ser pequena
Letra H
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 3
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 2 Região acima da MCI, relativamente
perto da circunferência
Posição da extremidade do dedo 3 Região acima da MCI, relativamente
distante da circunferência
Outros O conjunto de dedos deve estar na região
à esquerda em relação ao centro da MCI
Letra I
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 1
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência, à esquerda do
centro da MCI
Letra J
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 1
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência, à direita da
MCI
Letra K
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 3
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
42

Posição da extremidade do dedo 2 Região acima da MCI, relativamente


perto da circunferência. Deve ter a menor
altura dentre os 3 dedos detectados
Posição da extremidade do dedo 3 Região acima da MCI, relativamente
distante da circunferência
Outros O conjunto de dedos deve estar na região
à direita em relação ao centro da MCI
Letra L
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 2
cima/lado/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 2 Altura próxima ao centro da MCI, à direita
da MCI e da extremidade do dedo 1
Letra M
Dedos detectados apontados para baixo 3
Letra N
Dedos detectados apontados para baixo 2
Letra O
Dedos detectados apontados para baixo 0
Quantidade de dedos detectados para 0
cima
Quantidade de buracos na imagem 1
Letra Q
Dedos detectados apontados para baixo 1
Letra R
Dedos detectados apontados para baixo 1
Dedos detectados apontados para 1 ou 2
cima/lado
Outras características Deve ser detectado um afinamento na
região onde o dedo indicador e o dedo
médio se sobrepõem
Letra S
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 0
cima/lado
Quantidade de buracos na imagem 0
Outros A altura da região da mão deve ser menor
que 2,7 vezes o raio da MCI
Letra T
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 4
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
43

Posição da extremidade do dedo 2 Região acima da MCI, relativamente


distante da circunferência
Posição da extremidade do dedo 3 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 4 Região acima da MCI, relativamente
perto da circunferência e com pequena
distância horizontal entre o dedo 3
Letra U
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 2
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 2 Região acima da MCI, relativamente
distante da circunferência
Outros A distância horizontal entre a
extremidade do dedo 1 e do dedo 2 deve
ser pequena
Letra V
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 2
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 2 Região acima da MCI, relativamente
distante da circunferência
Outros Deve haver uma distância horizontal
entre a extremidade do dedo 1 e do dedo
2
Letra W
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 3
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência
Posição da extremidade do dedo 2 Região acima da MCI, relativamente
distante da circunferência
Outros A extremidade do segundo dedo
detectado (dedo do meio) deve estar
mais alto que a dos demais dedos
Letra X
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 0
cima/lado
Quantidades de dedos detectados para 1
esquerda
44

Posição da extremidade do dedo 1 Deve estar à esquerda da MCI e não deve


estar acima da circunferência
Letra Y
Dedos detectados apontados para baixo 0
Dedos detectados apontados para 2
cima/lado
Posição da extremidade do dedo 1 Região acima da MCI, relativamente
distante da circunferência, à esquerda da
MCI
Posição da extremidade do dedo 2 Região acima da MCI, relativamente
distante da circunferência, à direita da
MCI
Outros Deve haver uma distância considerável
entre a extremidade do dedo 1 e do dedo
2
Letra Z
Quantidades de dedos detectados para 0 ou 1
baixo
Quantidades de dedos detectados apontado 1 ou 0
para lateral
Posição da ponta do dedo 1 Região abaixo e à esquerda do centro da
MCI
45

9 ANEXO A
O alfabeto em libras é mostrado na Figura 45.
Figura 45 - Alfabeto em Libras.

Fonte: Adaptado de Pizzolato, Anjo e Pedroso (2010)

Você também pode gostar