Reconhecimento Facial Inteligente para Otimização em Lojas

UNIVERSIDADE DE SÃO PAULO
ESCOLA DE ENGENHARIA DE SÃO CARLOS
Gustavo Henrique Rigamonti
Sistema de Reconhecimento Facial Baseado em Redes

Neurais Convolucionais Profundas com Aplicação no
Comércio Varejista
São Carlos
2018
Gustavo Henrique Rigamonti
Sistema de Reconhecimento Facial Baseado em Redes

Neurais Convolucionais Profundas com Aplicação no
Comércio Varejista
Monografia apresentada ao Curso de Enge-

nharia Elétrica com Ênfase em Eletrônica,
da Escola de Engenharia de São Carlos da
Universidade de São Paulo, como parte dos
requisitos para obtenção do título de Enge-
nheiro Eletricista.
Orientador: Prof. Dr. Marcelo Andrade da

Costa Vieira
São Carlos
2018
Este trabalho é dedicado aos meus pais, ao meu irmão e à minha namorada.
AGRADECIMENTOS
Aos meus pais, Paulo e Claudete, ao meu irmão, Rafael, por todo o apoio e suporte
durante minha vida e graduação, sempre me incentivando e acreditando no meu potencial.
À minha namorada e melhor amiga, Bruna, pelo companheirismo e apoio e por ter
me incentivado e acreditado muito em mim nesta etapa final desta fase tão importante da
minha vida.
Ao Professor Doutor Marcelo Andrade da Costa Vieira pelo incentivo e inspiração
passados durantes suas aulas e este período de orientação.
À Técnica Administrativa Jussara Ramos Zoia e à Auxiliar Administrativa Aura
Aparecido Brisolar, pessoas maravilhosas que não mediram esforços para me auxiliar em
todas as questões que precisei durante a minha gradução.
Aos amigos que fiz durante este período da minha graduação.
À Escola de Engenharia de São Carlos, todos os professores e técnicos que contri-
buíram para minha formação.
Aprender é a única coisa de que a mente nunca se cansa, nunca tem medo e nunca se
arrepende.
Leonardo da Vinci
Este trabalho foi desenvolvido em conjunto com uma empresa privada e, portanto,
alguns dados e informações aqui apresentados são limitados ou não puderam ser incluídos.
RESUMO
RIGAMONTI, G. H. Sistema de Reconhecimento Facial Baseado em Redes

Neurais Convolucionais Profundas com Aplicação no Comércio Varejista.
2018. 68p. Monografia (Trabalho de Conclusão de Curso) - Escola de Engenharia de São
Carlos, Universidade de São Paulo, São Carlos, 2018.
A inteligência competitiva é uma questão cada vez mais presente no cotidiano de gestores
e gerente em grandes lojas, além de empresários e pessoas que trabalham em mercados
varejistas. As pesquisas de campo, importantes para a inteligência competitiva, requerem
uma grande quantidade de tempo, experiência e esforço humano para o levantamento de
informações. Dessa maneira, trata-se de um processo não eficiente, perdendo-se muito
tempo, especialmente quando se deve fazer a pesquisa em grandes lojas. Este trabalho
tem como objetivo desenvolver um método baseado em visão computacional para realizar
automaticamente o cálculo e a oferta de índices importantes para ações de otimização em
lojas e de grande contribuição para a inteligência competitiva. A escolha do reconhecimento
facial para o levantamento de índices foi feita pelo fato de se tratar de um método
de biometria menos invasivo, em comparação com outros métodos mais convencionais
(reconhecimento de digitais, íris etc.). As características das faces são obtidas por mapas
de informações gerados por Redes Neurais Convolucionais Profundas e do algoritmo HOG.
Em seguida, é feita uma comparação dos mapas das faces de entrada e saída de uma
loja utilizando a distância L2, ou ainda, distância euclidiana. Os índices levantados pelo
software permitem que sejam feitas análises importantes para a otimização de resultados
e até mesmo a atuação em tempo real. A máquina, utilizando o HOG e um modelo de
DCNN, realiza a identificação da face. Por fim, o uso do método desenvolvido permitiu
mensurar o desempenho das DCNN em conjunto com os descritores HOG em ambientes
não controlados: a maior acurácia dentro dos conjuntos das amostras disponíveis foi de
60,7%; resultado superior ao de outras soluções que podem ser encontradas no mercado.
Palavras-chave: Inteligência competitiva. Reconhecimento Facial. Visão computacional.

Identificação de faces. Reconhecimento facial. HOG. DCNN.
ABSTRACT
RIGAMONTI, G. H. Face Recognition System Based on Deep Convolutional

Neural Networks with Application to Retail Business. 2018. 68p. Monografia
(Trabalho de Conclusão de Curso) - Escola de Engenharia de São Carlos, Universidade de
São Paulo, São Carlos, 2018.
Competitive intelligence is an increasingly more present matter to the routine of managers

from big retail stores, entrepreneurs and employees. Field research, which are important
tool to competitive intelligence, require lot of time, experience and human effort to gather
important information. In that context, such process has low efficiency, wasting time
specially when the research needs to be undertaken at big retails. This work aims to
develop a method based on computer vision that automatically calculates and manages
the offer of important indexes for actions of optimization in retail stores, contributing
for competitive intelligence. Facial recognition was chosen to gather the indexes because
it is less invasive when compared to conventional biometry methods such as iris and
digital recognition. The facial features were acquired from information maps obtained
from Deep Convolutional Neural Networks (DCNN) and Histogram of Oriented Gradients
(HOG) algorithms. Next, the input and output facial maps were compared using L2 or
Euclidian distance. The indexes gathered by the software have allowed important analysis
for the optimization of results, even in real time. The machine operating with HOG and a
DCNN model performs the facial identification. Finally, the application of the method
has allowed to measure the performance of the DCNN in conjunction with the HOG
descriptors in non-controlled environments, resulting in greater accuracy (60.7%) for the
available samples when compared to similar solutions found in the market.
Keywords: Competitive intelligence. Facial recognition. Computer vision. Identification

of faces. Facial recognition. HOG. DCNN..
LISTA DE FIGURAS
Figura 1 – Faces com 194 Landmarks cada. . . . . . . . . . . . . . . . . . . . . . . 30

Figura 2 – Descritores HOG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 3 – Exemplo de captura dos dois tipos de obturadores. . . . . . . . . . . . 32
Figura 4 – Neurônio Artificial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Figura 5 – Função sigmóide. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Figura 6 – Função Tangente Hiperbólica. . . . . . . . . . . . . . . . . . . . . . . . 34
Figura 7 – Função ReLU. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 8 – Função Softmax. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Figura 9 – Rede Neural Multicamadas. . . . . . . . . . . . . . . . . . . . . . . . . 36
Figura 10 – Arquitetura da Rede LeNet-5. . . . . . . . . . . . . . . . . . . . . . . . 38
Figura 11 – Convolução com Laplaciano. . . . . . . . . . . . . . . . . . . . . . . . . 40
Figura 12 – Convolução de um filtro 3 x 3 e o volume de entrada. . . . . . . . . . . 41
Figura 13 – Exemplo de zero-padding. . . . . . . . . . . . . . . . . . . . . . . . . . 43
Figura 14 – Exemplo de imagens de entradas e regiões de ativação. . . . . . . . . . 46
Figura 15 – As 6 diferentes arquiteturas VGG. . . . . . . . . . . . . . . . . . . . . 47
Figura 16 – Arquitetura da GoogLeNet. . . . . . . . . . . . . . . . . . . . . . . . . 47
Figura 17 – Arquitetura dos blocos Inceptions. . . . . . . . . . . . . . . . . . . . . 48
Figura 18 – Arquitetura do bloco residual. . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 19 – Fluxograma do método proposto. . . . . . . . . . . . . . . . . . . . . . 51
Figura 20 – Câmera IP Bullet NDVLM4MCM-2.8A12 e Câmera IP Dome NDVLM4MCM-
2.8A12. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Figura 21 – Imagem de entrada no pré-processamento. . . . . . . . . . . . . . . . . 54
Figura 22 – Resultados do pré-processamento. . . . . . . . . . . . . . . . . . . . . . 54
Figura 23 – Buffer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Figura 24 – Matriz de confusão da classificação de gênero . . . . . . . . . . . . . . 61
LISTA DE TABELAS
Tabela 1 – Acurácia dos testes de detecção facial. . . . . . . . . . . . . . . . . . . 59

Tabela 2 – Acurácia dos testes de reconhecimento facial. . . . . . . . . . . . . . . 60
LISTA DE ABREVIATURAS E SIGLAS
IC Inteligência Competitiva
HOG Histograms of Oriented Gradients
IA Inteligência Artificial
ML Machine Learning
DCNN Deep Convolutional Neural Network
RNA Rede Neural Artificial
MLNN Multi-layer Neural Network
DL Deep Learning
GD Gradient Descent
SGD Stochastic Gradient Descent
CNN Convolutional Neural Network
CL Convolutional layer
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.1 Contextualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 CONCEITOS E BASE TEÓRICA . . . . . . . . . . . . . . . . . . . 29

2.1 Inteligência Competitiva . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Pré-processamento de imagens digitais . . . . . . . . . . . . . . . . . 29
2.3 Landmarks ou Pontos de controle . . . . . . . . . . . . . . . . . . . . 30
2.4 Histograms of Oriented Gradients (HOG) . . . . . . . . . . . . . . . 30
2.5 Efeito rolling-shutter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6 Machine Learning (ML) . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.1 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.1.1 Função de ativação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.1.1.1 Função ReLU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.6.1.1.2 Função Softmax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.6.1.2 Rede Neural Multicamadas . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.6.1.3 Treinamento de uma Rede Neural Artificial Multicamadas . . . . . . . . . . 37
2.7 Deep Learning (DL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7.1 Gradient Descent (GD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7.2 Stochastic Gradient Descent (SGD) . . . . . . . . . . . . . . . . . . . . . 37
2.8 Convolutional Neural Network (CNN) . . . . . . . . . . . . . . . . . . 38
2.8.1 Operação de Convolução . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.8.1.1 Convolução contínua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.8.1.2 Convolução discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.8.1.3 Convolução em imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.8.2 Convolutional layer (CL) . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.8.2.1 Profundidade (do inglês Depth) . . . . . . . . . . . . . . . . . . . . . . . 42
2.8.2.2 Passo (do inglês Stride) . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.8.2.3 Padding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.8.3 Camada de Pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.8.4 Camada Fully-Connected . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.8.4.1 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.9 Redes Neurais Convolucionais Multicanais . . . . . . . . . . . . . . . 44
2.10 Exemplos de arquiteturas de CNNs . . . . . . . . . . . . . . . . . . . 44
2.10.1 AlexNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.10.2 ZF Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.10.3 Rede Visual Geometry Group VGG . . . . . . . . . . . . . . . . . . . . . . 45
2.10.4 GoogLeNet e Inception . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.10.5 Microsoft e Resnet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.10.5.1 Resnet-34 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . 51
3.1 Método proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Imagens capturadas na entrada, saída dos compradores e saída dos
não compradores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3 Banco de imagens de entrada, saída dos compradores e saída dos
não compradores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4 Detecção de faces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.1 Dlib . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5.1 Opencv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.6 Aplicação da rede neural . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.7 Buffer no fluxo de entrada . . . . . . . . . . . . . . . . . . . . . . . . 55
3.8 Cálculo da distância euclidiana . . . . . . . . . . . . . . . . . . . . . . 56
3.9 Decisão sobre o resultado da distância euclidiana . . . . . . . . . . . 56
3.10 Processamento das informações recebidas . . . . . . . . . . . . . . . 57
4 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . 59
4.1 Auditoria visual da detecção facial . . . . . . . . . . . . . . . . . . . . 59
4.1.1 Acurácia Dlib e HOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.2 Tempo de processamento Dlib e HOG . . . . . . . . . . . . . . . . . . . . 59
4.2 Auditoria visual do reconhecimento facial . . . . . . . . . . . . . . . . 60
4.2.1 Resultados da DCNN modelo ResNet-29 para a obtenção dos matches . . 60
4.2.2 Resultados da DCNN modelo ResNet-29 para o reconhecimento de gênero . 61
5 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . 63
6 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
25
1 INTRODUÇÃO
1.1 Contextualização
Em um mercado cada vez mais competitivo, as grandes empresas varejistas têm

incentivado e tentado constantemente desenvolver soluções que ofereçam uma experiência
de compra única, ou seja, mais personalizada para cada um de seus clientes e seus hábitos
de compra. Para que estes objetivos sejam alcançados, um dos grandes mecanismos que
têm sido cada vez mais utilizado é a realização do monitoramento em tempo real de
uma série de variáveis que possam causar alguma interferência nos negócios das empresas
(CUNHA, 2017), a este mecanismo dá-se de Inteligência Competitiva (IC).
Em posse das informações fornecidas pela IC, ou seja, através da aquisição, in-
terpretação e análise de dados a respeito das atividades de concorrentes, fornecedores,
tecnologias, comportamento de clientes, tendências gerais do negócio e seu monitoramento
constante, visando fortalecer um direcionamento estratégico e a tomada de decisões em
tempo real (ROEDEL, 2005), uma empresa consegue obter conclusões importantes que
podem trazer melhoras consideráveis em seu resultados.
Um dos meios para o levantamento de dados e análises das variáveis envolvidas com
o sucesso do negócio é a realização de pesquisas de campo. Todavia, realizar os processos
relacionados à pesquisa de campo demanda um grande número de pessoas dentro das
lojas realizando as análises em tempo real que em muitas vezes, ainda que indiretamente,
interferem no processo de compra dos clientes, podendo comprometer os resultados naquele
período, além de demandar um grande esforço humano especializado.
Logo, fica evidente a necessidade do desenvolvimento de tecnologias que facilitem
este processo e não é absurdo, por exemplo, considerar nesse contexto a utilização de
tecnologias de visão computacional como o reconhecimento facial em mercados varejistas
visando a obtenção de dados para o entendimento de comportamentos e auxílio na tomada
de decisão.
Uma das principais razões pelas quais algoritmos de reconhecimento facial têm sido
estudados e desenvolvidos pelas última décadas é o enorme potencial que esta tecnologia
tem para aplicações governamentais e comerciais (LI; JAIN, 2011) em áreas como a do
entretenimento, cartões inteligentes, segurança da informação, aplicação da lei, vigilância
e biometria etc.(ZHAO et al., 2003) e sendo um método de identificação biométrica menos
intrusivo em relação aos outros, as tecnologias de reconhecimento facial já estão e estarão
cada vez mais presentes na vida das pessoas (LI; JAIN, 2011).
Ainda que os estudos em torno do reconhecimento facial aconteçam desde antes
de 1960, esta questão ainda continua sendo amplamente discutida; ainda mais diante
26
do crescimento da aplicação em diversos segmentos. Nos últimos anos pode-se notar um

progresso significativo nesta área em função dos avanços nas modelagens e análises técnicas;
uma série de novos sistemas foram e são desenvolvidos com o propósito de realizarem
detecção e rastreamento facial (LI; JAIN, 2011).
Mais que os avanços nas modelagens e análises, o advento da Inteligência Artificial,
mais especificamente da subárea chamada de Aprendizado de Máquina (do termo em inglês
Machine Learning - ML) também têm sido um forte colaborador para o desenvolvimento
das tecnologias de reconhecimento facial.
1.2 Justificativa
Atualmente muito se desenvolve acerca das tecnologias de reconhecimento facial

dentro de centros de pesquisas, universidades e orgãos governamentais. Entretanto, a
maioria destas soluções impelem uma necessidade de processamento e, consequentemente,
de hardware muito grande, encarecendo estas soluções e inviabilizando a aplicação na
iniciativa privada, por exemplo, em mercados varejistas.
A escolha pelo uso de redes neurais convolucionais profundas se deu, uma vez que
se tem interesse em um reconhecimento com variação de detalhes faciais, expressões e
diferentes poses, de modo que este reconhecimento aconteça aproximadamente em tempo
real, comparando faces encontradas com faces previamente armazenadas (LAWRENCE et
al., 1997).
Com o advento e evolução da inteligência artificial, o desenvolvimento desta aplica-
ção numa linguagem código aberto em conjunto com Redes Neurais Convolucionais supre,
em partes, esta demanda de um menor custo e menor processamento neste tipo de sistema
de visão computacional. Desta forma, este tipo de solução aplicada no varejo deixa de
ser inviável e passa a ser um aliado utilizado como meio de obtenção de informações e
de comportamento de clientes no ambiente desejado. Em outras palavras, esta tecnologia
ajudará a desenvolver uma ferramenta que consiga superar obstáculos inerentes a um
ambiente de aquisição de imagens, real e não controlado, tal qual o cenário esperado em
um grade comércio varejista.
1.3 Objetivos
Nesse contexto, o presente trabalho tem como objetivo o desenvolvimento de uma

solução baseada em visão computacional que permita a identificação e reconhecimento
facial através de características faciais para a aquisição de dados no mercado varejista. Em
linhas gerais, a face a qual se quer realizar a identificação e reconhecimento será analisada
utilizando redes neurais convolucionais profundas e pontos de controle (landmarks). Após a
identificação da face serão geradas informações únicas que posteriormente serão comparadas
27
e armazenados em banco de dados visando se obter informações sobre clientes e seus

comportamentos durante todo o processo de compra em uma loja.
29
2 CONCEITOS E BASE TEÓRICA
2.1 Inteligência Competitiva
Em um mercado cada vez mais competitivo, as grandes empresas do mercado se

vêem forçadas a buscar e desenvolver soluções inovativas. Muito se tem trabalhado para
condicionar ao consumidor uma experiência de compra única e personalizada, buscando a
fidelização ou a atração de potenciais compradores.
O ato de monitorar em tempo real variáveis que possam influenciar nas vendas das
empresas, como questões ambientais, econômicas, políticas, culturais, sociais e hábitos
de consumo dos clientes pode revelar informações e gerar intrepretações valiosas para
otimizar os resultados dos negócios seja por meio de ações paliativas, por exemplo retirando
um produto que constantemente apresenta defeitos de fábica do mercado, seja por ações
comerciais, como por exemplo realizar promoções em produtos em dias e horários específicos
da semana para um público que historicamente frequenta uma loja naquele momento.
Ao ato de adquirir, processar, analisar e disseminar informações sobre atividades
de clientes, fornecedores, concorrentes, tecnologias e tendências de negócio e seu acompa-
nhamento constante, buscando fortalecer um direcionamento estratégico e a tomada de
decisões em tempo real (ROEDEL, 2005), dá-se o nome de Inteligência Competitiva.
Dados importantes como taxa de conversão, tempo de permanência em loja, gênero,
faixa etária e ticket médio, podem, se interpretados da maneira correta, resultar em
alterações estratégicas fundamentais para a competitividade e saúde de um negócio no
mercado.
2.2 Pré-processamento de imagens digitais
Após a obtenção de uma imagem, o passo imediatamente seguinte consiste no

pré-processamento daquela imagem capturada. A ideia principal no pré-processamento
é melhorar a imagem de forma a ampliar as chances de sucesso do processos sucessores,
eliminando ruídos e informações indesejadas (GONZALEZ; WOODS, 2000).
O objetivo do software é encontrar faces geradas por uma câmera de entrada e
reconhecer esta mesma face em imagens geradas por uma câmera de saída, de modo que
sejam retornadas informações de tempo de permanência em um determinado ambiente.
Assim, tudo que não é considerado uma face deve ser removido, seja fisicamente, antes da
captura da imagem por meio de configurações de filtro nas câmeras, ou posteriormente,
por meio de métodos computacionais.
30
2.3 Landmarks ou Pontos de controle
O reconhecimento da face e a comparação entre faces são diretamente afetados pela

posição da face na imagem, sendo a posição frontal a de melhor desempenho. A correlação
entre duas faces da mesma pessoa que aparecem em ângulo e rotação diferentes é muito
baixa. Por este motivo, antes da comparação das faces, deve-se localizar pontos de controle
chave na face.
Figura 1: Faces com 194 Landmarks cada.
(KAZEMI; SULLIVAN, 2014)
A técnica que será utilizada neste trabalho é proposta por Vahid Kazemi e Josephine
Sullivan (KAZEMI; SULLIVAN, 2014); ela consiste basicamente na realização de uma série
de regressões em cascata que essencialmente localizam os pontos que compõe a estrutura
de uma face (Figura 1).
2.4 Histograms of Oriented Gradients (HOG)
A fundamentação principal acerca do descritor Histograma de Gradientes Orientados

(do inglês Histogram of Oriented Gradients) é que a forma e aparência de objetos em
qualquer imagem pode ser descrito por meio da distribuição de intensidade dos pixels ou
pelas orientações das bordas. O processo para geração dos descritores HOG é:
• cálculo de gradiente dos pixels;
• agrupamento de pixels em células;
• agrupamento de células em blocos;
• obtenção de descritor.
31
Em um primeiro momento aplicam-se máscaras derivada discreta pontual, tanto

no eixo vertical como no horizontal para realizar o cálculo de gradiente de cada um dos
pixels. Na sequência realiza-se o agrupamento dos pixels, criando o que se chama de célula.
Em um terceiro momento, após o agrupamento de pixels, realiza-se o agrupamento de
células para a criação dos blocos. Por fim cria-se o descritor que é basicamente uma lista
dos histogramas de todas as células dos blocos.
Por fim deve-se realizar o treinamento alimentando os descritores em um sistema
de aprendizado supervisionado.
Figura 2: Descritores HOG.
Modificada de (DALAL; TRIGGS, 2005).
2.5 Efeito rolling-shutter
Um ponto importante que deve ser falado sobre a construção das câmeras é sobre
o modo de funcionamento do obturador no momento de captura e o tempo de exposição
da matriz de sensores. Existem disponíveis no mercado duas opções de obturador: rolling
shutter e global shutter e câmeras com o tempo de exposição ajustável.
O obturador global shutter tem a grande vantagem de expor a matriz de sensores
CMOS, responsável pela captura da imagem, de maneira aproximadamente instantânea.
Já o obturador rolling shutter expõe a matriz de sensores CMOS por partes.
Em câmeras com o obturador de modelo rolling shutter ou com configuraçãoes de
tempo de exposição alto, nota-se a ocorrência do efeito rolling-shutter exemplificado pela
Figura 3.
É possível notar que a fotografia da bola, para o obturador rolling shutter, apresenta
uma distorção causada pelo movimento desta enquanto se adquiria a imagem, o resultado
seria semelhante no caso de longos tempos de exposição na captura de frames.
32
Figura 3: Exemplo de captura dos dois tipos de obturadores.
(PUEO et al., 2016)
2.6 Machine Learning (ML)
Uma vez que o presente trabalho faz uso de DCNN (do inglês Deep Convolutional
Neural Network) deve-se entender alguns conceitos básicos de ML. Parte-se de uma
breve introdução sobre Redes Neurais Artificiais (RNA), apresentando algumas técnicas e
nomes, como por exemplo, regressão logística, a função Softmax, codificação one-hot e
Cross entropy e na sequência serão introduzidos os fundamento teóricos de Aprendizagem
Profunda (do inglês Deep Learning) e Redes Neurais Convolucionais.
2.6.1 Redes Neurais Artificiais
As Redes Neurais Artificiais (RNA) foram desenvolvidas em meados do ano de

1940 pelo matemático Pitts e o neurofisiologista McCulloch, que propuseram o uso de
resistores variáveis conectados a amplificadores para terem comportamento semelhante ao
dos neurônios biológicos (ARTERO, 2009).
As RNA podem ser utilizadas para resolver uma série de problemas práticos,
entretanto, hoje, sua maior aplicação é na resolução de questões que podem ser consideradas
como reconhecimento de padrões, por exemplo, reconhecimento de voz, objeto e, o cerne
deste trabalho, reconhecimento facial.
As unidades mais básicas de uma RNA são os neurônios artificiais, representações
de neurônios biológicos que seguem o modelo da Figura 4.
33
Figura 4: Neurônio Artificial.
(ARTERO, 2009)
O modelo acima representa, graficamente, o corpo do neurônio artificial e cada elemento

representado possui a seguinte atribuição:
• (a) Sinais de entrada Ei : conjunto de dados que servirão de base para o treinamento
da rede;
• (b) Pesos ou pesos sinápticos ωi : parâmetro que determina a influência da entrada

para o resultado final;
P
• (c) Somatório : parte responsável por realizar a soma do produto de cada entrada
por seu respectivo peso;
• (d) Função de ativação f : a função de ativação aplica uma não-linearidade no valor

do neurônio e determina o modo como ele deverá ser ativado;
• (e) Saída Y : resultado estimado pelo neurônio.
Além das entradas Ei demonstradas acima, também é prevista a existência de uma entrada
extra (ωv ) chamada de viés (do inglês bias) que é responsável por determinar os graus
de liberdade de modo a permitir uma melhor adaptação da rede. A partir da análise
do diagrama apresentado é direta a obtenção da representação matemática do neurônio
artificial:
n
X
Y = f( Ei .ωi + ωv ) (2.1)
i=1
2.6.1.1 Função de ativação
As funções de ativação é que permitem que pequenas mudanças nos pesos ωi e bias
ωv causem apenas pequenas alterações na saída Y e é este o ponto crucial que permite
que uma RNA aprenda.
34
Em geral as funções de ativação são funções não-lineares acopladas ao final da

estrutura de um neurônio artificial (Figura 4) e definem a saída baseando-se no dados de
entrada e o limiar de ativação.
A função sigmóide, Figura 5, é descrita pela seguinte equação:
1
f (x) = (2.2)
1 + e− x
Figura 5: Função sigmóide.
Fonte: autoria própria.
A função tangente hiperbólica, Figura 6, tem como saída valores entre -1 e 1 e é

escrita da seguinte forma baseada na função sigmóide:
tanh(x) = 2f (2x) − 1 (2.3)
Figura 6: Função Tangente Hiperbólica.

35
2.6.1.1.1 Função ReLU
A Função Linear Retificada (do inglês Rectified Linear Unit), Figura 7, é uma
função de ativação que pode ser considerada mais eficiente que as duas citadas acima, uma
vez que não utiliza expoentes. Pode ser denotada pela seguinte função:
f (x) = max(0, x) (2.4)
Figura 7: Função ReLU.
2.6.1.1.2 Função Softmax
A função softmax, Figura 8 pode ser considerada uma generalização da função

sigmóide e é extremamente útil quando são tratados problemas de classificação. Enquanto
a função sigmóide 5 apresentada anteriormente consegue lidar com apenas duas classes,
esta função transforma as saídas de cada uma das classes em valores entre zero e um
e, no fim, divide pela soma das saídas. Essencialmente o resultado esperado aqui é a
probabilidade de uma determinada entrada estar em certa classe; é denotada pela seguinte
função:
exi
f (xi ) = Pk Xj
(2.5)
j=0 e
i = 0, 1, 2, ...k (2.6)
2.6.1.2 Rede Neural Multicamadas
Um dos modelos mais básicos de rede de apenas um neurônio é chamado de Per-

ceptron, entretanto, apesar de ser possível classificar padrões, apresenta grandes limitações
36
Figura 8: Função Softmax.
por agrupar somente dados linearmente separáveis. Uma vez que a maioria dos problemas
existentes não são lineramente separáveis, criou-se uma arquitetura mais robusta chamada
de Rede Neural Multicamadas (MLNN, do inglês Multi-layer Neural Network).
As MLNN (Figura 9) nada mais são que a distribuição de neurônios artificiais em
camadas, ou seja, são constituídas por uma ou mais camadas escondidas de neurônios e,
em geral são utilizadas problemas de classificação de padrões, otimização, robótica etc.
(SILVA; SPATTI; FLAUZINO, 2010). Cada Perceptron é apresentado na Figura 9 como
um nó, a primeira camada é a chamada camada de entrada, a última é a camada de saída
e todas as camadas intermediárias são chamadas de camada neural escondida.
Figura 9: Rede Neural Multicamadas.
(SILVA; SPATTI; FLAUZINO, 2010)

37
2.6.1.3 Treinamento de uma Rede Neural Artificial Multicamadas
Dá-se muito destaque às RNA em função da sua grande capacidade de aprendizado

partindo da apresentação de padrões que demonstram o comportamento do sistema. Este
treinamento consiste no ajustes dos pesos sinápticos ωi e do bias ωv de modo que o vetor de
saída seja o mais próximo possível da saída esperada, para isso a rede deve ter aprendido
qual é a relação entre as entradas e saídas.
Em geral, o conjunto total de amostras disponíveis sobre o comportamento de um
sistema é separado em dois conjuntos: o conjunto de treinamento e o conjunto de teste. O
primeiro atribuído ao treinamento da rede e o segundo para a verificação de eficiência.
2.7 Deep Learning (DL)
A motivação do desenvolvimento dos algoritmos de Aprendizado Profundo (do inglês

Deep Learning) foi pela existência de falhas nos algoritmos tradicionais em generalizar, ou
seja, falhas em se obter os ajustes ideais dos pesos sinápticos ωi e o bias ωv em tarefas de
IA como o reconhecimento de fala e objetos (GOODFELLOW; BENGIO; COURVILLE,
2016). De forma resumida DL faz referência a modelos de MLNN com duas ou mais
camadas escondidas e técnicas de treinamento eficientes para este tipo de modelo e que
apresentam resultados melhores em relação aos algoritmos tradicionais.
É imediata a percepção de que o aumento de camadas em uma RNA implica um
crescimento no número de parâmetros a serem ajustados durante a aprendizagem, logo é
de extrema importância que se tenha grande potencial de processamento e extenso banco
de dados.
2.7.1 Gradient Descent (GD)
O Gradiente Descendente (do inglês Gradient Descent) é um algoritmo de otimização

que visa a redução do erro da rede neural. Isto é realizado alterando-se os pesos sinápticos
e os limiares de ativação objetivando-se encontrar o mínimo local da função perda.
2.7.2 Stochastic Gradient Descent (SGD)
O chamado Método do Gradiente Estocástico (do inglês Stochastic Gradient Des-

cent) é um algortimo de otimização em aprendizado de máquina e aprendizado profundo
muito utilizado (GOODFELLOW; BENGIO; COURVILLE, 2016). O SGD é uma adapta-
ção do método GD abordado anteriormente, de modo que o primeiro busca a solução dos
problemas apresentados pelo segundo em grandes conjuntos de dados.
38
2.8 Convolutional Neural Network (CNN)
As Redes Neurais Convolucionais (do inglês Convolutional Neural Network) são

arquiteturas de DL que realizam uma subdivisão dos dados para tentarem extrair caracte-
rísticas de cada conjunto. Um objetivo da CNN é a redução do número de parâmetros
ajustáveis pela rede, objetivando melhorar o processo de treinamento. Uma das caracte-
rísiticas mais relevantes desta arquitetura é a sua invariância a escala, a translações e
outras transformações no sinal de entrada, em suma, ela tem a capacidade de realizar o
reconhecimento de padrões de forma mais automática e robusta.
As CNN são MLNN utilizadas de forma recorrente em tarefas com estruturas em
grades, como por exemplo, segmentação e classificação de imagens que são o cerne deste
projeto. As principais camadas a serem consideradas neste trabalho são: convolucionais,
de pooling e totalmente conectadas (do inglês fully-connected - FC).
A Figura 10 mostra um exemplo de uma CNN, a arquitetura neural LeNet-5,
proposta em 1998 com foco no reconhecimento de dígitos. Nota-se a presença dos três tipos
de camadas: as camadas convolucionais, camadas de pooling e as camadas totalmente
conectadas.
Figura 10: Arquitetura da Rede LeNet-5.
(LECUN et al., 1998)
É importante ressaltar que toda CNN é formada por uma sequência de camadas e
que cada uma dessas camadas presentes exercem uma função específica na propagação do
sinal de entrada. As camadas convolucionais são encarregadas da extração de atributos dos
volumes da entrada. As camadas de pooling são responsáveis pela redução da dimensão do
volume resultante após as camadas convolucionais atuarem e também são auxiliares no
que se diz respeito a tornar a representação invariante a pequenas translações na entrada.
As camadas totalmente conectadas são as encarregadas da propagação de sinal por meio
de multiplicações ponto a ponto e o uso de uma função de ativação. A saída da CNN
retorna a probabilidade da imagem da entrada pertencer a algumas das classes para qual
39
a rede recebeu treinamento (ARAÚJO et al., 2017).

As camadas convolucionais (do inglês Convolutional layers) são compostas por um
conjunto de filtros não-lineares que percorrem de forma sequencial os dados recebidos
na entrada, ou seja, percorrem todo o volume de entrada. No caso de uma camada
convolucional interna a uma rede neural, ela percorrerá os dados anteriores à sua existência.
Em suma, esta camada aplica a convolução de N filtros sobre a entrada, gerando N mapas
de ativação (ou mapas de características).
Cada um destes filtros possui dimensão reduzida, entretanto eles se estendem por
toda a profundidade do volume de entrada. Suponha por exemplo que uma imagem colorida
RGB é inserida na entrada e suponha também uma máscara 5 x 5, então esta imagem
possui 3 canais (R, G e B) e o filtro da primeira camada convolucional poderá ter o tamanho
5 x 5 x 3. Após essa varredura, são retornadas matrizes que são chamadas de mapas de
características (do inglês feature maps). Durante o treinamento da rede, automaticamente
os filtros são ajustados para que sejam ativados na presença de características relevantes
do volume de entrada, como orientação de bordas ou manchas de cores (LI; KARPATHY,
2015).
Cada um dos filtros presentes nas camadas convolucionais dão origem a uma
estrutura conecatada localmente que varre toda a extensão do volume de entrada; a
somatória do produto ponto a ponto entre os valores de um filtro da camada convolucional
e cada posição do volume de entrada é um evento conhecido como convolução, processo
ilustrado na Figura 12. Os valores obtidos após o evento de convolução passam ainda por
uma função de ativação que, geralmente, consiste na equação 2.4 da função ReLU citada
anteriormente.
2.8.1 Operação de Convolução

2.8.1.1 Convolução contínua
Antes de introduzir o conceito de Redes Neurais Convolucionais deve-se realizar

um breve estudo sobre a Operação de convolução.
Sejam duas funções f1 : R → R e f2 : R → R. Define-se como convolução a
operação linear, denotado por *, que computa a superposição de duas funções em função
de um deslocamento τ :
Z ∞
(f1 ∗ f2 )(t) = f1 (τ )f2 (t − τ )dτ (2.7)
−∞
2.8.1.2 Convolução discreta
A equação acima descreve a operação de convolução para um intervalo contínuo.

Entretanto, quando falamos em redes neurais artificiais, devemos tratar intervalos discretos,
40
ou seja:
∞
X
(f1 ∗ f2 )(n) = f1 (τ )f2 (n − τ ) (2.8)
τ =−∞
2.8.1.3 Convolução em imagens
No domínio espacial as imagens podem ser filtradas através de convoluções. O filtro

é aplicado numa imagem original I e uma matriz bidimensional simétrica qualquer Bk
(também conhecida com kernel) de dimensões m × n e produz uma imagem I 0 na saída.
Utilizando a equação 2.8 descreve-se a convolução na imagem como:
I 0 (i, j) = (I ∗ B)(i, j) =
XX
I(m, n)B(i − m, j − n) (2.9)
m n
A partir da interpretação da equação acima fica claro que a a operação de convolução

em imagens pode ser compreendida como a ação de movimentar a matriz B (kernel) sobre
toda a imagem e suas posições, calculando o produto escalar entre B e I(i, ..., i + m, j, ...j +
n). Para exemplificar, considere um filtro Laplaciano descrito pelo kernel:
 

0 1 0
BLaplaciano = 1 −4 1
 
 
0 1 0
O resultado da aplicação da convolução e do filtro Laplaciano descrito acima é

apresentado na Figura 11, à esquerda mostra-se a imagem original e à direita o resultado
da convolução.
Figura 11: Convolução com Laplaciano.

41
2.8.2 Convolutional layer (CL)
As camadas convolucionais (do inglês Convolutional layers) são compostas por um

conjunto de filtros não-lineares que percorrem de forma sequencial os dados recebidos
na entrada, ou seja, percorrem todo o volume de entrada. No caso de uma camada
convolucional interna a uma rede neural, ela percorrerá os dados anteriores à sua existência.
Em suma, esta camada aplica a convolução de N filtros sobre a entrada, gerando N mapas
de ativação (ou mapas de características).
Cada um destes filtros possui dimensão reduzida, entretanto eles se estendem por
toda a profundidade do volume de entrada. Suponha por exemplo que uma imagem colorida
RGB é inserida na entrada e suponha também uma máscara 5 x 5, então esta imagem
possui 3 canais (R, G e B) e o filtro da primeira camada convolucional poderá ter o tamanho
5 x 5 x 3. Após essa varredura, são retornadas matrizes que são chamadas de mapas de
características (do inglês feature maps). Durante o treinamento da rede, automaticamente
os filtros são ajustados para que sejam ativados na presença de características relevantes
do volume de entrada, como orientação de bordas ou manchas de cores (LI; KARPATHY,
2015).
Cada um dos filtros presentes nas camadas convolucionais dão origem a uma
estrutura conectada localmente que varre toda a extensão do volume de entrada; a
somatória do produto ponto a ponto entre os valores de um filtro da camada covolucional
e cada posição do volume de entrada é um evento conhecido como convolução, processo
ilustrado na Figura 12. Os valores obtidos após o evento de convolução passam ainda por
uma função de ativação que, geralmente, consiste na função ReLU da equação 2.4 citada
anteriormente.
Figura 12: Convolução de um filtro 3 x 3 e o volume de entrada.
(ARAÚJO et al., 2017)

42
A altura, a largura e o tamanho do volume de entrada de uma camada convolucional

varia conforme os dados percorrem a CNN. Esta variação depende de três parâmetros:
profundidade (do inglês depth), passo (do inglês stride) e zero-padding ou preenchimento
da camada que passará pela convolução.
2.8.2.1 Profundidade (do inglês Depth)
A profundidade no volume de entrada depende do número de filtros utilizados, ou

seja, no caso de uma imagem RGB a profundidade seria três, correspondendo aos canais
vermelho, verde e azul. Cada um dos filtros é responsável pela extração de características
distintas no volume de entrada, logo, quanto mais filtros presentes, mais características
extraídas, todavia com um custo computacional aumentado no que diz respeito ao tempo
de processamento e o uso da memória.
2.8.2.2 Passo (do inglês Stride)
Conforme colocado anteriormente, cada um dos filtros presente nas camadas convo-
lucionais dão origem a uma estrutura que varre toda a extensão do volume de entrada
de maneira sequencial. Esta varredura ocorre em passos, percorrendo cada pixel em uma
imagem ou de posição para posição em matrizes. Quando se toma o passo como sendo
igual a um, a altura e a largura da camada imediatamente depois será igual à entrada. Já
se for considerado um passo igual a dois, a saída, ou seja, a camada imediatamente depois,
terá metade do tamanho da entrada. É evidente que quanto maior o passo definido, menor
o volume resultante, entretanto o uso de passos muito grandes pode comprometer algumas
caracterísiticas importantes.
2.8.2.3 Padding
O processo de padding pode ser caracterizado pela inserção simétrica de novos

pixels ao redor da imagem colocada na entrada. Para filtros, em geral, realiza-se a inserção
de pixels com valor 0 (0-padding). Realiza-se este processo para que se tenha controle sobre
o tamanho da imagem de saída e que as bordas da imagem original sejam consideradas
efetivamente no processo de convolução.
2.8.3 Camada de Pooling
Em geral, após uma CL, utiliza-se uma camada de pooling. O objetivo principal
dessa camada é realizar a redução progressiva da dimensão espacial do volume de entrada,
o que resulta na diminuição do custo computacional da rede e evita overfitting (LI;
KARPATHY, 2015), ou seja, evita que a rede neural não consiga generalizar muito bem
por considerar detalhes específicos demais das amostras utilizadas para treino. A operação
desta camada consiste na realização de uma subamostragem de cada um dos mapas de
ativação (ou volumes da entrada). A saída desta camada é o mesmo número de volumes
43
Figura 13: Exemplo de zero-padding.
(PADARRAY, 2018)
recebidos na entrada, contudo subamostrados de um mesmo fator. A maneira mais comum

de se realizar o pooling consiste em substituir os valores de uma determinada região pelo
valor máximo contido nela (GOODFELLOW; BENGIO; COURVILLE, 2016), como pode
ser observado no exemplo abaixo.Suponha um mapa de ativação AM de tamanho 4 x 4
dado por:
 

50 10 33 44 
1 55 12 31 
 
AM = 
 
 0 123 155 177

 
13 65 57 90
Aplicando-se a operação de max pooling fazendo uso de um filtro de tamanho 2 x 2 e passo

igual a 2, obtém-se a saída AM’:
 
55 44 
AM 0 = 
123 177
Nota-se pelo exemplo acima que AM’ foi reduzida na metade, ou seja, por um
fator de 2, tornando a entrada mais simples e menor para as próximas camadas da rede
neural. Percebe-se que esta operação faz com que a CNN se torne invariante a pequenas
tranformações ou distorções na imagem. Todavia, existe uma perda de informação que até
certo ponto pode ser benéfica para evitar o overfitting.
44
2.8.4 Camada Fully-Connected
A saída das CL e das camadas de pooling representam caracterísiticas que foram

extraídas da imagem de entrada. O objetivo das camadas totalmente conectadas (do inglês
Fully-Connected Layers) é fazer uso dessas características para realizar a classificação da
imagem em uma classe pré-estabelecida. As camadas totalmente conectadas são iguais
a uma rede neural artificial convencional (Multi Layer Perceptron ou MLP)(HAYKIN,
2001). Esta camada, em geral, é utilizada na saída da CNN, onde as dimensões dos dados
são menores que a entrada da RNA. Pode-se dizer que esta camada é utilizada como
uma forma de aprender funções não lineares com base em combinações das características
extraídas de camadas anteriores.
2.8.4.1 Dropout
A técnica de dropout (GOODFELLOW; BENGIO; COURVILLE, 2016) é comu-

mente utilizada entre as camadas totalmente conectadas buscando a redução do tempo
de treinamento e como uma ferramente para se evitar overfitting. Tal técnica consiste na
remoção, de maneira aleatória e a cada iteração do treinamento, uma certa quantidade
dos neurônios de uma camada, adicionando-os novamente na iteração seguinte. Por meio
desta técnica também se confere à rede a capacidade de aprender atributos mais robustos,
pois um neurônio não pode ter uma relação de dependência com a presença de outros
neurônios específicos.
2.9 Redes Neurais Convolucionais Multicanais
As CNN clássicas são conhecidas por sua aplicação em apenas um canal. Ou seja,
supondo uma imagem sendo inserida na entrada na rede, esta imagem será repassada de
forma linear entre as camadas até que a última camada produza a saída.
Uma CNN de N canais se caracteriza por receber múltiplas entradas que são
processadas paralelamente até certo ponto dentro da rede, após, os fluxos de processamento
se encontram para que então se realize o processamento serial. Em geral, o ponto de
concatenação dos processamentos paralelos está localizado antes da primeira camada
fully-connected, em outras palavras, concentra-se entre as camadas de convolução.
2.10 Exemplos de arquiteturas de CNNs
Utilizou-se em seções anteriores a LeNet-5 para se explicar conceitos em relação às

redes neurais, principalmente no que se diz respeito às camadas principais que compõe as
CNNs. As arquiteturas que surgiram no decorrer da última década são, em geral, formadas
basicamente pelas mesmas camadas presentes na LeNet. Algumas dessas variações serão
45
abordadas em sequência, incluindo a arquitetura inspiradora para a que é usada neste

trabalho.
2.10.1 AlexNet
Com origem no ano de 2012, a AlexNet foi criada por Krizhevsky e outros pesqui-
sadores (KRIZHEVSKY; SUTSKEVER; HINTON, 2012) que é constituída basicamente
por: cinco camadas convolucionais, camadas de max-pooling e três camadas totalmente
conectadas com dropout.
Esta arquitetura foi desenvolvida para poder classificar imagens em 1.000 possíveis
categorias; em 2012, foi vencedora do desafio de classificação ILSVRC 2012 (ImageNet
Large Scale Visual Recognition Challenge) (DENG et al., 2009).Neste evento regitrou-se
a primeira vez em que uma CNN atingiu o primeiro lugar e com uma diferença bem
significativa em relação ao segundo colocado . Logo, esta rede proposta representou um
avanço em relação às outras abordagens, inclusive porque inspirou uma série de outras
redes convolucionais para o reconhecimento de padrões.
2.10.2 ZF Net
Uma série de artigos foram submetidos à ILSVRC 2013 inspirados pelo sucesso da
AlexNet no evento de 2012. Na ocasião o vencedor foi a rede construída por Zeiler e Fergus
(ZEILER; FERGUS, 2014). A arquitetura desta rede baseou-se na AlexNet com leves
alterações e diminuição dos filtros e do passo na primeira camada. Entretanto, a maior
colaboração de Zeiler e Fergus se deu com o detalhamento e criação da técnica DeConvNet
(Deconvolutional Network). Este algoritmo consistia numa forma de se visualizar os mapas
de características das redes.
O cerne desta técnica desenvolvida é relacionar a cada uma das camadas con-
volucionais presentes na rede a DeConvNet, reponsável por transformar os mapas de
características em uma imagem constituída por pixels. A técnica DeConvNet funciona
com a realização de operações de pooling reversas até que se obtenha o tamanho original
da imagem recebida na entrada. Utilizando essa operação é possível verificar como cada
uma das camadas convolucionais visualiza a imagem de entrada e quais são as porções
da imagem que estão ativando os filtros. Na Figura 14 pode-se visualizar as regiões de
ativação e suas respectivas imagens de entrada.
2.10.3 Rede Visual Geometry Group VGG
A CNN VGG (do inglês Visual Geometry Group) foi proposta por Simonyan
e Zisserman (SIMONYAN; ZISSERMAN, 2014) em 2014 e foi a primeira a fazer uso
de filtros pequenos (3x3) em cada uma das camadas convolucionais. A inovação desta
arquitetura está justamente no tamanho dos filtros, uma vez que nas arquiteturas anteriores
46
Figura 14: Exemplo de imagens de entradas e regiões de ativação.
Modificada de (DESHPANDE, 2016)
trabalhava-se com filtros maiores. A colaboração da VGG está na ideia de que uma série
de convoluções 3x3 em sequência podem substituir de forma satisfatória os efeitos de
filtros de máscaras maiores o que resultava em um custo computacional menor. Testou-se
para tanto seis diferentes arquiteturas, elencadas na Figura 14, e o melhor desempenho
foi da arquitetura rotulada por D, constituída de treze camadas convolucionais, cinco
de max-pooling e três Fully-Connected. Na Figura 15 é possível visualizar as 6 diferentes
arquiteturas VGG, resssaltando que a arquitetura representada por D foi a que apresentou
melhor desempenho.
2.10.4 GoogLeNet e Inception
Em função dos resultados apresentados CNNs que começaram a surgir e do aumento

da acurácia dos algoritmos, uma série de empresas, incluindo o Google, tinham um intesse
muito grande em diminuir a complexidade e aumentar a eficiência de arquiteturas já
existentes. Dessa forma, em 2014, uma das equipes de engenheiros do Google propuseram o
modelo chamado de GoogLeNet (SZEGEDY et al., 2015), Figura 16, campeã do ILSVRC
2014.
47
Figura 15: As 6 diferentes arquiteturas VGG.
Figura 16: Arquitetura da GoogLeNet.
Pela figura 16, identifica-se que alguns blocos da rede eram executados em paralelo.
Esses blocos foram chamados de Inceptions (Figura 17) e nada mais são do que combinações
paralelas de camadas com filtros convolucionais de tamanhos: 1x1, 3x3 e 5x5. Este módulo
tinha como maior vantagem o uso dos filtros 1x1 na convolução, pois reduziam o número
48
de características no bloco paralelo antes de realizar as convoluções com filtros maiores.
Figura 17: Arquitetura dos blocos Inceptions.
Nasceu naquele momento a primera arquitetura de CNNs que introduzia a ideia

de que as camadas não precisavam ser executadas sempre sequencialmente. A sequência
de Inceptions representaram uma diminuição considerável do custo computacional. No
ano seguinte à criação da Inception, criou-se a Inception-v4 (SZEGEDY et al., 2017) que
obteve ainda mais acurácia que o modelo anterior.
2.10.5 Microsoft e Resnet
A rede Resnet (HE et al., 2016a) nasce no ILSVRC 2015, proposta por pesquisadores
da Microsoft e, na ocasião, foi vencedora do evento. Surpreendentemente o desempenho
desta rede foi superior ao de seres humanos.
A Resnet consistia em 152 camadas e era formada por blocos residuais (do inglês
Residual Blocks), cuja ideia fundamental era fazer com que uma entrada x passasse por
uma série de operações chamadas de convolução-ReLu-Convolução. O resultado desta
operação, F (x), era adicionado à entrada original x, como ilustrado na Figura 18 e na
Equação 2.10 ilustradas abaixo.
H(x) = F (x) + x (2.10)
Nas CNNs tadicionais o resultado do processamento H(x) é igual ao F (x), resultado

diferente ao mostrado pela Equação 2.10. Foram feitos testes desta arquitetura com redes
de até 1.202 camadas, entretanto, para valores acima de 152, começaram a sofrer overfitting
49
Figura 18: Arquitetura do bloco residual.
e com isso perdiam a capacidade de generalização necessária para uma rede neural ter
bom desempenho, ou seja, boa acurácia no reconhecimento de padrões.
2.10.5.1 Resnet-34
Inspirada na Resnet (item 2.10.5) a Resnet-34 foi proposta em 2016 no paper Deep
Residual Learning for Image Recognition (HE et al., 2016b) e era composta por 34 camadas.
No artigo se diz que quando uma DCNN começa a convergir, surge um grande problema de
degradação. Para a correção deste problema insere-se o bloco residual; solução já exibida
pela Figura 18.
51
3 MATERIAIS E MÉTODOS
Nesta seção são apresentados os trabalhos desenvolvidos durante este projeto; sendo
que em cada uma das subseções serão tratados os assuntos relativos a cada etapa do
método proposto.
3.1 Método proposto
Figura 19: Fluxograma do método proposto.

52
O método proposto para o reconhecimento facial recebe como entrada imagens

do banco de dados da loja, oriundas de três câmeras diferentes: uma posicionada na
entrada, uma na saída dos caixas e outra posicionada na saída dos não compradores,
cujas imagens são armazenadas cada uma no seu banco. Em seguida, as imagens da
entrada e das duas saídas têm as faces detectadas, são pré-processadas e após são varridas
por um modelo de DCNN para gerar o mapa de informações que serão utilizados para
comparação posteriormente. Na Figura 19, exibe-se o fluxo de trabalho do programa e a
seguir explica-se a função de cada um dos blocos de uma forma mais profunda, bem como
os materiais utilizados para que cada uma das etapas fosse cumprida.
3.2 Imagens capturadas na entrada, saída dos compradores e saída dos não com-
pradores
Nestas etapa realizou-se a captura da entrada, saída dos compradores e saída de

não compradores. São três câmeras posicionadas estrategicamente dentro das lojas de
modo a se fazer apenas a captura das pessoas entrando ou saindo da loja, gerando 3
frames por segundo cada uma delas. Se a câmera estiver posicionada de modo que esteja
capturando clientes durante as compras, desconsidera-se as faces daquela região.
As câmeras são sempre de alguns dos dois modelos apresentados na Figura 20
abaixo:
Figura 20: Câmera IP Bullet NDVLM4MCM-2.8A12 e Câmera IP Dome NDVLM4MCM-

2.8A12.
Fonte: Manual do representante.
As principais características e diferenças entre as câmeras são:

53
• NDVLM4MCM-2.8A12 (à esquerda): câmera IP, geralmente utilizada na entrada da

loja e resolução de 2 megapixel (1920 x 1080);
• NDVLM4MCM-2.8A12 (à direita): câmera IP, geralmente utilizada na saída dos

compradores e saída dos não compradores, resolução de 4 megapixel (2592 x 1520) e
construída na forma de domo.
3.3 Banco de imagens de entrada, saída dos compradores e saída dos não compra-
dores
Após a captura das imagens, elas são enviadas para um servidor local, cujas
configurações variavam de loja para loja, por meio de rede interna, já que as câmeras são
câmeras acessáveis por IP. No servidor as imagens são separadas em 3 diferentes pastas que
são acessadas pelo software responsável pelo processamento das imagens e informações.
3.4 Detecção de faces
Rotina executada nas imagens adquiridas na entrada e nas duas saídas, funciona
por meio da utilização de uma função presente na Dlib, biblioteca do Python, que funciona
fazendo o uso do algoritmo HOG.
3.4.1 Dlib
Uma das principais bibliotecas para o funcionamento deste projeto, a Dlib é

originalmente implementada para a linguagem C++, compatível com Python, que contém
uma série de algoritmos de ML e ferramentas que permitem trabalhar com uma série de
problemas de detecção e reconhecimento de padrões.
Uma das funções da Dlib que foi utilizada neste projeto tem como objetivo encontrar
quais e quantas são as faces presentes em uma determinada imagem, ela baseia seu
funcionamento no método HOG.
Esta função recebe como entrada as imagens, redimensionadas pela metade, que
serão processadas e retorna como saída um índice atribuído a cada detecção e as coordenadas
de cada uma das faces encontradas.
3.5 Pré-processamento
Após receber as coordenadas das faces detectadas, por questões de conveniência

e velocidade de processamento, as imagens recebidas com um plano de fundo cheio de
informações não importantes, do ponto de vista da aplicação do software, têm as faces
separadas do restante da imagem.
Na solução desenvolvida é importante que as faces sejam separadas do restante das
informações presentes nas imagens para uma melhor descrição. A Figura 21 demonstra
54
a imagem que passa pelo pré-processamento e a Figura 22 mostra as duas faces pré-
processadas.
Figura 21: Imagem de entrada no pré-processamento.
Figura 22: Resultados do pré-processamento.
Todas as etapas de pré-processamento são feitas fazendo uso de outra ferramenta

extremamente importante para o funcionamento de projeto: a biblioteca Opencv.
3.5.1 Opencv
A Opencv é uma biblioteca muito utilizada em visão computacional e oferece

suporte para uma série de linguagens de programação: C, C++, Python e Java. Oferece
uma série de funções para a manipulação de imagens e pode ser aplicada em soluções
estudantis e comerciais.
55
3.6 Aplicação da rede neural
Após a captação das imagens e pré-processamento, realiza-se a aplicação do modelo

de DCNN reponsável pela extração dos vetores de características de cada uma das imagens
recebidas na entrada.
Utilizou-se neste projeto um modelo de Rede Neural Convolucional Profunda já
pré-treinada e de domínio público, portanto podendo ser utilizada para fins comerciais
e estudantis. A arquitetura do modelo utilizado é uma ResNet-29 (KING, 2017) que,
essencialmente, é uma adaptação da ResNet-34 (HE et al., 2016b) com algumas camadas
removidas e o número de filtros por camada reduzido pela metade.
De acordo com o autor da rede, (KING, 2017), o modelo pré-treinado utilizado teve
seu treinamento realizado com cerca de 3 milhões de faces de 7.485 pessoas diferentes e
obteve a incrível acurácia de 99,38% quando foi testado nas imagens disponíveis na Labeled
Faces in the Wild, base de dados projetada para o estudo de problemas de reconhecimento
facial sem restrições. Estes resultados podem ser comparados a outros modelos que são o
considerados o estado da arte de DCNN para reconhecimento facial.
Quando as imagens das faces chegam neste ponto, o software realiza o número de
interações necessárias para gerar um espaço vetorial de 128 dimensões de cada uma das
faces presentes na imagem, ou seja, para uma imagem com N faces encontradas, geram-se
N pequenas imagens de face para captura do vetor de informações e composição do mapa
de informações de cada uma delas e mais algumas outras caraceterísticas como: gênero,
estimativa de idade, hora de entrada ou saída e local de entrada ou saída .
Para a geração do mapa de informações, por meio da varredura do modelo na
imagem, utilizou-se novamente uma função disponível no pacote Dlib.
3.7 Buffer no fluxo de entrada
Em função da aplicação de DCNN, tratamento de imagens relativamente grandes

e pelo fato das pessoas demorarem um tempo razoável para realizar suas compras e ir
para o caixa ou saírem por não terem encontrado o produto, fez-se necessária a criação de
um buffer para "empilhar"os mapas de características encontrados na entrada (Figura 23),
para que fosse possível fazer as comparações com os mapas de características das imagens
da saída.
É importante mencionar que nas saídas não se faz o mesmo, pois o software foi
desenvolvido de maneira que assim que o mapa de características é gerado na saída ele já
é comparado com as entradas.
56
Figura 23: Buffer
3.8 Cálculo da distância euclidiana
Conforme exposto e discutido em (SCHROFF; KALENICHENKO; PHILBIN,

2015), uma maneira de avaliar se duas imagens de face pertencem à mesma pessoa é
calcular a distância euclidiana entre os valores pretencentes aos mapas de características
dessas duas imagens.
A distância euclidiana pode ser calculada como se apresenta na Equação 3.1, na
qual p e q são os valores dos vetores a serem analisados e d(p, q) é a distância L2.
v
q u n
uX
d(p, q) = d(q, p) = (q1 − p1 )2 + (q2 − p2 )2 + ... + (qn − pn 2
) =t (q i − pi ) 2 (3.1)
i=1
A equação acima foi facilmente implementada no Python, não demandando a inclusão de

biblioteca alternativa.
3.9 Decisão sobre o resultado da distância euclidiana
Também apresentado em (SCHROFF; KALENICHENKO; PHILBIN, 2015), em

linhas gerais, faces com distância euclidiana menor ou igual a 0,6 pertencem à mesma
pessoa.
Caso a distância euclidiana seja maior que 0,42 (detalhes sobre este valor serão
discutidos mais adiante), continua-se realizando iterações até que seja encontrada a menor
distância euclidiana possível entre saída e entrada.
Ao se encontrar um match, mesma pessoa na saída e na entrada, envia-se uma série
de informações ao banco de dados. No caso de ser um comprador, envia-se ao banco dos
compradores: data, hora de entrada, hora de saída, gênero, idade e os 2 vetores euclidianos
57
de 128 valores pertencentes àquela pessoa. No caso de um não comprador são enviadas as
mesmas informações, porém para um banco diferente. Ao final desta etapa de escrita no
banco de dados limpa-se o espaço no buffer.
3.10 Processamento das informações recebidas
Por fim, em posse de todas as informações, data, hora de entrada, hora de saída,
gênero, idade e número de pessoas, derivam-se uma série de valores importantes para a loja
para medição e otimização dos resultados: tempo de permanência, tempo de permanência
por gênero, média de compradores, média de não compradores, média de compradores por
gênero, média de não compradores por gênero, taxa de conversão média, taxa de conversão
média por gênero e idade.
São levantados também dados indiretos: número de compradores por dia da semana,
número de compradores por hora, melhores dias em taxa de conversão, melhores meses em
taxa de conversão e melhores ações publicitárias etc.
Todos os parâmetros calculados acima são exibidos em televisões na sala dos
gestores para que eles possam realizar interpretações sobre o comportamento e medir o
desempenho da loja, cruzando estas informações obtidas com as vendas efetuadas, podendo
atuar em tempo real na otimização dos resultados.
59
4 RESULTADOS E DISCUSSÃO
Levando em consideração todas as informações citadas anteriormente, os resultados

aqui expostos contemplam tanto os descritores HOG utilizados na detecção facial, quanto
os resultados da aplicação da DCNN para o reconhecimento facial.
As imagens capturadas pelas câmeras bem como os matches obtidos não podem
ser mostrados neste trabalho para preservar os direitos de imagem.
4.1 Auditoria visual da detecção facial
4.1.1 Acurácia Dlib e HOG
Conforme mencionado no capítulo anterior, a detecção facial é realizada com a

utilização de uma função da biblioteca Dlib que faz uso do algoritmo HOG para a detecção
facial. A tabela abaixo demonstra o desempenho desta parte do software quando testada
em uma série de amostras de diferentes lojas.
Tabela 1: Acurácia dos testes de detecção facial.
Amostra Número de imagens Número de faces Falsos positivos Acurácia (%)

Amostra 1 2.546 3.039 81 96,8%
Amostra 2 2.546 4.633 23 99,5%
Amostra 3 2.546 4.733 66 98,6%
O que diferencia cada uma das amostras acima é o ambiente onde as imagens foram
adquiridas; apesar das câmeras, em geral, serem as mesmas em todas as lojas, outros
fatores, inerentes a uma ambiente não controlado: iluminação, distância e ângulo, mudavam.
Portanto, observar que o HOG teve um desempenho semelhante nas três amostras, conferiu
mais confiança ao método.
4.1.2 Tempo de processamento Dlib e HOG
Aqui lenvata-se um dos pontos que exigiu um posicionamento estratégico em relação

ao desenvolvimento do software e o fato da solução estar embarcada em mercados varejistas
e depender de um hardware não dedicado para a execução. Em uma primeira versão da
solução, as imagens passavam pelo pré-processamento para a remoção de ruídos, mas
não eram reduzidas antes de serem recebidas pelo HOG; o resultado era uma fila muito
grande no buffer de entrada, fato que influenciava diretamente no tempo de permanência
calculado na saída, uma vez que as imagens de saída tinham que aguardar o término do
processamento da entrada. Para mitigar o problema decidiu-se fazer um redimensionamento
das imagens pela metade, pois constatou-se que a acurácia não era afetada pela mudança.
60
Posteriormente, partindo da informação de que todos os hardwares disponíveis nas

lojas, onde a solução seria embarcada, eram compostos por computadores multicore, adotou-
se uma postura de desenvolvimento da aplicação em multithreading, contudo, o fato da
biblioteca Dlib ser desenvolvida em C++ e ser apenas compatível com o Python inviabilizou
a implementação do multithreading. Após estas constatações, passou-se a desenvolver o
software em uma terceira versão para ser executado com multiprocessamento.
4.2 Auditoria visual do reconhecimento facial
4.2.1 Resultados da DCNN modelo ResNet-29 para a obtenção dos matches
Foram realizadas uma série de auditorias nos matches até que se ajustasse a
distância euclidiana ideal, relacionando o menor número de falsos positivos com o maior
número de matches verdadeiros. Para amostras com faces retiradas de diversas fontes,
mas perfeitamente frontais e boa iluminação a acurácia do software ficou próxima a 100%.
Entretanto, para ambientes não controlados com variações muito grandes de iluminação,
angulação e qualidade de imagem os resultados são exibidos abaixo.
Tabela 2: Acurácia dos testes de reconhecimento facial.
Amostra Número de pares (matches) Acertos Erros Acurácia (%)

Amostra 1 280 161 119 57,5%
Amostra 2 280 170 110 60,7%
Amostra 3 280 163 117 58,2%
Os números das acurácias das 3 amostras são, aparentemente baixos, porém foram
feitas uma série de constatações em relação ao ambiente:
• em aproximadamente 60% dos erros encontrados nos matches ou a face da entrada

ou a face da saída era de pessoas que utilizavam óculos;
• em 20%, a imagem de entrada ou da saída, apresentou o efeito rolling-shutter em

função do tempo de exposição configurado nas câmeras utilizadas;
• o restante dos erros não apresentaram nenhum padrão que pudesse ser considerado.
Foram feitas uma série de tentativas de correção de pessoas que utilizam óculos;
foram testados o processo de erosão, a aplicação de filtros Sobel e alguns métodos de
equalização de histograma, entretanto nenhum deles surtiu efeito para a melhora da
acurácia do sistema de reconhecimento facial.
61
4.2.2 Resultados da DCNN modelo ResNet-29 para o reconhecimento de gênero
Além dos matches entra saídas e entrada, o software também fazia o reconhecimento
de gênero por meio da comparação das faces com outras previamente classificadas como
homem ou mulher. A seguir são apresentados os resultados de uma série de auditorias
visuais realizadas para se avaliar o desempenho do software na classificação dos gêneros. A
matriz de confusão leva em consideração 2.546 imagens que geraram o seguinte resultado
Figura 24:
Figura 24: Matriz de confusão da classificação de gênero

63
5 TRABALHOS FUTUROS
No contexto deste trabalho ainda existem uma série de testes e modificações

para serem testadas visando a evolução da solução proposta e a melhora dos resultados
alcançados para o reconhecimento facial.
Do ponto de vista do pré-processamento das imagens é possível que se obtenha
evolução na acurácia do reconhecimento facial com a aplicação de filtos durante esta
etapa. Filtros realçadores de borda, como por exemplo o filtro Sobel, podem melhorar os
resultados satisfatoriamente. Em Contribuição à Abordagem de Problemas de Classificação
por Redes Convolucionais Profundas de (MARQUES et al., 2018), pode-se observar
resultados promissores no que diz respeito à aplicação deste filtro.
Tratando especificamente do modelo utilizado, uma vez que se fez uso de um modelo
já treinado para a extração do mapa de características, pode-se dizer que o ajuste dos
pesos sinápticos pode não ser o ideal para alguns ambientes testados. Logo, treinar um
modelo específico para as imagens capturadas nos ambientes onde a aplicação é utlizada
também poderá apresentar evolução nos resultados.
65
6 CONCLUSÃO
O objetivo desse trabalho foi o desenvolvimento de um método computacional para

fornecer índices para decisões estratégicas em lojas do varejo. Para isso, foram utilizados
os métodos: HOG para a detecção de faces e DCNN para o reconhecimento facial . Além
da discussão sobre a acurácia destas duas etapas do software, também discutiu-se o como
fatores de ambientais não controlados podem influenciar no resultado final dos índices.
Nessas linhas gerais, a análise do método HOG, para uma série de amostras
diferentes, mostrou-se extremamente eficiente na localização de faces. Como visto, nas
3 amostras trabalhadas, a acurácia desta parte do software acertou em quase 100% das
vezes em que considerou uma imagem como face.
Já a implementação reponsável pelo reconhecimento facial e composição dos matches
mostrou-se, salvo eventuais condições quase perfeitas, resultados inferiores a 60% no
que se diz respeito à acurácia. Como exposto anteriormente, o autor da rede, (KING,
2017), obteve resultados superiores a 99% quando testou uma solução semelhante a esta
utilizando a base de imagens Labeled Faces in the Wild, que é composta de capturas em
ambientes perfeitamente controlados. Logo, a diferença de acurácia pode ser atribuída
majoritariamente ao fato de que a solução proposta por este trabalho foi aplicada em
ambientes não controlados que apresentavam, por exemplo, grandes variações de angulação
nas faces, iluminação e expressões.
A escolha do HOG e das DCNN para detecção e reconhecimento facial para o
levantamento das informações se deu por se tratarem de soluções extremamente difundidas
em artigos científicos para um sistema de reconhecimento facial completo além de, por
meio da utilização da linguagem de programção Python e as bibliotecas Opencv e Dlib,
serem soluções de baixo custo, podendo ser facilmente implementadas e incoporadas aos
mercados varejistas.
É muito claro que esta é uma versão inicial desse tipo de aplicação no varejo; há
muito que se evoluir na solução para a melhora dos resultados. O ajuste do tempo de
exposição para se evitar o efeito rolling shutter em conjunto com o desenvolvimento de
algoritmos corretivos para pessoa que utilizam óculos e algoritmos de alinhamento de faces
certamente implicariam numa melhora considerável na acurácia do software.
67
REFERÊNCIAS
ARAÚJO, F. H. et al. Redes neurais convolucionais com tensorflow: Teoria e prática.

SOCIEDADE BRASILEIRA DE COMPUTAÇÃO. III Escola Regional de
Informática do Piauí. Livro Anais-Artigos e Minicursos, Sociedade Brasileira de
Computação, v. 1, p. 382–406, 2017.
ARTERO, A. O. Inteligência Artificial: teórica e prática. 1ª. ed. [S.l.]: Livraria da

Física, 2009. ISBN 9788578610296.
CUNHA, M. R. R. L. da. Práticas contemporâneas de gestão de marketing: o uso da

inteligência competitiva. um relato sobre o case target corporation1. 2017.
DALAL, N.; TRIGGS, B. Histograms of oriented gradients for human detection. In:
2005 IEEE Computer Society Conference on Computer Vision and Pattern
Recognition (CVPR’05). [S.l.: s.n.], 2005. v. 1, p. 886–893 vol. 1. ISSN 1063-6919.
DENG, J. et al. Imagenet: A large-scale hierarchical image database. In: IEEE. Computer
Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on.
[S.l.], 2009. p. 248–255.
DESHPANDE, A. The 9 deep learning papers you need to know about (understanding
cnns part 3). University of California, Los Angeles (UCLA), 2016.
GONZALEZ, R. C.; WOODS, R. E. Processamento digital de imagens. 1ª. ed. [S.l.]:

Edgard Blücher Ltda., 2000. ISBN 9788521202646.
GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning. [S.l.]: MIT Press,
2016. <http://www.deeplearningbook.org>.
HAYKIN, S. Redes neurais: Princípios e prática. 2ª. ed. [S.l.]: Bookman, 2001. ISBN
0132733501.
HE, K. et al. Deep residual learning for image recognition. In: Proceedings of the
IEEE conference on computer vision and pattern recognition. [S.l.: s.n.], 2016.
p. 770–778.
. Deep residual learning for image recognition. In: Proceedings of the IEEE
conference on computer vision and pattern recognition. [S.l.: s.n.], 2016. p.
770–778.
KAZEMI, V.; SULLIVAN, J. One millisecond face alignment with an ensemble of

regression trees. In: Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition. [S.l.: s.n.], 2014. p. 1867–1874.
KING, D. High Quality Face Recognition with Deep Metric Learning. 2017.
KRIZHEVSKY, A.; SUTSKEVER, I.; HINTON, G. E. Imagenet classification with

deep convolutional neural networks. In: Advances in neural information processing
systems. [S.l.: s.n.], 2012. p. 1097–1105.
68
LAWRENCE, S. et al. Face recognition: a convolutional neural-network approach. IEEE

Transactions on Neural Networks, v. 8, n. 1, p. 98–113, Jan 1997. ISSN 1045-9227.
LECUN, Y. et al. Gradient-based learning applied to document recognition. Proceedings

of the IEEE, v. 86, n. 11, p. 2278–2324, Nov 1998. ISSN 0018-9219.
LI, F.-F.; KARPATHY, A. Convolutional neural networks for visual recognition.

2015.
LI, S. Z.; JAIN, A. K. Handbook of Face Recognition. 2nd. ed. [S.l.]: Springer
Publishing Company, Incorporated, 2011. ISBN 085729931X, 9780857299314.
MARQUES, A. C. R. et al. Contribuição à abordagem de problemas de classificação por

redes convolucionais profundas. [sn], 2018.
PADARRAY. [S.l.]: MathWorks, 2018. <https://www.mathworks.com/help/images/ref/

padarray.html>.
PUEO, B. et al. High speed cameras for motion analysis in sports science. Universidad de
Alicante. Área de Educación Física y Deporte, 2016.
ROEDEL, D. Estratégia e inteligência competitiva. Gestão estratégica da informação

e inteligência competitiva. São Paulo: Saraiva, p. 67–86, 2005.
SCHROFF, F.; KALENICHENKO, D.; PHILBIN, J. Facenet: A unified embedding

for face recognition and clustering. In: Proceedings of the IEEE conference on
computer vision and pattern recognition. [S.l.: s.n.], 2015. p. 815–823.
SILVA, I. N. d.; SPATTI, D. H.; FLAUZINO, R. A. Redes neurais artificiais: para

engenharia e ciências aplicadas. 6ª. ed. [S.l.]: Artliber, 2010. ISBN 9788588098534.
SIMONYAN, K.; ZISSERMAN, A. Very deep convolutional networks for large-scale image
recognition. arXiv preprint arXiv:1409.1556, 2014.
SZEGEDY, C. et al. Inception-v4, inception-resnet and the impact of residual connections

on learning. In: AAAI. [S.l.: s.n.], 2017. v. 4, p. 12.
. Going deeper with convolutions. In: Proceedings of the IEEE conference on

computer vision and pattern recognition. [S.l.: s.n.], 2015. p. 1–9.
ZEILER, M. D.; FERGUS, R. Visualizing and understanding convolutional networks. In:

SPRINGER. European conference on computer vision. [S.l.], 2014. p. 818–833.
ZHAO, W. et al. Face recognition: A literature survey. ACM Comput. Surv., ACM,
New York, NY, USA, v. 35, n. 4, p. 399–458, dez. 2003. ISSN 0360-0300. Disponível em:
<http://doi.acm.org/10.1145/954339.954342>.

Reconhecimento Facial Inteligente para Otimização em Lojas

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Reconhecimento Facial Inteligente para Otimização em Lojas

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE DE SÃO PAULO

ESCOLA DE ENGENHARIA DE SÃO CARLOS

Gustavo Henrique Rigamonti

Sistema de Reconhecimento Facial Baseado em Redes

Sistema de Reconhecimento Facial Baseado em Redes

Monografia apresentada ao Curso de Enge-

Orientador: Prof. Dr. Marcelo Andrade da

RIGAMONTI, G. H. Sistema de Reconhecimento Facial Baseado em Redes

Palavras-chave: Inteligência competitiva. Reconhecimento Facial. Visão computacional.

RIGAMONTI, G. H. Face Recognition System Based on Deep Convolutional

Competitive intelligence is an increasingly more present matter to the routine of managers

Keywords: Competitive intelligence. Facial recognition. Computer vision. Identification

Figura 1 – Faces com 194 Landmarks cada. . . . . . . . . . . . . . . . . . . . . . . 30

Tabela 1 – Acurácia dos testes de detecção facial. . . . . . . . . . . . . . . . . . . 59

HOG Histograms of Oriented Gradients

DCNN Deep Convolutional Neural Network

RNA Rede Neural Artificial

MLNN Multi-layer Neural Network

SGD Stochastic Gradient Descent

CNN Convolutional Neural Network

2 CONCEITOS E BASE TEÓRICA . . . . . . . . . . . . . . . . . . . 29

Em um mercado cada vez mais competitivo, as grandes empresas varejistas têm

do crescimento da aplicação em diversos segmentos. Nos últimos anos pode-se notar um

Atualmente muito se desenvolve acerca das tecnologias de reconhecimento facial

Nesse contexto, o presente trabalho tem como objetivo o desenvolvimento de uma

e armazenados em banco de dados visando se obter informações sobre clientes e seus

2 CONCEITOS E BASE TEÓRICA

2.1 Inteligência Competitiva

Em um mercado cada vez mais competitivo, as grandes empresas do mercado se

2.2 Pré-processamento de imagens digitais

Após a obtenção de uma imagem, o passo imediatamente seguinte consiste no

2.3 Landmarks ou Pontos de controle

O reconhecimento da face e a comparação entre faces são diretamente afetados pela

Figura 1: Faces com 194 Landmarks cada.

(KAZEMI; SULLIVAN, 2014)

2.4 Histograms of Oriented Gradients (HOG)

A fundamentação principal acerca do descritor Histograma de Gradientes Orientados

• cálculo de gradiente dos pixels;

• agrupamento de pixels em células;

• agrupamento de células em blocos;

Em um primeiro momento aplicam-se máscaras derivada discreta pontual, tanto

Figura 2: Descritores HOG.

Modificada de (DALAL; TRIGGS, 2005).

2.5 Efeito rolling-shutter

Figura 3: Exemplo de captura dos dois tipos de obturadores.

(PUEO et al., 2016)

2.6 Machine Learning (ML)

2.6.1 Redes Neurais Artificiais

As Redes Neurais Artificiais (RNA) foram desenvolvidas em meados do ano de

Figura 4: Neurônio Artificial.

O modelo acima representa, graficamente, o corpo do neurônio artificial e cada elemento

• (b) Pesos ou pesos sinápticos ωi : parâmetro que determina a influência da entrada

• (d) Função de ativação f : a função de ativação aplica uma não-linearidade no valor

• (e) Saída Y : resultado estimado pelo neurônio.

2.6.1.1 Função de ativação

Em geral as funções de ativação são funções não-lineares acopladas ao final da

Figura 5: Função sigmóide.

Fonte: autoria própria.

A função tangente hiperbólica, Figura 6, tem como saída valores entre -1 e 1 e é

tanh(x) = 2f (2x) − 1 (2.3)

Figura 6: Função Tangente Hiperbólica.

Fonte: autoria própria.

2.6.1.1.1 Função ReLU