Você está na página 1de 14

Um estudo emprico de um sistema de reconhecimento facial utilizando

o classificador KNN
Fabio Abrantes Diniz1
Thiago Reis da Silva2
Francisco Eduardo Silva Alencar3

Resumo: Neste artigo, apresenta-se um estudo emprico de otimizao das taxas de acurcias
resultantes de um sistema de reconhecimento facial baseado nas tcnicas Eigenfaces e K-Nearest
Neighbors. Foram investigadas as seguintes variveis: imagens com trs dimenses distintas,
nmero de caractersticas (Eigenfaces), valores de k da tcnica K-Nearest Neighbors e trs
medidas de distncia (euclidiana, Manhattan e euclidiana normalizada). Os estudos foram
importantes para entender empiricamente quais parmetros so os mais relevantes para as tcnicas
analisadas e que resultam em melhores taxas de acurcias de reconhecimento facial. Os resultados
dos experimentos comprovaram que as imagens com dimenses 12x9 pixels produzem as
melhores taxas de acurcias de reconhecimento facial, combinando com a medida de distncia
euclidiana normalizada e um nmero de Eigenfaces igual a vinte.

Palavras-chave: Estudo emprico. Reconhecimento facial. Eigenfaces. K-Nearest Neighbors.

Abstract: In this article, we present an empirical study of optimization of accuracies rates


resulting from a facial recognition system based on technical Eigenfaces and K-Nearest
Neighbors. The following variables were investigated: images with three different dimensions,
number of features (Eigenfaces), k values of the K-Nearest Neighbors and technical three distance
measurements (Euclidean, Manhattan and the normalized Euclidean). The studies were important
to understand, empirically, what are the most relevant parameters for the analyzed techniques that
result the best accuracies rates of facial recognition. The results of the experiments showed that
the images with dimensions 12x9 produce the best rates accuracies of facial recognition, matching
the standard measure of Euclidean distance and a number of Eigenfaces equal to twenty.

Keywords: Empirical study. Face Recognition. Eigenfaces. K-Nearest Neighbors.

1 Introduo
O reconhecimento facial um dos processos de identificao mais utilizado pelos seres humanos, pois
permite identificar rapidamente qualquer indivduo. Embora o reconhecimento facial seja uma tarefa simples
para o ser humano, no trivial implementar esse processo em uma mquina. A grande dificuldade est na
modelagem de uma face que abstraia as caractersticas que as diferenciem de outras faces, j que apresentam
poucas diferenas substanciais entre si [1]. Pois, embora diferentes, todas as faces possuem caractersticas
semelhantes, uma boca, dois olhos e um nariz. Alm disso, imagens com diferentes dimenses dificultam o
processo de reconhecimento facial, principalmente nas etapas de extrao das caractersticas faciais e

1
Instituto Federal de Educao, Cincia e Tecnologia do Piau IFPI, campus Paulistana.
{fabio.abrantes.diniz@ifpi.edu.br}
2
Instituto Federal de Educao, Cincia e Tecnologia do Maranho IFMA, campus So Raimundo das Mangabeiras.
Doutorando em Sistemas e Computao na Universidade Federal do Rio Grande do Norte UFRN.
{thiago.reis@ifma.edu.br}
3
Universidade do Estado do Rio Grande do Norte, Universidade Federal Rural do Semi-rido UFERSA.
{eduardu.dudu@gmail.com}

http://dx.doi.org/10.5335/rbca.2015.5227

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 50
classificao, pois quanto maior a dimensionalidade da imagem, maior a matriz de vetores e, portanto, maior
o custo computacional e menor a preciso do classificador.
Vrios algoritmos de reconhecimento facial foram propostos [2] a fim de resolver esses problemas. No
presente trabalho apresentado um estudo emprico de otimizao dos resultados da varivel dependente taxa de
acurcia de um sistema de reconhecimento facial [3] baseado nas tcnicas de Eigenfaces [4] e K-Nearest
Neighbors (K-NN) [5]. Foram analisadas as seguintes variveis independentes das tcnicas abordadas:
a) trs dimenses das imagens;
b) nmero de caractersticas faciais (Eigenfaces);
c) o valor de k da tcnica K-NN;
d) o uso de trs medidas de distncias (euclidiana, Manhattan e euclidiana normalizada).
Este estudo preocupou-se com a anlise dos problemas de dimensionalidade de imagens para o
reconhecimento facial ao verificar quais dimenses de imagens so ideais para fornecer as caractersticas faciais
mais significativas, alm disso, proporcionou uma anlise dos valores dos parmetros para as tcnicas abordadas.
O presente estudo foi realizado por meio de um experimento que utilizou uma base de dados prpria
contendo 1.280 imagens de um total de 64 indivduos. Cada indivduo dessa base de dados foi representado por
vinte imagens em cinco poses distintas. De acordo com os principais resultados dos testes do experimento,
verificou-se que imagens de dimenses diferentes produziram taxas de acurcias diferentes. Alm disso,
evidenciou-se que a melhor acurcia no sistema reconhecimento facial foi encontrada na seguinte combinao de
parmetros: dimenso 12x9 pixels, distncia euclidiana normalizada, valor de k igual a um e nmero de
caracterstica igual a vinte. Comprovou-se, tambm, que as imagens de menor dimenso analisadas (12x9)
produziram as melhores taxas de acurcias de reconhecimento facial em relao s outras dimenses estudadas.
Portanto, este artigo segue organizado em sete sees, a partir desta introduo. A seo 2 descreve o
sistema de reconhecimento facial abordado e suas tcnicas, a seo 3 apresenta o planejamento do experimento,
e suas subsees, as questes de pesquisa e hipteses (3.1), as definies formais das hipteses (3.2), as variveis
dependentes e independentes (3.3), o design do experimento e as unidades experimentais (3.4). Na seo 4, so
apresentados os resultados do estudo, nas suas subsees so expostas as identificaes do modelo matemtico
(4.1) e a validao do modelo (4.2). Na seo 5, descreve-se a anlise de varincia, nas suas subsees, a
alocao de variao (5.1), a significncia dos efeitos (5.2) e a verificao das hipteses (5.3). Posteriormente, na
seo 6, so apresentadas as discusses das verificaes das hipteses, na seo 7, as ameaas validade do
experimento, e, por fim, a seo 8 apresenta as concluses e indicaes para trabalhos futuros.

2 Sistema de reconhecimento facial abordado


O sistema de reconhecimento facial proposto por Diniz et al. [3] baseado na tcnica de Eigenfaces e no
classificador K-NN. A arquitetura do sistema de reconhecimento facial consiste-se basicamente nas seguintes
etapas: a) aquisio das imagens, b) pr-processamento, c) extrao de caractersticas, d) classificao, e)
verificao.
O incio do processo de reconhecimento de face d-se a partir do mdulo de aquisio da imagem. Nas
simulaes deste trabalho, foi utilizada uma base de dados prpria, com um total de 64 indivduos. Cada
indivduo integrante da base de dados representado por vinte imagens nas seguintes posies: quatro imagens
com o indivduo olhando diretamente para a cmera, quatro, olhando 45 graus esquerda da cmera, quatro,
olhando 45 graus direita da cmera, quatro olhando 90 graus esquerda da cmera e nas ltimas quatro
imagens, o indivduo olha 90 graus direita da cmera, totalizando 1.280 imagens. Todas as imagens foram
obtidas em um ambiente homogneo e com iluminao controlada (foi utilizado o mesmo cenrio em todas as
imagens).
Na etapa de pr-processamento, o sistema detectou a imagem da face do usurio utilizando
implementao da tcnica de deteco de face, como proposto por Viola e Jones [6]. Em seguida, as faces
capturadas tiveram correes nas suas dimenses (todas foram redimensionadas para os tamanhos em 120x90
pixels, 32x24 pixels e 12x9 pixels), em imagens com resoluo em 300 dpi revertidas para a escala de tons de
cinza.

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 51
Aps o pr-processamento, a imagem da face normalizada serviu de entrada para o mdulo de extrao de
caractersticas, com o objetivo de encontrar as principais caractersticas a serem utilizadas para a classificao.
Cada imagem do indivduo foi transformada em uma matriz de tamanho w x h, em que w e h so,
respectivamente, os nmeros de pixels referentes largura e altura da imagem. Cada valor do pixel da imagem
corresponde a uma componente do vetor.
Devido alta dimenso dos vetores, nessa etapa, foi implementada a tcnica de Eigenfaces, a fim de
reduzir a quantidade de caractersticas de uma imagem. O algoritmo Eigenface visa fornecer um conjunto de
vetores de distribuies probabilsticas para resolver o problema da deteco de padres em imagens, e seu
fundamento bsico a utilizao desses vetores para gerar uma informao matemtica do rosto de um ser
humano para sua futura identificao.
Com a ajuda de um classificador de padres, as caractersticas extradas da imagem da face so
comparadas com as amostras do conjunto de treinamento de face. A imagem da face ento classificada como
conhecida ou desconhecida. Neste trabalho, foi analisado o algoritmo de reconhecimento de padro K-NN [2].
A ltima etapa da arquitetura o conjunto de treinamento, que visa encontrar caractersticas apropriadas
para a representao de padres de entrada, sendo o classificador treinado para particionar o espao de
caractersticas, formando padres de todas as classes existentes. Foram usadas 75% das imagens faciais da base
de dados para o conjunto de treinamento e 25% das imagens para os testes. Na seo seguinte, esto detalhadas
as tcnicas de Eigenfaces e K-NN.

2.1 Eigenfaces e o classificador K-Nearest Neighbors


O K-NN um dos algoritmos de classificao mais utilizados na rea de aprendizagem de mquina [3].
baseado na procura dos k vizinhos mais prximos do padro de teste. A busca pela vizinhana feita utilizando
uma medida de distncia nessa procura. Nos experimentos desenvolvidos neste trabalho, alm da medida
euclidiana, foram utilizadas as distncias Manhattan e euclidiana normalizada [3]. A implementao do
algoritmo K-NN foi realizada com peso pela distncia, e no pela frequncia. Dessa maneira, o padro
classificado de acordo com a soma dos pesos dos k vizinhos o peso o inverso das distncias. O k escolhido
ser aquele que proporcionar menor quantidade de erros na classificao das imagens [3].
J o mtodo Eigenfaces busca um conjunto de caractersticas que no dependa das formas geomtricas da
face (olhos, nariz, orelhas e boca) e utiliza toda a informao da representao facial [4]. Baseada na teoria da
informao, as Eigenfaces identificam um pequeno nmero de caractersticas que so relevantes para diferenciar
uma face de outras faces.
Essas caractersticas podem ser analisadas apenas com a variao dos valores assumidos pelos pixels, em
um conjunto de imagens de faces. Os autovetores da matriz de covarincia de um conjunto de imagens de faces
descrevem a variao dos pixels em uma regio diferente das imagens, ou seja, cada autovetor descreve a
variao dos pixels associados a diferentes caractersticas faciais [4].
Depois de encontrar os autovetores, as imagens de faces so projetadas em um espao de caractersticas,
chamado Espao de Faces, que melhor representa a variao entre faces conhecidas. Esse espao definido pelas
Eigenfaces, que so os autovetores do conjunto de faces. O reconhecimento de uma face realizado pela sua
projeo no subespao gerado pelas Eigenfaces, realizando a comparao da posio obtida com a posio de
indivduos conhecidos [4].
A implementao da sequncia dos procedimentos da gerao das Eigenfaces conforme disposto pelo
estudo de Cheon e Kim [7]:
a) adquirir um conjunto de M faces. Em que i (i N) cada face do conjunto da base de treinamento;

= [1, 2,..., M] (1)

b) calcular a face mdia (2) para eliminar informaes redundantes na face, isto , uma imagem de face
poderia ser representada com poucos componentes principais devido sua redundncia;

(2)

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 52
c) criar uma matriz com as faces de treino com os pixels dispostos em linhas e as M faces do conjunto de
treinamento dispostas em colunas;
d) subtrair a imagem mdia de cada imagem de , gerando uma nova matriz A (3), que contm somente
as variaes de cada face em relao face mdia. O vetor (4) contm todas as variaes de uma
determinada face em relao face mdia ;

A =[1, 2,..., m] (3)


=- (4)
e) sendo M menor que a dimensionalidade (largura multiplicada pela altura das imagens de treinamento)
das imagens em , calcular a matriz de covarincia C (5);
C = AAT (5)
f) calcular os autovetores v e autovalores da matriz C;
g) criar a matriz de transformao. A matriz (6) conter M-1 autovetores significativos. Entretanto, ainda
possvel realizar a eliminao de alguns desses M-1 autovetores pela ordem de importncia de seus
correspondentes autovalores , gerando M autovetores escolhidos;
= v (6)
h) normalizar os M vetores da matriz ;
i) as imagens do conjunto de treinamento so projetadas no espao de faces, efetuando-se a operao de
transformao (6). Em seguida, o novo padro passa para a fase de classificao (7).
= T (7)

3 Planejamento do experimento
O planejamento deste estudo permitiu o aprimoramento de processos, a reduo da variabilidade de
resultados, a reduo do tempo de anlise e dos custos envolvidos. Nesta seo, detalhada a conduo do
experimento, seguindo as orientaes propostas por Wohlin et al. [8] e Kitchenham, Pickard e Pfleeger [9].

3.1 Questes de pesquisa e hipteses


A mtrica acurcia amplamente utilizada para avaliar a eficcia de um sistema de reconhecimento
facial. A eficcia da acurcia do sistema est relacionada sua capacidade de reconhecer corretamente os
indivduos pela sua face.
Sendo assim, a principal questo de pesquisa (QP) objetiva comparar e determinar os melhores valores
dos fatores das tcnicas abordadas no sistema de reconhecimento facial a fim de melhorar a acurcia desse
sistema quando alimentado com imagens faciais de dimenses diferentes. Baseando-se nessas informaes sobre
o reconhecimento facial, foram formuladas outras questes:
QP1: O sistema de reconhecimento facial apresenta resultados diferentes na mtrica de acurcia
quando temos como entrada imagens faciais com dimenses faciais diferentes?
A questo leva s seguintes hipteses:

H1-0: a acurcia do sistema de reconhecimento facial para imagens faciais com dimenses faciais
diferentes igual;
H1-1: a acurcia do sistema de reconhecimento facial para imagens faciais com dimenses
faciais diferentes diferente.
A fim de que os resultados finais da pesquisa sejam bem compreendidos, necessrio conhecer as
interaes entre os fatores e a varivel resposta. Dessa forma, preciso saber quais dos fatores do experimento
so mais responsveis pela variao nas sadas obtidas nas execues dos tratamentos. Para isso, as seguintes
questes foram definidas:

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 53
QP2: Qual distncia aplicada na dimenso especfica da imagem facial produz melhores taxas de
acurcias no reconhecimento facial?
QP3: Qual nmero de caracterstica (Eigenfaces) aplicada na dimenso especfica da imagem facial
produz melhores taxas de acurcias no reconhecimento facial?
QP4: Qual nmero de k do classificador K-NN aplicada na dimenso especfica da imagem facial
produz a melhor taxa de acurcia?
Esses questionamentos levam s seguintes hipteses:

H2-0: a acurcia do sistema de reconhecimento facial utilizando distintas distncias igual.


H2-1: a acurcia do sistema de reconhecimento facial utilizando distintas distncias
diferente.
H3-0: a acurcia do sistema de reconhecimento facial utilizando distintos valores de k
igual.
H3-1: a acurcia do sistema de reconhecimento facial utilizando distintos valores de k
diferente.
H4-0: a acurcia do sistema de reconhecimento facial para imagens faciais utilizando
distintas Eigenfaces igual.
H4-1: a acurcia do sistema de reconhecimento facial para imagens faciais utilizando
distintas Eigenfaces diferente.

3.2 Definies formais das hipteses


Formalmente, as quatro hipteses descritas anteriormente esto definidas na Tabela 1. Todas as
variveis e suas entradas esto definidas na subseo seguinte.

Tabela 1: Formulaes das hipteses


Hiptese Hiptese nula Hiptese alternativa
H1 H10 = A (Dim1) = A (Dim2) =A H11= A (Dim1) A (Dim2) A
(Dim3) (Dim3)
H2 H20 = A (D1) =A (D2) = A (D3) H21 = A (D1) A (D2) A(D3)
H3 H30 = A (k1) =A (k3) = A (k4) = A H31 = A (k1) A (k3) A (k4)
(k5) = A (k6) = A (k7) = A (k8) = A A (k5) A (k6) A (k7) A
(k9) = A (k10) (k8) A (k9) A (k10)

H4 H40 = A (E15) = A (E16) = A (E17) = H41 = A (E15) A (E16) A


A (E18) = A (E19) = A (E20) (E17) A (E18) A (E19) A
(E20)

A a funo que retorna o valor da mtrica acurcia aplicada nas seguintes variveis: dimenses (Dim1, Dim2 e Dim3), distncias
(D1, D2 e D3), Eigenfaces (E15, E16, E17, E18, E19 e E20), valor de k (A(k1)=A(k3)=A(k4)=A(k5)=A(k6)= A(k7)=A(k8)=A(k9)=A(k10)).

Fonte: elaborao dos autores com base nos dados da pesquisa.

3.3 Variveis independentes e dependentes


As variveis independentes (tambm chamadas de fatores) so todas aquelas que podem ser manipuladas
ou controladas no processo de experimentao, enquanto as variveis dependentes so apenas medidas
dependentes da manipulao ou das condies experimentais [10]. Assim, descreve-se, a seguir, a etapa que
selecionaram as variveis independentes (fatores de controles) com suas respectivas faixas de variao de nveis
e as variveis dependentes (variveis-respostas). Os nveis dos fatores esto definidos de acordo com a Tabela 2.

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 54
Tabela 2: Nveis dos fatores
Fator Tipo de Varivel Nvel
Dimenso das imagens faciais Qualitativa 120x90, 32x24, 12x9
Eigenfaces Quantitativa 15, 16, 17, 18, 19, 20
Vizinhos mais prximos (k) Quantitativa 1, 3, 4, 5, 6, 7, 8, 9,10
Distncias Qualitativa euclidiana, Manhattan e
euclidiana normalizada
Fonte: elaborao dos autores com base nos dados da pesquisa.

No caso deste estudo, analisada somente a taxa de acurcia como a varivel dependente. J as variveis
independentes utilizadas no experimento so:

a) dimenso das imagens faciais: cada imagem representante do indivduo foi transformada em uma
matriz de tamanho w x h, em que w e h so, respectivamente, os nmeros de pixels referentes largura
e altura da imagem;
b) caractersticas principais (Eigenfaces): conjunto de vetores de distribuies probabilsticas
(autovetores da matriz de covarincia) que gera uma informao matemtica do rosto de um ser
humano [4];
c) vizinhos mais prximos (k): o algoritmo baseado na procura dos k vizinhos mais prximos do
padro de teste. O padro dito pertencer classe que apresentar a maior frequncia dentre os k
vizinhos utilizados [5];
d) distncias: a busca pela vizinhana pelo algoritmo K-NN [5] feita utilizando uma medida de
distncia nessa procura.

3.4 Design do experimento e unidades experimentais


O design experimental utilizado foi o planejamento fatorial completo com dez replicaes. Foram
elaborados 486 ensaios, executados dez vezes cada um, totalizando 4.860 execues. Como cada execuo tem
custo mnimo, no h problema em usar esse tipo de design. A Tabela 3 descreve cada um dos tratamentos.
Tabela 3: Desenho fatorial completo
Dimenses = 120x90, 12x9 e 32x24
Distncia Eigenface K1 K3 K4 K5 K6 K7 K8 K9 K10
Euclidiana 15 1 3 4 5 6 7 8 9 10
16 1 3 4 5 6 7 8 9 10
17 1 3 4 5 6 7 8 9 10
18 1 3 4 5 6 7 8 9 10
19 1 3 4 5 6 7 8 9 10
20 1 3 4 5 6 7 8 9 10
Euclidiana 15 1 3 4 5 6 7 8 9 10
normalizada 16 1 3 4 5 6 7 8 9 10
17 1 3 4 5 6 7 8 9 10
18 1 3 4 5 6 7 8 9 10
19 1 3 4 5 6 7 8 9 10
20 1 3 4 5 6 7 8 9 10
Manhattan 15 1 3 4 5 6 7 8 9 10
16 1 3 4 5 6 7 8 9 10
17 1 3 4 5 6 7 8 9 10
18 1 3 4 5 6 7 8 9 10
19 1 3 4 5 6 7 8 9 10
20 1 3 4 5 6 7 8 9 10
Fonte: elaborao dos autores com base nos dados da pesquisa.

Neste experimento, as unidades experimentais so os conjuntos de imagens faciais de cada dimenso.


Para cada dimenso, sero extradas, randomicamente, imagens faciais para o conjunto de treinamento e para o
conjunto de teste. Logo, cada conjunto de treinamento de sua respectiva dimenso uma amostra aleatria sob a
qual o tratamento do experimento (conjunto de fatores) aplicado para se obter a varivel dependente

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 55
abordada. por meio dessas unidades que ser possvel obter a variao estatstica na anlise dos resultados da
investigao. Houve uma randomizao para a formao da base de treinamento com 75% das imagens faciais
da base de dados utilizadas para o conjunto de treinamento e 25% das imagens para os testes.

4 Resultados do experimento
Esta seo apresenta a anlise dos dados coletados durante a execuo do experimento. Os resultados
coletados se encontram empacotados no respectivo link4. Para a varivel dependente abordada, esta anlise inclui
a anlise da identificao do modelo matemtico, a validao do modelo matemtico e a anlise de variao dos
efeitos.

4.1 Identificao do modelo matemtico


O modelo terico do design escolhido (fatorial completo com quatro fatores e dez repeties) considera
quatro efeitos principais (, , , ), seis interaes entre dois fatores (, , , , , ), quatro interaes
entre trs fatores (, , , ) e uma interao com quatro fatores (). Esse modelo pode ser expresso
pela Equao (8) [11], apresentada a seguir:
(
(8)

Em que ijkml o valor observado da varivel resposta para a dimenso i, distncia j, Eigenface k, valores
do fator k-vizinhos m, e repetio l; a mdia estimada da varivel resposta, considerando todas as
observaes; i o efeito estimado da dimenso i na sada; m o efeito estimado dos valores de k-vizinhos m na
sada; j o efeito estimado dos valores das distncias j na sada; k o efeito estimado dos valores de Eigenfaces
k na sada; im a interao entre os fatores primrios; ij a interao entre os fatores primrios; ik a
interao entre os fatores primrios; mk a interao entre os fatores primrios; mj a interao entre os
fatores primrios; jk a interao entre os fatores primrios; imj a interao entre os fatores primrios;
ijk a interao entre os fatores primrios; mjk a interao entre os fatores primrios; imjk a interao
entre os fatores primrios; ij o erro experimental para a dimenso i, distncia j, Eigenface k, valores do fator k-
vizinhos m, e repetio l.
(
(9)

Tabela 4 Alocao de variao do experimento


Efeito Alocao de variao Efeito Alocao de variao

Legenda: = dimenso; = k-vizinhos; = distncia; = Eigenfaces; = efeito do erro experimental.


Fonte: elaborao dos autores com base nos dados da pesquisa.
Conforme anlise dos dados descritos na Tabela 4, o modelo resultante para acurcia est representado na
Equao (9). Verificou-se que apenas os efeitos das interaes entre os fatores dimenso, distncia e Eigenface
(ijk) e entre os fatores dimenso, k e Eigenfaces (imk) no so significantes. As restantes interaes e os
fatores principais so significantes. Dessa forma, a fim de simplificar o modelo da acurcia, a Equao (9)

4
Disponvel em: <https://docs.google.com/file/d/0B4d9yu3dP4GJdU5GNUY1S2R5ak0/edit>.

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 56
somente conteve os respectivos coeficientes e interaes entre os fatores. O valor 0.94 a mdia estimada do
modelo.

4.2 Validao do modelo


Uma vez que o modelo matemtico da mtrica acurcia identificado, precisa-se validar o modelo
identificado da acurcia para poder realizar o teste estatstico corretamente. Aps a validao, foram testadas
estatisticamente as hipteses do experimento utilizando-se o mtodo Analysis of variance (Anova) [12].
O modelo representado na Equao (2) foi avaliado por uma anlise residual. Essa anlise pr-requisito
do teste Anova. A validao do modelo para varivel-resposta acurcia foi feita analisando-se as suposies de
normalidade, independncia dos erros e variao constante dos resduos, ilustradas na Figura 1.
Figura 1: (A) premissas normalidade, (B) variao para teste Anova da varivel acurcia e (C) verificao
da premissa independncia de erros para teste Anova da varivel acurcia

(A) (B)

(C)

a) Normalidade: o Q-Q Plot (Figura 1A) sugere que os resduos no so exatamente normais,
possivelmente pela presena de outliers existentes.
b) Independncia dos erros: o Lag Plot (Figura 1C) indica que no h forte correlao entre os erros, o
que sugere independncia dos resduos.
c) Variao constante: no grfico de disperso entre resduos (Figura 1B), no possvel identificar
padres de crescimento contnuo (formato de funil) [12], logo, no h indcio de que a variao no
constante.

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 57
5 Anlise de varincia
As hipteses desta investigao cientfica foram testadas de duas formas: a) utilizando o Anova e b) em
testes no paramtricos. Nas subsees seguintes, apresenta-se a alocao da variao da varivel-resposta entre
os efeitos dos fatores, entre os efeitos da interao dos fatores e os efeitos dos erros. Aps apresentar a alocao
de variao, verificou-se a significncia dos efeitos. E, por fim, foram analisadas as hipteses de investigao
formuladas inicialmente.

5.1 Alocao de variao


A alocao de variao ajuda a descobrir o percentual de sada que pode ser alocado nos fatores
principais, nas interaes entre fatores e nos erros. Logo, pode-se entender as explicaes das variaes usando
os fatores e erros, pois sabe-se qual o maior responsvel pela variao da sada. A Tabela 4 detalha os
resultados encontrados da alocao de variao.
Foi mostrado, na Tabela 4, que o fator k responsvel por mais de 55% da variao. Vale ressaltar que o
fator k mais importante para a varivel resposta acurcia, pois o classificador K-NN depende dos valores do
fator de k para classificar as imagens. Os fatores dos efeitos , , e (dimenso, k, distncia e Eigenface,
respectivamente) explicam aproximadamente 65% da varincia na varivel-resposta acurcia do experimento,
sendo assim os fatores de maior importncia para a varivel resposta acurcia.

5.2 Significncia dos efeitos


Para cada fator e interao entre os fatores da mtrica acurcia do experimento, as seguintes hipteses
foram testadas:
a) H0: no h diferena entre os efeitos dos fatores da varivel independente;
b) H1: h diferena entre os efeitos dos fatores da varivel independente.
Ao realizar um F-test, considerando um nvel de significncia de 5%, quase todos os fatores rejeitam a
hiptese nula. Assim, pode-se afirmar que a maioria dos fatores tem significncia estatstica em relao
alterao da mtrica acurcia. Somente os efeitos da interao entre os fatores dimenso, distncia e Eigenface e
entre os fatores dimenso, k e Eigenface no rejeitaram a hiptese nula, pois apresentaram seus valores de F
menores que o valor da tabela F. A Tabela 5, apresenta os resultados do F-test dos fatores que rejeitaram a
hiptese nula.
Tabela 5: Significncia dos efeitos para a varivel-reposta acurcia

SS 0.0212 0.8370 0.0922 0.0083 0.0009 0.0133 0.0016


DF 1 1 2 1 1 2 1
MS 0.022 0.837 0.046 0.008 0.0009 0,0066 0.0016
F 227.31 8660.67 477.445 85.948 191.015 69.107 17.152

SS 0.0369 0.0014 0.0021 0.0012 0.00073 0.0007 0.4674


DF 2 1 2 2 2 2 4836
MS 0.0184 0.0014 0.001 0.0006 0.0003 0.0003 0.00009
F 191.01 15.182 11.268 6.475 3.954 3.914 -
Legenda: = dimenso; = k-vizinhos; = distncia; = Eigenfaces; = efeito do erro experimental; DF =Degree
Freedom; SS = Sum Squares; MS = Mean Squares.
Fonte: elaborao dos autores com base nos dados da pesquisa.

5.3 Verificao das hipteses


Uma vez que foi identificado que todos os principais fatores tm significncia estatstica na varivel-
resposta acurcia, foram realizados experimentos para avaliar se a taxa de acurcia estatisticamente
significativa em comparao com os parmetros de todos os fatores. Assim, ser feita a anlise da verificao
das hipteses estabelecidas.

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 58
Para responder s hipteses H1-0, H2-0, H3-0 e H4-0, primeiramente, analisou-se visual e separadamente
os intervalos de confiana de cada fator presentes nas imagens (Figuras 2, 3, 4 e 5, e Tabela 6).
Tabela 6: Resultado do F-test
Dimenso Distncia k Eigenface
Valor F 227.31 477.445 8660.670 85.948
Tabela F 3.9 3.05 3.9 3.9
Fonte: elaborao dos autores com base nos dados da pesquisa.

Na Figura 2, observam-se os intervalos de confiana ao se comparar as dimenses 120x90, 32x24 e 12x9.


Na anlise da Figura 2, verifica-se que os intervalos de confiana das dimenses 12x9 e 32x24 possuem valores
de acurcia maiores do que a dimenso 120x90, pois est acima e no h sobreposio. No entanto, no h como
afirmar qual maior ou menor entre as dimenses 12x9 e 32x24, pois h sobreposio entre os intervalos. Para
se ter certeza de qual a melhor dimenso, foi feita a anlise estatstica do F-test, conforme detalhado na Tabela
6.
Figura 2: Intervalo de confiana do fator dimenso

Fonte: elaborao dos autores com base nos dados da pesquisa.

A anlise referente aos intervalos de confiana est ilustrada na Figura 3, comparando-se o fator distncia
aplicado nas imagens com dimenses 120x90, 32x24 e 12x9. Ao analisar a Figura 3, percebe-se que na dimenso
12x9 a melhor distncia a euclidiana normalizada, seguida da Manhattan e, por ltimo, da euclidiana. Isso para
5% de nvel de significncia e independente da realizao do F-test. J nas dimenses 32x24 e 120x90, percebe-
se que a distncia euclidiana normalizada tem acurcia maior que as outras distncias. No entanto, no h como
afirmar qual maior ou menor entre as distncias Manhattan e euclidiana, pois h sobreposio entre os
intervalos. Para se ter certeza de qual o maior, foi feito um teste de comparao estatstico (F-test), como foi
detalhado na Tabela 6.

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 59
Figura 3: Intervalo de confiana do fator distncia

Fonte: elaborao dos autores com base nos dados da pesquisa.

Na Figura 4, apresenta-se a anlise referente aos intervalos de confiana do fator k aplicado nas imagens
com dimenses 120x90, 32x24 e 12x9. Fica evidenciado que, na dimenso 12x9, k=1 apresenta a maior
acurcia, seguida de k=4 e k=3, resultado abordado para 5% de nvel de significncia. Evidenciam-se
sobreposies entre os fatores k=5 e k=6 e entre k=9 e k=10, logo, no h como afirmar qual maior ou menor
entre esses valores. J nas dimenses 32x24 e 120x90, verifica-se a sobreposio entre k=1 e k=4. Assim, para as
dimenses 32x24 e 120x90, constata-se a dificuldade de conhecer qual o melhor valor k que produz maiores
valores para a mtrica acurcia. Para se ter a certeza de qual o melhor valor de k, foi feito o teste de comparao
estatstico (F-test), j descrito na Tabela 6.
Figura 4: Intervalo de confiana do fator k

Fonte: elaborao dos autores com base nos dados da pesquisa.

Na Figura 5, apresenta-se a anlise referente aos intervalos de confiana comparando-se o fator


Eigenfaces aplicado nas imagens com dimenses 120x90, 32x24 e 12x9. Ao analisar a Figura 5, evidenciam-se

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 60
sobreposies entre os valores de Eigenfaces em todas as dimenses, logo, no h como afirmar qual valor de
Eigenface produz maior ou menor valor de acurcia, e se realmente o fator Eigenfaces afeta na acurcia da
estimativa do sistema de reconhecimento facial. Para se ter certeza de qual valor Eigenface produz o melhor
valor de acurcia, foi feito o teste de comparao estatstico (F-test), cujo resultado tambm j foi descrito na
Tabela 6.
Figura 5: Intervalo de confiana do fator Eigenfaces

Fonte: elaborao dos autores com base nos dados da pesquisa.

6 Discusses das verificaes das hipteses


De acordo com as anlises visuais dos intervalos de confiana (Figuras 2, 3, 4 e 5) e dos F-tests de todos
os fatores abordados (Tabela 6), obteve-se as concluses que seguem sobre as hipteses que orientaram este
estudo.
Como Fdimenso > 3.9 implica na rejeio da hiptese H1-0, logo, existe diferena entre os efeitos das
dimenses na varivel acurcia, e tambm afeta a acurcia. Pode-se afirmar, analisando-se as informaes da
Figura 2 e da Tabela 6, que a dimenso 12x9 tem as maiores acurcias. Consequentemente, responde-se QP1,
pois concluiu-se que as dimenses analisadas implicam em que o sistema de reconhecimento facial apresente
resultados diferentes na mtrica de acurcia, tendo as maiores acurcias resultantes da dimenso 12x9 e as
menores acurcias resultantes da dimenso 120x90.
Como Fdistncia > 3.05 implica na rejeio da hiptese H2-0, logo, o fator distncia afeta a varivel
acurcia. Consequentemente, responde-se QP2, pois pode-se afirmar, analisando a Figura 3 e a Tabela 6, que a
distncia euclidiana normalizada a que produz mais efeito na acurcia com o maior valor, seguida da
Manhattan e, por fim, da euclidiana.
Como FEigenface > 3.9 implica na rejeio da hiptese H4-0, logo, o fator Eigenface gera diferentes
acurcias. Consequentemente, responde QP3, pois pode-se afirmar, analisando a Figura 5 e a Tabela 6, que na
dimenso 120x90 os melhores Eigenfaces em ordem crescente so: 19, 20, 17, 16, 18, 15. Na dimenso 32x24,
os melhores Eigenfaces em ordem crescente so: 19, 20, 18, 17, 16,15. E na dimenso 12x9, os melhores
Eigenfaces so: 20, 19, 18, 17, 16, 15.
Como Fk > 3.9 implica na rejeio da hiptese H3-0, logo, o fator das k afeta a varivel acurcia.
Consequentemente, responde QP4, pois pode-se afirmar, analisando a Figura 4 e a Tabela 6, que k=1 o que
produziu a maior acurcia, seguido de k=4, k=3, k=5, k=6, k=7, k=8, k=9 e k=10.

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 61
Por fim, concluiu-se que o fator k que produz os maiores efeitos no resultados da mtrica acurcia,
seguido dos fatores distncia, dimenso e Eigenface respectivamente.

7 Ameaas validade do experimento


Para a avaliao da validade foram considerados dois tipos de avaliaes, a externa e a de construo. A
validao externa est relacionada com a veracidade aproximada das concluses e com a generalizao da
populao, j a validade de construo diz respeito s medidas utilizadas.
Com relao validao externa, uma ameaa que poder surgir est relacionada qualidade das imagens
da base de dados. Diversos fatores, como baixa luminosidade, contraste ou brilho, podem fazer com que a taxa
de acurcia de reconhecimento no seja a mesma observada durante o experimento. Alm disso, as unidades
experimentais da pesquisa foram selecionadas a partir de uma nica fonte (base de dados prpria), que pode ter
caractersticas prprias que no valem para todas as demais bases de dados de imagens faciais. Portanto, h uma
ameaa validade externa na interao de seleo e tratamento, o que dificulta a generalizao dos resultados
alm do escopo estudado.
Por fim, uma possvel ameaa validade de construo relaciona-se aos nveis dos fatores selecionados
(quantidade de dimenses das imagens, nmero de caractersticas) que podem no ser suficientes para observar
diferenas significativas de eficcia do reconhecimento facial. Desse modo, h uma ameaa validade de
construo causada pela confuso entre constructos e seus nveis.

8 Concluses e trabalhos futuros


As concluses obtidas aps o desenvolvimento deste estudo experimental podem ser divididas em duas
dimenses igualmente relevantes. A primeira dimenso a do processo em si. O mtodo cientfico e a
investigao emprica so realmente indispensveis para a realizao de pesquisa de qualidade. Quanto aos
dados coletados, foi realizada uma anlise estatstica exploratria, direcionada sempre para tentar comprovar ou
refutar as hipteses levantadas sobre o fenmeno em estudo. Foi apresentada uma sequncia lgica de como foi
realizado o tratamento dos dados, enfatizando-se a importncia de cada fator para o modelo e, aps a verificao
do fator mais importante, se ele realmente significativo.
Assim, contatou-se que h significncia nos efeitos de todos os fatores (distncias, k, Eigenfaces,
dimenso) na varivel-resposta acurcia, e que o fator k o mais significativo para explicar a variao nos
valores obtidos para a varivel de resposta aps a execuo do sistema. Verificou-se, tambm, que a dimenso
12x9 produz melhores taxas de acurcias no reconhecimento facial, e que a melhor combinao dos fatores com
a melhor acurcia em reconhecimento facial : dimenso 12x9, distncia euclidiana normalizada, k=1,
Eigenface=20.
Como propostas de trabalhos futuros, pode-se destacar o uso de novas bases de imagens para realizao
de mais experimentos assim como a pesquisa de novos fatores que possam influenciar significativamente no
reconhecimento de faces com grandes variaes de pose e distintas dimenses de imagens. Alm disso, devem
ser analisados os efeitos dos fatores observados neste trabalho na varivel dependente de tempo de
processamento.

Agradecimentos
Os autores agradecem Capes e ao CNPq pelo suporte parcial a esta pesquisa.

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 62
Referncias
[1] AGARWAL, M. et al. Face recognition using principle component analysis, eigenface and neural network.
In: II INTERNATIONAL CONFERENCE ON SENSORS, AND SIGNALS AND VISUALIZATION,
IMAGING AND SIMULATION AND MATERIALS, Wisconsin, USA, 204-208, 2009.
[2] ZHAO, W.; CHELLAPPA, R. Face recognition: a literature survey. ACM Computing Surveys, v. 35, n. 4,
p. 399-458, 2003.
[3] DINIZ, F. A. et al. RedFace: um sistema de reconhecimento facial baseado em tcnicas de anlise de
componentes principais e autofaces: comparao com diferentes classificadores. Revista Brasileira de
Computao Aplicada, Passo Fundo, v. 5, n. 1, p. 42-54, 2013.
[4] KSHIRSAGAR, V. P.; BAVISKAR, M. R.; GAIKWAD, M. E. Face recognition using Eigenfaces. In: III
INTERNATIONAL CONFERENCE ON COMPUTER RESEARCH AND DEVELOPMENT, 3, 2011,
Shanghai, China 2011. p. 302-306. v. 2.
[5] JIANGSHENG, Y. Method of k-Nearest Neighbors. China - Pequim: Institute of Computational
Linguistics, Peking University, 2002.
[6] VIOLA, P. A.; JONES, M. J. Robust real-time object detection. International Journal of Computer Vision,
Cambridge, Massachusetts, v. 57, n. 2, p. 137-154, 2004.
[7] CHEON, Y.; KIM, D. A natural facial expression recognition using differential-AAM and K-NNS.
Multimedia. In: TENTH IEEE INTERNATIONAL SYMPOSIUM ON MULTIMEDIA, Berkeley, CA,
2008, pp. 220-227.
[8] WOHLIN, C. et al. Experimentation in software engineering: an introduction. Norwell, MA, USA: Kluwer
Academic, 2000.
[9] KITCHENHAM, B.; PICKARD, L.; PFLEEGER, S. L. Case studies for method and tool evaluation. IEEE
Software, v. 12, n. 4, p. 52-62, 1995.
[10] PRADO, M. P.; SOUZA, S. R. S.; MALDONADO, J. C. Resultados de um estudo de caracterizao e
avaliao de critrios de teste estruturais entre os paradigmas procedimental e OO. In: X
EXPERIMENTAL SOFTWARE ENGINEERING LATIN AMERICAN WORKSHOP, Goinia - Gois
2010. p. 91-100.
[11] JURISTO, N.; MORENO A. M. Basics of Software Engineering Experimentation. Boston: Kluver
Academic Publischers, 2010.
[12] GRAVETTER, F. J.; WALLNAU, L. B. Statistics for the Behavioral Sciences. Belmont, USA: Cengage
Learning, 2013.

Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 63