Rede de Convolução para Sistema Biométrico Baseado em EEG

UNIVERSIDADE FEDERAL DE OURO PRETO
Rede de Convolução para Sistema

Biométrico baseado em EEG
Thiago Schons
Universidade Federal de Ouro Preto
Orientador: Gladston Juliano Moreira Prates
Coorientador: Eduardo José da Silva Luz
Dissertação submetida ao Programa de Pós-

graduação de Ciências da Computação da Uni-
versidade Federal de Ouro Preto, como pré-
requisito para obtenção do tı́tulo de Mestre
em Ciência da Computação.
Ouro Preto, 16 de março de 2018

Rede de Convolução para Sistema
Biométrico baseado em EEG
Thiago Schons
Universidade Federal de Ouro Preto
Orientador: Gladston Juliano Moreira Prates
Coorientador: Eduardo José da Silva Luz

Dedico este trabalho para meus pais, irmãos, sobrinhos e minha namorada, que são
meu alicerce, acreditam em mim e estão sempre me apoiando e me fazendo acreditar
que sonhos são para serem vividos. Espero compartilhar muitas realizações com todos
vocês, pois é isso que me move.
ii
Resumo
Sistemas biométricos estão em expansão global devido a necessidade de segurança, pro-

movendo a emergência de novas e robustas modalidades biométricas. A partir desse
contexto, o interesse em sistemas biométricos baseados em eletroencefalograma (EEG)
tem despertado interesse dos pesquisadores, por ser uma modalidade em que os sinais
mudam conforme a tarefa que está sendo executada pelos indivı́duos durante a sessão
de gravação, fornecendo mais integridade e autenticidade. No entanto, essa modali-
dade biométrica é suscetı́vel a ruı́dos na captação de sinais e tem problemas de escala,
acurácia e captação em ambientes não controlados. Métodos baseados em redes neurais
de convolução vêm sendo explorados na literatura para processamento de sinais e re-
sultados expressivos para sua classificação vem sendo obtidos. Nesse cenário, o método
proposto neste trabalho é baseado em Rede Neural de Convolução (CNN) para veri-
ficação biométrica e avaliação em uma base de dados de 109 indivı́duos com sinais de 64
eletrodos. Uma técnica de data augmentation é proposta para ampliar a quantidade de
dados de treinamento da rede de aprendizagem em profundidade. Os resultados obtidos
mostram que o método é um caminho promissor na representação de sinais cerebrais,
pois o equal error rate (EER) conseguiu ser reduzido de 4,5% para 0,19% nos testes
baseline em comparação com a literatura.
Palavras-chave: Redes Neurais de Convolução, Biometria, EEG, Eletroencefalograma,

CNN, Modo de Verificação, Data Augmentation.
iii
Abstract
Biometric systems are in global expansion due to the need of security, promoting the
emergence of new and robust biometric modes. From this context, interest in electro-
encephalogram based biometric systems has aroused researcher’s interest because it’s a
modality in which the signal changes according to the task being performed by the indivi-
duals during the recording session, providing more integrity and authenticity. However,
EEG biometric modality is susceptible to noise and has problems of scale, accuracy and
signal capture in uncontrolled environments. Methods based on Convolutional Neural
Networks (CNN) have been explored in the literature for signal processing and signifi-
cant results in classification have been obtained. In this scenario, the proposed method
is based on CNN for biometric verification and for evaluation of a database containing
109 individuals, with signals of 64 electrodes. A technique for data augmentation is
proposed for the deep learning network training data. The results obtained shows that
the method is a promising path in the representation of brain signals because the equal
error rate (EER) got reduced from 4,5% to 0.19% in baseline tests in comparison to the
literature.
Keywords: Convolutional Neural Networks, Biometry, EEG, electroencephalogram,

CNN, Verification Mode, Data Augmentation.
iv
Agradecimentos
Gostaria de agradecer a Deus, por permitir essa oportunidade de aprendizado e

crescimento.
Quero agradecer também meus orientadores Gladston Moreira Juliano Prates e Edu-
ardo José da Silva Luz, pela paciência, empenho e dedicação. Confiaram em mim e
permitiram que este trabalho se concretizasse sem nunca terem economizado esforços
para transmitir conhecimento.
A meus pais e irmãos, que são meu porto seguro e estão sempre me dando apoio
incondicional, sem eles não conseguiria chegar onde estou.
A minha namorada Adriana que fez parte de tudo, me acompanhou nos momentos
bons e difı́ceis, do inı́cio ao fim dessa jornada. Me motivou sempre e acreditou no meu
potencial encarando tudo sempre com muito amor.
A meus amigos e colegas que participaram deste processo, me incentivando, enviando

energia positiva sempre e acreditando que isso tudo seria possı́vel.
Agradeço também a UFOP e as agências de fomento Capes, CNPq e FAPEMIG.
v
Sumário
Lista de Figuras viii
Lista de Tabelas ix
1 Introdução 1
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Fundamentação Teórica 5
2.1 Pré-Processamento de Sinais . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Biometria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Conceitos de Biometria . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Aprendizado em Profundidade . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Redes Neurais de Convolução . . . . . . . . . . . . . . . . . . . . 11
2.4 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5 Base de Dados Physionet . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Revisão da Literatura 19
3.1 Estado de Repouso com EO e EC . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Multitarefas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
vi
4 Rede Neural de Convolução para Biometria Baseada em EEG 25
4.1 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Processamento Dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.2.1 Divisão dos Dados de Entrada . . . . . . . . . . . . . . . . . . . . 26
4.2.2 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3 Rede Neural de Convolução . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Experimentos e Discussões 31
5.1 Caracterı́sticas da Base de Dados . . . . . . . . . . . . . . . . . . . . . . 31
5.2 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2.1 Discussão de Resultados . . . . . . . . . . . . . . . . . . . . . . . 34
6 Conclusões e Trabalhos Futuros 39
A Apêndices 41
A.1 Publicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Referências Bibliográficas 50
vii
Lista de Figuras
2.1 Curva DET com a relação entre FAR, FRR e EER. Extraı́da/adaptada
de (Du and Chang 2007). . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Operações de uma rede neuronal convolucional de 3 camadas. Extraı́da/adaptada

de (Pinto and Cox 2011). . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Sinal de EEG do eletrodo FC5 amostrado em 10 segundos. . . . . . . . . 17
2.4 Posição dos eletrodos na região do escalpo. Fonte: http://physionet.

org/pn4/eegmmidb/. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1 Eletrodos utilizados por (Tangkraingkij et al. 2009). . . . . . . . . . . . . 21
4.1 Exemplo de distribuição dos segmentos de EEG usados para treino em

EO e teste em EC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 Data augmentation com janela deslizante de tamanho 12 segundos. Temos

em a) janela na posição offset 0, primeiro segmento criado. b) offset de
5 segundos. c) offset de 10 segundos e d) último segmento criado, após a
janela deslizar sobre todo o sinal. . . . . . . . . . . . . . . . . . . . . . . 28
4.3 Modelo deep learning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.1 Curva DET para os experimentos propostos testando as faixas de frequência. 35
5.2 Curvas DET dos resultados satisfatórios obtidos com o uso de tarefas. . . 37
viii
Lista de Tabelas
3.1 Quantidade de eletrodos utilizados e acurácia obtida. Extraı́da/Adaptada

de (Singh et al. 2015). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.1 Faixa de frequências normalmente utilizadas em EEG. . . . . . . . . . . . 26
5.1 Arquitetura proposta para biometria com EEG. . . . . . . . . . . . . . . 33
5.2 Distribuição dos learning rates durante as épocas de treino. . . . . . . . . 34
5.3 EER obtido de faixas de frequências especı́ficas. . . . . . . . . . . . . . . 35
5.4 Comparação com trabalhos relacionados. . . . . . . . . . . . . . . . . . . 36
5.5 Resultados expressos em termos de EER com o uso de tarefas. . . . . . . 36
5.6 Comparação com trabalhos relacionados multitarefas. . . . . . . . . . . . 38
ix
“Não existe um caminho para a felicidade, a felicidade é o caminho”
— Mahatma Gandhi
x
Capı́tulo 1
Introdução
Atualmente a humanidade em todas suas esferas, necessita de segurança, sendo a evolução

de sistemas biométricos, de fundamental importância para proteção de informações e
acesso a locais restritos. A biometria se caracteriza por necessitar da apresentação de
alguma caracterı́stica humana, seja ela comportamental ou biológica. Para uma ca-
racterı́stica ser modalidade biométrica devem ser atendidos 4 requisitos: coletividade,
distinção, permanência e universalidade (Clarke 1994, Jain et al. 2004).
A tecnologia está evoluindo muito nos últimos anos e assim como os sistemas de se-
gurança, também evoluem técnicas de invasão. Nesse contexto, os sistemas biométricos
também estão em evolução constante, porém formas de captura de caracterı́sticas ro-
bustas e discriminantes entre pessoas são desejáveis, principalmente para novas formas
de biometria.
O presente trabalho lida com o uso dos sinais do eletroencefalograma (EEG) para
a tarefa biométrica. O sinal de EEG é a medida da atividade elétrica cerebral por
meio de eletrodos posicionados na região do escalpo em posições estratégicas. A medida
é feita com base no somatório de pequenos impulsos elétricos que são emitidos pelos
neurônios (Boubakeur et al. 2017). As faixas cerebrais podem ser divididas em faixas
de frequência, e as mais relevantes de EEG estão relacionadas as bandas: Delta (0.5, 40
Hz), Theta (4-8 Hz), Alpha (8-14 Hz), Beta (14-30 Hz) e Gamma (> 30 Hz).
O EEG é uma modalidade biométrica muito segura se comparada a formas de bio-

metria tradicionais, visto que os sinais mudam conforme o sujeito executa determinada
tarefa, pois é sensı́vel a mudança de emoções e pensamentos, mudando as interconexões
de neurônios, e instantaneamente mudando também o campo elétrico cerebral (Soni
1
2 Introdução
et al. 2016). Isso torna a biometria mais flexı́vel em caso de ataque ao banco de dados,
pois se os dados forem roubados, como no caso da impressão digital, iris ou qualquer
caracterı́stica fı́sica, estas informações deveriam ser descartadas, por motivo de segu-
rança (Boubakeur et al. 2017). Usando deste artifı́cio, a biometria baseada em EEG
torna-se mais efetiva, pois a mesma modalidade pode ser reutilizada, somente alterando
a tarefa designada para o indivı́duo e recadastrando os dados biométricos no banco de
dados, mudando assim os sinais de EEG e impossibilitando o uso de dados roubados,
fornecendo assim mais integridade e autenticidade (Boubakeur et al. 2017)
A biometria por EEG é promissora quando analisada de uma perspectiva futura, mas
tem uma grande limitação atualmente, que são os dispositivos para aquisição dos dados.
Os sensores evoluı́ram muito nos últimos anos e em paralelo ficaram e estão ficando
mais baratos, porém o tempo de preparação e a necessidade de pessoal qualificado para
manuseio das máquinas de coleta ainda são um empecilho. A impedância gerada entre
couro cabeludo e os eletrodos tem que ser reduzida com o uso de gel condutor com o
intuito de aumentar a qualidade do sinal (Ma et al. 2015).
O primeiro sistema biométrico baseado em EEG foi introduzido por (Stassen 1980).
Utilizando classificação do espectro de EEG, eles conseguiram obter 90% de probabili-
dade de confiança analisando dados de 82 sujeitos. Posteriormente, (Poulos et al. 1999b)
mostrou a viabilidade na utilização de sinais de EEG para tarefas biométricas, e desde
então, o interesse da comunidade cientı́fica nesse ramo da biometria aumentou. Mui-
tas abordagens fazendo uso de EEG foram propostas, como em (Fraschini et al. 2015),
que realizou a tarefa de verificação biométrica em cima da base de dados de EEG Phy-
sionet (Goldberger et al. 2000) (também utilizada no presente trabalho). Nessa base
existem sinais de sujeitos em estado de repouso e é feita uma análise em dois cenários:
olhos abertos (EO) e olhos fechados (EC). Os autores fizeram um estudo sobre as fai-
xas de frequência comumente empregadas e constaram que a faixa gamma (30-50 Hz),
onde foi reportado um equal error rate de 4,4% é mais discriminante que as outras.
A abordagem é baseada em sincronização de fases, na qual o Eigenvector Centrality é
obtido a partir de cada nó (sujeito) que está inserido na rede para compor o vetor de
caracterı́sticas e então efetuar a classificação.
No trabalho proposto por (Yang et al. 2016), são consideradas quatro tipos de tarefas,
em que os sujeitos realizam tarefas motoras ou imaginárias durante a gravação dos sinais
e somente nove dos 64 eletrodos foram escolhidos para participar dos experimentos. A
base de dados da Physionet é considerada e uma mistura de dados de treino a teste
são feitos a partir das quatro tarefas, em diferentes seções. O equal error rate (EER)
Introdução 3
encontrado usando 9 eletrodos foi 4,5%.
Muitas técnicas de machine learning e reconhecimento de padrões já foram utilizadas

visando identificar indivı́duos por meio de sinais de EEG, porém não há muitas aborda-
gens utilizando rede neural de convolução. (Ma et al. 2015) propôs uma rede neural de
convolução (CNN) com 5 camadas, sendo duas de convolução, dois pooling e finalmente,
uma camada fully connected. A análise da rede é feita na base de dados da Physionet,
utilizando dados de 10 indivı́duos, dividindo 55 segundos de gravação em fragmentos
de 1 segundo cada. Os testes foram executados com dados dos indivı́duos em estado
de repouso com olhos abertos, olhos fechados e ambos. O modo biométrico utilizado é
verificação.
Já em (Das et al. 2017), os autores coletaram dados de EEG de 40 indivı́duos em

duas sessões divididas em duas semanas, utilizando 19 eletrodos e estı́mulos alvo (target)
e não-alvo (not-target) a partir de estı́mulos visuais com figuras geométricas onde o
circulo é o estı́mulo alvo, e o restante deve ser ignorado pelo indivı́duo e o observador
deve prestar atenção somente nele. A CNN contém 4 camadas de convolução, 2 max-
pooling, 1 camada de ativação ReLU, uma camada de perda e uma fully connected.
Outra abordagem relacionada a CNN para sistema biométrico com EEG é encontrada
em (Mao et al. 2017) para teste em uma rede de 100 indivı́duos, os autores utilizaram
uma arquitetura de rede descrita em (Cecotti et al. 2014). Ambos os trabalhos executam
biometria pelo modo de identificação.
Os protocolos de testes utilizados pelas abordagens baseadas em CNN para EEG (Das
et al. 2017, Ma et al. 2015, Mao et al. 2017), usam bases de dados e abordagens diferentes,
não permitindo comparações. O único que permitiria comparações é o trabalho de
Ma et al. (2015), contudo, foram utilizados somente dados de 10 indivı́duos, dos 109
disponı́veis e usando o modo biométrico de identificação, inviabilizando comparações.
No geral, o procedimento comum de biometria envolve a coleta de dados, extração de

recursos de pré-processamento e reconhecimento de padrões (Palaniappan and Mandic
2007b).
Neste trabalho, os resultados alcançados mostram que o uso de CNN para biometria
com EEG é um caminho promissor, pois conseguiu resultados que superaram trabalhos
considerados estado-da-arte em verificação, como os trabalhos de (Fraschini et al. 2015)
e (Yang et al. 2016), reduzindo o EER de 0,19% para EO-EC e para 0.08% usando
tarefas.
4 Introdução
Parte desta dissertação foi publicada no vigésimo segundo CIARP (Iberoamerican

Congress on Pattern Recognition), evento que aconteceu na cidade de Valparaı́so, Chile,
em novembro de 2017, com o artigo entitulado ”Convolutional Network for EEG-Based
Biometric”(Schons et al. 2018). O artigo pode ser encontrado na Seção A.1.
1.1 Objetivos
O objetivo do presente trabalho é propôr uma representação do sinal de EEG baseada

em deep learning para a tarefa biométrica de verificação. A técnica data augmentation
é explorada para aumentar a quantidade de dados do conjunto de treino para suprir a
demanda da rede neural de convolução.
Pode-se definir ainda como objetivos especı́ficos do trabalho:
• Investigar o uso de CNN para biometria baseada em EEG.
• Investigar o uso de data augmentation para multiplicação de instâncias de treino.
• Analisar o uso de diferentes faixas de frequência nos testes baseline.
• Verificar o comportamento de diferentes cenários de treino e teste, usando os dados

disponı́veis da Physionet.
1.2 Estrutura
O restante do trabalho é organizado da seguinte forma: O Capı́tulo 2 apresenta fun-

damentação teórica, de leitura imprescindı́vel para entendimento do restante da dis-
sertação. O Capı́tulo 3 contém revisão bibliográfica de trabalhos da literatura consi-
derados fundamentais para o desenvolvidos de sistemas biométricos e também EEG.
No Capı́tulo 4 é apresentada a metodologia proposta. No Capı́tulo 5 são mostrados
os resultados experimentais e discussão acerca disso. Finalmente, no Capı́tulo 6 são
apresentadas as conclusões.
Capı́tulo 2
Fundamentação Teórica
Este capı́tulo apresenta a base teórica dos temas abordados na dissertação e é organi-
zado da seguinte forma: A Seção 2.1 apresenta uma discussão sobre pré-processamento
de sinais. A Seção 2.2 trata dos conceitos básicos sobre biometria, a Seção 2.3 sobre
aprendizado em profundidade e redes neurais de convolução. A Seção 2.4 explica a
técnica de data augmentation. e finalmente, a Seção 2.5 explica a base de dados da Phy-
sionet, de onde surgiu e quais são os objetivos da mesma. A familiarização do leitor com
esses conceitos é de fundamental importância para o entendimento do trabalho como
um todo.
2.1 Pré-Processamento de Sinais
Os sinais de EEG enfrentam um grande desafio na sua captação, pois há muitas li-
mitações nos sensores que efetuam a captação de caracterı́sticas cerebrais de pessoas.
Dados brutos de EEG são vulneráveis à contaminação de diversos ruı́dos, entre es-
tes estão: atividades elétricas de movimentos corporais, ruı́do térmico e batimentos
cardı́acos. A extração também passa por limitações como a propagação do sinal por
camadas da cabeça, tal como osso e couro cabeludo. A interação entre os sensores e os
sinais também representam barreiras por gerar impedância, que é reduzida com uso de
gel condutor (Ma et al. 2015).
Como o EEG fornece informações de diversas aplicações, sejam biométricas, para

detecção de doenças, e inúmeras outras o pré-processamento de sinais para eliminar
informações desnecessárias é fundamental, para prover somente as caracterı́sticas mais
5
6 Fundamentação Teórica
discriminantes em cada área, melhorando consequentemente sua eficácia.
Normalmente, para aplicações biométricas, filtros passa-banda são aplicados para

processar somente as faixas mais relevantes para aplicação de biometria, pois cada faixa
de frequência está associada à uma atividade cerebral (Boubakeur et al. 2017).
O algoritmo common spatial pattern (CSP) separa um sinal multivariante em sub-

componentes aditivos que contém diferenças máximas de variância entre duas janelas,
encontrando filtros espaciais que são úteis para discriminar diferentes classes de sinais
de eletroencefalograma. No entanto, este algoritmo é sensı́vel a outliers e para melhorar
esse problema, em (Yong et al. 2008) propuseram uma modificação no algoritmo, subs-
tituindo estimativas de covariância clássicas pela covariância adquirida pelo estimador
de covariância mı́nima (MCD).
Abordagens como aplicação de algoritmo de identificação de componentes indepen-

dentes (ICA) no domı́nio da frequência com algoritmos bastante utilizados na literatura
são apresentados em (Delorme et al. 2006). Os algoritmos apresentados são: Infomax,
SOBI e FastICA. No domı́nio do tempo (Sadasivan and Dutt 1995) fez uso do algoritmo
FIR de passa-baixa digital de fase linear para atenuar interferências a partir de sinais
de EEG contaminados.
Transformadas Wavelet foram usadas com um filtro adaptativo através do algoritmo

RLS para reduzir artefatos no sinal de EEG por (Kumar et al. 2009) e uma combinação
do algoritmo fastICA e a transformada discreta Wavelet é proposta por (Ghandeharion
and Ahmadi-Noubari 2009) com a mesma finalidade.
Existem muitos algoritmos de pré-processamento de sinais em aplicações que ne-

cessitam de refinamento nos sinais para extração de informações. Nesta dissertação,
são aplicados filtros passa-banda afim de permitir somente sinais de uma faixa inter-
mediária, atenuando os que estejam acima ou abaixo das frequências pré-estabelecidas.
Assim como no trabalho de (Fraschini et al. 2015), algumas bandas de frequência foram
selecionadas para filtragem, porém com limites diferentes.
2.2 Biometria
Atualmente, em todas as esferas da nossas sociedade tem-se uma grande necessidade

de segurança, visto que as formas de fraude evoluem gradativamente a cada dia, prin-
cipalmente quando estão envolvidas informações e valores monetários. Nesse contexto,
Fundamentação Teórica 7
sistemas biométricos também devem estar em constante evolução, prevenindo acesso de

indevidos em qualquer local restrito e para isso exigem robustez associado à boa acurácia,
tanto para ambientes controlados como em ambientes não controlados. A atenção da co-
munidade de pesquisadores vem aumentando e novas formas de biometria vão surgindo,
cada vez mais eficientes e com maior segurança.
Formas de biometria tradicionais como impressão digital (Batool and Tariq 2011) e
face (K. et al. 2009) são mais difundidas atualmente, porém novas tecnologias de ex-
tração de caracterı́sticas estão sendo desenvolvidas e assim surgem sistemas biométricos
providos de novas fontes, tais como: iris, áudio, sinais vitais, marcha, eletrocardiograma,
e eletroencefalograma.
O desenvolvimento de sensores de captação de sinais biométricos e a redução de

custo dos mesmos auxilia muito no progresso de estudos da biometria, tornando os
equipamentos mais acessı́veis a todos os âmbitos da sociedade, incluindo as comunidades
de pesquisas relacionadas.
2.2.1 Conceitos de Biometria
Para um sistema ser qualificado como biométrico deve ser composto por qualquer carac-
terı́stica fı́sica ou comportamental que é denominada modalidade biométrica e tem que
satisfazer uma série de requisitos, que segundo (Jain et al. 2004) são:
• Universalidade: Toda e qualquer pessoa deve ter a caracterı́stica;
• Distinguı́vel: Deve ser capaz de permitir a diferenciação entre quaisquer seres

humanos;
• Imutável: A caracterı́stica deve ser invariante em relação ao tempo;
• Mensurável: Deve ser medida e quantificada de alguma forma;
De acordo com (Lumini and Nanni 2017), diferentes sistemas biométricos seguem um
mesmo padrão que é composto por 4 componentes:
1. Módulo de Aquisição: Neste módulo são capturados os dados referentes a biometria

do indivı́duo, sendo cada modalidade biométrica com os equipamentos adequados.
A qualidade da captura depende de diversos fatores, tais como o ambiente e a qua-

lidade dos sensores que irão captar os dados biométricos. O módulos de aquisição
impactam diretamente no desempenho de sistemas, portanto, quanto maior a qua-
lidade, melhores serão os resultados.
2. Módulo de Extração de Caracterı́sticas: Os dados podem passar por um pré-

processamento para remoção de ruı́dos e então pelo processo de extração de recur-
sos, que consiste em extrair caracterı́sticas discriminativas entre um indivı́duo e
outro. A partir disso, uma representação será chamada de instância e a modalidade
biométrica de vetor de caracterı́sticas.
3. Módulo de Comparação: Efetua comparações entre os vetores de caracterı́sticas

gerando um grau de similaridade para cada par de dados biométricos. Este grau
deve ser alto para caracterı́sticas da mesma pessoa e baixa para pessoas distintas.
4. Módulo de Decisão: Neste módulo a identidade é aceita ou rejeitada, com base nos
graus de similaridade do módulo de comparação, ou seja, verifica se o indivı́duo é
quem ele proclama ser, ou se pertence a um certo grupo de indivı́duos.
Ainda de acordo com (Lumini and Nanni 2017), um sistema biométrico é basicamente
um sistema de reconhecimento de padrões, onde são adquiridos dados biométricos de
um indivı́duo e comparado a um conjunto de dados armazenados no banco de dados.
E dependendo do contexto o sistema biométrico pode operar nos modos de registro,
verificação ou identificação, como descritos a seguir.
1. Modo de Verificação: Neste modo, o usuário fornece sua identificação por meio de
uma modalidade biométrica e o sistema é responsável por efetuar a validação caso
o indivı́duo seja quem ele proclama ser, em outras palavras, o sistema compara
com informações presentes no banco de dados, referentes à identidade previamente
informada ao sistema. O modo de verificação é também conhecido como identi-
ficação positiva (na qual o propósito é dar acesso exclusivo a somente uma pessoa),
algumas aplicações mais difundidas são as senhas alfanuméricas e cartões de reco-
nhecimento.

genuino, se S(X1 , X2 ) ≥ t
(X1 , X2 ) ∈ (2.1)
impostor, caso contrário
A tarefa de verificação pode ser modelada pela Equação 2.1, onde S é a função que
mede a similaridade entre dois vetores de caracterı́sticas (X1 e X2 ), essa medida é
feita utilizando distância euclidiana e t é um limiar predefinido (Jain et al. 2004).
A identidade de uma pessoa é reivindicada e classificada como genuı́na quando
os pares são semelhantes e impostor caso contrário. Depois disso, as curvas de
distribuição genuı́nas (intra-classe) e impostor (inter-classe) são geradas a partir
de pontuações de similaridade.
2. Modo de Identificação: O modo de identificação consiste em verificar se um in-

divı́duo é pertencente a um grupo de indivı́duos. Neste sistema, a identidade
não é previamente fornecida e, portanto, a informação de entrada é comparada
com todas as outras identidades armazenadas no banco de dados num esquema
um-para-muitos.

Ik , Se max S(XIq , XIk ) ≥ t, k = 1, 2, ..., N
(Xq ) ∈ k (2.2)
I
N +1 , caso contrário
A formulação matemática por dissimilaridade pode ser expressa pela Equação 2.2,
na qual Xq é o vetor de caracterı́sticas, Ik é a identidade a ser comparada as outras
no banco de dados (k ∈ 1, 2, ..., N, N + 1). Se o vetor não combinar com algum
dos vetores armazenados no banco de dados, será considerado do tipo N + 1, ou
não pertencente ao grupo.
3. Modo de Registro: O modo registro é para inserção de um novo indivı́duo no banco

de dados, ou seja, um primeiro contato com o sistema biométrico. A captura é
feita por sensores e os dados são representados por alguma técnica de extração de
caracterı́sticas.
Em geral, a grande maioria dos trabalhos de biometria com EEG se dão no cenário
de identificação, e diversos autores reportam 100% de reconhecimento (vide Capı́tulo 3)
de indivı́duos, isso se dá devido a carência de um protocolo experimental, dificultando
a comparação de resultados. Inicialmente, a referencia base do presente trabalho é o
artigo apresentado em (Fraschini et al. 2015) que utiliza um protocolo rı́gido, baseado em
verificação. O protocolo é reprodutı́vel e mais adequado para efeitos comparativos entre
trabalhos da literatura. Ainda, este protocolo é desafiador pois há grande dificuldade
em obter desempenhos próximos da otimalidade.
O processo de verificação é utilizado para realizar a biometria, para medir o desem-

penho do método proposto é utilizado o equal error rate (EER), e por meio das curvas
DET ou Detection Error Trade-Off, que é um gráfico onde mostra a relação entre dois
tipos de erro, a taxa de falsa aceitação (FAR) e a taxa de falsa rejeição (FRR).
O EER é definido como o ponto em que a FAR é igual a FRR. As curvas FARs e
FRRs são originados a partir da comparação de pares intra-classe e inter-classes. Já
a curva DET é formada por meio de comparação das instâncias do conjunto de teste,
num esquema todos contra todos, para a tarefa de verificação. Na curva DET é plotada
a taxa de erro nos dois eixos, fornecendo tratamento uniforme para os tipos de erros
amostrados, e é utilizada uma escala para ambos os eixos, que efetua uma difusão do
gráfico, melhorando a distinção de diferentes sistemas com bom desempenho (Martin
et al. 1997). Na Figura 2.1 é possı́vel a visualização da relação das taxas de erro e o
ponto onde encontra-se o EER.
Figura 2.1: Curva DET com a relação entre FAR, FRR e EER. Extraı́da/adaptada
de (Du and Chang 2007).
2.3 Aprendizado em Profundidade
O aprendizado em profundidade, busca em sua essência, imitar a robustez e eficiência

da representação e aprendizagem de informações do cérebro humano. A forma como
o cérebro interpreta informações, as colhe conforme o ambiente em que está inserido,
processa e armazena dados para possı́vel uso no futuro é algo almejado para o ramo de
inteligência artificial e, inclusive, há razões para acreditar que o sistema visual humano
contém modelos generativos de múltiplas camadas (Felleman and Essen 1991, Lee et al.
1998) e inclusive fı́sicos.
Os primeiros modelos de aprendizagem em profundidade foram usados para reco-

nhecimento de objetos individualmente em imagens cortadas e extremamente pequenas
(Hirose et al. 1991). A partir disso, houve incremento no tamanho das imagens utilizadas
e na capacidade de processamento das redes neurais.
O aprendizado em profundidade está sendo amplamente utilizado, por sua gama

enorme de aplicações e obtenção de bons resultados, o processo de aprendizado pode
ser supervisionado, semi-supervisionado ou não supervisionado. A identificação das
abstrações nos dados é o foco das arquiteturas que efetuam a implementação do Deep
learning, iniciando por um nı́vel de abstração baixa dos dados, até um alto nı́vel, que
corresponde as camadas mais profundas da rede, conseguindo obter um alto ı́ndice de
abstração.
O aprendizado em profundidade produz modelos generativos de caracterı́sticas, por-

tanto a classificação obtida por uma rede de aprendizagem em profundidade pode ser
também classificada por outros modelos generativos (Rumelhart et al. 1986).
O aprendizado supervisionado com a utilização de Deep learning evoluiu muito com o

passar dos anos, alcançou desempenho superior às técnicas convencionais de aprendizado
de máquina. Inclusive, desafios como o ImageNet, que é um desafio tradicional de
reconhecimento visual em grande escala obteve como vencedor uma técnica de deep
learning (Krizhevsky et al. 2012).
A rede neural de convolução (convolutional neural network (CNN)), é uma das

técnicas mais populares e promissoras da comunidade de deep learning, por esse mo-
tivo ela foi escolhida para ser investigada nesta dissertação.
2.3.1 Redes Neurais de Convolução
As redes neurais de convolução (LeCun et al. 1989), que também são conhecidas por
redes neurais convolutivas, ou CNN, são um tipo especializado de redes neurais para
processamento de dados e possuem uma topologia conhecida e semelhante a uma grade.
Estas redes tem imenso sucesso em aplicações práticas que envolvem visão computaci-
onal. O nome rede neural de convolução indica uma operação matemática denominada
convolução. A convolução é um tipo especializado de operação linear e redes convolutivas
são basicamente nós em camadas que fazem uso da convolução ao invés da multiplicação
da matriz geral em pelo menos uma de suas camadas.
O processo de uma rede neuronal convolucional tal como descrito em (Pinto and Cox
2011) é ilustrado pelo diagrama da Figura 2.2. Em resumo as redes neuronais convolu-
cionais são compostas de múltiplas camadas, onde cada uma delas realiza um processo
de filtragem por um banco de kernels(convolução), ativação, pooling e normalização.
A camada de convolução tem por objetivo extração de caracterı́sticas por meio da

operação de convolução da amostra de entrada com um kernel. A camada de ativação
tem o importante papel de aprimorar a robustez da rede, retificando a saı́da da amostra
convoluı́da, descartando informações menos importantes. O pooling é uma operação
que tem como objetivo adicionar capacidade de invariância a translação, por meio de
operações, como máximo ou média, de determinadas regiões da amostra. Por fim, a
camada de normalização promove uma competição entre os filtros, forçando sempre o
uso de filtros com a melhor resposta, de acordo com um critério.
Figura 2.2: Operações de uma rede neuronal convolucional de 3 camadas. Ex-

traı́da/adaptada de (Pinto and Cox 2011).
A princı́pio, na camada 0 (inicial), a amostra, ou padrão de entrada, a ser processada

é normalizada:
N ormalizaçã
Camada 0: Entrada −−−−−−−→ N 0
e então, as demais camadas são processadas, i.e., ∀j ≥ 1
F iltragem Ativação P ooling N ormalização

Camada j : N j−1 −−−−−−→ F j −−−−−→ Aj −−−−→ P j −−−−−−−−→ N j
A entrada para o processo de Filtragem é uma amostra N j−1 . Esta amostra é filtrada
utilizando um banco de k j filtros denotado por Φj para gerar uma amostra multi-banda
com k j bandas denotado por F j . Cada banda da amostra multi-banda F j é dado por:
Fij = N j−1 ◦ Φji ∀i ∈ {1, 2, ..., k j }
onde ◦ denota a operação de convolução sobre a saı́da da camada anterior N j−1 com o
filtro Φji . De fato os filtros de Φj tem três dimensões, onde a terceira dimensão é igual
ao número de bandas da saı́da da camada anterior, i.e., k j−1 . O processo de filtragem
tem os seguintes parâmetros:
• O tamanho dos filtros tridimensionais fsj × fsj × fdj , onde fdj = k j−1
• O número de filtros k j na camada j
No método proposto em (Pinto and Cox 2011), todos os filtros são gerados aleatori-
amente com uma distribuição uniforme, média 0 e norma 1. Já em (LeCun et al. 1998),
os coeficientes dos filtros são aprendidos por meio de um processo supervisionado.
Uma função de ativação é aplicada sob as saı́das do processo de filtragem, de forma

que os valores da saı́da são ajustados a um intervalo determinado, tal como:

1 Se x < 0.
Ativação(x) = (2.3)
0 Caso contrário.
Este processo de ativação visa justamente imitar a função de um neurônio que tem
seu sinal de saı́da ativado apenas se uma determinada quantidade de energia é recebida.
O processo de pooling é aplicado sobre a amostra multi-banda de ativação Aj . Esta

operação é definida como:
qj
p j
j
P = Subamostragemα ( (Aji )p I(aj × aj )) (2.4)
onde é uma correlação bidimensional, I(aj × aj ) é uma matriz de 1’s de aj × aj , a

variável pj controla o exponente do pooling. Esta operação tem os seguintes parâmetros:
• O stride α por exemplo, se fosse 2 a subamostragem seria por fator de 4
• O tamanho de vizinhança de pooling aj
• O exponente pj
Logo a saı́da do pooling é normalizada com seus vizinhos. A operação de normalização

é definida como:
Pj
Nj = (2.5)
kP j ⊗ I(bj × bj × k j )k
onde ⊗ é a operação de correlação em três dimensões e I(bj × bj × k j ) é uma matriz

de 1’s de bj × bj × k j e bj é o tamanho da vizinhança quadrangular na operação de
normalização.
Esta operação de normalização também é bio-inspirada a partir da interação compe-

titiva observada em sistemas neuronais naturais (e.g., mecanismo controle de ganho de
contraste na área cortical V1 e em outros lugares (Geisler and Albrecht 1992, Rolls and
Deco 2002)) e é muito importante para o aprendizado das representações.
Um grande problema que atinge as redes neurais de convolução de maneira geral, é

o overfitting, e o dropout é uma técnica criada para ajudar a impedi-los, esta técnica
consiste em excluir algumas unidades (ocultas ou visı́veis) aleatoriamente, a partir de
uma probabilidade p, com o intuı́to de evitar co-adaptações complexas nos dados de
treinamento criado pelo aprendizado padrão do backpropagation usado na CNN(Hinton
et al. 2012).
2.4 Data Augmentation
Atualmente, com a grande eficácia e difusão de técnicas de aprendizado em profundidade

para aplicações práticas, sua utilização está em expansão, porém é de conhecimento co-
mum, para que funcionem e generalizem bem o problema de estudo, deve-se ter grande
quantidade de dados de qualidade disponı́veis para treinamento, caso contrário poderá
acarretar em overfitting e não convergência no modelo por escassez de dados de treina-
mento. No entanto, é difı́cil encontrar bases de dados com grande quantidade de dados
de qualidade, a não ser para a modalidade de face, que tem bases de dados extensas
disponı́veis.
Técnicas de data augmentation estão sendo propostas para superar o problema da es-
cassez de dados, esta técnica pode ser feita de diversas maneiras, e com maior facilidade
em problemas de visão computacional, pois pode-se gerar dados novos com muita facili-
dade através de manipulações de imagem, como mudança no escalonamento, rotação e
outras transformações afim(DeVries and Taylor 2017). Estas técnicas básicas irão per-
mitir o foco não só globalmente, como também localmente nas imagens, dando ênfase a
objetos que poderiam não ser detectados com as imagens originais, permitindo assim o
modelo a aprender mais para obter maior generalização.
(DeVries and Taylor 2017) efetuou perturbações, interpolações e extrapolações nos

exemplos por meio de codificadores e decodificadores para ampliar a quantidade de amos-
tras de dados disponı́veis para treinamento. Os codificadores aplicam transformações não
lineares parametrizadas, convertendo-as em novas representações, normalmente meno-
res do que as originais. Os decodificadores tentam efetuar a reconstrução das entradas
originais, também por transformações não lineares. Diversas formas regularizadas de
auto-encoders foram propostas, visando o aprendizado de novas representações.
No trabalho de (Acquarelli et al. 2017), data augmentation permitiu a criação de no-

vas amostras de imagens para classificação espectro espacial de imagens hiper-espectrais
de detecção remota. A técnica é baseada em labels e consiste em identificar vizinhos
para pixels das imagens de treinamento originais, após isso é feita uma seleção de um
subconjunto de pixels na vizinhança a partir de uma probabilidade p, a label de cada
pixel de treinamento é transferida para os pixels vizinhos selecionados e após isso inserir
os pixels selecionados com as labels inferidas nos dados de treinamento. Esta abordagem
foi proposta para treinamento de uma rede neural de convolução.
Enfim, existem diversas maneiras de aumentar os dados da base de treino para obter
melhores resultados, a melhor forma vai depender muito das caracterı́sticas do problema
em questão. Nesta dissertação o uso de sobreposição dos dados foi aplicada e a descrição
do método é explicitada na Seção 4.2.2.
2.5 Base de Dados Physionet
A Physionet (Goldberger et al. 2000) é uma popular base de dados que oferece acesso
gratuito a diversas coleções de registros de sinais fisiológicos. É um serviço público do
PhysioNet Research Resource for Complex Physiologic Signals e tem financiamento pelo
National Institute of General Medical Sciences (NIGMS) e pelo National Institute of
Biomedical Imaging and Bioengineering (NIBIB).
O PhysioNet Resource foi criado no ano de 1999 e tem como finalidade estimular
investigações no estudo de sinais biomédicos e fisiológicos complexos tal como pesquisas
atuais.
A Physionet Resource tem três componentes estreitamente independentes:
• PhysioBank: É um banco de dados que contém gravações digitais de sinais

fisiológicos, séries temporais e dados voltados à comunidade biomédica. Inclui
também várias coleções de dados de sinais cardiopulmonares, neurais e outros si-
nais biomédicos de pacientes saudáveis e com condições de saúde com implicações
importantes para a saúde pública, com dados de morte súbita cardı́aca, insu-
ficiência cardı́aca congestiva, epilepsia, distúrbios de marcha, apneia do sono e
envelhecimento
• PhysioToolkit: É uma biblioteca crescente de software para processamento e

análise de sinais fisiológicos e outras finalidades relacionadas a sinais biomédicos.
• PhysioNetWorks: Comunidade de colaboração para o laboratório virtual para

trabalhar com pessoas do mundo todo em prol das publicações na Physionet.
Algumas bases de dados são voltadas para sinais de eletroencefalograma, e uma delas
é muito popular para uso em testes de sistemas biométricos, é disponı́vel publicamente1 .
As gravações foram adquiridas de 109 sujeitos diferentes, utilizando 64 eletrodos posi-
cionados na região do escalpo para armazenar os sinais (Conforme a Figura 2.4), cada
1
http://physionet.org/pn4/eegmmidb/
eletrodo é amostrado na frequência de 160 Hz. A base de dados foi criada pelos desen-
volvedores do sistema de instrumentação BCI2000 e mantido pela Physionet. A Figura
2.3 mostra o sinal de EEG do eletrodo (FC5 ) nos primeiros 10 segundos de gravação,
onde cada grid corresponde a 0,2 segundos
Na base de dados há 14 diferentes sessões de aquisições para cada indivı́duo. Duas
dessas 14 sessões contém 60 ou 61 segundos de duração, uma feita com o paciente em
estado de repouso com os olhos abertos (EO) e outra com olhos fechados (EC). As 12
sessões restantes tem dados de 2 minutos de gravação cada, na qual os indivı́duos realizam
4 diferentes tarefas motoras ou imaginárias (T1-T4) em 3 sessões ou runs (R1-R3), as
atividades atribuı́das as tarefas são:
Figura 2.3: Sinal de EEG do eletrodo FC5 amostrado em 10 segundos.
Figura 2.4: Posição dos eletrodos na região do escalpo. Fonte: http://physionet.org/

pn4/eegmmidb/.
• Tarefa 1: Um alvo aparece no lado esquerdo ou direito da tela e o indivı́duo abre e

fecha o punho correspondente ao lado, até o alvo desaparecer. Após isso o indivı́duo
relaxa.
• Tarefa 2: Um alvo aparece no lado esquerdo ou direito da tela e o indivı́duo imagina

abrir e fechar o punho correspondente ao lado, até o alvo desaparecer. Após isso
o indivı́duo relaxa.
• Tarefa 3: Um alvo aparece na parte superior ou inferior da tela. O indivı́duo

abre e fecha ambos os punhos, caso o alvo esteja posicionado no topo e ambos os
pés, caso esteja posicionado na parte inferior. Esta tarefa é executada até o alvo
desaparecer. Após isso o indivı́duo relaxa.
• Tarefa 4: Um alvo aparece na parte superior ou inferior da tela. O indivı́duo

imagina abrir e fechar ambos os punhos, caso o alvo esteja posicionado no topo e
ambos os pés, caso esteja posicionado na parte inferior. Esta tarefa é executada
até o alvo desaparecer. Após isso o indivı́duo relaxa.
Capı́tulo 3
Revisão da Literatura
A biometria com sinais de EEG é um método muito promissor, por, teoricamente, ser
menos suscetı́vel a fraudes, que podem ser efetuadas em outras formas de biometria.
Sinais de EEG são formados pelo fluxo da corrente iônica dos neurônios do cérebro.
No cérebro há várias regiões e cada uma é ativada conforme a necessidade corporal.
São normalmente explorados em aplicações médicas para diagnóstico de doenças como
vasculares cerebrais, epilepsias e outros distúrbios (Subasi and Ismail Gursoy 2010).
Usados na maioria dos estudos direcionados à biometria com EEG, as bases de dados
contém sinais gravados de indivı́duos em estado de repouso com olhos abertos (EO) ou
com olhos fechados (EC) (Pozo-Banos et al. 2014). Por isso a Seção 3.1 aborda sobre
trabalhos que utilizam estas bases de dados e a Seção 3.2 é sobre trabalhos direcionados
a bases de dados com gravações de indivı́duos realizando tarefas motoras ou imaginárias.
3.1 Estado de Repouso com EO e EC
Em 1980 a biometria com EEG foi introduzida por (Stassen 1980), em seu trabalho o
objetivo era caracterizar uma pessoa por meio do padrão de espectro de EEG e classificar
o espectro utilizando uma modificação de um método de reconhecimento de fala. A
investigação se mostrou promissora, pois obteve 90% de probabilidade de confiança para
análise de 82 sujeitos com idade entre 20 e 35 anos.
A extração caracterı́sticas de EEG para identificação de pessoas usando o espectro

de informações do sinal pelo FFT e classificação através de um algoritmos de geometria
19
20 Revisão da Literatura
computacional (interseções de polı́gono convexo) foi a proposta de (Poulos et al. 1999a).

O autor procurou explorar o Absolut Spectral Power (ASP) do ritmo alpha (7-12.5
Hz). Uma base de dados própria denominada Poulos’ DDBB que contém dados de
4 indivı́duos, que incluem 45 seções gravadas. A acurácia do método para identificação
reportada foi de 95%.
(Paranjape et al. 2001) fez uma análise sobre 349 segmentos de EEG a partir de 40
indivı́duos, do qual aplicou modelos autorregressivos em várias ordens, fez uma análise
discriminante e conseguiu 80% de acurácia na identificação de pessoas.
O uso de modelos autorregressivos (AR) para extração de parâmetros é também

usado por (Mohammadi et al. 2006), para ser classificado por meio de uma rede neural de
competição. Os autores propuseram dois métodos, o primeiro é baseado em canal único,
que faz uso dos parâmetros AR como único vetor de caracterı́sticas e obteve acurácia de
95% no melhor cenário, posteriormente utilizaram multicanais que efetua combinação
dos parâmetros AR em diferentes canais para formar o vetor de caracterı́sticas, obtendo
precisão de 100% em diversos cenários.
(Palaniappan and Mandic 2007a) propôs uma análise sobre a capacidade de potências
de frequência dominante nos sinais VEP (Visual Evoked Potential ) aplicada à frequência
gamma para realização de biometria, utilizando um conjunto de dados abrangentes e
várias técnicas de classificação. As técnicas utilizadas compreendem K-Nearest Neighbor
(KNN), classificadores da Elman Neural Network (ENN) e 10-fold Cross Validation. A
acurácia máxima foi obtida pelo ENN com média de 98.12 (desvio padrão).
O trabalho de (Tangkraingkij et al. 2009) analisa quais os eletrodos de EEG que tem
maior potencial para identificação biométrica, ou seja, os que são mais discriminantes. A
gravação dos dados foi feita com os indivı́duos em estado de repouso com olhos abertos
e o algoritmo de análise de componentes independentes foi usado para separar dados
de EEG derivados de vários canais e separá-los em fontes independentes. Após isso
aplicaram rede neural para classificação. A classificação obteve 100% de acurácia para
20 indivı́duos, usando todos os 16 eletrodos disponı́veis e conseguiram manter o resultado
usando apenas 3, apontando os mais discriminantes, são eles: Fp1, P3 e C4, que podem
ser vistos na Figura 3.1.
(Singh et al. 2015) desenvolveu um trabalho com o objetivo de encontrar relações

dos sinais gerados entre as regiões cerebrais para formar um padrão único que possa
servir como caracterı́stica discriminativa. Inicialmente é passado um filtro passa baixa
para redução de ruı́do e então são feitos cálculos das relações dos sinais e utilizados como
Revisão da Literatura 21
Figura 3.1: Eletrodos utilizados por (Tangkraingkij et al. 2009).
Tabela 3.1: Quantidade de eletrodos utilizados e acurácia obtida. Ex-

traı́da/Adaptada de (Singh et al. 2015).
Acurácia (109 indivı́duos)
Número de Canais 64 10 6 5
Abordagem 1 100% 100% 97,24% 95,4%
Abordagem 2 100% 99,1% 91,7% 89%
caracterı́sticas. E para abordar a variabilidade da amplitude de um sujeito para outro, foi

utilizada uma medida bivariada, chamada Magnitud Squared Coherence (MSC), medida
que depende da constância da fase enquanto uma área do cérebro interage com a outra. E
por fim para classificação é utilizado o algoritmo KNN calculado pela distância euclidiana
dos dados. Na seção de análise de resultados são executados testes para 64, 10, 6 e
5 canais. Após este processo feito para identificar os usuários, foram utilizadas duas
abordagens, a primeira consiste em encontrar o ponto mais próximo de 5 amostras de
cada indivı́duo e então selecionar o valor mı́nimo final, (utilizando kNN com k = 1). E
a segunda consiste em encontrar distâncias dos pontos de recurso de dados de teste a
partir do valor médio calculado de cada ponto de caracterı́stica de todas as 5 amostras
de cada classe, em seguida é obtida a classe de distância mı́nima. Nos resultados deste
artigo a abordagem 1 foi superior para todas as quantidades de canais, os resultados são
expressos em EER e podem ser vistos na Tabela 3.1.
No trabalho de (Fraschini et al. 2015) foi utilizado o processo de verificação biométrica,

na qual é proposta uma abordagem baseada na sincronização de fase. A base de dados
da physionet (Goldberger et al. 2000) é utilizada, com todos os 64 eletrodos. A meto-

dologia utilizada pelo autor foi feita em quatro passos, no primeiro é realizada filtragem
dos dados brutos para permitir fazer um estudo da frequência dos dados especı́ficos das
redes cerebrais. O segundo passo estima a interdependência estatı́stica em pares entre
séries temporais de EEG, após isso os dados são transformados em um grafo ponde-
rado, no qual cada conexão funcional entre os eletrodos conectados na cabeça será uma
aresta. E por fim, o quarto passo efetua a caracterização da organização funcional do
cérebro, onde terá uma medida de centralidade para quantificar a importância de cada
nó inserido na rede, esta medida é feita considerando a qualidade das conexões que são
estabelecidas. Então, a classificação é feita utilizando um vetor com 64 elementos no
qual tem-se expressadas a qualidade de cada nó da rede e em seguida são investigados
as caracterı́sticas únicas de cada indivı́duo, para fazer definitivamente a biometria. Os
resultados foram segmentados em frequências, visto que, quanto menor o tamanho da
faixa de frequência nos dados fica mais difı́cil efetuar a identificação do indivı́duo pelo
EEG. As melhores acurácias foram obtidas pelos testes realizados na faixa de frequência
gamma (30-50 Hz) onde obteve 4.4% de EER.
Algumas abordagens com redes neurais de convolução também foram propostas, (Ma
et al. 2015) fez uso de CNN com 5 camadas, contendo duas camadas de convolução, duas
de pooling e finalizando com uma fully connected. A avaliação é dada em cima da base
de dados da Physionet, contudo, de 109 indivı́duos somente 10 foram selecionados para
teste. Dos 60 segundos disponı́veis, 55 foram separados em fragmentos de 1 segundo para
treinamento e os 5 restantes para teste amostrados a 160 Hz. Filtros passa-banda são
empregados em diversas faixas de frequência. Os testes foram executados com dados dos
indivı́duos em estado de repouso com olhos abertos, olhos fechados e ambos. As taxas
de classificação no cenário de identificação variaram de 64 a 86%.
3.2 Multitarefas
O primeiro estudo sobre atividade mental para biometria baseada em EEG foi em (Pa-
laniappan 2005). Neste trabalho foram extraı́das caracterı́sticas a partir de um modelo
autorregressivo (AR) de sexta ordem. A base de dados utilizada contém dados de 9 in-
divı́duos amostradas a 250 Hz e os sinais foram adquiridos durante 10 segundos para cada
tarefa com 6 eletrodos. Quatro tarefas são realizadas durante as sessões de gravação:
cálculos matemáticos, observar uma figura geométrica rodando, composição de cartas
Revisão da Literatura 23
para um amigo ou parente mentalmente e imaginar números sendo escritos e em seguida

apagados em um quadro negro. A média de erro obtida foi de 0,95% para identificação
de pessoas.
Um estudo sobre o efeito do tempo em um sistema de identificação baseado em

EEG feito por (Marcel and Millan 2007) mostrou que quando dados de EEG adquiridos
no mesmo dia são usados para treino e teste o desempenho piora, se comparado com
o desempenho de dados captados em dias diferentes, em contrapartida, se dados de
treinamento de sessões de vários dias forem usadas o problema pode ser contornado. A
base de dados avaliada contém dados de 9 indivı́duos em 12 sessões feitas em 3 dias,
totalizando 4 por dia. Três tarefas são executadas pelos sujeitos: mover a mão para
o lado direito, para o lado esquerdo, e imaginar palavras que iniciem com uma letra
aleatória que aparece na tela, visto que as tarefas mudam a cada 15 segundos durante a
gravação. As sessões realizadas no mesmo dia consistem em 4 minutos de duração com
intervalo de 5 a 10 minutos entre uma e outra. A melhor performance obtida foi de 6,6%
EER.
Em (Kostı́lek and Št’astný 2012), foi destacada a deterioração de resultados das

tarefas mentais com o passar do tempo. A base de dados consiste em registros de 9
indivı́duos e 53 eletrodos, duas sessões de aquisição de sinais foram feitas, com intervalo
de um ano entre uma e outra. Nos experimentos executados com os sinais obtidos na
primeira sessão parte para treino e o resto para teste, a taxa de classificação chegou a
98%. Contudo, para os testes da primeira sessão usados no treinamento e da segunda
para testes, a acurácia foi de 87,1%
Em (Yang et al. 2016) foi usada a transformada Wavelet numa forma discreta, que tá
sendo muito bem avaliada pela comunidade cientı́fica, uma vez que porque tem capaci-
dade de capturar informação de sinais nos domı́nios de tempo e frequência. As frequência
são divididas em nı́veis de classificação do qual dois são utilizados, o primeiro varia de
20 em 20 Hz no domı́nio de 0 a 80, e o segundo de de 10 em 10 Hz no mesmo domı́nio.
Os dados EEG adquiridos de I eletrodos são segmentados em tempo em N janelas so-
brepostas; Cada janela sobrepõe seu vizinho em 50%. Para uma dada janela de tempo,
os dados de cada um dos eletrodos são transformados usando a transformada wavelet
packet decomposition (WPD) multi-nı́vel seguido por uma fase de realce de caracterı́stica
onde as derivadas dos coeficientes WPD são calculadas. Para cada uma destas faixas
melhoradas, o desvio padrão (SD) é calculado. Os SD para todas as bandas e todos os
eletrodos são então concatenados para produzir o vector de caracterı́sticas para classi-
ficação utilizando um classificador LDA. As decisões do classificador de todas as janelas
de tempo são fundidas usando uma regra de votação majoritária. Os desempenhos deste
sistema foram investigados para os cenários de identificação e verificação e a base de
dados utilizada contém dados de pessoas executando as tarefas descritas na seção 2.5.
Três protocolos de testes foram adotados por (Yang et al. 2016), o primeiro protocolo
investiga o impacto das regiões de eletrodos (lobo frontal, córtex motor e lobo occipital)
e tipos de tarefas no desempenho do sistema. O segundo explora o uso de diferentes
tarefas para treinamento e teste do sistema e consiste em usar dados de teste diferente
dos dados de treino. Finalmente, o terceiro analisa a eficácia da combinação de dados de
diferentes tarefas para treinamento com teste em apenas um tipo de tarefa e gravação
(run T1R2). O resultado obtido foi 100% de acurácia no cenário de identificação e
2,63% EER no melhor cenário para verificação treinando nas tarefas T1+T2 e testando
em T1R2, com uso de 9 eletrodos.
Uma abordagem de CNN é proposta por (Das et al. 2017) no qual os sinais passam
por filtragem para redução de ruı́dos e na CNN são consideradas as seguintes camadas:
uma de convolução, duas max pooling, uma de ativação, uma de perda e finalmente a
fully connected. No protocolo de testes, foram adquiridos dados de 40 indivı́duos, onde
os mesmos são submetidos a estı́mulos visuais a partir de uma sequência de formas
geométricas que são mostradas em um monitor. O circulo é considerado estı́mulo alvo
e os observadores devem se concentrar nas ocorrências do alvo, ignorando o restante.
Uma taxa de acurácia de 98,8% é encontrada para o esquema não-alvo contra não-alvo
e 90.65% para alvo contra não-alvo.
Capı́tulo 4
Rede Neural de Convolução para

Biometria Baseada em EEG
Neste capı́tulo será descrita a metodologia empregada para biometria baseada em EEG
através de rede neural de convolução. A Seção 4.1 descreve o pré-processamento utilizado
para filtrar os sinais e as bandas de frequência utilizadas. A Subseção 4.2.1 explica como
é feita a divisão dos dados para treino, teste e validação e a Subseção 4.2.2 irá explicar
como a técnica de data augmentation é utilizada. Por fim, a Seção 4.3 descreve a
metodologia de obtenção da arquitetura e parâmetros para a rede neural de convolução.
4.1 Pré-Processamento
Os sinais de EEG obtidos da base de dados da Physionet são amostrados em 160Hz,

porém utilizar toda essa faixa de frequência não é algo usual para biometria, pois algumas
faixas de frequência são mais discriminantes que outras.
Para biometria baseada em sinais de EEG, normalmente são adotadas faixas de

frequência abaixo da linha de 50 Hz (Yang and Deravi 2017).Algumas faixas são tipica-
mente consideradas para análise e estão amostradas na Tabela 4.1:
Um filtro passa banda FIR (Filtro de resposta a impulso finita) é responsável pelo
processo de filtragem e foi utilizado para obter os sinais nas faixas de frequências dese-
jadas, foram escolhidas 3 frequências de corte para realizar os experimentos. A primeira
banda cobre das frequências delta até gamma (1-50Hz), a segunda está relacionada ao
25
26 Rede Neural de Convolução para Biometria Baseada em EEG
Tabela 4.1: Faixa de frequências normalmente utilizadas em EEG.

Faixa de Frequência Frequência
Delta < 4 Hz
Theta 4-7 Hz
Alpha 8-12 Hz
Beta 12-35 Hz
Gamma > 35 Hz
final da alpha até a high beta (10-30 Hz) e a terceira preserva o final da beta até a faixa
gamma (30-50 Hz).
4.2 Processamento Dos Dados
4.2.1 Divisão dos Dados de Entrada
Os dados devem ser divididos em 3 conjuntos para realizar as fases de treinamento,

validação e teste.
A etapa de treinamento para CNN consiste em apresentar os dados que vão ser
responsáveis por ajustar o modelo, com o objetivo de emparelhar a entrada com o
resultado esperado.
O conjunto de dados de validação ajuda a preparar o modelo, auxiliando na seleção

de recursos e ajuste dos hiper-parâmetros, sua avaliação é mais tendenciosa, pois as
caracterı́sticas aprendidas no conjunto de dados de validação é incorporada na confi-
guração do modelo. Normalmente a curva de aprendizado no treino acompanha a curva
de validação e com isso podemos detectar overfitting.
Os dados de teste devem ser independentes dos dados de treinamento, porém segue
a mesma distribuição de probabilidade que o conjunto de treino. O objetivo é treinar
o modelo e generalizar o desempenho de um classificador, fazendo-o se encaixar bem
no conjunto de dados de teste, ou seja o conjunto de dados de testes é um conjunto de
amostras de exemplos para testar a eficácia do modelo.
A Figura 4.1 exemplifica como foram feitas as divisões no cenário de treino em EO

Rede Neural de Convolução para Biometria Baseada em EEG 27
Figura 4.1: Exemplo de distribuição dos segmentos de EEG usados para treino em EO
e teste em EC.
e teste em EC. Os dados são divididos em segmentos de 12 segundos, buscando seguir

a proposta de (Fraschini et al. 2015) e seu protocolo de avaliação. Dos dados da fase de
treinamento, 90% foram separado para treino e 10% para validação durante 60 épocas,
com o uso de sobreposição dos dados (data augmentation), que será explicado na Seção
4.2.2. Para os dados de teste não é utilizada a sobreposição, portanto as amostras de
entrada contém o seu tamanho total dividido pelo tamanho dos segmentos (12 segundos).
No caso da Figura 4.1, está exemplificando os dados baseline da base de dados physionet,
com EO e EC, cada amostra de um indivı́duo contém 60 segundos e para teste pode-se
verificar 5 segmentos de 12 segundos (1920 amostras) cada.
4.2.2 Data Augmentation
Seguindo o protocolo de avaliação proposto por (Fraschini et al. 2015), os dados de EEG
foram divididos em segmentos de 12 segundos cada (1920 amostras), portanto, ao dividir
os 60 segundos de EO e EC, resultaria em 5 segmentos por indivı́duo e para tarefas (T1-
T4) 10 segmentos. No entanto, 5 ou 10 segmentos por indivı́duo não é suficiente para
treinamento de uma rede neural de convolução.
Para aumentar a quantidade de dados disponı́veis e ajudar a evitar overfitting no

modelo, é proposta a técnica de data augmentation. A estratégia é bem simples e con-
siste em sobrepor abundantemente os dados entre os segmentos de EEG, criando novos
segmentos à partir do sinal filtrado com o uso de uma janela deslizante. Normalmente a
técnica de data augmentation em imagens os dados são modificados para acrescentar va-
riabilidade no modelo, porém nos sinais de EEG isso pode gerar perda de caracterı́sticas,
por esse motivo a sobreposição dos dados foi proposta, mantendo o sinal original mas
multiplicando sua quantidade nas instâncias de treino.
Os novos segmentos são criados utilizando o sinal todo do indivı́duo e a partir da

amostra no tempo 0 irá extrair o primeiro segmento, correspondendo ao tempo (dos
sinais de gravação) 0-12 segundos, então há um incremento de 20 amostras ou 0,125
segundos, gerando um novo segmento correspondente ao tempo 0,125-12,125 segundos.
Isso é feito como se fosse uma janela deslizante de 20 em 20 segmentos, esse procedimento
é realizado até chegar no final da gravação do sinal. Esta técnica permitiu produzir 42696
novas instâncias de treinamento para EO e 95801 para tarefas.
Figura 4.2: Data augmentation com janela deslizante de tamanho 12 segundos. Temos
em a) janela na posição offset 0, primeiro segmento criado. b) offset de 5 segundos. c)
offset de 10 segundos e d) último segmento criado, após a janela deslizar sobre todo o
sinal.
A Figura 4.2 mostra um exemplo de data augmentation, com janela deslizante de

tamanho 12 segundos e deslocamento de 5 segundos. Estes valores foram usados para
efeitos de visualização da imagem.
Rede Neural de Convolução para Biometria Baseada em EEG 29
4.3 Rede Neural de Convolução
Assim como citado na Subseção 2.3.1, uma rede neural de convolução necessita de uma
arquitetura, e sua estrutura tı́pica é composta de uma série de operações empilhadas que
inicia com camadas de convolução, seguido por ativação, no caso do presente trabalho
com ReLu, pooling, normalização e enfim, camadas fully connected (LeCun et al. 2015).
Na Figura 4.3 pode-se ter uma noção melhor do funcionamento do modelo adotado.
A entrada tem tamanho 1920 × 1 × 64, e os filtros são unidimensionais, proporcional-
mente adaptados para o sinal de EEG. O valor 1920 corresponde a um segmento de 12
segundos, o valor 1 significa que o sinal é uni-dimensional e finalmente, 64, corresponde
a quantidade de eletrodos disponı́veis.
Na fase de treinamento, o sinal de entrada é lançado pelas camadas da rede. Cada

camada representa uma ou mais operações da CNN: convolução; pooling; stride; ativação
(ReLU); normalização (L2 Norm). A rede é composta por 3 convoluções seguidas de
pooling, e por fim, 4 camadas fully connected, seguida da camada de perda softmax-loss
e dropout. Esta configuração foi definida empiricamente com base nos erros obtidos no
processo de validação.
Para o treinamento da rede neural de convolução, o uso de três arquiteturas de CNN

foram investigadas. A primeira com pequenos campos receptivos na primeira camada de
convolução, essa ideia foi inspirada no trabalho de (Simonyan and Zisserman 2014). As
outras duas contém campos receptivos maiores, inspirados por (Krizhevsky et al. 2012,
Zeiler and Fergus 2014).
Para a tarefa de verificação, necessitamos de um vetor de caracterı́sticas, com a

finalidade de realizar a biometria, por isso após a fase de treino, as últimas três camadas
da rede são removidas, a camada de custo softmax, dropout e a fully connected 4 (FC4).
A nova saı́da da rede é usada como o vetor de caracterı́sticas para um segmento de 12
segundos de EEG. Após esse processo, são criados pares intra-class (genuı́nos) e inter-
class (impostores) pelo processo de verificação, para serem classificados por meio de
distância euclideana, que calcula a similaridade entre dois vetores de caracterı́sticas.
A função de ativação ReLU (Ativação linear retificada) é utilizada nas camadas de

convolução, é expressa pela Equação 4.1 e sua derivada pela Equação 4.2. ReLU é menos
cara computacionalmente do que outras funções de ativação, tais como a sigmoid e tanh
por envolver cálculos mais simples.
ReLU (x) = max{0, x} (4.1)


1 Se x ≥ 0.
ReLU 0 (x) = (4.2)
0 Caso contrário.
A biblioteca MatConvNet (Vedaldi and Lenc 2015) foi utilizada para a criação e
treinamento da CNN, esta biblioteca foi criada para ser utilizada no MATLAB, sua
implementação é open source e é voltado para aplicações de visão computacional.
Figura 4.3: Modelo deep learning.

Capı́tulo 5
Experimentos e Discussões
Neste capı́tulo é apresentada a avaliação do método proposto para biometria baseada

em sinais do eletroencefalograma. A avaliação é realizada seguindo o protocolo proposto
por (Fraschini et al. 2015) para testes em EO e EC, nos testes multitarefas foi escolhida
uma tarefa para testes e o restante para treinamento. Caracterı́sticas da base de dados
são relembradas na Seção 5.1. Detalhes do modelo e parâmetros utilizados para compôr
os experimentos são amostrados na Seção 5.2. Os resultados encontrados e discussões
estão expressos na Subseção 5.2.1. Os resultados são apresentados em termos de curvas
DET e EER.
5.1 Caracterı́sticas da Base de Dados
No presente trabalho a base de dados Physionet (Goldberger et al. 2000) foi utilizada
para treinamento e avaliação do método proposto. A base foi melhor detalhada na Seção
2.5, porém com o intuito de facilitar a leitura do documento, é novamente apresentada
aqui.
O banco de dados é amplamente utilizado em estudos de doenças, biometria e qual-

quer aplicação voltada para o estudo dos sinais de EEG e contém amostras de 109 in-
divı́duos diferentes, com 64 eletrodos posicionados na região do escalpo para armazenar
os dados, todos amostrados à frequência de 160 Hz.
O banco de dados foi criado pelos desenvolvedores da BCI2000 instrumentation sys-

tem e é mantido pela Physionet. Há 14 aquisições diferentes para cada sujeito, cada uma
31
32 Experimentos e Discussões
está relacionada a uma diferente tarefa, seja ela motora ou imaginaria, onde o indivı́duo
recebe a instrução para executá-la durante a gravação. Considerando essas 14 sessões,
há duas sessões base que contém 60 ou 61 segundos cada, nas duas o sujeito está em
estado de repouso, uma com os olhos abertos (EO) e outra com os olhos fechados (EC).
O restante das sessões estão relacionadas a 4 tipos de tarefas (T1-T4), em 3 sessões de
captação de sinais (R1-R3) e as amostras contém dois minutos de gravação. Na primeira
e terceira tarefa são executadas ações imaginárias e na segunda e quarta ações motoras.
Todas as amostras foram utilizadas no processo de treino e teste, conforme os pro-

tocolos aqui propostos. A ideia principal foi fazer o treino e teste em tarefas distintas,
para mostrar que independente das amostras utilizadas para treino e teste, a biometria
com os sinais de EEG é eficaz.
5.2 Experimentos
Os experimentos foram conduzidos em um Intel (R) Core i7-5820K CPU @ 3.30GHz

12-núcleos, 64GB de RAM DDR4 e uma GeForce GTX TITAN X GPU.
A implementação do método foi feita em Matlab e a biblioteca escolhida para executar

a CNN foi o MatConvNet (Vedaldi and Lenc 2015) conectado a NVIDIA CuDNN.
A realização dos experimentos neste trabalho, foi separada em duas partes. Ini-
cialmente foram executados testes referentes às amostras baseline (EO-EC), buscando
investigar a faixa de frequência mais discriminante. A segunda parte dos experimen-
tos foram executados utilizando a melhor banda de frequência dos testes baseline para
algumas tarefas e testar seu funcionamento em ambientes menos controlados.
Durante a fase de treino, 90% dos dados são separados pra treinamento e 10% para
validação, assim como foi explicado na Seção 4.2.1. O data augmentation é usado nos
dados de treino e para a seção de EO, permitiu criar 384 ou 392 (de 60 ou 61 segundos
disponı́veis) segmentos de 1920 amostras (12 segundos) por indivı́duo. Para as sessões
envolvendo tarefas (T1-T4), são criados 889 ou 905 (123 ou 125 segundos) segmentos
para cada indivı́duo.
Para desenvolvimento da arquitetura apresentada na Tabela 5.1, a largura e a pro-

fundidade das redes foram ajustadas empiricamente conforme a evolução dos resultados,
baseados nos erros de validação durante a fase de treino.
Experimentos e Discussões 33
As camadas de pooling executam a operação de max-pooling, e a última camada é a

camada de perda soft-max loss one. As camadas FC com tamanho de filtro 1 × 1 (FC2,
FC3 e FC4) são usadas para redução de dimensão e ativação linear retificada (Rectified
Linear Activation).
Tabela 5.1: Arquitetura proposta para biometria com EEG.

Número Tamanho
Nome Tipo Entrada
de do Filtro Relu Norm
Tamanho
Filtros /Stride/Pad
Arquitetura
Conv1 conv 1x1920 96 1x11/1/0 sim sim

Pool1 max pooling 1x1910 N/A 1x2/4/0 não não


FC1 full. conn. 1x113 4096 1x113/1/0 sim não
FC2 full. conn. 1x1 4096 1x1/1/0 sim não
FC3 full. conn. 1x1 256 1x1/1/0 não sim
FC4 full. conn. 1x1 109 1x1/1/0 não não
Drop Dropout 1x1 2 N/A não não
Custo Softmax N/A N/A N/A N/A N/A
Na CNN três learning rates (LRs) são distribuı́dos durante 60 épocas, a distribuição
pode ser vista na Tabela 5.2. Essa distribuição de LRs foi obtida pela observação do
erro de validação, quando o erro estagnava, o LR era dividido por 10. Os mini batches
tem tamanho 100 para demandar menos recursos de memória e coeficiente de momento
em 0.9 (para acelerar a descida do gradiente) são considerados durante todo o treino.
O peso dos filtros é inicializado aleatoriamente e o algoritmo stochastic gradient descent
(SGD) é usado para otimização. A operação de dropout é posicionada após a última
camada, em 10% para melhora na validação.
Tabela 5.2: Distribuição dos learning rates durante as épocas de treino.
LR Épocas
0.01 2
0.001 35
0.0001 23
No processo de verificação biométrica, o presente protocolo produziu 1086 pares

genuı́nos (intra-classes) e 146610 pares impostores (inter-classes) para os registros base-
line (Treino EO- Teste EC) e 4809 pares intra-classes e 571.392 pares inter-classes para
tarefas (Treino T1R1 - Teste T1R2, por exemplo).
Os testes são realizados em EC, quando o treino é feito em EO, e T1R2, quando
envolvem tarefas. O uso de sobreposição dos dados (data augmentation) é descartado,
pois somente na fase de treino é necessária grande quantidade de dados, visando a
generalização e melhor aprendizado do modelo e também para manter compatibilidade
com o protocolo de (Fraschini et al. 2015) para avaliação, com mesma quantidade de
pares intra-classes e inter-classes na tarefa de verificação. Para teste 5 segmentos são
extraı́dos de EC e 10 segmentos de T1R2.
5.2.1 Discussão de Resultados
A Tabela 5.3 mostra o EER obtido para cada faixa de frequência testada, na banda
que compreende 01-50 Hz, o EER obtido é de 11.2%, obtendo o pior resultado relativo
aos testes de frequência. Na faixa referente a 10-30 Hz o EER obteve uma melhora
considerável, com 6.25%. A faixa gamma, de 30-50 Hz se destacou, pois conseguiu
0.19% de EER, a performance foi absolutamente maior que o restante dos testes.
A Figura 5.1 mostra o desempenho dos experimentos realizados por meio da curva
DET, a curva expressa a relação entre FAR, FRR e EER por meio de variação de limiar.
A curva relacionada a frequência de 30-50 Hz superou todos os outros experimentos e
também resultados publicados na literatura. Como mostrado por (Fraschini et al. 2015),
a melhor faixa de frequência para biometria baseada em EEG é a faixa gamma, embora
a discrepância de resultados com as outras faixas de frequência são maiores aqui.
Tabela 5.3: EER obtido de faixas de frequências especı́ficas.

Faixa de
EER
Frequência
01-50 Hz 11.2%
10-30 Hz 6.25%
30-50 Hz 0.19%
0.3
Freq. 01-50Hz
Freq. 10-30Hz
Freq. 30-50Hz
0.25
0.2
False Rejection Rate
0.15
0.1
0.05
0
0 0.05 0.1 0.15 0.2 0.25 0.3
False Acceptance Rate
Figura 5.1: Curva DET para os experimentos propostos testando as faixas de frequência.
Na Tabela 5.4 encontra-se uma comparação com o trabalho de (Fraschini et al. 2015),
considerado estado-da-arte na biometria de EEG. E como pode-se perceber o método
proposto com o uso de redes neurais de convolução reduziu de forma significativa o EER.
O protocolo de testes utilizado é o mesmo, por isso os efeitos comparativos tornam-se
válidos para os métodos.
A sequência de testes é dada com a faixa de frequência gamma para as tarefas 1 a 4

(T1-T4), por motivos de ser a mais discriminante no âmbito de biometria baseada em
EEG.
Em (Yang et al. 2016), foi proposta uma mistura de dados de treinamento e teste
Tabela 5.4: Comparação com trabalhos relacionados.

Trabalhos Abordagem Treino-Teste Eletrodos Indivı́duos EER(%)
(Fraschini et al. 2015) Eigenvector Centrality EO-EC 64 109 4.40

Método Proposto CNN EO-EC 64 109 0.19
para T1-T4, incluindo treino com uma ou mais tarefas com teste em T1R2, treino nas
4 tarefas individualmente usando a R1 e R3 delas e testando em todas as tarefas em
R2. No entanto, nesta dissertação o treinamento é realizado com todos os registros de
tarefas disponı́veis na base de dados, com exceção de T1R2, que foi escolhida para teste,
sem acúmulo de tarefas nos dados de treino.
Os resultados dos testes multitarefas podem ser vistos na Tabela 5.5. A arquitetura
não generalizou para todas as tarefas propostas, porém para T2R1-T1R2 e T1R1-T1R2
obteve resultados bons, em um deles inclusive, superou o melhor dos testes baseline (EO-
EC) feitos nesta dissertação. A mesma arquitetura foi utilizada nos dois cenários, no
entanto, nos testes baseline o aprendizado é facilitado, pois há evidências que em estado
de repouso, as atividades elétricas se organizam e coordenam as funções neuronais (Ma
et al. 2015), trabalhando de uma forma mais sistematizada, esta mesma arquitetura não
funcionou bem para tarefas, apesar de ter obtido EER de 0,08%, no caso de T1R1-T1R2
e 0,2% para T2R1-T1R2.
Tabela 5.5: Resultados expressos em termos de EER com o uso de tarefas.

Treino Teste EER(%)
T1R1 T1R2 0.0853

T1R3 T1R2 50.4
T2R1 T1R2 0.20
T2R2 T1R2 50
T2R3 T1R2 50,01
T3R1 T1R2 49,99
T3R2 T1R2 50
T3R3 T1R2 32,41
T4R3 T1R2 50
A Figura 5.2 representa o desempenho dos dois melhores resultados obtidos expressos
pela curva DET. As curvas referentes aos outros resultados obtidos não foram feitas
por não obterem desempenho comparável, inseri-las geraria uma discrepância enorme,
impossibilitando a visualização das curvas referentes a T1R1-T1R2 e T2R1-T1R2.
Figura 5.2: Curvas DET dos resultados satisfatórios obtidos com o uso de tarefas.
Na Tabela 5.6 encontra-se uma comparação com o trabalho de (Yang et al. 2016), que
fez testes com uma mistura nos dados de treino e testes nas tarefas, o autor conseguiu
no melhor caso 2,63% EER treinando em T1+T2 e testando em T1R2. O método
proposto nessa dissertação parece ser promissor, pois os resultados encontrados que estão
demonstrados na tabela reduziram muito o EER, e a utilização de 64 eletrodos também
mostra a robustez do método, visto que nem todos os eletrodos contribuem para a
identificação de indivı́duos (Yang et al. 2016), alguns podem se comportar somente como
sinais ruidosos e prejudicar a eficácia do método. Novos experimentos são desejáveis com
uma menor quantidade de eletrodos mais biometricamente relevantes para verificar se
pode haver melhora nos resultados. O presente trabalho deixa a desejar na generalização.
Três trabalhos foram encontrados na literatura que usam CNN para biometria ba-
seada em EEG (Das et al. 2017, Ma et al. 2015, Mao et al. 2017), todos eles usam o
modo de identificação, cada um com uma base de dados diferente. O único que propôs
testes na base da Physionet foi (Ma et al. 2015), todavia, os autores usaram somente
dados de 10 indivı́duos, facilitando as chances de acertos, pois quanto menor a quanti-
dade de indivı́duos, menores são as chances de erro, tornando assim o protocolo mais
fraco. Nenhum dos trabalhos utilizou do artifı́cio de data augmentation para gerar maior
quantidade de dados para treinamento.
Tabela 5.6: Comparação com trabalhos relacionados multitarefas.

Trabalhos Abordagem Treino-Teste Eletrodos Indivı́duos EER(%)
(Yang et al. 2016) Wavelet Coefficients T1+T2-T1R2 9 108 2.63

Método Proposto CNN T3R3-T1R2 64 109 32.4
Os melhores resultados encontrados nas tarefas (vide Tabela 5.5) mostram que o uso
de CNN para biometria com EEG é possı́vel e se for encontrada uma arquitetura capaz
de fazer uma generalização mais efetiva este será um caminho promissor.
O desempenho obtido no cenário multitarefas pode estar associado ao emprego da

faixa gamma no protocolo de testes, pois cada faixa está associada a uma atividade
cerebral (Boubakeur et al. 2017) e isto pode estar impedindo o método de convergir
para resultados com maior generalização. Novos testes devem ser feitos, explorando
mais a questão do data augmentation, visto que, a quantidade de amostras disponı́veis
para treino dobra quando usadas tarefas e propondo novas arquiteturas. Inserir novas
tarefas no conjunto de testes também é desejável, para ver até onde esse fenômeno de
não generalização se estende.
Capı́tulo 6
Conclusões e Trabalhos Futuros
Esta dissertação apresenta uma proposta para representação de sinais do eletroencefa-

lograma (EEG) baseada em deep learning, com uso de Redes Neurais de Convolução
(CNN). O método foi avaliado na base de dados Physionet, que contém dados de 109
indivı́duos amostrados a 160 Hz e em 14 sessões de gravação. O modo biométrico de
verificação é empregado para avaliar o desempenho do modelo.
A contribuição do presente trabalho é a arquitetura e a técnica de data augmentation.

A técnica de data augmentation aqui empregada visa produzir maior quantidade de
dados disponı́veis para treinamento da rede neural. Para treinar uma CNN é necessária
grande quantidade de dados e a sobreposição dos segmentos de EEG foi fundamental
para os resultados alcançados.
Em particular, nossa proposta obteve excelentes resultados em ambos cenários de

teste. Nos experimentos baseline, com treino nos segmentos de EEG de indivı́duos em
estado de repouso com olhos abertos (EO) e teste nos segmentos referentes a olhos
fechados (EC) foi feita análise sobre três faixas de frequência empregadas (01-50 Hz,
10-30 Hz, 30-50 Hz) nos sinais. Mostrou-se que a faixa que agrega mais valor e torna as
caracterı́sticas de EEG mais discriminantes nesse cenário foi a faixa gamma (30-50 Hz),
onde foram obtidos resultados que superaram resultados publicados na literatura, como
o trabalho de (Fraschini et al. 2015). Reduzindo o EER de 4,5% para 0,19%.
Novos testes foram propostos para as tarefas (T1-T4), efetuando o treinamento em

sessões de todas as tarefas com exceção de T1R2, usada para teste. A faixa de frequência
empregada foi a mesma dos testes inicias (30-50 Hz), por parecer ser mais valiosa, de um
ponto de vista biométrico. O modelo obteve resultados muito bons com treino em T2R1
39
40 Conclusões e Trabalhos Futuros
e T1R1, com 0,2% e 0,08% de EER, respectivamente, mostrando que resultados próximos
da otimalidade podem ser alcançados. O único problema foi a não generalização para o
restante dos testes.
Novas investigações devem ser realizadas, com o propósito de promover uma gene-
ralização maior com testes multitarefas. Podem ser exploradas: a proposta de novas
arquiteturas, exploração de outras faixas de frequência e apuração no uso de data aug-
mentation com novas técnicas e diferentes sobreposições de sinais.
A redução na quantidade de eletrodos também é desejável, para a CNN lidar somente

com os mais discriminantes, apesar do método mostrar robustez pelo uso dos 64 eletrodos
disponı́veis, visto que, nem todos os eletrodos contribuem para a identificação e podem
prejudicar o aprendizado.
A CNN é muito utilizada em aplicações de visão computacional e se mostrou uma

forte técnica para representação do sinal de EEG para biometria, obtendo resultados
superiores aos publicados na literatura. Ainda há muito a ser analisado para treinamento
da rede, pois apesar da robustez e eficácia do método podemos melhorá-lo ainda mais
explorando seu poder de aprendizado.
O sistema biométrico baseado em EEG pode ser promissor no futuro por ser difı́cil
de ser clonado e, como os sinais mudam conforme o pensamento/tarefa que está sendo
executada pelo indivı́duo, fornece mais integridade e autenticidade nesta modalidade
biométrica. Com os grandes avanços tecnológicos nos aparelhos de captação de sinais
de EEG, pode-se promover uma difusão nessa modalidade futuramente, pois esta ainda
lida com problemas como bases de dados com pouca quantidade de indivı́duos.
Apêndice A
Apêndices
A.1 Publicações
41
Convolutional Network for EEG-Based
Biometric
Thiago Schons1 , Gladston. J. P. Moreira1 , Pedro H. L. Silva1 , Vitor N. Coelho2

and Eduardo. J. S. Luz1
1
Computing Department, Universidade Federal de Ouro Preto,
Ouro Preto, Minas Gerais, Brazil.
2
Department of Computer Science, Universidade Federal Fluminense,
Niteroi, Rio de Janeiro, Brazil.
Abstract. The global expansion of biometric systems promotes the

emergence of new and more robust biometric modalities. In that context,
electroencephalogram (EEG) based biometric interest has been growing
in recent years. In this study, a novel approach for EEG representation,
based on deep learning, is proposed. The method was evaluated on a
database containing 109 subjects, and all 64 EEG channels were used as
input to a Deep Convolution Neural Network. Data augmentation tech-
niques are explored to train the deep network and results showed that
the method is a promising path to represent brain signals, overcoming
baseline methods published in the literature.
1 Introduction
Humankind has urged for safety in all spheres of our society, thus, as technology
evolves in this direction, also evolves efforts to overcome security systems. In
this context, current biometric systems are in constant development, and new
forms of capture discriminant and robust traits among people are desirable.
The present work deals with the use of electroencephalogram (EEG) signals for
biometry task, since the EEG is difficult to fake or steal.
The seminal work presented in [8] showed the feasibility of using the EEG to
biometric task, and since that, many approaches using EEG have been proposed
such as in [2] where authors performed biometric verification on Physionet EEG
database. Authors concluded that the best frequency band for EEG biometric is
the gamma band (30-50 Hz), where they reported 4.4% of equal error rate (EER).
Their approach is based on phase synchronization, in which the Eigenvector
Centrality obtained from every node (subject) is the feature vector. Signals on
resting condition are considered for the analyses in two scenarios.: eyes open and
eyes closed.
In [12], four different task conditions, related to signal motor movement and
imagery tasks are investigated. A novel wavelet-based feature was used to extract
EEG feature. Experiments were conducted in Physionet EEG data and a mixture
of data, from different sessions, is used for training. Only nine electrodes are
considered and the lowest EER achieved is 4.5%.
Several machine learning and pattern recognition techniques were investi-
gated aiming to identify a person by means of EEG signals, however, to the best
of our knowledge, deep learning based methods as Convolutional Neural Net-
works (CNN) [7] have not been evaluated yet. Deep learning has been used to
represent patterns in several computer vision and patterns recognition problems,
and outstanding results have been reported [1, 5].
In this work, a novel approach for EEG representation based on deep learning
is proposed. The approach is also evaluated on the Physionet database, and
data augmentation techniques are explored to train a deep convolutional neural
network. Results show that the use of CNN in EEG biometrics is a promising
path, outperforming baseline methods by lowering the EER from 4.4% to 0.19%
in the best scenario.
The remainder of this paper is organized as follows. Section 2 contains the
approach with the methodology and a description of the database used. In Sec-
tion 3, we show the experimental results and a discussion about it. Finally, in
Section 4, the conclusions are presented.
2 Approach
In this section, the Physionet EEG database is described as the proposed method,
based on the convolutional network, along with the required pre-preprocessing
steps.
2.1 Physionet EEG Database

The Physionet EEG Database [3] is a popular benchmark in the literature for
biometric with EEG and it is public available3 . The records were acquired from
109 different subjects, using 64 electrodes in the region of the scalp to store the
EEG signals (see Figure 1), each sampled at 160 Hz. The database was created
by the developers of the BCI2000 instrumentation system4 and maintained by
Physionet. There are 14 different acquisition sessions for each subject, each one
with different motor/imagery tasks considered during recording. Among those
14 sessions, there are two one-minute (60 or 61 seconds per record) baseline runs
(one with eyes open (EO), one with eyes closed (EC)). The others sessions are
related to four kinds of tasks of three two-minute runs.
2.2 Methodology
Data pre-preprocessing: To further investigate the feasibility of the method,
only resting state EEG data is considered. Thus, the baseline sessions - data
captured where the subject is with EO and EC - are used during experiments.
All EEG recording signals are band-pass filtered in 3 frequency bands. The
first band covering from delta to gamma frequencies (1-50 Hz), the second band
3
http://physionet.org/pn4/eegmmidb/
4
http://www.bci2000.org
are related to low to high beta (10-30 Hz), and the third one preserves the range
of gamma (30-50 Hz) frequency. A total of 61 seconds of raw wave are used for
training and test.
Data Augmentation: In order to follow a baseline method evaluation proto-

col, proposed in [2], EEG data is divided into segments of 12 seconds window
(1920 samples), i.e., 5 segments per subject for each record. Although 5 segments
per subject are not enough data to train a deep convolutional neural network,
data augmentation technique is proposed here to overcome this issue. The ratio-
nale for the data augmentation is to consider a large overlap between segments
and therefore multiplying the number of segments. The new augmented data is
created sliding a 12 second (1920 samples) window overall record signal (9600
or 9760 samples), shifting from 0.125 to 0.125 seconds, a sliding window strat-
egy with 20 samples per step [9]. This technique yields 42696 new instances for
training.
Convolutional Neural Network: The architecture of a typical convolutional

neural network is structured as a series of stacked operations, beginning with
convolutional layers, followed by activation with Rectified Linear Units (ReLu),
pooling, normalization and finally fully connected layers (FC) [7].
For this work, three CNN architectures have been investigated. One with
small receptive fields in the first convolutional layer inspired by [10] and two
others with large receptive fields on the first convolutional layers inspired by [6,
13]. Note that filters are one-dimensional and proportionally adapted to EEG raw
signal (see Figure 2). The width and depth of the networks have been empirically
evaluated based on validation error.
Fig. 1: Positions of Electrodes on scalp. Source: http://physionet.org/pn4/eegmmidb/.

After the learning process, last three layers are removed (Softmax, Dropout,
and FC4 as seen in Table 1) and the new network output is used as a feature
vector for a 12 seconds EEG segment, which will be used for verification task.
In verification task, the performance of methods is expressed in terms of De-
tection Error Trade-off (DET) curves, which show the trade-off between type
I error (false acceptance error - FAR) and type II error (false rejection error
- FRR). To construct the DET curve, all instances from testing dataset are
compared to each other, in an all-against-all scheme. Verification task can be
modeled as the Equation 1, where S is the function that measures the similarity
between two feature vectors (X1 and X2 ) and t is a predefined threshold [4]. The
value S(X1 , X2 ) is the similarity or matching score between the biometric mea-
surements with Euclidean distance. A person’s identity is claimed and classified
into genuine when pairs are similar and impostor, otherwise. After that genuine
(intra-class) and impostor (inter-class) distribution curves are generated from
similarities scores.
(
genuine, if S(X1 , X2 ) ≥ t
(X1 , X2 ) ∈ (1)
impostor, otherwise
3 Experimental Results and Discussion
Experiments were conducted on an Intel (R) Core i7-5820K CPU @ 3.30GHz

12-core machine, 64GB of DDR4 RAM and one GeForce GTX TITAN X GPU.
The MatConvNet library is used for the convolutional networks [11] linked to
NVIDIA CuDNN.
Data segmentation for experiments was performed following the evaluation
proposed in [2], where the window size consists of 12 seconds (as detailed in
Section 2.2).
Data augmentation is used on data from EO session (training data), yielding
384 or 392 (from 60 and 61 seconds) segments of size 1920 samples (12 seconds)
Fig. 2: Deep learning model.

Table 1: Architecture for EEG biometry.
Input Number Filter Size
Name Type Relu Norm
Size of Filters /Stride/Pad
Network Arch
Conv1 conv 1x1920 96 1x11/1/0 yes yes
Pool1 max pooling 1x1910 N/A 1x2/4/0 no no
FC1 full. conn. 1x113 4096 1x113/1/0 yes no
FC2 full. conn. 1x1 4096 1x1/1/0 yes no
FC3 full. conn. 1x1 256 1x1/1/0 no yes
FC4 full. conn. 1x1 109 1x1/1/0 no no
Drop Dropout 1x1 2 N/A no no
Cost Softmax N/A N/A N/A N/A N/A
per subject. For evaluation, five segments of 12 seconds are extracted for each
subject from EC session, i.e., no overlapping during the test (See Figure 3).
During training, the input signal, represented by a 12 seconds length EEG
time series, is feed-forwarded through network layers. Each layer represents
one or more CNN operations: convolutional filter; pooling; stride; rectification
(RELU); normalization (L2 Norm). Convolutional stride and padding are set to
one. Pooling layer performs a max-pooling operation, and when there is down-
sampling (stride > 1), it happens in conjunction with pooling. The stack of
layers are followed by Fully-Connected (FC) layers and the last FC layer is for
classification. These FC layers can be seen as multi-layer-perceptron (MLP) net-
work.
The final layer is a soft-max loss one. The FC layer with 1×1 filter size is used
for dimension reduction and rectified linear activation. The network architecture
is presented in Table 1.
For training the network, three learning rates of value L = [0.01, 0.001, 0.0001]
are distributed over the epochs, mini batches are set to size 100, and a momentum
coefficient of 0.9 is considered during all training. Filter weights are randomly
initialized and stochastic gradient descent is used for optimization. The dropout
operation is placed before the last layer with 10% to minimize overfitting.
During the training phase, 90% of the data is reserved for training and 10%
for validation as shown in Figure 3. The CNN are trained for over 60 epochs.
Evaluation is carried in verification mode and the metric used to report re-
sults is Equal Error Rate (EER) which, in turn, is defined as the point where the
Fig. 3: The distribution of ECG segments used for training and testing.
False Acceptance Rate (FAR) is equal to the False Rejection Rate (FRR). FAR
and FRR are generated from intra-class and inter-class pairs comparison. The
present protocol produces 1086 genuine (intra-class) pairs and 146610 impostors
(inter-class) pairs. In Figure 4, DET curve shows the relationship between FAR,
FRR, EER by means of a threshold variation.
Table 2: EER obtained for the specified frequency bands.

Frequency band EER
01-50 Hz 11.2%
10-30 Hz 6.25%
30-50 Hz 0.19%
The DET curves in Figure 4 depicts the performance for the detailed ex-
periments. The curve related to 30-50 Hz resulted in an overall performance of
0.19% EER as shown in Table 2, overcoming results published in the literature.
As shown in Fraschini et. al. [2], the best frequency band for EEG biometrics is
the gamma band. The results presented here confirm the findings in [2] regard-
ing frequency band, however, the discrepancy of results with other frequency
bands was greater here. More experiments are needed to investigate whether
this phenomenon extends to other tasks (T1-T4) or even other databases.
Results presented in Table 3 compares the proposed method with state-of-
the-art approaches. As can be noticed, the proposed method significantly reduced
the EER. The usage of all 64 EEG channels shows the robustness of the method
since it was able to handle all electrodes, even if not all of them effectively
contribute to the identification of individuals [12].
4 Conclusions
In this work, the use of CNN in an EEG-based biometric system is investigated
for the first time. When compared to the baseline methods presented in the
0.3
Freq. 01-50Hz
Freq. 10-30Hz
Freq. 30-50Hz
0.25
0.2
False Rejection Rate
0.15
0.1
0.05
0
0 0.05 0.1 0.15 0.2 0.25 0.3
False Acceptance Rate
Fig. 4: DET Curve for proposed experiments.
Table 3: Comparison with related works.

Reports Features Train-Test Electrodes Subjects EER(%)
Fraschini et. al. [2] Eigenvector Centrality EO-EC 64 109 4.40
Yang et. al. [12] Wavelet Coefficients T1-T4 9 108 4.50
Proposed work CNN EO-EC 64 109 0.19
literature (under the Physionet EEG database), EEG data represented by the
CNN model showed a lower EER for person recognition (verification mode).
The contribution of this paper is the proposed deep CNN architecture and the
data augmentation technique, which is of paramount importance in the training
process. The sliding window strategy for generating new training samples allowed
the deep network architecture to learn efficiently even with reduced data.
Results showed that the proposed EEG-based biometric system can be a
promising method for future real-world applications since researchers are devel-
oping hardware to facilitate embedding a CNN model, such FPGA-based deep
learning acceleration and NVIDIA TX1 5 .
5
http://www.nvidia.com/
Acknowledgements
The authors thank UFOP and funding Brazilian agencies CNPq, Fapemig and
CAPES. We gratefully acknowledge the support of NVIDIA Corporation with
the donation of the Titan X Pascal GPU used for this research.
References
1. Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., Kuksa, P.:
Natural language processing (almost) from scratch. J. Mach. Learn. Res. 12, 2493–
2537 (Nov 2011), http://dl.acm.org/citation.cfm?id=1953048.2078186
2. Fraschini, M., Hillebrand, A., Demuru, M., Didaci, L., Marcialis, G.L.: An eeg-
based biometric system using eigenvector centrality in resting state brain networks.
IEEE Signal Process. Lett. 22(6), 666–670 (2015)
3. Goldberger, A.L., Amaral, L.A.N., Glass, L., Hausdorff, J.M., Ivanov, P.C., Mark,
R.G., Mietus, J.E., Moody, G.B., Peng, C.K., Stanley, H.E.: PhysioBank, Phys-
ioToolkit, and PhysioNet: Components of a new research resource for complex
physiologic signals. Circulation 101(23), e215–e220 (2000 (June 13))
4. Jain, A.K., Ross, A., Prabhakar, S.: An introduction to biometric recognition.
IEEE Trans. Cir. and Sys. for Video Technol. 14(1), 4–20 (Jan 2004)
5. Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep con-
volutional neural networks. In: Proceedings of the 25th International Conference
on Neural Information Processing Systems. pp. 1097–1105. NIPS’12, Curran As-
sociates Inc., USA (2012), http://dl.acm.org/citation.cfm?id=2999134.2999257
6. Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep con-
volutional neural networks. In: Pereira, F., Burges, C.J.C., Bottou, L., Weinberger,
K.Q. (eds.) Advances in Neural Information Processing Systems 25, pp. 1097–
1105. Curran Associates, Inc. (2012), http://papers.nips.cc/paper/4824-imagenet-
classification-with-deep-convolutional-neural-networks.pdf
7. LeCun, Y., Bengio, Y., Hinton, G.: Deep learning. Nature 521(7553), 436–444
(2015)
8. Poulos, M., Rangoussi, M., Chrissikopoulos, V., Evangelou, A.: Person identifi-
cation based on parametric processing of the EEG. In: Electronics, Circuits and
Systems, 1999. Proceedings of ICECS ’99. The 6th IEEE International Conference
on. vol. 1, pp. 283–286 (1999)
9. Reitermanov, Z.: Data splitting. In: WDS’10 –Proceedings of Contributed Papers.
pp. 31–36 (2010)
10. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale
image recognition. CoRR abs/1409.1556 (2014), http://arxiv.org/abs/1409.1556
11. Vedaldi, A., Lenc, K.: Matconvnet – convolutional neural networks for MATLAB.
In: Proceeding of the ACM Int. Conf. on Multimedia (2015)
12. Yang, S., Deravi, F., Hoque, S.: Task sensitivity in EEG biometric recognition.
Pattern Analysis and Applications pp. 1–13 (2016)
13. Zeiler, M.D., Fergus, R.: Visualizing and Understanding Convolutional Networks,
pp. 818–833. Springer International Publishing, Cham (2014)
Referências Bibliográficas
Acquarelli, J., Marchiori, E., Buydens, L. M. C., Tran, T. N. and van Laarhoven, T.:
2017, Convolutional neural networks and data augmentation for spectral-spatial clas-
sification of hyperspectral images, CoRR abs/1711.05512.
URL: http://arxiv.org/abs/1711.05512
Batool, A. and Tariq, A.: 2011, Computerized system for fingerprint identification for
biometric security, 2011 IEEE 14th International Multitopic Conference, pp. 102–106.
Boubakeur, M. R., Wang, G., Zhang, C. and Liu, K.: 2017, Eeg-based person recogni-
tion analysis and criticism, 2017 IEEE International Conference on Big Knowledge
(ICBK), pp. 155–160.
Cecotti, H., Eckstein, M. P. and Giesbrecht, B.: 2014, Single-trial classification of event-
related potentials in rapid serial visual presentation tasks using supervised spatial
filtering, IEEE Transactions on Neural Networks and Learning Systems 25(11), 2030–
2042.
Clarke, R.: 1994, Human identification in information systems: Management challenges

and public policy issues, Information Technology & People 7(4), 6–37.
URL: https://doi.org/10.1108/09593849410076799
Das, R., Maiorana, E. and Campisi, P.: 2017, Visually evoked potential for EEG biome-
trics using convolutional neural network, 25th European Signal Processing Conference,
EUSIPCO 2017, Kos, Greece, August 28 - September 2, 2017, pp. 951–955.
URL: https://doi.org/10.23919/EUSIPCO.2017.8081348
Delorme, A., Sejnowski, T. and Makeig, S.: 2006, Technical note enhanced detection of
artifacts in eeg data using higher-order statistics and independent component analysis.
DeVries, T. and Taylor, G. W.: 2017, Dataset Augmentation in Feature Space, ArXiv
e-prints .
50
REFERÊNCIAS BIBLIOGRÁFICAS 51
Du, Y. and Chang, C.-I.: 2007.
Felleman, D. J. and Essen, D. C. V.: 1991, Distributed hierarchical processing in the

primate cerebral cortex, Cereb Cortex pp. 1–47.
Fraschini, M., Hillebrand, A., Demuru, M., Didaci, L. and Marcialis, G. L.: 2015, An eeg-
based biometric system using eigenvector centrality in resting state brain networks,
IEEE Signal Process. Lett. 22(6), 666–670.
Geisler, W. S. and Albrecht, D. G.: 1992, Cortical neurons: isolation of contrast gain
control, Vision Research 32(8), 2429–2454.
Ghandeharion, H. and Ahmadi-Noubari, H.: 2009, Detection and removal of ocular

artifacts using independent component analysis and wavelets, 2009 4th International
IEEE/EMBS Conference on Neural Engineering, pp. 653–656.
Goldberger, A. L., Amaral, L. A. N., Glass, L., Hausdorff, J. M., Ivanov, P. C., Mark,
R. G., Mietus, J. E., Moody, G. B., Peng, C.-K. and Stanley, H. E.: 2000, PhysioBank,
PhysioToolkit, and PhysioNet: Components of a new research resource for complex
physiologic signals, Circulation 101(23), e215–e220.
Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I. and Salakhutdinov, R.: 2012,
Improving neural networks by preventing co-adaptation of feature detectors, CoRR
abs/1207.0580.
Hirose, Y., Yamashita, K. and Hijiya, S.: 1991, Back-propagation algorithm which varies
the number of hidden units, Neural Networks 4(1), 61 – 66.
URL: http://www.sciencedirect.com/science/article/pii/089360809190032Z
Jain, A. K., Ross, A. and Prabhakar, S.: 2004, An introduction to biometric recognition,
IEEE Trans. Cir. and Sys. for Video Technol. 14(1), 4–20.
K., R., N., S., Raja, K. B., R., V. K. and Patnaik, L. M.: 2009, Advanced biometric
identification on face, gender and age recognition, 2009 International Conference on
Advances in Recent Technologies in Communication and Computing, pp. 23–27.
Kostı́lek, M. and Št’astný, J.: 2012, Eeg biometric identification: Repeatability and
influence of movement-related eeg, 2012 International Conference on Applied Electro-
nics, pp. 147–150.
52 REFERÊNCIAS BIBLIOGRÁFICAS
Krizhevsky, A., Sutskever, I. and Hinton, G. E.: 2012, Imagenet classification with
deep convolutional neural networks, Proceedings of the 25th International Conference
on Neural Information Processing Systems, NIPS’12, Curran Associates Inc., USA,
pp. 1097–1105.
URL: http://dl.acm.org/citation.cfm?id=2999134.2999257
Kumar, S., Arumuganathan, R., Sivakumar, K. and Vimal, C.: 2009, An adaptive
method to remove ocular artifacts from eeg signals using wavelet transform, 5.
LeCun, Y., Bengio, Y. and Hinton, G.: 2015, Deep learning, Nature 521(7553), 436–444.
LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. and
Jackel, L. D.: 1989, Backpropagation applied to handwritten zip code recognition,
Neural Computation 1(4), 541–551.
LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P.: 1998, Gradient-based learning applied
to document recognition, Proceedings of the IEEE 86(11), 2278–2324.
Lee, T. S., Mumford, D., Romero, R. and Lamme, V. A.: 1998, The role of the primary
visual cortex in higher level vision, Vision Research 38(15), 2429 – 2454.
URL: http://www.sciencedirect.com/science/article/pii/S0042698997004641
Lumini, A. and Nanni, L.: 2017, Overview of the combination of biometric matchers,
Information Fusion 33, 71 – 85.
Ma, L., Minett, J. W., Blu, T. and Wang, W. S. Y.: 2015, Resting state eeg-based
biometrics for individual identification using convolutional neural networks, 2015 37th
Annual International Conference of the IEEE Engineering in Medicine and Biology
Society (EMBC), pp. 2848–2851.
Mao, Z., Yao, W. X. and Huang, Y.: 2017, Eeg-based biometric identification with
deep learning, 2017 8th International IEEE/EMBS Conference on Neural Engineering
(NER), pp. 609–612.
Marcel, S. and Millan, J. d. R.: 2007, Person authentication using brainwaves (eeg) and
maximum a posteriori model adaptation, IEEE Trans. Pattern Anal. Mach. Intell.
29(4), 743–752.
URL: http://dx.doi.org/10.1109/TPAMI.2007.1012
Martin, A., Doddington, G., Kamm, T., Ordowski, M. and Przybocki, M.: 1997, The
det curve in assessment of detection task performance, pp. 1895–1898.
Mohammadi, G., Shoushtari, P., Molaee Ardekani, B. and Shamsollahi, M. B.: 2006,
Person identification by using ar model for eeg signals, Proceeding of World Academy
of Science, Engineering and Technology 11, 281–285.
Palaniappan, R.: 2005, Identifying individuality using mental task based brain computer
interface, 2005 3rd International Conference on Intelligent Sensing and Information
Processing, pp. 238–242.
Palaniappan, R. and Mandic, D. P.: 2007a, Biometrics from brain electrical activity:
A machine learning approach, IEEE Transactions on Pattern Analysis and Machine
Intelligence 29(4), 738–742.
Palaniappan, R. and Mandic, D. P.: 2007b, Eeg based biometric framework for automa-
tic identity verification, J. VLSI Signal Process. Syst. 49(2), 243–250.
URL: http://dx.doi.org/10.1007/s11265-007-0078-1
Paranjape, R. B., Mahovsky, J., Benedicenti, L. and Koles’, Z.: 2001, The electroen-
cephalogram as a biometric, Canadian Conference on Electrical and Computer En-
gineering 2001. Conference Proceedings (Cat. No.01TH8555), Vol. 2, pp. 1363–1366
vol.2.
Pinto, N. and Cox, D.: 2011, Beyond simple features: A large-scale feature search appro-
ach to unconstrained face recognition, IEEE International Conference on Automatic
Face Gesture Recognition and Workshops, pp. 8–15.
Poulos, M., Rangoussi, M., Chrissikopoulos, V. and Evangelou, A.: 1999a, Parametric
person identification from the eeg using computational geometry, Electronics, Circuits
and Systems, 1999. Proceedings of ICECS ’99. The 6th IEEE International Conference
on, Vol. 2, pp. 1005–1008 vol.2.
Poulos, M., Rangoussi, M., Chrissikopoulos, V. and Evangelou, A.: 1999b, Person identi-
fication based on parametric processing of the EEG, Electronics, Circuits and Systems,
1999. Proceedings of ICECS ’99. The 6th IEEE International Conference on, Vol. 1,
pp. 283–286.
Pozo-Banos, M. D., Alonso, J. B., Ticay-Rivas, J. R. and Travieso, C. M.: 2014, Elec-
troencephalogram subject identification: A review, Expert Systems with Applications
54 REFERÊNCIAS BIBLIOGRÁFICAS
41(15), 6537 – 6554.

Rolls, E. and Deco, G.: 2002, Computational Neuroscience of Vision, Oxford University
Press.
Rumelhart, D. E., Hinton, G. E. and Williams, R. J.: 1986, Lear-

ning representations by back-propagating errors, Nature 323, 533–536. ¡a
href=”absps/sutherlandbp.pdfCommentary from News and Views section of Na-
ture¡/a¿.
Sadasivan, P. K. and Dutt, D. N.: 1995, Line interference cancellation from corrupted eeg
signals using modified linear phase fir digital filters, Proceedings of the First Regional
Conference, IEEE Engineering in Medicine and Biology Society and 14th Conference
of the Biomedical Engineering Society of India. An International Meet, pp. 3/35–3/36.
Schons, T., Moreira, G. J. P., Silva, P. H. L., Coelho, V. N. and Luz, E. J. S.: 2018,
Convolutional network for eeg-based biometric, in M. Mendoza and S. Velastı́n (eds),
Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications,
Springer International Publishing, Cham, pp. 601–608.
Simonyan, K. and Zisserman, A.: 2014, Very deep convolutional networks for large-scale
image recognition, CoRR abs/1409.1556.
Singh, B., Mishra, S. and Tiwary, U. S.: 2015, Eeg based biometric identification with
reduced number of channels, 2015 17th International Conference on Advanced Com-
munication Technology (ICACT), pp. 687–691.
Soni, Y. S., Somani, S. B. and Shete, V. V.: 2016, Biometric user authentication using
brain waves, 2016 International Conference on Inventive Computation Technologies
(ICICT), Vol. 2, pp. 1–6.
Stassen, H.: 1980, Computerized recognition of persons by eeg spectral patterns, Elec-
troencephalography and Clinical Neurophysiology 49(1), 190 – 194.
URL: http://www.sciencedirect.com/science/article/pii/0013469480903685
Subasi, A. and Ismail Gursoy, M.: 2010, Eeg signal classification using pca, ica, lda and
support vector machines, Expert Syst. Appl. 37(12), 8659–8666.
URL: http://dx.doi.org/10.1016/j.eswa.2010.06.065
Tangkraingkij, P., Lursinsap, C., Sanguansintukul, S. and Desudchit, T.: 2009, Selec-
ting relevant eeg signal locations for personal identification problem using ica and
neural network, 2009 Eighth IEEE/ACIS International Conference on Computer and
Information Science, pp. 616–621.
Vedaldi, A. and Lenc, K.: 2015, Matconvnet – convolutional neural networks for MA-
TLAB, Proceeding of the ACM Int. Conf. on Multimedia.
Yang, S. and Deravi, F.: 2017, On the usability of electroencephalographic signals for
biometric recognition: A survey, IEEE Transactions on Human-Machine Systems .
URL: http://kar.kent.ac.uk/61551/
Yang, S., Deravi, F. and Hoque, S.: 2016, Task sensitivity in EEG biometric recognition,
Pattern Analysis and Applications pp. 1–13.
Yong, X., Ward, R. K. and Birch, G. E.: 2008, Robust common spatial patterns for
eeg signal preprocessing, 2008 30th Annual International Conference of the IEEE
Engineering in Medicine and Biology Society, pp. 2087–2090.
Zeiler, M. D. and Fergus, R.: 2014, Visualizing and Understanding Convolutional

Networks, Springer International Publishing, Cham, pp. 818–833.

Rede de Convolução para Sistema Biométrico Baseado em EEG

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Rede de Convolução para Sistema Biométrico Baseado em EEG

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE OURO PRETO

Rede de Convolução para Sistema

Orientador: Gladston Juliano Moreira Prates

Coorientador: Eduardo José da Silva Luz

Dissertação submetida ao Programa de Pós-

Ouro Preto, 16 de março de 2018

Orientador: Gladston Juliano Moreira Prates

Coorientador: Eduardo José da Silva Luz

Sistemas biométricos estão em expansão global devido a necessidade de segurança, pro-

Palavras-chave: Redes Neurais de Convolução, Biometria, EEG, Eletroencefalograma,

Keywords: Convolutional Neural Networks, Biometry, EEG, electroencephalogram,

Gostaria de agradecer a Deus, por permitir essa oportunidade de aprendizado e

A meus amigos e colegas que participaram deste processo, me incentivando, enviando

Agradeço também a UFOP e as agências de fomento Capes, CNPq e FAPEMIG.

Lista de Figuras viii

2.1 Pré-Processamento de Sinais . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2.1 Conceitos de Biometria . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Aprendizado em Profundidade . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.1 Redes Neurais de Convolução . . . . . . . . . . . . . . . . . . . . 11

2.4 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.5 Base de Dados Physionet . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1 Estado de Repouso com EO e EC . . . . . . . . . . . . . . . . . . . . . . 19

4.2 Processamento Dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.2.1 Divisão dos Dados de Entrada . . . . . . . . . . . . . . . . . . . . 26

4.2.2 Data Augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.3 Rede Neural de Convolução . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.1 Caracterı́sticas da Base de Dados . . . . . . . . . . . . . . . . . . . . . . 31

5.2.1 Discussão de Resultados . . . . . . . . . . . . . . . . . . . . . . . 34

6 Conclusões e Trabalhos Futuros 39

2.2 Operações de uma rede neuronal convolucional de 3 camadas. Extraı́da/adaptada

2.3 Sinal de EEG do eletrodo FC5 amostrado em 10 segundos. . . . . . . . . 17

2.4 Posição dos eletrodos na região do escalpo. Fonte: http://physionet.

3.1 Eletrodos utilizados por (Tangkraingkij et al. 2009). . . . . . . . . . . . . 21

4.1 Exemplo de distribuição dos segmentos de EEG usados para treino em

4.2 Data augmentation com janela deslizante de tamanho 12 segundos. Temos

4.3 Modelo deep learning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.1 Curva DET para os experimentos propostos testando as faixas de frequência. 35

3.1 Quantidade de eletrodos utilizados e acurácia obtida. Extraı́da/Adaptada

4.1 Faixa de frequências normalmente utilizadas em EEG. . . . . . . . . . . . 26

5.1 Arquitetura proposta para biometria com EEG. . . . . . . . . . . . . . . 33

5.2 Distribuição dos learning rates durante as épocas de treino. . . . . . . . . 34

5.3 EER obtido de faixas de frequências especı́ficas. . . . . . . . . . . . . . . 35

5.4 Comparação com trabalhos relacionados. . . . . . . . . . . . . . . . . . . 36

5.5 Resultados expressos em termos de EER com o uso de tarefas. . . . . . . 36

5.6 Comparação com trabalhos relacionados multitarefas. . . . . . . . . . . . 38

Atualmente a humanidade em todas suas esferas, necessita de segurança, sendo a evolução

O EEG é uma modalidade biométrica muito segura se comparada a formas de bio-

encontrado usando 9 eletrodos foi 4,5%.

Muitas técnicas de machine learning e reconhecimento de padrões já foram utilizadas

Já em (Das et al. 2017), os autores coletaram dados de EEG de 40 indivı́duos em

No geral, o procedimento comum de biometria envolve a coleta de dados, extração de

Parte desta dissertação foi publicada no vigésimo segundo CIARP (Iberoamerican

O objetivo do presente trabalho é propôr uma representação do sinal de EEG baseada

Pode-se definir ainda como objetivos especı́ficos do trabalho:

• Investigar o uso de CNN para biometria baseada em EEG.

• Investigar o uso de data augmentation para multiplicação de instâncias de treino.

• Analisar o uso de diferentes faixas de frequência nos testes baseline.

• Verificar o comportamento de diferentes cenários de treino e teste, usando os dados

O restante do trabalho é organizado da seguinte forma: O Capı́tulo 2 apresenta fun-

2.1 Pré-Processamento de Sinais

Como o EEG fornece informações de diversas aplicações, sejam biométricas, para

discriminantes em cada área, melhorando consequentemente sua eficácia.

Normalmente, para aplicações biométricas, filtros passa-banda são aplicados para