Template

UNIVERSIDADE FEDERAL DO CEARÁ
a CENTRO DE TECNOLOGIA
DEPARTAMENTO DE ENGENHARIA DE TELEINFORMÁTICA
CURSO DE ENGENHARIA DE COMPUTAÇÃO
JÚLIO PEIXOTO DA SILVA JÚNIOR
ANÁLISE DE DESEMPENHO DE ARQUITETURAS DE REDES

NEURAIS ARTIFICIAIS PARA DETECÇÃO DE CRISES CONVULSIVAS
EPILÉPTICAS
FORTALEZA
2016
ANÁLISE DE DESEMPENHO DE ARQUITETURAS DE REDES NEURAIS

ARTIFICIAIS PARA DETECÇÃO DE CRISES CONVULSIVAS EPILÉPTICAS
Monografia apresentada ao Programa de

Graduação em Engenharia de Computação
do Departamento de Engenharia de Telein-
formática da Universidade Federal do Ceará,
como parte dos requisitos necessários para a
obtenção do tı́tulo de Engenheiro de Com-
putação.
Orientador: Prof. Dr.Guilherme Barreto
FORTALEZA
2016
Dados Internacionais de Catalogação na Publicação
Universidade Federal do Ceará
Biblioteca Universitária
Gerada automaticamente pelo módulo Catalog, mediante os dados fornecidos pelo(a) autor(a)
S1a SILVA JUNIOR, JULIO PEIXOTO DA.

Análise De Desempenho De Arquiteturas De Redes Neurais Artificiais Dara Detecção De Crises
Convulsivas Epilépticas / JULIO PEIXOTO DA SILVA JUNIOR. – 2016.
92 f. : il. color.
Trabalho de Conclusão de Curso (graduação) – Universidade Federal do Ceará, Centro de Tecnologia,

Curso de Arquitetura e Urbanismo, Fortaleza, 2016.
Orientação: Prof. Dr. Guilherme de Alencar Barreto.
1. Redes Neurais. 2. Extração de Features. 3. Densidade Espectral de Potência. 4. Crises Convulsivas

Epilépticas. 5. Modelo Autorregressivo. I. Título.
CDD 720
ANÁLISE DE DESEMPENHO DE ARQUITETURAS DE REDES NEURAIS

ARTIFICIAIS PARA DETECÇÃO DE CRISES CONVULSIVAS EPILÉPTICAS
Monografia apresentada ao Programa de

Graduação em Engenharia de Computação
do Departamento de Engenharia de Telein-
formática da Universidade Federal do Ceará,
como parte dos requisitos necessários para a
obtenção do tı́tulo de Engenheiro de Com-
putação.
Orientador: Prof. Dr.Guilherme Barreto
Aprovada em: 12 / 12 / 2016.
BANCA EXAMINADORA
Prof. Dr. Guilherme de Alencar Barreto (Orientador)

Universidade Federal do Ceará (UFC)
Prof. Dr. Tarcı́sio Ferreira Maciel

Universidade Federal do Ceará (UFC)
Prof Dr. João Paulo do Vale Madeiro

Universidade da Integração Internacional da Lusofonia Afro-Brasileira (UNILAB)
1
Dedico este trabalho aos meus pais.

AGRADECIMENTOS
Aos meus pais por todos os esforços, ajuda e apoio durante todo o curso.
A todos os meus colegas de turma que entraram em 2012.1 na Engenharia de
Teleinformática e mais outros que foram se agregando no caminhar do curso.
Um grande agradecimento aos meus amigos Marcelo Mauro e ao Antônio Júlio,
esses dois caras que sempre me apoiaram e estiveram comigo em diversas batalhas.
Aos professores que lutaram pelo curso noturno, em especial ao inesquecı́vel
Alexandre Moreira (Sobral). Um grande agradecimento aos professores Alexandre Coelho,
Tarcı́sio Costa e Jardel Silveira, que além grandes professores, orientaram-me com vários
conselhos nessa trajetória.
Ao professor Guilherme Barreto, pela excelente orientação e pela oportunidade.
Agradeço por todas as adversidades encontradas nessa caminhada, cada uma
delas me tornou mais forte e persistente. Dos cinco anos deste curso, quatro foram
trabalhando e não foi fácil, saio de cabeça erguida para as próximas batalhas.
1
”Os homens pensam que a epilepsia é divina

meramente porque não a compreendem. Se
eles denominassem divina qualquer coisa que
não compreendem, não haveria fim para as
coisas divinas”.
Hipócrates
RESUMO
As convulsões por crises epiléticas atingem um grande número de pessoas, cerca de 5%

da população mundial já sofreu algum tipo de convulsão. Atualmente existem diversos
exames para o diagnóstico da epilepsia. Entre eles, podemos citar o magnetoencefalo-
grama (MEG), a ressonância magnética funcional e o eletroencefalograma (EEG). Porém
o EEG ainda é o exame mais comumente utilizado para executar o diagnóstico. O EEG de
escalpo é um exame no qual são gravados os sinais elétricos da ativação cerebral captados
por eletrodos no couro cabeludo. Pelo fato da ativação cerebral conter diversas variações,
dependendo de paciente para paciente e da posição do eletrodos, esse diagnóstico é de
extrema dificuldade para os profissionais da área. O presente trabalho consiste em utili-
zar um método de aprendizado de máquina, com o uso de redes neurais para realizar a
detecção em intervalos de sinais de pacientes pediátricos, em que serão comparadas duas
arquiteturas: Multilayer Perceptron (MLP) e Extreme Learning Machine (ELM). Para
realizar a classificação um ponto chave é a extração dos atributos do sinal. O trabalho
destaca que a literatura dispões de diversas técnicas de extração de atributos do sinal
EEG, não existindo um padrão ouro. São apresentadas duas técnicas de extração: Densi-
dade Espectral de Potência (PSD), a qual se utiliza o método de Welch, e a estimação de
parâmetros dos coeficiente de um método autorregressivo (AR). Os resultados com uso
PSD utilizando redes neurais obtiveram de taxas de acerto próximas a 98% e já com a
estimação dos parâmetros do modelo AR com ordem 4 taxas de acerto próximas a 96%
em dois dos três pacientes submetidos aos testes.
Palavras-chave: Eletroencefalograma (EEG). Crises Epiléticas. Redes Neurais. Mul-

tilayer Perceptron (MLP). Extreme Learning Machine (ELM). Extração de Atributos.
Densidade Espectral de Potência (PSD). Método de Welch. Método Autorregressivo
(AR).
ABSTRACT
Seizures due to epileptic crisis reach a large number of people, around 5% of the world
population has already suffered some kind of seizure. There are several exams for the
diagnosis of epilepsy, such as magnetic resonance imaging (MRI), functional magnetic
resonance imaging (FMRI) and electroencephalogram (EEG), the EEG being the most
commonly used diagnostic test. Concerning scalp EEG, the electrical signals of the ce-
rebral activation are acquired by electrodes on the scalp. Because cerebral activation
contains several variations, depending from patient to patient and the position of the
electrodes, this diagnosis is extremely difficult for professionals in the area. This work
consists in using a machine learning method based on neural networks. Two architectures:
Multilayer Perceptron (MLP) and Extreme Learning Machine (ELM), will be compared
to perform the detection of seizures and classification of EEG signals from pediatric pa-
tients. To perform the classification, a key point is the extraction of signal attributes.
This work highlights that there are several techniques for extracting attributes from EEG
and a gold standard is not available. Two extraction techniques will be presented and
compared: Power Spectral Density (PSD), using the Welch method, and the estimation
of the coefficients of an autoregressive (AR) method. The results with use PSD using
neural nets had obtained of fees of rightness next to 98 % and already with the esteem
to the parameters of the model AIR with order 4 fees of 96% rightness next to in two to
the three patients submitted to the tests.
Keywords: Electroencephalogram (EEG), Epileptic Crisis, Neural Networks, Multilayer
Perceptron (MLP), Extreme Learning Machine (ELM), Power Spectral Density (PSD),
Autorregresive Model.
LISTA DE FIGURAS
Figura 1 – Exemplo de um sinal EEG. . . . . . . . . . . . . . . . . . . . . . . . . . 14

Figura 2 – Metodologia do trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Figura 3 – Componentes de um neurônio. . . . . . . . . . . . . . . . . . . . . . . . 19
Figura 4 – Ativação de um neurônio . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Figura 5 – Sinapse elétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Figura 6 – Quatro principais ritmos cerebrais . . . . . . . . . . . . . . . . . . . . . 22
Figura 7 – 32-Channel Digital Video EEG Machine . . . . . . . . . . . . . . . . . . 23
Figura 8 – Touca de eletrodos para EEG . . . . . . . . . . . . . . . . . . . . . . . . 24
Figura 9 – Padrão 10-20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Figura 10 – Exemplo de EEG com crise epilética em um paciente A. . . . . . . . . . 28
Figura 11 – Exemplo de EEG com crise epilética em um paciente B. . . . . . . . . . 28
Figura 12 – Exemplo de EEG com crise epilética em um paciente C. . . . . . . . . . 28
Figura 13 – Modelo de Neurônio Artificial. . . . . . . . . . . . . . . . . . . . . . . . 40
Figura 14 – Classificador de Padrões. . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Figura 15 – Arquitetura MLP multicamadas. . . . . . . . . . . . . . . . . . . . . . . 43
Figura 16 – Arquitetura MLP com uma camada oculta. . . . . . . . . . . . . . . . . 43
Figura 17 – Fluxo de dados na rede MLP. . . . . . . . . . . . . . . . . . . . . . . . 44
Figura 18 – Realimentalação do Algoritmo LMS. . . . . . . . . . . . . . . . . . . . . 46
Figura 19 – Objetivos da rede ELM. . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 20 – Arquitetura rede ELM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 21 – Metodologia utilizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Figura 22 – Processo de extração de parâmetros utilizando o método Welch. . . . . 54
Figura 23 – Processo estimação dos parâmetros de um modelo AR(p). . . . . . . . . 60
Figura 24 – Etapas de implementação da Rede Neural MLP. . . . . . . . . . . . . . 63
Figura 25 – Etapas de implementação da Rede Neural ELM. . . . . . . . . . . . . . 64
LISTA DE GRÁFICOS
Gráfico 1 – Intervalo de cinco segundos de sinal do EEG (canal 1). . . . . . . . . . 30

Gráfico 2 – Intervalo sem o evento de crise. . . . . . . . . . . . . . . . . . . . . . . 31
Gráfico 3 – Intervalo com o evento de crise. . . . . . . . . . . . . . . . . . . . . . . 31
Gráfico 4 – Exemplos de janelas no periodograma modificado. . . . . . . . . . . . . 35
Gráfico 5 – Janela gaussiana(128). . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Gráfico 6 – Janela Black Manharris(128). . . . . . . . . . . . . . . . . . . . . . . . . 55
Gráfico 7 – PSD estimada utilizando janela gaussiana(128). . . . . . . . . . . . . . 55
Gráfico 8 – PSD estimada utilizando janela Black Manharris(128). . . . . . . . . . . 56
Gráfico 9 – PSD estimada utilizando janela gaussiana(64) . . . . . . . . . . . . . . . 56
Gráfico 10 –PSD estimada utilizando janela Black Manharris(64). . . . . . . . . . . 57
Gráfico 11 –PSD estimada em um intervalo de crise epiléptica. . . . . . . . . . . . . 57
Gráfico 12 –Função de autocorrelação de 10 segundos de EEG. . . . . . . . . . . . . 58
Gráfico 13 –Função de autocorrelação parcial do EEG. . . . . . . . . . . . . . . . . 59
Gráfico 14 –Curva de aprendizado da rede MLP, cenário B. . . . . . . . . . . . . . . 70
Gráfico 15 –Box Plot da taxa de acerto dos cenários para o paciente 1. . . . . . . . 76
LISTA DE TABELAS
Tabela 1 – Identificação dos Eletrodos . . . . . . . . . . . . . . . . . . . . . . . . . 25

Tabela 2 – Configurações dos Canais . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Tabela 3 – Vetor de caracterı́sticas para os intervalos. . . . . . . . . . . . . . . . . 58
Tabela 4 – Cenários propostos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Tabela 5 – Dados estatı́sticos referentes à taxa de acertos - Cenário A. . . . . . . . 67
Tabela 6 – Matrizes de Confusão para os melhores resultados do Cenário A. . . . . 68
Tabela 7 – Resultados do teste de desempenho para o cenário A. . . . . . . . . . . 68
Tabela 8 – Dados estatı́sticos percentuais referentes à taxa de acertos - Cenário B. 68
Tabela 9 – Matrizes de Confusão para os melhores resultados do Cenário, AR(2). . 69
Tabela 10 – Matrizes de Confusão para os melhores resultados do Cenário B, AR(4). 69
Tabela 11 – Resultados do teste de desempenho para o cenário B, AR(2). . . . . . . 69
Tabela 12 – Resultados do teste de desempenho para o cenário B, AR(4). . . . . . . 70
Tabela 13 – Dados estatı́sticos percentuais referentes à taxa de acertos - Cenário C. 70
Tabela 14 – Matrizes de Confusão para os melhores resultados do Cenário C. . . . . 71
Tabela 15 – Resultados do teste de desempenho para o cenário C. . . . . . . . . . . 71
Tabela 16 – Dados estatı́sticos referentes à taxa de acertos - Cenário D. . . . . . . . 71
Tabela 17 – Matrizes de Confusão para os melhores resultados do Cenário D, AR(2). 72
Tabela 18 – Matrizes de Confusão para os melhores resultados do Cenário D, AR(4). 72
Tabela 19 – Resultados do teste de desempenho para o cenário D, AR(2). . . . . . . 72
Tabela 20 – Resultados do teste de desempenho para o cenário D, AR(4). . . . . . . 72
Tabela 21 – Dados estatı́sticos referentes à taxa de acertos - Cenário E. . . . . . . . 73
Tabela 22 – Matrizes de Confusão para os melhores resultados do Cenário E. . . . . 73
Tabela 23 – Resultados do teste de desempenho para o cenário E. . . . . . . . . . . 74
Tabela 24 – Dados estatı́sticos referentes à taxa de acertos - Cenário F. . . . . . . . 74
Tabela 25 – Matrizes de Confusão para os melhores resultados do Cenário F, AR(2). 74
Tabela 26 – Matrizes de Confusão para os melhores resultados do Cenário F, AR(4). 75
Tabela 27 – Resultados do teste de desempenho para o cenário F, AR(2). . . . . . . 75
Tabela 28 – Resultados do teste de desempenho para o cenário F, AR(4). . . . . . . 75
Tabela 29 – Comparação dos cenários para o paciente 1. . . . . . . . . . . . . . . . . 76
Tabela 32 – Crises epilépticas convulsivas detectadas para o paciente 1 . . . . . . . . 92
Tabela 33 – Crises epilépticas convulsivas detectadas para o paciente 5. . . . . . . . 92
Tabela 34 – Crises epilépticas convulsivas detectadas para o paciente 8. . . . . . . . 92
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Resumo do Capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 ELETROENCEFALOGRAMA (EEG) . . . . . . . . . . . . . . . 18
2.1 Introdução ao EEG . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Fundamentos Fisiológicos do Eletroencefalograma . . . . . . . . 19
2.3 Ritmos Cerebrais . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Medições e Gravação do EEG . . . . . . . . . . . . . . . . . . . . 23
2.4.1 Padrão Convencional de Posição dos Eletrodos (10-20) . . . . . 24
2.5 Banco de Dados Utilizado . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Detecção de Ataque Epilético no EEG . . . . . . . . . . . . . . . 27
3 MÉTODOS DE EXTRAÇÃO DE ATRIBUTOS . . . . . . . . . 30
3.1 Caracterı́sticas do Sinal EEG . . . . . . . . . . . . . . . . . . . . 30
3.2 Densidade Espectral de Potência (PSD) . . . . . . . . . . . . . . 32
3.3 Estimação de Parâmetros de um Modelo Autorregressivo . . . 37
4 CLASSIFICADORES BASEADOS EM REDES NEURAIS . . 40
4.1 Introdução a Redes Neurais . . . . . . . . . . . . . . . . . . . . . 40
4.2 Definições Preliminares . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Fundamentos da Rede Neural MLP . . . . . . . . . . . . . . . . 42
4.4 Fundamentos da Rede Neural ELM . . . . . . . . . . . . . . . . 48
5 IMPLEMENTAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1 Metodologia Utilizada . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2 Extração de Atributos . . . . . . . . . . . . . . . . . . . . . . . . 53
5.3 Implementação dos Classificadores . . . . . . . . . . . . . . . . . 61
6 RESULTADOS OBTIDOS . . . . . . . . . . . . . . . . . . . . . . 67
7 CONCLUSÕES E DISCUSSÕES . . . . . . . . . . . . . . . . . . 79
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
APÊNDICE A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
ANEXO A – CATÁLOGO DOS DADOS ANALISADOS . . . 92
13
1 INTRODUÇÃO
A epilepsia afeta milhões de pessoas mundialmente, tornando-se um pro-

blema de saúde pública, por ser uma condição neurológica crônica grave comum no
mundo, estimando-se que haja centenas de milhões de pessoas com esta condição. Crises
epilépticas são eventos clı́nicos nos quais ocorre uma disfunção temporária de um conjunto
de neurônios do encéfalo (crises focais) ou em áreas mais extensas (crises generalizadas),
em que os sintomas de cada crise dependerão das partes do cérebro envolvidas na disfunção
(KANASHIRO, 2006).
Sabendo-se que a epilepsia é o transtorno neurológico mais frequente que aco-
mete pessoas de todas as raças, gêneros, condições socioeconômicas e regiões, os porta-
dores desse transtorno podem sofrer consequências profundas, incluindo-se morte súbita,
ferimentos, problemas psicológicos e outros transtornos mentais. Portanto, o estudo desse
transtorno é importante, por ser considerado um problema significativo de saúde pública
no Brasil e no mundo.
Atualmente, a detecção de ataques epiléticos e o diagnóstico são realizados
por neurologistas com base em exames visuais dos eletroencefalogramas (EEG). O EEG,
introduzido no inı́cio do século passado por Hans Berger, desde então vem sendo utilizado
para o diagnóstico de diversas patologias associadas a transtornos mentais. De fato, a
epilepsia é um transtorno neurológico associado a alterações neuronais, que resultam em
potenciais eletromagnéticos detectáveis (descargas epileptiformes), que podem ser mensu-
rados através de eletrodos localizados no escalpo. Esses sinais são de baixı́ssima amplitude
sendo necessário um circuito amplificador para que o sinal seja processado e analisado.
O desafio para os neurologistas está no fato de que a atividade cerebral do
ser humano apresenta uma infinidade de padrões de ativações. Os estados considerados
anormais são observados em desordem neurológica, incluindo crises convulsivas no caso
de epilepsia e demência em outros casos. Segundo ADELI e GHOSH-DASTIDAR 2010,
existem três fatores que tornam infinitas as possibilidades de padrões de atividade cere-
bral. Primeiramente, cada estado tem graus diferentes de magnitude, em segundo lugar,
a atividade do cérebro em qualquer estado é modulada em funções cerebrais com alta
atividade, e por fim, a atividade do cérebro em geral não é devido a um só estado mental,
mas sim a uma soma de diferentes estados e ações em um instante de tempo.
O EEG utilizou durante muito tempo o registo feito por oscilógrafos, os quais
utilizavam tinta para realizar a inscrição. Com o avanço da tecnologia nas últimas décadas,
ocorreu um grande avanço na aquisição, gravação e no processamento digital de sinais e
imagens do corpo humano, fatores essenciais para o diagnóstico precoce de uma variedade
de doenças. Pode-se citar uma gama de exemplos, além do EEG, tais como: o eletrocardi-
ograma para o coração, eletromiograma para os músculos, magnetoencefalograma para o
cérebro, eletrogastrograma para o estômago, eletrioptigrama para o nervo óptico, e outros
14
como a ultrassonografia, tomografia computadorizada, ressonância magnética etc.

Sabe-se que o sinal EEG digitalizado deriva-se da conversão de um sinal
analógio para digital utilizando um conversor analógico digital (ADC). Normalmente,
a resolução utilizada nos sistemas de gravação do EEG é de 16 bits. Com um simples
cálculo, pode-se verificar qual o tamanho do arquivo de gravação. Considere, por exemplo,
uma gravação em um paciente utilizando 23 eletrodos a uma taxa de amostragem de 500
amostras por segundo em um perı́odo de uma hora com a resolução de 16 bits. O tama-
nho do arquivo gerado será de 23x60x60x500x16 = 662 Mbits (SANEI e CHAMBERS,
2007). Assim, é necessário um processamento digital de sinal com o objetivo de extrair
informações, caracterı́sticas e comportamentos que melhor representem esse sinal e que
possam ser manipulados e armazenados facilmente.
Figura 1 – Exemplo de um sinal EEG.
Fonte: CHB-MIT Scalp EEG Database (2016).
Uma caracterı́stica, atributo ou feature de um sinal é uma propriedade distinta

que possa ser mensurável e que tenha um componente funcional obtido em parte ou no
sinal por completo. A extração de atributos é utilizada para reduzir a perda de dados im-
portantes que estão embutidos em um sinal, ocasionando uma menor complexidade para
a manipulação, reduzindo o custo computacional e o tamanho do dado a ser armazenado
(CVETKOVIC, UBEYLI e COSIC, 2008). Após a captação, digitalização e segmentação
15
do sinal do EEG aplica-se o processamento de extração de caracterı́sticas no sinal e fi-

nalmente pode-se utilizar essas informações para classificação, com uma abordagem de
análise linear ou não linear, tais como técnicas Fuzzy e classificadores de redes neurais.
1.1 Objetivos
Observando-se o grande problema de saúde relacionado com transtornos men-

tais, principalmente a epilepsia, e o desafio para os neurologistas em realizarem di-
agnósticos visualmente através do EEG, este trabalho avalia e compara métodos de ex-
tração de atributos de um sinal EEG, utilizando-se os métodos do periodograma de Welch,
Fast Fourier Transform (FFT) para estimar a densidade espectral de potência (PSD) e a
estimação dos parâmetros de um modelo autorregressivo. Por fim, os atributos extraı́dos
serão utilizados em um sistema classificador com o intuito de mensurar a eficiência dos
métodos aplicados por meio de comparação de métricas.
Como objetivos secundários, estão o desenvolvimento de funções para os métodos
utilizados no trabalho, juntamente com os algoritmos de classificação em redes neurais,
e um maior aprofundamento matemático nos métodos aplicados com os conhecimentos
adquiridos nas disciplinas de processamentos de sinais e em processos estocásticos.
1.2 Metodologia
Realizou-se uma revisão bibliográfica abordando-se os principais tópicos que

embasaram o desenvolvimento do trabalho: o eletroencefalograma (EEG), os métodos de
extração de features e redes neurais. A revisão bibliografia serve de base de conhecimento
para a obtenção dos objetivos citados no trabalho.
Outro ponto importante a se destacar na metodologia é a utilização de um
banco de dados de arquivos provenientes de exames EEG, agrupados em 24 pacientes
com idade des 1,5 a 18 anos. Os exames estão em arquivos de dados do tipo .EDF, totali-
zando 686 arquivos (aproximadamente 32Gb de dados). Os arquivos apresentam duração
média de uma hora, chegando a ter gravações de até quatro horas no máximo, depen-
dendo do quadro de crises epiléticas do paciente. Foi constatado que em 141 arquivos
ocorreram crises epiléticas, gerando um total de aproximadamente 200 minutos de crises
epiléticas distribuı́das entre os pacientes, no Anexo A está apresentado um catálogo do
dados. Os arquivos utilizados pertencem ao projeto CHB-MIT Scalp EEG Database e po-
dem ser acessados através do site: https://www.physionet.org/pn6/chbmit/. Dentre
outros trabalhos com o uso desse banco de dados, pode-se destacar o trabalho intitulado
Application of Machine Learning To Epileptic Seizure Detection dos autores SHOEB e
GUTTAG (2010).
Após a obtenção dos dados citados acima, é realizada a escolha e o treinamento
dos modelos de classificação mais adequados para o problemas, com o processamento dos
16
dados para a obtenção das caracterı́sticas utilizando-se os dois métodos citados anteri-
ormente. Para realizar a comparação entre os métodos de extração dos atributos, os
resultados são validados em testes exaustivos dos modelos de classificação escolhidos, uti-
lizando ferramentas estatı́sticas para a devida comparação dos resultados. Na Figura 2,
é apresentado um diagrama básico da metodologia que é aplicada no trabalho.
Figura 2 – Metodologia do trabalho.
Fonte: Elaborada pelo autor.
1.3 Estrutura do Trabalho
O trabalho se divide em duas partes, em que a primeira parte é dedicada à re-

visão bibliográfica. No capı́tulo 2, será apresentado o Eletroencefalograma, destacando-se
um breve histórico, caracterı́sticas das atividades neurais do cérebro, processo de aquisição
dos sinais, padrão 10-20 da distribuição da localização dos eletrodos, bandas ou ritmos
cerebrais e por fim identificação das caracterı́sticas (features) necessárias.
O capı́tulo 3 irá apresentar os dois métodos de extração de features que serão
utilizados. Será apresentado inicialmente a densidade espectral de potência através do
periodograma, destacando o formalismo matemático e a implementação em código para
analisar a densidade espectral de potência (PSD) estimada. Por fim será apresentado uma
abordagem utilizando o modelo autorregressivo. Pode-se destacar como caracterı́stica fun-
damental de um processo autorregressivo o fato da observação atual estar correlacionada
com a observação anterior, ou seja, assume-se uma correlação significativa entre as ob-
servações anteriores.
No capı́tulo seguinte serão abordadas as redes neurais artificiais (RNAs) na
tarefa de classificação de padrões. As RNAs são ferramentas eficientes no tratamento
de problemas não lineares em processamento de sinais. Existem diversas aplicações do
uso das RNAs em classificação de padrões na área médica, tais como reconhecimento
de imagens aplicado em exames de raio-X e ultrassonografia, diagnósticos de patologias
cardiorrespiratórias, entre outras. Nesse trabalho em particular serão utilizadas duas
arquiteturas de redes neurais: Extreme Learnin Machime (ELM) e Multilayer Perceptron
(MLP).
No quinto capı́tulo será apresentada a implementação dos dois métodos de ex-
tração de atributos e dos classificadores propostos, com a análise quantitativa e qualitativa
dos resultados, apresentando-se as ferramentas e algoritmos computacionais utilizados
No sexto capı́tulo, serão apresentados os resultados obtidos em cada cenário
proposto e por fim apresentaremos a conclusão do trabalho, discutindo-se sobre os obje-
tivos alcançados, resultados e trabalhos futuros a respeito do tema abordado.
17
1.4 Resumo do Capı́tulo
Este capı́tulo apresentou a importância e a dimensão do estudo referentes à

saúde pública de milhões de pessoas que sofrem com distúrbios cerebrais, principalmente
a epilepsia. Destacou-se o objetivo do trabalho e as suas justificativas, apresentando-se a
metodologia que será utilizada e por fim como o trabalho encontra-se estruturado.
O próximo capı́tulo apresenta o Eletroencefalograma (EEG), um breve histórico,
suas caracterı́sticas, atividade cerebral, geração do EEG, ritmos cerebrais, métodos de
gravação do EEG e detecção de patologias, em especial a epilepsia.
18
2 ELETROENCEFALOGRAMA (EEG)
Este capı́tulo irá apresentar as principais caracterı́sticas do eletroencefalo-

grama, destacando-se as atividades e os ritmos cerebrais. Serão discutidos os métodos
de gravação do EEG, a convenção da posição dos eletrodos (padrão comumente chamado
de 10-20) e por fim as caracterı́sticas eletrográficas de anormalidades detectadas no EEG,
destacando-se a epilepsia.
2.1 Introdução ao EEG
A atividade cerebral humana inicia-se entre a decima sétima e vigésima ter-

ceira semana de formação. Então, a compreensão das funções neuronais e atividades
neurofisiológicas do cérebro, somado com os principais mecanismo para a gravação e a
interpretação da atividade elétrica do cérebro, é de fundamental importância para o di-
agnóstico e o tratamento de distúrbios cerebrais, entre eles o objeto de estudo deste
trabalho, a epilepsia.
Atualmente, os principais métodos utilizados para realizar a gravação e verifi-
car as alterações funcionais e fisiológicas do cérebro humano são: o eletroencefalograma
(EEG), o magnetoencefalograma (MEG) e a ressonância magnética funcional (FMRI, do
Inglês Functional Magnetic Ressonance Imaging). Cada um desse exames apresentam
suas vantagens e desvantagens de acordo com cada tipo de distúrbio. Porém, de fato, a
maior porção dos exames realizados baseiam-se no EEG, por conta da menor complexi-
dade em relação a outros exames. O EEG é uma excelente ferramenta para a exploração
da atividade neuronal do cérebro, associada a mudanças sı́ncronas dos potenciais elétricos
da membrana dos neurônios vizinhos.
Hans Berger (1873-1941) iniciou o estudo de sinais EEG em humanos em 1920.
Usando um galvanômetro com uma sensibilidade de 130 µV/cm, fez a primeira gravação
do EEG com cerca de três minutos de duração. Na década de 50, os trabalhos com EEG
expandiram em todo o mundo, sendo impulsionados com a popularização de cirurgia para
remover focos epiléticos. Nessa década, também os eletrodos utilizados no EEG evoluı́ram,
com o uso de materiais como tungstênio, e com eletrólitos como cloreto de potássio, com
diâmetros de cerca de 3µm (SANEI and CHAMBERS, 2007).
Diversos avanços tecnológicos permitiram grandes aprimoramentos no registro
do eletroencefalograma, tais como os sistemas digitais, os registros sincronizados com
vı́deo, a utilização dos sistemas de multicanais, chegando-se atualmente aos equipamentos
com monitoramento remoto e portáteis. O uso da avaliação rotineira do EEG de superfı́cie
é o cenário mais comum na prática da epileptologia clı́nica, sendo o mais utilizado para o
diagnóstico e condução do tratamento da maior parte das sı́ndromes epilépticas. O EEG
é o meio de diagnóstico mais frequentemente utilizado para estudo da epilepsia, sendo
19
também o menos dispendioso.
2.2 Fundamentos Fisiológicos do Eletroencefalograma
O sistema nervoso é composto por uma rede de células especializadas deno-

minadas neurônios, que juntas comunicam-se e processam informações do corpo e do
ambiente externo, tomadas de decisões, entre outras funções. Na maioria dos seres vivos
o sistema nervoso é dividido em sistema nervoso central (SNC) e sistema nervoso periférico
(SNP).
Os neurônios (Figura 3) transmitem potenciais elétricos para outras células ao
longo das finas fibras denominadas axônios, que utilizam substâncias quı́micas chamadas
neurotransmissores para permitir a função neuronal, chamada sinapse. Estes potenci-
ais elétricos são chamados de “potenciais de ação”ou “impulso nervoso”, e podem ser
interpretados como a informação transmitida por um nervo a uma célula.
Figura 3 – Componentes de um neurônio.
Fonte: http://www.infoescola.com/biologia/tecido-nervoso/ ,
acesso em outubro de 2016.
Os potenciais de ação são causados por uma troca de ı́ons através da membrana
do neurônio, ou seja, é uma mudança temporária no potencial elétrico da membrana que
é transmitida ao longo do axônio. Geralmente é iniciado no corpo celular e se propaga
somente em uma direção (dendritos, corpo celular e por fim axônio). Ao despolarizar
o potencial da membrana do neurônio, tornando-a mais positiva, produz um pico de
potencial também denominado disparo ou ativação. Após chegar ao ponto máximo do
pico, ocorrerá a repolarização da membrana, tornando-se mais negativa. O potencial
elétrico se torna mais negativo do que o referencial de repouso e em seguida retorna ao
nı́vel de repouso. Esse ciclo dura em torno de 5 a 10 ms. Na Figura 4, é apresentado um
exemplo de um disparo.
Os valores de pico do potencial elétrico são variáveis devido ao processo de
sinapse. A sinapse, apresentada na Figura 5, é a transmissão de um sinal elétrico ou
quı́mico entre dois neurônios. O neurônio que inicia a transmissão ou alteração é deno-
minado pré-sináptico e o que sofre a ação é denominado o pós-sináptico. As sinapses,
inicialmente estudadas na década de 50, podem ser elétricas ocasião na qual apresentam
20
Figura 4 – Ativação de um neurônio .
Fonte: (SHARMA et al., 2012).
transmissão de um impulso elétrico sem o processamento de informação. Esse tipo de

sinapse é responsável pela sincronização da atividade neuronal.
Figura 5 – Sinapse elétrica .
Fonte: (BORGES et al., 2015).
Através da sinapse é possı́vel efetuar a medição do EEG. Esse sinal é o resul-

tado da medição das correntes de excitação sinápticas que fluem dos dendritos de muitos
neurônios piramidais do córtex cerebral. Quando os neurônios estão ativados, as correntes
sinápticas geram um campo magnético mensurável por uma eletromiografia e um campo
elétrico secundário sobre o couro cabeludo, que pode ser medido através de um EEG.
As duas formas principais de ativação neuronal são a despolarização rápida das
membranas neuronais, que resultam no potencial de ação, e as mudanças lentas no poten-
cial de membrana devidas à ativação sináptica, ocasionada pelo somatório do potencial
pós-sináptico excitatório (EPSP) e o potencial pós-sináptico inibitório (IPSP).
Assim, a atividade do EEG representa o somatório da atividade sı́ncrona de um
conjunto de milhões de neurônios que têm uma orientação espacial semelhante. Portanto,
a atividade do EEG apresenta as oscilações em uma variedades de frequências de uma
rede de neurônios. Quando as ondas de ı́ons no escalpo atinge o eletrodo, a diferença de
potencial elétrico entre o eletrodo que se deseja medir e o eletrodo de referência pode ser
21
mensurada utilizando-se um circuito amplificador como o de um voltı́metro. É necessário

compreender que a cabeça humana é composta de várias camadas. Dentre elas, podemos
citar o crânio, couro cabeludo, cérebro e outras membranas (meninge, por exemplo). Cada
camada apresenta uma resistência diferente, e a condutividade no crânio pode chegar a
ser cem vezes maior do que nos outros tecidos envolvidos. Então o EEG necessita de uma
grande concentração de neurônios em uma determinada área para gerar sinais mensuráveis
pelo circuito correspondente.
O córtex cerebral é responsável por gerar quase que toda a atividade do EEG, e
os potenciais pós-sináptico são responsáveis por quase a totalidade do registro da atividade
elétrica e não somente os potenciais de ação. A atividade do EEG também é dependente
de mecanismos do fluxo de corrente, condução de volume, propagação, sincronização e
dessincronização.
Portanto, o estudo dos sinais elétricos do cérebro através no EEG é de funda-
mental importância para o estudo das anormalidades. Assim, o estudo do EEG é utilizado
principalmente para a investigação de: área motora suplementar, campo ocular frontal,
área motora primária, área somatossensorial primário, área pré-motora, representação es-
quemática das principais partes do cérebro, monitorar o estado de alerta como coma e
morte encefálica, localização de áreas de danos após a lesão na cabeça que foram causadas
por acidente vascular cerebral e tumor, monitoramento do envolvimento cognitivo (ritmo
alfa, introduzido na próxima seção) e a epilepsia (SANEI e CHAMBERS, 2007).
A maioria das desordens cerebrais é diagnosticada por inspeção visual dos
sinais de EEG, e a análise é um processo racional e sistemático, requerendo uma série
de etapas ordenadas que caracterizam as atividades elétricas registadas em termos de
descritores especı́ficos ou caracterı́sticas e medidas. Portanto, é necessário a análise da
frequência, da amplitude do sinal, da forma de onda, do modo de ocorrência (aleatório,
de série, contı́nua), seus momentos estatı́sticos, dentre outras caracterı́sticas que podem
ser utilizadas como features no decorrer deste trabalho.
2.3 Ritmos Cerebrais
O EEG é composto de uma ampla faixa de componentes de frequência, e

muitos distúrbios são diagnosticados por uma inspeção visual do sinal EEG. Um médico
clı́nico especialista nessa área pode diagnosticar uma determinada anormalidade pela
sua familiarização com os ritmos cerebrais em sinais EEG. É importante salientar que
as amplitudes e frequências de um determinado estado (de vigı́lia ou do sono) variam de
paciente para paciente. E as caracterı́sticas das ondas cerebrais também sofrem alterações
com a idade de cada indivı́duo.
Há cinco principais ondas cerebrais que se distinguem por suas faixas de
frequência diferentes. Na Figura 6, é apresentada as principais bandas de frequências:
alpha (α), theta (θ), beta (β), delta (δ) e gama (γ):
22
Figura 6 – Quatro principais ritmos cerebrais .
Fonte: SANEI e CHAMBERS (2007).
• as ondas delta estão dentro de uma faixa de 0,5-4 Hz, são encontradas em estágios
de atividades cerebrais lentas. Estas ondas estão associadas principalmente com o
sono profundo, facilmente confundı́veis com ruı́do (normalmente chamado de sinais
de artefatos), causado pelos músculos do pescoço ou da mandı́bula. No entanto,
através da aplicação de métodos de análise de sinal simples para o EEG, é possı́vel
identificar quando a resposta é causada por movimento excessivo.
• as ondas theta cuja faixa de frequência é de 4 a 7,5Hz, estão associadas com a
mudança da consciência em direção à sonolência. Essas ondas também estão as-
sociadas com o acesso ao material inconsciente, inspiração criativa e à meditação
profunda. Normalmente, esse tipo de faixa de frequência está acompanhado por
outras frequências relacionando com o nı́vel de excitação. As ondas theta desem-
penham um papel importante na infância, e em elevados nı́veis de intensidade de
atividades nos adultos em vigı́lia são anormais e são causadas por vários problemas
patológicos.
• as ondas alpha (8-13 Hz) são encontradas normalmente na parte posterior da
cabeça, na região occipital do cérebro. Em geral tem uma forma arrendondada
ou em forma de um sinal senoidal. Raramente podem se manifestar como ondas
agudas. As ondas alpha indicam uma consciência relaxada, sem qualquer atenção
ou concentração. É o ritmo mais proeminente em toda a atividade cerebral. O
”estado”alpha é reduzido ou eliminado através da abertura dos olhos, por ouvir
sons desconhecidos, por ansiedade, concentração mental ou atenção.
23
• as ondas beta (14-30 Hz) são associadas com o pensamento ativo, atenção e foco no
mundo exterior para resolver um problema concreto e são encontradas em adultos
normais e também podem estar ligadas ao estado de pânico. São encontrada em
suma maioria na região frontal e central com amplitudes menores do que os ritmos
alpha.
• as ondas gamma (≥ 30 Hz) geralmente não são de interesse clı́nico e fisiológico.
No entanto a detecção destes ritmos pode ser utilizada para a confirmação de de-
terminadas doenças cerebrais.
De fato, é complicado entender e detectar os ritmos cerebrais do sinal EEG.
Profissionais com experiência e bastante treinados sentem dificuldade em determinados
momentos. Portanto existem diversas ferramentas para o processamento de sinais que
permitem separar e analisar formas de onda desejadas dentro do EEG. A análise visual
do EEG é subjetiva e depende da anormalidade que se deseja verificar.
2.4 Medições e Gravação do EEG
Atualmente, os sistemas de aquisição de EEG (Figura 7) consistem em uma

série de delicados eletrodos, com um conjunto de amplificadores, um por canal, uma série
de filtros de sinais e dispositivos para armazenamento e visualização. Sendo assim, o
sinal EEG é transformado em um sinal digital, exigindo uma frequência de amostragem,
resolução e codificação dos sinais.
Figura 7 – 32-Channel Digital Video EEG Machine .
Fonte: https://goo.gl/MIoel3 acesso em outubro de 2016.
Os sistemas informatizados de EEG transformam o sinal analógico em sinal

digital por meio de conversores analógico-digitais (ADCS), de forma que para a maioria
das aplicações do EEG, a banda de frequência é limitada em centenas de Hz. A frequência
mı́nima de amostragem é de 200 amostras em um segundo para satisfazer o critério de
24
Nyquist. A resolução de cada amostra utilizada, comumente, é de 16 bits. Como discutido

na introdução deste trabalho, o tamanho dos arquivos utilizando essa configuração é
significativo sendo necessário alguma compactação.
Para uma boa qualidade do sinal, é de fundamental importância que os eletro-
dos sejam de qualidade e estejam em condições adequadas. Existem diferentes tipos de
eletrodos, dentre os quais podemos citar: descartáveis, à base de gel, eletrodos de disco
reutilizáveis, eletrodos de escalpo ou toucas (Figura 8), eletrodos de base salina e eletro-
dos de agulha. As toucas de eletrodos são normalmente utilizadas para as gravações de
multicanais, utilizando-se um número considerável de eletrodos. Esses dispositivos con-
sistem de discos de Ag-AgCl (prata-cloreto de prata) com menos de 3 mm de diâmetro,
com longos fios flexı́veis conectados aos amplificadores (SANEI e CHAMBERS, 2007).
Figura 8 – Touca de eletrodos para EEG .
Fonte: https://goo.gl/VT8Tdw acesso em outubro de 2016.
Dispõe-se do EEG intra-craniano e do couro cabeludo. O EEG intra-craniano

tem uma baixo ruı́do pois o eletrodo é implantado no interior do cérebro e também é menos
susceptı́vel à interferência eletromagnética e artefatos. Outra vantagem é que o EEG intra-
craniano capta uma melhor resolução espacial. No entanto, sua principal desvantagem é
a natureza invasiva. Portanto o EEG de escalpo é o mais comum clinicamente porque
não é invasivo.
2.4.1 Padrão Convencional de Posição dos Eletrodos (10-20)
O posicionamento convencional dos eletrodos foi recomendando pela Interna-

tional Federation of Societies for Electroencephalography and Clinical Neurophysiology e
é denominado padrão 10-20 (Figura 9). O padrão refere-se à distribuição dos eletrodos e
considera algumas distâncias constantes usando marcos anatômicos especı́ficos, a partir
dos quais as medidas seriam realizadas e, em seguida, usa 10% ou 20% da distância espe-
cificada como o intervalo entre os elétrodos. Os números pares referem-se aos elétrodos
posicionados no hemisfério direito e os números ı́mpares aos eletrodos do hemisfério es-
querdo. As letras apresentam qual a localização do eletrodo na cabeça conforme a Tabela
25
1.
Figura 9 – Padrão 10-20 .
Fonte:10/20 System Positioning Manual.
Tabela 1: Identificação dos Eletrodos

Eletrodo Lobo
F Frontal
T Temporal
C Central
P Parietal
O Occipital
2.5 Banco de Dados Utilizado
O conjunto de dados utilizados neste trabalho consiste em gravações contı́nuas

do EEG, do tipo escalpo, realizados em 24 pacientes (a maioria, pediátricos) após a
retirada da medicação para a avaliação de cirurgia de epilepsia no Hospital Infantil de
Boston. A lista de paciente é apresentada no Anexo A. O EEG apresenta uma taxa de
amostragem de 256 Hz, utilizando-se em 18 eletrodos. Ainda nesse seção será apresentada
a diferença entre eletrodos e canais. A montagem do escalpo para as gravações seguiu o
Padrão 10-20.
Como citado na introdução, os arquivos gerados pela gravação do EEG em
média apresentam 1 hora de duração. Em alguns pacientes, foram utilizadas gravações
de 4 horas, gerando um total de 686 arquivos. Os arquivos estão catalogados em com
convulsões e sem convulsões. Em todos os arquivos, foram detectados 197 convulsões dis-
tribuı́das em 141 arquivos, totalizando um total de 195,5 minutos para todos os pacientes.
Os arquivos foram disponibilizados no formato .edf, seguindo o seguinte padrão:
chb01 03.edf, em que “chb01” identifica o paciente e “03” identifica o número do arquivo
26
que esta sendo utilizado. A configuração dos canais utilizada em cada paciente é apresen-
tada no Anexo A. O arquivo de extensão .edf (European Data Format) é um arquivo de
dados composto por um cabeçalho, seguido pelos registros de dados. Esta especificação
pode ser vista em: http://www.edfplus.info/specs/edf.html. O cabeçalho identifica
o paciente e especificam as caracterı́sticas técnicas do sinal gravado. Os primeiros 256
bytes do cabeçalho especificam o número da versão deste formato, o paciente, a identi-
ficação de gravação, informações de duração da gravação, o número de registros de dados
e, finalmente, o número de sinais em cada registro de dados. Em seguida, é especificado o
tipo de sinal (por exemplo, EEG, temperatura corporal, etc), a calibração de amplitude
e o número de amostras em cada registo de dados (KEMP et al., 1992).
Para a visualização e análise dos dados presentes nos arquivos utilizando o
ambiente computacional Matlab ou Octave, foi necessário utilizar a função edfread.m. O
parâmetro de entrada da função é o endereço e nome do arquivo, e a função retorna um
cabeçalho (header) e os dados (recorddata). Um exemplo de como a função é utilizada é
apresentado a baixo no código a seguir:
clear; clc;
% Exemplo de utilizacao da funcao edfread
[header, recorddata] = edfread('chb01 03.edf');
Utilizando, como exemplo, o arquivo chb01 03.edf, a função retorna os dados

gravados em forma de uma matriz de dimensões 23 linhas por 921600 colunas. O número
de linhas informa a configuração dos canais utilizada. Os sinais dos 18 canais são com-
binados em pares diferenciais. Na Tabela 2, é apresentada a configuração dos canais
utilizada para a gravaçao do arquivo apresentado no exemplo. As colunas apresentam
os dados gravados para cada par diferencial de eletrodos. Cada coluna é equivalente a
uma amostragem do sinal para os 23 canais. Sabendo-se que a frequência de amostragem
utilizada para a gravação é de 256 Hz, temos uma amosta a cada 1/256 segundos. Então
921600 amostras equivalem a uma hora de gravação. Cada arquivo de uma hora apresenta
em média 40.4MB de tamanho.
Como dito anteriormente, um canal do EEG, ou sinal, é formado pela diferença
entre potenciais, medida entre dois eletrodos. Tome como exemplo o eletrodo FP1 e F7.
Então o canal 1, FP1-F7, apresenta o sinal gerado pela diferença entre esses dois eletrodos.
Esse canal em especı́fico reflete a atividade neural localizada no lobo frontal do hemisfério
esquerdo. É importante conhecer as amplitudes de cada canal pois o inı́cio de um ataque
focal envolve uma alteração na atividade em pouco canais do EEG, pela localização do
eletrodo mais perto na região de origem da epilepsia. Porém, é necessário verificar o inı́cio
de um atividade epilética generalizada que envolve todos os canais utilizados.
27
Tabela 2: Configurações dos Canais

Canal Eletrodos Canal Eletrodos Canal Eletrodos
1 FP1-F7 9 FP2-F4 17 FZ-CZ
2 F7-T7 10 F4-C4 18 CZ-PZ
3 T7-P7 11 C4-P4 19 P7-T7
4 P7-O1 12 P4-O2 20 T7-FT9
5 FP1-F3 13 FP2-F8 21 FT9-FT10
6 F3-C3 14 F8-T8 22 FT10-T8
7 C3-P3 15 T8-P8 23 T8-P8
8 P3-O1 16 P8-O2 - -
2.6 Detecção de Ataque Epilético no EEG
Sabemos que os ataques epiléticos são perı́odos onde a atividade cerebral oscila
entre a hiperatividade e o hipersincronismo, gerando sintomas clı́nicos que podem ser
acompanhados de convulsões. A variação dos sintomas clı́nicos ocorre em função da
localização de origem desse estado, com o padrão de distribuição e a abrangência para
outras regiões do cérebro.
A redistribuição da energia espectral, causada pela epilepsia, consiste no surgi-
mento ou no desaparecimento de componentes de frequência dentro de uma faixa que varia
de 0 a 25 Hz, porém essas componentes de frequência variam de paciente para paciente e
varia também com o local de origem do ataque.
Utilizando os exemplos apresentados por SHOEB (2009), a Figura 10 ilustra
um exemplo do comportamento dos sinais de um paciente em crise. A crise se inicia no
instante 1723 segundos e consiste no aumento de energia do sinal EEG em todos os canais,
seguido pelo surgimento de um ritmo beta canais F3-C3 e C3-P3. Em seguida a amplitude
deste ritmo aumenta à medida que as suas frequência diminuem e se instalam dentro da
banda de frequência do tipo theta. Outro exemplo pode ser visto na Figura 11, onde
a crise epilética inicia-se no instante 6313 segundos, com o surgimento de ritmo theta
proeminentemente nos canais F7-T7 e T7-P7. Os outros canais apresentam mudanças
após o inicio de crise, e é possı́vel verificar alterações da frequência em outros canais. Por
fim, é apresentado o exemplo da Figura 12, ilustrando um descarga anormal no intervalo
de 2884-2892 segundos, caracterizada pelas altas amplitudes com seguidos picos de ondas
de alta frequência. Porém, essa descarga anormal não é devido a ocorrência de uma crise
epiléptica.
Os três exemplo são uma pequena amostra da variabilidade de sinais que po-
dem ser observada entre os vários tipos de crises epiléticas e os pacientes. Portanto há
uma complexidade em classificar esses padrões de forma genérica para pacientes, sendo
mais comum realizar um estudo do padrão do comportamento do EEG para cada paciente.
28
Figura 10 – Exemplo de EEG com crise epilética em um paciente A.
Fonte:(SHOEB, 2009).
Figura 11 – Exemplo de EEG com crise epilética em um paciente B.
Figura 12 – Exemplo de EEG com crise epilética em um paciente C.
29
Este capı́tulo apresentou uma introdução ao exame EEG, destacando sua

aplicabilidade no diagnóstico da epilepsia e um breve histórico sobre esse procedimento.
Em seguida, foram analisados os fundamentos fisiológicos do EEG, dentre os quais as
ativações de um neurônio e a sinapse entre neurônios. Este capı́tulo apresentou os ritmos
cerebrais, destacando-se as principais faixas de frequências e suas caracterı́sticas.
Em sequência, o capı́tulo destacou como são realizadas as aquisições de dados
do EEG, destacando-se o EEG de escalpo e apresentando-se o padrão convencional de
posição dos eletrodos (10-20). Também foram destacados a origem e o formato dos dados
a serem utilizados nesse trabalho, proveniente de um banco de dados. E por fim, foram
apresentados exemplos de EEG com a ocorrência de crises, nos quais se observaram a
diversidade de padrões que podem ocorrer.
O capı́tulo seguinte irá destacar os métodos de caracterização e extração dos
atributos do sinal EEG, com o intuito de representá-lo com menor quantidades de parâmetros.
Esses atributos serão utilizados nos classificadores propostos.
30
3 MÉTODOS DE EXTRAÇÃO DE ATRIBUTOS
A extração de atributos é a parte mais importante no processo quando se deseja

trabalhar com classificação. Ao se trabalhar com EEG, essa importância é elevada por
se tratar de método para classificação de diagnósticos de crises convulsivas em pacientes.
Escolher quais as caracterı́sticas mais adequadas para o problema é fundamental para o
desempenho desejado para um classificador, além do desejo de ser rápido o suficiente para
poder ser utilizado em um plataforma de tempo real.
Com a literatura que foi utilizada como referência neste trabalho, evidencia-se
que não existe um único método recomendável para a extração de atributos nos sinais
do EEG. De forma a apresentar a diversidade de métodos utilizados, destacam-se alguns
métodos a seguir. Métodos comuns são a utilização da Transformada Discreta de Wavelet
(DFW) (JAHBABHANI, KODOGIANNS e REVETT(2006) e SUBASI (2007)), análise
da amplitude dos sinais (KAPER et al. (2003)), utilização de métodos de agrupamento
(SIULY e WEN(2010)), método de modelagem de processo autorregressivo (PENNY et al.
(2000) e PFURTSCHELLER et al. (1998)) e por fim o método da estimação da densidade
espectral de potência (PSD)(CHIAPPA e BENGIO(2004)).
Também há a necessidade de verificarem-se trabalhos que realizaram a com-
paração entre os métodos de extração de atributos (SILVA (2012) e AL-FAHOUN e AL-
FRAIHAT(2014)), de forma a auxiliar na escolha dos métodos de extração de atributos
a serem aplicados nesse trabalho.
3.1 Caracterı́sticas do Sinal EEG
Antes de apresentar os métodos que serão utilizados para a extração de atri-

butos nesse trabalho, é importante verificar algumas propriedades e caracterı́sticas do
EEG. No Gráfico 1 observa-se o intervalo correspondente a 5 segundos de sinal, referente
somente ao canal 1 (FP1-F7). Observando-se apenas esse sinal, é impossı́vel determinar
em qual estado se encontra o paciente.
Gráfico 1 – Intervalo de cinco segundos de sinal do EEG (canal 1).

31
Para enfatizar a dificuldade encontrada na realização de um diagnóstico, são

apresentados dois gráficos (2 e 3) que ilustram dois intervalos de um mesmo paciente.
O Gráfico 2 ilustra um perı́odo no qual o paciente não apresenta um quadro de crise
epiléptica, já o Gráfico 3 ilustra a ocorrência de uma crise no intervalo. Outro fato a
destacar é a fadiga visual ocasionada através da realização de diversos diagnósticos segui-
dos. Portando, a eficiência deste tipo de procedimento é reduzida e mais lenta. Podendo
ocasionar falhas devido ao cansaço visual. Pode-se afirmar que a análise do diagnóstico é
sujeita as limitações inerentes à subjetividade e à variabilidade dos especialistas.
Gráfico 2: Intervalo sem o evento de crise. Gráfico 3: Intervalo com o evento de crise.
O sinal EEG apresenta uma importante caracterı́stica inerente: sua alta não-
estacionaridade. A aplicação de métodos de dinâmica não-linear (ou caos determinı́stico)
ao problema da descrição de um EEG foi relativamente bem sucedida como apresentado
no capı́tulo 7 da referência ADELI (2010). Muitos métodos determinı́sticos baseados em
caos são aplicados para caracterizar a não-linearidade intrı́nseca embutida aos sinais de
EEG. No entanto, a maioria destes métodos necessita de uma condição crı́tica: que a
série de tempo seja estacionária. Tal restrição infelizmente faz com que as abordagens
convencionais não sejam confiáveis para a análise de sinais fisiológicos, uma vez que a não
estacionariedade (isto é, as propriedades estatı́sticas, como a média, variância e função de
autocorrelação variam com o tempo) é uma caracterı́stica intrı́nseca dos dados fisiológicos
e persiste mesmo sem intervenção externa (TSAI et al., 2009).
Os fenômenos não-estacionários estão presentes no EEG, geralmente sob a
forma de eventos transitórios, como ondas acentuadas, picos ou descargas de ondas de pico
que são caracterı́sticas do EEG epiléptico, ou como alternância de intervalos (segmentos)
relativamente homogêneos com caracterı́sticas estatı́sticas diferentes.
O trabalho consiste em utilizar métodos para realizar análise linear no domı́nio
da frequência e do tempo do sinal EEG. Serão utilizados os métodos da Estimação da Den-
sidade Espectral de Potência (PSD) através da Transformada Rápida de Fourier (FFT)
e a estimação dos parâmetros ao modelo autorregressivo (AR).
32
3.2 Densidade Espectral de Potência (PSD)
O primeiro método usado para a análise é a Transformada Rápida de Fourier

(FFT), aplicando-se a FFT discreta ao sinal e detectando-se seu espectro. Sabe-se que
o sinal EEG é não-estacionário, o que significa que seu espectro muda com o tempo.
Tal sinal pode ser aproximado como estacionário por partes, ou seja, uma sequência de
segmentos de sinal estacionários independentes. Nesse trabalho, será assumi-se que a
duração de um intervalo estacionário mı́nimo seja de 2 segundos.
A PSD é calculada através da Transformada de Fourier, para a implementação
do método é necessário a estimação da sequência de autocorrelação, podendo ser utilizado
posteriormente métodos não paramétricos. O método não paramétrico a ser utilizado
nesse trabalho será o Método de Welch. Porém, antes de discutirmos esse método, essa
seção irá apresentar o desenvolvimento do periodograma e as motivações para uso do
método de Welch.
A autocorrelação rx (k) de um processo estacionário no sentido amplo (forte)
fornece a descrição no domı́nio do tempo de um processo. A função rx (k) pode ser
calculada através da transformada de Fourier do tempo discreto.
∞
X
Px (ejω ) = rx (k)e−jkω , (1)
k=−∞
em que Px pode ser chamada de densidade espectral de potência. Dado o espectro de

potência para o cálculo da sequencia de autocorrelação, aplica-se a inversa da transfor-
mada de Fourier (equação 2). Para um processo ergódico, se x(n) é conhecido para todo
n a estimação do espectro de potência é calculada diretamente, em teoria, realizando-se
o cálculo da sequência de autocorrelação conforme a equação 3.
Z π
1
rx (k) = Px (ejω )ejkω dω, (2)
2π −π
N
1 X
∗
rx (k) = lim x(n + k)x (n) , (3)
N →∞ 2N + 1 n=−N
em que x∗ (n) é o conjugado de x(n).

Os métodos não-paramétricos baseiam-se na ideia de estimar a sequência de
autocorrelação de um processo aleatório através de um conjunto de dados medidos, e
em seguida utilizar a transformada de Fourier para obter uma estimativa do espectro de
potência. Será apresentado o periodograma e a sua variação com o método de Welch.
Quando se trabalha com um processo estacionário fraco, para se calcular a
estimativa da autocorrelação (r̂), a equação 3 é redefinida para um número finito de
33
amostras, sendo dada por:
N −1
1 X
r̂x (k) = x(n + k)x∗ (n), (4)
2N n=0
para garantir que os valores de x(n) que caem fora do intervalo [0, N-1] não sejam com-
putados, pode-se reescrever a equação da seguinte forma:
N −1−k
1 X
r̂x (k) = x(n + k)x∗ (n). (5)
2N n=0
Para os valores de k < 0, será usada a propriedade de simetria do função de

autocorrelação e r̂x (k) é nula para |k| ≥ N . Então, a transformada discreta da autocor-
relação estimada é uma estimativa da densidade espectral de potência, conhecida como
periodograma (HAYES, 1996), é dada por:
N
X −1
P̂per (ejω ) = r̂x (k)e−jkω . (6)
k=−N +1
Embora definido em termos da sequência de autocorrelação estimada r̂x (k),

normalmente se expressa o periodograma diretamente em termos do processo x(n). Para
expressar em termos do processo, é necessário realizar o seguinte procedimento. Seja
xN (n) o sinal finito de comprimento igual a x(n) ao longo do intervalo [0, N-1], e zero
caso contrário. 
x(n) ; 0 ≤ n < N
xN (n) = (7)
0 ; caso contrário.
Então, xN (n) é o produto de x(n) com uma janela retangular wR (n). Agora
em termos de xN (n), a função de autocorrelação estimada é dada por:
∞
1 X 1
r̂x (k) = xN (n + k)x∗ (n) = xN (k) ∗ xN ∗ (−k), (8)
N k=−∞ N
usando o teorema da convolução e a transformada de Fourier na equação 8 temos:
1 1
P̂per (ejω ) = XN (ejω )XN ∗ (ejω ) = |XN (ejω )|2 , (9)
N N
onde XN (ejω ) é a transformada discreta de Fourier para N amostras de xN (n), como

apresentado na equação 10.
∞
X N
X −1
X̂N (ejω ) = xN (n)e−jnω = x(n)e−jnω (10)
n=−∞ n=0
34
Por fim pode-se verificar que o periodograma é proporcional ao quadrado da

magnitude da transformada discreta de Fourier de xN (n) e pode ser mais fácil de im-
plementar seguindo a seguinte ordem: com os dados xN (n), calcula-se a transformada
discreta de Fourier e determina-se XN (k). Por fim calcula-se o quadrado da magnitude
de (|XN (k)|2 )/N . Finalmente pode-se concluir que o periodograma é proporcional ao qua-
drado da magnitude da transformada de Fourier de um sinal janelado xN (n) = x(n)wR (n).
A seguir é apresentado uma implementação da função para calcular o periodograma.
function Px = periodogram (x,n1,n2)

x= x(:);
if nargin ==1
n1=1;
n2=length(x);
end;
Px=abs(fft(x(n1:n2),1024)).ˆ2/(n2-n1+1);
Px(1)=Px(2)
end;
O sinal xN (n) utilizado no periodograma, foi combinado com uma janela re-
tangular. Porém é comum o uso de outros tipos de janelamento diferente do retangular,
destacando-se as janelas de: Bartlett, Hanning, Hamming, Blackman, Flattopwin, Gaus-
siana e Taylorwin. No Gráfico 4, tem-se o exemplo das janelas de Blackman (azul), a
Gausiana (amarelo) e a de Hamming (vermelho). O cálculo do periodograma modificado
é dado por:
X ∞ 2
jω 1 −jnω
P̂M (e ) = x(n)w(n)e (11)
N U n=−∞
onde w(n) é a janela utilizada e U é dado pela média quadrática da magnitude de w(n).
L−1
1X
U= |w(n)|2 (12)
L n=0
A seguir será apresentada uma função em Matlab para o cálculo do periodo-

grama modificado com a possibilidade de uso das janelas de Hamming, Hanning, Barlett
e Blackman.
funcion Px = mper(x,win,n1,n2)
x=x(:)
if nargin==2
n1=1
n2=length(x);
end
N=n2-n1+1
35
w=ones(N,1)
if (win==2) w=hamming(N);
elseif (win==3) w=hanning(N);
elseif (win==4) w=bartlett(N);
elseif (win==5) w=blackman(N);
end
xw=x(n1:n2).*w/norm(w);
PX=N*periodogram(xw)
end;
Gráfico 4 – Exemplos de janelas no periodograma modificado.
.
Para iniciar a descrição do periodograma pelo método de Welch, a principio,

será apresentado o método de Bartlett, pois o método de Welch é uma variação do método
de Bartlett.
O método de periodograma de Bartlett produz uma estimativa do espectro de
potência. A motivação para este método vem da observação de que o valor esperado do
periodograma converge para Px (ejω ) à medida que o comprimento do registro de dados
(N ) vai para o infinito, ou seja,
lim E{P̂per (ejω )} = Px (ejω ). (13)

N →∞
Pela equação 13, conclui-se caso seja possı́vel encontrar uma média da esti-
mativa do periodograma, então o valor encontrado será uma estimativa consistente de
Px (ejω ). Seja, xi (n) de i = 1 até K, onde temos K realizações de um processo não corre-
lacionado de um processo randômico x(n) sobre o intervalo de 0 < n ≤ L. Sabe-se que a
estimativa do periodograma de xi (n) é dado por:
L−1
(i) jω 1 X −jnω
P̂per (e ) = xi (n)e , i = 1, 2, ..., k, (14)
L n=0
36
e a média vertical para K realizações é dada por:
K
jω 1 X (i) jω
P̂x (e ) = P̂ (e ). (15)
K i=1 per
Calculando o valor esperado para P̂x (ejω ):
1
E{P̂x (ejω )} = E{P̂per
(i) jω
(e )} = Px (ejω ) ∗ WB (ejω ), (16)
2π
no qual WB (ejω ) é a transformada de Fourier da janela de Bartlett no intervalo de [−L, L].

Como assumimos que os dados são não correlacionados, a variância de P̂x (ejω ) é:
1 1
V ar{P̂x (ejω )} = (e )} ≈ Px 2 (ejω ).
(i) jω
V ar{P̂per (17)
K K
Porém essa abordagem na prática é complexa pois normalmente não se tem K

realizações de um processo e sim uma única realização com N amostras. Então Bartlett
propôs que x(n) seja particionado em K sequencias não sobrepostas de tamanho L, onde
N = LK e a estimativa da densidade espectral de potência de Barlett com essa proposta
é dada por:
K−1 L−1 2
jω 1 X X −jnω
P̂B (e ) = x(n + iL)e . (18)
N i=0 n=0
em que xi (n) = x(n+iL) para n = 0, 1, ..., K e i = 0, 1, ..., K−1. A seguir será apresentada
um implementação desse método utilizando um função no Matlab.
function Px =bart(x,nsect)
L=floor(length(x)/nsect);
Px=0;
n1=1;
for i=1:nsect
Px = Px + periodogram(x(n1:n1+L-1))/nsect;
n1 = n1 + L;
end;
WELCH (1967) propôs em seu trabalho intitulado “The Use of Fast Fourier
Transform for the Estimation of Power Spectre: A Method Based on Time Averaging
Over Short, Modified Periodograms” duas alterações no método de Barlett. A primeira
proposta de modificação é permitir que a sequência de dados xi (n) se sobreponham e
a segunda proposta é permitir que o janelamento dos dados w(n) seja aplicado a cada
sequência. Desta forma, produz-se um conjunto de periodogramas modificados que devem
ser calculados pela média.
Com um sinal xi (n), esse sinal é formado por sucessiva sequências de offset D
37
ao longo de L pontos na sequência, ou seja, xi (n) = x(n + iD) para i = 0, 1, ..., L − 1.

Então a quantidade de amostras sobrepostos entre xi (n) e x1+i (n) é L − D pontos.
O cálculo da densidade espectral de potência estimada de Welch é dada por:
K−1 L−1 2
jω 1 X X −jnω
P̂W (e ) = w(n)x(n + iD)e , (19)
KLU i=0 n=0
onde U é dado pela equação 12.

O valor esperado da estimativa do método de Welch é dado por:
1
E{P̂w (ejω )} = Px (ejω ) ∗ |W (ejw )|2 , (20)
2πLU
em que W (ejw ) é a transformada de Fourier da janela escolhida. Portanto, o periodograma

de Welch é um periodograma com algumas modificações do método de Barlett.
A seguir é apresentada uma implementação do método de Welch no Matlab
utilizando as funções já apresentadas anteriormente.
function Px = welch(x,L,over,win)
if (over>=1 | over<0)
error('Overlap invalido')
end
n1=1;
n0=(1-over)*L
nsect=1+floor((length(x)-L)/(n0));
Px=0;
for i=1:nsect
Px=Px + mper(x,win,n1,n1+L-1)/nsect;
n1=n1+n0;
end;
3.3 Estimação de Parâmetros de um Modelo Autorregressivo
Um dado processo yt é chamado de processo estocástico de ordem p, AR(p),

se em cada intervalo de tempo t o valor de yt é determinada pela seguinte expressão:
yt = φ0 + φ1 yt−1 + φ2 yt−2 + ... + φp yt−p + t , (21)
em que φ0 , φ1 , ..., φp são os parâmetros do processo e t é um processo randômico de-

nominado ruı́do branco. Este processo é estacionário no sentido amplo, cuja função de
autocovariância é nula para todo t diferente de zero, ou seja, é um conjunto de dados não
correlacionados, com a variância σ 2 .
Os processos AR podem ser utilizados como modelos se for razoável assumir
38
que o valor atual de uma série temporal depende do seu passado imediato mais um erro
aleatório EHLERS (2009). Em outras palavras, é o agregado linear dos valores anteriores
da série com a adição de um ruı́do branco.
A função de autocorrelação de um modelo AR(p) pode ser escrita com a se-
guinte expressão:
ρ(τ ) = φ1 ρ(τ − 1) + φ2 ρ(τ − 2) + ... + φp ρ(τ − p), τ > 0, (22)
em que ρ(τ ) é a função de autocorrelaçao normalizada, denominada equação de Yule-

Walker, que é dada por:
Rx (τ ) E[x(n)x(n − τ )]
ρ(τ ) = = (23)
σx 2 E[x2 ]
Nessa seção, o objetivo é estimar os coeficientes φ1 , φ2 , ...φp assumindo-se que

o sinal EEG em um intervalo de t segundos seja estacionário e ergódico. Utilizando-
se o método dos momentos, é possı́vel estimar os coeficiente utilizando-se a equação de
Yule-Walker.
O procedimento é iniciado calculando-se a versão amostral da função de auto-
correlação normalizada r(τ ) que é dada pela seguinte expressão:
PN
k=τ +1 x(k)x(k − τ)
r(τ ) = PN 2 , (24)
k=1 x (k)
em que x(k) é a k-ésima amostra do conjunto de dados.

Reescrevendo a equação 22 em função de r(τ ) temos:
r(τ ) = φ1 r(τ − 1) + φ2 r(τ − 2) + ... + φp r(τ − p), τ > 0, (25)
Sabendo que a função de autocorrelaçao é par (r(−τ ) = r(τ )) e que r(0) = 1,

substituindo os valores de τ para τ = 1, 2, ..., p têm-se o seguinte sistema:



 r(1) = φ1 + φ2 r(1) + ... + φp r(p − 1), τ =1


r(2) = φ r(1) + φ + ... + φ r(p − 2),

τ =2
1 2 p
. . (26)

 .. ..



r(p) = φ r(p − 1) + φ r(p − 2) + ... + φ ,

τ = p.
1 2 p
39
Escrevendo o sistema de forma matricial tem-se Rφ = r,

    
1 r(1) ··· r(p − 1) φ1 r(1)
r(1) 1 ··· r(p − 2) φ2 r(2)
    
    
.. .. .. .. = .. (27)
...
  
. . . . .
    
    
r(p − 1) r(p − 2) ··· 1 φp r(p)
onde R é uma matriz quadrada de dimensão p, e φ e r são vetores de dimensão p x 1.

Para calcular os valores estimados dos coeficientes, resolve-se a seguinte equação
matricial:
φ̂ = R−1 r. (28)
De posse de um conjunto de dados e utilizando-se a Equação de Yule-Walker,

pode-se estimar os parâmetros de um processo AR(p). Porém, é importante também
estimar qual a ordem do modelo que melhor se encaixa ao processo real a ser modelado.
De forma a estimar a ordem utilizando o método dos momentos e a expressão
de Yule-Walker. Calcula-se a função de autocorrelaçao parcial (FACP), utilizando-se a
equação 28 de forma recursiva. Computacionalmente, pode ser feito através de um loop
de 1 ≤ i ≤ p, em que em cada iteração, calcula-se φ(i) e em seguida faz-se o descarte de
φ̂j (onde 1 ≤ j ≤ i − 1) e retém-se o valor de φ̂i ,
φ(i) = (R(i) )−1 r(i) , (29)
isto é, a FACP é φ̂i a cada iteração.
Esse capı́tulo destacou os principais métodos de extração de features, não exis-

tindo um procedimento padrão para tal atividade. Em seguida, foram apresentadas algu-
mas caracterı́sticas básicas do sinal EEG das, quais pode-se destacar como principal a sua
não-estacionaridade. Destacou-se também a dificuldade para se realizar um diagnóstico
visualmente através do EEG.
Mais adiante, o capı́tulo apresentou o método da estimação de densidade es-
pectral de potência. Foi realizada, uma revisão destacando o periodograma, o periodo-
grama modificado, o periodograma de Barlett e por fim o periodograma de Welch que
será utilizado no trabalho.
A ultima seção deste capı́tulo tratou da estimação de parâmetros de um modelo
autorregressivo de ordem p (AR(p)), utilizando-se a expressão de Yule-Walker e o método
dos momentos. Por fim, foi apresentada a função de autocorrelação parcial que será
utilizada adiante.
40
4 CLASSIFICADORES BASEADOS EM REDES NEURAIS
4.1 Introdução a Redes Neurais
As redes neurais artificias (RNAs), compostas por neurônios artificiais propos-

tos na década de 40 por McCulloch & Pitts, são máquinas de aprendizado não-linear for-
madas por neurônios artificiais. Esses neurônios artificiais são um modelo de um neurônio
biológico (já estudado aqui no capı́tulo 2). Utilizando o princı́pio de energia de ativação
(sinapse) e que os neurônios têm a capacidade de adaptação de acordo com as informações
por meio de estı́mulos, realiza-se um processamento paralelo e de forma distribuı́da.
Observando-se a Figura 13, verifica-se que no modelo de McCullock & Pitts
cada ramo da árvore dendrı́tica é modelado como uma canal de transmissão por onde a
informação de entrada flui, a força das conexões (sinapse) é modelado como um fator ou
peso sináptico para cada canal de entrada. O peso sináptico tem o papel de modular o
fluxo de sinais passando pelos canais de informação. O corpo celular do neurônio tem a
função de realizar o balanco ou acúmulo energético realizado pelas sinapses, e é modelada
por um operação de somatório sobre as entradas moduladas com seus pesos sinápticos.
Por fim o axônio é modelado como uma chave ON-OFF, indicando que houve ou não o
estı́mulo, ou seja, se houve ou não o envio de um potencial de ação.
Figura 13 – Modelo de Neurônio Artificial.
Fonte: Adaptado de Haykin (2009).
No fim da década de 50, Frank Rosenblatt apresentou um algoritmo que foi

considerado a primeira rede neural artificial, denominado de Perceptron Simples (PS).
Esse algoritmo utilizava os neurônios de McCulloch & Pitts adicionado de um regra de
aprendizagem. Essa regra de aprendizagem foi o mecanismo que torna essa rede um
algoritmo inteligente. A rede PS apresenta múltiplas entradas conectadas a uma única
camada, aplicado somente a problemas de classificação linearmente separáveis.
Após a implementação do Perceptron Simples, diversas outras arquiteturas e
configurações foram desenvolvidas visando à otimização e a adaptação para determinados
tipo de problemas. Então, as RNAs são uma poderosa ferramenta computacional para o
41
tratamento de problemas não-lineares em processamentos de sinais (HWANG et al., 1997).

Em suma maioria, o tratamento de problemas não-lineares requerem o mapeamento do
par entrada-saı́da não lineares, e as RNAs são aplicadas para a aproximação de funções e
a classificação de padrões (HAYKIN, 2009).
Para a utilização de RNAs em classificações de padrões, é necessário associar
os padrões de entrada, vetor de atributos, a uma das classes definidas anteriormente. A
partir do treinamento com os rótulos das classes, é possı́vel determinar as denominadas
funções discriminantes. A Figura 14 apresenta algumas regiões de decisões do tipo: linear,
linear por partes ou de forma arbitrária. As RNAs são utilizadas em diversos sistemas de
classificação de padrões. Como exemplos, podemos citar a classificação de imagens e voz,
de dados biométricos, de diagnósticos, falhas em motores entre outras diversas aplicações.
Figura 14 – Classificador de Padrões.
Fonte: Adaptado de Jain (1996).
Esse capı́tulo tem como objetivo apresentar duas arquiteturas de redes neu-
rais para classificação não-linear. Os métodos adotados de interesse deste trabalho serão:
rede neural do tipo Perceptron Multicamada (MLP - Multilayer Perceptron) do tipo feed-
forward (sem realimentação) com apenas uma camada escondida de neurônios treinados
com o algoritmo de retropropagação do erro (Error Backpropagation) e uma rede neu-
ral de multicamadas do tipo feedforward denominada Extreme Learning Machine (ELM),
proposta por Huang et al (2006).
4.2 Definições Preliminares
Considere um sistema no qual se deseja avaliar e construir um modelo, porém

de posse somente de uma fonte de informação que é o conjunto de entradas e saı́das do
sistema. Esse conjunto de dados entrada-saı́da pode ser representado por {xµ , dµ }. Em
que xµ é o µ-ésimo padrão de entrada, onde x ∈ Rp+1 . Onde p é o número de atributos e
é somado a um por conta do termo de bias. E dµ é o rótulo da classe alvo correspondente,
onde d ∈ Rk , em que k denota o número de classes.
Como deseja-se modelar o comportamento de uma função matemática que
associe as saı́das com as entradas é que será utilizada a rede neural. Seja F(·) desconhecida
42
a relação que mapeia as entradas e as saı́das. Portanto, pode supor que mapeamento pode
ser linear:
d = Mx (30)
em que M é uma matriz cuja dimensões são (p + 1) × m. Portando o uso da rede neural
implementa um algoritmo que dará o menor valor aproximado do mapeamento entrada-
saı́da. A função que melhor aproxima é representada por F̂(·). A saı́da yµ gerada pela
rede neural para a entrada xµ é dada por:
yµ = F̂[xµ ] (31)
O processo de obtenção da relação matemática geral F̂ utilizando apenas al-

guns pares de entrada-saı́da é denominado Aprendizado Indutivo. A seguir serão apre-
sentadas duas arquiteturas que terão como objetivo realizar o aprendizado indutivo com
o conjunto de atributos da série temporal do EEG como entrada e os rótulos de sinal com
ou sem detecção de crises epiléticas.
4.3 Fundamentos da Rede Neural MLP
A arquitetura de um rede MLP, apresentada na Figura 15, é constituı́da de uma

camada de neurônios de entradas que recebem os sinais, uma ou mais camadas ocultas
formada por neurônios não-lineares e por fim uma camada de saı́da composta por um ou
mais neurônios (dependendo do número de classes ou rótulos) que podem ser lineares ou
não lineares. Segundo (HAYKIN, 2009), as três caracterı́sticas básicas de uma rede do
tipo perceptrons multicamadas são:
• o modelo de cada neurônio na rede inclui uma função de ativação não-linear que é
diferenciável;
• a rede contém uma ou mais camadas que estão ocultas, e;
• a rede apresenta um elevado grau de ligação, no qual a extensão da qual é determi-
nada pelos pesos sinápticos da rede.
Este trabalho irá se dedicar à utilização de uma rede MLP com a arquitetura
de apenas uma camada oculta, apresentada na Figura 16. Vários autores aplicam essa ar-
quitetura em problemas de classificação não-lineares ou como um aproximador universal
de função (CYBENKO (1989); KHOTANZAD e CHUN (1998); WAGAR e DEMET-
GUL(2016)).
A arquitetura apresentada é de uma rede MLP totalmente conectada, ou seja,
cada neurônio em qualquer camada da rede é conectado à todos os outros neurônios da
camada anterior e um sinal de entrada da rede avança no sentido da esquerda para a direita
avançando cada camada (HAYKIN, 2009). O vetor que representa os pesos sinápticos de
cada neurônio i da camada escondida é dado por:
43
Figura 15 – Arquitetura MLP multicamadas.
Fonte: Adaptado de HAYKIN (2009).
Figura 16 – Arquitetura MLP com uma camada oculta.
   
wi0 θi
 .   .. 
wi =  .  
 . = ,
.  (32)
wip wip
em que θi é o limiar.
De forma similar o vetor de peso associado a cada neurônio k da camada de
saı́da é dado por:    
mk0 θk
 .   . 
mk =  .   . 
 .  =  . , (33)
mkq mkq
em que θk é o limiar associado aos neurônios da camada de saı́da k.
O treinamento da rede MLP é composta por duas fases, a primeira fase deno-
minada sentido direto, que envolve o cálculo das ativações e saı́das de todos os neurônios
da camada escondida e de todos os neurônios da camada de saı́da. E a segunda fase
44
(denominada sentido inverso) envolve o cálculo dos gradientes locais e o ajuste dos pesos
de todos os neurônios da camada escondida e de saı́da.
Figura 17 – Fluxo de dados na rede MLP.
Os neurônios da camada oculta agem como detectores de caracterı́sticas. Con-

forme ocorre o processo de aprendizagem da rede, estes neurônios gradualmente intensi-
ficam as principais caracterı́sticas presentes nos dados de treinamento. Nesse momento
ocorre uma transformação não-linear nos dados de entrada para um novo espaço (deno-
minado espaço de caracterı́sticas).
Na fase 1 do treinamento a informação flui dos neurônios da camada de entrada
para os neurônios da camada oculta. Portanto, para a apresentação de um vetor de
entrada x, em uma iteração t, é necessário calcular as ativações dos neurônio da camada
escondida. O cálculo das ativações é dado por:
p
X
ui (t) = wij (t)xj (t) = wi T (t)x(t), j = 1, 2, ..., p, (34)
j=0
onde T representa um vetor transposto e p é o número de neurônios na camada oculta.

Após os cálculos das ativações dos neurônios da camada escondida é necessário
calcular as saı́das no neurônios da camada de saı́da. O cálculo das ativações dos neurônios
da camada de saı́da é dado por:
q
!
X
ui (t) = φi (ui (t)) = φi wij (t)xj (t) = φi (wi T (t)x(t)), i = 1, 2, ..., p, (35)
j=0
onde a função de ativação φ pode assumir a forma de diversas funções, tais como a
função sigmoidal ou logı́stica (equação 36), tangente hiperbólica (equação 37), gaussiana,
multiquadratica, degrau ou cosseno.
1
φ(ui (t)) = (36)
1 + exp[−ui (t)]
1 − exp[−ui (t)]
φ(ui (t)) = (37)
1 + exp[−ui (t)]
O terceiro passo dessa etapa de treinamento é efetuar o cálculo das ativações
45
dos neurônios da camada de saı́da de forma similar ao cálculo dos neurônios da camada
oculta através das equações 34 e 39.
q
X
uk (t) = mki (t)zi (t) = mi T (t)zi (t), k = 1, 2, ..., M, (38)
i=0
no qual M é o número de neurônios da camada de saı́da, que é igual ao número de

rótulo dos dados. E importante observar que os neurônios da camada oculta, zi (t), nesse
momento representam o papel de entradas para os neurônios da camada da saı́da.
Por fim, a última fase dessa etapa é o cálculo das ativações dos neurônios da
camada de saı́da é dado por:
q
!
X
yk (t) = φk (ui (t)) = φk mki (t)zi (t) = φk (mki T (t)zi (t)), (39)
i=0
em que φk pode assumir as funções de ativação já discutidas aqui nessa seção.
Na segunda fase do treinamento, o sentido inverso, da rede MLP refere-se ao
cálculo dos gradientes locais e ao ajuste dos pesos sinápticos para todos os neurônios da
camada oculta e da camada de saı́da. Portanto, o fluxo de informação é da camada de
saı́da para as camadas escondidas, ou seja, a informação percorre o caminho oposto ao
fase inicial. Nesse tocante se diz que a informação esta fluindo no sentido inverso.
Após os cálculos das ativações dos neurônios da camada oculta e das ativações
dos neurônios de saı́da temos a informação referente ao erro entre a saı́da desejada dk (t)
e a saı́da gerada pele saı́da calculada yk (t). O erro é dado por:
ek (t) = dk (t) − yk (t). (40)
A primeira etapa dessa fase é efetuar o cálculo dos gradientes locais dos
neurônios da camada de saı́da:
δk (t) = ek (t)φ0 (uk (t)), (41)
em que φ0 é a derivada da função de ativação. Então a derivada da função logı́stica e da

tangente hiperbólica são apresentadas a seguir nas equações 42 e 43.
dφk (uk (t))

φ0 (uk (t)) = = yk (t)[1 − yk (t)] (42)
duk (t)
dφk (uk (t)) 1
φ0 (uk (t)) = = [1 − yk 2 (t)] (43)
duk (t) 2
A etapa seguinte segunda fase do treinamento é o cálculo dos gradientes locais
46
na camada oculta:
q
!
X
δi (t) = φ0i (ui (t)) = mki (t)δk (t) , i = 1, 2, ..., q, (44)
i=0
no qual, da mesma forma de anteriormente a derivada da função de ativação para os

neurônios da camada oculta apresenta a mesma forma da equação 42 e 43, porém para
yi (t).
dφi (ui (t))
φ0 (ui (t)) = = yi (t)[1 − yi (t)] (45)
dui (t)
dφi (ui (t)) 1
φ0 (ui (t)) = = [1 − yi 2 (t)] (46)
dui (t) 2
Para finalizar essa fase do treinamento é necessário realizar o ajuste dos pesos
sinápticos (e os limiares também) da rede MLP para a camada oculta e para a camada de
saı́da. O ajuste nessa etapa irá utilizar um método de aprendizado adaptativo denominado
LMS (least mean square), como apresentado em WIDROW et al. (2013) e o algoritmo
pode ser estudado no capı́tulo 3 da referência HAYKIN (2009). O LMS é um exemplo de
algoritmo do tipo sistema estocástico com realimentação (stochastic feedback system).
Figura 18 – Realimentalação do Algoritmo LMS.
Fonte: (HAYKIN, 2009).
Para efetuar a atualização do pesos da camada oculta será utilizada a seguinte

expressão:
wij (t + 1) = wij + ∆wij (t) = wij + α(t)δi (t)xj (t). (47)
onde α(t) é denominada a taxa de aprendizagem.

De forma similar a expressão para o ajuste dos pesos sinápticos para a camada
de saı́da é dada por:
mki (t + 1) = mki + ∆mki (t) = mki + α(t)δk (t)zi (t). (48)
Para um projeto utilizando a rede MLP é necessário avaliar alguns parâmetros.

47
Utilizando-se a arquitetura da rede MLP com apenas uma camada oculta, a rede é repre-
sentada pelo número de variáveis de entrada (p), o número de neurônios ocultos (q) e o
número de neurônios de saı́da (m). O número total de parâmetros (Z) de uma rede MLP
é dada por:
Z = (p + 1)q + (q + 1)m. (49)
De posse dos dados de entrada e saı́da, um projeto da rede neural utilizando a

arquitetura MLP envolve o uso de parte dos parâmetros e o ajuste de outros parâmetros.
A dimensão do vetor de entrada (p) é de fundamental importância para a qualidade do
projeto. Um alto número de entradas não garante um melhor desempenho. Pelo contrário,
um alto número de entradas pode gerar uma redundância no processo de medição.
Outro ponto a se destacar é o vetor de saı́da (M ). Para uma aplicação de
classificação de padrões o número de neurônios é igual ao número de rótulos das classes.
Para codificar os rótulos das classes normalmente se utiliza um vetor binário, no qual
apenas uma componente desse vetor terá o valor “1” identificando qual a classe. Os
outros rótulos que não pertence a classe especificada recebe o valor “0” ou “-1”.
O número de neurônios na camada escondida (q) é uma tarefa difı́cil de se
determinar. Normalmente, ele é encontrado pelo método da tentativa-e-erro. Um valor
alto de neurônios acarreta em um alto desempenho porém com um alto custo compu-
tacional. Porém, o excesso de neurônios pode ocasionar um alto ı́ndice de acerto para
o treinamento e baixo para novos dados introduzidos na rede. Já para o uso de pou-
cos neurônios, o desempenho será ruim. O valor considerado ideal é aquele que permite
atingir as especificações de desempenho do projeto. Na literatura existem diversas regras
heurı́sticas para determinar o número de neurônios.
Em relação a taxa de aprendizado (α), quanto menor for o parâmetro menores
serão as mudanças nos pesos sinápticos da rede de uma iteração para a próxima, e mais
suave será a trajetória no espaço de peso. Esta melhoria, no entanto, é atingida ao custo
de uma menor velocidade de aprendizagem. Se, por outro lado, o parâmetro da taxa
de aprendizagem for muito grande, com o objetivo de acelerar a taxa de aprendizagem,
as alterações abruptas resultantes que os pesos sinápticos podem assumir, possivelmente
pode acarretar uma instabilidade na rede. Um método simples de aumentar a taxa de
aprendizagem, evitando o perigo de instabilidade é a de modificar as equações 47 e 48
incluindo um termo dinâmico denominado fator de momento (η).
wij (t + 1) = wij + α(t)δi (t)xj (t) + η∆wij (t − 1) (50)
mki (t + 1) = mki + α(t)δk (t)zi (t) + η∆mki (t − 1) (51)
O valor da taxa de aprendizado (α) deve ser mantida abaixo de 0,5 para manter
a estabilidade do aprendizado e caso necessário utiliza-se um fator de momento (η) entre
48
0,5 e 1. Com relação à função de ativação utilizada, cada neurônio pode ter a sua função
de ativação, porém para facilitar o projeto todos terão a mesma função de ativação.
Após o treinamento da rede é necessário validá-la, ou seja, testar as suas
saı́das para dados de entrada diferente dos utilizados no treinamento. O procedimento
comum para treinar a rede de posse de N pares de entra-saı́da é utilizar um conjunto de
dados menor (N1 ). Em geral N1 está entre 75% e 90% dos dados totais. Os dados para
treinamento serão N1 e para o teste será N2 = N − N1 .
4.4 Fundamentos da Rede Neural ELM
De acordo com HUANG, ZHU e SIEW (2006), a rede ELM tem como objetivos
alcançar uma alta precisão, com baixa intervenção humana e alta velocidade. Com essas
caracterı́sticas a ELM é uma rede neural de aprendizagem em tempo real (Real-Time
Learning). Que apresenta rápida velocidade de aprendizagem e é de fácil implementação,
sendo bastante utilizada em diversos problemas de classificações de padrões.
Seu uso vem constantemente gerando outras variações mais sofisticadas da
rede e aplicações em diversas áreas tais como a implementação em análise de dados em
Big Data por KASUN et al. (2013), na área médica por BOQUETE et al. (2012) e Kaya
(2013), na área de processamento de imagens com CHEN et al. (2012) e AN & BHANU
(2012). Destacam-se também aplicações na área de robótica e controle por YU, CHOI e
HUI (2012), em aplicações na industria quı́mica com LIU et al. (2012), na área de análise
de séries temporais com BUTCHER et al. (2012), entres outras aplicações.
Figura 19 – Objetivos da rede ELM.
Fonte: (HUANG et al., 2015).

49
Figura 20 – Arquitetura rede ELM.
Fonte: (HUANG and CHEN, 2007).
A rede ELM é uma rede neural do tipo feedforward que apresenta uma única
camada oculta oferecendo pouca intervenção do usuário, referente ao ajustes dos seus
parâmetros se comparada a outras arquiteturas (Perceptron Multicamadas MLP, Funções
de Base Radial e Self-Organized-Maps).
A arquitetura da rede ELM, Figura 20, apresenta os neurônios da camada
oculta (primeira camada de peso sinápticos) e os neurônios da camada de saı́da (segunda
camada de pesos sinápticos). É semelhante à rede MLP, porém apresenta uma fase de
aprendizado muito mais rápida. De foma semelhante a rede MLP o vetor de pesos da
camada escondida para cada neurônio i é representado por wi , conforme apresentado na
equação 32. O vetor de peso a cada neurônio k da camada de saı́da é representado por
mk , conforme apresentado na equação 33.
Podemos dividir as etapas de implementação da rede ELM em três partes. A
inicialização aleatória dos pesos sinápticos dos neurônios da camada oculta e da camada de
saı́da, o acúmulo das saı́das dos neurônios ocultos e por fim o cálculo dos pesos sinápticos
dos neurônios de saı́da, no qual as duas primeiras partes são responsáveis pelo treinamento
da rede neural.
Na primeira etapa, inicialização aleatória dos pesos sinápticos de todos os
neurônios das camadas ocultas (wij ) e de saı́da (mki ). Podemos realizar essa inicialização
utilizando uma distribuição uniformemente distribuı́da em um determinado intervalo (a, b)
(equação 52), ou utilizar uma distribuição normal (gaussiana) com média nula e variância
σ 2 (equação 53).
wij ∼ U (a, b) (52)
wij ∼ N (0, σ 2 ) (53)
A segunda etapa do treinamento é responsável pelo acúmulo das saı́das dos

neurônios ocultos da mesma forma apresentada na rede MLP. O fluxo de informação
50
propaga-se da camada oculta para a camada de saı́da, ou seja, fluido no sentido direto
(Figura 17). Para calcular as ativações sinápticas dos neurônios da camada escondida em
uma iteração t para um determinado vetor de entrada x e um determinado número de
neurônios na camada oculta (q) é utilizado a seguinte expressão:
p
X
ui (t) = wij xj (t) = wiT x(t), i = 1, . . . , q. (54)
j=0
Após o cálculo das ativações dos pesos sinápticos de cada neurônio da camada
oculta é calculada as saı́das correspondentes na camada de saı́da na seguinte expressão:
p
!
X
= φi wiT (t)x(t) ,

zi (t) = φi (ui (t)) = φi wij (t)xj (t) (55)
j=0
em que φ é a função de ativação já discutida anteriormente na rede MLP.

Da mesma forma que na rede MLP, será utilizado o LMS como método de
aprendizado adaptativo. Dessa forma a atualização dos vetores de pesos do k-ésimo
neurônio de saı́da na iteração t é dado pela seguinte expressão:
mk (t + 1) = mk (t) + α(t)ek (t)z(t) (56)
em que α é a taxa de aprendizado, ek é o erro entre a saı́da calculada e o a saı́da-alvo.

Em outro método comumente utilizado para o cálculo dos pesos da camada
de saı́da, podemos assumir que esse cálculo é um mapeamento linear entre as camadas
oculta e de saı́da e utilizar o método dos mı́nimos quadrados. Um vetor de entrada para
a camada de saı́da em uma iteração t é z(t) e o vetor de saı́da é representado por d(t). A
matriz que representa o mapeamento M linear é dado por:
d(t) = Mz(t) (57)
Seja D a matriz de vetores, onde teremos N vetores d(t) ao longo das colunas
e Z a matriz de vetores de pesos para a camada de saı́da. utilizando D e Z a matriz M
é dada por:
M = DZT (ZZT )−1 (58)
Observa-se que para calcular M é necessário realizar uma inversão de matriz.

Essa inversão de matriz não é aconselhada porque o método dos mı́nimos quadrados não
é estável numericamente. A instabilidade numérica no contexto do cálculo numérico se
dá quando alguns problemas ou algoritmos possuem a propriedade de ampliar os erros
presentes nos dados de entrada e assim invalidar a saı́da ou a resposta requerida.
A instabilidade numérica pode estar relacionada às propriedades matemáticas
51
do problema ou então da estrutura do algoritmo utilizado para resolvê-lo. De qualquer

maneira, ao estudar um problema que pretendemos reescrever numericamente é impres-
cindı́vel a análise de estabilidade do algoritmo ou o condicionamento do problema ma-
temático. No caso é necessário observar o posto da matriz conforme citado anteriormente.
Para contornar esses problemas na implementação do método dos mı́nimos
quadrados deve-se utilizar o método da matriz pseudo-inversa de Moore-Pensore, que é um
método direto baseado em decomposição conjugada em valores singulares para calcular a
matriz inversa. No Matlab a função que implementa a decomposição em valores singulares
é a pinv().
Nesse capı́tulo foram apresentadas inicialmente as arquiteturas das redes MLP

e ELM feedforward com apenas uma camada oculta e totalmente conectadas. Foi descrito
a importância dos seus principais parâmetros envolvidos. Foi apresentados os modelos
matemáticos de ambas as redes e sua notação para representar os dados de entradas, os
pesos sinápticos das camadas e as ativações que serão utilizadas neste trabalho.
Também foram apresentados os métodos de aprendizagem adaptativo com o
algoritmo de retropropagação dos erros com gradiente descendente (LMS) e o método dos
mı́nimos quadrados.
O próximo capitulo irá apresentar a implementação dessas duas arquiteturas
de redes apresentadas com a utilização dos atributos extraı́dos conforme apresentados no
capı́tulo 3.
52
5 IMPLEMENTAÇÃO
Este capı́tulo é dedicado a apresentar a metodologia utilizada no trabalho e

como serão implementados os procedimentos de extração, rotulação dos dados e a clas-
sificação proposta. Em cada etapa será descrita a forma de implementação fazendo um
link com a revisão bibliográfica e os métodos computacionais utilizados.
5.1 Metodologia Utilizada
Na introdução deste trabalho foi comentada uma breve explicação da meto-

dologia a ser utilizada no trabalho. Essa seção irá desmembrar de forma mais especı́fica
quais os procedimento que serão realizados. Na Figura 21 são apresentados de forma
resumida os passos que serão implementados.
Figura 21 – Metodologia utilizada.
Fonte: eleborado pelo autor.
No capı́tulo 3 foram discutidas as principais caracterı́sticas o sinal EEG. Pode-

se destacar como a principal caracterı́stica o fato do sinal do EEG ser não-estacionário.
Porém, neste trabalho será assumido a sua estacionaridade para um intervalo de tempo t
menor ou igual a dois segundos.
A cada segmentação do sinal no intervalo de 2 segundos, 512 amostras, aplicam-
se os seguintes passos:
1. realizar a extração de features utilizando o periodograma de Welch;
2. estimar os coeficientes do modelo AR(p) e a ordem do modelo adequada, e;
3. rotular o intervalo com as classes de forma binária, +1 representa a ocorrência de
um evento de crise epiléptica convulsiva e −1 representa a ausência do evento.
No fim do processo de extração de features e da rotulação, são obtidos três
53
arquivos .dat representando os vetores de caracterı́sticas de cada método e o vetor alvo.

Os arquivos serão utilizados para o treinamento dos classificadores implementados nas
máquinas de aprendizado citadas no capitulo 4 (ELM e MLP). Portanto, teremos quatro
cenários distintos que serão comparados utilizando testes de desempenho para os classifi-
cadores.
5.2 Extração de Atributos
No capı́tulo 2, foram apresentadas as caracterı́sticas do conjuntos de dados

do EEG que será utilizado. Para cada paciente descrito no banco de dados temos a
configuração de canais utilizadas e foi visto também que o sinal do EEG é composto
por 23 canais. No entanto, SHIH(2009) apresentou em seu trabalho que a utilização de
somente cinco canais não afeta o desempenho da detecção de um evento. É necessário
salientar que o trabalho citado utilizou o mesmo banco de dados.
Nesse trabalho será proposto a utilização de seis canais em todas as situações.
Na literatura existem trabalhos que otimizam a escolha do canal de acordo com cada
caso, . Porém, neste trabalho iremos escolher seis canais distintos (F3-CE, C3-P3, P3-O1,
F4-C4, C4-P4 e P4-O2). A escolha dos melhores canais será um dos temas propostos nas
discussões sobre trabalho futuros.
A estimação da PSD utilizando o periodograma de Welch, visto na seção 3.2,
foi implementada seguindo os seguintes passos:
1. faz a varredura em um intervalo de tempo t e guarda as amplitudes dos seis canais
selecionados, onde cada canal terá t vezes 256 amostras;
2. aplica-se o periodograma de Welch em todos os n canais, a função irá retornar a
densidade espectral de potencia (PSD) estimada e a frequência;
3. o próximo passo é transforma a PSD estimada, cuja unidade é V 2 /Hz, para uma
escala mais apropriada. Comumente se utiliza uma escala logarı́tmica, ou seja
P SD(dB) = 10 ∗ log10 (P SD);
4. em seguida é efetuado o cálculo da PSD média para as bandas ou ritmos de frequências,
citados na seção 2.3. Para cada uma das cinco principais bandas de frequência (alpha
(α), theta (θ), beta (β), delta (δ) e gama (γ)) calcula-se a média da densidade es-
pectral de potência estimada, e;
5. após o término do item 4 temos cada canal com as médias dos cinco ritmos cerebrais.
Por fim, é calculada um média para cada faixa de frequência nos cindo canais.
Portanto o vetor de caraterı́sticas extraı́do por esse método é a densidade
espectral de potência estimada média em cada ritmo cerebral em todos os canais utilizados.
Sendo assim pode-se representar o vetor de caracterı́stica como:
xu (t) = {δm (t), θm (t), αm (t), βm (t), γm (t)} (59)

54
Figura 22 – Processo de extração de parâmetros utilizando o

método Welch.
onde t é o intervalo de tempo referente a leitura a cada dois segundos.

Como apresentado anteriormente o periodograma de Welch é um tipo de peri-
odograma modificado. Para esta aplicação será utilizada a janela gaussiana de tamanho
128, conforme apresentada no Gráfico 5. De forma a apresentar as diferenças da estimação
da PSD causada pelo tamanho e o tipo de janela a ser utilizado serão apresentados a se-
guir alguns exemplos onde será realizado o cálculo da PSD estimada em três canais de
um sinal do EEG no intervalo de dois segundos.
Gráfico 5 – Janela gaussiana(128).
No Gráfico 7 é apresentado um exemplo do uso da janela gaussiana(128) que

será utilizada no trabalho. Outra alternativa comumente usada é a janela de Black Ma-
nharris(128), apresentada no Gráfico 6. O exemplo da utilização da janela de Black
55
Manharris é apresentado a seguir no Gráfico 8. Comparando o uso das duas janelas para
esse conjunto de dados é possı́vel observar que as duas apresentam uma PSD aproximada,
porém a janela de Black Manharris (128) apresenta as curvas levemente mais suaves em
relação a janela gaussiana (128).
Gráfico 6 – Janela Black Manharris(128).
Gráfico 7 – PSD estimada utilizando janela

gaussiana(128).
Outro parâmetro da janela utilizada no periodograma de Welch que modifica

a estimação da PSD é o tamanho da janela. Quanto menor o tamanho da janela utilizada
maior será a suavização da curva do PSD. A escolha da janela e de seu tamanho é de
fundamental importância para essa etapa da extração de features, pois utilizar uma janela
56
Gráfico 8 – PSD estimada utilizando janela Black

Manharris(128).
cuja saı́da da estimação da PSD seja suavizada pode acarretar em perda de informações
essenciais para os procedimentos posteriores. Os mesmos dados foram submetidos às
mesmas janelas utilizada anteriormente porém com um tamanho de 64, os gráficos 9
e 10 apresentam a PSD para as janelas gaussiana(64) e Black Manharris(64). Sendo
assim, observa-se claramente a diferença entre os resultados apresentados para as situações
propostas nos exemplos quando se considera o tamanho da janela utilizada.
Gráfico 9 – PSD estimada utilizando janela

gaussiana(64) .
Os dados apresentados nos exemplos são referentes ao EEG do paciente 1

57
Gráfico 10 – PSD estimada utilizando janela Black

Manharris(64).
no intervalo de 10 a 12 segundos iniciais do arquivo chb01 03.edf. Nesse intervalo não

há a ocorrência de evento de crise epiléptica no paciente. Quando se observa o mesmo
processo anterior em um intervalo onde há a ocorrência de uma crise epiléptica convulsiva,
no Gráfico 7, é possı́vel verificar visualmente que o comportamento da PSD estimada no
Gráfico 11 em relação ao Gráfico 7 é bem distinta. Essa foi a motivação do uso deste
método de extração de atributos para esses dados.
Gráfico 11 – PSD estimada em um intervalo de crise

epiléptica.
O vetor de atributos calculado para o intervalo de dados apresentado no exem-

58
plo do Gráfico 7, onde não há evento de crise epiléptica convulsiva, em comparação com
o calculado para um intervalo onde ocorre uma crise, são apresentados na Tabela 3. Fica
claro e evidente que há uma aumento da energia espectral dissipada em um evento de
crise epiléptica quando se observa a média dos ritmos cerebrais nos três canais analisados.
Tabela 3: Vetor de caracterı́sticas para os intervalos.

- 10 ≤ t ≤ 12 3002 ≤ t ≤ 3004
delta 22.25 32.01
theta 15.49 24.34
alpha 13.62 13.56
beta 1.88 5.33
gamma -17.15 -4.34
Como apresentado anteriormente o outro método proposto neste trabalho é

a estimação dos parâmetros de um modelo AR(p), apresentado na seção 3.3, através de
equação de Yule-Walter. Nesse método, o objetivo é estimar os coeficientes e a ordem que
mais se adequará ao modelo do EEG.
Uma forma de estimar qual a ordem do modelo que mais se encaixa aos dados
da série temporal é a utilização da função de autocorrelação parcial (FACP). Sabe-se que
o sinal do EEG é não-estacionário observando a sua função de autocorrelação, apresentada
no Gráfico 12, temos a função de autocorrelação da amostra de 10 segundos do canal 1
do EEG referente ao arquivo chb01 03.edf. Observar-se que o sinal do EEG apresenta um
sinal com forte memória e sua função de autocorrelação apresenta um comportamento
oscilatório. A identificação de uma situação desta natureza pode sugerir a necessidade de
filtrar esta componente, procurando subtrair à série um termo sinusoidal, por exemplo.
Gráfico 12 – Função de autocorrelação de 10 segundos

de EEG.

59
Gráfico 13 – Função de autocorrelação parcial do EEG.
A utilização da ferramenta da FACP auxilia na escolha da ordem de um modelo

AR(p), porém devido à natureza caótica do sinal do EEG a sua FACP, apresentada no
Gráfico 13, destaca a possibilidade de diversas ordens. Esse gráfico foi gerado para um
intervalo de 2 segundos com um lag de 50 amostras.
Observando-se o gráfico da FACP nota-se que as ordens que se destacam são :
1, 2, 4, 5, 17, 19, 21, 27 e 50. A utilização de modelos AR(p) com ordem muito grande irá
aproximar o modelo de forma a ficar muito próximo aos sinais reais, porém a utilização
de muitos parâmetros aumenta o vetor de caracterı́sticas consideravelmente. Utilizando
o princı́pio da parcimônia ou navalha de Occan iremos adotar nesse trabalho os modelos
de ordem mais simples, sendo assim será utilizado a estimação de parâmetros para os
modelos de ordem 2 e 4.
A extração de atributos utilizando o método de estimação dos coeficientes de
um processo AR(p) através da equação de Yule-Walker irá seguir os seguintes procedi-
mentos apresentados na Figura 23. Os procedimentos são:
1. faz a varredura em um intervalo de tempo t e guarda as amplitudes dos seis canais
selecionados, onde cada canal terá t vezes 256 amostras;
2. é escolhida a ordem do modelo p;
3. após definir a ordem do modelo é aplicada a equação de Yule-Walker para a estimar
os coeficientes em cada canal;
4. cada canal irá retornar p coeficientes, e;
5. por fim organizar todos os coeficientes (p x número de canais) em um vetor.
Para um modelo de ordem 2, utilizando os mesmos seis canais do método
60
Figura 23 – Processo estimação dos parâmetros de um modelo

AR(p).
anterior será formado por um vetor de 12 caracterı́sticas representado por:
xu (t) = {φ11 (t), φ12 (t), φ21 (t), φ22 (t), ..., φpc (t)}, (60)
em que p é a ordem do modelo escolhido e c é o número de canais.

De posse dos métodos de extração de caracterı́sticas do sinal do EEG extraı́dos
pelos dois métodos apresentados anteriormente, o próximo passo é rotular cada intervalo
de dados em duas classes: normal e crises epiléptica convulsiva.
Foi verificado que os mesmos apresentam uma quantidade muito maior de
intervalos referentes a perı́odos de atividade normal do que em eventos de crises epitética
convulsivas. Sendo assim, analisando a catalogação dos dados para o paciente 1 por
exemplo, seis horas e 38 minutos de dados dos quais apenas 446 segundos (certa de 7
minutos) são registrados em eventos de crise epiléptica convulsiva. Ou seja, apenas 1,8%
dos dados para esse paciente são referentes a eventos com crise epiléptica.
Dessa forma foi realizada a seguinte estratégia para a escolha dos dados que
serão utilizados nos classificadores em dois tipos: treinamento e teste. A estratégia ado-
tada será:
1. para cada paciente analisado, verificar qual o arquivo de gravação que apresenta o
maior intervalo de tempo com indicação de crise epiléptica convulsiva;
2. aplicar a extração de atributos com os dois métodos para o outros arquivos de todos
os intervalos que apresentaram um evento de crise, e juntar todos em um único
arquivo, e;
3. aplicar a extração de atributos com os dois métodos para todo o arquivo selecionado
no passo 1.
No fim do processo serão obtidos para cada paciente, 2 arquivos para cada
61
método de extração que serão utilizados nos classificadores. Em que um arquivo conterá
o vetor de caracterı́sticas para cada intervalo de todos os eventos que apresentaram uma
crise epiléptica e o segundo arquivo conterá os vetores de caracterı́sticas para todo o
arquivo de gravação como o maior intervalo de dados de crise epilépticas. Tomando como
referência o exemplo do paciente 1, o arquivo como o maior tempo registrado de crises é
o ch01 26.edf.
Após a extração dos vetor de atributos do paciente 1 através no método de
Welch, observou-se que será necessário realizar um balanceamento do dados de entrada,
pois para o paciente 1 o arquivo de teste contem 1162 intervalos, do quais 50 apresentam
crises, e o arquivo que apresenta todas as demais crises epilépticas convulsivas desse
paciente contém 169 intervalos. Sendo assim, apenas cerca de 15% dos intervalos são da
classe que apresenta algum tipo de crise. Portando optou-se por utilizar um proporção
entre no mı́nimo 1/4 e no máximo 1/2 dos dados.
As funções desenvolvidas para a extração de atributos são apresentadas no
Apêndice A.
5.3 Implementação dos Classificadores
No capı́tulo 4 foram apresentados duas arquiteturas de redes neurais utilizadas

como classificadores: a ELM e a MLP. Nesta seção será destacado como os classificadores
serão implementados e apresentados os cenários propostos para analisar a utilização dos
métodos de extração. Sabe-se que as redes neurais atuam como classificadores através de
soluções não-lineares. Uma boa prática adotada para o uso de classificação de padrões é
utilizar a princı́pio um modelo linear e posteriormente o uso de ferramentas não lineares.
Portanto, será implementado uma solução linear utilizando os método dos
mı́nimos quadrados (MMQ), já discutido na seção 4.2. Para um vetor de caracterı́sticas
xu e um vetor de saı́das du , o uso dos métodos dos mı́nimos quadrados pretende encontrar
um relação linear entre a entrada e a saı́da sendo assim:
du (t) = Axu (t), (61)
escrevendo de forma matricial A é determina por:
A = DXT (XXT )−1 , (62)
conforme discutido anteriormente, esse método é implementado comumente utilizando a

pseudo-inversa.
Portanto, os passos para a implementação do classificador linear proposta
serão:
1. ler e carregar os arquivos com os dados dos vetores de caracterı́sticas e o dados do
62
arquivo selecionado para teste;

2. embaralhar os dados (teste e treinamento) mantendo os pares inalterados.
3. separar uma porção dos dados para treinamento e teste, variando entre 60% e 80%;
4. determinar A pelo método dos mı́nimos quadrados com os dados de teste;
5. fazer o teste do modelo calculando os diagnósticos preditos com os dados de testes;
6. calcular o número de acertos, os dados estatı́sticos da classificação e obter a matriz
de confusão.
O embaralhamento do dados foi com o intuito de evitar a polarização do trei-
namento da rede decorrente da apresentação de uma grande quantidade de dados similares
em sequência. No Apêndice A (item 3) é apresentado o código que implementa o classifi-
cador dos mı́nimos quadrados.
O próximo classificador a ser implementado é utilizando uma rede neural com a
arquitetura MLP, apresentado na seção 4.3. A arquitetura da MLP que será implementada
será totalmente conectada utilizando método de aprendizado adaptativo LMS. O primeiro
é a escolha do parâmetros da arquitetura que será utilizada. Sendo assim é necessário
definir o número de neurônios da camada oculta(q) e de saı́da (m).
O valor de q é geralmente encontrado por tentativa-e-erro, o valor de m é 1
pois se trata de uma classificação binária, o fator de aprendizagem α = 0, 01 e o fator de
momento η = 0, 5.
Portanto os passos para a implementação do classificador utilizando a arqui-
tetura MLP proposto são:
2. embaralhar os dados de entrada e saı́da mantendo os pares inalterados;
3. definir a arquitetura da rede e define a porcentagem de dados que são utilizados
para teste e treinamento;
4. inicia um loop de rodadas de teste e treinamento;
5. embaralhar novamente os dados de entrada e saı́da mantendo os pares inalterados;
6. separar os dados para teste e treinamento e iniciar as matrizes de peso da camada
oculta e saı́da;
7. após inicialização dos pesos das camada de entrada na etapa de treinamento e depois
do treinamento inicializar a etapa de generalização;
8. finaliza o loop, e;
9. calcular o número de acertos, os dados estatı́sticos da classificação e obter a matriz
de confusão.
A inicialização é aleatória e foi usado um processo pseudo-aleatório de distri-
buição normal de média nula e variância 0,01. Onde é necessário destacar que a etapa de
treinamento apresenta as seguintes etapas:
1. iniciar um loop referente ao número de épocas de aprendizado;
63
2. embaralhar os vetores de treinamento que serão utilizados;

3. fazer a ativação da camada oculta e de saı́da, nessa etapa é definida que a função
não-linear a ser utilizada é a função logı́stica;
4. após a cálculo das saı́das preditas é possı́vel efetuar o cálculo do erro;
5. fazer o cálculo dos gradientes locais para a camada de saı́da e oculta e realizar o
ajuste dos pesos das matrizes na camada de saı́da e oculta;
6. finalizar o loop referente ao número de épocas, e;
7. calcular a média do erro quadrático por época;
Por fim, na etapa de generalização é efetuada a ativação da camada oculta e de
saı́da, calculado o erro entre a saı́da desejada e a saı́da da rede, calculados os gradientes
locais para as camadas de saı́da e oculta. Após realizadas essas etapas, calcula-se o erro
quadrático geral. Finalizada a etapa de generalização calcula-se os dados estatı́sticos
refentes aos resultados. No infográfico da Figura 24, apresenta-se um resumo dos passos
para a implementação desse classificador.
Figura 24 – Etapas de implementação da Rede Neural MLP.
A implementação do classificador baseado em rede neurais com arquitetura

MLP é apresentado no Apêndice A (item 4), onde os passos a apresentados acima são
implementados em funções para facilitar o reuso de código.
Conforme apresentado na seção 4.4, a arquitetura ELM apresenta três etapas
para sua implementação: a inicialização aleatória dos pesos sinápticos dos neurônios da
camada oculta e de saı́da, em seguida o acúmulo das saı́das dos neurônios ocultos e finaliza
com o ajuste dos pesos sinápticos dos neurônios de saı́das.
As etapas de implementação do classificador utilizando a arquitetura ELM
apresenta algumas similaridades com a arquitetura MLP. Sendo assim os passos para a
64
implementação da arquitetura ELM são:

2. embaralhar os dados de entrada e saı́da mantendo os pares inalterados;
3. definir a arquitetura da rede e definir a porcentagem de dados que são utilizados
para teste e treinamento;
4. escolher de forma aleatória dos pesos e limiares dos neurônios intermediários;
5. fazer a ativação dos neurônios da camada intermediara e aplicar a função não-linear;
6. estimar os parâmetros do classificador (pesos e limiares) pelo método dos mı́nimos
quadrados (classificador sem camada oculta);
7. determinar as predições da classes dos vetores de teste;
8. determinar as taxas de acerto/erro e dados estatı́stico da rede;
A implementação em código do classificar utilizando a arquitetura da rede
ELM é apresentado no Apêndice A (item 5). No infográfico da Figura 25, apresenta-se
um resumo dos passos para a implementação da Rede ELM.
Figura 25 – Etapas de implementação da Rede Neural ELM.
De forma a realizar um comparação entre os classificadores implementados

serão calculados alguns resultados estatı́sticos do classificador para realizar um teste de
desempenho entre eles. Através da matriz de confusão pode-se dividir os resultados das
predições em 4 tipos:
1. Verdadeiro Positivo (VP ): número de predições verdadeiro positivas;
2. Verdadeiro Negativo (VN ): número de predições verdadeiras negativas;
3. Falso Positivo (FP ): número predições falso positivos, e;
4. Falso Negativo (FN ): número de diagnósticos falso negativo.
De posse das informações obtidas na matriz de confusão, podem ser calculados
os seguintes dados estatı́sticos:
65
• acurácia (AC) ou precisão: a proporção de predições corretas, sem levar em con-

sideração o que é positivo e o que é negativo. Esta medida é altamente suscetı́vel a
desbalanceamentos do conjunto de dados e pode facilmente induzir a uma conclusão
errada sobre o desempenho do sistema:
(VP + VN )
AC = (63)
T OT AL
• sensibilidade (SB): a proporção de verdadeiros positivos, ou seja, a capacidade

do sistema em predizer corretamente a condição para casos que realmente a têm;
VP
SB = (64)
(VP + FN )
• especificidade (EP ): A proporção de verdadeiros negativos, ou seja, a capaci-

dade do sistema em predizer corretamente a ausência da condição para casos que
realmente não a têm.
VN
EP = (65)
(VN + FP )
• eficiência (EF): A média aritmética da Sensibilidade e Especificidade. Na prática,
a sensibilidade e a especificidade variam em direções opostas. Isto é, geralmente,
quando um método é muito sensı́vel a positivos, tende a gerar muitos falso-positivos,
e vice-versa. Assim, um método de decisão perfeito (100% de sensibilidade e 100%
especificidade) raramente é alcançado, e um balanço entre ambos deve ser atingido.
SB + EP
EF = (66)
2
• valor preditivo positivo ou negativo: o valor preditivo positivo (VPP) é a

proporção de verdadeiros positivos em relação a todas as predições positivas, já o
valor preditivo negativo a proporção de verdadeiros negativos em relação a todas as
predições negativas. Estas medidas são altamente suscetı́veis a desbalanceamentos
do conjunto de dados e pode facilmente induzir a uma conclusão errada sobre o
desempenho do sistema.
VP
V PP = (67)
(VP + FP )
VN
V PN = (68)
(VN + FN )
• coeficiente de correlação de Matthews (φ): é uma medida de qualidade de duas
classificações binárias que pode ser usada mesmo se as classes possuem tamanhos
bastante diferentes. Retorna um valor entre (-1) e (+1), em que um coeficiente de
(+1) representa uma predição perfeita, (0) representa uma predição aleatória media,
e (-1) uma predição inversa. Esta estatı́stica é equivalente ao coeficiente φ, e tenta,
66
assim como a eficiência, resumir a qualidade da tabela de contingência em um único

valor numérico passı́vel de ser comparado.
(VP ∗ VN − FP ∗ FN )
φ= p (69)
(VP + FP ) ∗ (VP + FN ) ∗ (VN + FP ) ∗ (VN + FN )
Este capı́tulo apresentou como foram implementadas as técnicas de extração de

atributos utilizadas nesse trabalho. A princı́pio foram apresentadas as metodologia para
o uso de cada método e as etapas de desenvolvimento. No caso do periodograma de Welch
foi apresentada como será formado o vetor de atributos e foi verificado o comportamento
do periodograma para alguns intervalos de forma a apresentar a motivação do uso deste
método.
Em seguida foi apresentada a implementação do método de estimação dos
parâmetros de um modelo AR(p), nesse momento foi destacado através da função de
autocorrelaçao e da função de autocorrelaçao parcial o comportamento do sinal do EEG.
Foi apresentado a metodologia que será utilizada e os passos para sua implementação.
Por fim foi apresentado o vetor de caracterı́sticas utilizado.
Em seguida destacou-se como serão separados os dados para teste e para trei-
namento visto que há uma maioria que se absoluta de dados no perı́odo onde não ocorre
nenhum evento de crise.
O capı́tulo também apresentou a implementação de três classificadores, sendo
um linear utilizando o método dos mı́nimos quadrados e dois já discutidos anteriormente
utilizando redes neurais. Para cada um dos classificadores foram destacados os principais
passos de implementação.
Por fim foi apresentado os parâmetros do teste de desempenho que será utili-
zado para a comparação dos resultado adquiridos nos classificadores e cenários que serão
apresentados no capı́tulo seguinte.
67
6 RESULTADOS OBTIDOS
Nesse capı́tulo, serão apresentados os resultados obtidos para diversos cenários

propostos, com o objetivo de avaliar os classificadores utilizados e oS métodos de extração
de caracterı́sticas propostos para três pacientes do banco de dados citado. Os pacientes
escolhidos para análise foram 1, 5 e 8, e o catalogo dos dados de cada paciente se encontra
no Anexo A. Na literatura destacam-se trabalho como o de SUBASI e ERCEBELI (2005)
obtiveram taxas de acerto em torno de 89,3 à 93% em três tipos de classificadores. No
trabalho CHAN et al. (2008) apresentou uma sensibilidade na classificação em torno de
84,89 à 94% utilizando a extração de atributos através da FFT e o classificador do tipo
SVM. Portanto, os resultados considerados satisfatórios deverão apresentar desempenho
igual ou superior a estes citados.
Com o uso de dois métodos de extração e três classificadores formam-se então
um total de seis cenários de comparação, apresentados na Tabela 4.
Tabela 4: Cenários propostos.

- MMQ MLP ELM
Welch Cenário A Cenário C Cenário E
AR(p) Cenário B Cenário D Cenário F
Iniciando pelo Cenário A, onde será implementado o método de extração

de atributos através do periodograma de Welch e o uso do classificador linear através
do método dos mı́nimos quadrados. Utilizou-se um conjunto de dados no qual 36% dos
intervalos são rotulados com crise epiléptica convulsiva. Do total de dados, 70% serão
utilizados para o treinamento e 30% para testes.
Foram realizadas cem rodadas no qual em toda a rodada os dados eram em-
baralhados mantendo a paridade com a saı́da. Para cada rodada se calculou a taxa de
acerto. No final das cem rodadas obteve-se em relação a taxa de acetos: média, máximo,
mı́nimo, mediana e seu desvio padrão. Na Tabela 5 este resultados são apresentados para
cada paciente:
Tabela 5: Dados estatı́sticos referentes à taxa de acertos - Cenário A.

- Média Máxima Mı́nima Mediana Desvio Padrão
Paciente 1 94.06 98.24 89.47 94.15 1.66
Paciente 5 95.38 98.38 90.32 95.69 1.46
Paciente 8 72.46 80.00 65.71 72.38 2.96
A Tabela 6 apresenta as matrizes de confusão para o melhor caso para os

pacientes 1, 5 e 8 respectivamente. Através da matriz de confusão é possı́vel efetuar o
cálculo dos dados referente ao teste de desempenho do classificador proposto. A Tabela
7 apresenta todos os dados referentes à média, melhor e pior caso de cada paciente.
68
Tabela 6: Matrizes de Confusão para os melhores resultados do Cenário A.

Paciente 1 Paciente 5 Paciente 8
VN FN VN FN VN FN
107 3 105 3 52 27
0 61 0 78 15 116
FP VP FP VP FP VP
Tabela 7: Resultados do teste de desempenho para o cenário A.

-
Melhor Pior Média Melhor Pior Média Melhor Pior Média
AC 98.24 89.47 94.04 98.38 90.32 95.67 80.00 65.71 72.46
SB 95.31 82.6 87.97 96.29 87.2 93.38 88.11 81.45 81.11
EP 100.00 94.11 97.83 100.00 93 97.62 77.66 43.03 58.92
EF 97.65 88.36 92.9 98.14 90.1 95.5 79.36 62.23 70.02
VPP 100.00 90.47 96.21 100 91.46 97.01 88.54 67.33 75.99
VPN 97.27 88.88 92.87 97.22 89.42 97.6 65.85 61.66 66.11
φ 0.96 0.78 0.87 0.96 0.8 0.91 0.56 0.26 0.41
Nos resultados é possı́vel observar um queda de desempenho do classificador

para o paciente 8.É válido salientar que este paciente apresenta as crises com maior
intervalo de tempo. É importante observar o comportamento dos próximos classificadores
para este paciente.
O Cenário B representa a implementação do método dos mı́nimos quadrados
utilizando a estimação dos parâmetros do modelo AR(p) como vetor de atributos. Foi
destacado na seção referente ao método de extração proposto que as ordens utilizadas
seriam 2 e 4. Sendo assim, para cada paciente, foi realizado o processo de extração duas
vezes e aplicado o classificador proposto nesse e nos outros cenários a seguir. O objetivo da
comparação de duas ordens é verificar se o modelo de menor ordem é capaz de representar
as caracterı́sticas referentes à estados normais e de eventos de crises epilépticas.
Tabela 8: Dados estatı́sticos percentuais referentes à taxa de acertos - Cenário B.

- Ordem Média Máxima Mı́nima Mediana Desvio Padrão
p=2 90.80 95.90 84.79 91.22 2.07
Paciente 1
p=4 95.49 100.00 91.22 95.32 1.50
p=2 88.13 94.08 82.79 88.17 2.14
Paciente 5
p=4 97.60 100.00 95.16 97.84 0.99
p=2 92.22 97.26 87.21 92.23 1.74
Paciente 8
p=4 95.05 98.17 91.32 94.97 1.19
Para cada situação, foram geradas as matrizes de confusão para os melhores

casos de cada paciente. Através das matrizes de confusão foi possı́vel calcular os dados do
teste de desempenho para o Cenário B, utilizando a ordem do modelo AR(2) e AR(4). As
matrizes de confusão dos melhores resultados são apresentados para os modelos AR(2) e
AR(4) nas Tabela 9 e Tabela 10 respectivamente.
69
Tabela 9: Matrizes de Confusão para os melhores resultados do Cenário, AR(2).

Paciente 1 Paicente 5 Paciente 8
VN FN VN FN VN FN
105 1 129 8 97 1
6 59 0 7 5 116
FP VP FP VP FP VP
Tabela 10: Matrizes de Confusão para os melhores resultados do Cenário B, AR(4).

VN FN VN FN VN FN
111 0 125 0 108 2
0 60 0 61 2 107
FP VP FP VP FP VP
Finalizado os resultados do Cenário B, serão apresentadas as tabelas referentes

aos dados do teste de desempenho proposto. O resultado da Tabela 11 refere-se a ordem
do modelo AR(2) e a Tabela 12 do AR(4).
Observando as tabelas 8, 11 e 12 nota-se que o uso de do modelo AR(4) apre-
sentou melhores resultados em todos os testes em relação ao AR(2), e que o baixo ı́ndice
de acertos encontrado no paciente 8 no cenário anterior não se repetiu nesse cenário.
Uma hipótese com relação a essa diferença de desempenho entre os dois métodos de ex-
tração no mesmo classificador é o comportamento da espalhamento espectral de potência
na ocorrência de um evento de longa duração possa ser melhor interpretado através do
modelo AR(4) do que o periodograma de Welch.
Tabela 11: Resultados do teste de desempenho para o cenário B, AR(2).

-
AC 95.90 84.79 90.8 94.08 82.79 88.13 97.26 87.21 92.22
SB 98.33 73.84 85.45 86.56 66.25 74.85 99.14 92.97 96.05
EP 94.59 91.5 94.11 98.31 95.28 95.41 95.09 81.13 87.96
EF 96.46 82.67 89.78 92.44 81.96 85.13 97.12 87.02 92.01
VPP 90.76 84.21 89.98 96.66 91.37 89.9 95.86 84 90.03
VPN 99.05 85.08 91.3 92.85 78.9 87.45 98.97 91.48 95.07
φ 0.91 0.67 0.8 0.87 0.65 0.73 0.94 0.74 0.84
O Cenário C apresenta a implementação do classificador utilizando a rede

neural com arquitetura MLP. Para essa implementação foi proposta uma arquitetura com
um neurônio de saı́da e o número de neurônios da camada oculta foi determinado variando
o número de neurônios de 2 à 200 e verificando em qual intervalo a taxa média de acerto
obteve um resultado desejado. Observou-se que a média de acertos estabilizou-se em
torno de 98% quando se utilizou entre 45 e 55 neurônios. Sendo assim, serão adotados 50
neurônios na camada oculta.
70
Tabela 12: Resultados do teste de desempenho para o cenário B, AR(4).

-
AC 100.00 91.22 95.49 100.00 95.16 97.6 98.17 91.32 95.05
SB 100 94.28 94.02 100 92.95 95.94 98.16 89.07 94.92
EP 100 89.1 96.02 100 96.52 98.5 98.18 94 95.25
EF 100 91.69 95.21 100 94.73 97.22 98.17 91.53 95.08
VPP 100 85.71 94.33 100 94.28 97.16 98.16 94.64 95.79
VPN 100 95.74 96.25 100 95.68 97.83 98.18 87.85 94.21
φ 1 0.82 0.9 1 0.89 0.94 0.96 0.82 0.9
Foram utilizadas 200 épocas de treinamento para um total de 100 rodadas,

com uma separação de 70% de dados para treinamento. Os passos de aprendizagem e de
momento igual a 0,01 e 0,5 respectivamente. Para a arquitetura MLP proposta a curva
de aprendizado para uma rodada apresentou a seguinte forma apresentada no Gráfico 14.
Gráfico 14 – Curva de aprendizado da rede MLP,

cenário B.
Utilizando os dados extraı́dos a partir do método usando o periodograma de

Welch foram obtidos os seguintes resultados em relação a taxa de acerto, apresentado na
Tabela 13:
Tabela 13: Dados estatı́sticos percentuais referentes à taxa de acertos - Cenário C.

Paciente 1 96.83 98.83 93.56 97.07 1.08
Paciente 5 98.47 100.00 96.23 98.38 0.81
Paciente 8 80.14 87.14 72.38 80.47 2.73
É importante verificar que os da mesma forma que verificado no Cenário A,

a taxa de acertos para o paciente 8 são baixas me relação os outros pacientes. Para os
demais pacientes verificou-se uma melhora significativa na média de acertos em relação
71
aos métodos propostos anteriormente.

Em seguida serão apresentadas as matrizes de confusão para os melhores
cenários de cada paciente. As matrizes de confusão são apresentadas na Tabela 14. De
posse dos resultados obtidos para o Cenário C é possı́vel avaliar seu desempenho através
do teste de desempenho e seus parâmetros, apresentado na Tabela 15.
Tabela 14: Matrizes de Confusão para os melhores resultados do Cenário C.

VN FN VN FN VN FN
102 2 106 0 66 11
0 67 0 80 16 117
FP VP FP VP FP VP
Tabela 15: Resultados do teste de desempenho para o cenário C.

-
AC 98.83 93.56 96.83 100.00 96.23 98.47 87.14 72.38 80.14
SB 97.10 90.00 93.92 100.00 96.38 97.24 91.40 78.86 82.23
EP 100.00 96.03 98.70 100.00 96.11 99.47 80.48 63.21 76.88
EF 98.55 93.01 96.31 100.00 96.25 98.35 85.94 71.04 79.55
VPP 98.63 94.02 97.91 100.00 95.23 99.34 97.98 75.19 85.05
VPN 96.93 93.26 96.18 100.00 97.05 97.81 85.71 67.90 73.12
φ 0.93 0.86 0.93 1.00 0.92 0.97 0.72 0.42 0.58
O Cenário D apresenta os resultados referente ao uso da arquitetura MLP

com o uso de vetores de caracterı́sticas extraı́dos pelo método de estimação de parâmetros
do modelo AR(p). Da mesma forma que apresentado no Cenário B serão realizados teste
para o modelo A(2) e AR(4).
A Tabela 16 apresenta os dados estatı́sticos em relação à taxa de acertos,
novamente observa-se nesse cenário que o uso do modelo AR(4) obteve um resultado
melhor que o AR(2). A média para os pacientes 1 e 5 apresentaram resultados parecidos
em relação a taxa de acertos. Novamente foi observado uma queda na taxa de acerto do
paciente 8, fortalecendo o que já foi discutido anteriormente.
Tabela 16: Dados estatı́sticos referentes à taxa de acertos - Cenário D.

p=2 91.62 93.65 89.92 91.41 1.02
Paciente 1
p=4 95.90 98.13 93.65 95.89 0.97
p=2 87.40 92.34 83.06 87.50 1.78
Paciente 5
p=4 95.27 97.58 93.15 95.16 1.15
p=2 72.69 77.29 65.21 72.94 2.93
Paciente 8
p=4 74.64 81.64 66.18 74.15 2.99
72
Conforma feito em B, no Cenário D foram geradas as matrizes de confusão para

os melhores casos de cada paciente. As matrizes de confusão para o cenário D utilizando
o estimação dos parâmetros do AR(2) são apresentadas na Tabela 17 e do modelo AR(4)
são apresentadas na Tabela 18.
Tabela 17: Matrizes de Confusão para os melhores resultados do Cenário D, AR(2).

VN FN VN FN VN FN
181 13 128 8 77 27
4 70 11 101 20 83
FP VP FP VP FP VP
Tabela 18: Matrizes de Confusão para os melhores resultados do Cenário D, AR(4).

VN FN VN FN VN FN
171 4 136 5 74 18
1 92 1 106 20 95
FP VP FP VP FP VP
Tabela 19: Resultados do teste de desempenho para o cenário D, AR(2).

-
AC 93.65 89.92 91.63 92.34 83.06 90.71 77.29 65.21 72.70
SB 84.33 87.80 84.39 92.66 78.30 83.55 75.45 60.62 77.00
EP 97.83 90.86 95.13 92.09 86.61 94.17 79.38 72.50 67.20
EF 91.08 89.33 89.76 92.37 82.46 88.86 77.41 66.56 72.10
VPP 94.59 80.89 89.42 90.18 81.37 88.52 80.58 77.7 75.19
VPN 93.30 94.41 92.66 94.12 84.24 91.73 70.03 53.70 70.41
φ 0.85 0.77 0.81 0.84 0.65 0.80 0.54 0.32 0.45
Tabela 20: Resultados do teste de desempenho para o cenário D, AR(4).

-
AC 98.13 93.66 95.90 97.58 93.15 95.27 81.64 66.18 74.64
SB 91.00 90.10 93.47 95.50 90.27 92.73 84.07 80.00 79.03
EP 98.42 95.80 97.13 99.27 95.56 97.44 78.72 50.52 69.44
EF 97.63 92.95 95.30 97.38 95.91 95.09 81.40 62.26 74.24
VPP 98.92 92.85 94.12 99.06 94.44 96.82 82.60 64.70 73.76
VPN 97.71 94.12 96.76 96.45 92.14 94.07 80.43 69.01 72.69
φ 0.96 0.86 0.91 0.95 0.86 0.90 0.63 0.32 0.49
As tabelas 19 e 20 apresentam os resultados de desempenho do classificador

para os três paciente, novamente observou-se que para os pacientes 1 e 5 o classificador se
73
comportou melhor com o uso dos dados do modelo AR(4), porém os resultados ficaram
abaixo do realizado no cenário C. De forma similar ao cenário C ocorreu uma grande
redução de desempenho de classificação para o paciente 8.
O Cenário E apresenta a implementação do classificador utilizando uma rede
neural do tipo ELM e a extração de atributos através do método do periodograma de
Welch. Os parâmetros da arquitetura implementada utilizou 80 neurônios na camada
oculta, a matriz de pesos (definida aleatoriamente) foi multiplicada por um constante
pequena (β = 0, 05). A escolha do número de neurônios foi por tentativa e erro, variando
o número de neurônios entre 2 e 200, sendo escolhido o que manteve a melhor taxa de
acerto em uma faixa de neurônios com taxas parecidas.
A taxas de acertos para os três pacientes são apresentadas na Tabela 21 a
seguir.
Tabela 21: Dados estatı́sticos referentes à taxa de acertos - Cenário E.

Paciente 1 96.76 99.00 93.06 97.03 1.15
Paciente 5 98.49 100.00 95.69 98.38 0.78
Paciente 8 82.87 89.52 77.61 82.85 2.26
Novamente observa-se que os resultados para o paciente 8 se apresentaram

inferiores aos resultados dos outros paciente. Para o paciente 1 e 5 os resultados obtidos
forma parecidos com os adquiridos no Cenário C e um pouco mais satisfatórios que os do
Cenário D. Na Tabela 22 são apresentas as matrizes de confusão.
Tabela 22: Matrizes de Confusão para os melhores resultados do Cenário E.

VN FN VN FN VN FN
138 2 100 0 65 9
0 62 1 76 13 123
FP VP FP VP FP VP
De posse dos dados gerados em cada rodada, é possı́vel calcular os dados

para o teste de desempenho, apresentado na Tabela 23. Para esse cenário observa-se um
excelente comportamento do classificador para os paciente 1 e 5 acima dos apresentados
anteriormente. porém para o paciente 8 o teste de desempenho seguiu a tendencia do
demais exceto do Cenário B.
Por fim são apresentados os dados do Cenário F, neste cenário serão apre-
sentados dos dados da classificação utilizando o mesmo classificador anterior (ELM) com
o método de extração de atributos baseado na estimação de parâmetros de um modelo
AR(p) através da equação de Yule-Walker. Novamente neste cenário serão apresentados
resultados para os três pacientes (1, 5 e 8) utilizando a ordem do modelo 2 e 4.
74
Tabela 23: Resultados do teste de desempenho para o cenário E.

-
AC 99.00 93.06 96.76 100.00 95.69 98.48 89.52 77.61 82.87
SB 96.87 84.93 93.71 100.00 94.82 97.31 93.18 86.40 85.60
EP 100.00 97.67 98.32 100.00 96.09 99.13 83.33 64.70 78.55
EF 98.43 91.30 96.02 100.00 95.46 98.22 88.26 75.55 82.07
VPP 100.00 95.38 96.62 100.00 91.66 98.38 90.44 78.26 86.66
VPN 98.57 91.97 96.83 100.00 97.61 98.56 87.83 76.39 77.06
φ 0.98 0.85 0.93 1.00 0.90 0.97 0.77 0.53 0.64
Os resultados estatı́sticos da taxa de acerto são apresentados a seguir na Tabela

24. Nesse cenário também se observa-se que os resultado do modelo AR(4) são melhores
que os registrados no modelo AR(2). Para os paciente 1 e 5 o classificador se apresentou
uma boa desempenho, porém assim como os outros cenários observa-se que os resultados
para o paciente 8 estão abaixo dos observados para os outros pacientes.
Tabela 24: Dados estatı́sticos referentes à taxa de acertos - Cenário F.

p=2 93.29 97.03 89.60 93.56 1.56
Paciente 1
p=4 96.65 99.50 93.56 96.53 1.19
p=2 91.59 96.24 87.10 91.39 1.76
Paciente 5
p=4 97.74 100.00 94.08 97.84 0.95
p=2 74.38 81.28 69.49 74.42 2.46
Paciente 8
p=4 76.89 84.01 71.23 77.16 2.55
Conforme realizados nos outros cenários, serão apresentadas as matrizes de

confusão para os melhores casos de cada paciente e qual a ordem do modelo foi utili-
zada. As matrizes com confusão com os melhores resultados aplicados ao modelo AR(2)
e AR(4) são apresentadas nas tabelas 25 e 25. Com os dados de todos os testes realizados
para o Cenário F, foi possı́vel calcular os parâmetros do teste de desempenho adotado,
sendo assim as tabelas 27 e 28 apresentam os resultados para o modelo AR(2) e AR(4)
respectivamente.
Tabela 25: Matrizes de Confusão para os melhores resultados do Cenário F, AR(2).

VN FN VN FN VN FN
132 3 113 5 54 16
3 64 2 66 25 124
FP VP FP VP FP VP
De posse de todos os resultados dos seis cenários propostos é necessário efetuar

um algum método de comparação. Para cada cenário foram calculados o ı́ndice de acertos e
suas estatı́sticas (média, máximo, mı́nima, média e desvio padrão) e também foi realizado
75
Tabela 26: Matrizes de Confusão para os melhores resultados do Cenário F, AR(4).

VN FN VN FN VN FN
140 1 122 0 67 19
0 61 0 64 16 117
FP VP FP VP FP VP
Tabela 27: Resultados do teste de desempenho para o cenário F, AR(2).

-
AC 97.03 89.60 93.30 96.24 87.10 91.59 81.28 68.49 74.38
SB 95.55 87.50 88.76 92.95 71.83 83.06 88.57 79.56 83.09
EP 97.78 90.98 95.55 98.26 96.52 96.17 68.35 50.00 59.80
EF 96.65 89.24 92.16 95.60 84.17 89.62 78.46 64.78 71.45
VPP 95.52 86.41 90.75 97.76 92.72 92.20 83.22 73.67 77.83
VPN 97.78 91.73 94.51 95.76 84.73 91.38 77.14 59.42 67.72
φ 0.93 0.78 0.85 0.92 0.72 0.81 0.59 0.30 0.44
Tabela 28: Resultados do teste de desempenho para o cenário F, AR(4).

-
AC 99.50 93.56 96.65 100.00 94.08 97.74 84.01 71.23 76.89
SB 98.38 89.55 93.97 100.00 89.04 95.66 86.02 71.01 80.56
EP 100.00 95.55 97.98 100.00 97.34 98.88 80.72 71.60 70.65
EF 99.19 92.55 95.98 100.00 93.19 97.27 83.37 71.30 75.60
VPP 100.00 90.90 95.87 100.00 95.59 97.93 87.97 80.99 82.70
VPN 99.29 94.85 97.04 100.00 93.22 97.65 77.90 59.18 67.71
φ 0.99 0.85 0.92 1.00 0.88 0.95 0.66 0.41 0.51
o calculo do dados de um teste de desempenho (acurácia, sensibilidade, especificidade,

valor preditivo positivo e negativo, eficiência e coeficiente de Matthews).
Sendo assim para compararmos os seis cenários serão utilizadas os seguintes
parâmetros: acurácia, sensibilidade, especificidade e o coeficiente de Matthews (φ). Para
cada paciente serão agregados os parâmetros em uma tabela.
Para o paciente 1, Tabela 29, os Cenários C e E apresentaram resultados
similares. O uso dos vetores de caracterı́sticas através do método de Welch rendeu os
melhores resultados. Para as duas arquiteturas de redes propostas, com uso do método
de Welch não houve diferença nos resultados. Destaca-se o resultado do classificador
linear, Cenário B, que obteve resultados próximos aos classificadores não lineares com
AR(4). O Cenário D, estimação do parâmetros do modelo AR(4), obteve resultado com
desempenho próximo aos Cenários C e E. Fica evidente que no cenários que utilizaram
o método de estimação de parâmetros para o modelo AR(4) obtiveram resultados mais
expressivos que os do modelo AR(2). As taxas de acerto de cada Cenário para o paciente
1, são apresentadas no Gráfico 15 (tipo Box Plot).
76
Tabela 29: Comparação dos cenários para o paciente 1.

Paciente 1
B D F
Cenários A C E
p=2 p=4 p=2 p=4 p=2 p=4
AC 94.04 90.80 95.49 96.83 91.63 95.90 96.76 93.30 96.65
SB 87.97 85.45 94.02 93.92 84.39 93.47 93.71 88.76 93.97
EP 97.83 94.11 96.02 98.70 95.13 97.13 98.32 95.55 97.98
φ 0.87 0.87 0.90 0.93 0.81 0.91 0.93 0.85 0.92
Gráfico 15 – Box Plot da taxa de acerto dos cenários

para o paciente 1.
Observando os dados para o paciente 5, apresentados na Tabela 30, os classi-

ficadores que obtiveram o melhor desempenho foram dos dos Cenários C e E, obtiveram
desempenho idênticas. O cenário C e E apresentam como entrada de dados os vetores
extraı́dos através do método Welch. Nesse caso as arquiteturas de redes neurais MLP
e ELM apresentaram resultados idênticos. Observa-se também nesses resultados que o
Cenário F com o uso do modelo AR(4) apresentou uma desempenho excelente ao ser
comparada com o paciente 1 por exemplo. O classificador linear obteve um bom resul-
tado quando aplicado no modelo AR(4) no cenário B. Quando se compara os resultados
no Cenário F (ordem 4) com o Cenário D (ordem 4) nota-se uma grande diferença de
desempenho utilizando os mesmo dados. O mesmo não ocorre para a ordem 2, em que
ambos apresentam resultados parecidos e não satisfatórios. As taxas de acerto de cada
Cenário para o paciente 5, são apresentadas no Gráfico 16.
Por fim são apresentados os resultados para o paciente 8, Tabela 31. Para
esse paciente observa-se que somente o classificador linear para o modelo AR(4) obteve
77

Paciente 5
B D F
Cenários A C E
p=2 p=4 p=2 p=4 p=2 p=4
AC 95.67 88.13 97.60 98.48 90.77 95.27 98.48 91.59 97.74
SB 93.38 74.85 95.94 97.24 83.55 92.73 97.31 83.06 95.66
EP 97.62 95.41 98.50 99.47 94.17 97.44 99.13 96.17 98.88
φ 0.91 0.73 0.94 0.97 0.80 0.90 0.97 0.81 0.95

para o paciente 5.
os melhores resultados. Todos os demais apresentaram resultados abaixo do esperado.

Paciente 8
B D F
Cenários A C E
p=2 p=4 p=2 p=4 p=2 p=4
AC 72.46 92.22 95.05 80.14 72.70 74.64 82.87 74.28 76.89
SB 81.11 96.06 94.92 82.23 77.00 79.03 85.60 83.09 80.56
EP 58.92 87.96 95.25 76.88 67.20 69.44 78.55 59.80 70.65
φ 0.41 0.84 0.90 0.58 0.45 0.49 0.64 0.44 0.51
A diferença entre os dados do paciente 8 e os demais é que suas crises epilépticas

são mais extensas. O paciente 1 e 5 apresentam em média de 63,14 a 111,6 segundos de
duração em cada evento de crise, porém o paciente 8 apresenta uma média de 183,8s. Para
esse paciente nenhum dos seis cenários foram satisfatórios quando comparados aos demais
paciente. Esse caso necessita de uma investigação com a utilização de outro método de
78
extração de atributos ou a utilização de outros canais. As taxas de acerto de cada Cenário

para o paciente 8, são apresentadas no Gráfico 17.

para o paciente 8.

79
7 CONCLUSÕES E DISCUSSÕES
O estudo e a classificação dos sinais do EEG é recente, e é um campo de estudo

que se encontra em evolução. O principal desafio para se trabalhar com o sinal do EEG é a
natureza caótica do sinal. Sendo assim constatou-se a principio que não exite um método
de extração padrão de atributos desse sinal, por haver diversos estudos atuais que buscam
otimizar esse procedimento. Como apresentado no capı́tulo 3 existem diversas técnicas de
extração. Este trabalho apresentou duas implementações distintas, a primeira utilizando
o periodograma modificado de Welch, em que era calculada a densidade espectral de
potencia para cada faixa dos ritmos cerebrais e por fim realizadas médias em cada canal
do EEG. O segundo método implementado foi estimação dos parâmetros de um modelo
autorregressivo, em que se assumia que o sinal do EEG era estacionário e ergódico em
subsequências de dois segundos.
Foram implementados três classificadores, sendo um linear através do método
dos mı́nimos quadrados e dois baseados de redes neurais utilizando a arquitetura MLP
e ELM. Os testes foram realizados visando o classificador para cada paciente especı́fico.
Sendo assim cada paciente apresentou um cenário que mais se adequou ao comportamento
do sinal do EEG em sua crise epiléptica. Para o paciente 1 tivemos o melhor resultado
obtido utilizando o classificador baseado em MLP com o uso de vetores de caracterı́sticas
pelo método de estimação dos parâmetros do modelo AR(4). Já para o paciente 5 o
resultado foi melhor através do uso de dados extraı́dos da PDS, e o paciente 8 não ob-
teve nenhum resultado satisfatório em nenhum dos seis cenários, ao se comparar com a
literatura utilizada e os outros pacientes
Sendo assim conclui-se que para cada paciente deverá se investigar qual o
melhor método de extração a ser utilizado. Os classificadores baseados em redes neu-
rais obtiveram resultados semelhantes. Porém o treinamento da rede MLP utilizando
o algoritmo de aprendizado adaptativo LMS se mostrou muito lento e com alto custo
computacional quando comparada ao treinamento da arquitetura ELM.
Outra conclusão que ficou evidente nos resultados foi que o uso de um modelo
AR(4) obteve resultados melhores que o modelo AR(2), e similar ao da PSD. Como o vetor
de entrada extraı́dos através da PSD apresenta apenas 5 elementos e do modelo AR(4) 24
elementos. Em uma aplicação embarcada, por exemplo, o uso da PSD apresenta vantagem
por ocupar menos memória e diferente da estimação de parâmetros do modelo AR(p) por
não ser necessário a inversão da matriz, causada pela equação de Yule-walker. Sendo
assim o uso do método de extração através da PSD mostrou a mesma eficiência que a
estimação dos parâmetros do modelo AR(p), porém computacionalmente mais viável de
implementar.
O uso do classificador linear apresentou problemas quando a matriz dos dados
de entrada apresentou um comportamento de singularidade, mesmo quando se aplicava a
80
pseudo-inversa. Essa paciente não foi citado no trabalho, mas seus resultados utilizando
RNA foram satisfatórios. Outro fato a destacar é que quando se utilizou-se os dados de
entrada extraı́dos através da PSD, obteve um resultado mais satisfatório quando o vetor
de entrada foi normalizado, com média nula e variância unitária.
O trabalho atingiu seu objetivo em comparar os classificadores baseados em
arquiteturas de RNA (MLP e ELM) e os dois métodos de extração de features do sinal
do EEG, no problema de classificação de crises convulsivas epilépticas.
Este trabalho pode render outros desdobramentos futuros em que pode-se rea-
lizar trabalho com os mesmo dados através do uso de outros métodos de extração como a
Transformada de Wavelet, a clusterização e o uso de dinâmica não linear. Outro destaque
é o uso de classificadores baseados em SVM para a classificação de tipo de crise epilépticas,
já que o este trabalho tratou somente das crises epilépticas do tipo convulsivas. O de-
senvolvimento um algoritmo para detecção prévia de crises epilépticas em tempo real que
possa ser embarcado em um hardware e prover uma auxı́lio na vidas de várias pessoas.
Esse trabalho futuro proverá ao usuário uma estimativa de tempo de uma possı́vel crise
epiléptica através do sinal do EEG e de outros bio-sinais, o qual que será utilizado para o
epiléptico se preparar para acomodar-se ou sair de uma via e estacionar o carro em local
seguro.
81
REFERÊNCIAS
ADELI, Hojjat; GHOSH-DASTIDAR, Samanwoy. AUTOMATED EEG-BASED

DIAGNOSIS OF NEUROLOGICAL DISORDERS: Inventing the Future
of Neurology. New York: CRC Press, 2010.
AL-FAHOUM, Amjed S.; AL-FRAIHAT, Ausilah A. Methods of EEG Signal

Features Extration Using Linear Analysis in Frequency and Time-Frequency
Domais. ISRN Neuroscience, v. 20, 2014.
AN, L.; BHANU, B. Image super-resolution by extreme learning machine. 19th

IEEE international conference on image processing, 2012. pp. 2209-2212.
BOQUETE, L.; MIGUEL-JIMENEZ, J. M.; ORTEGA, S.; RODRIGUEZ-ASCATIZ,

J. M.; PEREZ-RICO, C.; BLANCO, R. Multifocal electroretinogram diagnosis of
glaucoma applying neural networks and structural pattern analysis. Expert
Systems with Applications, v. 39(1), 2012. pp. 234-238.
BORGES, Rafalel; IAROSZ, Kelly; BATISTA, Antonio; CALDAS, Ibere; BORGES,

Fernando; LAMEU, Ewandson. Sincronização de disparos em redes neuronais
com plasticidade sináptica. Revista Brasileira de Ensino de Fisica, v. 37, n. 2, 2015.
BUTCHER, J. B.; VERSTRAETEN, D.; SCHRAUWEN, B.; DAY, C. R.; HAYCOCK,

P. W. Reservoir computing and extreme learning machines for non-linear
time-series data analysis. Neural Networks, v. 38, 2012. pp. 76-89.
CHAN, A. M.; SUN, F. T.; BOTO, E. H.; WINGEIER, B. M. Automated Seizure

onset detection for accurate onset time determination in intracranial EEG.
Clinical Neurophysiology, v. 119, 2008. pp. 2687-2696.
CHEN, Y. Q.; ZHAO, Z. T.; Wang, S. Q.; CHEN, Z. Y. Extreme learning machine
based device displacement free activity recognition model. Soft Computing, v.
16(9), 2012. pp. 1617-1625.
CHIAPPA, S.; BENGIO, S. HMM and IOHMM modeling of EEG rhythms for
asynchronous BCI systems. European Symposium on Artificial Neural Networks
ESANN, 2004.
CVETKOVIC, D.; UBEYLI, E. D.; COSIC, I. Wavelet transform features

extraction from humam PPG,ECG and EEG signal responses to ELF PEMF
exposures: a pilot study. Digital Signal Processing, v. 18, n. 5, 2008. pp. 861-874.
CYBENKO, G. Approximation by superposition of sigmoidal function.

Mathematics of Control, Signal and Systems., v. 2, 1989. pp. 303-314.
82
EHLERS, Ricardo S. ANÁLISE DE SÉRIES TEMPORAIS. Departamento de

Estatı́stica, UFPR, 2009.
HAYES, Monson H. Statistical Digital Signal Processing and Modeling. USA:

John Wiley and Sons, 1996.
HAYKIN, Simon. Neural networks and learning machine. New Jersey ,Pearson
Education, Inc, 2009.
HUANG, G-B; CHEN, L. Convex incremental extreme learning machine.

Neurocomputing, v. 61, 2007. pp. 32-48.
HUANG, Gao; HUANG, Guang-Bin; SONG, Shiji; YOU, Keyou. Trends in extreme
learning machines: A review. Neural Networks, v. 70(16), 2015. pp. 3056-3062.
HUANG, Guang-Bin; ZHU, Qin-Yu; SIEW, Chee-Kheong. Extreme learning

machine: Theory and applications. Neurocomputing, v. 70, 2006. pp. 489-501.
HWANG, J.N.; KUNG, S.Y.; MAHESAN, M.; PRINCIPE, J. C. The Past, Present,
and Future of Neural Networks for Signal Processing. IEEE Signal Processing
Magazine, v. 14, n. 6, 1997. pp. 28-48.
JAHBAKHANI, P.; KODOGIANNIS, V.; REVETT, K. EEG signal classification

using wavelet feature extraction and neural networks. IEEE John Vincent
Atanasoff 2006 International Symposium on Modern Computing , 2006. pp. 52-57.
JAIN, A. K.; MAO, J.; MOHIUDDIN, K.K. Artificial neural networks: A tutorial.
Computer, v. 29, 1996. pp. 31-44.
KANASHIRO, A. L. A. N. EPILEPSIA: prevalência, caracterı́sticas

epidemiológicas e lacuna de tratamento farmacológico. . 2006. 135 f. Tese
(Faculdade de Ciências Médicas da Universidade Estadual de Campinas), 2006.
KAPER, M.; MEINICKE, P.; GROSSEKATHOEFER, U.; LINGNER, T; RITTER, H.

BCI competition 2003-data set iib: support vector machines for the p300
speller paradigm. IEEE Trans. Biomed. Eng., v. 51, 2003. pp. 1073-1076.
KASUN, L. L. C.; ZHO, H.; HUANG, G.-B.; VONG, C. M. Representational

Learning with Extreme Learning Machine for Big Data. IEEE Intelligent
Systems, v. 28, n. 6, 2013. pp. 31-34.
KEMP, Bob; VARRI, Alpo; ROSA, Agostinho C.; NIELSEN, Kim D.; GADE, John. A
simple format for exchange of digitized polygraphic recordings.
Electroencephalography and Clinical Neurophysiology, v. 82, 1992. pp. 391-393.
83
KHOTANZAD, A.; CHUNG, C. Application of multi-layer perceptron neural

networks to vision problems. Neural Computing and Applications, v. 7(3), 1998.
pp. 249-259.
LIU, G. H.; JIANG, H.; XIAO, X. H.; Zhang, D. J.; MEI, C. L.; DING, Y. H.
Determination of process variable ph in solid-state fermentation by ft-nir
spectroscopy and extreme learning machine (ELM). Spectroscopy and Spectral
Analysis, v. 32(4), 2012. pp. 970-973.
PENNY, W. D.; ROBERTS, S. J.; CURRAN, E.A.; STOKES, M. J. EEG-based

communication: a pattern recognition approach. IEEE Trans. Rehabil. Eng, v. 8,
2000. pp. 214-215.
PFURTSCHELLER, G.; NEUPER, C.S.; SCHLOGL, A.; LUGGER, K. Separability

of EEG signals recorded during right and left motor imagery using adaptive
autoregressive parameters. IEEE Trans. Rehabil. Eng, v. 6, 1998. pp. 316-355.
SANEI, Saeid; CHAMBERS, J. A. EEG Signal Processing. England: John Wiley

and Sons, 2007.
SHARMA, Sachin; KUMAR, Gaurav; MISHRA, Dipak Kumar; MOHAPATRA,

Debasis. Design and Implementation of a Variable Gain Amplifier for
Biomedical Signal Acquisition. International Journal of Advanced Research in
Computer Science and Software Engineering, v. 2(2), 2012.
SHIH, Eugene I.; SHOEB, Ali H.; GUTTAG, John V. Sensor selection for
energy-efficient ambulatory medical monitoring. Proceedings of the 7th
international conference on Mobile systems, applications, and services, 2009. pp.
347-358.
SHOEB, Ali. Applicatoin of Machine Learning to Epileptic Seizure Onset

Detectoin and Treatment. 2009.
SHOEB, Ali. CHB-MIT Scalp EEG Database. 2016. URL

https://www.physionet.org/pn6/chbmit/.
SHOEB, Ali; GUTTAG, John. Application of Machine Learning To Epileptic

Seizure Detection. Appearing in Proceedings of the 27th International Conference on
Machine Learning , Haifa, Israel, 2010.
SILVA, M. C. Selecionador de Caracterı́ticas para classificação de sinais de

EEG e construção de Interfaces Cérebro-Máquina. Tese de mestrado apresentada
a Universidade de Brası́lia Instituto de Ciências Exatas Departamento de Estatı́tica,
2012.
SIULY, Yan Li; WEN, Peng. Clustering technique-based least square support
84
vector machine for EEG signal classification. Comput. Methods Programs

Biomed., 2010.
SUBASI, A. EEG signal classification using wavelet feature extraction and a

mixture of expert mode. Expert Systems with Applications, v. 32, 2007. pp.
1084-1093.
SUBASI, A.; ERCEBELI, E. Classification of EEG signal using neural network

an logistic regression. Computer Methodis and Programs in Biomedicine, v. 78, 2005.
pp. 87-99.
TSAI, PING-HUANG; LIN, PEI-FENG; LIN, CHEN; HSIN, YUE LOONG. The
non-linear and non-stationry properties in EEG signals: probing the complex
fluctuations by Hilbert-Huang Transform. Advances in Adaptive Data Analysis,
v. 1, n. 3, 2009. pp. 461-482.
WAGAR, Tayyab; DEMETGUL, Mustafa. Thermal analysis MLP neural network

based fault diagnosis on worm gears. Measurement, v. 86, 2016. pp. 56-66.
WELCH, P. D. The Use of Fast Fourier Transform for the Estimation of

Power spectre: A Method Based on Time Averaging Over Short, Modified
Periodograms. IEEE Trans. Audio and Electroacoust, v. AU-15, 1967. pp. 70-73.
WIDROW, B.; GREENBLATT, A.; KIM, Y.; PARK, D. The No-Prop algorithm:
A new learning algorithm for multilayer neural networks. Neural Networks,
v. 37, 2013. pp. 182-188.
Y. KAYA, M. UYAR. A hybrid decision support system based on rough set

and extreme learning machine for diagnosis of hepatitis disease. Applied Soft
Computing, v. 13(8), 2013. pp. 3429-3438.
YU, Y.; CHOI, T. M.; HUI, C. L. An intelligent quick prediction algorithm with
applications in industrial control and loading problems. IEEE Transactions on
Automation Science and Engineering, v. 9(2), 2012. pp. 276-287.
85
APÊNDICE A
1. Função de extração de atributos através do periodograma de Welch.
function [mPs] = extract pWelch(arquivo,passo,t inicio,t fim,fs,n ch,chs)

%EXTRACT Summary of this function goes here
% Detailed explanation goes here
[header, recorddata] = edfread(arquivo);
[n canais n dados] = size(recorddata);
tmax=n dados/fs;
k=t inicio:passo:t fim;
for j=1:length(k)-1
ti=k(:,j);
tf=k(:,j+1);
for i=1:n ch
ch(i,:)=recorddata(chs(:,i),ti*fs:tf*fs);
[PS(:,i),f] = pwelch(ch(i,:) ,gausswin(128),[ ],256,fs);
end
PS = 10*log10(PS);
%Primeiro Metodo
delta=mean(PS(1:5,:));
DELTA(j,:)=mean(delta);
theta=mean(PS(5:9,:));
THETA(j,:)=mean(theta);
alpha=mean(PS(9:14,:));
ALPHA(j,:)=mean(alpha);
beta=mean(PS(14:27,:));
BETA(j,:)=mean(beta);
gamma=mean(PS(30:length(PS),:));
GAMMA(j,:)=mean(gamma);
end
mPs=[DELTA';THETA';ALPHA';BETA';GAMMA'];
end
2. Função de extração de atributos através da estimação dos parâmetros de um

processo AR(p).
function [mAR] = extract AR(arquivo,passo,t inicio,t fim,fs,tipo,chs)

[header, recorddata] = edfread(arquivo);
[n canais n dados] = size(recorddata);
n ch=length(chs);
tmax=n dados/fs;
k=t inicio:passo:t fim;
86
for j=1:length(k)-1
ti=k(:,j);
tf=k(:,j+1);
for i=1:n ch
ch(i,:)=recorddata(chs(:,i),ti*fs:tf*fs);
a = aryule(ch(i,:),tipo);
vetor(:,i)=a(:,2:end);
end
mAR(:,j)=reshape(vetor,1,tipo* n ch);
end
3. Implementação do classificador linear usando mı́nimos quadrados.
clear; clc;
load chb01 26 Wc.txt;
load seizuresP1 Wc.txt
load alvosP1.txt;
% Vetores (padroes) de entrada
dados=[chb01 26 Wc(:,700:1100) seizuresP1 Wc];
% Saidas desejadas correspondentes
alvos=[alvosP1(:,700:1100) ones(1,length(seizuresP1 Wc))];
alvos ori=alvos';
X=dados;
D=alvos ori';
Y=D;
Nr=100;
% Define tamanho dos conjuntos de treinamento/teste
ptrn=70; % Porcentagem usada para treino
tic
for i=1:Nr
%%%%%Embaralha dados%%%%%%
[X Y]=embaralha(X,Y);
%%%%%Separa em dados de teste e treinamento%%%%%
[Xmodel Ymodel Xtest Ytest]=separa(X,Y,ptrn);
%%%% Metodo dos Minimos Quadrados%%%%
% A=Ymodel*Xmodel'*inv(Xmodel*Xodel'); %Igual a formula
A=Ymodel*pinv(Xmodel); %Aplicando a pseudo-inversa
%%%%%% Teste do modelo%%%%%%
Ypred=A*Xtest; % Diagnosticos preditos
% Calculo dos Acertos
POK=acertos2(Ypred,Ytest);
% Guadar acertos por rodada
VetorPOK(i,:)=POK;
% Guarda Ypred e Ytest em forma matriz de vetores em iteracao
[lh col]=size(Ypred);
87
YP(:,i)=reshape(Ypred,1,lh*col);
YT(:,i)=reshape(Ytest,1,lh*col);
end
toc
matrizConfusao(YP,YT,VetorPOK,Ytest);
TESTE=teste perfo(YP,YT,VetorPOK,Ytest);
%Calcula estatisticas
MED TEST=mean(TESTE');
media=mean(VetorPOK)
maxima=max(VetorPOK)
minima=min(VetorPOK)
mediana=median(VetorPOK)
mdesvio padrao=std(VetorPOK)
4. Implementação do classificador utilizando um rede neural com arquitetura MLP.
clear; clc; close all

% Carrega DADOS
%=================
dir='C:\Users\Julio\Documents\UFC\00 TCC\Matlab codes\Date\';
A=load(strcat(dir,'chb01 26 Wc.txt'));
B=load(strcat(dir,'alvosP1B.txt'));
C=load(strcat(dir,'seizuresP1 Wc.txt'));
dados=[A(:,700:1100) C];
alvos=[B(:,700:1100) ones(1,length(C))];
alvos ori=alvos';
% Embaralha vetores de entrada e saidas desejadas
[LinD ColD]=size(dados);
% Realiza a normalizacao dos dados (u=0 e var=1)
Dn=normaliza(dados);
% Define tamanho dos conjuntos de treinamento/teste (hold out)
% Porcentagem de dados usada para teste
ptrn=70;
% DEFINE ARQUITETURA DA REDE
%===========================
Ne = 200; % No. de epocas de treinamento
Nr = 100; % No. de rodadas de treinamento/teste
Nh = 50; % No. de neuronios na camada oculta
No = 1; % No. de neuronios na camada de saida
eta=0.01; % Passo de aprendizagem
mom=0.5; % Fator de momento
for vNh=50:50
% LOOP de rodadas de treinamento/teste
88
for r=1:Nr,
[vNh r]
% Embaralha saidas desejadas tambem
%p/ manter correspondencia com vetor de entrada
[Dn alvos]=embaralha(Dn,alvos);
% Vetores para treinamento e saidas desejadas correspondentes
[Xmodel Ymodel Xtest Ytest]=separa(Dn,alvos,ptrn);
% Tamanho da matriz de vetores de treinamento
[lP cP]=size(Xmodel);
% Tamanho da matriz de vetores de teste
[lQ cQ]=size(Xtest);
% Inicia matrizes de pesos
[WW MM] = iniciaPesos(Nh,No,lP);
WW old=WW;
MM old = MM;
%% ETAPA DE TREINAMENTO
for t=1:Ne,
Epoca=t;
% Embaralha vetores de treinamento
[Xmodel Ymodel]=embaralha(Xmodel,Ymodel);
EQ=0;
% Inicia LOOP de epocas de treinamento
for tt=1:cP,
% ATIVACAO CAMADA OCULTA
[Yi X] = ativacao oculta(Xmodel,WW,0,tt);
% ATIVACAO CAMADA DE SAIDA
[Ok Y] = ativacao saida(Yi,MM);
% CALCULO DO ERRO
[Ek EQ]=erro(Ymodel,Ok,tt,EQ);
% CALCULO DOS GRADIENTES LOCAIS
%camada de saida
[Dk DDk]=grad saida(Ek,Ok);
% gradiente local (camada oculta)
[Di DDi] = grad oculta(Yi,MM,DDk);
% AJUSTE DOS PESOS - CAMADA DE SAIDA
[MM old MM] = ajustePesos(MM old,MM,eta,DDk,Y,mom);
% AJUSTE DOS PESOS - CAMADA OCULTA
[WW old WW] = ajustePesos(WW old,WW,eta,DDi,X,mom);
end % Fim de uma epoca
% MEDIA DO ERRO QUADRATICO P/ EPOCA
EQM(t)=EQ/cP;
end % Fim do loop de treinamento
%% ETAPA DE GENERALIZACAO %%%

EQ2=0;
OUT2=[];
for tt=1:cQ,
89
% CAMADA OCULTA
[Yi X] = ativacao oculta(Xtest,WW,0,tt);
% CAMADA DE SAIDA
[Ok Y] = ativacao saida(Yi,MM);
OUT2=[OUT2 Ok]; % Armazena saida da rede
% Gradiente local da camada de saida
% erro entre a saida desejada e a saida da rede
Ek = Ytest(:,tt) - Ok;
[Dk DDk]=grad saida(Ek,Ok); %camada de saida
% ERRO QUADRATICO GLOBAL (todos os neuronios) POR VETOR DE ENTRADA
EQ2 = EQ2 + 0.5*sum(Ek.ˆ2);
% gradiente local (camada oculta)
[Di DDi] = grad oculta(Yi,MM,DDk);
end
% MEDIA DO ERRO QUADRATICO COM REDE TREINADA (USANDO DADOS DE TREINAMENTO)
EQM2=EQ2/cQ;
% CALCULA TAXA DE ACERTO
Tx OK(r)=acertos2(OUT2,Ytest);
VetorPOK(r,:)=Tx OK(r);
[lh col]=size(OUT2);
YP(:,r)=reshape(OUT2,1,lh*col);
YT(:,r)=reshape(Ytest,1,lh*col);
end
matrizConfusao(YP,YT,Tx OK,Ytest);
TESTE=teste perfo(YP,YT,Tx OK,Ytest);
Tx media=mean(VetorPOK) % Taxa media de acerto global
Tx max=max(VetorPOK)
Tx min=min(VetorPOK)
Tx mediana=median(VetorPOK)
Tx std=std(VetorPOK) % Desvio padrao da taxa media de acerto
% Plota Curva de Aprendizagem
%figure
%plot(EQM,'LineWidth',2)
%xlabel('Epocas');ylabel('Erro');
beep();
end
5. Implementação do classificador utilizando um rede neural com arquitetura ELM.
clear; clc; close all;

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 1: Carregar banco de dados %%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
90
dir='C:\Users\Julio\Documents\UFC\00 TCC\Matlab codes\Date\';

A=load(strcat(dir,'chb01 26 Wc.txt'));
B=load(strcat(dir,'alvosP1.txt'));
C=load(strcat(dir,'seizuresP1 Wc.txt'));
dados=[A(:,600:1100) C];
alvos=[B(:,600:1100) ones(1,length(C))];
alvos ori=alvos';
Dn=dados;
alvos=alvos ori';
% Embaralha vetores de entrada e saidas desejadas
[LinD ColD]=size(dados);
% Define tamanho dos conjuntos de treinamento/teste (hold out)
ptrn=70; % Porcentagem de dados usada para teste
% DEFINE ARQUITETURA DA REDE
%===========================
Nr=100;
beta=0.05;
Nh=80;
for Nhr=80:80
% LOOP de rodadas de treinamento/teste
for r=1:Nr
Dn=dados;
alvos=alvos ori';
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 2: Separar dados de treino/teste %%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% Adiciona uma linha de -1's
Dn=adiciona one(Dn);
[Dn alvos]=embaralha(Dn,alvos);
% Vetores para treinamento e saidas desejadas correspondentes
[Xmodel Ymodel Xtest Ytest]=separa(Dn,alvos,ptrn);
% Tamanho da matriz de vetores de treinamento e teste
[lP cP]=size(Xmodel);
[lQ cQ]=size(Xtest);
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 3: Escolha aleatoria dos pesos e %%
%%% limiares dos neuronios intermediarios %%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%Determinacao da matriz da projecao aleatoria
% Multiplica matriz de pesos por uma constante pequena
W=beta*rand(Nh,LinD+1);
% Parte linear da projecao na camada intermediaria
Utr=W*Xmodel;
% Parte nao-linear (aplicacao da funcao sinal)
91
%Ztr=sign(Utr);
% Parte nao-linear (aplicacao da funcao tangente hiperbolica)
Ztr=tanh(Utr);
% Adiciona linha de -1's
Ztr=adiciona one(Ztr);
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 4: Estimar os parametros do classificador (pesos e limiares) %%
%%% pelo metodo dos minimos quadrados (classificador sem camada oculta)%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% Equacao mais estavel numericamente
M=Ymodel*pinv(Ztr);
%M=Dtr*Ztr'*inv(Ztr*Ztr');
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 5: Determinar predicoes da classe dos vetores de teste %%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% Parte nao-linear (aplicacao da funcao sinal)
%Zts=sign(W*Xts);
% Parte nao-linear (aplicacao da funcao tangente hiperbolica)
Zts=tanh(W*Xtest);
% Adiciona linha de -1's
Zts=adiciona one(Zts);
%Zts=[-ones(1,cQ); Zts];
Ypred=M*Zts; % Saida como numeros reais
Ypred q=sign(Ypred); % Saida quantizada para +1 ou -1.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%% Passo 6: Determinar as taxas de acerto/erro %%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
Tx OK(r)=acertos2(Ypred q,Ytest);
VetorPOK(r,:)=Tx OK(r);
[lh col]=size(Ypred q);
YP(:,r)=reshape(Ypred q,1,lh*col);
YT(:,r)=reshape(Ytest,1,lh*col);
end
end
matrizConfusao(YP,YT,Tx OK,Ytest);
TESTE=teste perfo(YP,YT,Tx OK,Ytest);
Tx media=mean(VetorPOK) % Taxa media de acerto global
Tx max=max(VetorPOK)
Tx min=min(VetorPOK)
Tx mediana=median(VetorPOK)
Tx std=std(VetorPOK) % Desvio padrao da taxa media de acerto
92
ANEXO A – CATÁLOGO DOS DADOS ANALISADOS
Tabela 32: Crises epilépticas convulsivas detectadas para o paciente 1

Hora Tempo (s)
Paciente Arquivo Crises Duração (s)
Inicio Fim Inicio Fim
chb01 03.edf 13:43:04 14:43:04 1 2996 3036 40
chb01 04.edf 14:43:12 15:43:12 1 1467 1494 27
chb01 15.edf 01:44:44 02:44:44 1 1732 1772 40
1 chb01 16.edf 02:44:51 03:44:51 1 1015 1066 51
chb01 18.edf 04:45:06 05:45:06 1 1720 1810 90
chb01 21.edf 07:33:46 08:33:46 1 327 420 93
chb01 26.edf 12:34:22 13:13:07 1 1862 1963 101
Tabela 33: Crises epilépticas convulsivas detectadas para o paciente 5.

Hora Tempo (s)
chb05 00.edf 22:21:25 23:21:25 1 417 532 115
chb05 13.edf 05:22:15 06:22:15 1 1086 1196 110
5 chb05 16.edf 08:22:35 09:22:35 1 2317 2413 96
chb05 17.edf 09:22:42 10:22:42 1 2451 2571 120
chb05 22.edf 14:23:17 15:23:17 1 2348 2465 117
Tabela 34: Crises epilépticas convulsivas detectadas para o paciente 8.

Hora Tempo (s)
chb08 02.edf 12:28:57 13:28:57 1 2670 2841 171
chb08 05.edf 15:29:14 16:29:14 1 2856 3046 190
8 chb08 11.edf 20:37:01 21:37:01 1 2988 3122 134
chb05 13.edf 22:37:16 23:37:16 1 2417 2577 160
chb05 21.edf 06:38:16 07:38:16 1 2038 2347 264

Template

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Template

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO CEARÁ

JÚLIO PEIXOTO DA SILVA JÚNIOR

ANÁLISE DE DESEMPENHO DE ARQUITETURAS DE REDES

ANÁLISE DE DESEMPENHO DE ARQUITETURAS DE REDES NEURAIS

Monografia apresentada ao Programa de

Orientador: Prof. Dr.Guilherme Barreto

S1a SILVA JUNIOR, JULIO PEIXOTO DA.

Trabalho de Conclusão de Curso (graduação) – Universidade Federal do Ceará, Centro de Tecnologia,

1. Redes Neurais. 2. Extração de Features. 3. Densidade Espectral de Potência. 4. Crises Convulsivas

ANÁLISE DE DESEMPENHO DE ARQUITETURAS DE REDES NEURAIS

Monografia apresentada ao Programa de

Orientador: Prof. Dr.Guilherme Barreto

Aprovada em: 12 / 12 / 2016.

Prof. Dr. Guilherme de Alencar Barreto (Orientador)

Prof. Dr. Tarcı́sio Ferreira Maciel

Prof Dr. João Paulo do Vale Madeiro

Dedico este trabalho aos meus pais.

”Os homens pensam que a epilepsia é divina

As convulsões por crises epiléticas atingem um grande número de pessoas, cerca de 5%

Palavras-chave: Eletroencefalograma (EEG). Crises Epiléticas. Redes Neurais. Mul-

Figura 1 – Exemplo de um sinal EEG. . . . . . . . . . . . . . . . . . . . . . . . . . 14

Gráfico 1 – Intervalo de cinco segundos de sinal do EEG (canal 1). . . . . . . . . . 30

Tabela 1 – Identificação dos Eletrodos . . . . . . . . . . . . . . . . . . . . . . . . . 25

A epilepsia afeta milhões de pessoas mundialmente, tornando-se um pro-

como a ultrassonografia, tomografia computadorizada, ressonância magnética etc.

Figura 1 – Exemplo de um sinal EEG.

Fonte: CHB-MIT Scalp EEG Database (2016).

Uma caracterı́stica, atributo ou feature de um sinal é uma propriedade distinta

do sinal do EEG aplica-se o processamento de extração de caracterı́sticas no sinal e fi-

Observando-se o grande problema de saúde relacionado com transtornos men-

Realizou-se uma revisão bibliográfica abordando-se os principais tópicos que

Fonte: Elaborada pelo autor.

1.3 Estrutura do Trabalho

O trabalho se divide em duas partes, em que a primeira parte é dedicada à re-

1.4 Resumo do Capı́tulo

Este capı́tulo apresentou a importância e a dimensão do estudo referentes à

Este capı́tulo irá apresentar as principais caracterı́sticas do eletroencefalo-

2.1 Introdução ao EEG

A atividade cerebral humana inicia-se entre a decima sétima e vigésima ter-

também o menos dispendioso.

2.2 Fundamentos Fisiológicos do Eletroencefalograma

O sistema nervoso é composto por uma rede de células especializadas deno-

Figura 3 – Componentes de um neurônio.

Figura 4 – Ativação de um neurônio .

Fonte: (SHARMA et al., 2012).

transmissão de um impulso elétrico sem o processamento de informação. Esse tipo de

Figura 5 – Sinapse elétrica .

Fonte: (BORGES et al., 2015).

Através da sinapse é possı́vel efetuar a medição do EEG. Esse sinal é o resul-

mensurada utilizando-se um circuito amplificador como o de um voltı́metro. É necessário

2.3 Ritmos Cerebrais

O EEG é composto de uma ampla faixa de componentes de frequência, e

Figura 6 – Quatro principais ritmos cerebrais .

Fonte: SANEI e CHAMBERS (2007).

2.4 Medições e Gravação do EEG

Atualmente, os sistemas de aquisição de EEG (Figura 7) consistem em uma

Figura 7 – 32-Channel Digital Video EEG Machine .

Fonte: https://goo.gl/MIoel3 acesso em outubro de 2016.

Os sistemas informatizados de EEG transformam o sinal analógico em sinal

Nyquist. A resolução de cada amostra utilizada, comumente, é de 16 bits. Como discutido

Figura 8 – Touca de eletrodos para EEG .

Fonte: https://goo.gl/VT8Tdw acesso em outubro de 2016.

Dispõe-se do EEG intra-craniano e do couro cabeludo. O EEG intra-craniano

2.4.1 Padrão Convencional de Posição dos Eletrodos (10-20)

yt = φ0 + φ1 yt−1 + φ2 yt−2 + ... + φp yt−p + t , (21)

em que φ0 , φ1 , ..., φp são os parâmetros do processo e t é um processo randômico de-