Gap3 PDF

MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
PGCOMP - Programa de Pós-Graduação em Ciência da Computação
http://pgcomp.dcc.ufba.br
Ata da Sessão Pública de Defesa de Mestrado nº. 97

Colegiado do Programa de Pós-Graduação em Ciência da Computação
Ata da sessão pública do Colegiado do Programa de Pós-Graduação em Ciência da Computação, realizada

em 29 de julho de 2020 para procedimento de defesa da Dissertação de Mestrado em Ciência da
Computação nº. 97, linha de pesquisa Engenharia de Software, da candidata Rosana Guimarães Ribeiro,
matrícula 218219186, intitulada “Novo índice interno de validação de agrupamento de dados temporais”.
Às Catorze horas do citado dia, via webconferência, foi aberta a sessão pelo presidente da banca
examinadora Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA) que apresentou os outros membros da
banca: Prof. Dr.Marcelo Keese Albertini(UFU), e o Marcos Ennes Barreto(UFBA). Em seguida foram
esclarecidos os procedimentos pelo presidente que passou a palavra ao examinado para apresentação do
trabalho de Mestrado. Ao final da apresentação, passou-se à arguição por parte da banca, a qual, em
seguida, reuniu-se para a elaboração do parecer. No seu retorno, foi lido o parecer final a respeito do
trabalho apresentado pela candidata, tendo a banca examinadora aprovado o trabalho apresentado, sendo
esta aprovação um requisito parcial para a obtenção do grau de Mestre. Em seguida, nada mais havendo a
tratar, foi encerrada a sessão pelo presidente da banca, tendo sido, logo a seguir, lavrada a presente ata,
abaixo assinada por todos os membros da banca.
Salvador, 29 de julho de 2020
__________________________________ __________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador- Prof. Dr.Marcelo Keese Albertini(UFU)
UFBA)
__________________________________
Marcos Ennes Barreto(UFBA)
Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273

Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110
EMAIL: ceapgmat@ufba.br
Ata da Sessão Pública de Defesa de Mestrado nº. 97

Colegiado do Programa de Pós-Graduação em Ciência da Computação
Ata da sessão pública do Colegiado do Programa de Pós-Graduação em Ciência da Computação, realizada

em 29 de julho de 2020 para procedimento de defesa da Dissertação de Mestrado em Ciência da
Computação nº. 97, linha de pesquisa Engenharia de Software, da candidata Rosana Guimarães Ribeiro,
matrícula 218219186, intitulada “Novo índice interno de validação de agrupamento de dados temporais”.
Às Catorze horas do citado dia, webconferencia, foi aberta a sessão pelo presidente da banca examinadora
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA) que apresentou os outros membros da banca: Prof.
Dr.Marcelo Keese Albertini(UFU),e o Marcos Ennes Barreto(UFBA). Em seguida foram esclarecidos os
procedimentos pelo presidente que passou a palavra ao examinado para apresentação do trabalho de
Mestrado. Ao final da apresentação, passou-se à arguição por parte da banca, a qual, em seguida, reuniu-se
para a elaboração do parecer. No seu retorno, foi lido o parecer final a respeito do trabalho apresentado pela
candidata, tendo a banca examinadora aprovado o trabalho apresentado, sendo esta aprovação um requisito
parcial para a obtenção do grau de Mestre. Em seguida, nada mais havendo a tratar, foi encerrada a sessão
pelo presidente da banca, tendo sido, logo a seguir, lavrada a presente ata, abaixo assinada por todos os
membros da banca.
__________________________________ __________________________________
UFBA)
__________________________________

Defesa de Mestrado nº 97 – FICHA DE AVALIAÇÃO
NOME DO ALUNO: Rosana Guimarães Ribeiro
TÍTULO: “Novo índice interno de validação de agrupamento de dados temporais”
Data: 29 de julho de 2020 Horário: 14h
LOCAL: webconferencia.
RESULTADO:
APROVADO: APROVADO COM RESTRIÇÕES: REPROVADO:
Observações:
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
Sugestões:
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
Nome e Assinatura dos Membros da Banca:
__________________________________ __________________________________
UFBA)
__________________________________

Defesa de Mestrado nº 97 – Lista de Presença
NOME DO ALUNO: Rosana Guimarães Ribeiro
Data: 29 de julho de 2020 Horário: 14h
LOCAL: webconferencia.
Nome Assinatura

DECLARAÇÃO
Declaramos para os devidos fins que o Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA) atuou como
orientador e participou como Membro da Banca na Defesa de Mestrado da aluna Rosana Guimarães Ribeiro,
intitulada “Novo índice interno de validação de agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de
dois mil e vinte, webconferencia.
Aproveitamos a oportunidade para agradecer a sua valiosa colaboração.

DECLARAÇÃO
Declaramos para os devidos fins que o Prof. Dr.Marcelo Keese Albertini(UFU) participou como Membro da
Banca na Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, intitulada “Novo índice interno de validação de
agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de dois mil e vinte, webconferencia.

DECLARAÇÃO
Declaramos para os devidos fins que o Marcos Ennes Barreto(UFBA) participou como Membro da Banca na
Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, intitulada “Novo índice interno de validação de
agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de dois mil e vinte, webconferencia.

PORTARIA Nº 07/2020 de 19 de julho de 2020
O COORDENADOR DO PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO, no uso

de suas atribuições legais,
RESOLVE:
Designar comissão composta pelos Professores Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA),
Prof. Dr.Marcelo Keese Albertini(UFU), Marcos Ennes Barreto(UFBA), e para compor a Banca
para Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, que ocorrerá no dia Vinte e bove
de julho de dois mil e vinte às 14h, webconferencia.
Salvador, 19 de julho de 2020.

O Programa de Pós-Graduação em Ciência da Computação da UFBA convida a todos para a defesa

pública de Mestrado de número 97 deste programa.
Aluna: Rosana Guimarães Ribeiro
Título: Novo índice interno de validação de agrupamento de dados temporais
Banca Examinadora:
- Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)
- Prof. Dr.Marcelo Keese Albertini(UFU)
- Marcos Ennes Barreto(UFBA)
Data da Defesa: 29 de julho de 2020; Horário: 14h

Local da Defesa: webconferencia
Resumo: Técnicas de Aprendizado de Máquina não-supervisionado foram desenvolvidas visando encontrar estruturas e
padrões em conjuntos de dados sem considerar qualquer informação prévia fornecida, por exemplo, por um especialista. Essa
ausência de informação impacta diretamente no processo de validação devido à dificuldade em mensurar o conhecimento obtido
por meio destas técnicas. Visando solucionar este problema, diversas pesquisas têm sido publicadas na literatura propondo
critérios que integram diferentes áreas do conhecimento como Ciência da Computação e Estatística. Esses critérios são
comumente divididos em $3$ categorias: relativo, externo e interno. Em geral, tais critérios são desenvolvidos com base em
índices com diferentes objetivos e vieses de análise. Entretanto, grande parte desses índices são aplicados sobre dados
caracterizados por serem independentes e identicamente distribuídos. A realização de uma Revisão Sistemática da Literatura
demonstrou que há um número reduzido de pesquisas que investigam índices de validação de agrupamento para dados com
dependência temporal entre suas observações. Este número é ainda mais reduzido quando se trata de índices que utilizam critério
interno de validação. Neste sentido, este trabalho de mestrado apresenta um novo índice interno de validação baseado na
adaptação da Estatística GAP (Gap Statistic) comumente utilizado na literatura. O índice apresentado foi desenvolvido com o
objetivo de mensurar e validar informações extraídas de dados temporais a partir da aplicação de técnicas de Aprendizado de
Máquina não-supervisionado. Dessa forma, resultados experimentais demonstram a eficiência do novo índice interno de validação
para dados com dependência temporal e confirmam a importância do mesmo para o estado da arte.
Salvador, 19 de julho de 2020.

“Novo índice interno de validação de agrupamento de dados temporais”
Rosana Guimarães Ribeiro
Dissertação apresentada ao Colegiado do Programa

de Pós-Graduação em Ciência da Computação na Universidade
Federal da Bahia, como requisito parcial para obtenção do Título de
Mestre em Ciência da Computação.
Banca Examinadora
_______________________________________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)
_______________________________________________________________
Prof. Dr.Marcelo Keese Albertini(UFU)
_______________________________________________________________
“Novo índice interno de validação de agrupamento de dados temporais ”

Banca Examinadora
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________

Banca Examinadora
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________

Banca Examinadora
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________

Banca Examinadora
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
Ficha catalográfica elaborada pela Biblioteca Universitária de
Ciências e Tecnologias Prof. Omar Catunda, SIBI - UFBA.
R484 Ribeiro, Rosana Guimarães

Estatística Gap Temporal: um novo índice interno de
validação de agrupamento de dados temporais/ Rosana
Guimarães Ribeiro. – Salvador, 2020.
63 f.
Orientadora: Prof. Dr. Ricardo Araújo Rios

Dissertação (Mestrado) – Universidade Federal da Bahia.
Instituto de Matemática, 2020.
1. Ciência da Computação. 2. Estatística. I. Rios, Ricardo

Araújo. II. Universidade Federal da Bahia. III. Título.
CDU 681.3
Universidade Federal da Bahia
Instituto de Matemática
Programa de Pós-Graduação em Ciência da Computação
ESTATÍSTICA GAP TEMPORAL: UM NOVO

ÍNDICE INTERNO DE VALIDAÇÃO DE
AGRUPAMENTO DE DADOS TEMPORAIS
Rosana Guimarães Ribeiro
DISSERTAÇÃO DE MESTRADO
Salvador
06 de julho de 2020
ROSANA GUIMARÃES RIBEIRO
ESTATÍSTICA GAP TEMPORAL: UM NOVO ÍNDICE INTERNO

DE VALIDAÇÃO DE AGRUPAMENTO DE DADOS TEMPORAIS
Esta Dissertação de Mestrado foi

apresentada ao Programa de Pós-
Graduação em Ciência da Com-
putação da Universidade Federal da
Bahia, como requisito parcial para
obtenção do grau de Mestre em
Ciência da Computação.
Orientador: Prof. Dr. Ricardo Araújo Rios
Salvador
06 de julho de 2020
RESUMO
Técnicas de Aprendizado de Máquina Não-Supervisionado foram desenvolvidas visando

encontrar estruturas e padrões em conjuntos de dados sem considerar qualquer informação
prévia fornecida, por exemplo, por um especialista. Essa ausência de informação impacta
diretamente no processo de validação devido à dificuldade em mensurar o conhecimento
obtido por meio destas técnicas. Visando solucionar este problema, diversas pesquisas
têm sido publicadas na literatura propondo critérios que integram diferentes áreas do
conhecimento como Ciência da Computação e Estatı́stica. Esses critérios são comumente
divididos em 3 categorias: relativo, externo e interno. Em geral, tais critérios são desen-
volvidos com base em ı́ndices com diferentes objetivos e vieses de análise. Entretanto,
grande parte desses ı́ndices são aplicados sobre dados caracterizados por serem indepen-
dentes e identicamente distribuı́dos. A realização de uma Revisão Sistemática da Lite-
ratura demonstrou que há um número reduzido de pesquisas que investigam ı́ndices de
validação de agrupamento para dados com dependência temporal entre suas observações.
Este número é ainda mais reduzido quando se trata de ı́ndices que utilizam critério in-
terno de validação. Para superar essa limitação, este trabalho de mestrado apresenta
um novo ı́ndice interno de validação baseado na estatı́stica GAP (Gap Statistic). Este
novo ı́ndice foi desenvolvido com o objetivo de mensurar e validar informações extraı́das
de dados temporais com comportamento caótico a partir da aplicação de técnicas de
Sistemas Dinâmicos e de Aprendizado de Máquina não-supervisionado. Resultados expe-
rimentais demonstraram a eficiência do novo ı́ndice interno de validação para dados com
dependência temporal e confirmaram a importância do mesmo para o estado da arte.
Palavras-chave: Séries Temporais, Índice Interno, Validação de Agrupamento, es-

tatı́stica GAP
iii
SUMÁRIO
Capı́tulo 1—Introdução 1
1.1 Contextualização e Motivação . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Motivação e Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Capı́tulo 2—Fundamentação Teórica 5

2.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Validação de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1 Critério Externo . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.2 Critério Relativo . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.3 Critério Interno . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Distância DTW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Análise de Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4.1 Sistemas Dinâmicos . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Capı́tulo 3—Estado da Arte 17

3.1 Fase I: Critérios de busca nos repositórios . . . . . . . . . . . . . . . . . . 17
3.2 Fase II: Análise e Quantificação dos artigos . . . . . . . . . . . . . . . . . 19
3.3 Fase III: Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . 24
Capı́tulo 4—Estatı́stica Gap Temporal 25

4.1 Visão Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Capı́tulo 5—Resultados Experimentais 33

5.1 Configuração dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . 33
5.2 Análise Quantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.1 Experimentos sem ruı́do . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.2 Experimentos com ruı́do . . . . . . . . . . . . . . . . . . . . . . . 39
5.2.3 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Capı́tulo 6—Conclusão 45
v
vi SUMÁRIO
Apêndice A—Conceitos Fundamentais 51

A.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
A.2 Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
A.3 Série Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
A.3.1 Estocasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
A.3.2 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
A.3.3 Linearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
A.4 Modelagem: Estatı́stica e Sistemas Dinâmicos . . . . . . . . . . . . . . . 60
A.4.1 Modelagem baseada em Estatı́stica . . . . . . . . . . . . . . . . . 60
A.4.2 Modelagem baseada em Sistemas Dinâmicos e Teoria do Caos . . 61
LISTA DE FIGURAS
2.1 (a) Representação dos dados e (b) Dispersão dos dados Wk com a variação
do número de grupos k (TIBSHIRANI; WALTHER; HASTIE, 2001) . . . 10
2.2 Representação da distribuição de referência . . . . . . . . . . . . . . . . . 11
∗
2.3 (a) Função log(Wk ) (O) e log(Wkb ) (E) utilizando o método de Monte
Carlo e (b) Curva Gap . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Caminho de deformação (warping path) entre duas séries temporais . . . 12
2.5 Série temporal produzida pelo sistema Lorenz (à esquerda) e a série des-
dobrada no espaço fase (à direita) (RIOS, 2013). . . . . . . . . . . . . . . 14
4.1 Fluxo da estatı́stica Gap Temporal utilizando Sistemas Dinâmicos . . . . 28

4.2 Desdobramento de um conjunto de séries temporais na mesma dimensão
embutida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 Sistemas Dinâmicos na etapa de Monte Carlo . . . . . . . . . . . . . . . 31
5.1 Sistema de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.2 Sistema de Rössler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.3 Série temporal caótica criada pela equação Logistic . . . . . . . . . . . . 34
5.4 Mapeamento Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.5 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
gistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
renz e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
renz e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
renz e Rössler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.9 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Röss-
ler e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
ler e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
renz, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
renz, Rössler e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
renz, Rössler e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
vii
viii LISTA DE FIGURAS
ler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
renz, Rössler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . 39
gistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
renz e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
renz e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
renz e Rössler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
ler e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
ler e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
renz, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
renz, Rössler e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
renz, Rössler e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
ler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
renz, Rössler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . 43
A.1 Método Particional, com K grupos igual a 3. . . . . . . . . . . . . . . . . 52

A.2 Algoritmo Hierárquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
A.3 Método baseado em densidade . . . . . . . . . . . . . . . . . . . . . . . . 53
A.4 Método baseado em densidade em diferentes formas . . . . . . . . . . . . 54
A.5 Método baseado em modelo, algoritmo Self-Organizing Map (SOM) . . . 54
A.6 Método baseado em grid (LIAO; LIU; CHOUDHARY, 2004) . . . . . . . 55
A.7 Procedimento de agrupamento. O processo básico de análise de grupos
consiste em quatro etapas com um caminho de feedback. Essas etapas
estão intimamente relacionadas entre si e determinam os grupos derivados
– adaptado de (XU; WUNSCH, 2008). . . . . . . . . . . . . . . . . . . . 56
A.8 Série Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
A.9 Decomposição de Séries Temporais . . . . . . . . . . . . . . . . . . . . . 58
A.10 Expoente de Hurst com análise R/S - adaptado de (QIAN; RASHEED,
2004). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
LISTA DE TABELAS
3.1 Número de artigos encontrados pela Revisão Sistemática. . . . . . . . . . 19

3.2 Número de artigos publicados por ano. . . . . . . . . . . . . . . . . . . . 20
3.3 Índices mais utilizados na validação de agrupamento de séries temporais. 23
ix
Capı́tulo
1
INTRODUÇÃO
1.1 CONTEXTUALIZAÇÃO E MOTIVAÇÃO
Atualmente, grandes volumes de dados são coletados e produzidos por diferentes siste-
mas. Para exemplificar essa afirmação, mais de 5,8 bilhões de buscas são realizadas em
repositórios do Google (PRATER, 2019) e cerca de 12,1TB de imagens são gerados por
satélites da NASA todos os dias (GOREY, 2017). Além de grandes corporações, as pes-
soas passaram a produzir grandes volumes de dados com a popularização de dispositivos
de acesso à Internet e o surgimento das redes sociais.
Esse aumento significativo na quantidade de dados tem dificultado a tarefa de especi-
alistas na análise e extração de novas informações. Buscando superar essas dificuldades,
técnicas de Aprendizado de Máquina (AM) têm sido propostas visando induzir hipóteses
que sejam capazes de descrever relações entre os dados analisados. A indução destas
hipóteses ocorre de acordo com o paradigma de aprendizado (MITCHELL et al., 1997;
BISHOP, 2006; FACELI et al., 2011), o qual pode ser organizado em supervisionado, não-
supervisionado, semi-supervisionado e baseado em reforço. A pesquisa apresentada neste
projeto foi planejada considerando o paradigma não-supervisionado, no qual métodos
são ajustados sobre as caracterı́sticas (atributos) dos dados, visando extrair padrões sem
considerar qualquer informação previamente fornecida por especialistas.
Neste paradigma, destacam-se os algoritmos de agrupamento, cujo principal objetivo
é encontrar estruturas, de maneira que dados pertencentes a um mesmo grupo com-
partilhem caracterı́sticas ou propriedades relevantes para um determinado problema em
estudo (JAIN; DUBES et al., 1988; FACELI et al., 2011). Para avaliar objetivamente
e quantitativamente se a estrutura derivada do agrupamento é significativa, faz-se ne-
cessário utilizar critérios de validação (XU; WUNSCH, 2008), os quais implementam
ı́ndices que têm como objetivo testar e avaliar a qualidade dos grupos obtidos. Conforme
discutido em (XU; WUNSCH, 2008; THEODORIDIS; KOUTROUMBAS, 2006; JAIN;
DUBES et al., 1988; FACELI et al., 2011), tais critérios são organizados em três catego-
1
2 INTRODUÇÃO
rias: externos, relativos e internos1 . Critérios externos analisam o resultado produzido

por um algoritmo de agrupamento visando comprovar alguma hipótese previamente espe-
cificada sobre os dados. Os critérios relativos são amplamente utilizados para comparar
diferentes métodos de agrupamento ou diferentes configurações de parâmetros. Neste
caso, não é necessário estabelecer nenhuma suposição prévia sobre dados. Por fim, os
critérios internos são usualmente aplicados para identificar o melhor número de grupos
existentes em bases de dados. Esses critérios analisam as estruturas obtidas, conside-
rando apenas o próprio conjunto de dados. Por exemplo, o melhor ajuste entre uma
determinada estrutura obtida e o conjunto de dados pode ser explicado pela matriz de
similaridade calculada entre pares de instâncias2 .
Ao analisar estudos publicados na literatura, foi possı́vel notar que grande parte dos
algoritmos de agrupamento e validação foi desenvolvida assumindo que o processo de co-
leta de informações acontece de maneira independente e identicamente distribuı́da (iid ).
Entretanto, quando existe, por exemplo, uma relação de dependência temporal entre in-
tervalos de coletas, i.e., o valor de uma observação atual está relacionado com um ou mais
valores passados, então, torna-se necessário criar novos algoritmos de agrupamento e de
validação ou adaptar aqueles existentes na literatura. O desenvolvimento ou adaptação
de algoritmos para agrupamento de dados com dependência temporal, como séries tem-
porais, tem sido proposto por diversos pesquisadores. Por exemplo, a distância DTW
(Dynamic time warping) (BERNDT; CLIFFORD, 1994) tem sido amplamente utilizada
em diversas tarefas de AM no lugar das variações das distâncias de Minkowski quando os
dados possuem dependência temporal. Desta forma, algoritmos de agrupamento para da-
dos iid podem ser aplicados sobre séries temporais, uma vez que sua execução é realizada
sobre uma matriz de distâncias previamente calculada usando DTW.
No entanto, a validação do agrupamento obtido sobre tais dados ainda é um problema
em aberto como foi observado com a execução de uma Revisão Sistemática da Literatura,
apresentada na Seção 3. De acordo com essa revisão, o número de trabalhos propostos
visando apresentar um novo ı́ndice ou critério interno de validação é consideravelmente
inferior, enfatizando que este problema não tem sido amplamente abordado na literatura.
Essa limitação motivou o desenvolvimento desta pesquisa, cuja motivação e objetivo são
apresentados na próxima seção.
1.2 MOTIVAÇÃO E OBJETIVO
A Revisão Sistemática da Literatura, que foi executada durante a fase de planejamento

desta proposta de mestrado, demonstrou que o desenvolvimento de pesquisas com ênfase
na validação de agrupamento realizado sobre séries temporais, especialmente utilizando
ı́ndices de validação do critério interno, ainda é um problema em aberto.
Visando solucionar esse problema, este projeto de mestrado tem como principal obje-
tivo desenvolver um novo ı́ndice interno de validação. Este novo ı́ndice será baseado na
1
Alguns estudos organizam os critérios de validação em apenas duas categorias, externos e internos,
sendo os critérios relativos considerados um subconjunto dos internos. Neste trabalho, contudo, adotou-se
a taxonomia proposta por (XU; WUNSCH, 2008).
2
Neste projeto, cada exemplo presente em uma base de dados é referenciado como instância ou objeto.
1.3 ORGANIZAÇÃO DO TRABALHO 3
estatı́stica Gap, a qual é comumente utilizada em agrupamento de dados iid. De maneira

resumida, essa estatı́stica visa comparar uma distribuição nula de referência apropriada
com dispersões intra-cluster calculadas sobre as partições produzidas pelos algoritmos
de agrupamento. Nesta comparação, a principal etapa está relacionada com distribuição
nula de referência, a qual depende da geração de conjuntos de dados sintéticos produzidos
considerando uma distribuição uniforme por meio do método de Monte Carlo.
De acordo com a estatı́stica Gap original, essa geração é realizada considerando que
os novos dados sintéticos seguem uma distribuição uniforme limitada pelo hiperplano
definido pela dimensão dos atributos. Entretanto, tratando-se de séries temporais, a
geração desses novos dados devem respeitar os relacionamentos entre suas observações.
Além disso, a limitação imposta pelo hiperplano é mais complexa devido aos diferentes
tamanhos e comportamentos das séries temporais analisadas.
Diante deste cenário, este trabalho de mestrado apresenta um novo ı́ndice de validação
interno que realiza três modificações na estatı́stica Gap original. A primeira modificação
utiliza a medida DTW, a qual é uma escolha usual para calcular distância entre séries
temporais. Em seguida, foi realizada uma substituição do algoritmo K-means pelo algo-
ritmo K-medoid. Embora sejam algoritmos com comportamentos similares, essa troca foi
necessária porque a medida DTW não garante a propriedade de desigualdade triangu-
lar, exigida em métricas de distância. Logo, essa limitação, no contexto deste trabalho,
poderia produzir grupos vazios, o que não é conceitualmente aceito na literatura de apren-
dizado não supervisionado (XU; WUNSCH, 2008). Finalmente, como prova de conceito,
definiu-se que o escopo deste projeto seria no tratamento de séries temporais com com-
portamento caótico. Nesse sentido, optou-se por utilizar ferramentas da área de Sistemas
Dinâmicos e Teoria do Caos (ALLIGOOD; SAUER; YORKE, 1997) para produzir novas
séries sintéticas utilizadas pelo método de Monte Carlo na estatı́stica Gap.
1.3 ORGANIZAÇÃO DO TRABALHO

Maiores informações sobre cada etapa da pesquisa realizada nesse projeto de mestrado
serão apresentadas nas seguintes seções: na Seção 2, a fundamentação teórica desta
pesquisa é apresentada destacando conceitos de validação de agrupamento, Análise de
Séries Temporais e ferramentas de Sistemas Dinâmicos. Em complemento a esta seção,
o Apêndice A apresenta assuntos fundamentais para o estudo desta dissertação de mes-
trado. Na Seção 3, é apresentada uma Revisão Sistemática da Literatura, contendo os
trabalhos encontrados sobre ı́ndices de validação no agrupamento de dados temporais. A
Seção 4 apresenta a proposta deste mestrado. Na Seção 5 são discutidos os resultados
experimentais desenvolvidos como prova de conceito do método proposto. E por fim, a
Seção 6 discute a conclusão deste trabalho de mestrado.
Capı́tulo
2
FUNDAMENTAÇÃO TEÓRICA
2.1 CONSIDERAÇÕES INICIAIS
Este capı́tulo apresenta, de maneira resumida, os conceitos fundamentais explorados nesta

dissertação de mestrado. Primeiramente, apresenta-se uma visão geral sobre validação
de agrupamento. Em seguida, a medida de distância DTW e os conceitos básicos so-
bre Sistemas Dinâmicos e Teoria do Caos, utilizados no novo ı́ndice de validação são
discutidos em detalhes. Além da fundamentação teórica apresentada neste capı́tulo, o
apêndice A discute outros conceitos básicos necessários para uma melhor compreensão
desta dissertação.
2.2 VALIDAÇÃO DE AGRUPAMENTO
Validação de agrupamento são métodos quantitativos e objetivos que avaliam os resul-

tados das estruturas de grupos (partições) produzidas por métodos de Aprendizado de
Máquina Não-Supervisionado (XU; WUNSCH, 2008). Os resultados fornecidos por algo-
ritmos de agrupamento podem ser avaliados de dois modos (JAIN; DUBES et al., 1988):
(i) através de técnicas ad hoc, os quais são baseadas na área de aplicação, i.e., utilizando
conhecimento prévio fornecido por especialistas no processo de escolha sobre o melhor
particionamento; (ii) uso de técnicas automáticas para avaliação de agrupamento sem
a necessidade de um especialista da área. Nesta seção, esses modos são explorados por
meio de três critérios de validação de estruturas de agrupamento.
2.2.1 Critério Externo
Critérios externos medem o desempenho do agrupamento combinando uma estrutura

obtida com informações pré-estabelecidas. Em resumo, tais critérios medem o grau de
correspondência entre o número de grupos estimado por algoritmos e os rótulos de ca-
tegoria atribuı́dos a priori (JAIN; DUBES et al., 1988). Para melhor compreender esses
5
6 FUNDAMENTAÇÃO TEÓRICA
critérios, considere P como sendo uma partição pré-definida a partir de um dado con-
junto de dados X composto por N instâncias1 e seja C uma partição obtida por um
algoritmo de agrupamento. A avaliação por critérios externos é, então, conduzida pela
comparação entre C e P . Assim, sendo xi e xj pares de instâncias de X, há quatro
possı́veis organizações dessas instâncias em C e P (XU; WUNSCH, 2008):
• Caso 1: xi e xj pertencem aos mesmos grupos de C e a mesma categoria de P .
• Caso 2: xi e xj pertencem aos mesmos grupos de C, mas diferentes categorias de

P.
• Caso 3: xi e xj pertencem a diferentes grupos de C, mas a mesma categoria de P .
• Caso 4: xi e xj pertencem a diferentes grupos de C e diferentes categorias de P .
Correspondentemente, os casos 1, 2, 3 e 4 são denotados como a, b, c e d, respectiva-

mente, sendo M = a + b + c + d. Desse modo, através da relação entre os diferentes casos
é possı́vel determinar alguns ı́ndices externos que são comumente usados na literatura
para medir a correspondência entre C e P (XU; WUNSCH, 2008):
• Rand Index
(a + d)
R= (.)
M
• Jaccard coefficient
a
J= (.)
(a + b + c)
• Fowlkes and Mallows Index
r
a a
FM = · (.)
(a + b) (a + c)
• Γ statistics
M a − m1 · m2
Γ =p (.)
m1 · m2 (M − m1 )(M − m2 )
onde m1 = a + b e m2 = a + c.
2.2.2 Critério Relativo

Critérios relativos concentram-se na comparação de resultados de agrupamento gera-
dos por diferentes algoritmos ou pelo mesmo algoritmo com diferentes configurações de
parâmetros (XU; WUNSCH, 2008). Neste caso, não é necessário estabelecer nenhuma
suposição prévia sobre dados, como determinado pelos critérios externos. Por outro lado,
necessita-se de diversos testes realizados pelo usuário até ser encontrada uma estrutura de
agrupamento ideal. Por exemplo, para muitos algoritmos de agrupamentos particionais,
1
Neste trabalho, instâncias em base de dados são referenciadas, ainda como exemplo ou objeto
2.2 VALIDAÇÃO DE AGRUPAMENTO 7
o número de grupos é um parâmetro especificado pelo usuário. Embora em alguns casos

esse parâmetro possa ser estimado em termos de experiência do usuário ou informações a
priori, em geral, o número de grupos é estimado a partir de diferentes execuções de algo-
ritmos de grupamento sobre o conjunto de dados (XU; WUNSCH, 2008). Neste contexto,
a determinação da melhor estrutura de agrupamento é realizada por diferentes execuções
do algoritmo e a aplicação de ı́ndices relativos para diferentes valores do parâmetro tes-
tado. Assim, tais ı́ndices retornarão valores referentes ao agrupamento que indicarão a
qualidade da estrutura.
Podem ser citados como ı́ndices de critério relativo (VENDRAMIN; CAMPELLO;
HRUSCHKA, 2009):
• Calinski-Harabasz Index (VRC)
trace(B) N −k
V RC = × (.)
trace(W) k−1
N é o número total de dados em uma partição em k grupos mutuamente disjuntos.

W e B podem ser definidos como:
Ni
k X
X
W = (xi (l) − x̄i )(xi (l) − x̄i )T (.)
i=1 l=1
k
X
B= Ni (x̄i − x̄)(x̄i − x̄)T (.)
i=1
Ni é o número de objetos atribuı́dos ao ith grupo, xi (l) é o lth objeto atribuı́do

a esse grupo, x̄i é o vetor n-dimensional das médias amostrais dentro do grupo,
chamado de centróide e x̄ é o vetor n-dimensional da média global da amostra,
chamado de centróide dos dados. O valor ótimo de k grupos é aquele que maximiza
o ı́ndice VRC.
• Davies-Bouldin Index
É um ı́ndice que se assemelha ao VRC, de modo que também é baseado na relação
de distâncias intra-cluster e inter-cluster.
k
1X
DB = Di (.)
k i=1
Di = maxj6=i Di,j . O termo (Di,j ) é a relação intra-cluster e inter-cluster para o

ith e o jth grupo, tal que, Di,j = (d̂i + dˆj )/di,j , onde d̂i e di,j são as distâncias
médias intra-cluster para o ith grupo e a distância inter-cluster entre os grupos i e
j, respectivamente. O valor ótimo de k grupos é aquele que minimiza esse ı́ndice.
• Dunn’s Index
Índice baseado em medidas geométricas de compactação e separação de grupos.
 
 δp,q 
DN = min (.)
p,q∈(1,...,k)∀p6=q  max ∆l 
l∈(1,...,k)
∆l é o diâmetro do lth grupo e δp,q é a distância definida entre os grupos p e q. A

distância δp,q é originalmente definida como a distância mı́nima entre um par de
objetos entre os grupos p e q. O valor ideal de k grupos é aquele que maximiza o
ı́ndice Dunn.
• Silhouette
Este ı́ndice também é baseado em considerações geométricas referentes à com-
pactação e separação de grupos. Considera-se que o jth objeto do conjunto de
dados xj pertence a um dado grupo p ∈ {1, ..., k}. Então, a distância média deste
objeto para todos os outros objetos no grupo p é denotada por ap,j . Finalmente,
bj é a menor distância entre xj e todos os outros objetos do conjunto de dados que
não pertence ao grupo p, i.e., ∀q ∈ {1, ..., k}, q 6= p. Então, a silhueta (silhouette)
do objeto individual x(j) é definido como:
bj − ap,j
sx(j) = (.)
max{ap,j , bj }
Neste caso, quanto maior sx(j) , melhor será a atribuição de x(j) ao grupo p. Na
existência de apenas um grupo, sx(j) = 0. Portanto, o cálculo da Silhouette é
definido como a média de sx(j) tal que j = 1, 2, ..., N .
N
1 X
SW C = sx(j) (.)
N j=1
A melhor partição é alcançada quando SWC é maximizado, isto implica na mini-

mização da distância intra-cluster ap,j e na maximização da distância inter-cluster
bj .
2.2.3 Critério Interno

Critérios internos avaliam a estrutura de agrupamento sem nenhuma informação externa
sobre os dados (XU; WUNSCH, 2008), assim como o critério relativo. Todavia, o critério
interno é usualmente aplicado para identificar o melhor número de grupos existentes
em bases de dados. Assim sendo, esse critério possui um diferencial em que não há
necessidade do usuário fazer diversos testes com diferentes algoritmos ou variações de
parâmetros até encontrar a melhor estrutura para o agrupamento. Dessa forma, apenas
com a aplicação de uma técnica é possı́vel obter o número ideal de grupos. A especificação
2.2 VALIDAÇÃO DE AGRUPAMENTO 9
do número de grupos tem fundamental importância para o agrupamento, pois a supe-

restimação ou a subestimação de grupos afeta a qualidade da estrutura resultante. De
maneira geral, uma partição com muitos grupos afeta a verdadeira estrutura de agrupa-
mento, tornando difı́cil interpretar e analisar os resultados. Por outro lado, uma partição
com poucos grupos pode causar a perda de informações (XU; WUNSCH, 2008).
No contexto geral, diferentemente dos ı́ndices externos e relativos, a literatura não
apresenta muitas publicações de ı́ndices internos. Sendo assim, os mais conhecidos são
o coeficiente de correlação Cophenetic utilizado para validar estruturas de agrupamento
hierárquicas (XU; WUNSCH, 2008) e a estatı́stica Gap (Gap Statistic) (TIBSHIRANI;
WALTHER; HASTIE, 2001) utilizada para validar estruturas de agrupamento obtidas a
partir de algoritmos particionais e hierárquicos.
Conforme mencionado na introdução deste projeto, a metodologia utilizada para de-
senvolvimento desta pesquisa será baseada no ı́ndice interno de validação fornecido pela
estatı́stica Gap (TIBSHIRANI; WALTHER; HASTIE, 2001). Este ı́ndice visa comparar
as dispersões intra-cluster das partições obtidas a partir de algoritmos de agrupamento
com uma distribuição nula de referência apropriada. De maneira resumida, essa es-
tatı́stica é calculada considerando alguns passos que são demonstrados nessa seção.
Inicialmente, o conjunto de dados, conforme Figura 2.1(a), é agrupado usando algum
algoritmo como, por exemplo, K-means ou Hierárquico. Esse agrupamento é realizado
variando o número total de grupos no intervalo k = {1, 2, 3, . . . , K}. Em seguida, para
cada partição obtida, calcula-se a dispersão Wk conforme apresentado na Equação .,
sendo C· um grupo e d·· uma medida de distância. A representação da dispersão também
pode ser vista na Figura 2.1(b).
X
Dr = dii0 (.)
i,i0 ∈Cr
k
X 1
Wk = Dr (.)
r=1
2n r
Utiliza-se, então, o método de Monte Carlo para gerar B conjuntos de dados de

referência considerando, por exemplo, uma distribuição uniforme, conforme mostrado em
pontos vermelhos na Figura 2.2. Para cada conjunto de dados de referência, realiza-se
um agrupamento e calcula-se sua dispersão Wk∗ e a estatı́stica Gap considerando b =
{1, 2, . . . , B} e k = {1, 2, 3, . . . , K}, conforme Equação .. A Figura 2.3(a) demonstra
os valores das dispersões Wk e Wkb com a função logarı́tmica ao longo de k grupos.
X
1 ∗
GAP (k) = log(Wkb ) − log(Wk ) (.)
B b
Na sequência, a partir da Equação ., calcula-se o desvio padrão sk (Equação .).

X
¯l = 1 ∗
log(Wkb ) (.)
B b
" #1/2
1 X 2
∗
) − ¯l

sdk = log(Wkb (.)
B b
s
1
sk = sdk 1+ (.)
B
Por fim, o melhor número de grupos é encontrado considerando a Equação ..
Segundo os autores, a estimativa de melhor número de grupos será definida pelo valor
que maximiza a estatı́stica Gap, conforme mostra a Figura 2.3(b).
k̂ = menor k tal que GAP (k) > GAP (k + 1) − sk+1 (.)

Wk
x2
x1 número de clusters k
(a) (b)
Figura 2.1 (a) Representação dos dados e (b) Dispersão dos dados Wk com a variação do
número de grupos k (TIBSHIRANI; WALTHER; HASTIE, 2001)
Conforme discutido na introdução deste trabalho, três modificações foram realizadas

na estatı́stica Gap original para validação de partições obtidas sobre dados temporais.
A primeira modificação é baseado na medida DTW, descrita na próxima seção, a qual é
amplamente utilizada para cálculo de distância entre séries temporais.
2.3 DISTÂNCIA DTW

Em geral, as medidas utilizadas para calcular distâncias entre objetos em uma base de
dados assumem que os atributos são iid. Entretanto, para dados que não possuem essa
caracterı́stica, por exemplo quando há dependência temporal, existem outras medidas
que podem ser utilizadas, como a distância de Hausdorff, modificada Hausdorff (MODH),
baseada em HMM, Dynamic Time Warping (DTW) e Sub-Sequência Comum Mais Longa
(LCSS) (AGHABOZORGI; SHIRKHORSHIDI; WAH, 2015).
2.3 DISTÂNCIA DTW 11
Figura 2.2 Representação da distribuição de referência

log(Wk)
Gap
número de clusters k número de clusters k

(a) (b)
∗ ) (E) utilizando o método de Monte Carlo e (b)

Figura 2.3 (a) Função log(Wk ) (O) e log(Wkb
Curva Gap
É importante destacar que essa seção não tem o objetivo de realizar uma ampla
discussão sobre as principais medidas de distância (ou similaridade) que podem ser apli-
cadas a séries temporais. Para maiores informações sobre tais medidas, recomenda-se a
leitura dos artigos publicados por Duarte et al. (2019) e Aghabozorgi, Shirkhorshidi e
Wah (2015).
Dentre essas medidas, a mais referenciada na literatura é a DTW (TORMENE et al.,
2009; DING et al., 2008), que usa uma abordagem de programação dinâmica para alinhar
pares de séries temporais e calcular a distância entre elas. Para melhor compreender essa
medida, considere as séries temporais S = {s1 , s2 , ..., si , ..., sn } e T = {t1 , t2 , ..., tj , ..., tm }.
O algoritmo DTW organiza essas séries em uma matriz n × m, onde cada ponto da
matriz (i, j), corresponde a um alinhamento entre os elementos si e tj . Um caminho de

deformação ou warping path (W ), mapeia ou alinha os elementos de S e T , de modo que a
distância entre eles seja minimizada (BERNDT; CLIFFORD, 1994), conforme representa
a Equação ., onde d(·, ·) é a distância (e.g. euclidiana) entre dois elementos das séries
temporais.
p
DT W (X, Y ) = dist(Sn , Tm ) (.)

dist(Si−1 , Tj )

dist(Si , Tj ) = d(Si , Tj ) + min dist(Si , Tj−1 ) (.)

dist(Si−1 , Tj−1 )

A Figura 2.4 ilustra o caminho de deformação (warping path) entre duas séries tem-
porais ruidosas apresentadas como rótulo dos eixos x e y.
Timeseries alignment
2 1 0 −1
1000
800 600
Reference index
d$index2
400 200
0
0.0 0.5 1.0
yts
xts
d$index1
0 200 400 600 800 1000

Query index
Figura 2.4 Caminho de deformação (warping path) entre duas séries temporais
2.4 ANÁLISE DE SÉRIES TEMPORAIS

Uma outra importante modificação realizada na estatı́stica Gap está relacionada com
a forma de geração de dados sintéticos no método de Monte Carlo. Nesta pesquisa,
tal modificação foi realizada levando em consideração que as séries temporais possuem
comportamento caótico e, como consequência, suas observações são analisadas de maneira
mais adequada por meio de ferramentas disponı́veis na área de Sistemas Dinâmicos e
Teoria do Caos, conforme discutido nessa seção.
2.4 ANÁLISE DE SÉRIES TEMPORAIS 13
2.4.1 Sistemas Dinâmicos
A análise de séries temporais com comportamento caótico pode ser realizada por meio
de sua transformação do domı́nio temporal para o espaço fase, o qual também é re-
ferenciado como coordenadas de atraso (ALLIGOOD; SAUER; YORKE, 1997; RIOS,
2013). Esses espaços foram inicialmente estudados por Whitney (1936a), que aplicou
variedades diferenciais para reconstruir funções em espaços multidimensionais. Com base
nessa reconstrução, Whitney (1936a) propôs o seu teorema de imersão, que afirma que
os atratores são melhor compreendidos quando as séries temporais são desdobradas em
um espaço de alta dimensão (RIOS, 2013).
Segundo Alligood, Sauer e Yorke (1997), os atratores são definidos pela presença de
pontos fixos e órbitas que definem como as observações das séries temporais evoluem ao
longo do tempo. Nesse sentido, seja f um mapa em R e p um número tal que f (p) = p. Se
todos os pontos próximos a p, levando em consideração uma vizinhança ν, forem atraı́dos
para p, então p é referido como um ponto fixo de atração. Por outro lado, se todos os
pontos se afastarem de p, então é chamado de ponto fixo de repulsão. Da mesma forma,
uma órbita é uma região no espaço fase, em que as observações são atraı́das ou repelidas
(RIOS, 2013).
Takens (1981) provou em seu teorema que dada uma série {x0 , x1 , ..., xn−1 } esta pode
ser reconstruı́da no espaço fase xn (m, τ ) = xn , xn+τ , ..., xn+(m−1)τ , tendo m a dimensão
embutida e τ representando o atraso de tempo (ou dimensão de separação ou dimensão
de atraso). A dimensão embutida define basicamente o número de eixos necessários para
desdobrar as séries temporais no espaço fase. A dimensão de separação, por outro lado,
é importante para representar o comportamento sazonal de séries temporais, indicando
o deslocamento necessário entre as observações passadas (RIOS, 2013).
A estimação da dimensão embutida foi estudada por Takens (1981) e Mañé (1981), que
confirmou que o limite superior para a dimensão embutida De ∈ N pode ser definido pela
dimensão fractal Df conforme a equação De > 2, 0·Df . No entanto, estudos realizados por
Kennel, Brown e Abarbanel (1992) demonstraram que a dimensão obtida a partir dessa
equação é, em geral, maior que o necessário, adicionando mais complexidade e tempo de
execução ao analisar o espaço fase correspondente (KENNEL; BROWN; ABARBANEL,
1992; RIOS, 2013).
Para superar essa desvantagem, Kennel, Brown e Abarbanel (1992) propuseram o
método False Nearest Neighbors (FNN), que analisa a vizinhança para cada observação
no espaço fase. Em resumo, este método começa a calcular a distância entre as observações
considerando que a dimensão embutida é igual a um. Em seguida, uma nova dimensão
é adicionada e as distâncias são novamente calculadas. Se as distâncias aumentam, as
observações são consideradas como falsos vizinhos, ou seja, as observações que estão
juntas são separadas em dimensões de maior incorporação, eliminando os falsos vizinhos
e evidenciando a necessidade de uma reconstrução dimensional mais alta. Se, ao adicionar
uma nova dimensão, a taxa do vizinho falso for zero, o total de dimensões será considerado
como dimensão embutida (ALLIGOOD; SAUER; YORKE, 1996; RIOS, 2013).
Formalmente, o método False Nearest Neighbors considera uma dimensão embutida
m, em que o vizinho r-ésimo próximo a y(n) é definido por y r (n). A distância Euclidiana
entre a observação y(n) e o r-ésimo vizinho esta presente na Equação .. Adicionando
uma nova dimensão, a série temporal é reconstruı́da adicionando coordenadas (m+1) para
cada vetor representando uma observação y(n), como representado pelo termo x(n + mT )
na Equação .. Assim, este método avalia a variação de distância à medida que novas
dimensões são adicionadas de acordo com a Equação ..
m−1
X
2
Rm (n, r) = (x(n + kT ) − x(r) (n + kT ))2 (.)
k=0
2 2
Rm+1 (n, r) = Rm (n, r) + (x(n + mT ) − x(r) (n + mT ))2 (.)
s
2
Rm+1 (n, r) − Rm 2 (n, r) x(n + mT ) − x(n) (n + mT )
Vn,r = 2 (n, r)
= 2 (n, r)
(.)
Rm Rm
Segundo Kennel, Brown e Abarbanel (1992), se a variação da distância Vn,r é maior
que um limite Rtol , então as observações são consideradas como falsos vizinhos, sendo um
valor aceitável para este limite Rtol ≥ 10. Para exemplificar, a Figura 2.5 demonstra uma
série temporal produzida pelo sistema Lorenz (à esquerda), em seguida, segue a mesma
série sendo desdobrada no espaço fase com valores de m = 3 e τ = 5 (à direita).
Figura 2.5 Série temporal produzida pelo sistema Lorenz (à esquerda) e a série desdobrada
no espaço fase (à direita) (RIOS, 2013).
A ferramenta apresentada nesta seção permite analisar, no espaço fase, as séries que
serão agrupadas. Para isso, a geração de séries sintéticas precisa respeitar os limites no
hiperplano onde as observações foram produzidas. Neste sentido, propõe-se criar séries
sintéticas visando manter informações sobre as dimensões embutida e de separação para
2.4 ANÁLISE DE SÉRIES TEMPORAIS 15
que os testes de dispersão respeitem tais limites como discutido na metodologia deste
trabalho.
Capı́tulo
3
ESTADO DA ARTE
Visando identificar ı́ndices utilizados especificadamente na validação de agrupamento de

dados com dependência temporal, foi realizada uma Revisão Sistemática da Literatura
(Systematic Literature Review – SLR) para melhor compreender as pesquisas produzida
sobre o tema. Os resultados obtidos com SLR são discutidos em três fases: Fase I
– definição dos critérios de busca nos repositórios; ase II – análise e quantificação da
qualidade dos artigos coletados; e, por fim, Fase III – conclusões obtidas a partir dos
artigos analisados.
3.1 FASE I: CRITÉRIOS DE BUSCA NOS REPOSITÓRIOS

Nesta fase, foram determinados os critérios utilizados para selecionar os trabalhos rela-
cionados ao problema abordado nesta pequisa. Dessa forma, foram definidos o objetivo
da pesquisa, as questões principal e secundárias relacionadas ao tema em estudo, os re-
positórios de busca, a lista de palavras chaves, os critérios de inclusão e exclusão, e por
fim, o processo geral de execução.
Conforme discutido anteriormente, o objetivo desta pesquisa é encontrar critérios
internos utilizados na validação do agrupamento de séries temporais. Com base neste
objetivo, elaborou-se a seguinte questão principal:
Quais são os critérios internos utilizados na validação do agrupamento de séries

temporais?
Além desta pergunta principal, foram definidas perguntas secundárias que estão di-
retamente associadas à validação da pesquisa proposta. Este conjunto de perguntas são
fundamentais para discutir as aplicações práticas da pesquisa, técnicas de avaliação e o
entendimento das tendências de publicação. Desta forma, foram elaboradas as seguintes
questões secundárias:
QS.1 - Em quais tipos de aplicações práticas pode-se utilizar a validação de agrupa-
mento para séries temporais?
17
18 ESTADO DA ARTE
QS.2 - Como a validação de agrupamento é utilizada?

QS.3 - Por que utilizar validação de agrupamento para séries temporais?
QS.4 - Quais são os principais ı́ndices usados na validação do agrupamento de séries
temporais?
QS.5 - Com que frequência os artigos são publicados por ano?
QS.6 - Quais são as limitações desses ı́ndices?
Após definir tais perguntas, foram selecionados os repositórios de pesquisa onde os
estudos relacionados foram obtidos. Neste contexto, considerou-se apenas repositórios que
aceitam consultas usando palavras-chave e que são comumente utilizados pela comunidade
cientı́fica. Os repositórios escolhidos foram:
• Scopus (https://www.scopus.com/)
• ACM Digital Library (https://dl.acm.org/)
• IEEE Xplore Digital Library (https://ieeexplore.ieee.org/)
A linguagem padrão usada nesta revisão sistemática foi o inglês, ou seja, todos os
trabalhos escritos em outras lı́nguas foram descartados. Como próximo passo, foram
escolhidas as palavras-chave considerando a questão principal desta revisão:
• Organização de dados: Séries Temporais
• Objetivos: Critérios Internos
• Resultados: Validação de agrupamento
Com base nestas palavras-chave, definiu-se, então, a seguinte string de busca:
(“time series”) AND (“internal criteria”) AND (“cluster validity”)
Devido ao fato de que nenhum artigo relevante para o estudo foi encontrado nos
repositórios utilizando essa consulta em inglês, elaborou-se uma nova string de busca que
aborda um contexto mais amplo da pesquisa:
(“time series”) AND (“cluster validity”)
Além dos artigos retornados com as strings anteriores, optou-se por realizar uma
busca nos repositórios por trabalhos que, especificamente, utilizam a estatı́stica Gap
para validar agrupamentos em séries temporais. Para tanto, definiu-se outra string de
busca:
(”time series”) AND (”gap statistic”)

3.2 FASE II: ANÁLISE E QUANTIFICAÇÃO DOS ARTIGOS 19
Para filtrar trabalhos diretamente relacionados com o assunto abordado na revisão

sistemática, foi realizada uma avaliação dos artigos para definir quais seriam incluı́dos ou
não na revisão. Nessa filtragem, optou-se por incluir trabalhos que definem claramente os
critérios internos, externos ou relativos utilizados na validação de agrupamento de séries
temporais. Por outro lado, a exclusão de artigos foi realizada sempre que os trabalhos
não apresentassem um processo validação de agrupamento satisfatório. Além disso, fo-
ram descartados trabalhos que não realizaram uma apresentação clara de utilização de
validação e quando havia trabalhos redundantes.
Portanto, a Fase I apresenta as condições iniciais de seleção de artigos para revisão
sistemática. A próxima fase consiste na análise dos artigos selecionados nesta primeira
fase.
3.2 FASE II: ANÁLISE E QUANTIFICAÇÃO DOS ARTIGOS
Através da consulta realizada nos repositórios apresentados, foram encontrados um total

de 54 artigos, cuja distribuição em cada repositório está apresentado na Tabela 3.1. Após
a coleta, a inclusão ou exclusão dos artigos encontrados foi realizada pela leitura dos
tı́tulos e dos resumos. Como resultado, grande parte dos artigos foram excluı́dos por se
tratarem de trabalhos redundantes ou não apresentarem um estudo detalhado sobre o
uso de ı́ndices de validação no contexto de séries temporais. Portanto, depois da remoção
desse artigos restaram apenas 10 artigos que estão diretamente relacionados ao assunto
apresentado neste trabalho.
Tabela 3.1 Número de artigos encontrados pela Revisão Sistemática.

Repositório Número de artigos
ACM 1
IEEE 13
Scopus 40
Total 54
Inclusão 10
Exclusão 44
Visando responder a questão secundária QS.5, analisou-se a frequência de publicação

destes artigos por ano, a fim de encontrar trabalhos mais recentes e que correspondam
ao assunto abordado neste projeto de mestrado. Conforme pode ser observado na Tabela
3.2, nota-se que artigos têm sido publicados sobre esse tema com regularidade desde 2001,
apesar da baixa quantidade.
No primeiro artigo analisado, Fadili et al. (2001) apresentam uma estratégia explo-
ratória orientada a dados baseada em Unsupervised Fuzzy Clustering Analysis (UFCA),
validando sua estratégia ao analisar dados de fMRI (ressonância magnética funcional1 ).
Neste contexto, os autores adaptam e aplicam o algoritmo Fuzzy C-Means (FCM) aos da-
dos no domı́nio do tempo e um novo ı́ndice de validação de agrupamento é introduzido e
1
Medição da atividade cerebral para detectar mudanças associadas ao fluxo sanguı́neo.
20 ESTADO DA ARTE
Tabela 3.2 Número de artigos publicados por ano.

Ano Frequência
2001 1
2004 1
2007 1
2011 1
2015 1
2016 2
2017 2
2018 1
validado comparando com os ı́ndices CS, S e fuzzy. Tais ı́ndices têm por finalidade minimi-
zar a variância intra-cluster e maximizar a variância inter-cluster. De maneira resumida,
o trabalho propõe um novo ı́ndice de validação, denominado SCF, que tira vantagem dos
três ı́ndices citados anteriormente, levando em consideração a compactação, separação,
união e intersecção dos grupos obtidos. Os resultados demonstram a vantagem do ı́ndice
proposto (SCF) e sua eficácia para validação de dados no domı́nio do tempo.
O trabalho publicado por Himberg, Hyvärinen e Esposito (2004) apresenta experi-
mentos utilizando algoritmo hierárquico sobre dados de fMRI e dados de magnetoence-
falografia (MEG). O trabalho proposto baseia-se na execução do algoritmo Independent
Component Analysis (ICA), um modelo estatı́stico de propósito geral amplamente uti-
lizado na análise de dados de imagem cerebral. Sendo assim, os autores desenvolvem
um pacote chamado Icasso, com foco na implementação de um conjunto abrangente de
métodos suportados para análise e visualização exploratória dos dados. Em uma das fa-
ses deste trabalho, após a aplicação do algoritmo ICA, o usuário explora o agrupamento,
iniciando uma aplicação de visualização interativa. Assim, o mesmo examina a qualidade
dos grupos. Posteriormente, é possı́vel visualizar a matriz de similaridade entre todas as
instâncias e sua partição final obtida em um único gráfico, produzido a partir do método
de ligação average-link. Neste pacote é introduzido um ı́ndice de qualidade de grupo, Iq ,
que reflete sua compactação e seu isolamento. Esse ı́ndice é computado pela diferença
entre as similaridades médias intra-cluster e intercluster. Além desses ı́ndices, os autores
analisam os ı́ndices Dunn-like e R-index (IR ). Entretanto, a conclusão do trabalho é
que, muitas vezes, os ı́ndices produzem resultados diferentes dependendo do caráter dos
dados utilizados, sem indicação clara de superioridade geral. Logo, com base nos expe-
rimentos realizados, o trabalho não sugere nenhum ı́ndice vencedor definitivo. Por outro
lado, recomenda-se que a seleção final do número de grupos deve ser feito pelo usuário,
o qual pode explorar, de forma interativa, os resultados produzidos por diferentes nı́veis
de dendrograma.
No trabalho de Meyer-Bäse et al. (2007) são aplicados algoritmos de agrupamento,
tais como Kohonen’s self-organizing map, Minimal free energy vector quantizer e ”Neural
gas”network em séries temporais de imagens biomédicas em aplicações para: (i) análise
de dados de fMRI para mapeamento do cérebro humano; (ii) ressonância magnética
de contraste dinâmica para o diagnóstico de doença cerebrovascular; e (iii) ressonância
magnética de mama para a segmentação de lesões suspeitas de pacientes com câncer de

mama. Para a validação dos agrupamentos obtidos são utilizados três ı́ndices: (i) Kim;
(ii) Calinski Harabasz (CH); e (iii) intraclass. Apesar dos estudo experimental, os autores
afirmam que não é possı́vel determinar qual o melhor ı́ndice para validar agrupamento
em séries temporais de imagens biomédicas.
Maji e Paul (2011) aplicam o algoritmo Rough-fuzzy C-Means (RFCM) a fim de
descobrir grupos de genes co-expressos a partir de dados de microarray, que é uma análise
importante em genômica funcional. Uma comparação entre RFCM e outros algoritmos
de agrupamento foi realizada considerando cinco conjuntos de dados de séries temporais
de microarray de levedura. Os resultados obtidos foram validados com os ı́ndices Davies-
Bouldin e Silhouette. Com base nos resultados quantitativos desses ı́ndices, estimou-se
que o algoritmo RFCM produz melhor resultado de agrupamento do que os algoritmos
convencionais.
Salgado, Ferreira e Vieira (2017) demonstram em seu trabalho as vantagens do al-
goritmo Mixed Fuzzy Clustering (MFC) ao avaliar séries temporais de dados médicos
que descrevem a evolução de uma variável fisiológica. O calculo da distância entre as
séries foi realizado usando Dynamic Time Warping (DTW). A performance dos algorit-
mos comparados foi avaliada usando medidas de validação de agrupamento, mostrando
que o algoritmo proposto supera o Fuzzy C-Means. A validação foi realizada com os
ı́ndices interno de validação Xie-Beni (XB) e Dunn, os quais são comumente utilizados
no agrupamento fuzzy, e com os ı́ndices de validação externa Rand e precisão. Em geral,
o algoritmo MFC identifica grupos mais compactos do que o FCM, conforme expresso
pelo ı́ndice XB, em cada conjunto de dados testado. Nesse trabalho, os autores observam
que tipos diferentes de ı́ndices são usados para resolver diferentes tipos de problemas e
a seleção do melhor ı́ndice depende do tipo de dados, da técnica de agrupamento e, em
última análise, do objetivo do estudo.
Das e Padhy (2017) combinam os algoritmos Unsupervised Extreme Learning Machine
(US-ELM ) e Support Vector Machine (SVR), propondo um modelo hı́brido chamado
USELM-SVR. O algoritmo é comparado com os algoritmos SOM e k-means utilizando
dados de séries temporais da área financeira. Os dados de entrada são normalizados
e inseridos nos métodos de ı́ndice interno de validação para cálculo do número ótimo
de clusters. Assim, o algoritmo USELM-SVR executa os dados de entrada com base
no número ideal de clusters. Os ı́ndices considerados nos experimentos foram: Silhou-
ette, em que é preferı́vel valor de ı́ndice alto; Davies-Bouldin, preferı́vel valor de ı́ndice
baixo; Calinski-Harabasz, preferı́vel valor de ı́ndice alto; Krzanowski-Lai, preferı́vel valor
de ı́ndice alto; weighted inter-intra, preferı́vel valor de ı́ndice alto e homogeneity, preferı́vel
valor de ı́ndice alto. Os valores dos ı́ndices foram calculados para número de grupos vari-
ando de 2 a 6. Os resultados mostram que os melhores valores para os ı́ndices Silhouette,
Davies-Bouldin, weighted inter-intra e homogeneity foram obtidos usando 5 grupos. Os
ı́ndices Calinski-Harabasz e Krzanowski-Lai sugerem 2 grupos. Por fim, foi utilizado 5
grupos, sugerido pela maioria dos ı́ndices.
Homenda e Jastrzebska (2017) apresentam uma abordagem para modelagem de séries
temporais, sintéticas e reais, com Fuzzy Cognitive Maps. A pesquisa teve como ob-
jetivo introduzir meios algorı́tmicos para avaliar o Fuzzy Cognitive Map antes da fase
22 ESTADO DA ARTE
de treinamento. Assim, foi colocado como hipótese a aplicação de ı́ndices de validação

para contribuição do agrupamento e para avaliar vários modelos de FCM. Para validar
esta abordagem, foi conduzido um conjunto de experimentos utilizando cinco ı́ndices de
validação: (i) Calinski-Harabasz ; (ii) generalized Dunn index(GDI); (iii) PBM ; (iv) Si-
lhouette; e (v) Wemmert-Gancarski. Os resultados mostram que Fuzzy Cognitive Maps
projetado usando o ı́ndice Calinski-Harabasz tem qualidade superior e, após o treina-
mento, verifica-se a qualidade numérica de precisão do algoritmo sendo superior aos
demais algoritmos utilizados nos experimentos.
Fahiman et al. (2017) desenvolvem dois novos algoritmos que são heurı́sticas deri-
vadas do Fuzzy C-Means: Fuzzy c-Shapes plus (FCS+) e Fuzzy c-Shapes double plus
(FCS ++). Experimentos empı́ricos com 48 dados reais de séries temporais demonstram
que os algoritmos propostos superam algoritmos convencionais em termos de precisão e
eficiência. Para comprovar isto, são utilizados 4 ı́ndices externos de validação: (i) Rand ;
(ii) Adjusted Rand ; (iii) Variation of Information; e (iii) Normalized Mutual Information
. Cada ı́ndice foi avaliado dez vezes por diferentes execuções do FCS+ e FCS++. Todos
os quatro ı́ndices indicam que o FCS++ tem um desempenho ligeiramente superior ao
FCS+, que, por sua vez, é ligeiramente superior ao k-Shape, também utilizado como teste
de comparação.
Dai et al. (2018) exploram o agrupamento de séries temporais de sinal de eletro-
encefalografia (multi-trial EEG) e propõe uma nova abordagem baseada em centróide.
Chamado de MTEEGC, este algoritmo realiza o agrupamento de dados EEG multi-trial
de alta qualidade com relação à compactação intra-cluster, bem como a dispersão entre
grupos. Ao mesmo tempo, também demonstra a superioridade na precisão de agrupa-
mento quando comparado com mais de 10 algoritmos de agrupamento de séries temporais
através de experimentos usando critérios de validação de agrupamento em 5 conjuntos de
dados EEG multi-trial reais. Foram aplicados seis critérios para analisar o novo método,
incluindo três medidas de qualidade de agrupamento: (i) compactação intra-cluster (SIn );
−1
(ii) dispersão inter-cluster (SBe ); (iii) razão integrada (γ = SBe SIn ); e (iv) as medidas de
precisão de agrupamento Rand (RI), F-score e Fleiss’ kappa(k). Os resultados mostram
que MTEEGC não alcança os melhores resultados de SIn e SBe para todos os 5 conjuntos
de dados, mas obtém a maior razão integrada (γ) quando considera SIn e SBe . Como o
MTEEGC tem como objetivo produzir grupos de alta qualidade de forma que os testes de
EEG no mesmo grupo sejam altamente compactos, enquanto aqueles em grupos diferentes
sejam altamente separados. De maneira geral, o algoritmo garante maior compactação
intra-cluster ou maior dispersão inter-cluster, mas não necessarimente de maneira simul-
tanea. Do mesmo modo, quando avaliadas as medidas de precisão, MTEEGC não fornece
uma boa precisão, mas possui uma eficiência competitiva. Como consequência, MTEEGC
alcança a maior qualidade e precisão para agrupamento de dados EEG multi-trial quando
comparado aos demais 10 algoritmos de agrupamento de séries temporais.
De maneira diferente como tem sido abordado nos trabalhos citados anteriormente,
Ding, Noshad e Tarokh (2015) propõem um processo autoregressivo variante no tempo
(TVAR) para descrever séries temporais não-estacionárias e modelá-las como uma mistura
de múltiplos processos autorregressivos (AR) estáveis. Para isto, desenvolve uma nova
técnica baseada no ı́ndice interno de validação, gap statistic, para aprender o número
apropriado de filtros AR necessários para modelar séries temporais. O algoritmo funciona

da seguinte maneira: primeiramente, a técnica gera F filtros estáveis aleatoriamente
uniformes com um determinado tamanho L; em seguida, supõe-se que 1, ..., Mmax é o
conjunto candidato do número de modos; então, uma matriz é produzida cujos elementos
são distâncias entre pares de filtros amostrados; por fim, executa-se o algoritmo k-medoid.
A partir destas etapas, um curva de referência é gerada com a relação entre a dispersão
(log(WM )) e o número de filtros AR (M ) entre 1 e 6. Em seguida, calcula-se a curva
empı́rica dado uma nova medida de distância, chamada MSPE (Mean Squared Prediction
Error ), para M = 1, 2, ..., Mmax , usando o dado observado, o modelo postulado (mistura
de AR) e o modelo de abordagem adequada (algoritmo EM). Por fim, o número de
misturas AR que corresponde ao maior gap entre as duas curvas é selecionado. Os
resultados das simulações demonstram bom desempenho da técnica proposta.
De acordo com os trabalhos discutidos nesta seção, ı́ndices são as principais ferra-
mentas utilizadas para analisar a qualidade do agrupamento, conforme esperado, o que
responde a pergunta QS.2. Diante disso, a Tabela 3.3 resume a utilização destes ı́ndices,
respondendo a pergunta QS.4.
Tabela 3.3 Índices mais utilizados na validação de agrupamento de séries temporais.

Índice Quantidade
Dunn 3
Calisnski Harabasz 3
Silhuette 3
Rand 3
Davies-Bouldin 2
Silhuette 1
Weinmert-Gancarski 1
PBM 1
homogeneity 1
weighted inter-intra 1
Krzanowski-Lai 1
Xie-Beni 1
Intraclass 1
Kim 1
R 1
SCF 1
Variation of Information 1
Normalized Mutual Information 1
F-score 1
Fleiss’ Kappa 1
Gap Statistic 1
Por fim, é importante destacar que tais ı́ndices são aplicados aos mais diferentes tipos
de aplicações (QS.1), demonstrando sua relevância ao analisar agrupamentos em dados
temporais (QS.3).
24 ESTADO DA ARTE
3.3 FASE III: CONSIDERAÇÕES FINAIS

De modo geral, os trabalhos relatados utilizam diferentes tipos de ı́ndices para validação
do agrupamento, sejam eles do critério externo, relativo ou interno. A fim de obter
consistência nos resultados, observa-se que diversos ı́ndices são utilizados para avaliar o
agrupamento. Neste caso, o melhor particionamento é escolhido com base na execução
que forneceu os maiores ı́ndices.
Normalmente estes trabalhos descrevem o desenvolvimento de um novo algoritmo e
mencionam a utilização de ı́ndices de validação conhecidos a fim de compará-lo com ou-
tros algoritmos e avaliar os resultados obtidos. São raros os trabalhos em que é abordado
um novo ı́ndice de validação. Além disso, a maioria dos trabalhos fazem uso dos ı́ndices
externos, quando há um conhecimento prévio sobre os dados, e dos ı́ndices relativos,
quando a avaliação é feita visando comparar o desempenho entre algoritmos. Entretanto,
nota-se que os ı́ndices internos são pouco explorados, isto pode ocorrer devido às dificul-
dades encontradas para validar um conjunto de dados sem nenhum conhecimento prévio,
principalmente quando este conjunto de dados possui dependência temporal. Apenas o
trabalho de Ding, Noshad e Tarokh (2015) faz uso do ı́ndice interno, entretanto com uma
finalidade diferente do que sugere a técnica.
Vários fatores podem afetar um agrupamento, um deles é o número de grupos como
parâmetro. Os ı́ndices internos de validação, por sua vez, permitem inferir o número
ótimo de grupos sem nenhum conhecimento ou análise prévia sobre os dados de entrada.
Entretanto, não há na literatura um ı́ndice interno especı́fico para séries temporais. Foi
possı́vel notar que, em geral, são utilizados ı́ndices conhecidos na literatura, assumindo
que a relação temporal existente nos dados não afeta os ı́ndices de validação. Diante
disso, este projeto visa desenvolver um novo ı́ndice interno de validação de agrupamento
especı́fico para séries temporais. Os detalhes para o desenvolvimento deste novo ı́ndice
serão mostrados no próximo capı́tulo.
Capı́tulo
4
ESTATÍSTICA GAP TEMPORAL
4.1 VISÃO GERAL

Conforme discutido no decorrer deste documento, não foi encontrado na literatura um
ı́ndice de validação interno especı́fico para dados com dependência temporal. Visando
solucionar esse problema, este mestrado propõe uma adaptação da estatı́stica Gap para
séries temporais, denominado estatı́stica Gap Temporal. Para alcançar esse objetivo, essa
seção apresenta a metodologia adotada para realização desta dissertação de mestrado.
4.2 METODOLOGIA
A falta de mecanismos para validar resultados de agrupamento em conjuntos de dados
temporais motivou o desenvolvimento de uma nova abordagem, denominada estatı́stica
Gap Temporal. Vale ressaltar que, como prova de conceito, esta abordagem é base-
ada na suposição de que a natureza da regra geradora que define o comportamento das
séries temporais possui influência determinı́stica. Se as observações das séries tempo-
rais são produzidas considerando apenas influências estocásticas, os métodos tradicionais
dedicados a análises no domı́nio temporal podem ser usados para distinguir suas dife-
rentes distribuições de probabilidade. No entanto, no caso de presença de influências
determinı́sticas, mesmo apresentando ruı́dos aditivos ou multiplicativos, a adaptação do
método de estatı́stica Gap com Sistemas Dinâmicos permite melhor modelar o compor-
tamento não-linear e caótico da série.
A nova abordagem apresentada nessa dissertação foi obtida após três modificações
da estatı́stica Gap original. A primeira foi a substituição da medida usada para calcu-
lar a distância entre pares de séries temporais, exigida não apenas pelos algoritmos de
agrupamento, mas também pela dispersão Wk apresentada na Equação .. Conforme
discutido por vários autores, as medidas baseadas na métrica de Minkowski tendem a
produzir resultados insatisfatórios quando padrões semelhantes em séries temporais são
deslocados ao longo do tempo. Uma medida alternativa é o Dynamic Time Warping
(DTW), que foi detalhado na Seção 2.3.
25
26 ESTATÍSTICA GAP TEMPORAL
Um aspecto importante relacionado ao DWT é a falta de suporte à desigualdade

triangular, conforme esperado pelas métricas de distância (DING et al., 2008), e.g.,
DT W (xj , xn ) + DT W (xn , xk ) ≥ DT W (xj , xk ), tal que xj , xn e xk são diferentes séries
temporais. Isso é especialmente importante como requisito básico para algoritmos de
agrupamento. Com base em experimentos realizados nesta pesquisa, cujas conclusões
também foram confirmadas por Niennattrakul e Ratanamahatana (2007), foi possı́vel
observar que essa desvantagem afeta diretamente a execução do algoritmo K-means
(LLOYD, 1982), originalmente adotado pela estatı́stica Gap. Uma vez que esse algo-
ritmo se baseia na minimização da variação intra-cluster, esse problema de desigualdade
triangular levou à produção de grupos vazios, sem respeitar a primeira propriedade de
agrupamento (Ci 6= ∅, ∀i = {1, . . . k})1 .
Para entender melhor esse problema, é preciso descrever brevemente o algoritmo K-
means. Esse algoritmo começa selecionando k instâncias aleatórias no conjunto de dados,
chamadas centroides, que podem ser instâncias reais (existentes na base de dados) ou
novas, criadas aleatoriamente no espaço de caracterı́sticas do conjunto de dados. O valor
de k refere-se ao número esperado de grupos. Em seguida, medidas de distância são
usadas para agrupar instâncias próximas aos centroides. A seguir, todos os centroides
são atualizados por meio do cálculo da média entre todas as instâncias do mesmo grupo.
Portanto, o novo centroides pode representar uma instância completamente nova. Uma
vez que nossos dados possuem dependências temporais e DTW não garante a desigualdade
triangular, após a etapa de atualização, as instâncias em um determinado grupo podem
estar mais próximas de outros centroides do que do centroide atualizado do seu grupo.
Como consequência, grupos vazios podem ser produzidos.
Para resolver esse problema, uma segunda modificação na estatı́stica Gap foi reali-
zada alterando o algoritmo K-means por K-medoid (também conhecidos como Partition
Around Medoids – PAM) (KAUFMAN; ROUSSEEUW, 1990). Esse algoritmo de agrupa-
mento é uma variação do K-means que substitui o conceito de centroide por medóide. Ao
contrário do centroide, o medóide é sempre uma instância real escolhida para representar
um ponto central em um grupo. Nesse caso, haverá pelo menos uma instância real por
grupo, que pode ser o próprio medóide.
O próximo desafio foi a geração de valores aleatórios usando uma dada distribuição
de probabilidade. De acordo com os autores da estatı́stica Gap, quando os dados são
iid, uma distribuição uniforme pode ser usada para gerar dados aleatórios e calcular a
dispersão. No conjunto de dados temporais, porém, as séries podem ser criadas a partir de
comportamentos desconhecidos e diferentes. Portanto, foi realizada a terceira modificação
para criar séries temporais aleatórias, garantindo que os novos valores aleatórios respeitem
o espaço de caracterı́sticas que realmente compreende o comportamento esperado do
conjunto de dados. Em resumo, analisado o conjunto de dados no domı́nio temporal, os
valores aleatórios são criados sem considerar o espaço de caracterı́stica da série temporal
real, gerando apenas as observações aleatórias entre seus valores mı́nimo e máximo.
A solução apresentada neste mestrado é baseada nas ferramentas do Sistemas Dinâmicos (AL-
LIGOOD; SAUER; YORKE, 1997), que transformam séries temporais do domı́nio tem-
1
Para maiores informações sobre tais propriedades, é sugerida a leitura do Apêndice 2
4.2 METODOLOGIA 27
poral para o espaço fase, cujo conceito foi introduzido na Seção 2.4.1.
Considerando as ferramentas de Sistemas Dinâmicos, pode-se reconstruir uma série
temporal {x0 , x1 , ..., xn−1 } no espaço fase xn (m, τ ) = {xn , xn+τ , ..., xn+(m−1)τ }, sendo m
dimensão embutida e τ representa a dimensão de separação.
Para realização da estimação da dimensão embutida, optou-se por utilizar o método
FNN (Seção 2.4.1). Em relação à dimensão de separação, existem vários métodos na
literatura quem permitem estimá-la. Neste trabalho, foram considerados os resultados
apresentados por Fraser e Swinney (1986), que utilizaram o método Average Mutual
Information (AMI). Em resumo, esse método analisa séries temporais usando diferentes
valores de atraso. Posteriormente, uma curva é produzida com os resultados dos diferentes
atrasos e o primeiro valor mı́nimo é adotado como a dimensão de separação (ALLIGOOD;
SAUER; YORKE, 1996; RIOS, 2013).
Após reconstruir uma série temporal em seu espaço fase, os relacionamentos tempo-
rais são removidos e todas as dimensões podem ser usadas para gerar valores aleatórios
seguindo alguma distribuição de probabilidade. Finalmente, após gerar observações ale-
atoriamente em diferentes dimensões, as mesmas são reconstruı́das novamente para o
domı́nio do tempo. Esse processo é repetido para produzir todas as séries temporais
aleatórias necessárias para gerar conjuntos de dados de referência. As etapas restantes
seguem o método original da estatı́stica Gap.
A fim de entender melhor o fluxo de execução do novo ı́ndice de validação interno
desenvolvido neste mestrado, a Figura 4.1 ilustra todos os processos necessários para o
desenvolvimento da estatı́stica Gap utilizando os métodos de Sistemas Dinâmicos. Ini-
cialmente, conjuntos de séries temporais são organizados em uma matriz atributo-valor
(cada série temporal é organizada como uma linha da tabela). Em seguida, através da
Etapa (a), é realizado o agrupamento do conjunto de séries temporais utilizando o al-
goritmo K-medoid. Em seguida, calcula-se a dispersão na Etapa (b) utilizando DTW,
conforme a Equação .. O agrupamento e cálculo da dispersão são realizados k vezes e
armazenados na variável Wk , onde k representa o número de grupos. Na sequência, con-
siderando o conjunto de séries temporais da base de dados, é realizada a transformação
das séries para o espaço fase com a dimensão máxima estabelecida, como mostra a Etapa
(c). Sendo assim, admitindo que o conjunto de séries temporais geradas no espaço fase
estão igualmente representadas em uma mesma dimensão, é realizada a criação de ob-
servações aleatórias, usando uma distribuição uniforme, por exemplo, e sua reconstrução
para o domı́nio temporal. Em seguida, um novo agrupamento é realizado na Etapa (e), do
mesmo modo que é feito em (a), entretanto, utilizando um conjunto de séries temporais
com obserações distribuı́das uniformemente. Após o agrupamento, é efetuado o cálculo
da dispersão na Etapa (f). O agrupamento em (e) e a função de dispersão em (f) são
executados b vezes para cada k grupos, e os valores médios resultantes são armazenados
na variável Wkb . Por fim, tendo em vista as funções de dispersão Wk e Wkb , pode-se
obter o valor de Gap para cada k grupos conforme consta na Equação ., onde compa-
rado à Equação . não há a utilização da função logarı́tmica. O cálculo das dispersões
para dados temporais, considerando a distância DTW normalizada, resultam em valores
pequenos entre 0 e 1. Consequentemente, tais valores aplicados às funções logarı́tmicas
retornam valores negativos, o que torna-se inconsistente com a equação da estatı́stica
Gap original. Sendo assim, a função logarı́tmica deixa de ser utilizada nos valores das
dispersões, tendo em vista que sua remoção não afeta a caracterı́stica da equação original.
X
1 ∗
GAP (k) = Wkb − Wk (.)
B b
DISPERSÃO
AGRUPAMENTO Wk
(a) (b)
SÉRIE
NO
(c) ESPAÇO
FASE
DISPERSÃO
AGRUPAMENTO Wkb
(e) (f)
(d)
RECONSTRUÇÃO
DA ŚERIE
Figura 4.1 Fluxo da estatı́stica Gap Temporal utilizando Sistemas Dinâmicos
A tarefa mais desafiadora da nova abordagem é a Etapa (c), que transforma todas as
séries temporais em seu espaço de fase para serem usadas posteriormente para produzir
observações aleatórias. Como mencionado anteriormente, essa transformação utiliza os
métodos FNN e AMI, que permitem estimar dimensões diferentes para cada série tempo-
ral. A dimensão do atraso está intrinsecamente relacionada às séries temporais e valores
diferentes não afetarão nossa análise.
Em relação aos diferentes valores para a dimensão embutida, nossa abordagem foi
projetada com base nas pesquisas de Whitney e Takens (WHITNEY, 1936b; TAKENS,
1981), que afirmam a escolha da dimensão embutida mais alta não afeta a modelagem de
séries temporais. Por exemplo, se a dimensão embutida esperada for igual a m, qualquer
valor maior produzirá a mesma análise, exigindo apenas mais tempo computacional. Com
o objetivo de ilustrar esta etapa, a Figura 4.2 mostra duas séries temporais, TS-1 e TS-2
(tabela superior), com 10 observações. Seja m = 2 e τ = 1 a dimensão embutida e
de atraso estimadas para o TS-1. Da mesma forma, a dimensão embutida e de atraso
estimadas para TS-2 foram m = 3 e τ = 2, respectivamente. A nova abordagem combina
todas as séries temporais em uma única tabela de dados usando a dimensão máxima
embutida entre elas (m = 3), mas respeitando todas as dimensões de atraso, conforme
4.2 METODOLOGIA 29
mostrado na tabela inferior nessa figura. Embora o TS-1 tenha sido desdobrado com
m = 3, sua dimensão de separação original (τ = 1) foi mantida. Portanto, usando essa
tabela inferior, a abordagem cria uma nova tabela de dados gerando valores aleatórios
dentro dos valores mı́nimo e máximo em todas as dimensões (D1, D2 e D3 em nosso
exemplo). A nova tabela de dados é, então, convertida no domı́nio do tempo (usando
uma versão inversa do processo de desdobramento) produzindo novas séries temporais
aleatórias que respeitam mais precisamente o comportamento original da série temporal.
Figura 4.2 Desdobramento de um conjunto de séries temporais na mesma dimensão embutida.
O processo completo de geração de uma série aleatória proposto pela nova abordagem é
apresentado na Figura 4.3. Neste exemplo, foi selecionada uma série temporal produzida
pelo sistema de Lorenz, cuja representação no domı́nio do tempo é mostrada na Figura 4.3
(a). Então, com base em suas dimensões embutidas estimadas e de separação, essas séries
são desdobradas no espaço fase, como mostrado na Figura 4.3 (b). Como se pode notar,
neste exemplo, foi usada a dimensão embutida igual a m = 3. Considerando o espaço
formado pelas 3 dimensões, a abordagem gera valores aleatórios, como mostra a Figura
4.3 (c). Finalmente, esses valores aleatórios são transformados no domı́nio do tempo,
produzindo uma nova série - Figura 4.3 (d). Este processo é repetido dentro da etapa de
Monte Carlo para gerar várias séries temporais aleatórias.
Com base no que já foi explicado, o Algoritmo 1 demonstra o fluxo completo da
estatı́stica Gap Temporal. Sendo assim, o algoritmo recebe o conjunto de séries temporais
caóticas e retorna um número especı́fico de grupos. Por exemplo, caso seja utilizados as
séries de Lorenz e Rossler2 , espera-se que o novo ı́ndice interno estime o número de grupos
igual a dois. Para estimar corretamente o número de grupos, faz-se necessário criar uma
matriz de distância dos dados de entrada. Logo após, para cada k grupos, é realizado o
2
Detalhes sobre essas séries serão fornecidos na seção de experimentos.
agrupamento utilizando K-medoid e a partir deste agrupamento é calculado o valor de

dispersão Wk . Os valores de dispersão para cada k grupos são armazenados. Após essa
etapa utilizando os dados reais de entrada, estima-se um número B de simulações que
representa o método de Monte Carlo. A cada B simulações é coletado o número máximo
de dimensão e separação das séries caóticas utilizadas. Em seguida, essas séries são
desdobradas no espaço fase, na dimensão máxima estimada, onde é realizado o processo
de geração de valores aleatórios. Com a reconstrução das séries originais e as produzidas
aleatoriamente, é criada a nova matriz distância. Com essa matriz, repete-se o processo
de cálculo de dispersão para k grupos e, em seguida, retorna-se à etapa de Monte Carlo
para uma nova simulação. Desta forma, esta etapa do processo consiste em gerar os
valores de dispersão WKB dos k grupos para B simulações. Ao final, é realizada a média
desses valores que são subtraı́dos dos valores WK , gerando valores de Gap. Por fim, o
melhor número de grupos é referente ao valor de Gap maximizado.
Algorithm 1: Temporal Gap Statistic
Data: Séries Temporais = Lorenz, Rossler, Logistic, Henon
Result: Número de Grupos
1 numeroGrupos = número máximo de grupos
2 distMatriz = distância(Séries Temporais)
3 forall K in numeroGrupos do
4 KmedoideK = agrupamento(K, distM atriz)
5 WK = dispersao(KmedoideK )
6 end
7 MonteCarlo = número de simulações Monte Carlo
8 forall B in MonteCarlo do
9 maxDimensao = Série Temporal
10 tsEspacoFase = espacoFase(Série Temporal, maxDimensao)
11 tsUniforme = reconstrucao(tsEspacoFase)
12 distMatrizUniforme = distância(tsUniforme)
13 forall K in numeroGrupos do
14 KmedoideK = agrupamento(K, distM atrizU nif orme)
15 WKB = dispersao(KmedoideK )
16 end
17 end
18 GAP = WKB − WK
19 Melhor Número De Grupos = max(GAP)
4.2 METODOLOGIA 31
MAXz
MAXx
MINz
(a) MINy
MAXy MINx
(c) (d)
(b)
Figura 4.3 Sistemas Dinâmicos na etapa de Monte Carlo

Capı́tulo
5
RESULTADOS EXPERIMENTAIS
5.1 CONFIGURAÇÃO DOS EXPERIMENTOS

Para avaliar a Estatı́stica Gap Temporal foram realizados experimentos envolvendo quatro
séries temporais caóticas: Lorenz, Rössler, Logistic e Hénon. A série temporal de Lorenz é
resultado de estudos sobre previsão do tempo e modelagem numérica de alguns fenômenos
atmosféricos (SWIERCZ, 2006). Esse modelo pode ser descrito como um processo não-
linear detalhado nas Equações . - .. Para obtenção de uma série caótica (Figura 5.1),
é preciso definir os seguintes valores para as variáveis: σ = 10, B = 8/3, R = 28 e
condições iniciais definidas como zero.
dx
= −σx + σy (.)
dt
dy
= Rx − y − xz (.)
dt
dz
= −Bz + xy (.)
dt
A série de Rössler foi obtida a partir da modelagem de turbulência quı́mica (SWI-
ERCZ, 2006), conforme as Equações .-.. Para geração de uma série caótica (Fi-
gura 5.2), os seguintes valores foram definidos: a = 0.2, b = 0.2, c = 5.7 e condição inicial
igual a zero.
dx
= (x + y) (.)
dt
dy
= x + ay (.)
dt
dz
= b + xy − cz (.)
dt
A série Logı́stica (SWIERCZ, 2006) pode ser descrita pela Equação .. O compor-
tamento caótico deste sistema depende significativamente das condições iniciais. Nesse
33
34 RESULTADOS EXPERIMENTAIS
Figura 5.1 Sistema de Lorenz Figura 5.2 Sistema de Rössler
sentido, para geração de uma série caótica (Figura 5.3), os valores p0 = 0, 54321 e r = 2
devem ser utilizados.
pn+1 = pn + rpn (1 − pn ). (.)

Por fim, outro sistema dinâmico discreto usado nos experimentos é a série de Hénon (SWI-
ERCZ, 2006). Em resumo, esse sistema foi desenvolvido a partir de aspectos da modela-
gem do movimento de estrelas, conforme representado pelas Equações .-..
xn+1 = yn + 1 − ax2n (.)

yn+1 = bxn (.)
O sistema Hénon exibe comportamento caótico para uma ampla gama de parâmetros
a e b. Nesses experimentos (Figura 5.4), os parâmetros utilizados foram a = 1.4, b = 0.3
e condições iniciais iguais a zero.
Figura 5.3 Série temporal caótica criada pela

Figura 5.4 Mapeamento Hénon
equação Logistic
Os experimentos foram realizados combinando todas as possibilidades dessas séries

temporais caracterizadas pela adição ou não de ruı́do para diferentes quantidades de
5.2 ANÁLISE QUANTITATIVA 35
grupos. Inicialmente, cada série caótica foi gerada contendo 20, 000 observações. Logo
após, essas séries foram subdivididas em um conjunto de dez séries temporais, ou seja,
com a subdivisão, cada série temporal apresenta um tamanho de 2000 observações, sendo
todas normalizadas entre os valores 0 e 1. Os experimentos iniciais testaram dois grupos
de séries temporais que combinam, por exemplo, Lorenz e Rössler, Lorenz e Logistic,
Lorenz e Hénon, Rössler e Logistic, etc. Dessa forma, experimentos seguintes foram
realizados combinando todas as possibilidades entre as séries caóticas, para três e quatro
grupos, com e sem adição de ruı́do.
Nesse contexto, os experimentos apresentados nesta seção foram realizados para tes-
tar a Estatı́stica Gap Temporal, avaliando se o número de grupos estimado pelo ı́ndice
corresponde ao número real utilizado nos experimentos.
5.2 ANÁLISE QUANTITATIVA
A eficácia da Estatı́stica Gap Temporal como novo ı́ndice interno de validação foi avaliada
usando séries temporais caóticas. O conjunto de dados utilizados para esse fim foram a
Lorenz, Rössler, Logistic e Hénon. Portanto, esta seção demonstra os resultados de cada
experimento realizado com o novo ı́ndice a partir da análise das funções de dispersão
utilizando o algoritmo de agrupamento K-medoid e a distância DTW e, em seguida,
a determinação do melhor número de grupos. Os experimentos são divididos em duas
seções, a primeira seção consiste na realização de testes com o conjunto de séries caóticas
sem a adição de ruı́do e a segunda com a adição de ruı́do com valor de SN R = 10%1 .
5.2.1 Experimentos sem ruı́do

As Figuras 5.5-5.15 apresentam os resultados dos onze experimentos sem ruı́do, combi-
nando todas as possibilidades de séries temporais caóticas formando dois, três e quatro
grupos. Os gráficos mostram primeiramente os valores de dispersão Wk e Wkb ao longo
do número de k grupos que variam de 1 a 10, ao lado há os valores de Gap calculado,
também ao longo do número de k grupos. O melhor número de grupos é dado quando a
dispersão Wk está mais abaixo da curva de referência Wkb , isto é, nesses pontos o valor
da diferença entre essas funções é maximizado. Por exemplo, na Figura 5.5, há uma
queda maior no valor de WK quando k = 2. A análise resultante desse processo pode ser
observada à direita desta figura, onde a curva Gap é exibida com barras de erro padrão
e pode ser avaliada através da Equação .. Assim, a curva Gap tem um máximo claro
em k = 2, e portanto, o número estimado de grupos através da Estatı́stica Gap Temporal
é 2.
Esta conclusão é bastante semelhante às Figuras 5.6- 5.10, em que existe um valor
máximo em k = 2, o que corresponde ao número real de grupos utilizados.
Da mesma forma, a Figura 5.11 mostra que existe uma grande margem entre os valores
das funções de dispersão Wk e Wkb , com um aumento significativo de uma margem para
k = 2 e k = 3 ao longo do número de grupos. Considerando a complexidade para concluir
o número exato de grupos estimado neste gráfico, pode-se avaliar o resultado através da
1
SNR significa a taxa sinal-ruı́do (signal-to-noise ratio).
● 0.200 ●
0.5
●
●
●
●
●
0.175
0.4 ●
● ●
●
Dispersão
Valor
Gap
●
●
●
●
Wk
0.3 ●
Wkb 0.150
●
●
●
●
● ●
●
●
●
0.2 ● 0.125 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.5 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Logistic e
Hénon
● ●
0.5 ●
●
● 0.25 ●
● ●
●
●
0.4 ●
●
●
●
0.20 ●
Dispersão
Valor
Gap
● ●
0.3 ● ●
Wk
● ●
Wkb 0.15
●
0.2 ●
●
●
● 0.10
●
●
0.1 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Figura 5.6 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Hénon
● ●
0.5 ●
●
●
●
● ●
●
●
●
0.4 ● 0.2 ●
●
●
●
Dispersão
Valor
Gap
0.3 ● ●
Wk
● ●
Wkb
0.1
●
0.2 ●
●
●
●
0.1 ●
● ●
0.0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Logistic
curva Gap. Dessa forma, os valores de Gap à direita desta figura mostram claramente que
há uma diferença máxima em k = 3. E, portanto, é igual ao número de grupos esperados
neste experimento, assim como as Figuras 5.12-5.14.
●
0.5 ●
●
●
●
0.4 ●
● 0.30 ●
●
●
Dispersão
Valor
Gap
●
0.3 ●
●
●
Wk
●
Wkb ●
●
0.25
0.2 ●
●
●
●
●
●
0.1 ●
●
●
●
● 0.20 ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Rössler
●
0.5 ●
● ●
●
●
0.25 ●
●
●
●
0.4 ●
●
●
●
● 0.20 ●
Dispersão
Valor
Gap
● ●
0.3 ●
●
Wk
●
●
Wkb
0.15
●
0.2 ●
●
●
●
●
0.10
●
0.1 ●
●
●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Figura 5.9 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler e
Hénon
● ●
0.5 ●
●
●
●
● ●
●
●
●
0.4 ●
0.2 ●
●
●
●
●
Dispersão
Valor
Gap
0.3 ●
●
Wk
● ●
Wkb
● 0.1
0.2 ●
●
●
●
●
●
0.1 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Logistic
A Figura 5.15 mostra o último experimento usando todos os quatro grupos de séries
temporais sem ruı́do. Apesar da complexidade de classificar e detectar o número de grupos
nesse conjunto de dados, uma vez que existem séries temporais com comportamentos
0.8
● ●
● ●
●
●
● ●
●
0.7 ●
● ●
● 0.3 ●
●
●
●
0.6 ●
●
Dispersão
Valor
Gap
●
0.2
0.5 ●
Wk
●
Wkb
●
0.4
● 0.1
●
●
0.3 ●
●
●
●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Figura 5.11 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Logistic e Hénon
0.8 ● ●
● ●
●
●
●
●
●
0.4 ● ●
●
● ●
●
● ●
0.6 ●
●
Dispersão
Valor
Gap
0.3
●
Wk
●
Wkb
0.4
●
●
●
0.2
●
●
●
0.2 ●
●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Rössler e Hénon
0.8 ● ●
●
●
●
●
●
●
0.4 ●
●
●
●
● ●
●
●
●
0.6 ●
●
0.3
●
Dispersão
Valor
Gap
●
Wk
●
Wkb
0.4 0.2
●
●
●
●
●
●
0.1
0.2 ●
●
●
●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Rössler e Logistic
semelhantes, a Estatı́stica Gap Temporal encontra o número correto de grupos em k = 4,

como mostra a curva Gap.
0.8
● ●
●
●
● ●
● ●
0.7 ●
●
●
●
●
●
0.3 ●
●
●
0.6 ●
●
Dispersão
Valor
Gap
●
0.5 ●
Wk 0.2
●
Wkb
●
0.4
●
● 0.1
●
0.3 ●
●
●
●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Figura 5.14 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler,
Logistic e Hénon
● ●
●
● ●
●
●
●
0.5 ●
●
●
●
●
●
0.9 ●
●
●
●
●
0.4
●
Dispersão
Valor
Gap
0.7 0.3
●
Wk
●
Wkb
●
0.2
0.5 ●
●
●
●
0.1
●
●
●
● ●
0.3
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Rössler, Logistic e Hénon
5.2.2 Experimentos com ruı́do
A última seção de experimentos consiste na adição de um ruı́do (SN R = 10%) em todas

as séries temporais caóticas. É adicionado este valor, pois taxas maiores de ruı́do removem
as caracterı́sticas determinı́sticas das séries temporais. As Figuras 5.16-5.26 demonstram
os resultados dos onze experimentos com o objetivo de repetir os mesmos procedimentos
mostrados nos experimentos anterior. Sendo assim, utilizando-se do mesmo método de
análise, é possı́vel verificar através dos gráficos que, apesar da adição de ruı́do, a Es-
tatı́stica Gap Temporal novamente estima corretamente o número de grupos para todos
os casos.
5.2.3 Considerações finais
Além dos experimentos anteriores demonstrarem através de cálculos e gráficos que o

número de grupos estimado corresponde ao número real esperado de grupos, conforme
experimentos realizados pela estatı́stica Gap original, utilizou-se ı́ndices do critério ex-
terno para avaliar se as séries foram, de fato, organizadas nos grupos esperados. Nesta
●
●
0.5
●
●
●
0.18
●
●
0.4 ●
● ●
●
Dispersão 0.16
Valor
Gap
●
●
● ●
Wk ●
0.3 ● ●
●
Wkb ●
●
●
0.14
●
●
0.2 ●
●
●
● 0.12
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Figura 5.16 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Logistic e
Hénon
● ●
0.5
●
●
●
0.25 ●
0.4 ● ●
●
●
●
●
Dispersão
Valor
Gap
●
●
0.20
0.3 ● ●
Wk ●
● ●
Wkb ●
●
0.2 ●
●
0.15
●
●
●
●
0.1 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Hénon
● ●
0.5 0.250
●
●
●
● ●
0.4 ●
0.225 ●
●
●
●
●
Dispersão
Valor
Gap
● ●
0.3 ● ●
Wk 0.200
●
● ●
Wkb
●
●
0.2 ● 0.175 ●
●
0.1 ●
0.150 ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Logistic
avaliação foram utilizados quatro ı́ndices externos, tais como Rand, Jaccard, Folkes Mal-
lows e Hubert. Como especificado na Seção 2, os ı́ndices externos tem como objetivo
calcular um valor através da combinação de uma partição obtida com a partição real.
● ●
0.5
●
●
●
●
0.4 ●
● 0.30 ●
●
●
●
Dispersão
Valor
Gap
●
0.3 ●
●
●
Wk
●
Wkb ●
● 0.25
0.2 ●
●
●
●
●
●
0.1 ●
●
●
●
●
0.20 ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Rössler
● ●
0.5
● ●
●
●
●
0.25 ●
0.4 ●
●
●
●
●
●
Dispersão
Valor
●
Gap
0.3 ● 0.20
●
Wk ●
●
●
Wkb ●
0.2 ●
●
●
●
0.15
●
●
●
0.1 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Hénon
●
0.5 ●
●
●
● 0.24 ●
0.4 ●
●
●
● ● ●
Dispersão
Valor
Gap
0.3 0.21 ●
●
●
Wk
● ●
Wkb ●
●
●
●
0.2 ●
● 0.18 ●
0.1 ●
●
●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Logistic
Todos esses ı́ndices fornecem um valor entre 0 e 1, onde 1 significa que a partição real e a
obtida são idênticas. Os resultados mostraram que os ı́ndices externos apresentaram va-
lores iguais a 1 em todos os experimentos, o que significa que, a Estatı́stica Gap Temporal
0.8
● ●
●
0.35 ●
● ●
0.7 ● ●
● ●
●
●
●
●
● 0.30 ●
0.6 ●
●
●
Dispersão
Valor
Gap
●
0.5 ●
Wk 0.25
●
Wkb
●
0.4
●
●
0.20
●
●
0.3 ●
●
●
● ●
0.15
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Logistic e Hénon
0.8 ● 0.45 ●
● ●
● ●
● ●
● ●
●
0.40 ●
●
●
0.6 ●
●
●
●
●
●
Dispersão 0.35
Valor
Gap
●
Wk
●
Wkb 0.30
0.4
●
● 0.25
●
●
●
●
0.2 ●
●
●
0.20 ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Rössler e Hénon
0.8 ● ●
●
●
●
●
●
●
0.40 ●
●
●
● ●
0.6 ●
●
● ●
●
Dispersão ●
Valor
●
0.35
Gap
●
Wk
●
Wkb
0.4
●
0.30
●
●
●
●
●
●
0.2 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Rössler e Logistic
estimou corretamente o número de grupos para o conjunto de dados analisado.

0.8
● ●
● ●
●
0.35 ●
0.7 ● ●
● ● ●
● ●
● ●
●
0.6 ●
0.30 ●
●
Dispersão
Valor
Gap
●
0.5 ●
Wk
●
Wkb 0.25
●
0.4
●
●
● 0.20
0.3 ●
●
●
●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Figura 5.25 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler,
Logistic e Hénon
● ●
● ●
●
●
● 0.5 ●
●
●
● ●
0.9 ●
●
●
●
●
●
●
●
Dispersão 0.4
Valor
Gap
0.7
●
Wk
●
Wkb
●
0.5 ● 0.3
●
●
●
●
●
●
● ●
0.3
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Rössler, Logistic e Hénon
Capı́tulo
6
CONCLUSÃO
Esta dissertação de mestrado demonstrou o desenvolvimento de um novo ı́ndice interno

para validação de agrupamento de dados com dependência temporal. Foi proposta uma
abordagem baseada na adaptação do ı́ndice interno Gap Statistic, considerando a Análise
de Séries Temporais, Sistemas Dinâmicos e Teoria do Caos. A Estatı́stica Gap Temporal
é um ı́ndice interno que determina o melhor número de grupos para dados com carac-
terı́sticas não-iid, o que difere da estatı́stica Gap convencional.
Inicialmente, foram realizadas pesquisas por ı́ndices internos de validação que são
utilizados exclusivamente sobre dados não-iid. Todavia, o que foi observado na litera-
tura é que não há ı́ndices do critério interno desenvolvidos estritamente para dados com
dependência temporal. Os ı́ndices existentes, em sua maioria, fazem parte do critério
relativo. Nesse contexto, adaptar o ı́ndice interno, estatı́stica Gap, para dados não-iid
tornou-se o foco deste mestrado. Estudos foram realizados para entender o fluxo do al-
goritmo da Estatı́stica Gap e a metodologia de avaliação, os quais foram conduzidos de
acordo com o algoritmo original.
Dessa forma, considerando o grau de complexidade das séries temporais na adaptação
do ı́ndice estatı́stica Gap, foi realizado nesta pesquisa três modificações: i) utilização
da medida de distância DTW para o cálculo da dispersão; ii) alteração do algoritmo de
agrupamento K-means para o K-medoid; e iii) alteração da distribuição de referência
para realizar o método de Monte Carlo considerando os conceitos de Sistemas Dinâmicos
e Teoria do Caos.
Um conjunto de experimentos foram realizados a fim de avaliar a Estatı́stica Gap
Temporal, considerando quatro séries temporais caóticas. Os resultados permitiram com-
provar que ao analisar a curva Gap, foi possı́vel obter o número de grupos esperado. Além
disso, a fim de verificar se os resultados gerados estavam corretos, foram utilizados ı́ndices
externos para validar o novo ı́ndice interno proposto. Quatro ı́ndices externos foram uti-
lizados (Rand, Jaccard, Folkes Mallows e Hubert), os quais possibilitaram comprovar
através da comparação entre as partições reais e estimadas que a estatı́stica Gap Tempo-
ral executou conforme o esperado.
45
46 CONCLUSÃO
Portanto, admitindo que vários algoritmos de agrupamento no contexto de Apren-

dizagem de Máquina usam o número de grupos como parâmetro, a escolha do número
ideal pode afetar significativamente a qualidade da estrutura resultante, e por isso a im-
portância de estimar corretamente o número de grupos. Dessa forma, a estatı́stica Gap
Temporal desenvolvida neste projeto de mestrado pode ser considerada uma ferramenta
importante na validação de agrupamento para dados com caracterı́sticas temporais.
REFERÊNCIAS BIBLIOGRÁFICAS
ADHIKARI, R.; AGRAWAL, R. K. An introductory study on time series modeling and

forecasting. arXiv preprint arXiv:1302.6613, 2013.
AGHABOZORGI, S.; SHIRKHORSHIDI, A. S.; WAH, T. Y. Time-series clustering–a

decade review. Information Systems, Elsevier, v. 53, p. 16–38, 2015.
ALLIGOOD, K.; SAUER, T.; YORKE, J. Chaos: An Introduction to Dynamical Systems.

[S.l.]: Springer New York, 1997. (Textbooks in Mathematical Sciences).
ALLIGOOD, K. T.; SAUER, T. D.; YORKE, J. A. Chaos. [S.l.]: Springer, 1996.
BERNDT, D. J.; CLIFFORD, J. Using dynamic time warping to find patterns in time
series. In: SEATTLE, WA. KDD workshop. [S.l.], 1994. v. 10, n. 16, p. 359–370.
BISHOP, C. M. Pattern Recognition and Machine Learning (Information Science and

Statistics). Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2006. ISBN 0387310738.
BOX, G. E. et al. Time series analysis: forecasting and control. [S.l.]: John Wiley &
Sons, 2015.
BOX GWILYM M. JENKINS, G. C. R. G. E. P. Time Series Analysis: Forecas-

ting and Control. 3rd. ed. [S.l.]: Prentice-Hall, 1994. (Forecasting control). ISBN
0130607746,9780130607744.
BROCKWELL, P. J.; DAVIS, R. A.; CALDER, M. V. Introduction to time series and

forecasting. [S.l.]: Springer, 2002.
CAMBEL, A. B. Applied chaos theory: A paradigm for complexity. [S.l.]: Elsevier, 1993.
CHEESEMAN, P. C.; STUTZ, J. C. et al. Bayesian classification (autoclass): theory

and results. Advances in knowledge discovery and data mining, Philadelphia, PA, USA,
v. 180, p. 153–180, 1996.
DAI, C. et al. Mteegc: A novel approach for multi-trial eeg clustering. Applied Soft
Computing, Elsevier, v. 71, p. 255–267, 2018.
DAS, S. P.; PADHY, S. Unsupervised extreme learning machine and support vector
regression hybrid model for predicting energy commodity futures index. Memetic Com-
puting, Springer, v. 9, n. 4, p. 333–346, 2017.
47
48 REFERÊNCIAS BIBLIOGRÁFICAS
DING, H. et al. Querying and mining of time series data: Experimental comparison of
representations and distance measures. VLDB Endowment, v. 1, n. 2, p. 1542–1552, 2008.
ISSN 2150-8097.
DING, J.; NOSHAD, M.; TAROKH, V. Learning the number of autoregressive mixtures
in time series using the gap statistics. In: IEEE. 2015 IEEE International Conference on
Data Mining Workshop (ICDMW). [S.l.], 2015. p. 1441–1446.
DUARTE, F. S. et al. Decomposing time series into deterministic and stochastic influen-
ces: A survey. Digital Signal Processing, Elsevier, p. 102582, 2019.
ESTER, M. et al. A density-based algorithm for discovering clusters in large spatial

databases with noise. In: Kdd. [S.l.: s.n.], 1996. v. 96, n. 34, p. 226–231.
FACELI, K. et al. Inteligência artificial: uma abordagem de aprendizado de máquina.

[S.l.]: LTC, 2011.
FADILI, M.-J. et al. On the number of clusters and the fuzziness index for unsupervised
fca application to bold fmri time series. Medical Image Analysis, Elsevier, v. 5, n. 1, p.
55–67, 2001.
FAHIMAN, F. et al. Fuzzy c-shape: A new algorithm for clustering finite time series
waveforms. In: IEEE. 2017 IEEE International Conference on Fuzzy Systems (FUZZ-
IEEE). [S.l.], 2017. p. 1–8.
FRASER, A. M.; SWINNEY, H. L. Independent coordinates for strange attractors from

mutual information. Physical Review A, American Physical Society, v. 33, n. 2, p. 1134–
1140, Feb 1986.
GARDINER, C. W. et al. Handbook of stochastic methods. [S.l.]: springer Berlin, 1985.
GOREY, C. The volume of data nasa has to manage is mind-boggling. Silicon Republic,
2017. Disponı́vel em: hhttps://www.siliconrepublic.com/enterprise/nasa-data-figuresi.
HIMBERG, J.; HYVÄRINEN, A.; ESPOSITO, F. Validating the independent compo-

nents of neuroimaging time series via clustering and visualization. Neuroimage, Elsevier,
v. 22, n. 3, p. 1214–1222, 2004.
HOMENDA, W.; JASTRZEBSKA, A. Clustering techniques for fuzzy cognitive map

design for time series modeling. Neurocomputing, Elsevier, v. 232, p. 3–15, 2017.
JAIN, A. K.; DUBES, R. C. et al. Algorithms for clustering data. [S.l.]: Prentice hall
Englewood Cliffs, 1988.
JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: a review. ACM computing
surveys (CSUR), Acm, v. 31, n. 3, p. 264–323, 1999.
REFERÊNCIAS BIBLIOGRÁFICAS 49
JIANG, D.; PEI, J.; ZHANG, A. Dhc: a density-based hierarchical clustering method for
time series gene expression data. In: IEEE. Third IEEE Symposium on Bioinformatics
and Bioengineering, 2003. Proceedings. [S.l.], 2003. p. 393–400.
KAUFMAN, L.; ROUSSEEUW, P. J. Partitioning around medoids (program pam). Fin-

ding groups in data: an introduction to cluster analysis, Wiley Online Library, p. 68–125,
1990.
KENNEL, M. B.; BROWN, R.; ABARBANEL, H. D. Determining embedding dimension

for phase-space reconstruction using a geometrical construction. Physical review A, APS,
v. 45, n. 6, p. 3403, 1992.
KOHONEN, T. The self-organizing map. Proceedings of the IEEE, IEEE, v. 78, n. 9, p.

1464–1480, 1990.
LEVY, D. Chaos theory and strategy: Theory, application, and managerial implications.
Strategic management journal, Wiley Online Library, v. 15, n. S2, p. 167–178, 1994.
LIAO, T. W. Clustering of time series data—a survey. Pattern recognition, Elsevier, v. 38,
n. 11, p. 1857–1874, 2005.
LIAO, W.-k.; LIU, Y.; CHOUDHARY, A. A grid-based clustering algorithm using adap-
tive mesh refinement. In: 7th workshop on mining scientific and engineering datasets of
SIAM international conference on data mining. [S.l.: s.n.], 2004. v. 22, p. 61–69.
LLOYD, S. Least squares quantization in pcm. IEEE Transactions on Information The-

ory, v. 28, n. 2, p. 129–137, March 1982. ISSN 0018-9448.
MAJI, P.; PAUL, S. Microarray time-series data clustering using rough-fuzzy c-means
algorithm. In: IEEE. 2011 IEEE International Conference on Bioinformatics and Bio-
medicine. [S.l.], 2011. p. 269–272.
MAÑÉ, R. On the dimension of the compact invariant sets of certain non-linear maps.
In: Dynamical Systems and Turbulence, Warwick 1980. [S.l.]: Springer, 1981. p. 230–242.
MEYER-BÄSE, A. et al. Unsupervised clustering of fmri and mri time series. Biomedical
Signal Processing and Control, Elsevier, v. 2, n. 4, p. 295–310, 2007.
MITCHELL, T. M. et al. Machine learning. 1997. Burr Ridge, IL: McGraw Hill, v. 45,
n. 37, p. 870–877, 1997.
NIENNATTRAKUL, V.; RATANAMAHATANA, C. A. On clustering multimedia time

series data using k-means and dynamic time warping. In: IEEE. 2007 International
Conference on Multimedia and Ubiquitous Engineering (MUE’07). [S.l.], 2007. p. 733–
738.
PRATER, M. 25 google search statistics to bookmark asap. Hubspot, 2019. Disponı́vel

em: hhttps://blog.hubspot.com/marketing/google-search-statisticsi.
50 REFERÊNCIAS BIBLIOGRÁFICAS
QIAN, B.; RASHEED, K. Hurst exponent and financial market predictability. In: IAS-
TED conference on Financial Engineering and Applications. [S.l.: s.n.], 2004. p. 203–209.
RIOS, R. Uma abordagem hı́brida para a identificação e modelagem de componentes

estocásticos e determinı́sticos presentes em séries temporais. In: UNIVERSIDADE DE
SãO PAULO (USP). [S.l.], 2010.
RIOS, R. A. Improving time series modeling by decomposing and analyzing stochastic and
deterministic influences. Tese (PhD dissertation) — Universidade de São Paulo (USP),
2013.
SALGADO, C. M.; FERREIRA, M. C.; VIEIRA, S. M. Mixed fuzzy clustering for misa-
ligned time series. IEEE Transactions on Fuzzy Systems, IEEE, v. 25, n. 6, p. 1777–1794,
2017.
SWIERCZ, E. A new method of detection of coded signals in additive chaos on the

example of barker code. Signal processing, Elsevier, v. 86, n. 1, p. 153–170, 2006.
TAKENS, F. Detecting strange attractors in turbulence. In: Dynamical systems and

turbulence, Warwick 1980. [S.l.]: Springer, 1981. p. 366–381.
THEODORIDIS, S.; KOUTROUMBAS, K. Clustering: basic concepts. Pattern recogni-

tion, p. 483–516, 2006.
TIBSHIRANI, R.; WALTHER, G.; HASTIE, T. Estimating the number of clusters in a

data set via the gap statistic. Journal of the Royal Statistical Society: Series B (Statistical
Methodology), Wiley Online Library, v. 63, n. 2, p. 411–423, 2001.
TORMENE, P. et al. Matching incomplete time series with dynamic time warping: An
algorithm and an application to post-stroke rehabilitation. Artif. Intell. Med., Elsevier
Science Publishers Ltd., v. 45, n. 1, p. 11–34, jan. 2009. ISSN 0933-3657.
VENDRAMIN, L.; CAMPELLO, R. J.; HRUSCHKA, E. R. On the comparison of rela-

tive clustering validity criteria. In: SIAM. Proceedings of the 2009 SIAM International
Conference on Data Mining. [S.l.], 2009. p. 733–744.
WHITNEY, H. Differentiable manifolds. Annals of Mathematics, JSTOR, p. 645–680,

1936.
WHITNEY, H. Differentiable manifolds. The Annals of Mathematics, Annals of Mathe-

matics, v. 37, n. 3, p. 645–680, Julho 1936.
XU, R.; WUNSCH, D. Clustering. [S.l.]: John Wiley & Sons, 2008.
XU, R.; WUNSCH, D. C. Survey of clustering algorithms. Institute of Electrical and

Electronics Engineers (IEEE), 2005.
Apêndice
A
CONCEITOS FUNDAMENTAIS
A.1 CONSIDERAÇÕES INICIAIS

Visando complementar os conceitos apresentados no Capı́tulo 2, esta seção resume to-
dos os assuntos estudados até a escrita desta dissertação e que foram importantes para
definição do projeto desenvolvido.
A.2 AGRUPAMENTO
A extração e compreensão de informações através da análise de grandes volumes de dados
desempenham um papel indispensável em diversas áreas. Segundo Jain, Murty e Flynn
(1999), os procedimentos na análise de dados podem ser divididos em exploratórios e
confirmatórios com base na disponibilidade de modelos apropriados para a fonte de dados.
Um elemento chave em ambos os tipos de procedimentos, seja para formação de hipóteses
ou tomada de decisão, é o agrupamento.
Os métodos de agrupamento têm como objetivo identificar estruturas em conjuntos
de dados não rotulados. Tais métodos são utilizados para extrair padrões e definir grupos
baseados na similaridade entre esses dados. Em geral, esses métodos podem ser classifi-
cados em cinco categorias: particional, hierárquico, baseado em densidade, baseado em
grid e baseado em modelo (LIAO, 2005).
Dado um conjunto de dados de entrada X = {x1 , ..., xj , ..., xN }, onde cada instância1
xj = (xj1 , xj2 , ..., xjd )T ∈ Rd e xji é dito ser um atributo2 , o método particional visa
encontrar uma partição K composta por um conjunto de grupos C = {C1 , ..., CK }, tal
que K ≤ N , os quais respeitar os seguintes critérios (XU; WUNSCH, 2005):
1. Ci 6= ∅, i = 1, ..., K;
2. ki=1 Ci = X;
S
1
Em agrupamento de dados, instâncias são comumente referenciadas como objetos, dado ou exemplo.
2
De maneira semelhante à instância, atributos são referenciados ainda como dimensões, caracterı́sticas
ou variáveis
51
52 CONCEITOS FUNDAMENTAIS
3. Ci ∩ Cj = ∅, i, j = 1, ..., K e i 6= j;
Tais critérios visam garantir 3 caraterı́sticas aos métodos particionais: (i) a partição
não pode conter grupos vazios; (ii) a união todos os grupos deve ser igual ao conjunto
de dados de entrada X; e (iii) cada dado de entrada deve pertencer exclusivamente a um
único grupo. São exemplos de algoritmos particionais o K-means e K-medoid. A Figura
A.1 exemplifica um particionamento obtido com esse método.
1 2 3 4 5 6 7 8 9
K=3
Figura A.1 Método Particional, com K grupos igual a 3.
O método hierárquico visa construir uma partição de estrutura aninhada em forma

de árvore sobre o conjunto de dados X (XU; WUNSCH, 2005). Há dois tipos de métodos
hierárquicos de agrupamento amplamente utilizado na literatura: aglomerativos e divi-
sivos (Figura A.2). Os métodos aglomerativos começam organizando cada objeto como
sendo um grupo. Em seguida, uma etapa de agregação é realizada visando concatenar
subgrupos em grupos cada vez maiores, até que todos os objetos estejam em um único
grupo (LIAO, 2005). Essa agregação é realizada por diferentes métodos de ligação como,
por exemplo, single-link, complete-link e average-link. Métodos divisivos, ao invés de exe-
cutarem usando uma abordagem bottom-up, fazem exatamente o oposto (LIAO, 2005).
Tais métodos são implementados de maneira top-down, colocando todos os objetos em
um único grupo, inicialmente, e executando uma operação recursiva de particionamento,
cujo critério de parada é, geralmente, alcançado quando cada objeto está em um único
grupo.
O método de agrupamento baseado em densidade define grupos através da alta den-
sidade entre seus objetos. Esse método proporciona o crescimento de um grupo até que
sua densidade na vizinhança exceda algum limite (ESTER et al., 1996). Isto significa
que esse método organiza um objeto em um grupo respeitando o número mı́nimo de vi-
zinhos em uma determinada vizinhança (JIANG; PEI; ZHANG, 2003) como mostra a
Figura A.3. Assim, os métodos baseados em densidade são capazes de encontrar grupos
A.2 AGRUPAMENTO 53
Agrupamento Agrupamento
hierárquico hierárquico
aglomerativo divisivo
Figura A.2 Algoritmo Hierárquico
de formatos arbitrários e de diferentes tamanhos, além disso, são capazes de identificar e

eliminar ruı́dos, considerados outliers, sem a necessidade de obter informação preliminar
da quantidade de grupos (Figura A.4). Um algoritmo baseado em densidade amplamente
utilizado na literatura é o DBSCAN.
Figura A.3 Método baseado em densidade
Os métodos baseados em modelo realizam agrupamento considerando uma modelagem

previamente realizada sobre os dados. Existem duas abordagens principais de métodos
baseados em modelos: estatı́stica e de redes neurais. Um exemplo de abordagem es-
tatı́stica é o AutoClass (CHEESEMAN; STUTZ et al., 1996), que usa a análise estatı́stica
bayesiana para estimar o número de grupos (LIAO, 2005). Enquanto a abordagem de
redes neurais está intimamente relacionada ao conceito de aprendizado competitivo (XU;
WUNSCH, 2008), em que dada uma determinada entrada, os nós “competirão” pelos
recursos, isto é, pela saı́da de resposta. Uma rede neural tı́pica com aprendizado compe-
titivo é o algoritmo Self-Organizing Map (SOM) (KOHONEN, 1990) (Figura A.5).
1 2 3 4 5 6 7 8 9
Figura A.4 Método baseado em densidade em diferentes formas
x1
x2
x3
Figura A.5 Método baseado em modelo, algoritmo Self-Organizing Map (SOM)
Por fim, o método baseado em grid determina uma malha de grade única e uniforme
para particionar todo o domı́nio do problema em células. Os objetos de dados localizados
em uma célula são representados por um conjunto de atributos estatı́sticos desses obje-
tos. Normalmente, o tempo de processamento dos métodos baseados em grid dependem
do tamanho da malha. O algoritmo Adaptive Mesh Refinement (AMR) (LIAO; LIU;
CHOUDHARY, 2004) é exemplo deste modelo (Figura A.6).
A.2 AGRUPAMENTO 55
Nível 0
Nível 1
Nível 2
Figura A.6 Método baseado em grid (LIAO; LIU; CHOUDHARY, 2004)
Em agrupamento considera-se que grupos devem ser organizados objetivamente de

forma homogênea, garantindo que a similaridade dentro do grupo-objeto seja minimizada
enquanto a dissimilaridade (distância) entre objetos de grupos diferentes seja maximizada
(LIAO, 2005). Neste contexto, as métricas de distância são componentes fundamentais
na execução dos algoritmos. De maneira resumida, pode-se destacar as seguintes medidas
de distância (XU; WUNSCH, 2008):
P 2
• Distância Euclidiana: D(xi , xj ) = d
l=1 |x il − x jl |1/2
P p
• Distância Minkowski: D(xi , xj ) = d
l=1 |xil − xjl |1/p
• Distância Manhattan: D(xi , xj ) =

Pd
l=1 |xil − xjl |
• Distância de Mahalanobis: D(xi , xj ) = (xi − xj )T S −1 (xi − xj ), onde S é definido
como a matriz de covariância dentro da classe definida por S = E[(x − µ)(x − µ)T ]
Portanto, diante da contextualização sobre métodos de agrupamento e medidas de
distâncias, pode-se definir o procedimento de um agrupamento como um fluxo que inicia-
se com a extração ou seleção de atributos sobre um conjunto de dados de entrada, defini-
dos normalmente através de visualização e métodos estatı́sticos. Em seguida, é aplicado
um algoritmo para definição de uma estrutura de agrupamento, onde uma métrica de

distância é selecionada para identificar a proximidade entre os dados e determinar os gru-
pos. A validação é aplicada após a formação dos grupos a fim de verificar se a partição
gerada é a ideal, melhor representando o conjunto de dados. Por fim, há a interpretação
dos resultados sobre os dados e extração de conhecimento. Vale ressaltar que os proces-
sos que ocorrem desde a extração e seleção de atributos até a interpretação de resultados
podem ser retomados, havendo um fluxo tanto direto quanto reverso. A Figura A.7
demonstra este procedimento.
Extração ou
Algoritmo de
Seleção de
Agrupamento
Atributos
Dados
Interpretação de Validação de
Resultados Cluster
+ + ++ ******
++++ ****
++ * * *
....... . . + ****
........... ++++ ***
.. . .
. .... ..
Conhecimento
Clusters
Figura A.7 Procedimento de agrupamento. O processo básico de análise de grupos consiste

em quatro etapas com um caminho de feedback. Essas etapas estão intimamente relacionadas
entre si e determinam os grupos derivados – adaptado de (XU; WUNSCH, 2008).
A.3 SÉRIE TEMPORAL

Uma série temporal pode ser dita como um conjunto de observações Xt , sendo cada
observação gravada em um tempo especı́fico t considerando a forma: Xt = {x0 , x1 , ..., xt },
como mostra a Figura A.8. Séries temporais podem ser classificada no tempo discreto ou
contı́nuo. Uma série temporal em tempo discreto é aquela em que o conjunto T0 de vezes
em que as observações são feitas é um conjunto discreto, como é o caso, por exemplo,
quando observações são feitas em intervalos de tempo fixos. Séries temporais de tempo
contı́nuo são obtidas quando as observações são gravadas continuamente ao longo de um
intervalo de tempo, por exemplo, quando T0 = [0, 1] (BROCKWELL; DAVIS; CALDER,
2002).
Normalmente, a primeira análise feita em séries temporais é a verificação visual,
A.3 SÉRIE TEMPORAL 57
15
valor
10
1970 1980 1990 2000 2010

tempo
Figura A.8 Série Temporal
através da plotagem dos dados. Caso haja alguma descontinuidade, como uma mu-
dança repentina de nı́vel, pode ser aconselhável analisar a série primeiro dividindo-a em
segmentos homogêneos. Se houver observações distantes, elas devem ser cuidadosamente
estudadas para verificar se existe alguma justificativa para descartá-las (como, por exem-
plo, se uma observação foi incorretamente registrada). A inspeção de um gráfico também
pode sugerir a possibilidade de representar os dados como uma realização do processo,
o modelo clássico de decomposição, conforme mostra a Equação A. (BROCKWELL;
DAVIS; CALDER, 2002).
Xt = m t + st + Yt (A.)
onde mt é uma função de mudança lenta conhecida como componente de tendência,
st é uma função com perı́odo conhecido chamado de componente sazonal, e Yt é um
componente de ruı́do aleatório que é estacionário, o conceito de estacionariedade será
explicado nas próximas seções. Assim sendo, a Figura A.9 exemplifica um modelo de
decomposição de uma série temporal que representa a concentração atmosférica de CO2
ao longo dos anos de 2013 a 2019.
Neste contexto, Adhikari e Agrawal (2013) classifica tendência como um movimento de
longo prazo em uma série temporal a qual tende a aumentar, diminuir ou estagnar durante
um longo perı́odo de tempo. Por exemplo, séries relativas ao crescimento populacional,
número de casas em uma cidade, mostram tendência ascendente, enquanto a tendência
de queda pode ser observada em séries relacionadas a taxas de mortalidade e epidemias.
Enquanto que a sazonalidade esta relacionada às flutuações de uma série temporal. Os
fatores importantes que causam variações sazonais são: clima e condições climáticas,
costumes, hábitos tradicionais, etc.
A.3.1 Estocasticidade
Em modelos matemáticos, às vezes é possı́vel derivar um modelo baseado nas leis fı́sicas,
que permitem calcular o valor de alguma quantidade dependente do tempo exatamente
em qualquer instante de tempo. Sendo o cálculo realmente possı́vel, este modelo pode ser
inteiramente determinı́stico. No entanto, pode ser possı́vel derivar um modelo que possa
35
observação
30
25
Concentração Atmosférica de CO2
20
tendência
27.8
27.4
27.0
sazonal
0
−4
−8
2
1
ruído
0
−1
−2
2014 2016 2018
Tempo
Figura A.9 Decomposição de Séries Temporais
ser usado para calcular a probabilidade de um valor futuro situado entre dois limites
especificados. Esse modelo é chamado de modelo de probabilidade ou modelo estocástico
(BOX et al., 2015).
Os processos estocásticos são denotados como sistemas que evoluem probabilistica-
mente no tempo ou mais precisamente, sistemas em que existe uma certa variável aleatória
dependente do tempo X(t). Pode-se medir valores x1 , x2 , x3 , ..., etc de X(t) no tempo
t1 , t2 , t3 , ... e assumir que existe um conjunto de densidades de probabilidade conjunta,
p(x1 , t1 ; x2 , t2 ; x3 , t3 ; ...), que descreve o sistema completamente. O tipo mais simples de
processo estocástico é o da independência completa, conforme mostra a Equação A.
(GARDINER et al., 1985).
Y
p(x1 , t1 ; x2 , t2 ; x3 , t3 ; ...) = p(xi , ti ) (A.)
i
que significa que o valor de X no tempo t é completamente independente de seus

valores no passado ou futuro.
A.3.2 Estacionaridade
Modelos estacionários são uma importante classe dos modelos estocásticos para descrever
séries temporais, e assumem que o processo permanece em equilı́brio estatı́stico com as
propriedades probabilı́sticas que não mudam ao longo do tempo, em particular variando
A.3 SÉRIE TEMPORAL 59
em torno de uma média e variância constantes (BOX et al., 2015).

Uma série temporal Xt , t = 0, ±1, ... é dita estacionária se tem propriedades es-
tatı́sticas similares àquelas da série deslocada no tempo, Xt+h , t = 0, ±1, ..., para cada
inteiro h, seguindo algumas definições (BROCKWELL; DAVIS; CALDER, 2002).
Seja Xt uma série temporal com E(Xt2 ) < ∞, a função média de Xt pode ser especi-
ficada pela Equação A..
µX (t) = E(Xt ) (A.)
Enquanto a função de covariância que mede a relação entre duas variáveis de Xt é

apresentada pela Equação A..
γX (r, s) = Cov(Xr , Xs ) = E[(Xr − µX (r))(Xs − µX (s))] (A.)
para r e s inteiros.
Sendo assim, Xt é fracamente estacionária se (BROCKWELL; DAVIS; CALDER,
2002):
(i) µX (t) é independente de t
(ii) γX (t + h, t) é independente de t para cada h
Portanto, seja Xt uma série temporal estacionária. A função de autocovariância

(ACVF) de Xt no atraso h é representada pela Equação A..
γX (h) = Cov(Xt+h , Xt ) (A.)
E a função de autocorrelação (ACF) de Xt no atraso h é dada pela Equação A.
γX (h)
ρX (h) ≡ = Cor(Xt+h , Xt ) (A.)
γX (0)
A.3.3 Linearidade
Muitas das séries temporais encontradas na prática exibem caracterı́sticas não mostradas
por processos lineares. Os modelos lineares não levam em conta a possibilidade de certas
observações passadas permitirem uma previsão mais precisa do que outras e não podem
identificar as circunstâncias sob as quais previsões mais precisas podem ser esperadas
(BROCKWELL; DAVIS; CALDER, 2002). As séries temporais lineares são aquelas cujas
observações são compostas por uma combinação linear de ocorrências e ruı́dos passados.
Portanto, a linearidade de uma série está presente no modelo, mapa, ou processo que
a originou (RIOS, 2010). Enquanto os modelos não-lineares, por sua vez, permitem
previsões precisas com base em observações passadas (BROCKWELL; DAVIS; CALDER,
2002), além disso, séries não-lineares são formadas por processos de combinação não-linear
de observações e ruı́dos passados (RIOS, 2010).
A.4 MODELAGEM: ESTATÍSTICA E SISTEMAS DINÂMICOS
Após a discussão sobre a definição de séries temporais e seus principais componentes, bem
como, as classificações básicas relacionadas a estocasticidade, estacionariedade e lineari-
dade. Esta seção busca aprofundar os conceitos sobre a modelagem de séries temporais
definidos pela Estatı́stica e pelos Sistemas Dinâmicos, utilizados na compreensão e análise
do comportamento de séries temporais.
A.4.1 Modelagem baseada em Estatı́stica

A modelagem estatı́stica está relacionada à análise de séries temporais lineares esta-
cionárias e não-estacionárias. Nesse contexto, pode-se definir alguns dos principais pro-
cessos utilizados para modelar as séries, sendo eles, white noise, random walk, moving
average, autoregressive, autoregressive moving average e autoregressive integrated moving
average.
Se Xt é uma série temporal com uma sequência de variáveis aleatórias não correlaci-
onadas, cada uma com média zero e variância, então, tal sequência é referida como ruı́do
branco ou white noise, com média E(Xt ) = 0 e variância var = σ 2 (BROCKWELL;
DAVIS; CALDER, 2002). A notação do ruı́do branco pode ser vista através da Equação
A..
Xt ∼ W N (0, σ 2 ) (A.)
Caso uma série Xt seja composta por um valor passado Xt−1 e um ruı́do t (Equação
A.), então esta série é denominada de random walk ou passeio aleatório, e não é con-
siderada estacionária. Sendo assim, a média é dada por E(Xt ) = tµ e a variância por
var = tσ 2 (BOX GWILYM M. JENKINS, 1994).
Xt = Xt−1 + t (A.)
Um processo é chamado de moving average de ordem q, M A(q), se for escrito como

mostra a Equação A. (BOX GWILYM M. JENKINS, 1994).
Xt = t − θ1 t−1 − θ2 t−2 − ... − θq t−q (A.)
onde os sı́mbolos −θ1 , −θ2 , ..., −θq são o conjunto finito de parâmetros de peso e t são
elementos formados com caracterı́sticas do ruı́do branco com média E(Xt ) = 0 e variância
var = σ 2 .
Enquanto que um processo autorregressive de ordem p, AR(p), pode ser expresso pela
Equação A. (BOX GWILYM M. JENKINS, 1994)
Xt = φ1 xt−1 + φ2 xt−2 + ... + φp xt−p + t (A.)
onde os sı́mbolos φ1 , φ2 , ..., φp são o conjunto finito de parâmetros de peso e t é um

ruı́do branco. Assim sendo, a série Xt possui valores que são combinações lineares dos p
valores passados mais um termo t .
A.4 MODELAGEM: ESTATÍSTICA E SISTEMAS DINÂMICOS 61
Através dos conceitos mencionados acima, um processo é dito autoregressive moving

average se uma série é estacionária e se para cada t segue os princı́pos estabelecidos pela
Equação A. (BROCKWELL; DAVIS; CALDER, 2002).
xt + φ1 xt−1 + φ2 xt−2 + ... + φp xt−p = t − θ1 t−1 − θ2 t−2 − ... − θq t−q (A.)
onde t ∼ W N (0, σ 2 ). Esse modelo é definido por ARM A(p, q), em que p representa a
ordem por parte do processo autoregressive, AR(p), e q refere-se à ordem do processo
moving average, M A(q).
Diante da discussão sobre o modelo ARM A, o qual representa séries estacionárias,
há uma generalização dessa classe, visto que é possı́vel incorporar uma ampla gama de
séries não-estacionárias e que pode ser fornecida pelos processos autoregressive integrated
moving average (ARIMA). Sendo assim, se d é um inteiro não-negativo, então a série
Xt é um ARIM A(p, d, q) se Yt := (1 − B)d Xt é um processo causal ARM A(p, q). Esta
definição significa que Xt satisfaz uma equação de diferença representada pela Equação
A. (BROCKWELL; DAVIS; CALDER, 2002).
φ∗ (B)Xt ≡ φ(B)(1 − B)d Xt = θ(B)t , t ∼ W N (0, σ 2 ) (A.)

onde φ(z) e θ(z) são polinômios de grau p e q, respectivamente, e φ(z) 6= 0 para
|z| ≤ 1.
A.4.2 Modelagem baseada em Sistemas Dinâmicos e Teoria do Caos

A Teoria do Caos faz parte do estudo de sistemas dinâmicos complexos, iniciado por Lo-
renz em 1963, quando estudava a dinâmica do fluxo turbulento em fluı́dos (LEVY, 1994).
Esses sistemas são ditos caóticos se, após sua análise, são consideradas caracterı́sticas não-
lineares, não-equilibradas, determinı́sticas, dinâmicas e que incorporam aleatoriedade, de
modo que são sensı́veis às condições iniciais e têm atratores estranhos (CAMBEL, 1993).
Matematicamente, os sistemas caóticos são representados por equações diferenciais que
não podem ser resolvidas, de modo que não é possı́vel calcular o estado do sistema em um
tempo futuro especı́fico t. Para superar o problema das equações diferenciais intratáveis,
pesquisadores geralmente modelam sistemas como equações de diferenças discretas, que
especificam qual será o estado do sistema no tempo t + 1, dado o estado do sistema no
momento t. Em seguida, é usado para verificar como o sistema evolui com o tempo. Uma
das principais realizações da teoria do caos é sua capacidade de demonstrar como um con-
junto simples de relacionamentos determinı́sticos pode produzir resultados padronizados,
porém imprevisı́veis (LEVY, 1994).
Dessa forma, um sistema caótico pode ser explicado quantitativamente através do
expoente de Lyapunov. O expoente de Lyapunov é o logaritmo natural do número de
Lyapunov, sendo este a média da taxa de divergência por passo dos pontos próximos ao
longo de uma órbita {x1 , x2 , x3 , ...}, considerada a variação dos valores produzidos pelo
sistema. Portanto, seja f um mapa da linha real R, o número de Lyapunov L(x1 ) de
uma órbita é definido segundo a Equação A. se o limite existe (ALLIGOOD; SAUER;
YORKE, 1996).
L(x1 ) = lim (|(f 0 (x1 ))|...|(f 0 (xn ))|)1/n (A.)

n→∞
Então, o expoente de Lyapunov h(x1 ) é definido através da Equação A. se, e somente
se, L existir e for diferente de zero, e lnL = h (ALLIGOOD; SAUER; YORKE, 1997).
1
h(x1 ) = lim [ln(|(f 0 (x1 ))|) + ... + ln(|(f 0 (xn ))|)] (A.)
n→∞ n
Além disso, vale ressaltar que a órbita {x1 , x2 , ...xn } é chamada de assintoticamente
periódica se convergir para uma órbita periódica como n → ∞. Isto significa que existe
uma órbita periódica {y1 , y2 , ..., yk , y1 , y2 , ...} que satisfaz a Equação A. (ALLIGOOD;
SAUER; YORKE, 1997).
lim |xn − yn | = 0 (A.)
n→∞
Portanto, pode-se concluir que uma órbita é caótica se (ALLIGOOD; SAUER;

YORKE, 1997):
1. {x1 , x2 , ...xn } não é assintoticamente periódico
2. o expoente de Lyapunov h(x1 ) é maior que zero
Além do expoente de Lyapunov, existe o expoente de Hurst, o qual mede a aleatorie-

dade de um conjunto de dados. O expoente de Hurst fornece uma medida para memória
de longo prazo e fractalidade de uma série temporal. Por ser robusto e com poucas su-
posições sobre sistemas subjacentes, este expoente tem ampla aplicabilidade para análise
de séries temporais. Os valores do expoente de Hurst (H) variam entre 0 e 1, e podem
ser classificados em três categorias (QIAN; RASHEED, 2004).
1. H = 0.5, indica uma série aleatória (random walk )
2. 0 < H < 0.5, indica uma série anti-persistente
3. 0.5 < H < 1, indica uma série persistente
Uma série anti-persistente tem uma caracterı́stica de reversão à média ou mean-

reverting, o que significa que um valor de subida é mais provavelmente seguido por um
valor de descida e vice-versa. A força de reversão à média aumenta à medida que H se
aproxima de 0. Já uma série persistente é um reforço de tendência, o que significa que
a direção (para cima ou para baixo em relação ao último valor) do próximo valor é mais
provável que o valor atual. A força da tendência aumenta à medida que H se aproxima de
1.0 (QIAN; RASHEED, 2004). A maioria das séries temporais econômicas e financeiras
é persistente com H > 0.5 (QIAN; RASHEED, 2004).
O expoente de Hurst pode ser estimado através da análise Rescaled Range (R/S),
em que, dado uma série temporal X = {x1 , x2 ..., xn }, o método da análise R/S pode ser
calculado através de seis passos (QIAN; RASHEED, 2004):
A.4 MODELAGEM: ESTATÍSTICA E SISTEMAS DINÂMICOS 63
1. Calcula o valor médio m:

m = n1 ni=1 xi
P
2. Calcula a série média ajustada Y :

Yt = xt –m para t = 1, 2, ..., n
3. Calcula a série de desvios cumulativos Z:
Zt = ti=1 para t = 1, 2, ..., n
P
4. Calcula a série de alcance R em t = 1, 2, ..., n:

Rt = max(Z1 , Z2 , ..., Zt )–min(Z1 , Z2 , ..., Zt )
5. Calcula a série de desvios padrão S:
q P
St = 1t ti=1 (xi − u)
sendo u o valor médio de x1 para xt .
6. Calcula a série Rescaled Range (R/S) para t = 1, 2, ..., n:
(R/S)t = Rt /St
Portanto, (R/S) é escalado à medida que o tempo aumenta, como indicado na Equação
A..
(R/S)t = c ∗ tH (A.)
onde c é uma constante e H é o expoente Hurst, a Figura A.10 demonstra esta análise.
6
*
*
5
*
4 *
H=0.65
log2(R/S) *
3
*
2 *
*
1
*
1 2 3 4 5 6 7 8 9 10
log2(t)
Figura A.10 Expoente de Hurst com análise R/S - adaptado de (QIAN; RASHEED, 2004).

Gap3 PDF

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Gap3 PDF

Enviado por

Direitos autorais:

Formatos disponíveis

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DA BAHIA

Ata da Sessão Pública de Defesa de Mestrado nº. 97

Ata da sessão pública do Colegiado do Programa de Pós-Graduação em Ciência da Computação, realizada

Salvador, 29 de julho de 2020

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273

Ata da Sessão Pública de Defesa de Mestrado nº. 97

Ata da sessão pública do Colegiado do Programa de Pós-Graduação em Ciência da Computação, realizada

Salvador, 29 de julho de 2020

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273

Defesa de Mestrado nº 97 – FICHA DE AVALIAÇÃO

NOME DO ALUNO: Rosana Guimarães Ribeiro

TÍTULO: “Novo índice interno de validação de agrupamento de dados temporais”

Data: 29 de julho de 2020 Horário: 14h

APROVADO: APROVADO COM RESTRIÇÕES: REPROVADO:

Nome e Assinatura dos Membros da Banca:

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273

Defesa de Mestrado nº 97 – Lista de Presença

NOME DO ALUNO: Rosana Guimarães Ribeiro

TÍTULO: “Novo índice interno de validação de agrupamento de dados temporais”

Data: 29 de julho de 2020 Horário: 14h

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273

Aproveitamos a oportunidade para agradecer a sua valiosa colaboração.

Salvador, 29 de julho de 2020

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273

Aproveitamos a oportunidade para agradecer a sua valiosa colaboração.

Salvador, 29 de julho de 2020

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273

Aproveitamos a oportunidade para agradecer a sua valiosa colaboração.

Salvador, 29 de julho de 2020

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273

PORTARIA Nº 07/2020 de 19 de julho de 2020

O COORDENADOR DO PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO, no uso

TÍTULO: “Novo índice interno de validação de agrupamento de dados temporais”

Salvador, 19 de julho de 2020.

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273

O Programa de Pós-Graduação em Ciência da Computação da UFBA convida a todos para a defesa

Aluna: Rosana Guimarães Ribeiro

Título: Novo índice interno de validação de agrupamento de dados temporais

Data da Defesa: 29 de julho de 2020; Horário: 14h

Salvador, 19 de julho de 2020.

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa

R484 Ribeiro, Rosana Guimarães

Orientadora: Prof. Dr. Ricardo Araújo Rios

1. Ciência da Computação. 2. Estatística. I. Rios, Ricardo

Programa de Pós-Graduação em Ciência da Computação

ESTATÍSTICA GAP TEMPORAL: UM NOVO

Rosana Guimarães Ribeiro

ESTATÍSTICA GAP TEMPORAL: UM NOVO ÍNDICE INTERNO

Esta Dissertação de Mestrado foi

Orientador: Prof. Dr. Ricardo Araújo Rios

Técnicas de Aprendizado de Máquina Não-Supervisionado foram desenvolvidas visando