Você está na página 1de 90

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DA BAHIA


INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
PGCOMP - Programa de Pós-Graduação em Ciência da Computação
http://pgcomp.dcc.ufba.br

Ata da Sessão Pública de Defesa de Mestrado nº. 97


Colegiado do Programa de Pós-Graduação em Ciência da Computação

Ata da sessão pública do Colegiado do Programa de Pós-Graduação em Ciência da Computação, realizada


em 29 de julho de 2020 para procedimento de defesa da Dissertação de Mestrado em Ciência da
Computação nº. 97, linha de pesquisa Engenharia de Software, da candidata Rosana Guimarães Ribeiro,
matrícula 218219186, intitulada “Novo índice interno de validação de agrupamento de dados temporais”.
Às Catorze horas do citado dia, via webconferência, foi aberta a sessão pelo presidente da banca
examinadora Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA) que apresentou os outros membros da
banca: Prof. Dr.Marcelo Keese Albertini(UFU), e o Marcos Ennes Barreto(UFBA). Em seguida foram
esclarecidos os procedimentos pelo presidente que passou a palavra ao examinado para apresentação do
trabalho de Mestrado. Ao final da apresentação, passou-se à arguição por parte da banca, a qual, em
seguida, reuniu-se para a elaboração do parecer. No seu retorno, foi lido o parecer final a respeito do
trabalho apresentado pela candidata, tendo a banca examinadora aprovado o trabalho apresentado, sendo
esta aprovação um requisito parcial para a obtenção do grau de Mestre. Em seguida, nada mais havendo a
tratar, foi encerrada a sessão pelo presidente da banca, tendo sido, logo a seguir, lavrada a presente ata,
abaixo assinada por todos os membros da banca.

Salvador, 29 de julho de 2020

__________________________________ __________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador- Prof. Dr.Marcelo Keese Albertini(UFU)
UFBA)

__________________________________
Marcos Ennes Barreto(UFBA)

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273


Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110
EMAIL: ceapgmat@ufba.br
MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
PGCOMP - Programa de Pós-Graduação em Ciência da Computação
http://pgcomp.dcc.ufba.br

Ata da Sessão Pública de Defesa de Mestrado nº. 97


Colegiado do Programa de Pós-Graduação em Ciência da Computação

Ata da sessão pública do Colegiado do Programa de Pós-Graduação em Ciência da Computação, realizada


em 29 de julho de 2020 para procedimento de defesa da Dissertação de Mestrado em Ciência da
Computação nº. 97, linha de pesquisa Engenharia de Software, da candidata Rosana Guimarães Ribeiro,
matrícula 218219186, intitulada “Novo índice interno de validação de agrupamento de dados temporais”.
Às Catorze horas do citado dia, webconferencia, foi aberta a sessão pelo presidente da banca examinadora
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA) que apresentou os outros membros da banca: Prof.
Dr.Marcelo Keese Albertini(UFU),e o Marcos Ennes Barreto(UFBA). Em seguida foram esclarecidos os
procedimentos pelo presidente que passou a palavra ao examinado para apresentação do trabalho de
Mestrado. Ao final da apresentação, passou-se à arguição por parte da banca, a qual, em seguida, reuniu-se
para a elaboração do parecer. No seu retorno, foi lido o parecer final a respeito do trabalho apresentado pela
candidata, tendo a banca examinadora aprovado o trabalho apresentado, sendo esta aprovação um requisito
parcial para a obtenção do grau de Mestre. Em seguida, nada mais havendo a tratar, foi encerrada a sessão
pelo presidente da banca, tendo sido, logo a seguir, lavrada a presente ata, abaixo assinada por todos os
membros da banca.

Salvador, 29 de julho de 2020

__________________________________ __________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador- Prof. Dr.Marcelo Keese Albertini(UFU)
UFBA)

__________________________________
Marcos Ennes Barreto(UFBA)

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273


Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110
EMAIL: ceapgmat@ufba.br
MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
PGCOMP - Programa de Pós-Graduação em Ciência da Computação
http://pgcomp.dcc.ufba.br

Defesa de Mestrado nº 97 – FICHA DE AVALIAÇÃO

NOME DO ALUNO: Rosana Guimarães Ribeiro

TÍTULO: “Novo índice interno de validação de agrupamento de dados temporais”

Data: 29 de julho de 2020 Horário: 14h

LOCAL: webconferencia.

RESULTADO:

APROVADO: APROVADO COM RESTRIÇÕES: REPROVADO:

Observações:
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________

Sugestões:
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________

Nome e Assinatura dos Membros da Banca:

__________________________________ __________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador- Prof. Dr.Marcelo Keese Albertini(UFU)
UFBA)

__________________________________
Marcos Ennes Barreto(UFBA)

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273


Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110
EMAIL: ceapgmat@ufba.br
MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
PGCOMP - Programa de Pós-Graduação em Ciência da Computação
http://pgcomp.dcc.ufba.br

Defesa de Mestrado nº 97 – Lista de Presença

NOME DO ALUNO: Rosana Guimarães Ribeiro

TÍTULO: “Novo índice interno de validação de agrupamento de dados temporais”

Data: 29 de julho de 2020 Horário: 14h

LOCAL: webconferencia.

Nome Assinatura

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273


Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110
EMAIL: ceapgmat@ufba.br
MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
PGCOMP - Programa de Pós-Graduação em Ciência da Computação
http://pgcomp.dcc.ufba.br

DECLARAÇÃO

Declaramos para os devidos fins que o Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA) atuou como
orientador e participou como Membro da Banca na Defesa de Mestrado da aluna Rosana Guimarães Ribeiro,
intitulada “Novo índice interno de validação de agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de
dois mil e vinte, webconferencia.

Aproveitamos a oportunidade para agradecer a sua valiosa colaboração.

Salvador, 29 de julho de 2020

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273


Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110
EMAIL: ceapgmat@ufba.br
MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
PGCOMP - Programa de Pós-Graduação em Ciência da Computação
http://pgcomp.dcc.ufba.br

DECLARAÇÃO

Declaramos para os devidos fins que o Prof. Dr.Marcelo Keese Albertini(UFU) participou como Membro da
Banca na Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, intitulada “Novo índice interno de validação de
agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de dois mil e vinte, webconferencia.

Aproveitamos a oportunidade para agradecer a sua valiosa colaboração.

Salvador, 29 de julho de 2020

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273


Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110
EMAIL: ceapgmat@ufba.br
MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
PGCOMP - Programa de Pós-Graduação em Ciência da Computação
http://pgcomp.dcc.ufba.br

DECLARAÇÃO

Declaramos para os devidos fins que o Marcos Ennes Barreto(UFBA) participou como Membro da Banca na
Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, intitulada “Novo índice interno de validação de
agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de dois mil e vinte, webconferencia.

Aproveitamos a oportunidade para agradecer a sua valiosa colaboração.

Salvador, 29 de julho de 2020

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273


Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110
EMAIL: ceapgmat@ufba.br
MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
PGCOMP - Programa de Pós-Graduação em Ciência da Computação
http://pgcomp.dcc.ufba.br

PORTARIA Nº 07/2020 de 19 de julho de 2020

O COORDENADOR DO PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO, no uso


de suas atribuições legais,

RESOLVE:

Designar comissão composta pelos Professores Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA),
Prof. Dr.Marcelo Keese Albertini(UFU), Marcos Ennes Barreto(UFBA), e para compor a Banca
para Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, que ocorrerá no dia Vinte e bove
de julho de dois mil e vinte às 14h, webconferencia.

TÍTULO: “Novo índice interno de validação de agrupamento de dados temporais”

Salvador, 19 de julho de 2020.

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273


Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110
EMAIL: ceapgmat@ufba.br
MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
PGCOMP - Programa de Pós-Graduação em Ciência da Computação
http://pgcomp.dcc.ufba.br

O Programa de Pós-Graduação em Ciência da Computação da UFBA convida a todos para a defesa


pública de Mestrado de número 97 deste programa.

Aluna: Rosana Guimarães Ribeiro

Título: Novo índice interno de validação de agrupamento de dados temporais

Banca Examinadora:
- Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)
- Prof. Dr.Marcelo Keese Albertini(UFU)
- Marcos Ennes Barreto(UFBA)

Data da Defesa: 29 de julho de 2020; Horário: 14h


Local da Defesa: webconferencia

Resumo: Técnicas de Aprendizado de Máquina não-supervisionado foram desenvolvidas visando encontrar estruturas e
padrões em conjuntos de dados sem considerar qualquer informação prévia fornecida, por exemplo, por um especialista. Essa
ausência de informação impacta diretamente no processo de validação devido à dificuldade em mensurar o conhecimento obtido
por meio destas técnicas. Visando solucionar este problema, diversas pesquisas têm sido publicadas na literatura propondo
critérios que integram diferentes áreas do conhecimento como Ciência da Computação e Estatística. Esses critérios são
comumente divididos em $3$ categorias: relativo, externo e interno. Em geral, tais critérios são desenvolvidos com base em
índices com diferentes objetivos e vieses de análise. Entretanto, grande parte desses índices são aplicados sobre dados
caracterizados por serem independentes e identicamente distribuídos. A realização de uma Revisão Sistemática da Literatura
demonstrou que há um número reduzido de pesquisas que investigam índices de validação de agrupamento para dados com
dependência temporal entre suas observações. Este número é ainda mais reduzido quando se trata de índices que utilizam critério
interno de validação. Neste sentido, este trabalho de mestrado apresenta um novo índice interno de validação baseado na
adaptação da Estatística GAP (Gap Statistic) comumente utilizado na literatura. O índice apresentado foi desenvolvido com o
objetivo de mensurar e validar informações extraídas de dados temporais a partir da aplicação de técnicas de Aprendizado de
Máquina não-supervisionado. Dessa forma, resultados experimentais demonstram a eficiência do novo índice interno de validação
para dados com dependência temporal e confirmam a importância do mesmo para o estado da arte.

Salvador, 19 de julho de 2020.

Universidade Federal da Bahia - Instituto de Matemática – Tel. +55 (71) 3283-6308/6273


Av. Ademar de Barros, s/n – Campus de Ondina – Salvador – Bahia, CEP 40170-110
EMAIL: ceapgmat@ufba.br
“Novo índice interno de validação de agrupamento de dados temporais”

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa


de Pós-Graduação em Ciência da Computação na Universidade
Federal da Bahia, como requisito parcial para obtenção do Título de
Mestre em Ciência da Computação.

Banca Examinadora

_______________________________________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)

_______________________________________________________________
Prof. Dr.Marcelo Keese Albertini(UFU)

_______________________________________________________________
Marcos Ennes Barreto(UFBA)
“Novo índice interno de validação de agrupamento de dados temporais ”

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa


de Pós-Graduação em Ciência da Computação na Universidade
Federal da Bahia, como requisito parcial para obtenção do Título de
Mestre em Ciência da Computação.

Banca Examinadora

_______________________________________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)

_______________________________________________________________
Prof. Dr.Marcelo Keese Albertini(UFU)

_______________________________________________________________
Marcos Ennes Barreto(UFBA)
“Novo índice interno de validação de agrupamento de dados temporais ”

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa


de Pós-Graduação em Ciência da Computação na Universidade
Federal da Bahia, como requisito parcial para obtenção do Título de
Mestre em Ciência da Computação.

Banca Examinadora

_______________________________________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)

_______________________________________________________________
Prof. Dr.Marcelo Keese Albertini(UFU)

_______________________________________________________________
Marcos Ennes Barreto(UFBA)
“Novo índice interno de validação de agrupamento de dados temporais ”

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa


de Pós-Graduação em Ciência da Computação na Universidade
Federal da Bahia, como requisito parcial para obtenção do Título de
Mestre em Ciência da Computação.

Banca Examinadora

_______________________________________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)

_______________________________________________________________
Prof. Dr.Marcelo Keese Albertini(UFU)

_______________________________________________________________
Marcos Ennes Barreto(UFBA)
“Novo índice interno de validação de agrupamento de dados temporais ”

Rosana Guimarães Ribeiro

Dissertação apresentada ao Colegiado do Programa


de Pós-Graduação em Ciência da Computação na Universidade
Federal da Bahia, como requisito parcial para obtenção do Título de
Mestre em Ciência da Computação.

Banca Examinadora

_______________________________________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)

_______________________________________________________________
Prof. Dr.Marcelo Keese Albertini(UFU)

_______________________________________________________________
Marcos Ennes Barreto(UFBA)
Ficha catalográfica elaborada pela Biblioteca Universitária de
Ciências e Tecnologias Prof. Omar Catunda, SIBI - UFBA.

R484 Ribeiro, Rosana Guimarães


Estatística Gap Temporal: um novo índice interno de
validação de agrupamento de dados temporais/ Rosana
Guimarães Ribeiro. – Salvador, 2020.
63 f.

Orientadora: Prof. Dr. Ricardo Araújo Rios


 
Dissertação (Mestrado) – Universidade Federal da Bahia.
Instituto de Matemática, 2020.

1. Ciência da Computação. 2. Estatística. I. Rios, Ricardo


Araújo. II. Universidade Federal da Bahia. III. Título.
CDU 681.3
Universidade Federal da Bahia
Instituto de Matemática

Programa de Pós-Graduação em Ciência da Computação

ESTATÍSTICA GAP TEMPORAL: UM NOVO


ÍNDICE INTERNO DE VALIDAÇÃO DE
AGRUPAMENTO DE DADOS TEMPORAIS

Rosana Guimarães Ribeiro

DISSERTAÇÃO DE MESTRADO

Salvador
06 de julho de 2020
ROSANA GUIMARÃES RIBEIRO

ESTATÍSTICA GAP TEMPORAL: UM NOVO ÍNDICE INTERNO


DE VALIDAÇÃO DE AGRUPAMENTO DE DADOS TEMPORAIS

Esta Dissertação de Mestrado foi


apresentada ao Programa de Pós-
Graduação em Ciência da Com-
putação da Universidade Federal da
Bahia, como requisito parcial para
obtenção do grau de Mestre em
Ciência da Computação.

Orientador: Prof. Dr. Ricardo Araújo Rios

Salvador
06 de julho de 2020
RESUMO

Técnicas de Aprendizado de Máquina Não-Supervisionado foram desenvolvidas visando


encontrar estruturas e padrões em conjuntos de dados sem considerar qualquer informação
prévia fornecida, por exemplo, por um especialista. Essa ausência de informação impacta
diretamente no processo de validação devido à dificuldade em mensurar o conhecimento
obtido por meio destas técnicas. Visando solucionar este problema, diversas pesquisas
têm sido publicadas na literatura propondo critérios que integram diferentes áreas do
conhecimento como Ciência da Computação e Estatı́stica. Esses critérios são comumente
divididos em 3 categorias: relativo, externo e interno. Em geral, tais critérios são desen-
volvidos com base em ı́ndices com diferentes objetivos e vieses de análise. Entretanto,
grande parte desses ı́ndices são aplicados sobre dados caracterizados por serem indepen-
dentes e identicamente distribuı́dos. A realização de uma Revisão Sistemática da Lite-
ratura demonstrou que há um número reduzido de pesquisas que investigam ı́ndices de
validação de agrupamento para dados com dependência temporal entre suas observações.
Este número é ainda mais reduzido quando se trata de ı́ndices que utilizam critério in-
terno de validação. Para superar essa limitação, este trabalho de mestrado apresenta
um novo ı́ndice interno de validação baseado na estatı́stica GAP (Gap Statistic). Este
novo ı́ndice foi desenvolvido com o objetivo de mensurar e validar informações extraı́das
de dados temporais com comportamento caótico a partir da aplicação de técnicas de
Sistemas Dinâmicos e de Aprendizado de Máquina não-supervisionado. Resultados expe-
rimentais demonstraram a eficiência do novo ı́ndice interno de validação para dados com
dependência temporal e confirmaram a importância do mesmo para o estado da arte.

Palavras-chave: Séries Temporais, Índice Interno, Validação de Agrupamento, es-


tatı́stica GAP

iii
SUMÁRIO

Capı́tulo 1—Introdução 1
1.1 Contextualização e Motivação . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Motivação e Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

Capı́tulo 2—Fundamentação Teórica 5


2.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Validação de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1 Critério Externo . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.2 Critério Relativo . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.3 Critério Interno . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Distância DTW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Análise de Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4.1 Sistemas Dinâmicos . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Capı́tulo 3—Estado da Arte 17


3.1 Fase I: Critérios de busca nos repositórios . . . . . . . . . . . . . . . . . . 17
3.2 Fase II: Análise e Quantificação dos artigos . . . . . . . . . . . . . . . . . 19
3.3 Fase III: Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . 24

Capı́tulo 4—Estatı́stica Gap Temporal 25


4.1 Visão Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Capı́tulo 5—Resultados Experimentais 33


5.1 Configuração dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . 33
5.2 Análise Quantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.1 Experimentos sem ruı́do . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.2 Experimentos com ruı́do . . . . . . . . . . . . . . . . . . . . . . . 39
5.2.3 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Capı́tulo 6—Conclusão 45

v
vi SUMÁRIO

Apêndice A—Conceitos Fundamentais 51


A.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
A.2 Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
A.3 Série Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
A.3.1 Estocasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
A.3.2 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
A.3.3 Linearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
A.4 Modelagem: Estatı́stica e Sistemas Dinâmicos . . . . . . . . . . . . . . . 60
A.4.1 Modelagem baseada em Estatı́stica . . . . . . . . . . . . . . . . . 60
A.4.2 Modelagem baseada em Sistemas Dinâmicos e Teoria do Caos . . 61
LISTA DE FIGURAS

2.1 (a) Representação dos dados e (b) Dispersão dos dados Wk com a variação
do número de grupos k (TIBSHIRANI; WALTHER; HASTIE, 2001) . . . 10
2.2 Representação da distribuição de referência . . . . . . . . . . . . . . . . . 11

2.3 (a) Função log(Wk ) (O) e log(Wkb ) (E) utilizando o método de Monte
Carlo e (b) Curva Gap . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Caminho de deformação (warping path) entre duas séries temporais . . . 12
2.5 Série temporal produzida pelo sistema Lorenz (à esquerda) e a série des-
dobrada no espaço fase (à direita) (RIOS, 2013). . . . . . . . . . . . . . . 14

4.1 Fluxo da estatı́stica Gap Temporal utilizando Sistemas Dinâmicos . . . . 28


4.2 Desdobramento de um conjunto de séries temporais na mesma dimensão
embutida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 Sistemas Dinâmicos na etapa de Monte Carlo . . . . . . . . . . . . . . . 31

5.1 Sistema de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34


5.2 Sistema de Rössler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.3 Série temporal caótica criada pela equação Logistic . . . . . . . . . . . . 34
5.4 Mapeamento Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.5 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
gistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.6 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.7 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.8 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz e Rössler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.9 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Röss-
ler e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.10 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Röss-
ler e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.11 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.12 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Rössler e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.13 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Rössler e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

vii
viii LISTA DE FIGURAS

5.14 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Röss-
ler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.15 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Rössler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . 39
5.16 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
gistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.17 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.18 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.19 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz e Rössler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.20 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Röss-
ler e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.21 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Röss-
ler e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.22 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.23 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Rössler e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.24 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Rössler e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.25 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Röss-
ler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.26 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Rössler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . 43

A.1 Método Particional, com K grupos igual a 3. . . . . . . . . . . . . . . . . 52


A.2 Algoritmo Hierárquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
A.3 Método baseado em densidade . . . . . . . . . . . . . . . . . . . . . . . . 53
A.4 Método baseado em densidade em diferentes formas . . . . . . . . . . . . 54
A.5 Método baseado em modelo, algoritmo Self-Organizing Map (SOM) . . . 54
A.6 Método baseado em grid (LIAO; LIU; CHOUDHARY, 2004) . . . . . . . 55
A.7 Procedimento de agrupamento. O processo básico de análise de grupos
consiste em quatro etapas com um caminho de feedback. Essas etapas
estão intimamente relacionadas entre si e determinam os grupos derivados
– adaptado de (XU; WUNSCH, 2008). . . . . . . . . . . . . . . . . . . . 56
A.8 Série Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
A.9 Decomposição de Séries Temporais . . . . . . . . . . . . . . . . . . . . . 58
A.10 Expoente de Hurst com análise R/S - adaptado de (QIAN; RASHEED,
2004). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
LISTA DE TABELAS

3.1 Número de artigos encontrados pela Revisão Sistemática. . . . . . . . . . 19


3.2 Número de artigos publicados por ano. . . . . . . . . . . . . . . . . . . . 20
3.3 Índices mais utilizados na validação de agrupamento de séries temporais. 23

ix
Capı́tulo

1
INTRODUÇÃO

1.1 CONTEXTUALIZAÇÃO E MOTIVAÇÃO

Atualmente, grandes volumes de dados são coletados e produzidos por diferentes siste-
mas. Para exemplificar essa afirmação, mais de 5,8 bilhões de buscas são realizadas em
repositórios do Google (PRATER, 2019) e cerca de 12,1TB de imagens são gerados por
satélites da NASA todos os dias (GOREY, 2017). Além de grandes corporações, as pes-
soas passaram a produzir grandes volumes de dados com a popularização de dispositivos
de acesso à Internet e o surgimento das redes sociais.
Esse aumento significativo na quantidade de dados tem dificultado a tarefa de especi-
alistas na análise e extração de novas informações. Buscando superar essas dificuldades,
técnicas de Aprendizado de Máquina (AM) têm sido propostas visando induzir hipóteses
que sejam capazes de descrever relações entre os dados analisados. A indução destas
hipóteses ocorre de acordo com o paradigma de aprendizado (MITCHELL et al., 1997;
BISHOP, 2006; FACELI et al., 2011), o qual pode ser organizado em supervisionado, não-
supervisionado, semi-supervisionado e baseado em reforço. A pesquisa apresentada neste
projeto foi planejada considerando o paradigma não-supervisionado, no qual métodos
são ajustados sobre as caracterı́sticas (atributos) dos dados, visando extrair padrões sem
considerar qualquer informação previamente fornecida por especialistas.
Neste paradigma, destacam-se os algoritmos de agrupamento, cujo principal objetivo
é encontrar estruturas, de maneira que dados pertencentes a um mesmo grupo com-
partilhem caracterı́sticas ou propriedades relevantes para um determinado problema em
estudo (JAIN; DUBES et al., 1988; FACELI et al., 2011). Para avaliar objetivamente
e quantitativamente se a estrutura derivada do agrupamento é significativa, faz-se ne-
cessário utilizar critérios de validação (XU; WUNSCH, 2008), os quais implementam
ı́ndices que têm como objetivo testar e avaliar a qualidade dos grupos obtidos. Conforme
discutido em (XU; WUNSCH, 2008; THEODORIDIS; KOUTROUMBAS, 2006; JAIN;
DUBES et al., 1988; FACELI et al., 2011), tais critérios são organizados em três catego-

1
2 INTRODUÇÃO

rias: externos, relativos e internos1 . Critérios externos analisam o resultado produzido


por um algoritmo de agrupamento visando comprovar alguma hipótese previamente espe-
cificada sobre os dados. Os critérios relativos são amplamente utilizados para comparar
diferentes métodos de agrupamento ou diferentes configurações de parâmetros. Neste
caso, não é necessário estabelecer nenhuma suposição prévia sobre dados. Por fim, os
critérios internos são usualmente aplicados para identificar o melhor número de grupos
existentes em bases de dados. Esses critérios analisam as estruturas obtidas, conside-
rando apenas o próprio conjunto de dados. Por exemplo, o melhor ajuste entre uma
determinada estrutura obtida e o conjunto de dados pode ser explicado pela matriz de
similaridade calculada entre pares de instâncias2 .
Ao analisar estudos publicados na literatura, foi possı́vel notar que grande parte dos
algoritmos de agrupamento e validação foi desenvolvida assumindo que o processo de co-
leta de informações acontece de maneira independente e identicamente distribuı́da (iid ).
Entretanto, quando existe, por exemplo, uma relação de dependência temporal entre in-
tervalos de coletas, i.e., o valor de uma observação atual está relacionado com um ou mais
valores passados, então, torna-se necessário criar novos algoritmos de agrupamento e de
validação ou adaptar aqueles existentes na literatura. O desenvolvimento ou adaptação
de algoritmos para agrupamento de dados com dependência temporal, como séries tem-
porais, tem sido proposto por diversos pesquisadores. Por exemplo, a distância DTW
(Dynamic time warping) (BERNDT; CLIFFORD, 1994) tem sido amplamente utilizada
em diversas tarefas de AM no lugar das variações das distâncias de Minkowski quando os
dados possuem dependência temporal. Desta forma, algoritmos de agrupamento para da-
dos iid podem ser aplicados sobre séries temporais, uma vez que sua execução é realizada
sobre uma matriz de distâncias previamente calculada usando DTW.
No entanto, a validação do agrupamento obtido sobre tais dados ainda é um problema
em aberto como foi observado com a execução de uma Revisão Sistemática da Literatura,
apresentada na Seção 3. De acordo com essa revisão, o número de trabalhos propostos
visando apresentar um novo ı́ndice ou critério interno de validação é consideravelmente
inferior, enfatizando que este problema não tem sido amplamente abordado na literatura.
Essa limitação motivou o desenvolvimento desta pesquisa, cuja motivação e objetivo são
apresentados na próxima seção.

1.2 MOTIVAÇÃO E OBJETIVO

A Revisão Sistemática da Literatura, que foi executada durante a fase de planejamento


desta proposta de mestrado, demonstrou que o desenvolvimento de pesquisas com ênfase
na validação de agrupamento realizado sobre séries temporais, especialmente utilizando
ı́ndices de validação do critério interno, ainda é um problema em aberto.
Visando solucionar esse problema, este projeto de mestrado tem como principal obje-
tivo desenvolver um novo ı́ndice interno de validação. Este novo ı́ndice será baseado na
1
Alguns estudos organizam os critérios de validação em apenas duas categorias, externos e internos,
sendo os critérios relativos considerados um subconjunto dos internos. Neste trabalho, contudo, adotou-se
a taxonomia proposta por (XU; WUNSCH, 2008).
2
Neste projeto, cada exemplo presente em uma base de dados é referenciado como instância ou objeto.
1.3 ORGANIZAÇÃO DO TRABALHO 3

estatı́stica Gap, a qual é comumente utilizada em agrupamento de dados iid. De maneira


resumida, essa estatı́stica visa comparar uma distribuição nula de referência apropriada
com dispersões intra-cluster calculadas sobre as partições produzidas pelos algoritmos
de agrupamento. Nesta comparação, a principal etapa está relacionada com distribuição
nula de referência, a qual depende da geração de conjuntos de dados sintéticos produzidos
considerando uma distribuição uniforme por meio do método de Monte Carlo.
De acordo com a estatı́stica Gap original, essa geração é realizada considerando que
os novos dados sintéticos seguem uma distribuição uniforme limitada pelo hiperplano
definido pela dimensão dos atributos. Entretanto, tratando-se de séries temporais, a
geração desses novos dados devem respeitar os relacionamentos entre suas observações.
Além disso, a limitação imposta pelo hiperplano é mais complexa devido aos diferentes
tamanhos e comportamentos das séries temporais analisadas.
Diante deste cenário, este trabalho de mestrado apresenta um novo ı́ndice de validação
interno que realiza três modificações na estatı́stica Gap original. A primeira modificação
utiliza a medida DTW, a qual é uma escolha usual para calcular distância entre séries
temporais. Em seguida, foi realizada uma substituição do algoritmo K-means pelo algo-
ritmo K-medoid. Embora sejam algoritmos com comportamentos similares, essa troca foi
necessária porque a medida DTW não garante a propriedade de desigualdade triangu-
lar, exigida em métricas de distância. Logo, essa limitação, no contexto deste trabalho,
poderia produzir grupos vazios, o que não é conceitualmente aceito na literatura de apren-
dizado não supervisionado (XU; WUNSCH, 2008). Finalmente, como prova de conceito,
definiu-se que o escopo deste projeto seria no tratamento de séries temporais com com-
portamento caótico. Nesse sentido, optou-se por utilizar ferramentas da área de Sistemas
Dinâmicos e Teoria do Caos (ALLIGOOD; SAUER; YORKE, 1997) para produzir novas
séries sintéticas utilizadas pelo método de Monte Carlo na estatı́stica Gap.

1.3 ORGANIZAÇÃO DO TRABALHO


Maiores informações sobre cada etapa da pesquisa realizada nesse projeto de mestrado
serão apresentadas nas seguintes seções: na Seção 2, a fundamentação teórica desta
pesquisa é apresentada destacando conceitos de validação de agrupamento, Análise de
Séries Temporais e ferramentas de Sistemas Dinâmicos. Em complemento a esta seção,
o Apêndice A apresenta assuntos fundamentais para o estudo desta dissertação de mes-
trado. Na Seção 3, é apresentada uma Revisão Sistemática da Literatura, contendo os
trabalhos encontrados sobre ı́ndices de validação no agrupamento de dados temporais. A
Seção 4 apresenta a proposta deste mestrado. Na Seção 5 são discutidos os resultados
experimentais desenvolvidos como prova de conceito do método proposto. E por fim, a
Seção 6 discute a conclusão deste trabalho de mestrado.
Capı́tulo

2
FUNDAMENTAÇÃO TEÓRICA

2.1 CONSIDERAÇÕES INICIAIS

Este capı́tulo apresenta, de maneira resumida, os conceitos fundamentais explorados nesta


dissertação de mestrado. Primeiramente, apresenta-se uma visão geral sobre validação
de agrupamento. Em seguida, a medida de distância DTW e os conceitos básicos so-
bre Sistemas Dinâmicos e Teoria do Caos, utilizados no novo ı́ndice de validação são
discutidos em detalhes. Além da fundamentação teórica apresentada neste capı́tulo, o
apêndice A discute outros conceitos básicos necessários para uma melhor compreensão
desta dissertação.

2.2 VALIDAÇÃO DE AGRUPAMENTO

Validação de agrupamento são métodos quantitativos e objetivos que avaliam os resul-


tados das estruturas de grupos (partições) produzidas por métodos de Aprendizado de
Máquina Não-Supervisionado (XU; WUNSCH, 2008). Os resultados fornecidos por algo-
ritmos de agrupamento podem ser avaliados de dois modos (JAIN; DUBES et al., 1988):
(i) através de técnicas ad hoc, os quais são baseadas na área de aplicação, i.e., utilizando
conhecimento prévio fornecido por especialistas no processo de escolha sobre o melhor
particionamento; (ii) uso de técnicas automáticas para avaliação de agrupamento sem
a necessidade de um especialista da área. Nesta seção, esses modos são explorados por
meio de três critérios de validação de estruturas de agrupamento.

2.2.1 Critério Externo

Critérios externos medem o desempenho do agrupamento combinando uma estrutura


obtida com informações pré-estabelecidas. Em resumo, tais critérios medem o grau de
correspondência entre o número de grupos estimado por algoritmos e os rótulos de ca-
tegoria atribuı́dos a priori (JAIN; DUBES et al., 1988). Para melhor compreender esses

5
6 FUNDAMENTAÇÃO TEÓRICA

critérios, considere P como sendo uma partição pré-definida a partir de um dado con-
junto de dados X composto por N instâncias1 e seja C uma partição obtida por um
algoritmo de agrupamento. A avaliação por critérios externos é, então, conduzida pela
comparação entre C e P . Assim, sendo xi e xj pares de instâncias de X, há quatro
possı́veis organizações dessas instâncias em C e P (XU; WUNSCH, 2008):

• Caso 1: xi e xj pertencem aos mesmos grupos de C e a mesma categoria de P .

• Caso 2: xi e xj pertencem aos mesmos grupos de C, mas diferentes categorias de


P.

• Caso 3: xi e xj pertencem a diferentes grupos de C, mas a mesma categoria de P .

• Caso 4: xi e xj pertencem a diferentes grupos de C e diferentes categorias de P .

Correspondentemente, os casos 1, 2, 3 e 4 são denotados como a, b, c e d, respectiva-


mente, sendo M = a + b + c + d. Desse modo, através da relação entre os diferentes casos
é possı́vel determinar alguns ı́ndices externos que são comumente usados na literatura
para medir a correspondência entre C e P (XU; WUNSCH, 2008):

• Rand Index
(a + d)
R= (.)
M
• Jaccard coefficient
a
J= (.)
(a + b + c)
• Fowlkes and Mallows Index
r
a a
FM = · (.)
(a + b) (a + c)

• Γ statistics
M a − m1 · m2
Γ =p (.)
m1 · m2 (M − m1 )(M − m2 )
onde m1 = a + b e m2 = a + c.

2.2.2 Critério Relativo


Critérios relativos concentram-se na comparação de resultados de agrupamento gera-
dos por diferentes algoritmos ou pelo mesmo algoritmo com diferentes configurações de
parâmetros (XU; WUNSCH, 2008). Neste caso, não é necessário estabelecer nenhuma
suposição prévia sobre dados, como determinado pelos critérios externos. Por outro lado,
necessita-se de diversos testes realizados pelo usuário até ser encontrada uma estrutura de
agrupamento ideal. Por exemplo, para muitos algoritmos de agrupamentos particionais,
1
Neste trabalho, instâncias em base de dados são referenciadas, ainda como exemplo ou objeto
2.2 VALIDAÇÃO DE AGRUPAMENTO 7

o número de grupos é um parâmetro especificado pelo usuário. Embora em alguns casos


esse parâmetro possa ser estimado em termos de experiência do usuário ou informações a
priori, em geral, o número de grupos é estimado a partir de diferentes execuções de algo-
ritmos de grupamento sobre o conjunto de dados (XU; WUNSCH, 2008). Neste contexto,
a determinação da melhor estrutura de agrupamento é realizada por diferentes execuções
do algoritmo e a aplicação de ı́ndices relativos para diferentes valores do parâmetro tes-
tado. Assim, tais ı́ndices retornarão valores referentes ao agrupamento que indicarão a
qualidade da estrutura.
Podem ser citados como ı́ndices de critério relativo (VENDRAMIN; CAMPELLO;
HRUSCHKA, 2009):

• Calinski-Harabasz Index (VRC)

trace(B) N −k
V RC = × (.)
trace(W) k−1

N é o número total de dados em uma partição em k grupos mutuamente disjuntos.


W e B podem ser definidos como:

Ni
k X
X
W = (xi (l) − x̄i )(xi (l) − x̄i )T (.)
i=1 l=1

k
X
B= Ni (x̄i − x̄)(x̄i − x̄)T (.)
i=1

Ni é o número de objetos atribuı́dos ao ith grupo, xi (l) é o lth objeto atribuı́do


a esse grupo, x̄i é o vetor n-dimensional das médias amostrais dentro do grupo,
chamado de centróide e x̄ é o vetor n-dimensional da média global da amostra,
chamado de centróide dos dados. O valor ótimo de k grupos é aquele que maximiza
o ı́ndice VRC.

• Davies-Bouldin Index
É um ı́ndice que se assemelha ao VRC, de modo que também é baseado na relação
de distâncias intra-cluster e inter-cluster.
k
1X
DB = Di (.)
k i=1

Di = maxj6=i Di,j . O termo (Di,j ) é a relação intra-cluster e inter-cluster para o


ith e o jth grupo, tal que, Di,j = (d̂i + dˆj )/di,j , onde d̂i e di,j são as distâncias
médias intra-cluster para o ith grupo e a distância inter-cluster entre os grupos i e
j, respectivamente. O valor ótimo de k grupos é aquele que minimiza esse ı́ndice.
8 FUNDAMENTAÇÃO TEÓRICA

• Dunn’s Index
Índice baseado em medidas geométricas de compactação e separação de grupos.
 
 δp,q 
DN = min (.)
p,q∈(1,...,k)∀p6=q  max ∆l 
l∈(1,...,k)

∆l é o diâmetro do lth grupo e δp,q é a distância definida entre os grupos p e q. A


distância δp,q é originalmente definida como a distância mı́nima entre um par de
objetos entre os grupos p e q. O valor ideal de k grupos é aquele que maximiza o
ı́ndice Dunn.

• Silhouette
Este ı́ndice também é baseado em considerações geométricas referentes à com-
pactação e separação de grupos. Considera-se que o jth objeto do conjunto de
dados xj pertence a um dado grupo p ∈ {1, ..., k}. Então, a distância média deste
objeto para todos os outros objetos no grupo p é denotada por ap,j . Finalmente,
bj é a menor distância entre xj e todos os outros objetos do conjunto de dados que
não pertence ao grupo p, i.e., ∀q ∈ {1, ..., k}, q 6= p. Então, a silhueta (silhouette)
do objeto individual x(j) é definido como:

bj − ap,j
sx(j) = (.)
max{ap,j , bj }

Neste caso, quanto maior sx(j) , melhor será a atribuição de x(j) ao grupo p. Na
existência de apenas um grupo, sx(j) = 0. Portanto, o cálculo da Silhouette é
definido como a média de sx(j) tal que j = 1, 2, ..., N .
N
1 X
SW C = sx(j) (.)
N j=1

A melhor partição é alcançada quando SWC é maximizado, isto implica na mini-


mização da distância intra-cluster ap,j e na maximização da distância inter-cluster
bj .

2.2.3 Critério Interno


Critérios internos avaliam a estrutura de agrupamento sem nenhuma informação externa
sobre os dados (XU; WUNSCH, 2008), assim como o critério relativo. Todavia, o critério
interno é usualmente aplicado para identificar o melhor número de grupos existentes
em bases de dados. Assim sendo, esse critério possui um diferencial em que não há
necessidade do usuário fazer diversos testes com diferentes algoritmos ou variações de
parâmetros até encontrar a melhor estrutura para o agrupamento. Dessa forma, apenas
com a aplicação de uma técnica é possı́vel obter o número ideal de grupos. A especificação
2.2 VALIDAÇÃO DE AGRUPAMENTO 9

do número de grupos tem fundamental importância para o agrupamento, pois a supe-


restimação ou a subestimação de grupos afeta a qualidade da estrutura resultante. De
maneira geral, uma partição com muitos grupos afeta a verdadeira estrutura de agrupa-
mento, tornando difı́cil interpretar e analisar os resultados. Por outro lado, uma partição
com poucos grupos pode causar a perda de informações (XU; WUNSCH, 2008).
No contexto geral, diferentemente dos ı́ndices externos e relativos, a literatura não
apresenta muitas publicações de ı́ndices internos. Sendo assim, os mais conhecidos são
o coeficiente de correlação Cophenetic utilizado para validar estruturas de agrupamento
hierárquicas (XU; WUNSCH, 2008) e a estatı́stica Gap (Gap Statistic) (TIBSHIRANI;
WALTHER; HASTIE, 2001) utilizada para validar estruturas de agrupamento obtidas a
partir de algoritmos particionais e hierárquicos.
Conforme mencionado na introdução deste projeto, a metodologia utilizada para de-
senvolvimento desta pesquisa será baseada no ı́ndice interno de validação fornecido pela
estatı́stica Gap (TIBSHIRANI; WALTHER; HASTIE, 2001). Este ı́ndice visa comparar
as dispersões intra-cluster das partições obtidas a partir de algoritmos de agrupamento
com uma distribuição nula de referência apropriada. De maneira resumida, essa es-
tatı́stica é calculada considerando alguns passos que são demonstrados nessa seção.
Inicialmente, o conjunto de dados, conforme Figura 2.1(a), é agrupado usando algum
algoritmo como, por exemplo, K-means ou Hierárquico. Esse agrupamento é realizado
variando o número total de grupos no intervalo k = {1, 2, 3, . . . , K}. Em seguida, para
cada partição obtida, calcula-se a dispersão Wk conforme apresentado na Equação .,
sendo C· um grupo e d·· uma medida de distância. A representação da dispersão também
pode ser vista na Figura 2.1(b).
X
Dr = dii0 (.)
i,i0 ∈Cr

k
X 1
Wk = Dr (.)
r=1
2n r

Utiliza-se, então, o método de Monte Carlo para gerar B conjuntos de dados de


referência considerando, por exemplo, uma distribuição uniforme, conforme mostrado em
pontos vermelhos na Figura 2.2. Para cada conjunto de dados de referência, realiza-se
um agrupamento e calcula-se sua dispersão Wk∗ e a estatı́stica Gap considerando b =
{1, 2, . . . , B} e k = {1, 2, 3, . . . , K}, conforme Equação .. A Figura 2.3(a) demonstra
os valores das dispersões Wk e Wkb com a função logarı́tmica ao longo de k grupos.
 X
1 ∗
GAP (k) = log(Wkb ) − log(Wk ) (.)
B b

Na sequência, a partir da Equação ., calcula-se o desvio padrão sk (Equação .).


 X
¯l = 1 ∗
log(Wkb ) (.)
B b
10 FUNDAMENTAÇÃO TEÓRICA

"  #1/2
1 X 2

) − ¯l

sdk = log(Wkb (.)
B b
s 
1
sk = sdk 1+ (.)
B
Por fim, o melhor número de grupos é encontrado considerando a Equação ..
Segundo os autores, a estimativa de melhor número de grupos será definida pelo valor
que maximiza a estatı́stica Gap, conforme mostra a Figura 2.3(b).

k̂ = menor k tal que GAP (k) > GAP (k + 1) − sk+1 (.)


Wk
x2

x1 número de clusters k
(a) (b)

Figura 2.1 (a) Representação dos dados e (b) Dispersão dos dados Wk com a variação do
número de grupos k (TIBSHIRANI; WALTHER; HASTIE, 2001)

Conforme discutido na introdução deste trabalho, três modificações foram realizadas


na estatı́stica Gap original para validação de partições obtidas sobre dados temporais.
A primeira modificação é baseado na medida DTW, descrita na próxima seção, a qual é
amplamente utilizada para cálculo de distância entre séries temporais.

2.3 DISTÂNCIA DTW


Em geral, as medidas utilizadas para calcular distâncias entre objetos em uma base de
dados assumem que os atributos são iid. Entretanto, para dados que não possuem essa
caracterı́stica, por exemplo quando há dependência temporal, existem outras medidas
que podem ser utilizadas, como a distância de Hausdorff, modificada Hausdorff (MODH),
baseada em HMM, Dynamic Time Warping (DTW) e Sub-Sequência Comum Mais Longa
(LCSS) (AGHABOZORGI; SHIRKHORSHIDI; WAH, 2015).
2.3 DISTÂNCIA DTW 11

Figura 2.2 Representação da distribuição de referência


log(Wk)

Gap

número de clusters k número de clusters k


(a) (b)

∗ ) (E) utilizando o método de Monte Carlo e (b)


Figura 2.3 (a) Função log(Wk ) (O) e log(Wkb
Curva Gap

É importante destacar que essa seção não tem o objetivo de realizar uma ampla
discussão sobre as principais medidas de distância (ou similaridade) que podem ser apli-
cadas a séries temporais. Para maiores informações sobre tais medidas, recomenda-se a
leitura dos artigos publicados por Duarte et al. (2019) e Aghabozorgi, Shirkhorshidi e
Wah (2015).
Dentre essas medidas, a mais referenciada na literatura é a DTW (TORMENE et al.,
2009; DING et al., 2008), que usa uma abordagem de programação dinâmica para alinhar
pares de séries temporais e calcular a distância entre elas. Para melhor compreender essa
medida, considere as séries temporais S = {s1 , s2 , ..., si , ..., sn } e T = {t1 , t2 , ..., tj , ..., tm }.
O algoritmo DTW organiza essas séries em uma matriz n × m, onde cada ponto da
12 FUNDAMENTAÇÃO TEÓRICA

matriz (i, j), corresponde a um alinhamento entre os elementos si e tj . Um caminho de


deformação ou warping path (W ), mapeia ou alinha os elementos de S e T , de modo que a
distância entre eles seja minimizada (BERNDT; CLIFFORD, 1994), conforme representa
a Equação ., onde d(·, ·) é a distância (e.g. euclidiana) entre dois elementos das séries
temporais.
p
DT W (X, Y ) = dist(Sn , Tm ) (.)

dist(Si−1 , Tj )

dist(Si , Tj ) = d(Si , Tj ) + min dist(Si , Tj−1 ) (.)

dist(Si−1 , Tj−1 )

A Figura 2.4 ilustra o caminho de deformação (warping path) entre duas séries tem-
porais ruidosas apresentadas como rótulo dos eixos x e y.

Timeseries alignment
2 1 0 −1
1000
800 600
Reference index

d$index2
400 200
0

0.0 0.5 1.0

yts
xts

d$index1

0 200 400 600 800 1000


Query index

Figura 2.4 Caminho de deformação (warping path) entre duas séries temporais

2.4 ANÁLISE DE SÉRIES TEMPORAIS


Uma outra importante modificação realizada na estatı́stica Gap está relacionada com
a forma de geração de dados sintéticos no método de Monte Carlo. Nesta pesquisa,
tal modificação foi realizada levando em consideração que as séries temporais possuem
comportamento caótico e, como consequência, suas observações são analisadas de maneira
mais adequada por meio de ferramentas disponı́veis na área de Sistemas Dinâmicos e
Teoria do Caos, conforme discutido nessa seção.
2.4 ANÁLISE DE SÉRIES TEMPORAIS 13

2.4.1 Sistemas Dinâmicos

A análise de séries temporais com comportamento caótico pode ser realizada por meio
de sua transformação do domı́nio temporal para o espaço fase, o qual também é re-
ferenciado como coordenadas de atraso (ALLIGOOD; SAUER; YORKE, 1997; RIOS,
2013). Esses espaços foram inicialmente estudados por Whitney (1936a), que aplicou
variedades diferenciais para reconstruir funções em espaços multidimensionais. Com base
nessa reconstrução, Whitney (1936a) propôs o seu teorema de imersão, que afirma que
os atratores são melhor compreendidos quando as séries temporais são desdobradas em
um espaço de alta dimensão (RIOS, 2013).
Segundo Alligood, Sauer e Yorke (1997), os atratores são definidos pela presença de
pontos fixos e órbitas que definem como as observações das séries temporais evoluem ao
longo do tempo. Nesse sentido, seja f um mapa em R e p um número tal que f (p) = p. Se
todos os pontos próximos a p, levando em consideração uma vizinhança ν, forem atraı́dos
para p, então p é referido como um ponto fixo de atração. Por outro lado, se todos os
pontos se afastarem de p, então é chamado de ponto fixo de repulsão. Da mesma forma,
uma órbita é uma região no espaço fase, em que as observações são atraı́das ou repelidas
(RIOS, 2013).
Takens (1981) provou em seu teorema que dada uma série {x0 , x1 , ..., xn−1 } esta pode
ser reconstruı́da no espaço fase xn (m, τ ) = xn , xn+τ , ..., xn+(m−1)τ , tendo m a dimensão
embutida e τ representando o atraso de tempo (ou dimensão de separação ou dimensão
de atraso). A dimensão embutida define basicamente o número de eixos necessários para
desdobrar as séries temporais no espaço fase. A dimensão de separação, por outro lado,
é importante para representar o comportamento sazonal de séries temporais, indicando
o deslocamento necessário entre as observações passadas (RIOS, 2013).
A estimação da dimensão embutida foi estudada por Takens (1981) e Mañé (1981), que
confirmou que o limite superior para a dimensão embutida De ∈ N pode ser definido pela
dimensão fractal Df conforme a equação De > 2, 0·Df . No entanto, estudos realizados por
Kennel, Brown e Abarbanel (1992) demonstraram que a dimensão obtida a partir dessa
equação é, em geral, maior que o necessário, adicionando mais complexidade e tempo de
execução ao analisar o espaço fase correspondente (KENNEL; BROWN; ABARBANEL,
1992; RIOS, 2013).
Para superar essa desvantagem, Kennel, Brown e Abarbanel (1992) propuseram o
método False Nearest Neighbors (FNN), que analisa a vizinhança para cada observação
no espaço fase. Em resumo, este método começa a calcular a distância entre as observações
considerando que a dimensão embutida é igual a um. Em seguida, uma nova dimensão
é adicionada e as distâncias são novamente calculadas. Se as distâncias aumentam, as
observações são consideradas como falsos vizinhos, ou seja, as observações que estão
juntas são separadas em dimensões de maior incorporação, eliminando os falsos vizinhos
e evidenciando a necessidade de uma reconstrução dimensional mais alta. Se, ao adicionar
uma nova dimensão, a taxa do vizinho falso for zero, o total de dimensões será considerado
como dimensão embutida (ALLIGOOD; SAUER; YORKE, 1996; RIOS, 2013).
Formalmente, o método False Nearest Neighbors considera uma dimensão embutida
m, em que o vizinho r-ésimo próximo a y(n) é definido por y r (n). A distância Euclidiana
14 FUNDAMENTAÇÃO TEÓRICA

entre a observação y(n) e o r-ésimo vizinho esta presente na Equação .. Adicionando
uma nova dimensão, a série temporal é reconstruı́da adicionando coordenadas (m+1) para
cada vetor representando uma observação y(n), como representado pelo termo x(n + mT )
na Equação .. Assim, este método avalia a variação de distância à medida que novas
dimensões são adicionadas de acordo com a Equação ..
m−1
X
2
Rm (n, r) = (x(n + kT ) − x(r) (n + kT ))2 (.)
k=0

2 2
Rm+1 (n, r) = Rm (n, r) + (x(n + mT ) − x(r) (n + mT ))2 (.)

s
2
Rm+1 (n, r) − Rm 2 (n, r) x(n + mT ) − x(n) (n + mT )
Vn,r = 2 (n, r)
= 2 (n, r)
(.)
Rm Rm
Segundo Kennel, Brown e Abarbanel (1992), se a variação da distância Vn,r é maior
que um limite Rtol , então as observações são consideradas como falsos vizinhos, sendo um
valor aceitável para este limite Rtol ≥ 10. Para exemplificar, a Figura 2.5 demonstra uma
série temporal produzida pelo sistema Lorenz (à esquerda), em seguida, segue a mesma
série sendo desdobrada no espaço fase com valores de m = 3 e τ = 5 (à direita).

Figura 2.5 Série temporal produzida pelo sistema Lorenz (à esquerda) e a série desdobrada
no espaço fase (à direita) (RIOS, 2013).

A ferramenta apresentada nesta seção permite analisar, no espaço fase, as séries que
serão agrupadas. Para isso, a geração de séries sintéticas precisa respeitar os limites no
hiperplano onde as observações foram produzidas. Neste sentido, propõe-se criar séries
sintéticas visando manter informações sobre as dimensões embutida e de separação para
2.4 ANÁLISE DE SÉRIES TEMPORAIS 15

que os testes de dispersão respeitem tais limites como discutido na metodologia deste
trabalho.
Capı́tulo

3
ESTADO DA ARTE

Visando identificar ı́ndices utilizados especificadamente na validação de agrupamento de


dados com dependência temporal, foi realizada uma Revisão Sistemática da Literatura
(Systematic Literature Review – SLR) para melhor compreender as pesquisas produzida
sobre o tema. Os resultados obtidos com SLR são discutidos em três fases: Fase I
– definição dos critérios de busca nos repositórios; ase II – análise e quantificação da
qualidade dos artigos coletados; e, por fim, Fase III – conclusões obtidas a partir dos
artigos analisados.

3.1 FASE I: CRITÉRIOS DE BUSCA NOS REPOSITÓRIOS


Nesta fase, foram determinados os critérios utilizados para selecionar os trabalhos rela-
cionados ao problema abordado nesta pequisa. Dessa forma, foram definidos o objetivo
da pesquisa, as questões principal e secundárias relacionadas ao tema em estudo, os re-
positórios de busca, a lista de palavras chaves, os critérios de inclusão e exclusão, e por
fim, o processo geral de execução.
Conforme discutido anteriormente, o objetivo desta pesquisa é encontrar critérios
internos utilizados na validação do agrupamento de séries temporais. Com base neste
objetivo, elaborou-se a seguinte questão principal:

Quais são os critérios internos utilizados na validação do agrupamento de séries


temporais?

Além desta pergunta principal, foram definidas perguntas secundárias que estão di-
retamente associadas à validação da pesquisa proposta. Este conjunto de perguntas são
fundamentais para discutir as aplicações práticas da pesquisa, técnicas de avaliação e o
entendimento das tendências de publicação. Desta forma, foram elaboradas as seguintes
questões secundárias:
QS.1 - Em quais tipos de aplicações práticas pode-se utilizar a validação de agrupa-
mento para séries temporais?

17
18 ESTADO DA ARTE

QS.2 - Como a validação de agrupamento é utilizada?


QS.3 - Por que utilizar validação de agrupamento para séries temporais?
QS.4 - Quais são os principais ı́ndices usados na validação do agrupamento de séries
temporais?
QS.5 - Com que frequência os artigos são publicados por ano?
QS.6 - Quais são as limitações desses ı́ndices?
Após definir tais perguntas, foram selecionados os repositórios de pesquisa onde os
estudos relacionados foram obtidos. Neste contexto, considerou-se apenas repositórios que
aceitam consultas usando palavras-chave e que são comumente utilizados pela comunidade
cientı́fica. Os repositórios escolhidos foram:

• Scopus (https://www.scopus.com/)

• ACM Digital Library (https://dl.acm.org/)

• IEEE Xplore Digital Library (https://ieeexplore.ieee.org/)

A linguagem padrão usada nesta revisão sistemática foi o inglês, ou seja, todos os
trabalhos escritos em outras lı́nguas foram descartados. Como próximo passo, foram
escolhidas as palavras-chave considerando a questão principal desta revisão:

• Organização de dados: Séries Temporais

• Objetivos: Critérios Internos

• Resultados: Validação de agrupamento

Com base nestas palavras-chave, definiu-se, então, a seguinte string de busca:

(“time series”) AND (“internal criteria”) AND (“cluster validity”)

Devido ao fato de que nenhum artigo relevante para o estudo foi encontrado nos
repositórios utilizando essa consulta em inglês, elaborou-se uma nova string de busca que
aborda um contexto mais amplo da pesquisa:

(“time series”) AND (“cluster validity”)

Além dos artigos retornados com as strings anteriores, optou-se por realizar uma
busca nos repositórios por trabalhos que, especificamente, utilizam a estatı́stica Gap
para validar agrupamentos em séries temporais. Para tanto, definiu-se outra string de
busca:

(”time series”) AND (”gap statistic”)


3.2 FASE II: ANÁLISE E QUANTIFICAÇÃO DOS ARTIGOS 19

Para filtrar trabalhos diretamente relacionados com o assunto abordado na revisão


sistemática, foi realizada uma avaliação dos artigos para definir quais seriam incluı́dos ou
não na revisão. Nessa filtragem, optou-se por incluir trabalhos que definem claramente os
critérios internos, externos ou relativos utilizados na validação de agrupamento de séries
temporais. Por outro lado, a exclusão de artigos foi realizada sempre que os trabalhos
não apresentassem um processo validação de agrupamento satisfatório. Além disso, fo-
ram descartados trabalhos que não realizaram uma apresentação clara de utilização de
validação e quando havia trabalhos redundantes.
Portanto, a Fase I apresenta as condições iniciais de seleção de artigos para revisão
sistemática. A próxima fase consiste na análise dos artigos selecionados nesta primeira
fase.

3.2 FASE II: ANÁLISE E QUANTIFICAÇÃO DOS ARTIGOS

Através da consulta realizada nos repositórios apresentados, foram encontrados um total


de 54 artigos, cuja distribuição em cada repositório está apresentado na Tabela 3.1. Após
a coleta, a inclusão ou exclusão dos artigos encontrados foi realizada pela leitura dos
tı́tulos e dos resumos. Como resultado, grande parte dos artigos foram excluı́dos por se
tratarem de trabalhos redundantes ou não apresentarem um estudo detalhado sobre o
uso de ı́ndices de validação no contexto de séries temporais. Portanto, depois da remoção
desse artigos restaram apenas 10 artigos que estão diretamente relacionados ao assunto
apresentado neste trabalho.

Tabela 3.1 Número de artigos encontrados pela Revisão Sistemática.


Repositório Número de artigos
ACM 1
IEEE 13
Scopus 40
Total 54
Inclusão 10
Exclusão 44

Visando responder a questão secundária QS.5, analisou-se a frequência de publicação


destes artigos por ano, a fim de encontrar trabalhos mais recentes e que correspondam
ao assunto abordado neste projeto de mestrado. Conforme pode ser observado na Tabela
3.2, nota-se que artigos têm sido publicados sobre esse tema com regularidade desde 2001,
apesar da baixa quantidade.
No primeiro artigo analisado, Fadili et al. (2001) apresentam uma estratégia explo-
ratória orientada a dados baseada em Unsupervised Fuzzy Clustering Analysis (UFCA),
validando sua estratégia ao analisar dados de fMRI (ressonância magnética funcional1 ).
Neste contexto, os autores adaptam e aplicam o algoritmo Fuzzy C-Means (FCM) aos da-
dos no domı́nio do tempo e um novo ı́ndice de validação de agrupamento é introduzido e
1
Medição da atividade cerebral para detectar mudanças associadas ao fluxo sanguı́neo.
20 ESTADO DA ARTE

Tabela 3.2 Número de artigos publicados por ano.


Ano Frequência
2001 1
2004 1
2007 1
2011 1
2015 1
2016 2
2017 2
2018 1

validado comparando com os ı́ndices CS, S e fuzzy. Tais ı́ndices têm por finalidade minimi-
zar a variância intra-cluster e maximizar a variância inter-cluster. De maneira resumida,
o trabalho propõe um novo ı́ndice de validação, denominado SCF, que tira vantagem dos
três ı́ndices citados anteriormente, levando em consideração a compactação, separação,
união e intersecção dos grupos obtidos. Os resultados demonstram a vantagem do ı́ndice
proposto (SCF) e sua eficácia para validação de dados no domı́nio do tempo.
O trabalho publicado por Himberg, Hyvärinen e Esposito (2004) apresenta experi-
mentos utilizando algoritmo hierárquico sobre dados de fMRI e dados de magnetoence-
falografia (MEG). O trabalho proposto baseia-se na execução do algoritmo Independent
Component Analysis (ICA), um modelo estatı́stico de propósito geral amplamente uti-
lizado na análise de dados de imagem cerebral. Sendo assim, os autores desenvolvem
um pacote chamado Icasso, com foco na implementação de um conjunto abrangente de
métodos suportados para análise e visualização exploratória dos dados. Em uma das fa-
ses deste trabalho, após a aplicação do algoritmo ICA, o usuário explora o agrupamento,
iniciando uma aplicação de visualização interativa. Assim, o mesmo examina a qualidade
dos grupos. Posteriormente, é possı́vel visualizar a matriz de similaridade entre todas as
instâncias e sua partição final obtida em um único gráfico, produzido a partir do método
de ligação average-link. Neste pacote é introduzido um ı́ndice de qualidade de grupo, Iq ,
que reflete sua compactação e seu isolamento. Esse ı́ndice é computado pela diferença
entre as similaridades médias intra-cluster e intercluster. Além desses ı́ndices, os autores
analisam os ı́ndices Dunn-like e R-index (IR ). Entretanto, a conclusão do trabalho é
que, muitas vezes, os ı́ndices produzem resultados diferentes dependendo do caráter dos
dados utilizados, sem indicação clara de superioridade geral. Logo, com base nos expe-
rimentos realizados, o trabalho não sugere nenhum ı́ndice vencedor definitivo. Por outro
lado, recomenda-se que a seleção final do número de grupos deve ser feito pelo usuário,
o qual pode explorar, de forma interativa, os resultados produzidos por diferentes nı́veis
de dendrograma.
No trabalho de Meyer-Bäse et al. (2007) são aplicados algoritmos de agrupamento,
tais como Kohonen’s self-organizing map, Minimal free energy vector quantizer e ”Neural
gas”network em séries temporais de imagens biomédicas em aplicações para: (i) análise
de dados de fMRI para mapeamento do cérebro humano; (ii) ressonância magnética
de contraste dinâmica para o diagnóstico de doença cerebrovascular; e (iii) ressonância
3.2 FASE II: ANÁLISE E QUANTIFICAÇÃO DOS ARTIGOS 21

magnética de mama para a segmentação de lesões suspeitas de pacientes com câncer de


mama. Para a validação dos agrupamentos obtidos são utilizados três ı́ndices: (i) Kim;
(ii) Calinski Harabasz (CH); e (iii) intraclass. Apesar dos estudo experimental, os autores
afirmam que não é possı́vel determinar qual o melhor ı́ndice para validar agrupamento
em séries temporais de imagens biomédicas.
Maji e Paul (2011) aplicam o algoritmo Rough-fuzzy C-Means (RFCM) a fim de
descobrir grupos de genes co-expressos a partir de dados de microarray, que é uma análise
importante em genômica funcional. Uma comparação entre RFCM e outros algoritmos
de agrupamento foi realizada considerando cinco conjuntos de dados de séries temporais
de microarray de levedura. Os resultados obtidos foram validados com os ı́ndices Davies-
Bouldin e Silhouette. Com base nos resultados quantitativos desses ı́ndices, estimou-se
que o algoritmo RFCM produz melhor resultado de agrupamento do que os algoritmos
convencionais.
Salgado, Ferreira e Vieira (2017) demonstram em seu trabalho as vantagens do al-
goritmo Mixed Fuzzy Clustering (MFC) ao avaliar séries temporais de dados médicos
que descrevem a evolução de uma variável fisiológica. O calculo da distância entre as
séries foi realizado usando Dynamic Time Warping (DTW). A performance dos algorit-
mos comparados foi avaliada usando medidas de validação de agrupamento, mostrando
que o algoritmo proposto supera o Fuzzy C-Means. A validação foi realizada com os
ı́ndices interno de validação Xie-Beni (XB) e Dunn, os quais são comumente utilizados
no agrupamento fuzzy, e com os ı́ndices de validação externa Rand e precisão. Em geral,
o algoritmo MFC identifica grupos mais compactos do que o FCM, conforme expresso
pelo ı́ndice XB, em cada conjunto de dados testado. Nesse trabalho, os autores observam
que tipos diferentes de ı́ndices são usados para resolver diferentes tipos de problemas e
a seleção do melhor ı́ndice depende do tipo de dados, da técnica de agrupamento e, em
última análise, do objetivo do estudo.
Das e Padhy (2017) combinam os algoritmos Unsupervised Extreme Learning Machine
(US-ELM ) e Support Vector Machine (SVR), propondo um modelo hı́brido chamado
USELM-SVR. O algoritmo é comparado com os algoritmos SOM e k-means utilizando
dados de séries temporais da área financeira. Os dados de entrada são normalizados
e inseridos nos métodos de ı́ndice interno de validação para cálculo do número ótimo
de clusters. Assim, o algoritmo USELM-SVR executa os dados de entrada com base
no número ideal de clusters. Os ı́ndices considerados nos experimentos foram: Silhou-
ette, em que é preferı́vel valor de ı́ndice alto; Davies-Bouldin, preferı́vel valor de ı́ndice
baixo; Calinski-Harabasz, preferı́vel valor de ı́ndice alto; Krzanowski-Lai, preferı́vel valor
de ı́ndice alto; weighted inter-intra, preferı́vel valor de ı́ndice alto e homogeneity, preferı́vel
valor de ı́ndice alto. Os valores dos ı́ndices foram calculados para número de grupos vari-
ando de 2 a 6. Os resultados mostram que os melhores valores para os ı́ndices Silhouette,
Davies-Bouldin, weighted inter-intra e homogeneity foram obtidos usando 5 grupos. Os
ı́ndices Calinski-Harabasz e Krzanowski-Lai sugerem 2 grupos. Por fim, foi utilizado 5
grupos, sugerido pela maioria dos ı́ndices.
Homenda e Jastrzebska (2017) apresentam uma abordagem para modelagem de séries
temporais, sintéticas e reais, com Fuzzy Cognitive Maps. A pesquisa teve como ob-
jetivo introduzir meios algorı́tmicos para avaliar o Fuzzy Cognitive Map antes da fase
22 ESTADO DA ARTE

de treinamento. Assim, foi colocado como hipótese a aplicação de ı́ndices de validação


para contribuição do agrupamento e para avaliar vários modelos de FCM. Para validar
esta abordagem, foi conduzido um conjunto de experimentos utilizando cinco ı́ndices de
validação: (i) Calinski-Harabasz ; (ii) generalized Dunn index(GDI); (iii) PBM ; (iv) Si-
lhouette; e (v) Wemmert-Gancarski. Os resultados mostram que Fuzzy Cognitive Maps
projetado usando o ı́ndice Calinski-Harabasz tem qualidade superior e, após o treina-
mento, verifica-se a qualidade numérica de precisão do algoritmo sendo superior aos
demais algoritmos utilizados nos experimentos.
Fahiman et al. (2017) desenvolvem dois novos algoritmos que são heurı́sticas deri-
vadas do Fuzzy C-Means: Fuzzy c-Shapes plus (FCS+) e Fuzzy c-Shapes double plus
(FCS ++). Experimentos empı́ricos com 48 dados reais de séries temporais demonstram
que os algoritmos propostos superam algoritmos convencionais em termos de precisão e
eficiência. Para comprovar isto, são utilizados 4 ı́ndices externos de validação: (i) Rand ;
(ii) Adjusted Rand ; (iii) Variation of Information; e (iii) Normalized Mutual Information
. Cada ı́ndice foi avaliado dez vezes por diferentes execuções do FCS+ e FCS++. Todos
os quatro ı́ndices indicam que o FCS++ tem um desempenho ligeiramente superior ao
FCS+, que, por sua vez, é ligeiramente superior ao k-Shape, também utilizado como teste
de comparação.
Dai et al. (2018) exploram o agrupamento de séries temporais de sinal de eletro-
encefalografia (multi-trial EEG) e propõe uma nova abordagem baseada em centróide.
Chamado de MTEEGC, este algoritmo realiza o agrupamento de dados EEG multi-trial
de alta qualidade com relação à compactação intra-cluster, bem como a dispersão entre
grupos. Ao mesmo tempo, também demonstra a superioridade na precisão de agrupa-
mento quando comparado com mais de 10 algoritmos de agrupamento de séries temporais
através de experimentos usando critérios de validação de agrupamento em 5 conjuntos de
dados EEG multi-trial reais. Foram aplicados seis critérios para analisar o novo método,
incluindo três medidas de qualidade de agrupamento: (i) compactação intra-cluster (SIn );
−1
(ii) dispersão inter-cluster (SBe ); (iii) razão integrada (γ = SBe SIn ); e (iv) as medidas de
precisão de agrupamento Rand (RI), F-score e Fleiss’ kappa(k). Os resultados mostram
que MTEEGC não alcança os melhores resultados de SIn e SBe para todos os 5 conjuntos
de dados, mas obtém a maior razão integrada (γ) quando considera SIn e SBe . Como o
MTEEGC tem como objetivo produzir grupos de alta qualidade de forma que os testes de
EEG no mesmo grupo sejam altamente compactos, enquanto aqueles em grupos diferentes
sejam altamente separados. De maneira geral, o algoritmo garante maior compactação
intra-cluster ou maior dispersão inter-cluster, mas não necessarimente de maneira simul-
tanea. Do mesmo modo, quando avaliadas as medidas de precisão, MTEEGC não fornece
uma boa precisão, mas possui uma eficiência competitiva. Como consequência, MTEEGC
alcança a maior qualidade e precisão para agrupamento de dados EEG multi-trial quando
comparado aos demais 10 algoritmos de agrupamento de séries temporais.
De maneira diferente como tem sido abordado nos trabalhos citados anteriormente,
Ding, Noshad e Tarokh (2015) propõem um processo autoregressivo variante no tempo
(TVAR) para descrever séries temporais não-estacionárias e modelá-las como uma mistura
de múltiplos processos autorregressivos (AR) estáveis. Para isto, desenvolve uma nova
técnica baseada no ı́ndice interno de validação, gap statistic, para aprender o número
3.2 FASE II: ANÁLISE E QUANTIFICAÇÃO DOS ARTIGOS 23

apropriado de filtros AR necessários para modelar séries temporais. O algoritmo funciona


da seguinte maneira: primeiramente, a técnica gera F filtros estáveis aleatoriamente
uniformes com um determinado tamanho L; em seguida, supõe-se que 1, ..., Mmax é o
conjunto candidato do número de modos; então, uma matriz é produzida cujos elementos
são distâncias entre pares de filtros amostrados; por fim, executa-se o algoritmo k-medoid.
A partir destas etapas, um curva de referência é gerada com a relação entre a dispersão
(log(WM )) e o número de filtros AR (M ) entre 1 e 6. Em seguida, calcula-se a curva
empı́rica dado uma nova medida de distância, chamada MSPE (Mean Squared Prediction
Error ), para M = 1, 2, ..., Mmax , usando o dado observado, o modelo postulado (mistura
de AR) e o modelo de abordagem adequada (algoritmo EM). Por fim, o número de
misturas AR que corresponde ao maior gap entre as duas curvas é selecionado. Os
resultados das simulações demonstram bom desempenho da técnica proposta.
De acordo com os trabalhos discutidos nesta seção, ı́ndices são as principais ferra-
mentas utilizadas para analisar a qualidade do agrupamento, conforme esperado, o que
responde a pergunta QS.2. Diante disso, a Tabela 3.3 resume a utilização destes ı́ndices,
respondendo a pergunta QS.4.

Tabela 3.3 Índices mais utilizados na validação de agrupamento de séries temporais.


Índice Quantidade
Dunn 3
Calisnski Harabasz 3
Silhuette 3
Rand 3
Davies-Bouldin 2
Silhuette 1
Weinmert-Gancarski 1
PBM 1
homogeneity 1
weighted inter-intra 1
Krzanowski-Lai 1
Xie-Beni 1
Intraclass 1
Kim 1
R 1
SCF 1
Variation of Information 1
Normalized Mutual Information 1
F-score 1
Fleiss’ Kappa 1
Gap Statistic 1

Por fim, é importante destacar que tais ı́ndices são aplicados aos mais diferentes tipos
de aplicações (QS.1), demonstrando sua relevância ao analisar agrupamentos em dados
temporais (QS.3).
24 ESTADO DA ARTE

3.3 FASE III: CONSIDERAÇÕES FINAIS


De modo geral, os trabalhos relatados utilizam diferentes tipos de ı́ndices para validação
do agrupamento, sejam eles do critério externo, relativo ou interno. A fim de obter
consistência nos resultados, observa-se que diversos ı́ndices são utilizados para avaliar o
agrupamento. Neste caso, o melhor particionamento é escolhido com base na execução
que forneceu os maiores ı́ndices.
Normalmente estes trabalhos descrevem o desenvolvimento de um novo algoritmo e
mencionam a utilização de ı́ndices de validação conhecidos a fim de compará-lo com ou-
tros algoritmos e avaliar os resultados obtidos. São raros os trabalhos em que é abordado
um novo ı́ndice de validação. Além disso, a maioria dos trabalhos fazem uso dos ı́ndices
externos, quando há um conhecimento prévio sobre os dados, e dos ı́ndices relativos,
quando a avaliação é feita visando comparar o desempenho entre algoritmos. Entretanto,
nota-se que os ı́ndices internos são pouco explorados, isto pode ocorrer devido às dificul-
dades encontradas para validar um conjunto de dados sem nenhum conhecimento prévio,
principalmente quando este conjunto de dados possui dependência temporal. Apenas o
trabalho de Ding, Noshad e Tarokh (2015) faz uso do ı́ndice interno, entretanto com uma
finalidade diferente do que sugere a técnica.
Vários fatores podem afetar um agrupamento, um deles é o número de grupos como
parâmetro. Os ı́ndices internos de validação, por sua vez, permitem inferir o número
ótimo de grupos sem nenhum conhecimento ou análise prévia sobre os dados de entrada.
Entretanto, não há na literatura um ı́ndice interno especı́fico para séries temporais. Foi
possı́vel notar que, em geral, são utilizados ı́ndices conhecidos na literatura, assumindo
que a relação temporal existente nos dados não afeta os ı́ndices de validação. Diante
disso, este projeto visa desenvolver um novo ı́ndice interno de validação de agrupamento
especı́fico para séries temporais. Os detalhes para o desenvolvimento deste novo ı́ndice
serão mostrados no próximo capı́tulo.
Capı́tulo

4
ESTATÍSTICA GAP TEMPORAL

4.1 VISÃO GERAL


Conforme discutido no decorrer deste documento, não foi encontrado na literatura um
ı́ndice de validação interno especı́fico para dados com dependência temporal. Visando
solucionar esse problema, este mestrado propõe uma adaptação da estatı́stica Gap para
séries temporais, denominado estatı́stica Gap Temporal. Para alcançar esse objetivo, essa
seção apresenta a metodologia adotada para realização desta dissertação de mestrado.

4.2 METODOLOGIA
A falta de mecanismos para validar resultados de agrupamento em conjuntos de dados
temporais motivou o desenvolvimento de uma nova abordagem, denominada estatı́stica
Gap Temporal. Vale ressaltar que, como prova de conceito, esta abordagem é base-
ada na suposição de que a natureza da regra geradora que define o comportamento das
séries temporais possui influência determinı́stica. Se as observações das séries tempo-
rais são produzidas considerando apenas influências estocásticas, os métodos tradicionais
dedicados a análises no domı́nio temporal podem ser usados para distinguir suas dife-
rentes distribuições de probabilidade. No entanto, no caso de presença de influências
determinı́sticas, mesmo apresentando ruı́dos aditivos ou multiplicativos, a adaptação do
método de estatı́stica Gap com Sistemas Dinâmicos permite melhor modelar o compor-
tamento não-linear e caótico da série.
A nova abordagem apresentada nessa dissertação foi obtida após três modificações
da estatı́stica Gap original. A primeira foi a substituição da medida usada para calcu-
lar a distância entre pares de séries temporais, exigida não apenas pelos algoritmos de
agrupamento, mas também pela dispersão Wk apresentada na Equação .. Conforme
discutido por vários autores, as medidas baseadas na métrica de Minkowski tendem a
produzir resultados insatisfatórios quando padrões semelhantes em séries temporais são
deslocados ao longo do tempo. Uma medida alternativa é o Dynamic Time Warping
(DTW), que foi detalhado na Seção 2.3.

25
26 ESTATÍSTICA GAP TEMPORAL

Um aspecto importante relacionado ao DWT é a falta de suporte à desigualdade


triangular, conforme esperado pelas métricas de distância (DING et al., 2008), e.g.,
DT W (xj , xn ) + DT W (xn , xk ) ≥ DT W (xj , xk ), tal que xj , xn e xk são diferentes séries
temporais. Isso é especialmente importante como requisito básico para algoritmos de
agrupamento. Com base em experimentos realizados nesta pesquisa, cujas conclusões
também foram confirmadas por Niennattrakul e Ratanamahatana (2007), foi possı́vel
observar que essa desvantagem afeta diretamente a execução do algoritmo K-means
(LLOYD, 1982), originalmente adotado pela estatı́stica Gap. Uma vez que esse algo-
ritmo se baseia na minimização da variação intra-cluster, esse problema de desigualdade
triangular levou à produção de grupos vazios, sem respeitar a primeira propriedade de
agrupamento (Ci 6= ∅, ∀i = {1, . . . k})1 .
Para entender melhor esse problema, é preciso descrever brevemente o algoritmo K-
means. Esse algoritmo começa selecionando k instâncias aleatórias no conjunto de dados,
chamadas centroides, que podem ser instâncias reais (existentes na base de dados) ou
novas, criadas aleatoriamente no espaço de caracterı́sticas do conjunto de dados. O valor
de k refere-se ao número esperado de grupos. Em seguida, medidas de distância são
usadas para agrupar instâncias próximas aos centroides. A seguir, todos os centroides
são atualizados por meio do cálculo da média entre todas as instâncias do mesmo grupo.
Portanto, o novo centroides pode representar uma instância completamente nova. Uma
vez que nossos dados possuem dependências temporais e DTW não garante a desigualdade
triangular, após a etapa de atualização, as instâncias em um determinado grupo podem
estar mais próximas de outros centroides do que do centroide atualizado do seu grupo.
Como consequência, grupos vazios podem ser produzidos.
Para resolver esse problema, uma segunda modificação na estatı́stica Gap foi reali-
zada alterando o algoritmo K-means por K-medoid (também conhecidos como Partition
Around Medoids – PAM) (KAUFMAN; ROUSSEEUW, 1990). Esse algoritmo de agrupa-
mento é uma variação do K-means que substitui o conceito de centroide por medóide. Ao
contrário do centroide, o medóide é sempre uma instância real escolhida para representar
um ponto central em um grupo. Nesse caso, haverá pelo menos uma instância real por
grupo, que pode ser o próprio medóide.
O próximo desafio foi a geração de valores aleatórios usando uma dada distribuição
de probabilidade. De acordo com os autores da estatı́stica Gap, quando os dados são
iid, uma distribuição uniforme pode ser usada para gerar dados aleatórios e calcular a
dispersão. No conjunto de dados temporais, porém, as séries podem ser criadas a partir de
comportamentos desconhecidos e diferentes. Portanto, foi realizada a terceira modificação
para criar séries temporais aleatórias, garantindo que os novos valores aleatórios respeitem
o espaço de caracterı́sticas que realmente compreende o comportamento esperado do
conjunto de dados. Em resumo, analisado o conjunto de dados no domı́nio temporal, os
valores aleatórios são criados sem considerar o espaço de caracterı́stica da série temporal
real, gerando apenas as observações aleatórias entre seus valores mı́nimo e máximo.
A solução apresentada neste mestrado é baseada nas ferramentas do Sistemas Dinâmicos (AL-
LIGOOD; SAUER; YORKE, 1997), que transformam séries temporais do domı́nio tem-
1
Para maiores informações sobre tais propriedades, é sugerida a leitura do Apêndice 2
4.2 METODOLOGIA 27

poral para o espaço fase, cujo conceito foi introduzido na Seção 2.4.1.
Considerando as ferramentas de Sistemas Dinâmicos, pode-se reconstruir uma série
temporal {x0 , x1 , ..., xn−1 } no espaço fase xn (m, τ ) = {xn , xn+τ , ..., xn+(m−1)τ }, sendo m
dimensão embutida e τ representa a dimensão de separação.
Para realização da estimação da dimensão embutida, optou-se por utilizar o método
FNN (Seção 2.4.1). Em relação à dimensão de separação, existem vários métodos na
literatura quem permitem estimá-la. Neste trabalho, foram considerados os resultados
apresentados por Fraser e Swinney (1986), que utilizaram o método Average Mutual
Information (AMI). Em resumo, esse método analisa séries temporais usando diferentes
valores de atraso. Posteriormente, uma curva é produzida com os resultados dos diferentes
atrasos e o primeiro valor mı́nimo é adotado como a dimensão de separação (ALLIGOOD;
SAUER; YORKE, 1996; RIOS, 2013).
Após reconstruir uma série temporal em seu espaço fase, os relacionamentos tempo-
rais são removidos e todas as dimensões podem ser usadas para gerar valores aleatórios
seguindo alguma distribuição de probabilidade. Finalmente, após gerar observações ale-
atoriamente em diferentes dimensões, as mesmas são reconstruı́das novamente para o
domı́nio do tempo. Esse processo é repetido para produzir todas as séries temporais
aleatórias necessárias para gerar conjuntos de dados de referência. As etapas restantes
seguem o método original da estatı́stica Gap.
A fim de entender melhor o fluxo de execução do novo ı́ndice de validação interno
desenvolvido neste mestrado, a Figura 4.1 ilustra todos os processos necessários para o
desenvolvimento da estatı́stica Gap utilizando os métodos de Sistemas Dinâmicos. Ini-
cialmente, conjuntos de séries temporais são organizados em uma matriz atributo-valor
(cada série temporal é organizada como uma linha da tabela). Em seguida, através da
Etapa (a), é realizado o agrupamento do conjunto de séries temporais utilizando o al-
goritmo K-medoid. Em seguida, calcula-se a dispersão na Etapa (b) utilizando DTW,
conforme a Equação .. O agrupamento e cálculo da dispersão são realizados k vezes e
armazenados na variável Wk , onde k representa o número de grupos. Na sequência, con-
siderando o conjunto de séries temporais da base de dados, é realizada a transformação
das séries para o espaço fase com a dimensão máxima estabelecida, como mostra a Etapa
(c). Sendo assim, admitindo que o conjunto de séries temporais geradas no espaço fase
estão igualmente representadas em uma mesma dimensão, é realizada a criação de ob-
servações aleatórias, usando uma distribuição uniforme, por exemplo, e sua reconstrução
para o domı́nio temporal. Em seguida, um novo agrupamento é realizado na Etapa (e), do
mesmo modo que é feito em (a), entretanto, utilizando um conjunto de séries temporais
com obserações distribuı́das uniformemente. Após o agrupamento, é efetuado o cálculo
da dispersão na Etapa (f). O agrupamento em (e) e a função de dispersão em (f) são
executados b vezes para cada k grupos, e os valores médios resultantes são armazenados
na variável Wkb . Por fim, tendo em vista as funções de dispersão Wk e Wkb , pode-se
obter o valor de Gap para cada k grupos conforme consta na Equação ., onde compa-
rado à Equação . não há a utilização da função logarı́tmica. O cálculo das dispersões
para dados temporais, considerando a distância DTW normalizada, resultam em valores
pequenos entre 0 e 1. Consequentemente, tais valores aplicados às funções logarı́tmicas
retornam valores negativos, o que torna-se inconsistente com a equação da estatı́stica
28 ESTATÍSTICA GAP TEMPORAL

Gap original. Sendo assim, a função logarı́tmica deixa de ser utilizada nos valores das
dispersões, tendo em vista que sua remoção não afeta a caracterı́stica da equação original.
 X
1 ∗
GAP (k) = Wkb − Wk (.)
B b

DISPERSÃO
AGRUPAMENTO Wk
(a) (b)

SÉRIE
NO
(c) ESPAÇO
FASE

DISPERSÃO
AGRUPAMENTO Wkb
(e) (f)

(d)

RECONSTRUÇÃO
DA ŚERIE

Figura 4.1 Fluxo da estatı́stica Gap Temporal utilizando Sistemas Dinâmicos

A tarefa mais desafiadora da nova abordagem é a Etapa (c), que transforma todas as
séries temporais em seu espaço de fase para serem usadas posteriormente para produzir
observações aleatórias. Como mencionado anteriormente, essa transformação utiliza os
métodos FNN e AMI, que permitem estimar dimensões diferentes para cada série tempo-
ral. A dimensão do atraso está intrinsecamente relacionada às séries temporais e valores
diferentes não afetarão nossa análise.
Em relação aos diferentes valores para a dimensão embutida, nossa abordagem foi
projetada com base nas pesquisas de Whitney e Takens (WHITNEY, 1936b; TAKENS,
1981), que afirmam a escolha da dimensão embutida mais alta não afeta a modelagem de
séries temporais. Por exemplo, se a dimensão embutida esperada for igual a m, qualquer
valor maior produzirá a mesma análise, exigindo apenas mais tempo computacional. Com
o objetivo de ilustrar esta etapa, a Figura 4.2 mostra duas séries temporais, TS-1 e TS-2
(tabela superior), com 10 observações. Seja m = 2 e τ = 1 a dimensão embutida e
de atraso estimadas para o TS-1. Da mesma forma, a dimensão embutida e de atraso
estimadas para TS-2 foram m = 3 e τ = 2, respectivamente. A nova abordagem combina
todas as séries temporais em uma única tabela de dados usando a dimensão máxima
embutida entre elas (m = 3), mas respeitando todas as dimensões de atraso, conforme
4.2 METODOLOGIA 29

mostrado na tabela inferior nessa figura. Embora o TS-1 tenha sido desdobrado com
m = 3, sua dimensão de separação original (τ = 1) foi mantida. Portanto, usando essa
tabela inferior, a abordagem cria uma nova tabela de dados gerando valores aleatórios
dentro dos valores mı́nimo e máximo em todas as dimensões (D1, D2 e D3 em nosso
exemplo). A nova tabela de dados é, então, convertida no domı́nio do tempo (usando
uma versão inversa do processo de desdobramento) produzindo novas séries temporais
aleatórias que respeitam mais precisamente o comportamento original da série temporal.

Figura 4.2 Desdobramento de um conjunto de séries temporais na mesma dimensão embutida.

O processo completo de geração de uma série aleatória proposto pela nova abordagem é
apresentado na Figura 4.3. Neste exemplo, foi selecionada uma série temporal produzida
pelo sistema de Lorenz, cuja representação no domı́nio do tempo é mostrada na Figura 4.3
(a). Então, com base em suas dimensões embutidas estimadas e de separação, essas séries
são desdobradas no espaço fase, como mostrado na Figura 4.3 (b). Como se pode notar,
neste exemplo, foi usada a dimensão embutida igual a m = 3. Considerando o espaço
formado pelas 3 dimensões, a abordagem gera valores aleatórios, como mostra a Figura
4.3 (c). Finalmente, esses valores aleatórios são transformados no domı́nio do tempo,
produzindo uma nova série - Figura 4.3 (d). Este processo é repetido dentro da etapa de
Monte Carlo para gerar várias séries temporais aleatórias.
Com base no que já foi explicado, o Algoritmo 1 demonstra o fluxo completo da
estatı́stica Gap Temporal. Sendo assim, o algoritmo recebe o conjunto de séries temporais
caóticas e retorna um número especı́fico de grupos. Por exemplo, caso seja utilizados as
séries de Lorenz e Rossler2 , espera-se que o novo ı́ndice interno estime o número de grupos
igual a dois. Para estimar corretamente o número de grupos, faz-se necessário criar uma
matriz de distância dos dados de entrada. Logo após, para cada k grupos, é realizado o
2
Detalhes sobre essas séries serão fornecidos na seção de experimentos.
30 ESTATÍSTICA GAP TEMPORAL

agrupamento utilizando K-medoid e a partir deste agrupamento é calculado o valor de


dispersão Wk . Os valores de dispersão para cada k grupos são armazenados. Após essa
etapa utilizando os dados reais de entrada, estima-se um número B de simulações que
representa o método de Monte Carlo. A cada B simulações é coletado o número máximo
de dimensão e separação das séries caóticas utilizadas. Em seguida, essas séries são
desdobradas no espaço fase, na dimensão máxima estimada, onde é realizado o processo
de geração de valores aleatórios. Com a reconstrução das séries originais e as produzidas
aleatoriamente, é criada a nova matriz distância. Com essa matriz, repete-se o processo
de cálculo de dispersão para k grupos e, em seguida, retorna-se à etapa de Monte Carlo
para uma nova simulação. Desta forma, esta etapa do processo consiste em gerar os
valores de dispersão WKB dos k grupos para B simulações. Ao final, é realizada a média
desses valores que são subtraı́dos dos valores WK , gerando valores de Gap. Por fim, o
melhor número de grupos é referente ao valor de Gap maximizado.
Algorithm 1: Temporal Gap Statistic
Data: Séries Temporais = Lorenz, Rossler, Logistic, Henon
Result: Número de Grupos
1 numeroGrupos = número máximo de grupos
2 distMatriz = distância(Séries Temporais)
3 forall K in numeroGrupos do
4 KmedoideK = agrupamento(K, distM atriz)
5 WK = dispersao(KmedoideK )
6 end
7 MonteCarlo = número de simulações Monte Carlo
8 forall B in MonteCarlo do
9 maxDimensao = Série Temporal
10 tsEspacoFase = espacoFase(Série Temporal, maxDimensao)
11 tsUniforme = reconstrucao(tsEspacoFase)
12 distMatrizUniforme = distância(tsUniforme)
13 forall K in numeroGrupos do
14 KmedoideK = agrupamento(K, distM atrizU nif orme)
15 WKB = dispersao(KmedoideK )
16 end
17 end
18 GAP = WKB − WK
19 Melhor Número De Grupos = max(GAP)
4.2 METODOLOGIA 31

MAXz

MAXx

MINz
(a) MINy
MAXy MINx

(c) (d)
(b)

Figura 4.3 Sistemas Dinâmicos na etapa de Monte Carlo


Capı́tulo

5
RESULTADOS EXPERIMENTAIS

5.1 CONFIGURAÇÃO DOS EXPERIMENTOS


Para avaliar a Estatı́stica Gap Temporal foram realizados experimentos envolvendo quatro
séries temporais caóticas: Lorenz, Rössler, Logistic e Hénon. A série temporal de Lorenz é
resultado de estudos sobre previsão do tempo e modelagem numérica de alguns fenômenos
atmosféricos (SWIERCZ, 2006). Esse modelo pode ser descrito como um processo não-
linear detalhado nas Equações . - .. Para obtenção de uma série caótica (Figura 5.1),
é preciso definir os seguintes valores para as variáveis: σ = 10, B = 8/3, R = 28 e
condições iniciais definidas como zero.
dx
= −σx + σy (.)
dt
dy
= Rx − y − xz (.)
dt
dz
= −Bz + xy (.)
dt
A série de Rössler foi obtida a partir da modelagem de turbulência quı́mica (SWI-
ERCZ, 2006), conforme as Equações .-.. Para geração de uma série caótica (Fi-
gura 5.2), os seguintes valores foram definidos: a = 0.2, b = 0.2, c = 5.7 e condição inicial
igual a zero.
dx
= (x + y) (.)
dt
dy
= x + ay (.)
dt
dz
= b + xy − cz (.)
dt
A série Logı́stica (SWIERCZ, 2006) pode ser descrita pela Equação .. O compor-
tamento caótico deste sistema depende significativamente das condições iniciais. Nesse

33
34 RESULTADOS EXPERIMENTAIS

Figura 5.1 Sistema de Lorenz Figura 5.2 Sistema de Rössler

sentido, para geração de uma série caótica (Figura 5.3), os valores p0 = 0, 54321 e r = 2
devem ser utilizados.

pn+1 = pn + rpn (1 − pn ). (.)


Por fim, outro sistema dinâmico discreto usado nos experimentos é a série de Hénon (SWI-
ERCZ, 2006). Em resumo, esse sistema foi desenvolvido a partir de aspectos da modela-
gem do movimento de estrelas, conforme representado pelas Equações .-..

xn+1 = yn + 1 − ax2n (.)


yn+1 = bxn (.)
O sistema Hénon exibe comportamento caótico para uma ampla gama de parâmetros
a e b. Nesses experimentos (Figura 5.4), os parâmetros utilizados foram a = 1.4, b = 0.3
e condições iniciais iguais a zero.

Figura 5.3 Série temporal caótica criada pela


Figura 5.4 Mapeamento Hénon
equação Logistic

Os experimentos foram realizados combinando todas as possibilidades dessas séries


temporais caracterizadas pela adição ou não de ruı́do para diferentes quantidades de
5.2 ANÁLISE QUANTITATIVA 35

grupos. Inicialmente, cada série caótica foi gerada contendo 20, 000 observações. Logo
após, essas séries foram subdivididas em um conjunto de dez séries temporais, ou seja,
com a subdivisão, cada série temporal apresenta um tamanho de 2000 observações, sendo
todas normalizadas entre os valores 0 e 1. Os experimentos iniciais testaram dois grupos
de séries temporais que combinam, por exemplo, Lorenz e Rössler, Lorenz e Logistic,
Lorenz e Hénon, Rössler e Logistic, etc. Dessa forma, experimentos seguintes foram
realizados combinando todas as possibilidades entre as séries caóticas, para três e quatro
grupos, com e sem adição de ruı́do.
Nesse contexto, os experimentos apresentados nesta seção foram realizados para tes-
tar a Estatı́stica Gap Temporal, avaliando se o número de grupos estimado pelo ı́ndice
corresponde ao número real utilizado nos experimentos.

5.2 ANÁLISE QUANTITATIVA

A eficácia da Estatı́stica Gap Temporal como novo ı́ndice interno de validação foi avaliada
usando séries temporais caóticas. O conjunto de dados utilizados para esse fim foram a
Lorenz, Rössler, Logistic e Hénon. Portanto, esta seção demonstra os resultados de cada
experimento realizado com o novo ı́ndice a partir da análise das funções de dispersão
utilizando o algoritmo de agrupamento K-medoid e a distância DTW e, em seguida,
a determinação do melhor número de grupos. Os experimentos são divididos em duas
seções, a primeira seção consiste na realização de testes com o conjunto de séries caóticas
sem a adição de ruı́do e a segunda com a adição de ruı́do com valor de SN R = 10%1 .

5.2.1 Experimentos sem ruı́do


As Figuras 5.5-5.15 apresentam os resultados dos onze experimentos sem ruı́do, combi-
nando todas as possibilidades de séries temporais caóticas formando dois, três e quatro
grupos. Os gráficos mostram primeiramente os valores de dispersão Wk e Wkb ao longo
do número de k grupos que variam de 1 a 10, ao lado há os valores de Gap calculado,
também ao longo do número de k grupos. O melhor número de grupos é dado quando a
dispersão Wk está mais abaixo da curva de referência Wkb , isto é, nesses pontos o valor
da diferença entre essas funções é maximizado. Por exemplo, na Figura 5.5, há uma
queda maior no valor de WK quando k = 2. A análise resultante desse processo pode ser
observada à direita desta figura, onde a curva Gap é exibida com barras de erro padrão
e pode ser avaliada através da Equação .. Assim, a curva Gap tem um máximo claro
em k = 2, e portanto, o número estimado de grupos através da Estatı́stica Gap Temporal
é 2.
Esta conclusão é bastante semelhante às Figuras 5.6- 5.10, em que existe um valor
máximo em k = 2, o que corresponde ao número real de grupos utilizados.
Da mesma forma, a Figura 5.11 mostra que existe uma grande margem entre os valores
das funções de dispersão Wk e Wkb , com um aumento significativo de uma margem para
k = 2 e k = 3 ao longo do número de grupos. Considerando a complexidade para concluir
o número exato de grupos estimado neste gráfico, pode-se avaliar o resultado através da
1
SNR significa a taxa sinal-ruı́do (signal-to-noise ratio).
36 RESULTADOS EXPERIMENTAIS

● 0.200 ●
0.5




0.175
0.4 ●

● ●

Dispersão
Valor

Gap




Wk
0.3 ●
Wkb 0.150




● ●



0.2 ● 0.125 ●

● ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.5 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Logistic e
Hénon

● ●
0.5 ●

● 0.25 ●

● ●

0.4 ●


0.20 ●

Dispersão
Valor

Gap

● ●

0.3 ● ●
Wk
● ●
Wkb 0.15

0.2 ●


● 0.10

0.1 ●
● ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.6 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Hénon

● ●
0.5 ●


● ●



0.4 ● 0.2 ●



Dispersão
Valor

Gap

0.3 ● ●
Wk
● ●
Wkb
0.1

0.2 ●



0.1 ●
● ●
0.0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.7 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Logistic

curva Gap. Dessa forma, os valores de Gap à direita desta figura mostram claramente que
há uma diferença máxima em k = 3. E, portanto, é igual ao número de grupos esperados
neste experimento, assim como as Figuras 5.12-5.14.
5.2 ANÁLISE QUANTITATIVA 37


0.5 ●


0.4 ●

● 0.30 ●

Dispersão
Valor

Gap

0.3 ●



Wk

Wkb ●


0.25
0.2 ●






0.1 ●



● 0.20 ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.8 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Rössler


0.5 ●

● ●



0.25 ●


0.4 ●


● 0.20 ●

Dispersão
Valor

Gap

● ●

0.3 ●

Wk


Wkb
0.15

0.2 ●





0.10

0.1 ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.9 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler e
Hénon

● ●
0.5 ●


● ●



0.4 ●
0.2 ●




Dispersão
Valor

Gap

0.3 ●

Wk
● ●
Wkb
● 0.1
0.2 ●




0.1 ●
● ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.10 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler e
Logistic

A Figura 5.15 mostra o último experimento usando todos os quatro grupos de séries
temporais sem ruı́do. Apesar da complexidade de classificar e detectar o número de grupos
nesse conjunto de dados, uma vez que existem séries temporais com comportamentos
38 RESULTADOS EXPERIMENTAIS

0.8
● ●
● ●


● ●

0.7 ●
● ●

● 0.3 ●


0.6 ●


Dispersão
Valor

Gap

0.2
0.5 ●
Wk

Wkb

0.4
● 0.1

0.3 ●



● ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.11 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Logistic e Hénon

0.8 ● ●

● ●




0.4 ● ●


● ●

● ●
0.6 ●


Dispersão
Valor

Gap

0.3

Wk

Wkb
0.4



0.2



0.2 ●

● ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.12 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler e Hénon

0.8 ● ●




0.4 ●



● ●


0.6 ●


0.3

Dispersão
Valor

Gap


Wk

Wkb
0.4 0.2






0.1
0.2 ●


1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.13 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler e Logistic

semelhantes, a Estatı́stica Gap Temporal encontra o número correto de grupos em k = 4,


como mostra a curva Gap.
5.2 ANÁLISE QUANTITATIVA 39

0.8
● ●


● ●
● ●

0.7 ●





0.3 ●


0.6 ●


Dispersão
Valor

Gap

0.5 ●
Wk 0.2

Wkb

0.4

● 0.1

0.3 ●



● ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.14 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler,
Logistic e Hénon

● ●

● ●



0.5 ●




0.9 ●



0.4

Dispersão
Valor

Gap

0.7 0.3

Wk

Wkb

0.2
0.5 ●




0.1



● ●

0.3
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.15 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler, Logistic e Hénon

5.2.2 Experimentos com ruı́do

A última seção de experimentos consiste na adição de um ruı́do (SN R = 10%) em todas


as séries temporais caóticas. É adicionado este valor, pois taxas maiores de ruı́do removem
as caracterı́sticas determinı́sticas das séries temporais. As Figuras 5.16-5.26 demonstram
os resultados dos onze experimentos com o objetivo de repetir os mesmos procedimentos
mostrados nos experimentos anterior. Sendo assim, utilizando-se do mesmo método de
análise, é possı́vel verificar através dos gráficos que, apesar da adição de ruı́do, a Es-
tatı́stica Gap Temporal novamente estima corretamente o número de grupos para todos
os casos.

5.2.3 Considerações finais

Além dos experimentos anteriores demonstrarem através de cálculos e gráficos que o


número de grupos estimado corresponde ao número real esperado de grupos, conforme
experimentos realizados pela estatı́stica Gap original, utilizou-se ı́ndices do critério ex-
terno para avaliar se as séries foram, de fato, organizadas nos grupos esperados. Nesta
40 RESULTADOS EXPERIMENTAIS



0.5



0.18

0.4 ●

● ●


Dispersão 0.16
Valor

Gap


● ●
Wk ●

0.3 ● ●

Wkb ●



0.14

0.2 ●

● 0.12
● ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.16 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Logistic e
Hénon

● ●
0.5


0.25 ●

0.4 ● ●



Dispersão
Valor

Gap



0.20
0.3 ● ●
Wk ●

● ●
Wkb ●


0.2 ●

0.15



0.1 ●
● ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.17 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Hénon

● ●
0.5 0.250


● ●

0.4 ●
0.225 ●




Dispersão
Valor

Gap

● ●

0.3 ● ●
Wk 0.200

● ●
Wkb

0.2 ● 0.175 ●


0.1 ●
0.150 ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.18 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Logistic

avaliação foram utilizados quatro ı́ndices externos, tais como Rand, Jaccard, Folkes Mal-
lows e Hubert. Como especificado na Seção 2, os ı́ndices externos tem como objetivo
calcular um valor através da combinação de uma partição obtida com a partição real.
5.2 ANÁLISE QUANTITATIVA 41

● ●
0.5


0.4 ●

● 0.30 ●


Dispersão
Valor

Gap

0.3 ●



Wk

Wkb ●

● 0.25
0.2 ●






0.1 ●




0.20 ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.19 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Rössler

● ●
0.5
● ●



0.25 ●

0.4 ●



Dispersão
Valor


Gap

0.3 ● 0.20

Wk ●



Wkb ●

0.2 ●




0.15



0.1 ●
● ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.20 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler e
Hénon


0.5 ●


● 0.24 ●

0.4 ●


● ● ●

Dispersão
Valor

Gap

0.3 0.21 ●


Wk
● ●
Wkb ●




0.2 ●

● 0.18 ●

0.1 ●


1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.21 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler e
Logistic

Todos esses ı́ndices fornecem um valor entre 0 e 1, onde 1 significa que a partição real e a
obtida são idênticas. Os resultados mostraram que os ı́ndices externos apresentaram va-
lores iguais a 1 em todos os experimentos, o que significa que, a Estatı́stica Gap Temporal
42 RESULTADOS EXPERIMENTAIS

0.8
● ●


0.35 ●

● ●

0.7 ● ●

● ●




● 0.30 ●

0.6 ●


Dispersão
Valor

Gap

0.5 ●
Wk 0.25

Wkb

0.4


0.20


0.3 ●


● ●
0.15
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.22 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Logistic e Hénon
0.8 ● 0.45 ●

● ●

● ●

● ●
● ●


0.40 ●



0.6 ●



Dispersão 0.35
Valor

Gap


Wk

Wkb 0.30
0.4

● 0.25




0.2 ●


0.20 ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.23 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler e Hénon
0.8 ● ●






0.40 ●



● ●
0.6 ●

● ●


Dispersão ●
Valor


0.35
Gap


Wk

Wkb
0.4

0.30






0.2 ●
● ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.24 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler e Logistic

estimou corretamente o número de grupos para o conjunto de dados analisado.


5.2 ANÁLISE QUANTITATIVA 43

0.8
● ●

● ●


0.35 ●

0.7 ● ●

● ● ●

● ●

● ●

0.6 ●
0.30 ●


Dispersão
Valor

Gap

0.5 ●
Wk

Wkb 0.25

0.4


● 0.20
0.3 ●



● ●

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.25 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler,
Logistic e Hénon

● ●
● ●


● 0.5 ●


● ●

0.9 ●





Dispersão 0.4
Valor

Gap

0.7

Wk

Wkb

0.5 ● 0.3






● ●

0.3
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k

Figura 5.26 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler, Logistic e Hénon
Capı́tulo

6
CONCLUSÃO

Esta dissertação de mestrado demonstrou o desenvolvimento de um novo ı́ndice interno


para validação de agrupamento de dados com dependência temporal. Foi proposta uma
abordagem baseada na adaptação do ı́ndice interno Gap Statistic, considerando a Análise
de Séries Temporais, Sistemas Dinâmicos e Teoria do Caos. A Estatı́stica Gap Temporal
é um ı́ndice interno que determina o melhor número de grupos para dados com carac-
terı́sticas não-iid, o que difere da estatı́stica Gap convencional.
Inicialmente, foram realizadas pesquisas por ı́ndices internos de validação que são
utilizados exclusivamente sobre dados não-iid. Todavia, o que foi observado na litera-
tura é que não há ı́ndices do critério interno desenvolvidos estritamente para dados com
dependência temporal. Os ı́ndices existentes, em sua maioria, fazem parte do critério
relativo. Nesse contexto, adaptar o ı́ndice interno, estatı́stica Gap, para dados não-iid
tornou-se o foco deste mestrado. Estudos foram realizados para entender o fluxo do al-
goritmo da Estatı́stica Gap e a metodologia de avaliação, os quais foram conduzidos de
acordo com o algoritmo original.
Dessa forma, considerando o grau de complexidade das séries temporais na adaptação
do ı́ndice estatı́stica Gap, foi realizado nesta pesquisa três modificações: i) utilização
da medida de distância DTW para o cálculo da dispersão; ii) alteração do algoritmo de
agrupamento K-means para o K-medoid; e iii) alteração da distribuição de referência
para realizar o método de Monte Carlo considerando os conceitos de Sistemas Dinâmicos
e Teoria do Caos.
Um conjunto de experimentos foram realizados a fim de avaliar a Estatı́stica Gap
Temporal, considerando quatro séries temporais caóticas. Os resultados permitiram com-
provar que ao analisar a curva Gap, foi possı́vel obter o número de grupos esperado. Além
disso, a fim de verificar se os resultados gerados estavam corretos, foram utilizados ı́ndices
externos para validar o novo ı́ndice interno proposto. Quatro ı́ndices externos foram uti-
lizados (Rand, Jaccard, Folkes Mallows e Hubert), os quais possibilitaram comprovar
através da comparação entre as partições reais e estimadas que a estatı́stica Gap Tempo-
ral executou conforme o esperado.

45
46 CONCLUSÃO

Portanto, admitindo que vários algoritmos de agrupamento no contexto de Apren-


dizagem de Máquina usam o número de grupos como parâmetro, a escolha do número
ideal pode afetar significativamente a qualidade da estrutura resultante, e por isso a im-
portância de estimar corretamente o número de grupos. Dessa forma, a estatı́stica Gap
Temporal desenvolvida neste projeto de mestrado pode ser considerada uma ferramenta
importante na validação de agrupamento para dados com caracterı́sticas temporais.
REFERÊNCIAS BIBLIOGRÁFICAS

ADHIKARI, R.; AGRAWAL, R. K. An introductory study on time series modeling and


forecasting. arXiv preprint arXiv:1302.6613, 2013.

AGHABOZORGI, S.; SHIRKHORSHIDI, A. S.; WAH, T. Y. Time-series clustering–a


decade review. Information Systems, Elsevier, v. 53, p. 16–38, 2015.

ALLIGOOD, K.; SAUER, T.; YORKE, J. Chaos: An Introduction to Dynamical Systems.


[S.l.]: Springer New York, 1997. (Textbooks in Mathematical Sciences).

ALLIGOOD, K. T.; SAUER, T. D.; YORKE, J. A. Chaos. [S.l.]: Springer, 1996.

BERNDT, D. J.; CLIFFORD, J. Using dynamic time warping to find patterns in time
series. In: SEATTLE, WA. KDD workshop. [S.l.], 1994. v. 10, n. 16, p. 359–370.

BISHOP, C. M. Pattern Recognition and Machine Learning (Information Science and


Statistics). Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2006. ISBN 0387310738.

BOX, G. E. et al. Time series analysis: forecasting and control. [S.l.]: John Wiley &
Sons, 2015.

BOX GWILYM M. JENKINS, G. C. R. G. E. P. Time Series Analysis: Forecas-


ting and Control. 3rd. ed. [S.l.]: Prentice-Hall, 1994. (Forecasting control). ISBN
0130607746,9780130607744.

BROCKWELL, P. J.; DAVIS, R. A.; CALDER, M. V. Introduction to time series and


forecasting. [S.l.]: Springer, 2002.

CAMBEL, A. B. Applied chaos theory: A paradigm for complexity. [S.l.]: Elsevier, 1993.

CHEESEMAN, P. C.; STUTZ, J. C. et al. Bayesian classification (autoclass): theory


and results. Advances in knowledge discovery and data mining, Philadelphia, PA, USA,
v. 180, p. 153–180, 1996.

DAI, C. et al. Mteegc: A novel approach for multi-trial eeg clustering. Applied Soft
Computing, Elsevier, v. 71, p. 255–267, 2018.

DAS, S. P.; PADHY, S. Unsupervised extreme learning machine and support vector
regression hybrid model for predicting energy commodity futures index. Memetic Com-
puting, Springer, v. 9, n. 4, p. 333–346, 2017.

47
48 REFERÊNCIAS BIBLIOGRÁFICAS

DING, H. et al. Querying and mining of time series data: Experimental comparison of
representations and distance measures. VLDB Endowment, v. 1, n. 2, p. 1542–1552, 2008.
ISSN 2150-8097.

DING, J.; NOSHAD, M.; TAROKH, V. Learning the number of autoregressive mixtures
in time series using the gap statistics. In: IEEE. 2015 IEEE International Conference on
Data Mining Workshop (ICDMW). [S.l.], 2015. p. 1441–1446.

DUARTE, F. S. et al. Decomposing time series into deterministic and stochastic influen-
ces: A survey. Digital Signal Processing, Elsevier, p. 102582, 2019.

ESTER, M. et al. A density-based algorithm for discovering clusters in large spatial


databases with noise. In: Kdd. [S.l.: s.n.], 1996. v. 96, n. 34, p. 226–231.

FACELI, K. et al. Inteligência artificial: uma abordagem de aprendizado de máquina.


[S.l.]: LTC, 2011.

FADILI, M.-J. et al. On the number of clusters and the fuzziness index for unsupervised
fca application to bold fmri time series. Medical Image Analysis, Elsevier, v. 5, n. 1, p.
55–67, 2001.

FAHIMAN, F. et al. Fuzzy c-shape: A new algorithm for clustering finite time series
waveforms. In: IEEE. 2017 IEEE International Conference on Fuzzy Systems (FUZZ-
IEEE). [S.l.], 2017. p. 1–8.

FRASER, A. M.; SWINNEY, H. L. Independent coordinates for strange attractors from


mutual information. Physical Review A, American Physical Society, v. 33, n. 2, p. 1134–
1140, Feb 1986.

GARDINER, C. W. et al. Handbook of stochastic methods. [S.l.]: springer Berlin, 1985.

GOREY, C. The volume of data nasa has to manage is mind-boggling. Silicon Republic,
2017. Disponı́vel em: hhttps://www.siliconrepublic.com/enterprise/nasa-data-figuresi.

HIMBERG, J.; HYVÄRINEN, A.; ESPOSITO, F. Validating the independent compo-


nents of neuroimaging time series via clustering and visualization. Neuroimage, Elsevier,
v. 22, n. 3, p. 1214–1222, 2004.

HOMENDA, W.; JASTRZEBSKA, A. Clustering techniques for fuzzy cognitive map


design for time series modeling. Neurocomputing, Elsevier, v. 232, p. 3–15, 2017.

JAIN, A. K.; DUBES, R. C. et al. Algorithms for clustering data. [S.l.]: Prentice hall
Englewood Cliffs, 1988.

JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: a review. ACM computing
surveys (CSUR), Acm, v. 31, n. 3, p. 264–323, 1999.
REFERÊNCIAS BIBLIOGRÁFICAS 49

JIANG, D.; PEI, J.; ZHANG, A. Dhc: a density-based hierarchical clustering method for
time series gene expression data. In: IEEE. Third IEEE Symposium on Bioinformatics
and Bioengineering, 2003. Proceedings. [S.l.], 2003. p. 393–400.

KAUFMAN, L.; ROUSSEEUW, P. J. Partitioning around medoids (program pam). Fin-


ding groups in data: an introduction to cluster analysis, Wiley Online Library, p. 68–125,
1990.

KENNEL, M. B.; BROWN, R.; ABARBANEL, H. D. Determining embedding dimension


for phase-space reconstruction using a geometrical construction. Physical review A, APS,
v. 45, n. 6, p. 3403, 1992.

KOHONEN, T. The self-organizing map. Proceedings of the IEEE, IEEE, v. 78, n. 9, p.


1464–1480, 1990.

LEVY, D. Chaos theory and strategy: Theory, application, and managerial implications.
Strategic management journal, Wiley Online Library, v. 15, n. S2, p. 167–178, 1994.

LIAO, T. W. Clustering of time series data—a survey. Pattern recognition, Elsevier, v. 38,
n. 11, p. 1857–1874, 2005.

LIAO, W.-k.; LIU, Y.; CHOUDHARY, A. A grid-based clustering algorithm using adap-
tive mesh refinement. In: 7th workshop on mining scientific and engineering datasets of
SIAM international conference on data mining. [S.l.: s.n.], 2004. v. 22, p. 61–69.

LLOYD, S. Least squares quantization in pcm. IEEE Transactions on Information The-


ory, v. 28, n. 2, p. 129–137, March 1982. ISSN 0018-9448.

MAJI, P.; PAUL, S. Microarray time-series data clustering using rough-fuzzy c-means
algorithm. In: IEEE. 2011 IEEE International Conference on Bioinformatics and Bio-
medicine. [S.l.], 2011. p. 269–272.

MAÑÉ, R. On the dimension of the compact invariant sets of certain non-linear maps.
In: Dynamical Systems and Turbulence, Warwick 1980. [S.l.]: Springer, 1981. p. 230–242.

MEYER-BÄSE, A. et al. Unsupervised clustering of fmri and mri time series. Biomedical
Signal Processing and Control, Elsevier, v. 2, n. 4, p. 295–310, 2007.

MITCHELL, T. M. et al. Machine learning. 1997. Burr Ridge, IL: McGraw Hill, v. 45,
n. 37, p. 870–877, 1997.

NIENNATTRAKUL, V.; RATANAMAHATANA, C. A. On clustering multimedia time


series data using k-means and dynamic time warping. In: IEEE. 2007 International
Conference on Multimedia and Ubiquitous Engineering (MUE’07). [S.l.], 2007. p. 733–
738.

PRATER, M. 25 google search statistics to bookmark asap. Hubspot, 2019. Disponı́vel


em: hhttps://blog.hubspot.com/marketing/google-search-statisticsi.
50 REFERÊNCIAS BIBLIOGRÁFICAS

QIAN, B.; RASHEED, K. Hurst exponent and financial market predictability. In: IAS-
TED conference on Financial Engineering and Applications. [S.l.: s.n.], 2004. p. 203–209.

RIOS, R. Uma abordagem hı́brida para a identificação e modelagem de componentes


estocásticos e determinı́sticos presentes em séries temporais. In: UNIVERSIDADE DE
SãO PAULO (USP). [S.l.], 2010.

RIOS, R. A. Improving time series modeling by decomposing and analyzing stochastic and
deterministic influences. Tese (PhD dissertation) — Universidade de São Paulo (USP),
2013.

SALGADO, C. M.; FERREIRA, M. C.; VIEIRA, S. M. Mixed fuzzy clustering for misa-
ligned time series. IEEE Transactions on Fuzzy Systems, IEEE, v. 25, n. 6, p. 1777–1794,
2017.

SWIERCZ, E. A new method of detection of coded signals in additive chaos on the


example of barker code. Signal processing, Elsevier, v. 86, n. 1, p. 153–170, 2006.

TAKENS, F. Detecting strange attractors in turbulence. In: Dynamical systems and


turbulence, Warwick 1980. [S.l.]: Springer, 1981. p. 366–381.

THEODORIDIS, S.; KOUTROUMBAS, K. Clustering: basic concepts. Pattern recogni-


tion, p. 483–516, 2006.

TIBSHIRANI, R.; WALTHER, G.; HASTIE, T. Estimating the number of clusters in a


data set via the gap statistic. Journal of the Royal Statistical Society: Series B (Statistical
Methodology), Wiley Online Library, v. 63, n. 2, p. 411–423, 2001.

TORMENE, P. et al. Matching incomplete time series with dynamic time warping: An
algorithm and an application to post-stroke rehabilitation. Artif. Intell. Med., Elsevier
Science Publishers Ltd., v. 45, n. 1, p. 11–34, jan. 2009. ISSN 0933-3657.

VENDRAMIN, L.; CAMPELLO, R. J.; HRUSCHKA, E. R. On the comparison of rela-


tive clustering validity criteria. In: SIAM. Proceedings of the 2009 SIAM International
Conference on Data Mining. [S.l.], 2009. p. 733–744.

WHITNEY, H. Differentiable manifolds. Annals of Mathematics, JSTOR, p. 645–680,


1936.

WHITNEY, H. Differentiable manifolds. The Annals of Mathematics, Annals of Mathe-


matics, v. 37, n. 3, p. 645–680, Julho 1936.

XU, R.; WUNSCH, D. Clustering. [S.l.]: John Wiley & Sons, 2008.

XU, R.; WUNSCH, D. C. Survey of clustering algorithms. Institute of Electrical and


Electronics Engineers (IEEE), 2005.
Apêndice

A
CONCEITOS FUNDAMENTAIS

A.1 CONSIDERAÇÕES INICIAIS


Visando complementar os conceitos apresentados no Capı́tulo 2, esta seção resume to-
dos os assuntos estudados até a escrita desta dissertação e que foram importantes para
definição do projeto desenvolvido.

A.2 AGRUPAMENTO
A extração e compreensão de informações através da análise de grandes volumes de dados
desempenham um papel indispensável em diversas áreas. Segundo Jain, Murty e Flynn
(1999), os procedimentos na análise de dados podem ser divididos em exploratórios e
confirmatórios com base na disponibilidade de modelos apropriados para a fonte de dados.
Um elemento chave em ambos os tipos de procedimentos, seja para formação de hipóteses
ou tomada de decisão, é o agrupamento.
Os métodos de agrupamento têm como objetivo identificar estruturas em conjuntos
de dados não rotulados. Tais métodos são utilizados para extrair padrões e definir grupos
baseados na similaridade entre esses dados. Em geral, esses métodos podem ser classifi-
cados em cinco categorias: particional, hierárquico, baseado em densidade, baseado em
grid e baseado em modelo (LIAO, 2005).
Dado um conjunto de dados de entrada X = {x1 , ..., xj , ..., xN }, onde cada instância1
xj = (xj1 , xj2 , ..., xjd )T ∈ Rd e xji é dito ser um atributo2 , o método particional visa
encontrar uma partição K composta por um conjunto de grupos C = {C1 , ..., CK }, tal
que K ≤ N , os quais respeitar os seguintes critérios (XU; WUNSCH, 2005):
1. Ci 6= ∅, i = 1, ..., K;

2. ki=1 Ci = X;
S

1
Em agrupamento de dados, instâncias são comumente referenciadas como objetos, dado ou exemplo.
2
De maneira semelhante à instância, atributos são referenciados ainda como dimensões, caracterı́sticas
ou variáveis

51
52 CONCEITOS FUNDAMENTAIS

3. Ci ∩ Cj = ∅, i, j = 1, ..., K e i 6= j;

Tais critérios visam garantir 3 caraterı́sticas aos métodos particionais: (i) a partição
não pode conter grupos vazios; (ii) a união todos os grupos deve ser igual ao conjunto
de dados de entrada X; e (iii) cada dado de entrada deve pertencer exclusivamente a um
único grupo. São exemplos de algoritmos particionais o K-means e K-medoid. A Figura
A.1 exemplifica um particionamento obtido com esse método.

1 2 3 4 5 6 7 8 9
K=3

Figura A.1 Método Particional, com K grupos igual a 3.

O método hierárquico visa construir uma partição de estrutura aninhada em forma


de árvore sobre o conjunto de dados X (XU; WUNSCH, 2005). Há dois tipos de métodos
hierárquicos de agrupamento amplamente utilizado na literatura: aglomerativos e divi-
sivos (Figura A.2). Os métodos aglomerativos começam organizando cada objeto como
sendo um grupo. Em seguida, uma etapa de agregação é realizada visando concatenar
subgrupos em grupos cada vez maiores, até que todos os objetos estejam em um único
grupo (LIAO, 2005). Essa agregação é realizada por diferentes métodos de ligação como,
por exemplo, single-link, complete-link e average-link. Métodos divisivos, ao invés de exe-
cutarem usando uma abordagem bottom-up, fazem exatamente o oposto (LIAO, 2005).
Tais métodos são implementados de maneira top-down, colocando todos os objetos em
um único grupo, inicialmente, e executando uma operação recursiva de particionamento,
cujo critério de parada é, geralmente, alcançado quando cada objeto está em um único
grupo.
O método de agrupamento baseado em densidade define grupos através da alta den-
sidade entre seus objetos. Esse método proporciona o crescimento de um grupo até que
sua densidade na vizinhança exceda algum limite (ESTER et al., 1996). Isto significa
que esse método organiza um objeto em um grupo respeitando o número mı́nimo de vi-
zinhos em uma determinada vizinhança (JIANG; PEI; ZHANG, 2003) como mostra a
Figura A.3. Assim, os métodos baseados em densidade são capazes de encontrar grupos
A.2 AGRUPAMENTO 53

Agrupamento Agrupamento
hierárquico  hierárquico
aglomerativo divisivo

Figura A.2 Algoritmo Hierárquico

de formatos arbitrários e de diferentes tamanhos, além disso, são capazes de identificar e


eliminar ruı́dos, considerados outliers, sem a necessidade de obter informação preliminar
da quantidade de grupos (Figura A.4). Um algoritmo baseado em densidade amplamente
utilizado na literatura é o DBSCAN.

Figura A.3 Método baseado em densidade

Os métodos baseados em modelo realizam agrupamento considerando uma modelagem


previamente realizada sobre os dados. Existem duas abordagens principais de métodos
baseados em modelos: estatı́stica e de redes neurais. Um exemplo de abordagem es-
tatı́stica é o AutoClass (CHEESEMAN; STUTZ et al., 1996), que usa a análise estatı́stica
bayesiana para estimar o número de grupos (LIAO, 2005). Enquanto a abordagem de
redes neurais está intimamente relacionada ao conceito de aprendizado competitivo (XU;
WUNSCH, 2008), em que dada uma determinada entrada, os nós “competirão” pelos
recursos, isto é, pela saı́da de resposta. Uma rede neural tı́pica com aprendizado compe-
titivo é o algoritmo Self-Organizing Map (SOM) (KOHONEN, 1990) (Figura A.5).
54 CONCEITOS FUNDAMENTAIS

1 2 3 4 5 6 7 8 9

Figura A.4 Método baseado em densidade em diferentes formas

x1

x2

x3

Figura A.5 Método baseado em modelo, algoritmo Self-Organizing Map (SOM)

Por fim, o método baseado em grid determina uma malha de grade única e uniforme
para particionar todo o domı́nio do problema em células. Os objetos de dados localizados
em uma célula são representados por um conjunto de atributos estatı́sticos desses obje-
tos. Normalmente, o tempo de processamento dos métodos baseados em grid dependem
do tamanho da malha. O algoritmo Adaptive Mesh Refinement (AMR) (LIAO; LIU;
CHOUDHARY, 2004) é exemplo deste modelo (Figura A.6).
A.2 AGRUPAMENTO 55

Nível 0

Nível 1

Nível 2

Figura A.6 Método baseado em grid (LIAO; LIU; CHOUDHARY, 2004)

Em agrupamento considera-se que grupos devem ser organizados objetivamente de


forma homogênea, garantindo que a similaridade dentro do grupo-objeto seja minimizada
enquanto a dissimilaridade (distância) entre objetos de grupos diferentes seja maximizada
(LIAO, 2005). Neste contexto, as métricas de distância são componentes fundamentais
na execução dos algoritmos. De maneira resumida, pode-se destacar as seguintes medidas
de distância (XU; WUNSCH, 2008):
P 2
• Distância Euclidiana: D(xi , xj ) = d
l=1 |x il − x jl |1/2

P p
• Distância Minkowski: D(xi , xj ) = d
l=1 |xil − xjl |1/p

• Distância Manhattan: D(xi , xj ) =


Pd
l=1 |xil − xjl |
• Distância de Mahalanobis: D(xi , xj ) = (xi − xj )T S −1 (xi − xj ), onde S é definido
como a matriz de covariância dentro da classe definida por S = E[(x − µ)(x − µ)T ]
Portanto, diante da contextualização sobre métodos de agrupamento e medidas de
distâncias, pode-se definir o procedimento de um agrupamento como um fluxo que inicia-
se com a extração ou seleção de atributos sobre um conjunto de dados de entrada, defini-
dos normalmente através de visualização e métodos estatı́sticos. Em seguida, é aplicado
56 CONCEITOS FUNDAMENTAIS

um algoritmo para definição de uma estrutura de agrupamento, onde uma métrica de


distância é selecionada para identificar a proximidade entre os dados e determinar os gru-
pos. A validação é aplicada após a formação dos grupos a fim de verificar se a partição
gerada é a ideal, melhor representando o conjunto de dados. Por fim, há a interpretação
dos resultados sobre os dados e extração de conhecimento. Vale ressaltar que os proces-
sos que ocorrem desde a extração e seleção de atributos até a interpretação de resultados
podem ser retomados, havendo um fluxo tanto direto quanto reverso. A Figura A.7
demonstra este procedimento.

Extração ou
Algoritmo de
Seleção de
Agrupamento
Atributos

Dados

Interpretação de Validação de
Resultados Cluster

+ + ++ ******
 ++++ ****
++  * * *
....... . . + ****
........... ++++ ***
.. .  .
. .... ..
Conhecimento

Clusters

Figura A.7 Procedimento de agrupamento. O processo básico de análise de grupos consiste


em quatro etapas com um caminho de feedback. Essas etapas estão intimamente relacionadas
entre si e determinam os grupos derivados – adaptado de (XU; WUNSCH, 2008).

A.3 SÉRIE TEMPORAL


Uma série temporal pode ser dita como um conjunto de observações Xt , sendo cada
observação gravada em um tempo especı́fico t considerando a forma: Xt = {x0 , x1 , ..., xt },
como mostra a Figura A.8. Séries temporais podem ser classificada no tempo discreto ou
contı́nuo. Uma série temporal em tempo discreto é aquela em que o conjunto T0 de vezes
em que as observações são feitas é um conjunto discreto, como é o caso, por exemplo,
quando observações são feitas em intervalos de tempo fixos. Séries temporais de tempo
contı́nuo são obtidas quando as observações são gravadas continuamente ao longo de um
intervalo de tempo, por exemplo, quando T0 = [0, 1] (BROCKWELL; DAVIS; CALDER,
2002).
Normalmente, a primeira análise feita em séries temporais é a verificação visual,
A.3 SÉRIE TEMPORAL 57

15
valor
10

1970 1980 1990 2000 2010


tempo

Figura A.8 Série Temporal

através da plotagem dos dados. Caso haja alguma descontinuidade, como uma mu-
dança repentina de nı́vel, pode ser aconselhável analisar a série primeiro dividindo-a em
segmentos homogêneos. Se houver observações distantes, elas devem ser cuidadosamente
estudadas para verificar se existe alguma justificativa para descartá-las (como, por exem-
plo, se uma observação foi incorretamente registrada). A inspeção de um gráfico também
pode sugerir a possibilidade de representar os dados como uma realização do processo,
o modelo clássico de decomposição, conforme mostra a Equação A. (BROCKWELL;
DAVIS; CALDER, 2002).

Xt = m t + st + Yt (A.)
onde mt é uma função de mudança lenta conhecida como componente de tendência,
st é uma função com perı́odo conhecido chamado de componente sazonal, e Yt é um
componente de ruı́do aleatório que é estacionário, o conceito de estacionariedade será
explicado nas próximas seções. Assim sendo, a Figura A.9 exemplifica um modelo de
decomposição de uma série temporal que representa a concentração atmosférica de CO2
ao longo dos anos de 2013 a 2019.
Neste contexto, Adhikari e Agrawal (2013) classifica tendência como um movimento de
longo prazo em uma série temporal a qual tende a aumentar, diminuir ou estagnar durante
um longo perı́odo de tempo. Por exemplo, séries relativas ao crescimento populacional,
número de casas em uma cidade, mostram tendência ascendente, enquanto a tendência
de queda pode ser observada em séries relacionadas a taxas de mortalidade e epidemias.
Enquanto que a sazonalidade esta relacionada às flutuações de uma série temporal. Os
fatores importantes que causam variações sazonais são: clima e condições climáticas,
costumes, hábitos tradicionais, etc.

A.3.1 Estocasticidade
Em modelos matemáticos, às vezes é possı́vel derivar um modelo baseado nas leis fı́sicas,
que permitem calcular o valor de alguma quantidade dependente do tempo exatamente
em qualquer instante de tempo. Sendo o cálculo realmente possı́vel, este modelo pode ser
inteiramente determinı́stico. No entanto, pode ser possı́vel derivar um modelo que possa
58 CONCEITOS FUNDAMENTAIS

35

observação
30
25
Concentração Atmosférica de CO2

20

tendência
27.8
27.4
27.0

sazonal
0
−4
−8
2
1

ruído
0
−1
−2
2014 2016 2018
Tempo

Figura A.9 Decomposição de Séries Temporais

ser usado para calcular a probabilidade de um valor futuro situado entre dois limites
especificados. Esse modelo é chamado de modelo de probabilidade ou modelo estocástico
(BOX et al., 2015).
Os processos estocásticos são denotados como sistemas que evoluem probabilistica-
mente no tempo ou mais precisamente, sistemas em que existe uma certa variável aleatória
dependente do tempo X(t). Pode-se medir valores x1 , x2 , x3 , ..., etc de X(t) no tempo
t1 , t2 , t3 , ... e assumir que existe um conjunto de densidades de probabilidade conjunta,
p(x1 , t1 ; x2 , t2 ; x3 , t3 ; ...), que descreve o sistema completamente. O tipo mais simples de
processo estocástico é o da independência completa, conforme mostra a Equação A.
(GARDINER et al., 1985).
Y
p(x1 , t1 ; x2 , t2 ; x3 , t3 ; ...) = p(xi , ti ) (A.)
i

que significa que o valor de X no tempo t é completamente independente de seus


valores no passado ou futuro.

A.3.2 Estacionaridade
Modelos estacionários são uma importante classe dos modelos estocásticos para descrever
séries temporais, e assumem que o processo permanece em equilı́brio estatı́stico com as
propriedades probabilı́sticas que não mudam ao longo do tempo, em particular variando
A.3 SÉRIE TEMPORAL 59

em torno de uma média e variância constantes (BOX et al., 2015).


Uma série temporal Xt , t = 0, ±1, ... é dita estacionária se tem propriedades es-
tatı́sticas similares àquelas da série deslocada no tempo, Xt+h , t = 0, ±1, ..., para cada
inteiro h, seguindo algumas definições (BROCKWELL; DAVIS; CALDER, 2002).
Seja Xt uma série temporal com E(Xt2 ) < ∞, a função média de Xt pode ser especi-
ficada pela Equação A..
µX (t) = E(Xt ) (A.)

Enquanto a função de covariância que mede a relação entre duas variáveis de Xt é


apresentada pela Equação A..

γX (r, s) = Cov(Xr , Xs ) = E[(Xr − µX (r))(Xs − µX (s))] (A.)

para r e s inteiros.
Sendo assim, Xt é fracamente estacionária se (BROCKWELL; DAVIS; CALDER,
2002):

(i) µX (t) é independente de t

(ii) γX (t + h, t) é independente de t para cada h

Portanto, seja Xt uma série temporal estacionária. A função de autocovariância


(ACVF) de Xt no atraso h é representada pela Equação A..

γX (h) = Cov(Xt+h , Xt ) (A.)

E a função de autocorrelação (ACF) de Xt no atraso h é dada pela Equação A.

γX (h)
ρX (h) ≡ = Cor(Xt+h , Xt ) (A.)
γX (0)

A.3.3 Linearidade

Muitas das séries temporais encontradas na prática exibem caracterı́sticas não mostradas
por processos lineares. Os modelos lineares não levam em conta a possibilidade de certas
observações passadas permitirem uma previsão mais precisa do que outras e não podem
identificar as circunstâncias sob as quais previsões mais precisas podem ser esperadas
(BROCKWELL; DAVIS; CALDER, 2002). As séries temporais lineares são aquelas cujas
observações são compostas por uma combinação linear de ocorrências e ruı́dos passados.
Portanto, a linearidade de uma série está presente no modelo, mapa, ou processo que
a originou (RIOS, 2010). Enquanto os modelos não-lineares, por sua vez, permitem
previsões precisas com base em observações passadas (BROCKWELL; DAVIS; CALDER,
2002), além disso, séries não-lineares são formadas por processos de combinação não-linear
de observações e ruı́dos passados (RIOS, 2010).
60 CONCEITOS FUNDAMENTAIS

A.4 MODELAGEM: ESTATÍSTICA E SISTEMAS DINÂMICOS

Após a discussão sobre a definição de séries temporais e seus principais componentes, bem
como, as classificações básicas relacionadas a estocasticidade, estacionariedade e lineari-
dade. Esta seção busca aprofundar os conceitos sobre a modelagem de séries temporais
definidos pela Estatı́stica e pelos Sistemas Dinâmicos, utilizados na compreensão e análise
do comportamento de séries temporais.

A.4.1 Modelagem baseada em Estatı́stica


A modelagem estatı́stica está relacionada à análise de séries temporais lineares esta-
cionárias e não-estacionárias. Nesse contexto, pode-se definir alguns dos principais pro-
cessos utilizados para modelar as séries, sendo eles, white noise, random walk, moving
average, autoregressive, autoregressive moving average e autoregressive integrated moving
average.
Se Xt é uma série temporal com uma sequência de variáveis aleatórias não correlaci-
onadas, cada uma com média zero e variância, então, tal sequência é referida como ruı́do
branco ou white noise, com média E(Xt ) = 0 e variância var = σ 2 (BROCKWELL;
DAVIS; CALDER, 2002). A notação do ruı́do branco pode ser vista através da Equação
A..
Xt ∼ W N (0, σ 2 ) (A.)

Caso uma série Xt seja composta por um valor passado Xt−1 e um ruı́do t (Equação
A.), então esta série é denominada de random walk ou passeio aleatório, e não é con-
siderada estacionária. Sendo assim, a média é dada por E(Xt ) = tµ e a variância por
var = tσ 2 (BOX GWILYM M. JENKINS, 1994).

Xt = Xt−1 + t (A.)

Um processo é chamado de moving average de ordem q, M A(q), se for escrito como


mostra a Equação A. (BOX GWILYM M. JENKINS, 1994).

Xt = t − θ1 t−1 − θ2 t−2 − ... − θq t−q (A.)

onde os sı́mbolos −θ1 , −θ2 , ..., −θq são o conjunto finito de parâmetros de peso e t são
elementos formados com caracterı́sticas do ruı́do branco com média E(Xt ) = 0 e variância
var = σ 2 .
Enquanto que um processo autorregressive de ordem p, AR(p), pode ser expresso pela
Equação A. (BOX GWILYM M. JENKINS, 1994)

Xt = φ1 xt−1 + φ2 xt−2 + ... + φp xt−p + t (A.)

onde os sı́mbolos φ1 , φ2 , ..., φp são o conjunto finito de parâmetros de peso e t é um


ruı́do branco. Assim sendo, a série Xt possui valores que são combinações lineares dos p
valores passados mais um termo t .
A.4 MODELAGEM: ESTATÍSTICA E SISTEMAS DINÂMICOS 61

Através dos conceitos mencionados acima, um processo é dito autoregressive moving


average se uma série é estacionária e se para cada t segue os princı́pos estabelecidos pela
Equação A. (BROCKWELL; DAVIS; CALDER, 2002).

xt + φ1 xt−1 + φ2 xt−2 + ... + φp xt−p = t − θ1 t−1 − θ2 t−2 − ... − θq t−q (A.)

onde t ∼ W N (0, σ 2 ). Esse modelo é definido por ARM A(p, q), em que p representa a
ordem por parte do processo autoregressive, AR(p), e q refere-se à ordem do processo
moving average, M A(q).
Diante da discussão sobre o modelo ARM A, o qual representa séries estacionárias,
há uma generalização dessa classe, visto que é possı́vel incorporar uma ampla gama de
séries não-estacionárias e que pode ser fornecida pelos processos autoregressive integrated
moving average (ARIMA). Sendo assim, se d é um inteiro não-negativo, então a série
Xt é um ARIM A(p, d, q) se Yt := (1 − B)d Xt é um processo causal ARM A(p, q). Esta
definição significa que Xt satisfaz uma equação de diferença representada pela Equação
A. (BROCKWELL; DAVIS; CALDER, 2002).

φ∗ (B)Xt ≡ φ(B)(1 − B)d Xt = θ(B)t , t ∼ W N (0, σ 2 ) (A.)


onde φ(z) e θ(z) são polinômios de grau p e q, respectivamente, e φ(z) 6= 0 para
|z| ≤ 1.

A.4.2 Modelagem baseada em Sistemas Dinâmicos e Teoria do Caos


A Teoria do Caos faz parte do estudo de sistemas dinâmicos complexos, iniciado por Lo-
renz em 1963, quando estudava a dinâmica do fluxo turbulento em fluı́dos (LEVY, 1994).
Esses sistemas são ditos caóticos se, após sua análise, são consideradas caracterı́sticas não-
lineares, não-equilibradas, determinı́sticas, dinâmicas e que incorporam aleatoriedade, de
modo que são sensı́veis às condições iniciais e têm atratores estranhos (CAMBEL, 1993).
Matematicamente, os sistemas caóticos são representados por equações diferenciais que
não podem ser resolvidas, de modo que não é possı́vel calcular o estado do sistema em um
tempo futuro especı́fico t. Para superar o problema das equações diferenciais intratáveis,
pesquisadores geralmente modelam sistemas como equações de diferenças discretas, que
especificam qual será o estado do sistema no tempo t + 1, dado o estado do sistema no
momento t. Em seguida, é usado para verificar como o sistema evolui com o tempo. Uma
das principais realizações da teoria do caos é sua capacidade de demonstrar como um con-
junto simples de relacionamentos determinı́sticos pode produzir resultados padronizados,
porém imprevisı́veis (LEVY, 1994).
Dessa forma, um sistema caótico pode ser explicado quantitativamente através do
expoente de Lyapunov. O expoente de Lyapunov é o logaritmo natural do número de
Lyapunov, sendo este a média da taxa de divergência por passo dos pontos próximos ao
longo de uma órbita {x1 , x2 , x3 , ...}, considerada a variação dos valores produzidos pelo
sistema. Portanto, seja f um mapa da linha real R, o número de Lyapunov L(x1 ) de
uma órbita é definido segundo a Equação A. se o limite existe (ALLIGOOD; SAUER;
YORKE, 1996).
62 CONCEITOS FUNDAMENTAIS

L(x1 ) = lim (|(f 0 (x1 ))|...|(f 0 (xn ))|)1/n (A.)


n→∞

Então, o expoente de Lyapunov h(x1 ) é definido através da Equação A. se, e somente
se, L existir e for diferente de zero, e lnL = h (ALLIGOOD; SAUER; YORKE, 1997).

1
h(x1 ) = lim [ln(|(f 0 (x1 ))|) + ... + ln(|(f 0 (xn ))|)] (A.)
n→∞ n

Além disso, vale ressaltar que a órbita {x1 , x2 , ...xn } é chamada de assintoticamente
periódica se convergir para uma órbita periódica como n → ∞. Isto significa que existe
uma órbita periódica {y1 , y2 , ..., yk , y1 , y2 , ...} que satisfaz a Equação A. (ALLIGOOD;
SAUER; YORKE, 1997).
lim |xn − yn | = 0 (A.)
n→∞

Portanto, pode-se concluir que uma órbita é caótica se (ALLIGOOD; SAUER;


YORKE, 1997):

1. {x1 , x2 , ...xn } não é assintoticamente periódico

2. o expoente de Lyapunov h(x1 ) é maior que zero

Além do expoente de Lyapunov, existe o expoente de Hurst, o qual mede a aleatorie-


dade de um conjunto de dados. O expoente de Hurst fornece uma medida para memória
de longo prazo e fractalidade de uma série temporal. Por ser robusto e com poucas su-
posições sobre sistemas subjacentes, este expoente tem ampla aplicabilidade para análise
de séries temporais. Os valores do expoente de Hurst (H) variam entre 0 e 1, e podem
ser classificados em três categorias (QIAN; RASHEED, 2004).

1. H = 0.5, indica uma série aleatória (random walk )

2. 0 < H < 0.5, indica uma série anti-persistente

3. 0.5 < H < 1, indica uma série persistente

Uma série anti-persistente tem uma caracterı́stica de reversão à média ou mean-


reverting, o que significa que um valor de subida é mais provavelmente seguido por um
valor de descida e vice-versa. A força de reversão à média aumenta à medida que H se
aproxima de 0. Já uma série persistente é um reforço de tendência, o que significa que
a direção (para cima ou para baixo em relação ao último valor) do próximo valor é mais
provável que o valor atual. A força da tendência aumenta à medida que H se aproxima de
1.0 (QIAN; RASHEED, 2004). A maioria das séries temporais econômicas e financeiras
é persistente com H > 0.5 (QIAN; RASHEED, 2004).
O expoente de Hurst pode ser estimado através da análise Rescaled Range (R/S),
em que, dado uma série temporal X = {x1 , x2 ..., xn }, o método da análise R/S pode ser
calculado através de seis passos (QIAN; RASHEED, 2004):
A.4 MODELAGEM: ESTATÍSTICA E SISTEMAS DINÂMICOS 63

1. Calcula o valor médio m:


m = n1 ni=1 xi
P

2. Calcula a série média ajustada Y :


Yt = xt –m para t = 1, 2, ..., n
3. Calcula a série de desvios cumulativos Z:
Zt = ti=1 para t = 1, 2, ..., n
P

4. Calcula a série de alcance R em t = 1, 2, ..., n:


Rt = max(Z1 , Z2 , ..., Zt )–min(Z1 , Z2 , ..., Zt )
5. Calcula a série de desvios padrão S:
q P
St = 1t ti=1 (xi − u)
sendo u o valor médio de x1 para xt .
6. Calcula a série Rescaled Range (R/S) para t = 1, 2, ..., n:
(R/S)t = Rt /St
Portanto, (R/S) é escalado à medida que o tempo aumenta, como indicado na Equação
A..

(R/S)t = c ∗ tH (A.)
onde c é uma constante e H é o expoente Hurst, a Figura A.10 demonstra esta análise.

6
*
*
5
*
4 *
H=0.65
log2(R/S) *
3
*
2 *
*
1
*

1 2 3 4 5 6 7 8 9 10
log2(t)

Figura A.10 Expoente de Hurst com análise R/S - adaptado de (QIAN; RASHEED, 2004).

Você também pode gostar