Escolar Documentos
Profissional Documentos
Cultura Documentos
__________________________________ __________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador- Prof. Dr.Marcelo Keese Albertini(UFU)
UFBA)
__________________________________
Marcos Ennes Barreto(UFBA)
__________________________________ __________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador- Prof. Dr.Marcelo Keese Albertini(UFU)
UFBA)
__________________________________
Marcos Ennes Barreto(UFBA)
LOCAL: webconferencia.
RESULTADO:
Observações:
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
Sugestões:
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
______________________________________________________________________________________________
__________________________________ __________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador- Prof. Dr.Marcelo Keese Albertini(UFU)
UFBA)
__________________________________
Marcos Ennes Barreto(UFBA)
LOCAL: webconferencia.
Nome Assinatura
DECLARAÇÃO
Declaramos para os devidos fins que o Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA) atuou como
orientador e participou como Membro da Banca na Defesa de Mestrado da aluna Rosana Guimarães Ribeiro,
intitulada “Novo índice interno de validação de agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de
dois mil e vinte, webconferencia.
DECLARAÇÃO
Declaramos para os devidos fins que o Prof. Dr.Marcelo Keese Albertini(UFU) participou como Membro da
Banca na Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, intitulada “Novo índice interno de validação de
agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de dois mil e vinte, webconferencia.
DECLARAÇÃO
Declaramos para os devidos fins que o Marcos Ennes Barreto(UFBA) participou como Membro da Banca na
Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, intitulada “Novo índice interno de validação de
agrupamento de dados temporais”, às 14h do dia Vinte e bove de julho de dois mil e vinte, webconferencia.
RESOLVE:
Designar comissão composta pelos Professores Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA),
Prof. Dr.Marcelo Keese Albertini(UFU), Marcos Ennes Barreto(UFBA), e para compor a Banca
para Defesa de Mestrado da aluna Rosana Guimarães Ribeiro, que ocorrerá no dia Vinte e bove
de julho de dois mil e vinte às 14h, webconferencia.
Banca Examinadora:
- Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)
- Prof. Dr.Marcelo Keese Albertini(UFU)
- Marcos Ennes Barreto(UFBA)
Resumo: Técnicas de Aprendizado de Máquina não-supervisionado foram desenvolvidas visando encontrar estruturas e
padrões em conjuntos de dados sem considerar qualquer informação prévia fornecida, por exemplo, por um especialista. Essa
ausência de informação impacta diretamente no processo de validação devido à dificuldade em mensurar o conhecimento obtido
por meio destas técnicas. Visando solucionar este problema, diversas pesquisas têm sido publicadas na literatura propondo
critérios que integram diferentes áreas do conhecimento como Ciência da Computação e Estatística. Esses critérios são
comumente divididos em $3$ categorias: relativo, externo e interno. Em geral, tais critérios são desenvolvidos com base em
índices com diferentes objetivos e vieses de análise. Entretanto, grande parte desses índices são aplicados sobre dados
caracterizados por serem independentes e identicamente distribuídos. A realização de uma Revisão Sistemática da Literatura
demonstrou que há um número reduzido de pesquisas que investigam índices de validação de agrupamento para dados com
dependência temporal entre suas observações. Este número é ainda mais reduzido quando se trata de índices que utilizam critério
interno de validação. Neste sentido, este trabalho de mestrado apresenta um novo índice interno de validação baseado na
adaptação da Estatística GAP (Gap Statistic) comumente utilizado na literatura. O índice apresentado foi desenvolvido com o
objetivo de mensurar e validar informações extraídas de dados temporais a partir da aplicação de técnicas de Aprendizado de
Máquina não-supervisionado. Dessa forma, resultados experimentais demonstram a eficiência do novo índice interno de validação
para dados com dependência temporal e confirmam a importância do mesmo para o estado da arte.
Banca Examinadora
_______________________________________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)
_______________________________________________________________
Prof. Dr.Marcelo Keese Albertini(UFU)
_______________________________________________________________
Marcos Ennes Barreto(UFBA)
“Novo índice interno de validação de agrupamento de dados temporais ”
Banca Examinadora
_______________________________________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)
_______________________________________________________________
Prof. Dr.Marcelo Keese Albertini(UFU)
_______________________________________________________________
Marcos Ennes Barreto(UFBA)
“Novo índice interno de validação de agrupamento de dados temporais ”
Banca Examinadora
_______________________________________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)
_______________________________________________________________
Prof. Dr.Marcelo Keese Albertini(UFU)
_______________________________________________________________
Marcos Ennes Barreto(UFBA)
“Novo índice interno de validação de agrupamento de dados temporais ”
Banca Examinadora
_______________________________________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)
_______________________________________________________________
Prof. Dr.Marcelo Keese Albertini(UFU)
_______________________________________________________________
Marcos Ennes Barreto(UFBA)
“Novo índice interno de validação de agrupamento de dados temporais ”
Banca Examinadora
_______________________________________________________________
Prof. Dr. Ricardo Araújo Rios (Orientador-UFBA)
_______________________________________________________________
Prof. Dr.Marcelo Keese Albertini(UFU)
_______________________________________________________________
Marcos Ennes Barreto(UFBA)
Ficha catalográfica elaborada pela Biblioteca Universitária de
Ciências e Tecnologias Prof. Omar Catunda, SIBI - UFBA.
DISSERTAÇÃO DE MESTRADO
Salvador
06 de julho de 2020
ROSANA GUIMARÃES RIBEIRO
Salvador
06 de julho de 2020
RESUMO
iii
SUMÁRIO
Capı́tulo 1—Introdução 1
1.1 Contextualização e Motivação . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Motivação e Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Capı́tulo 6—Conclusão 45
v
vi SUMÁRIO
2.1 (a) Representação dos dados e (b) Dispersão dos dados Wk com a variação
do número de grupos k (TIBSHIRANI; WALTHER; HASTIE, 2001) . . . 10
2.2 Representação da distribuição de referência . . . . . . . . . . . . . . . . . 11
∗
2.3 (a) Função log(Wk ) (O) e log(Wkb ) (E) utilizando o método de Monte
Carlo e (b) Curva Gap . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Caminho de deformação (warping path) entre duas séries temporais . . . 12
2.5 Série temporal produzida pelo sistema Lorenz (à esquerda) e a série des-
dobrada no espaço fase (à direita) (RIOS, 2013). . . . . . . . . . . . . . . 14
vii
viii LISTA DE FIGURAS
5.14 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Röss-
ler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.15 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Rössler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . 39
5.16 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
gistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.17 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.18 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.19 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz e Rössler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.20 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Röss-
ler e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.21 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Röss-
ler e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.22 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.23 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Rössler e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.24 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Rössler e Logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.25 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Röss-
ler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.26 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lo-
renz, Rössler, Logistic e Hénon . . . . . . . . . . . . . . . . . . . . . . . . 43
ix
Capı́tulo
1
INTRODUÇÃO
Atualmente, grandes volumes de dados são coletados e produzidos por diferentes siste-
mas. Para exemplificar essa afirmação, mais de 5,8 bilhões de buscas são realizadas em
repositórios do Google (PRATER, 2019) e cerca de 12,1TB de imagens são gerados por
satélites da NASA todos os dias (GOREY, 2017). Além de grandes corporações, as pes-
soas passaram a produzir grandes volumes de dados com a popularização de dispositivos
de acesso à Internet e o surgimento das redes sociais.
Esse aumento significativo na quantidade de dados tem dificultado a tarefa de especi-
alistas na análise e extração de novas informações. Buscando superar essas dificuldades,
técnicas de Aprendizado de Máquina (AM) têm sido propostas visando induzir hipóteses
que sejam capazes de descrever relações entre os dados analisados. A indução destas
hipóteses ocorre de acordo com o paradigma de aprendizado (MITCHELL et al., 1997;
BISHOP, 2006; FACELI et al., 2011), o qual pode ser organizado em supervisionado, não-
supervisionado, semi-supervisionado e baseado em reforço. A pesquisa apresentada neste
projeto foi planejada considerando o paradigma não-supervisionado, no qual métodos
são ajustados sobre as caracterı́sticas (atributos) dos dados, visando extrair padrões sem
considerar qualquer informação previamente fornecida por especialistas.
Neste paradigma, destacam-se os algoritmos de agrupamento, cujo principal objetivo
é encontrar estruturas, de maneira que dados pertencentes a um mesmo grupo com-
partilhem caracterı́sticas ou propriedades relevantes para um determinado problema em
estudo (JAIN; DUBES et al., 1988; FACELI et al., 2011). Para avaliar objetivamente
e quantitativamente se a estrutura derivada do agrupamento é significativa, faz-se ne-
cessário utilizar critérios de validação (XU; WUNSCH, 2008), os quais implementam
ı́ndices que têm como objetivo testar e avaliar a qualidade dos grupos obtidos. Conforme
discutido em (XU; WUNSCH, 2008; THEODORIDIS; KOUTROUMBAS, 2006; JAIN;
DUBES et al., 1988; FACELI et al., 2011), tais critérios são organizados em três catego-
1
2 INTRODUÇÃO
2
FUNDAMENTAÇÃO TEÓRICA
5
6 FUNDAMENTAÇÃO TEÓRICA
critérios, considere P como sendo uma partição pré-definida a partir de um dado con-
junto de dados X composto por N instâncias1 e seja C uma partição obtida por um
algoritmo de agrupamento. A avaliação por critérios externos é, então, conduzida pela
comparação entre C e P . Assim, sendo xi e xj pares de instâncias de X, há quatro
possı́veis organizações dessas instâncias em C e P (XU; WUNSCH, 2008):
• Rand Index
(a + d)
R= (.)
M
• Jaccard coefficient
a
J= (.)
(a + b + c)
• Fowlkes and Mallows Index
r
a a
FM = · (.)
(a + b) (a + c)
• Γ statistics
M a − m1 · m2
Γ =p (.)
m1 · m2 (M − m1 )(M − m2 )
onde m1 = a + b e m2 = a + c.
trace(B) N −k
V RC = × (.)
trace(W) k−1
Ni
k X
X
W = (xi (l) − x̄i )(xi (l) − x̄i )T (.)
i=1 l=1
k
X
B= Ni (x̄i − x̄)(x̄i − x̄)T (.)
i=1
• Davies-Bouldin Index
É um ı́ndice que se assemelha ao VRC, de modo que também é baseado na relação
de distâncias intra-cluster e inter-cluster.
k
1X
DB = Di (.)
k i=1
• Dunn’s Index
Índice baseado em medidas geométricas de compactação e separação de grupos.
δp,q
DN = min (.)
p,q∈(1,...,k)∀p6=q max ∆l
l∈(1,...,k)
• Silhouette
Este ı́ndice também é baseado em considerações geométricas referentes à com-
pactação e separação de grupos. Considera-se que o jth objeto do conjunto de
dados xj pertence a um dado grupo p ∈ {1, ..., k}. Então, a distância média deste
objeto para todos os outros objetos no grupo p é denotada por ap,j . Finalmente,
bj é a menor distância entre xj e todos os outros objetos do conjunto de dados que
não pertence ao grupo p, i.e., ∀q ∈ {1, ..., k}, q 6= p. Então, a silhueta (silhouette)
do objeto individual x(j) é definido como:
bj − ap,j
sx(j) = (.)
max{ap,j , bj }
Neste caso, quanto maior sx(j) , melhor será a atribuição de x(j) ao grupo p. Na
existência de apenas um grupo, sx(j) = 0. Portanto, o cálculo da Silhouette é
definido como a média de sx(j) tal que j = 1, 2, ..., N .
N
1 X
SW C = sx(j) (.)
N j=1
k
X 1
Wk = Dr (.)
r=1
2n r
" #1/2
1 X 2
∗
) − ¯l
sdk = log(Wkb (.)
B b
s
1
sk = sdk 1+ (.)
B
Por fim, o melhor número de grupos é encontrado considerando a Equação ..
Segundo os autores, a estimativa de melhor número de grupos será definida pelo valor
que maximiza a estatı́stica Gap, conforme mostra a Figura 2.3(b).
x1 número de clusters k
(a) (b)
Figura 2.1 (a) Representação dos dados e (b) Dispersão dos dados Wk com a variação do
número de grupos k (TIBSHIRANI; WALTHER; HASTIE, 2001)
Gap
É importante destacar que essa seção não tem o objetivo de realizar uma ampla
discussão sobre as principais medidas de distância (ou similaridade) que podem ser apli-
cadas a séries temporais. Para maiores informações sobre tais medidas, recomenda-se a
leitura dos artigos publicados por Duarte et al. (2019) e Aghabozorgi, Shirkhorshidi e
Wah (2015).
Dentre essas medidas, a mais referenciada na literatura é a DTW (TORMENE et al.,
2009; DING et al., 2008), que usa uma abordagem de programação dinâmica para alinhar
pares de séries temporais e calcular a distância entre elas. Para melhor compreender essa
medida, considere as séries temporais S = {s1 , s2 , ..., si , ..., sn } e T = {t1 , t2 , ..., tj , ..., tm }.
O algoritmo DTW organiza essas séries em uma matriz n × m, onde cada ponto da
12 FUNDAMENTAÇÃO TEÓRICA
A Figura 2.4 ilustra o caminho de deformação (warping path) entre duas séries tem-
porais ruidosas apresentadas como rótulo dos eixos x e y.
Timeseries alignment
2 1 0 −1
1000
800 600
Reference index
d$index2
400 200
0
yts
xts
d$index1
Figura 2.4 Caminho de deformação (warping path) entre duas séries temporais
A análise de séries temporais com comportamento caótico pode ser realizada por meio
de sua transformação do domı́nio temporal para o espaço fase, o qual também é re-
ferenciado como coordenadas de atraso (ALLIGOOD; SAUER; YORKE, 1997; RIOS,
2013). Esses espaços foram inicialmente estudados por Whitney (1936a), que aplicou
variedades diferenciais para reconstruir funções em espaços multidimensionais. Com base
nessa reconstrução, Whitney (1936a) propôs o seu teorema de imersão, que afirma que
os atratores são melhor compreendidos quando as séries temporais são desdobradas em
um espaço de alta dimensão (RIOS, 2013).
Segundo Alligood, Sauer e Yorke (1997), os atratores são definidos pela presença de
pontos fixos e órbitas que definem como as observações das séries temporais evoluem ao
longo do tempo. Nesse sentido, seja f um mapa em R e p um número tal que f (p) = p. Se
todos os pontos próximos a p, levando em consideração uma vizinhança ν, forem atraı́dos
para p, então p é referido como um ponto fixo de atração. Por outro lado, se todos os
pontos se afastarem de p, então é chamado de ponto fixo de repulsão. Da mesma forma,
uma órbita é uma região no espaço fase, em que as observações são atraı́das ou repelidas
(RIOS, 2013).
Takens (1981) provou em seu teorema que dada uma série {x0 , x1 , ..., xn−1 } esta pode
ser reconstruı́da no espaço fase xn (m, τ ) = xn , xn+τ , ..., xn+(m−1)τ , tendo m a dimensão
embutida e τ representando o atraso de tempo (ou dimensão de separação ou dimensão
de atraso). A dimensão embutida define basicamente o número de eixos necessários para
desdobrar as séries temporais no espaço fase. A dimensão de separação, por outro lado,
é importante para representar o comportamento sazonal de séries temporais, indicando
o deslocamento necessário entre as observações passadas (RIOS, 2013).
A estimação da dimensão embutida foi estudada por Takens (1981) e Mañé (1981), que
confirmou que o limite superior para a dimensão embutida De ∈ N pode ser definido pela
dimensão fractal Df conforme a equação De > 2, 0·Df . No entanto, estudos realizados por
Kennel, Brown e Abarbanel (1992) demonstraram que a dimensão obtida a partir dessa
equação é, em geral, maior que o necessário, adicionando mais complexidade e tempo de
execução ao analisar o espaço fase correspondente (KENNEL; BROWN; ABARBANEL,
1992; RIOS, 2013).
Para superar essa desvantagem, Kennel, Brown e Abarbanel (1992) propuseram o
método False Nearest Neighbors (FNN), que analisa a vizinhança para cada observação
no espaço fase. Em resumo, este método começa a calcular a distância entre as observações
considerando que a dimensão embutida é igual a um. Em seguida, uma nova dimensão
é adicionada e as distâncias são novamente calculadas. Se as distâncias aumentam, as
observações são consideradas como falsos vizinhos, ou seja, as observações que estão
juntas são separadas em dimensões de maior incorporação, eliminando os falsos vizinhos
e evidenciando a necessidade de uma reconstrução dimensional mais alta. Se, ao adicionar
uma nova dimensão, a taxa do vizinho falso for zero, o total de dimensões será considerado
como dimensão embutida (ALLIGOOD; SAUER; YORKE, 1996; RIOS, 2013).
Formalmente, o método False Nearest Neighbors considera uma dimensão embutida
m, em que o vizinho r-ésimo próximo a y(n) é definido por y r (n). A distância Euclidiana
14 FUNDAMENTAÇÃO TEÓRICA
entre a observação y(n) e o r-ésimo vizinho esta presente na Equação .. Adicionando
uma nova dimensão, a série temporal é reconstruı́da adicionando coordenadas (m+1) para
cada vetor representando uma observação y(n), como representado pelo termo x(n + mT )
na Equação .. Assim, este método avalia a variação de distância à medida que novas
dimensões são adicionadas de acordo com a Equação ..
m−1
X
2
Rm (n, r) = (x(n + kT ) − x(r) (n + kT ))2 (.)
k=0
2 2
Rm+1 (n, r) = Rm (n, r) + (x(n + mT ) − x(r) (n + mT ))2 (.)
s
2
Rm+1 (n, r) − Rm 2 (n, r) x(n + mT ) − x(n) (n + mT )
Vn,r = 2 (n, r)
= 2 (n, r)
(.)
Rm Rm
Segundo Kennel, Brown e Abarbanel (1992), se a variação da distância Vn,r é maior
que um limite Rtol , então as observações são consideradas como falsos vizinhos, sendo um
valor aceitável para este limite Rtol ≥ 10. Para exemplificar, a Figura 2.5 demonstra uma
série temporal produzida pelo sistema Lorenz (à esquerda), em seguida, segue a mesma
série sendo desdobrada no espaço fase com valores de m = 3 e τ = 5 (à direita).
Figura 2.5 Série temporal produzida pelo sistema Lorenz (à esquerda) e a série desdobrada
no espaço fase (à direita) (RIOS, 2013).
A ferramenta apresentada nesta seção permite analisar, no espaço fase, as séries que
serão agrupadas. Para isso, a geração de séries sintéticas precisa respeitar os limites no
hiperplano onde as observações foram produzidas. Neste sentido, propõe-se criar séries
sintéticas visando manter informações sobre as dimensões embutida e de separação para
2.4 ANÁLISE DE SÉRIES TEMPORAIS 15
que os testes de dispersão respeitem tais limites como discutido na metodologia deste
trabalho.
Capı́tulo
3
ESTADO DA ARTE
Além desta pergunta principal, foram definidas perguntas secundárias que estão di-
retamente associadas à validação da pesquisa proposta. Este conjunto de perguntas são
fundamentais para discutir as aplicações práticas da pesquisa, técnicas de avaliação e o
entendimento das tendências de publicação. Desta forma, foram elaboradas as seguintes
questões secundárias:
QS.1 - Em quais tipos de aplicações práticas pode-se utilizar a validação de agrupa-
mento para séries temporais?
17
18 ESTADO DA ARTE
• Scopus (https://www.scopus.com/)
A linguagem padrão usada nesta revisão sistemática foi o inglês, ou seja, todos os
trabalhos escritos em outras lı́nguas foram descartados. Como próximo passo, foram
escolhidas as palavras-chave considerando a questão principal desta revisão:
Devido ao fato de que nenhum artigo relevante para o estudo foi encontrado nos
repositórios utilizando essa consulta em inglês, elaborou-se uma nova string de busca que
aborda um contexto mais amplo da pesquisa:
Além dos artigos retornados com as strings anteriores, optou-se por realizar uma
busca nos repositórios por trabalhos que, especificamente, utilizam a estatı́stica Gap
para validar agrupamentos em séries temporais. Para tanto, definiu-se outra string de
busca:
validado comparando com os ı́ndices CS, S e fuzzy. Tais ı́ndices têm por finalidade minimi-
zar a variância intra-cluster e maximizar a variância inter-cluster. De maneira resumida,
o trabalho propõe um novo ı́ndice de validação, denominado SCF, que tira vantagem dos
três ı́ndices citados anteriormente, levando em consideração a compactação, separação,
união e intersecção dos grupos obtidos. Os resultados demonstram a vantagem do ı́ndice
proposto (SCF) e sua eficácia para validação de dados no domı́nio do tempo.
O trabalho publicado por Himberg, Hyvärinen e Esposito (2004) apresenta experi-
mentos utilizando algoritmo hierárquico sobre dados de fMRI e dados de magnetoence-
falografia (MEG). O trabalho proposto baseia-se na execução do algoritmo Independent
Component Analysis (ICA), um modelo estatı́stico de propósito geral amplamente uti-
lizado na análise de dados de imagem cerebral. Sendo assim, os autores desenvolvem
um pacote chamado Icasso, com foco na implementação de um conjunto abrangente de
métodos suportados para análise e visualização exploratória dos dados. Em uma das fa-
ses deste trabalho, após a aplicação do algoritmo ICA, o usuário explora o agrupamento,
iniciando uma aplicação de visualização interativa. Assim, o mesmo examina a qualidade
dos grupos. Posteriormente, é possı́vel visualizar a matriz de similaridade entre todas as
instâncias e sua partição final obtida em um único gráfico, produzido a partir do método
de ligação average-link. Neste pacote é introduzido um ı́ndice de qualidade de grupo, Iq ,
que reflete sua compactação e seu isolamento. Esse ı́ndice é computado pela diferença
entre as similaridades médias intra-cluster e intercluster. Além desses ı́ndices, os autores
analisam os ı́ndices Dunn-like e R-index (IR ). Entretanto, a conclusão do trabalho é
que, muitas vezes, os ı́ndices produzem resultados diferentes dependendo do caráter dos
dados utilizados, sem indicação clara de superioridade geral. Logo, com base nos expe-
rimentos realizados, o trabalho não sugere nenhum ı́ndice vencedor definitivo. Por outro
lado, recomenda-se que a seleção final do número de grupos deve ser feito pelo usuário,
o qual pode explorar, de forma interativa, os resultados produzidos por diferentes nı́veis
de dendrograma.
No trabalho de Meyer-Bäse et al. (2007) são aplicados algoritmos de agrupamento,
tais como Kohonen’s self-organizing map, Minimal free energy vector quantizer e ”Neural
gas”network em séries temporais de imagens biomédicas em aplicações para: (i) análise
de dados de fMRI para mapeamento do cérebro humano; (ii) ressonância magnética
de contraste dinâmica para o diagnóstico de doença cerebrovascular; e (iii) ressonância
3.2 FASE II: ANÁLISE E QUANTIFICAÇÃO DOS ARTIGOS 21
Por fim, é importante destacar que tais ı́ndices são aplicados aos mais diferentes tipos
de aplicações (QS.1), demonstrando sua relevância ao analisar agrupamentos em dados
temporais (QS.3).
24 ESTADO DA ARTE
4
ESTATÍSTICA GAP TEMPORAL
4.2 METODOLOGIA
A falta de mecanismos para validar resultados de agrupamento em conjuntos de dados
temporais motivou o desenvolvimento de uma nova abordagem, denominada estatı́stica
Gap Temporal. Vale ressaltar que, como prova de conceito, esta abordagem é base-
ada na suposição de que a natureza da regra geradora que define o comportamento das
séries temporais possui influência determinı́stica. Se as observações das séries tempo-
rais são produzidas considerando apenas influências estocásticas, os métodos tradicionais
dedicados a análises no domı́nio temporal podem ser usados para distinguir suas dife-
rentes distribuições de probabilidade. No entanto, no caso de presença de influências
determinı́sticas, mesmo apresentando ruı́dos aditivos ou multiplicativos, a adaptação do
método de estatı́stica Gap com Sistemas Dinâmicos permite melhor modelar o compor-
tamento não-linear e caótico da série.
A nova abordagem apresentada nessa dissertação foi obtida após três modificações
da estatı́stica Gap original. A primeira foi a substituição da medida usada para calcu-
lar a distância entre pares de séries temporais, exigida não apenas pelos algoritmos de
agrupamento, mas também pela dispersão Wk apresentada na Equação .. Conforme
discutido por vários autores, as medidas baseadas na métrica de Minkowski tendem a
produzir resultados insatisfatórios quando padrões semelhantes em séries temporais são
deslocados ao longo do tempo. Uma medida alternativa é o Dynamic Time Warping
(DTW), que foi detalhado na Seção 2.3.
25
26 ESTATÍSTICA GAP TEMPORAL
poral para o espaço fase, cujo conceito foi introduzido na Seção 2.4.1.
Considerando as ferramentas de Sistemas Dinâmicos, pode-se reconstruir uma série
temporal {x0 , x1 , ..., xn−1 } no espaço fase xn (m, τ ) = {xn , xn+τ , ..., xn+(m−1)τ }, sendo m
dimensão embutida e τ representa a dimensão de separação.
Para realização da estimação da dimensão embutida, optou-se por utilizar o método
FNN (Seção 2.4.1). Em relação à dimensão de separação, existem vários métodos na
literatura quem permitem estimá-la. Neste trabalho, foram considerados os resultados
apresentados por Fraser e Swinney (1986), que utilizaram o método Average Mutual
Information (AMI). Em resumo, esse método analisa séries temporais usando diferentes
valores de atraso. Posteriormente, uma curva é produzida com os resultados dos diferentes
atrasos e o primeiro valor mı́nimo é adotado como a dimensão de separação (ALLIGOOD;
SAUER; YORKE, 1996; RIOS, 2013).
Após reconstruir uma série temporal em seu espaço fase, os relacionamentos tempo-
rais são removidos e todas as dimensões podem ser usadas para gerar valores aleatórios
seguindo alguma distribuição de probabilidade. Finalmente, após gerar observações ale-
atoriamente em diferentes dimensões, as mesmas são reconstruı́das novamente para o
domı́nio do tempo. Esse processo é repetido para produzir todas as séries temporais
aleatórias necessárias para gerar conjuntos de dados de referência. As etapas restantes
seguem o método original da estatı́stica Gap.
A fim de entender melhor o fluxo de execução do novo ı́ndice de validação interno
desenvolvido neste mestrado, a Figura 4.1 ilustra todos os processos necessários para o
desenvolvimento da estatı́stica Gap utilizando os métodos de Sistemas Dinâmicos. Ini-
cialmente, conjuntos de séries temporais são organizados em uma matriz atributo-valor
(cada série temporal é organizada como uma linha da tabela). Em seguida, através da
Etapa (a), é realizado o agrupamento do conjunto de séries temporais utilizando o al-
goritmo K-medoid. Em seguida, calcula-se a dispersão na Etapa (b) utilizando DTW,
conforme a Equação .. O agrupamento e cálculo da dispersão são realizados k vezes e
armazenados na variável Wk , onde k representa o número de grupos. Na sequência, con-
siderando o conjunto de séries temporais da base de dados, é realizada a transformação
das séries para o espaço fase com a dimensão máxima estabelecida, como mostra a Etapa
(c). Sendo assim, admitindo que o conjunto de séries temporais geradas no espaço fase
estão igualmente representadas em uma mesma dimensão, é realizada a criação de ob-
servações aleatórias, usando uma distribuição uniforme, por exemplo, e sua reconstrução
para o domı́nio temporal. Em seguida, um novo agrupamento é realizado na Etapa (e), do
mesmo modo que é feito em (a), entretanto, utilizando um conjunto de séries temporais
com obserações distribuı́das uniformemente. Após o agrupamento, é efetuado o cálculo
da dispersão na Etapa (f). O agrupamento em (e) e a função de dispersão em (f) são
executados b vezes para cada k grupos, e os valores médios resultantes são armazenados
na variável Wkb . Por fim, tendo em vista as funções de dispersão Wk e Wkb , pode-se
obter o valor de Gap para cada k grupos conforme consta na Equação ., onde compa-
rado à Equação . não há a utilização da função logarı́tmica. O cálculo das dispersões
para dados temporais, considerando a distância DTW normalizada, resultam em valores
pequenos entre 0 e 1. Consequentemente, tais valores aplicados às funções logarı́tmicas
retornam valores negativos, o que torna-se inconsistente com a equação da estatı́stica
28 ESTATÍSTICA GAP TEMPORAL
Gap original. Sendo assim, a função logarı́tmica deixa de ser utilizada nos valores das
dispersões, tendo em vista que sua remoção não afeta a caracterı́stica da equação original.
X
1 ∗
GAP (k) = Wkb − Wk (.)
B b
DISPERSÃO
AGRUPAMENTO Wk
(a) (b)
SÉRIE
NO
(c) ESPAÇO
FASE
DISPERSÃO
AGRUPAMENTO Wkb
(e) (f)
(d)
RECONSTRUÇÃO
DA ŚERIE
A tarefa mais desafiadora da nova abordagem é a Etapa (c), que transforma todas as
séries temporais em seu espaço de fase para serem usadas posteriormente para produzir
observações aleatórias. Como mencionado anteriormente, essa transformação utiliza os
métodos FNN e AMI, que permitem estimar dimensões diferentes para cada série tempo-
ral. A dimensão do atraso está intrinsecamente relacionada às séries temporais e valores
diferentes não afetarão nossa análise.
Em relação aos diferentes valores para a dimensão embutida, nossa abordagem foi
projetada com base nas pesquisas de Whitney e Takens (WHITNEY, 1936b; TAKENS,
1981), que afirmam a escolha da dimensão embutida mais alta não afeta a modelagem de
séries temporais. Por exemplo, se a dimensão embutida esperada for igual a m, qualquer
valor maior produzirá a mesma análise, exigindo apenas mais tempo computacional. Com
o objetivo de ilustrar esta etapa, a Figura 4.2 mostra duas séries temporais, TS-1 e TS-2
(tabela superior), com 10 observações. Seja m = 2 e τ = 1 a dimensão embutida e
de atraso estimadas para o TS-1. Da mesma forma, a dimensão embutida e de atraso
estimadas para TS-2 foram m = 3 e τ = 2, respectivamente. A nova abordagem combina
todas as séries temporais em uma única tabela de dados usando a dimensão máxima
embutida entre elas (m = 3), mas respeitando todas as dimensões de atraso, conforme
4.2 METODOLOGIA 29
mostrado na tabela inferior nessa figura. Embora o TS-1 tenha sido desdobrado com
m = 3, sua dimensão de separação original (τ = 1) foi mantida. Portanto, usando essa
tabela inferior, a abordagem cria uma nova tabela de dados gerando valores aleatórios
dentro dos valores mı́nimo e máximo em todas as dimensões (D1, D2 e D3 em nosso
exemplo). A nova tabela de dados é, então, convertida no domı́nio do tempo (usando
uma versão inversa do processo de desdobramento) produzindo novas séries temporais
aleatórias que respeitam mais precisamente o comportamento original da série temporal.
O processo completo de geração de uma série aleatória proposto pela nova abordagem é
apresentado na Figura 4.3. Neste exemplo, foi selecionada uma série temporal produzida
pelo sistema de Lorenz, cuja representação no domı́nio do tempo é mostrada na Figura 4.3
(a). Então, com base em suas dimensões embutidas estimadas e de separação, essas séries
são desdobradas no espaço fase, como mostrado na Figura 4.3 (b). Como se pode notar,
neste exemplo, foi usada a dimensão embutida igual a m = 3. Considerando o espaço
formado pelas 3 dimensões, a abordagem gera valores aleatórios, como mostra a Figura
4.3 (c). Finalmente, esses valores aleatórios são transformados no domı́nio do tempo,
produzindo uma nova série - Figura 4.3 (d). Este processo é repetido dentro da etapa de
Monte Carlo para gerar várias séries temporais aleatórias.
Com base no que já foi explicado, o Algoritmo 1 demonstra o fluxo completo da
estatı́stica Gap Temporal. Sendo assim, o algoritmo recebe o conjunto de séries temporais
caóticas e retorna um número especı́fico de grupos. Por exemplo, caso seja utilizados as
séries de Lorenz e Rossler2 , espera-se que o novo ı́ndice interno estime o número de grupos
igual a dois. Para estimar corretamente o número de grupos, faz-se necessário criar uma
matriz de distância dos dados de entrada. Logo após, para cada k grupos, é realizado o
2
Detalhes sobre essas séries serão fornecidos na seção de experimentos.
30 ESTATÍSTICA GAP TEMPORAL
MAXz
MAXx
MINz
(a) MINy
MAXy MINx
(c) (d)
(b)
5
RESULTADOS EXPERIMENTAIS
33
34 RESULTADOS EXPERIMENTAIS
sentido, para geração de uma série caótica (Figura 5.3), os valores p0 = 0, 54321 e r = 2
devem ser utilizados.
grupos. Inicialmente, cada série caótica foi gerada contendo 20, 000 observações. Logo
após, essas séries foram subdivididas em um conjunto de dez séries temporais, ou seja,
com a subdivisão, cada série temporal apresenta um tamanho de 2000 observações, sendo
todas normalizadas entre os valores 0 e 1. Os experimentos iniciais testaram dois grupos
de séries temporais que combinam, por exemplo, Lorenz e Rössler, Lorenz e Logistic,
Lorenz e Hénon, Rössler e Logistic, etc. Dessa forma, experimentos seguintes foram
realizados combinando todas as possibilidades entre as séries caóticas, para três e quatro
grupos, com e sem adição de ruı́do.
Nesse contexto, os experimentos apresentados nesta seção foram realizados para tes-
tar a Estatı́stica Gap Temporal, avaliando se o número de grupos estimado pelo ı́ndice
corresponde ao número real utilizado nos experimentos.
A eficácia da Estatı́stica Gap Temporal como novo ı́ndice interno de validação foi avaliada
usando séries temporais caóticas. O conjunto de dados utilizados para esse fim foram a
Lorenz, Rössler, Logistic e Hénon. Portanto, esta seção demonstra os resultados de cada
experimento realizado com o novo ı́ndice a partir da análise das funções de dispersão
utilizando o algoritmo de agrupamento K-medoid e a distância DTW e, em seguida,
a determinação do melhor número de grupos. Os experimentos são divididos em duas
seções, a primeira seção consiste na realização de testes com o conjunto de séries caóticas
sem a adição de ruı́do e a segunda com a adição de ruı́do com valor de SN R = 10%1 .
● 0.200 ●
0.5
●
●
●
●
●
0.175
0.4 ●
● ●
●
Dispersão
Valor
Gap
●
●
●
●
Wk
0.3 ●
Wkb 0.150
●
●
●
●
● ●
●
●
●
0.2 ● 0.125 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.5 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Logistic e
Hénon
● ●
0.5 ●
●
● 0.25 ●
● ●
●
●
0.4 ●
●
●
●
0.20 ●
Dispersão
Valor
Gap
● ●
0.3 ● ●
Wk
● ●
Wkb 0.15
●
0.2 ●
●
●
● 0.10
●
●
0.1 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.6 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Hénon
● ●
0.5 ●
●
●
●
● ●
●
●
●
0.4 ● 0.2 ●
●
●
●
Dispersão
Valor
Gap
0.3 ● ●
Wk
● ●
Wkb
0.1
●
0.2 ●
●
●
●
0.1 ●
● ●
0.0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.7 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Logistic
curva Gap. Dessa forma, os valores de Gap à direita desta figura mostram claramente que
há uma diferença máxima em k = 3. E, portanto, é igual ao número de grupos esperados
neste experimento, assim como as Figuras 5.12-5.14.
5.2 ANÁLISE QUANTITATIVA 37
●
0.5 ●
●
●
●
0.4 ●
● 0.30 ●
●
●
Dispersão
Valor
Gap
●
0.3 ●
●
●
Wk
●
Wkb ●
●
0.25
0.2 ●
●
●
●
●
●
0.1 ●
●
●
●
● 0.20 ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.8 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Rössler
●
0.5 ●
● ●
●
●
0.25 ●
●
●
●
0.4 ●
●
●
●
● 0.20 ●
Dispersão
Valor
Gap
● ●
0.3 ●
●
Wk
●
●
Wkb
0.15
●
0.2 ●
●
●
●
●
0.10
●
0.1 ●
●
●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.9 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler e
Hénon
● ●
0.5 ●
●
●
●
● ●
●
●
●
0.4 ●
0.2 ●
●
●
●
●
Dispersão
Valor
Gap
0.3 ●
●
Wk
● ●
Wkb
● 0.1
0.2 ●
●
●
●
●
●
0.1 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.10 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler e
Logistic
A Figura 5.15 mostra o último experimento usando todos os quatro grupos de séries
temporais sem ruı́do. Apesar da complexidade de classificar e detectar o número de grupos
nesse conjunto de dados, uma vez que existem séries temporais com comportamentos
38 RESULTADOS EXPERIMENTAIS
0.8
● ●
● ●
●
●
● ●
●
0.7 ●
● ●
● 0.3 ●
●
●
●
0.6 ●
●
Dispersão
Valor
Gap
●
0.2
0.5 ●
Wk
●
Wkb
●
0.4
● 0.1
●
●
0.3 ●
●
●
●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.11 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Logistic e Hénon
0.8 ● ●
● ●
●
●
●
●
●
0.4 ● ●
●
● ●
●
● ●
0.6 ●
●
Dispersão
Valor
Gap
0.3
●
Wk
●
Wkb
0.4
●
●
●
0.2
●
●
●
0.2 ●
●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.12 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler e Hénon
0.8 ● ●
●
●
●
●
●
●
0.4 ●
●
●
●
● ●
●
●
●
0.6 ●
●
0.3
●
Dispersão
Valor
Gap
●
Wk
●
Wkb
0.4 0.2
●
●
●
●
●
●
0.1
0.2 ●
●
●
●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.13 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler e Logistic
0.8
● ●
●
●
● ●
● ●
0.7 ●
●
●
●
●
●
0.3 ●
●
●
0.6 ●
●
Dispersão
Valor
Gap
●
0.5 ●
Wk 0.2
●
Wkb
●
0.4
●
● 0.1
●
0.3 ●
●
●
●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.14 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler,
Logistic e Hénon
● ●
●
● ●
●
●
●
0.5 ●
●
●
●
●
●
0.9 ●
●
●
●
●
0.4
●
Dispersão
Valor
Gap
0.7 0.3
●
Wk
●
Wkb
●
0.2
0.5 ●
●
●
●
0.1
●
●
●
● ●
0.3
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.15 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler, Logistic e Hénon
●
●
0.5
●
●
●
0.18
●
●
0.4 ●
● ●
●
Dispersão 0.16
Valor
Gap
●
●
● ●
Wk ●
0.3 ● ●
●
Wkb ●
●
●
0.14
●
●
0.2 ●
●
●
● 0.12
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.16 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Logistic e
Hénon
● ●
0.5
●
●
●
0.25 ●
0.4 ● ●
●
●
●
●
Dispersão
Valor
Gap
●
●
0.20
0.3 ● ●
Wk ●
● ●
Wkb ●
●
0.2 ●
●
0.15
●
●
●
●
0.1 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.17 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Hénon
● ●
0.5 0.250
●
●
●
● ●
0.4 ●
0.225 ●
●
●
●
●
Dispersão
Valor
Gap
● ●
0.3 ● ●
Wk 0.200
●
● ●
Wkb
●
●
0.2 ● 0.175 ●
●
0.1 ●
0.150 ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.18 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Logistic
avaliação foram utilizados quatro ı́ndices externos, tais como Rand, Jaccard, Folkes Mal-
lows e Hubert. Como especificado na Seção 2, os ı́ndices externos tem como objetivo
calcular um valor através da combinação de uma partição obtida com a partição real.
5.2 ANÁLISE QUANTITATIVA 41
● ●
0.5
●
●
●
●
0.4 ●
● 0.30 ●
●
●
●
Dispersão
Valor
Gap
●
0.3 ●
●
●
Wk
●
Wkb ●
● 0.25
0.2 ●
●
●
●
●
●
0.1 ●
●
●
●
●
0.20 ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.19 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz e
Rössler
● ●
0.5
● ●
●
●
●
0.25 ●
0.4 ●
●
●
●
●
●
Dispersão
Valor
●
Gap
0.3 ● 0.20
●
Wk ●
●
●
Wkb ●
0.2 ●
●
●
●
0.15
●
●
●
0.1 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.20 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler e
Hénon
●
0.5 ●
●
●
● 0.24 ●
0.4 ●
●
●
● ● ●
Dispersão
Valor
Gap
0.3 0.21 ●
●
●
Wk
● ●
Wkb ●
●
●
●
0.2 ●
● 0.18 ●
0.1 ●
●
●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.21 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler e
Logistic
Todos esses ı́ndices fornecem um valor entre 0 e 1, onde 1 significa que a partição real e a
obtida são idênticas. Os resultados mostraram que os ı́ndices externos apresentaram va-
lores iguais a 1 em todos os experimentos, o que significa que, a Estatı́stica Gap Temporal
42 RESULTADOS EXPERIMENTAIS
0.8
● ●
●
0.35 ●
● ●
0.7 ● ●
● ●
●
●
●
●
● 0.30 ●
0.6 ●
●
●
Dispersão
Valor
Gap
●
0.5 ●
Wk 0.25
●
Wkb
●
0.4
●
●
0.20
●
●
0.3 ●
●
●
● ●
0.15
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.22 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Logistic e Hénon
0.8 ● 0.45 ●
● ●
● ●
● ●
● ●
●
0.40 ●
●
●
0.6 ●
●
●
●
●
●
Dispersão 0.35
Valor
Gap
●
Wk
●
Wkb 0.30
0.4
●
● 0.25
●
●
●
●
0.2 ●
●
●
0.20 ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.23 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler e Hénon
0.8 ● ●
●
●
●
●
●
●
0.40 ●
●
●
● ●
0.6 ●
●
● ●
●
Dispersão ●
Valor
●
0.35
Gap
●
Wk
●
Wkb
0.4
●
0.30
●
●
●
●
●
●
0.2 ●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.24 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler e Logistic
0.8
● ●
● ●
●
0.35 ●
0.7 ● ●
● ● ●
● ●
● ●
●
0.6 ●
0.30 ●
●
Dispersão
Valor
Gap
●
0.5 ●
Wk
●
Wkb 0.25
●
0.4
●
●
● 0.20
0.3 ●
●
●
●
● ●
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.25 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Rössler,
Logistic e Hénon
● ●
● ●
●
●
● 0.5 ●
●
●
● ●
0.9 ●
●
●
●
●
●
●
●
Dispersão 0.4
Valor
Gap
0.7
●
Wk
●
Wkb
●
0.5 ● 0.3
●
●
●
●
●
●
● ●
0.3
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Número de grupos k Número de grupos k
Figura 5.26 Valores de dispersão (esquerda) e GAP (direita) das séries temporais Lorenz,
Rössler, Logistic e Hénon
Capı́tulo
6
CONCLUSÃO
45
46 CONCLUSÃO
BERNDT, D. J.; CLIFFORD, J. Using dynamic time warping to find patterns in time
series. In: SEATTLE, WA. KDD workshop. [S.l.], 1994. v. 10, n. 16, p. 359–370.
BOX, G. E. et al. Time series analysis: forecasting and control. [S.l.]: John Wiley &
Sons, 2015.
CAMBEL, A. B. Applied chaos theory: A paradigm for complexity. [S.l.]: Elsevier, 1993.
DAI, C. et al. Mteegc: A novel approach for multi-trial eeg clustering. Applied Soft
Computing, Elsevier, v. 71, p. 255–267, 2018.
DAS, S. P.; PADHY, S. Unsupervised extreme learning machine and support vector
regression hybrid model for predicting energy commodity futures index. Memetic Com-
puting, Springer, v. 9, n. 4, p. 333–346, 2017.
47
48 REFERÊNCIAS BIBLIOGRÁFICAS
DING, H. et al. Querying and mining of time series data: Experimental comparison of
representations and distance measures. VLDB Endowment, v. 1, n. 2, p. 1542–1552, 2008.
ISSN 2150-8097.
DING, J.; NOSHAD, M.; TAROKH, V. Learning the number of autoregressive mixtures
in time series using the gap statistics. In: IEEE. 2015 IEEE International Conference on
Data Mining Workshop (ICDMW). [S.l.], 2015. p. 1441–1446.
DUARTE, F. S. et al. Decomposing time series into deterministic and stochastic influen-
ces: A survey. Digital Signal Processing, Elsevier, p. 102582, 2019.
FADILI, M.-J. et al. On the number of clusters and the fuzziness index for unsupervised
fca application to bold fmri time series. Medical Image Analysis, Elsevier, v. 5, n. 1, p.
55–67, 2001.
FAHIMAN, F. et al. Fuzzy c-shape: A new algorithm for clustering finite time series
waveforms. In: IEEE. 2017 IEEE International Conference on Fuzzy Systems (FUZZ-
IEEE). [S.l.], 2017. p. 1–8.
GOREY, C. The volume of data nasa has to manage is mind-boggling. Silicon Republic,
2017. Disponı́vel em: hhttps://www.siliconrepublic.com/enterprise/nasa-data-figuresi.
JAIN, A. K.; DUBES, R. C. et al. Algorithms for clustering data. [S.l.]: Prentice hall
Englewood Cliffs, 1988.
JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: a review. ACM computing
surveys (CSUR), Acm, v. 31, n. 3, p. 264–323, 1999.
REFERÊNCIAS BIBLIOGRÁFICAS 49
JIANG, D.; PEI, J.; ZHANG, A. Dhc: a density-based hierarchical clustering method for
time series gene expression data. In: IEEE. Third IEEE Symposium on Bioinformatics
and Bioengineering, 2003. Proceedings. [S.l.], 2003. p. 393–400.
LEVY, D. Chaos theory and strategy: Theory, application, and managerial implications.
Strategic management journal, Wiley Online Library, v. 15, n. S2, p. 167–178, 1994.
LIAO, T. W. Clustering of time series data—a survey. Pattern recognition, Elsevier, v. 38,
n. 11, p. 1857–1874, 2005.
LIAO, W.-k.; LIU, Y.; CHOUDHARY, A. A grid-based clustering algorithm using adap-
tive mesh refinement. In: 7th workshop on mining scientific and engineering datasets of
SIAM international conference on data mining. [S.l.: s.n.], 2004. v. 22, p. 61–69.
MAJI, P.; PAUL, S. Microarray time-series data clustering using rough-fuzzy c-means
algorithm. In: IEEE. 2011 IEEE International Conference on Bioinformatics and Bio-
medicine. [S.l.], 2011. p. 269–272.
MAÑÉ, R. On the dimension of the compact invariant sets of certain non-linear maps.
In: Dynamical Systems and Turbulence, Warwick 1980. [S.l.]: Springer, 1981. p. 230–242.
MEYER-BÄSE, A. et al. Unsupervised clustering of fmri and mri time series. Biomedical
Signal Processing and Control, Elsevier, v. 2, n. 4, p. 295–310, 2007.
MITCHELL, T. M. et al. Machine learning. 1997. Burr Ridge, IL: McGraw Hill, v. 45,
n. 37, p. 870–877, 1997.
QIAN, B.; RASHEED, K. Hurst exponent and financial market predictability. In: IAS-
TED conference on Financial Engineering and Applications. [S.l.: s.n.], 2004. p. 203–209.
RIOS, R. A. Improving time series modeling by decomposing and analyzing stochastic and
deterministic influences. Tese (PhD dissertation) — Universidade de São Paulo (USP),
2013.
SALGADO, C. M.; FERREIRA, M. C.; VIEIRA, S. M. Mixed fuzzy clustering for misa-
ligned time series. IEEE Transactions on Fuzzy Systems, IEEE, v. 25, n. 6, p. 1777–1794,
2017.
TORMENE, P. et al. Matching incomplete time series with dynamic time warping: An
algorithm and an application to post-stroke rehabilitation. Artif. Intell. Med., Elsevier
Science Publishers Ltd., v. 45, n. 1, p. 11–34, jan. 2009. ISSN 0933-3657.
XU, R.; WUNSCH, D. Clustering. [S.l.]: John Wiley & Sons, 2008.
A
CONCEITOS FUNDAMENTAIS
A.2 AGRUPAMENTO
A extração e compreensão de informações através da análise de grandes volumes de dados
desempenham um papel indispensável em diversas áreas. Segundo Jain, Murty e Flynn
(1999), os procedimentos na análise de dados podem ser divididos em exploratórios e
confirmatórios com base na disponibilidade de modelos apropriados para a fonte de dados.
Um elemento chave em ambos os tipos de procedimentos, seja para formação de hipóteses
ou tomada de decisão, é o agrupamento.
Os métodos de agrupamento têm como objetivo identificar estruturas em conjuntos
de dados não rotulados. Tais métodos são utilizados para extrair padrões e definir grupos
baseados na similaridade entre esses dados. Em geral, esses métodos podem ser classifi-
cados em cinco categorias: particional, hierárquico, baseado em densidade, baseado em
grid e baseado em modelo (LIAO, 2005).
Dado um conjunto de dados de entrada X = {x1 , ..., xj , ..., xN }, onde cada instância1
xj = (xj1 , xj2 , ..., xjd )T ∈ Rd e xji é dito ser um atributo2 , o método particional visa
encontrar uma partição K composta por um conjunto de grupos C = {C1 , ..., CK }, tal
que K ≤ N , os quais respeitar os seguintes critérios (XU; WUNSCH, 2005):
1. Ci 6= ∅, i = 1, ..., K;
2. ki=1 Ci = X;
S
1
Em agrupamento de dados, instâncias são comumente referenciadas como objetos, dado ou exemplo.
2
De maneira semelhante à instância, atributos são referenciados ainda como dimensões, caracterı́sticas
ou variáveis
51
52 CONCEITOS FUNDAMENTAIS
3. Ci ∩ Cj = ∅, i, j = 1, ..., K e i 6= j;
Tais critérios visam garantir 3 caraterı́sticas aos métodos particionais: (i) a partição
não pode conter grupos vazios; (ii) a união todos os grupos deve ser igual ao conjunto
de dados de entrada X; e (iii) cada dado de entrada deve pertencer exclusivamente a um
único grupo. São exemplos de algoritmos particionais o K-means e K-medoid. A Figura
A.1 exemplifica um particionamento obtido com esse método.
1 2 3 4 5 6 7 8 9
K=3
Agrupamento Agrupamento
hierárquico hierárquico
aglomerativo divisivo
1 2 3 4 5 6 7 8 9
x1
x2
x3
Por fim, o método baseado em grid determina uma malha de grade única e uniforme
para particionar todo o domı́nio do problema em células. Os objetos de dados localizados
em uma célula são representados por um conjunto de atributos estatı́sticos desses obje-
tos. Normalmente, o tempo de processamento dos métodos baseados em grid dependem
do tamanho da malha. O algoritmo Adaptive Mesh Refinement (AMR) (LIAO; LIU;
CHOUDHARY, 2004) é exemplo deste modelo (Figura A.6).
A.2 AGRUPAMENTO 55
Nível 0
Nível 1
Nível 2
P p
• Distância Minkowski: D(xi , xj ) = d
l=1 |xil − xjl |1/p
Extração ou
Algoritmo de
Seleção de
Agrupamento
Atributos
Dados
Interpretação de Validação de
Resultados Cluster
+ + ++ ******
++++ ****
++ * * *
....... . . + ****
........... ++++ ***
.. . .
. .... ..
Conhecimento
Clusters
15
valor
10
através da plotagem dos dados. Caso haja alguma descontinuidade, como uma mu-
dança repentina de nı́vel, pode ser aconselhável analisar a série primeiro dividindo-a em
segmentos homogêneos. Se houver observações distantes, elas devem ser cuidadosamente
estudadas para verificar se existe alguma justificativa para descartá-las (como, por exem-
plo, se uma observação foi incorretamente registrada). A inspeção de um gráfico também
pode sugerir a possibilidade de representar os dados como uma realização do processo,
o modelo clássico de decomposição, conforme mostra a Equação A. (BROCKWELL;
DAVIS; CALDER, 2002).
Xt = m t + st + Yt (A.)
onde mt é uma função de mudança lenta conhecida como componente de tendência,
st é uma função com perı́odo conhecido chamado de componente sazonal, e Yt é um
componente de ruı́do aleatório que é estacionário, o conceito de estacionariedade será
explicado nas próximas seções. Assim sendo, a Figura A.9 exemplifica um modelo de
decomposição de uma série temporal que representa a concentração atmosférica de CO2
ao longo dos anos de 2013 a 2019.
Neste contexto, Adhikari e Agrawal (2013) classifica tendência como um movimento de
longo prazo em uma série temporal a qual tende a aumentar, diminuir ou estagnar durante
um longo perı́odo de tempo. Por exemplo, séries relativas ao crescimento populacional,
número de casas em uma cidade, mostram tendência ascendente, enquanto a tendência
de queda pode ser observada em séries relacionadas a taxas de mortalidade e epidemias.
Enquanto que a sazonalidade esta relacionada às flutuações de uma série temporal. Os
fatores importantes que causam variações sazonais são: clima e condições climáticas,
costumes, hábitos tradicionais, etc.
A.3.1 Estocasticidade
Em modelos matemáticos, às vezes é possı́vel derivar um modelo baseado nas leis fı́sicas,
que permitem calcular o valor de alguma quantidade dependente do tempo exatamente
em qualquer instante de tempo. Sendo o cálculo realmente possı́vel, este modelo pode ser
inteiramente determinı́stico. No entanto, pode ser possı́vel derivar um modelo que possa
58 CONCEITOS FUNDAMENTAIS
35
observação
30
25
Concentração Atmosférica de CO2
20
tendência
27.8
27.4
27.0
sazonal
0
−4
−8
2
1
ruído
0
−1
−2
2014 2016 2018
Tempo
ser usado para calcular a probabilidade de um valor futuro situado entre dois limites
especificados. Esse modelo é chamado de modelo de probabilidade ou modelo estocástico
(BOX et al., 2015).
Os processos estocásticos são denotados como sistemas que evoluem probabilistica-
mente no tempo ou mais precisamente, sistemas em que existe uma certa variável aleatória
dependente do tempo X(t). Pode-se medir valores x1 , x2 , x3 , ..., etc de X(t) no tempo
t1 , t2 , t3 , ... e assumir que existe um conjunto de densidades de probabilidade conjunta,
p(x1 , t1 ; x2 , t2 ; x3 , t3 ; ...), que descreve o sistema completamente. O tipo mais simples de
processo estocástico é o da independência completa, conforme mostra a Equação A.
(GARDINER et al., 1985).
Y
p(x1 , t1 ; x2 , t2 ; x3 , t3 ; ...) = p(xi , ti ) (A.)
i
A.3.2 Estacionaridade
Modelos estacionários são uma importante classe dos modelos estocásticos para descrever
séries temporais, e assumem que o processo permanece em equilı́brio estatı́stico com as
propriedades probabilı́sticas que não mudam ao longo do tempo, em particular variando
A.3 SÉRIE TEMPORAL 59
para r e s inteiros.
Sendo assim, Xt é fracamente estacionária se (BROCKWELL; DAVIS; CALDER,
2002):
γX (h)
ρX (h) ≡ = Cor(Xt+h , Xt ) (A.)
γX (0)
A.3.3 Linearidade
Muitas das séries temporais encontradas na prática exibem caracterı́sticas não mostradas
por processos lineares. Os modelos lineares não levam em conta a possibilidade de certas
observações passadas permitirem uma previsão mais precisa do que outras e não podem
identificar as circunstâncias sob as quais previsões mais precisas podem ser esperadas
(BROCKWELL; DAVIS; CALDER, 2002). As séries temporais lineares são aquelas cujas
observações são compostas por uma combinação linear de ocorrências e ruı́dos passados.
Portanto, a linearidade de uma série está presente no modelo, mapa, ou processo que
a originou (RIOS, 2010). Enquanto os modelos não-lineares, por sua vez, permitem
previsões precisas com base em observações passadas (BROCKWELL; DAVIS; CALDER,
2002), além disso, séries não-lineares são formadas por processos de combinação não-linear
de observações e ruı́dos passados (RIOS, 2010).
60 CONCEITOS FUNDAMENTAIS
Após a discussão sobre a definição de séries temporais e seus principais componentes, bem
como, as classificações básicas relacionadas a estocasticidade, estacionariedade e lineari-
dade. Esta seção busca aprofundar os conceitos sobre a modelagem de séries temporais
definidos pela Estatı́stica e pelos Sistemas Dinâmicos, utilizados na compreensão e análise
do comportamento de séries temporais.
Caso uma série Xt seja composta por um valor passado Xt−1 e um ruı́do t (Equação
A.), então esta série é denominada de random walk ou passeio aleatório, e não é con-
siderada estacionária. Sendo assim, a média é dada por E(Xt ) = tµ e a variância por
var = tσ 2 (BOX GWILYM M. JENKINS, 1994).
Xt = Xt−1 + t (A.)
onde os sı́mbolos −θ1 , −θ2 , ..., −θq são o conjunto finito de parâmetros de peso e t são
elementos formados com caracterı́sticas do ruı́do branco com média E(Xt ) = 0 e variância
var = σ 2 .
Enquanto que um processo autorregressive de ordem p, AR(p), pode ser expresso pela
Equação A. (BOX GWILYM M. JENKINS, 1994)
onde t ∼ W N (0, σ 2 ). Esse modelo é definido por ARM A(p, q), em que p representa a
ordem por parte do processo autoregressive, AR(p), e q refere-se à ordem do processo
moving average, M A(q).
Diante da discussão sobre o modelo ARM A, o qual representa séries estacionárias,
há uma generalização dessa classe, visto que é possı́vel incorporar uma ampla gama de
séries não-estacionárias e que pode ser fornecida pelos processos autoregressive integrated
moving average (ARIMA). Sendo assim, se d é um inteiro não-negativo, então a série
Xt é um ARIM A(p, d, q) se Yt := (1 − B)d Xt é um processo causal ARM A(p, q). Esta
definição significa que Xt satisfaz uma equação de diferença representada pela Equação
A. (BROCKWELL; DAVIS; CALDER, 2002).
Então, o expoente de Lyapunov h(x1 ) é definido através da Equação A. se, e somente
se, L existir e for diferente de zero, e lnL = h (ALLIGOOD; SAUER; YORKE, 1997).
1
h(x1 ) = lim [ln(|(f 0 (x1 ))|) + ... + ln(|(f 0 (xn ))|)] (A.)
n→∞ n
Além disso, vale ressaltar que a órbita {x1 , x2 , ...xn } é chamada de assintoticamente
periódica se convergir para uma órbita periódica como n → ∞. Isto significa que existe
uma órbita periódica {y1 , y2 , ..., yk , y1 , y2 , ...} que satisfaz a Equação A. (ALLIGOOD;
SAUER; YORKE, 1997).
lim |xn − yn | = 0 (A.)
n→∞
(R/S)t = c ∗ tH (A.)
onde c é uma constante e H é o expoente Hurst, a Figura A.10 demonstra esta análise.
6
*
*
5
*
4 *
H=0.65
log2(R/S) *
3
*
2 *
*
1
*
1 2 3 4 5 6 7 8 9 10
log2(t)
Figura A.10 Expoente de Hurst com análise R/S - adaptado de (QIAN; RASHEED, 2004).