Você está na página 1de 55

LOGOMARCA ESCOLA DE MINAS – VERSÃO

UNIVERSIDADE FEDERAL DE OURO PRETO


ESCOLA DE MINAS
COLEGIADO DO CURSO DE ENGENHARIA DE CONTROLE
E AUTOMAÇÃO - CECAU

IURI DA SILVA DINIZ

GERAÇÃO DE REDES FUNCIONAIS A PARTIR DE SÉRIES


TEMPORAIS DE UM RADAR METEOROLÓGICO

MONOGRAFIA DE GRADUAÇÃO EM ENGENHARIA DE CONTROLE E


AUTOMAÇÃO

Ouro Preto, 2022


IURI DA SILVA DINIZ

GERAÇÃO DE REDES FUNCIONAIS A PARTIR DE SÉRIES


TEMPORAIS DE UM RADAR METEOROLÓGICO

Monografia apresentada ao Curso de Enge-


nharia de Controle e Automação da Universi-
dade Federal de Ouro Preto como parte dos
requisitos para a obtenção do Grau de Enge-
nheiro de Controle e Automação.

Orientador: Prof. Vander Luis de Souza Freitas, Dr.


Coorientador: Profª. Adrielle de Carvalho Santana, Drª.

Ouro Preto
Escola de Minas – UFOP
2022
SISBIN - SISTEMA DE BIBLIOTECAS E INFORMAÇÃO

D585g Diniz, Iuri Da Silva.


DinGeração de redes funcionais a partir de séries temporais de um radar
meteorológico. [manuscrito] / Iuri Da Silva Diniz. - 2022.
Din54 f.: il.: color., gráf., tab., mapa.

DinOrientador: Prof. Dr. Vander Luis de Souza Freitas.


DinCoorientadora: Profa. Dra. Adrielle de Carvalho Santana.
DinMonografia (Bacharelado). Universidade Federal de Ouro Preto. Escola
de Minas. Graduação em Engenharia de Controle e Automação .

Din1. Séries temporais. 2. Redes complexas. 3. Redes funcionais. 4.


Grafos. I. Freitas, Vander Luis de Souza. II. Santana, Adrielle de Carvalho.
III. Universidade Federal de Ouro Preto. IV. Título.

CDU 681.5

Bibliotecário(a) Responsável: Maristela Sanches Lima Mesquita - CRB-1716


MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DE OURO PRETO

REITORIA

ESCOLA DE MINAS

DEPARTAMENTO DE ENGENHARIA CONTROLE E


AUTOMACAO

FOLHA DE APROVAÇÃO

 
 
Iuri da Silva Diniz
 
Geração de Redes Funcionais a partir de Séries Temporais de um Radar Meteorológico
 

Monografia apresentada ao Curso de Engenharia de Controle e Automação da Universidade Federal


de Ouro Preto como requisito parcial para obtenção do título de bacharel em engenharia de controle e automação

Aprovada em 13 de junho de 2022


 
 
 
Membros da banca
 
 
Prof. Dr. Vander Luis de Souza Freitas - Orientador (Departamento de Computação, Universidade Federal de Ouro Preto)
Profa. Dra. Adrielle de Carvalho Santana – Coorientadora (Departamento de Engenharia de Controle e Automação, Universidade Federal de Ouro
Preto)
Prof. Dr. Tiago Garcia de Senna Carneiro - Convidado (Departamento de Computação, Universidade Federal de Ouro Preto)
Prof. Dr. Leonardo Bacelar Lima Santos - Convidado (Centro Nacional de Monitoramento e Alertas de Desastres Naturais - CEMADEN)
 
 
 
 
 
Vander Luis de Souza Freitas, orientador do trabalho, aprovou a versão final e autorizou seu depósito na Biblioteca Digital de Trabalhos de Conclusão
de Curso da UFOP em 14/06/2022
 
 

Documento assinado eletronicamente por Vander Luis de Souza Freitas, PROFESSOR DE MAGISTERIO SUPERIOR, em 14/06/2022, às
16:42, conforme horário oficial de Brasília, com fundamento no art. 6º, § 1º, do Decreto nº 8.539, de 8 de outubro de 2015.

A autenticidade deste documento pode ser conferida no site http://sei.ufop.br/sei/controlador_externo.php?


acao=documento_conferir&id_orgao_acesso_externo=0 , informando o código verificador 0343306 e o código CRC 75BE64E2.

Referência: Caso responda este documento, indicar expressamente o Processo nº 23109.007692/2022-28 SEI nº 0343306

R. Diogo de Vasconcelos, 122, - Bairro Pilar Ouro Preto/MG, CEP 35400-000

Telefone: 3135591533   - www.ufop.br


AGRADECIMENTOS

Agradeço de forma geral a todos que me ajudaram e acreditaram em mim, mesmo que eu mesmo,
em muitos momentos, não acreditasse.
Agradeço aos meus pais e minha irmã por sempre terem me apoiado ao longo de todas as etapas
da minha vida.
Agradeço aos meus amigos Alex Júnior Guimarães, Marco Túlio Moura Valente e Piercy Braga
Dias pela parceria que começou ainda no curso técnico em Automação Industrial.
Agradeço ao meu orientador Vander Luis de Souza Freitas pela contribuição imensa na minha
formação acadêmica, me auxiliando em cada passo desde o projeto de iniciação científica.
Agradeço à minha co-orientadora Adrielle de Carvalho Santana pelos ensinamentos passados
como professora e pela disponibilidade em ajudar. Esse agradecimento se estende aos demais
professores do Departamento de Engenharia de Controle e Automação e Departamento de
Computação que tiveram papel importante no meu desenvolvimento.
RESUMO

Séries temporais são formadas por um conjunto de observações sequenciais dispostas ao longo
de tempo, sendo capazes de descrever variáveis presentes em diversas áreas da ciência, sejam
elas naturais, humanas, exatas ou biológicas, motivando, portanto, o desenvolvimento de diversas
metodologias para o estudo dessas séries e dos sistemas que elas descrevem. Unindo as séries
temporais às redes complexas, estruturas que se utilizam de grafos para representar a dinâmica
de um dado sistema, foi possível a geração de redes meteorológicas funcionais, onde cada série
é mapeada em um nó e cada link é estabelecido por meio de critérios de similaridade. Cada par
de série teve a similaridade avaliada usando o coeficiente de correlação de Pearson, informação
mútua, dynamic time warping e sincronização de eventos. Os dados analisados neste trabalho
foram gerados por um radar meteorológico e quantificam o volume de precipitação na região
serrana do Rio de Janeiro em um período de 10 dias no ano de 2012. Observa-se que as redes
geradas possuem estruturas de comunidades que se diferem pela demarcação espacial; algumas
comunidades detectadas possuíam nós espacialmente distantes que se conectavam por meio de
teleconexões. A presença de conexões de longo alcance foi notada especialmente nas redes DTW
e nas redes backbone.

Palavras-chave: Séries temporais. Redes complexas. Redes funcionais. Grafos.


ABSTRACT

Time series is a set of sequential observations arranged over time and describe variables present
in several areas of science, whether natural, human, exact, or biological, thus motivating the
development of different methodologies for the study of these series and the systems they
describe. By uniting the time series to the complex networks, structures that use graphs to
represent the dynamics of a given system, it was possible to generate functional meteorological
networks, where each series becomes a node and a similarity criterion determines the links. The
similarity between each pair of time series were made using Pearson’s correlation coefficient,
mutual information, dynamic time warping and event synchronization. The data analyzed in this
work come from weather radar and quantifies the volume of precipitation in the serrana region
of Rio de Janeiro in 10 days during the year 2012. The generated networks have community
structures that differ by spatial demarcation; some communities had spatially distant nodes
connected through teleconnections. The presence of long-range connections was especially
noticed in DTW networks and backbone networks.

Key-words: Time series. Complex networks. Functional networks. Graphs.


LISTA DE ILUSTRAÇÕES

Figura 1 – Ilustração do problema das pontes de Königsberg. Fonte: Elaborada pelo


autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Figura 2 – Representação dos diferentes tipos de grafos. A variação na espessura das
arestas representa o peso das conexões e as setas indicam a direção. Fonte:
Adaptado de Menczer, Fortunato e Davis (2020). . . . . . . . . . . . . . . . 19
Figura 3 – Matriz de adjacência de um grafo ponderado e direcionado. Fonte: Elaborada
pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Figura 4 – Exemplo de cálculo do coeficiente de clusterização local. Fonte: Elaborada
pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Figura 5 – Exemplo de uma rede conexa e três comunidades demarcadas: em azul,
vermelho e laranja. Fonte: Elaborada pelo autor (2022). . . . . . . . . . . . 23
Figura 6 – Exemplo de alinhamento entre duas séries, gerado pelo DTW. Fonte: Elabo-
rada pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Figura 7 – Área da região de estudo delimitada pelo retângulo verde. Fonte: Elaborada
pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 8 – Representação da série de índice 0. São 240 pontos oscilando entre eventos
de precipitação e períodos sem registro. Fonte: Elaborada pelo autor (2022). 32
Figura 9 – Exemplo de como fatores relacionados à magnitude e alinhamento temporal
de séries interferem na aplicação do DTW. Fonte: Elaborada pelo autor (2022). 33
Figura 10 – Impacto da variação do limiar global na geração das redes CCP. Fonte:
Elaborada pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . 34
Figura 11 – Impacto da variação do limiar global na geração de redes IM. Fonte: Elabo-
rada pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 12 – Impacto da variação do limiar global na geração de redes DTW. Fonte:
Elaborada pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 13 – Impacto da variação do limiar global na geração de redes SE. Fonte: Elabo-
rada pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Figura 14 – Impacto da variação do nível de significância na geração de redes backbone
CCP. Fonte: Elaborada pelo autor (2022). . . . . . . . . . . . . . . . . . . . 36
Figura 15 – Impacto da variação do nível de significância na geração de redes backbone
IM. Fonte: Elaborada pelo autor (2022). . . . . . . . . . . . . . . . . . . . 37
Figura 16 – Impacto da variação do nível de significância na geração de redes backbone
DTW. Fonte: Elaborada pelo autor (2022). . . . . . . . . . . . . . . . . . . 37
Figura 17 – Impacto da variação do nível de significância na geração de redes backbone
SE. Fonte: Elaborada pelo autor (2022). . . . . . . . . . . . . . . . . . . . 38
Figura 18 – Distribuição de graus das redes geradas usando limiarização global. Fonte:
Elaborada pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . 40
Figura 19 – Distribuição de graus das redes geradas usando backbone. Fonte: Elaborada
pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Figura 20 – Rede CCP gerada utilizando critério de limiarização global com distinção de
comunidades baseada em cores. Fonte: Elaborada pelo autor (2022). . . . . 43
Figura 21 – Rede IM gerada utilizando critério de limiarização global com distinção de
comunidades baseada em cores. Fonte: Elaborada pelo autor (2022). . . . . 44
Figura 22 – Rede DTW gerada utilizando critério de limiarização global com distinção
de comunidades baseada em cores. Fonte: Elaborada pelo autor (2022). . . . 45
Figura 23 – Rede SE gerada utilizando critério de limiarização global com distinção de
comunidades baseada em cores. Fonte: Elaborada pelo autor (2022). . . . . 46
Figura 24 – Rede backbone CCP com distinção de comunidades baseada em cores. Fonte:
Elaborada pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . 47
Figura 25 – Rede backbone IM com distinção de comunidades baseada em cores. Fonte:
Elaborada pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 26 – Rede backbone DTW com distinção de comunidades baseada em cores. Fonte:
Elaborada pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 27 – Rede backbone SE com distinção de comunidades baseada em cores. Fonte:
Elaborada pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . 50
LISTA DE TABELAS

Tabela 1 – Coordenadas da região de estudo. Elaborado pelo autor (2022). . . . . . . . 30


Tabela 2 – Métricas das redes geradas pelo processo de limiarização global. Elaborado
pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Tabela 3 – Métricas das redes backbone. Elaborado pelo autor (2022). . . . . . . . . . 41
Tabela 4 – Relação do número de comunidades e modularidade para cada uma das redes.
Elaborado pelo autor (2022). . . . . . . . . . . . . . . . . . . . . . . . . . 42
LISTA DE ABREVIATURAS E SIGLAS

CCP Coeficiente de correlação de Pearson

DTW Dynamic Time Warping

IM Informação mútua

SE Sincronização de eventos
LISTA DE SÍMBOLOS

X Conjunto de valores

T Intervalo de tempo

ω Frequência de um dado sinal

ωs Frequência de amostragem

G Grafo

V Conjunto de vértices ou nós

E Conjunto de arestas ou links

wi Peso de uma aresta

Aij Matriz de adjacência de um grafo ou rede

ki Grau de um nó

pk Distribuição de graus

si Força (strength) de um nó

Ci Coeficiente de clusterização (Clustering Coefficient) de um nó

L Número de arestas ou links

Bi Centralidade por intermediação (Betweenness Centrality) de um nó

gij Número de menores caminhos entre dois nós

d Densidade de um grafo ou rede

κ Parâmetro de heterogeneidade

M Modularidade

C Comunidade

t Comprimento de passo

Pij Matriz de probabilidade de transição

rij Distância entre nós para o algoritmo Walktrap

ρ Coeficiente de correlação de Pearson

I Informação mútua

δ Função de distância local para o DTW

γ Função de custo da matriz do DTW


λ Tamanho da janela temporal de eventos

c Contador de eventos síncronos

J Condições para contagem de eventos síncronos

Q Nível de eventos síncronos entre duas séries

q Precedência na ocorrência de eventos síncronos

Sij Matriz de similaridade

τ Limiar de similaridade

Θ Função de Heaviside

pij Probabilidade associada a uma aresta para as redes backbone

α Nível de significância
SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 Objetivos gerais e específicos . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Justificativa do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Estrutura do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . . 16
2.1 Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Sistemas Complexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Redes Complexas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1 Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.1.2 Representação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.2 Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.2.1 Grau, grau médio, distribuição de graus e força . . . . . . . . . . . . . . . . . . 20
2.3.2.2 Coeficiente de clusterização . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2.3 Centralidade por intermediação . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2.4 Densidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.2.5 Menor caminho, caminho médio e diâmetro . . . . . . . . . . . . . . . . . . . 22
2.3.2.6 Parâmetro de heterogeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.3 Características gerais das redes . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.3.1 Componentes, componente gigante, singletons e hubs . . . . . . . . . . . . . . . 22
2.3.3.2 Comunidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Similaridade entre Séries Temporais . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Coeficiente de correlação de Pearson . . . . . . . . . . . . . . . . . . . . . 26
2.4.2 Informação Mútua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.3 Dynamic Time Warping . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.4 Sincronização de Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5 Construção de Redes Meteorológicas Funcionais . . . . . . . . . . . . . . . 28
2.5.1 Limiarização global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.2 Espinha dorsal de uma rede . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 Tecnicidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
14

1 INTRODUÇÃO

Uma série temporal pode ser entendida como um conjunto de observações dispos-
tas ao longo do tempo e distribuídas em intervalos que podem ser contínuos ou discretos
(BROCKWELL; DAVIS, 2016). O estudo dessas séries, segundo Cryer e Chan (2008), é guiado
por dois objetivos principais: a busca pelo entendimento do mecanismo que as originou e a
realização de previsões. As séries temporais cumprem um papel muito importante nas ciências
em geral, criando espaço para o surgimento de diversas metodologias destinadas ao seu estudo.
Séries temporais estão sempre presentes na meteorologia, pois possibilitam analisar
como diversas variáveis que descrevem a dinâmica da atmosfera evoluem no tempo. Dada
a composição gasosa da atmosfera terrestre — os principais componentes são o oxigênio,
nitrogênio, vapor de água e dióxido de carbono —, essas variáveis podem descrever regimes
como o de temperatura, pressão, umidade e precipitação (AHRENS, 2008). O estudo dessas
dinâmicas possui importância nas mais diversas esferas. Lu et al. (2009) e Saez et al. (1995), por
exemplo, estudaram, respectivamente, a relação entre dados do clima (dados acumulados por
longos períodos de tempo) e a incidência de casos de dengue na região chinesa de Guangzhou, e
o impacto das variações de temperatura em índices de mortalidade.
O interesse crescente no estudo de redes durante o início do século 21 e o caráter
multidisciplinar conferido por esse campo, como citado por Barabási et al. (2016), fizeram com
que diversos problemas pudessem ser mapeados e analisados sob a ótica das redes complexas.
As redes complexas são representações de sistemas complexos por meio de grafos, estruturas
onde um conjunto de vértices (nós) é conectado por meio de arestas (links) a fim de mapear o
comportamento do sistema analisado. Sistemas complexos podem ser definidos como aqueles
que possuem um comportamento global ditado por interações locais, sem um controlador único
e centralizado, fazendo com que a observação da dinâmica dessa classe de sistemas passe por
uma análise do comportamento de seus componentes, em conjunto (BOCCARA, 2010).
As redes complexas passaram a auxiliar na análise de séries temporais, permitindo, como
no caso deste trabalho, o mapeamento de um conjuntos de séries temporais com informações de
precipitação em diferentes redes complexas, que, por conta das características de disposição dos
dados e geração das redes, podem ainda ser classificadas como redes meteorológicas funcionais.
Outros trabalhos utilizam abordagens similares na análise de variáveis meteorológicas, levando
em conta conjuntos de séries distribuídas geograficamente em escalas locais (regionais) ou
globais. Jorge, Costa e Santos (2020) e Ceron et al. (2020) analisaram o comportamento de
um conjunto de séries temporais contendo informações de precipitação em regiões dos estados
de São Paulo e Rio de Janeiro, respectivamente. Os autores conseguiram, por meio dos níveis
de correlação estatística entre essas séries (ambos utilizaram o coeficiente de correlação de
Pearson), traçar conexões entre as que obedeciam a um critério específico de limiarização,
possibilitando a extração de uma rede que pôde ser analisada usando o ferramental de redes
complexas. Os estudos realizados por Ferreira et al. (2021), Donges et al. (2009) e Boers et al.
(2019) tiveram como objeto de análise dados distribuídos por todo o globo terrestre. Boers et al.
(2019) analisaram eventos extremos de precipitação, usando um algoritmo capaz de identificar a
ocorrência síncrona de eventos entre as séries. Donges et al. (2009) usaram as redes complexas
para analisar a dinâmica da temperatura do ar na superfície por meio de dados climáticos
coletados ao longo de décadas; a correlação de Pearson e a informação mútua foram utilizadas
como forma de avaliar a similaridade entre as séries temporais. Ferreira et al. (2021) analisou o
15

impacto de 29 medidas de similaridade na criação de redes a partir de dados da temperatura do


ar próximo da superfície.

1.1 Objetivos gerais e específicos

Tenciona-se, nesta monografia, analisar as relações entre um conjunto de séries temporais


de precipitação por meio do arcabouço das redes complexas. Destarte, são definidos os seguintes
objetivos específicos:

• investigar os métodos para avaliação da similaridade entre séries temporais;

• definir estratégias para conexão dos nós das redes por meio de critérios de limiarização;

• analisar as estruturas das redes funcionais formadas.

1.2 Justificativa do trabalho

A atual capacidade de gerenciamento e processamento de dados, aliada ao caráter


altamente interdisciplinar das redes complexas, resultou em uma expansão do uso das redes
como uma ferramenta de grande utilidade para o estudo dos mais variados sistemas. Dentre eles,
o estudo da dinâmica de variáveis meteorológicas, que, em amplitude local ou global, possui
um impacto direto nos diversos âmbitos da sociedade. Por meio da análise de redes em níveis
globais, como as apresentadas por Boers et al. (2019), Donges et al. (2009) e Ferreira et al.
(2021), foi possível a captura de dinâmicas associadas ao transporte de energia ao longo da
superfície terrestre, complementando o entendimento sobre fenômenos que atuam na atmosfera.
Já trabalhos analisando dados em regiões localizadas, como Rheinwalt et al. (2016) e Ceron et al.
(2020), revelaram padrões de distribuição de precipitação nas regiões avaliadas.
Desta forma, buscando complementar os resultados obtidos por Ceron et al. (2020),
busca-se aplicar algumas metodologias já utilizadas na literatura para testar a similaridade entre
as séries e posterior construção e análise das redes.

1.3 Contribuições

A conceituação e metodologia para esta monografia foram estruturadas em um resumo


expandido intitulado "Analysis of Rainfall Networks Generated from Different Similarity Me-
asures", que foi submetido à XLI edição do Congresso Nacional de Matemática Aplicada e
Computacional (CNMAC).

1.4 Estrutura do trabalho

Na Seção 2, de Fundamentação Teórica, são apresentados os conceitos necessários para


o entendimento da metodologia aplicada, abordando definições acerca de séries temporais,
redes complexas e medidas para avaliação da similaridade entre séries temporais. Na Seção 3
são apresentados os aspectos relacionados à metodologia aplicada para tratamento dos dados,
aplicação da fundamentação teórica e obtenção dos resultados. As Seções finais, 4 e 5, tratam
da apresentação dos resultados e conclusões, buscando discutir os resultados obtidos a partir
da análise das redes, além de pontuar as vantagens e as limitações da metodologia utilizada; a
proposta de trabalhos futuros também é apresentada nessa seção.
16

2 FUNDAMENTAÇÃO TEÓRICA

2.1 Séries Temporais

Um conjunto de valores X = {x0 , x1 , x2 , ...xN } distribuídos de forma sequencial ao


longo de um intervalo de tempo, T, formam uma série temporal. Essas séries são classificadas
como discretas quando a distribuição das observações é dada pontualmente ao longo do espaço
temporal analisado e são denominadas contínuas quando estão distribuídas ao longo de um
intervalo contínuo, T = [a, b] (BROCKWELL; DAVIS, 2016).
Ordinariamente, as análises de séries temporais produzidas por variáveis contínuas
são realizadas após um processo de amostragem desses valores em intervalos equidistantes e
suficientemente pequenos para manutenção das informações contidas na variável amostrada
(CHATFIELD, 2000). Salienta-se a importância da verificação dos critérios relacionados à
frequência de amostragem de variáveis contínuas. Landau (1967) destaca as implicações do
teorema da amostragem, pontuando a relação entre a frequência de amostragem (ωs ) e a frequên-
cia do sinal (ω). A relação ωs ≥ 2ω precisa ser satisfeita para que as informações sobre o sinal
contínuo possam ser herdadas pelo sinal discreto resultante.
A análise das séries temporais, segundo Cryer e Chan (2008), é baseada em dois pro-
pósitos gerais: identificar um modelo capaz de reproduzir a distribuição desses dados, e tornar
possível a predição de observações ainda não medidas, sendo viável também, segundo Brockwell
e Davis (2016), a predição de valores baseando-se na observação de outra série temporal. Chatfi-
eld (2000) ainda destaca a representação das séries usando métodos gráficos ou estatísticos e seu
papel na tomada de decisão em processos a partir da análise de modelos preditivos.

2.2 Sistemas Complexos

A ideia de sistema pode ser definida pela atuação de diversos componentes na constituição
de um determinado comportamento. Um dado sistema é classificado como dinâmico se a saída
no tempo tk for dependente da saída obtida no tempo tk−1 . Em um sistema estático, por sua vez,
a saída em um dado instante não depende de pontos passados, apenas do próprio instante em
questão (OGATA, 2003). Há ainda uma classe de sistemas cujo comportamento é denominado
complexo; padrões de organização exibidos por alguns grupos de animais e a interação das
variáveis atmosféricas — McIlveen (1991) pontua a natureza caótica da atmosfera terrestre,
caracterizada pela presença de variáveis relacionadas não linearmente e que exibem elevada
sensibilidade às condições iniciais 1 — são exemplos comumente utilizados para explicar as
características de um sistema complexo. O comportamento das formigas em suas colônias, dos
pássaros em suas revoadas e dos peixes em seus cardumes evidenciam padrões cooperativos
de movimento coletivo e auto-organização que não dependem de informações passadas por
um elemento central, além de apresentar alterações locais intimamente ligadas ao ambiente em
que estão inseridos. A presença de manifestações globais criadas por interações locais entre
agentes sem um controle central são classificados como comportamento emergente, característica
fundamental presente em um sistema definido como complexo (BOCCARA, 2010; FREITAS,
2019).
1
Esses sistemas, apesar de determinísticos, possuem um comportamento tal que as incertezas associadas à sua
dinâmica se amplificam exponencialmente por menor que seja a variação nas condições iniciais.
17

A descrição de sistemas muitas vezes é realizada por meios matemáticos. O modelo


matemático de um sistema é a representação de sua dinâmica mediante equações. Essas equações
buscam descrever as características essenciais para explicar o comportamento das variáveis
ao longo do tempo. Em situações onde não há conhecimento dos fenômenos que governam a
dinâmica de um sistema, busca-se a elaboração de modelos capazes de mapear os conjuntos de
entrada e saída tomados em um dado intervalo de tempo (OGATA, 2003).

2.3 Redes Complexas

As redes, ou grafos, são, basicamente, conjuntos formados por vértices (nós) interligados
aos pares por arestas (links) (SILVA, 2018). O arcabouço teórico associado às redes, conforme
mencionado por Amaral e Ottino (2004), constitui uma das áreas envolvidas no estudo de
sistemas complexos, ao lado do estudo de dinâmicas não lineares e física estatística. A usual
característica multiagente e conexa dos sistemas complexos possibilita o emprego de grafos em
sua modelagem, onde agentes podem ser mapeados em vértices (nós) e a interação entre eles
pode ser representada por meio de arestas (links) (SILVA, 2018).
O estudo e aplicação das redes como método para análise de sistemas reais teve um
grande desenvolvimento a partir do início do século XXI. Apesar de recente, a base para o
estudo das redes complexas, os grafos, possuem origem datada ao ano de 1735. Mesmo com
mais de 200 anos de existência e desenvolvimento teórico, as redes só passaram a ter um papel
de maior abrangência com o desenvolvimento e crescimento da Internet, além das melhorias
computacionais que favoreceram o gerenciamento, armazenamento e processamento dos dados
necessários para o mapeamento de sistemas em redes. Associado a isso, a característica universal
de representação das redes possibilitou o seu uso nas mais diversas áreas do conhecimento
(BARABÁSI et al., 2016).
Barabási et al. (2016) aponta para o aumento no volume de citações de dois artigos com
o foco na teoria dos grafos. O primeiro, publicado por Erdős, Rényi et al. (1959), fala sobre
grafos aleatórios; o segundo, por Granovetter (1973), trata da importância dos laços sociais
mais fracos (indivíduos que se conhecem, mas não possuem uma relação de proximidade) na
interligação entre grupos em uma rede social cuja ligação entre os indivíduos é forte (amigos
e familiares). Embora conhecidos nas suas respectivas áreas, esses trabalhos ganharam cada
vez mais notoriedade no início dos anos 2000, passando de centenas de citações anuais com a
chegada do novo século.
18

2.3.1 Grafos
Os grafos foram concebidos pelo matemático suíço Leonhard Euler, em 1735, como
forma de abordar o problema das sete pontes de Königsberg. O problema consistia em investigar
se era possível a realização de um caminho que cruzaria todas as sete pontes apenas uma vez.
Na Figura 1 é possível verificar a disposição das pontes e a abordagem utilizada por Euler para
mapear o problema; ele mapeou cada porção de terra em um vértice (nó) e representou cada
ponte como uma aresta (link) entre os vértices. Se utilizando dessa abordagem, Euler comprovou
a inexistência de uma solução para o problema das sete pontes (BARABÁSI et al., 2016).

A
D

A D

Figura 1 – Ilustração do problema das pontes de Königsberg. Fonte: Elaborada pelo autor (2022).
19

2.3.1.1 Definições
Um grafo G = (V, E) é uma estrutura composta por um conjunto de vértices, V, e
arestas, E (MENCZER; FORTUNATO; DAVIS, 2020). Os vértices são identificados por ín-
dices inteiros i = {1, 2, ..., N}, e as arestas são identificadas por pares de inteiros (i, j) =
{(1, 1), (1, 2), ..., (M, N)}, sendo o par (i, j) a representação da conexão entre os vértices i e j.
Um grafo pode ser direcionado ou não-direcionado. Em grafos não-direcionados, as arestas
são equivalentes, de forma que a interpretação da conexão (i, j) é a mesma de (j, i), ou seja,
(i, j) ∈ E ⇔ (j, i) ∈ E. Diversamente, em um grafo direcionado, (i, j) ∈ E < (j, i) ∈ E (ZOU
et al., 2019). O par (i, j) em um grafo direcionado indica que a aresta está partindo fonte i em
direção ao alvo j. Outra possibilidade é o uso de arestas com pesos associados. Um grafo é dito
ponderado quando é possível escrever suas arestas na forma E = (i, j, w), onde w é o peso dessa
conexão. Já em grafos não ponderados, as arestas não possuem pesos associados (MENCZER;
FORTUNATO; DAVIS, 2020). A Figura 2 sumariza os tipos de grafos apresentados, além de
ilustrar a combinação das características; um grafo pode ser ponderado e direcionado.

Não direcionado Direcionado


Não ponderado
Ponderado

Figura 2 – Representação dos diferentes tipos de grafos. A variação na espessura das arestas
representa o peso das conexões e as setas indicam a direção. Fonte: Adaptado de
Menczer, Fortunato e Davis (2020).

2.3.1.2 Representação
Além das representações gráficas usando os vértices e arestas, há outras formas de retratar
as redes, que são úteis tanto em análises matemáticas, quanto para o armazenamento das redes
em arquivos.
A forma matricial, dada pela matriz de adjacência, permite a representação estrutural
sem perda de características como a direção dos links. A matriz de adjacência, A, de um
grafo G = (V, E), é constituída por N linhas e N colunas, sendo N o número de vértices que
compõem o grafo. O conteúdo armazenado na matriz pode ser binário (grafos não ponderados), ou
dependentes do peso associado para cada conexão (grafos ponderados). A seguir são apresentadas
as características de composição da matriz de adjacência para os tipos de grafos apresentados
(MENCZER; FORTUNATO; DAVIS, 2020):
20

• Grafos não ponderados e não direcionados: Para essa classe de grafos, o elemento Aij = 1
indica que os vértices i e j estão conectados. Aij = 0, então, ocorre quando não há conexão
entre os vértices. Como a conexão nos grafos não direcionados é bidirecional, a matriz A é
simétrica: Aij = Aji .

• Grafos ponderados e não direcionados: Para os grafos ponderados, a matriz não é binária.
Desta forma, cada elemento Aij indica o valor do peso da aresta bidirecional que conecta
os vértices i e j.

• Grafos direcionados: Nos grafos direcionados, o elemento Aij representa uma conexão que
parte do vértice j até o i. Assim, um elemento A31 = 0, 8, por exemplo, indica que há uma
conexão de peso 0,8 partindo do vértice 3 e indo em direção ao 1.

Na Figura 3 é possível ver como é feita a representação matricial de um grafo ponderado


e direcionado.

1 2
0 0 0 0
9 0 0 0
0,8 0, A=
0,2
0,2 0,8 0,9 0 0
0 0 0,5 0
3 0,5 4

Figura 3 – Matriz de adjacência de um grafo ponderado e direcionado. Fonte: Elaborada pelo


autor (2022).

2.3.2 Métricas
As métricas possuem variações de acordo com a característica da rede analisada. Como
as redes analisadas neste trabalho são não direcionadas e não ponderadas, as métricas descritas
têm como foco abordar essa classe de rede.

2.3.2.1 Grau, grau médio, distribuição de graus e força


O grau ki de um nó i é definido como a quantidade de conexões que esse nó possui.
Assim, o grau médio de uma rede pode ser obtido a partir da Equação (2.1), que estabelece a
razão entre o somatório de graus da rede e seu número de nós (N) (BARABÁSI et al., 2016):
P
ki
hki = i . (2.1)
N
A distribuição de graus, pk , estabelece a probabilidade de um nó qualquer da rede ter grau k,
sendo dada por:
Nk
pk = , (2.2)
N
onde Nk é o número de nós com grau k (BARABÁSI et al., 2016).
21

Em redes ponderadas, podemos calcular o grau ponderado de cada nó, ou força (strength),
como na equação:
X
si = wij , (2.3)
j

onde a força de um nó i, tomando como base o caso não direcionado, é a soma do peso de todos
os links que se conectam a ele (MENCZER; FORTUNATO; DAVIS, 2020).

2.3.2.2 Coeficiente de clusterização


O coeficiente de clusterização (Clustering Coefficient) de um nó i, dado por Ci , avalia o
grau de conectividade entre os nós vizinhos de i. Esse coeficiente pode ser interpretado como
a probabilidade de dois nós vizinhos de i estarem conectados. Ci pode ser calculado como na
Equação a seguir:

2Li
Ci = , (2.4)
ki (ki − 1)
onde Li se refere ao número de links entre os vizinhos do nó i (BARABÁSI et al., 2016). A
Figura 4 exemplifica o processo de contabilização do coeficiente de clusterização para o nó
1. Nota-se que esse nó possui 3 vizinhos, mas apenas os pares (2,3) e (2,4) estão conectados,
levando a um coeficiente C1 ≈ 0, 667.

1 2

3
2(2)
_____ 2
__
C1 = =
3(3 - 1) 3
4

Figura 4 – Exemplo de cálculo do coeficiente de clusterização local. Fonte: Elaborada pelo autor
(2022).

2.3.2.3 Centralidade por intermediação


A centralidade por intermediação (Betweenness Centrality) é definida pela Equação
(2.5):

X gjk (i)
Bi = , (2.5)
i6=j6=k
gjk

onde gjk corresponde ao número de menores caminhos existentes entre j e k, e gjk (i) diz respeito
ao número de menores caminhos entre j e k que passam por i. Um nó com elevado valor de
betweenness possui um grande impacto na forma com que a informação trafega através da rede,
pois é um ponto de passagem necessário nos possíveis menores caminhos entre um par de nós
(FREEMAN, 1977).
22

2.3.2.4 Densidade
A quantidade máxima de conexões em uma rede (Lmax ) pode ser definida a partir do
número de nós (N) (MENCZER; FORTUNATO; DAVIS, 2020):

N(N − 1)
Lmax = . (2.6)
2
Desta forma, a densidade é definida como a razão entre o número de links na rede (L) e o número
máximo possível de conexões, tal como mostrado na Equação a seguir:
L 2L
d= ⇒d= . (2.7)
Lmax N(N − 1)

Um grafo com densidade igual a 1 é chamado grafo completo, pois L = Lmax (MENCZER;
FORTUNATO; DAVIS, 2020).

2.3.2.5 Menor caminho, caminho médio e diâmetro


Em uma rede, um caminho é a sequência de links percorrida para ir de um nó até outro.
O comprimento do caminho é a quantidade de links que esse caminho possui (MENCZER;
FORTUNATO; DAVIS, 2020).
O menor caminho entre dois nós, portanto, é o caminho entre dois nós que possui a menor
quantidade de links. Partindo dessas definições, deriva-se duas outras medidas: comprimento
do caminho mínimo médio (hdi), caracterizado pela média dos comprimentos dos menores
caminhos entre todos os pares de nós da rede e o diâmetro, definido como o comprimento do
menor caminho mais longo da rede (BARABÁSI et al., 2016).

2.3.2.6 Parâmetro de heterogeneidade


O parâmetro de heterogeneidade (κ) busca quantificar a variabilidade da distribuição de
graus de uma rede. Em uma rede cuja distribuição de graus apresenta baixa variação em relação a
um valor central, ou seja, é mais homogênea, κ tende a 1. Do contrário, quanto mais heterogênea
a distribuição, maior o valor de κ. Esse parâmetro pode ser definido como mostra a Equação
(2.8) (MENCZER; FORTUNATO; DAVIS, 2020):

hk2 i
κ= , (2.8)
hki2
sendo que o termo hk2 i é dado por:
2
P
i ki

2
k = (2.9)
N

2.3.3 Características gerais das redes


2.3.3.1 Componentes, componente gigante, singletons e hubs
Uma rede é dita conexa quando existe a possibilidade de se chegar em um nó i partindo
de qualquer outro nó da rede. Em uma rede desconexa, portanto, existem nós que não podem
ser conectados por nenhum caminho, resultando em uma estrutura composta por dois ou mais
componentes. O maior desses componentes é chamado de componente gigante, que em uma
23

rede conexa corresponde ao conjunto de todos os seus nós, isto é, a própria rede (MENCZER;
FORTUNATO; DAVIS, 2020).
Existem componentes cuja estrutura é composta de apenas um nó. Esses nós não possuem
conexões (k = 0), sendo denominados singletons. Alternativamente, alguns nós se destacam por
possuir um elevado número de conexões, ou seja, grau acima da média. Esses nós, chamados
hubs, são de grande importância na análise de redes, pois podem revelar padrões chave dentro
do sistema analisado (MENCZER; FORTUNATO; DAVIS, 2020). No contexto de redes sociais,
por exemplo, um hub seria uma pessoa muito conhecida entre os membros da rede, podendo ter
um papel de elevada influência no comportamento global.

2.3.3.2 Comunidades
Em muitas redes é possível observarmos o aparecimento de comunidades. Essas estrutu-
ras podem ser caracterizadas pelo agrupamento de nós em subestruturas com elevada densidade
de conexão, de forma que o nó em uma comunidade exibe uma tendência maior em se conec-
tar apenas com membros da mesma comunidade (MENCZER; FORTUNATO; DAVIS, 2020).
Apesar dessa noção de comunidade ser válida, Barabási et al. (2016) pontua que a hipótese da
conectividade e densidade local deixa margens para diferentes definições acerca desse fenômeno.
A primeira busca definir comunidades como subgrafos completos, ou cliques. Partindo dessa de-
finição, as comunidades seriam estruturas onde todos os nós estariam conectados, resultando em
uma abordagem mais restritiva. Outras duas definições estão associadas ao número de conexões
que os nós realizam dentro e fora da comunidade. Uma estrutura de comunidade forte é tal que
os nós possuem mais conexões internas (com outros membros da mesma comunidade) do que
externas (com membros fora da comunidade), como ilustrado nas comunidades da Figura 5. De
forma contrária, os nós em uma estrutura de comunidade fraca realizam mais ligações externas
do que internas.

Figura 5 – Exemplo de uma rede conexa e três comunidades demarcadas: em azul, vermelho e
laranja. Fonte: Elaborada pelo autor (2022).

Além das questões envolvendo a definição e caracterização de uma comunidade, outro


problema importante reside na identificação dessas estruturas em uma rede, uma vez que o
número de comunidades não é pré-definido e as estruturas nem sempre são bem demarcadas.
Desta forma, a adoção de uma estratégia de força bruta que visa inspecionar todos os grupos
formados em uma rede é uma abordagem computacionalmente custosa, pois o número possível
de partições formadas cresce mais rápido que uma função exponencial à medida que o número de
24

nós da rede aumenta. Esse tipo de problema se enquadra na categoria dos problemas NP-difíceis,
sendo necessário recorrer a heurísticas (BARABÁSI et al., 2016).
Diversos algoritmos foram propostos como forma de abordar a detecção de comunidades
sem empregar buscas exaustivas por todos os arranjos possíveis dentro de uma rede. Um dos
mais populares, dentre os diversos abordados por Fortunato (2010), é o algoritmo divisivo
proposto por Girvan e Newman (2002). A ideia principal dos algoritmos divisivos é identificar e
remover os links que realizam a conexão entre comunidades. Uma das formas de realizar essa
identificação é calculando a centralidade por intermediação (betweenness) para cada link da rede.
Possuindo um significado equivalente ao apresentado na Seção 2.3.2.3, o betweenness para link
(edge betweenness) quantifica a importância de um link (não mais um nó) ao percorrermos os
menores caminhos entre os pares de nós da rede. Um edge betweenness elevado, no contexto da
detecção de comunidades, é um indicativo de que esse link possui uma função de ponte entre
comunidades. Esse fato pode ser observado na Figura 5, onde o menor caminho entre nós de
diferentes comunidades sempre passará, obrigatoriamente, por uma das duas (ou pelas duas)
conexões que interligam as 3 comunidades.
O algoritmo Girvan-Newman é implementado por meio dos seguintes passos:

Algoritmo 1 Girvan-Newman
E ← Número total de links;
G ← Grafo (V, E);
while E 6= 0 do
B ← edgeBetweenness(G); . Lista com a medida edge betweenness de toda a rede
maxB ← max(B); . Seleção do link com maior centralidade
G ← removeLink(maxB); . Remoção do link selecionado
E ← totalLinks(G); . Número de links é atualizado
end while

O processo de divisão da rede termina quando os todos componentes restantes são


singletons. Nota-se que, ao dividir a rede a cada iteração, o algoritmo gera diversas estruturas
de comunidade, mas não as qualifica. Uma forma bastante utilizada para avaliar a qualidade da
divisão obtida é por meio da modularidade. Essa medida busca comparar as estruturas obtidas
com uma versão aleatorizada da rede, onde o número de nós e a distribuição de graus são
mantidas, mas todos os links são conectados de forma aleatória. Por possuírem uma característica
de ligação que não se guia por nenhuma tendência de clusterização, as redes aleatórias não
exibem padrões de comunidade. A modularidade, então, compara a quantidade de links em
uma dada comunidade com o número esperado de links da mesma comunidade em uma versão
aleatorizada da rede. O cálculo é realizado como segue (MENCZER; FORTUNATO; DAVIS,
2020):

kC2
 
1X
M= LC − , (2.10)
L C 4L
onde L é o número links da rede, LC e kC correspondem, respectivamente, ao número de links e
ao somatório dos graus na comunidade C.
O valor obtido a partir da modularidade possui interpretações importantes, como pontua
(BARABÁSI et al., 2016). Altos valores de modularidade indicam um bom nível de partici-
onamento, ou seja, estruturas de comunidade que se distanciam do caso aleatório. Quando o
25

resultado obtido é nulo, significa que todos os nós estão ligados a uma mesma comunidade. Um
resultado negativo implica que cada nó representa uma comunidade diferente.
Outro algoritmo, o Walktrap, proposto por Pons e Latapy (2005), se baseia na construção
de caminhos aleatórios entre os nós de uma rede. A premissa do algoritmo reside na ideia de que
esses passos aleatórios tendem a ficar presos (daí a denominação “trap”) em regiões mais densas
da rede, possibilitando a identificação de estruturas de comunidade. Dado um comprimento de
passo t, responsável por controlar a quantidade de links percorridos a cada passo, a transição
entre um vértice i e um vértice j ocorre de forma aleatória, sendo j um nó vizinho de i. Em cada
iteração é construída uma matriz que mapeia a probabilidade da ocorrência de uma transição
entre dois nós, da forma:
Aij
Pij = , (2.11)
ki
onde ki é o grau do nó i e Aij , para as redes não ponderadas, indica se há (Aij = 1) ou não (Aij = 0)
uma conexão entre os dois nós. A probabilidade de uma transição entre dois nós por um caminho
de tamanho t é denotada por Ptij . Com o intuito de verificar se dois nós pertencem ou não a uma
comunidade, é definida uma distância rij (t), como mostrada na Equação (2.12), que depende das
probabilidades de transição e leva em consideração os nós intermediários, m, existentes em um
caminho entre i e j:
v
u n
uX (Ptim − Ptjm )2
rij (t) = t . (2.12)
m=1
km

Desta forma, rij (t) possui um valor elevado quando são avaliados nós situados em diferentes
comunidades e tende a um valor baixo quando os nós estão na mesma comunidade.
26

2.4 Similaridade entre Séries Temporais

A avaliação da similaridade em séries temporais pode ser realizada por algoritmos


e métricas de classes distintas, considerando-se diferentes aspectos das séries temporais. A
similaridade, segundo Esling e Agon (2012), deve ser capaz de abstrair, de forma consistente à
intuição humana, variações em amplitude, deslocamento temporal, ruídos, entre outros.

2.4.1 Coeficiente de correlação de Pearson


O coeficiente de correlação de Pearson pode ser utilizado como forma de quantificar a
similaridade entre duas variáveis. O coeficiente, ρ, que varia entre −1 e 1, é capaz de identificar
a força e a direção da relação linear entre as duas variáveis. Um coeficiente próximo de 1 indica
que as duas variáveis possuem uma forte relação linear positiva, ao passo que um coeficiente
próximo de -1 indica uma forte relação linear negativa. Um coeficiente nulo indica que não
há uma relação linear entre as duas variáveis. O coeficiente de correlação de Pearson pode ser
calculado como mostrado na Equação (2.13), onde x̄ e ȳ, correspondem às médias aritméticas
das variáveis x e y (SCHOBER; BOER; SCHWARTE, 2018):
Pn
i=1 (xi − x̄)(yi − ȳ)
ρ = pPn pPn . (2.13)
(x − x̄)2 (y − ȳ) 2
i=1 i i=1 i

2.4.2 Informação Mútua


A informação mútua, diferentemente da coeficiente de correlação de Pearson, é capaz
de quantificar relações de não linearidade entre variáveis. O cálculo da informação mútua entre
duas variáveis provê uma quantificação sobre o nível de independência entre elas, de forma que
um valor nulo indicaria uma independência entre os dois conjuntos. A informação mútua pode
ser calculada como na Equação (2.14), onde o cálculo é feito por meio da soma em intervalos
finitos; é uma simplificação do caso contínuo (KRASKOV; STÖGBAUER; GRASSBERGER,
2004):
 
XX p(x, y)
I(X; Y) = p(x, y)log . (2.14)
yY xX
p(x)p(y)

2.4.3 Dynamic Time Warping


O Dynamic Time Warping (DTW) é um algoritmo utilizado como forma de avaliar a
similaridade entre séries de uma forma flexível, considerando deslocamentos temporais. Enquanto
algumas medidas utilizam comparações ponto a ponto entre as séries, o DTW busca criar um
alinhamento entre todos os pontos das séries utilizando uma matriz de custo. O caminho ótimo
do alinhamento é o que minimiza o custo em toda a matriz (FERREIRA et al., 2021).
O primeiro passo para o cálculo do DTW é a definição da função de distância que será
utilizada para comparar cada par de pontos entre as séries avaliadas. As duas funções comumente
utilizadas são mostradas nas Equações (2.15) e (2.16):

δ(i, j) =| si − tj |, (2.15)

δ(i, j) = (si − tj )2 . (2.16)


27

Após a definição da função para o cálculo das distâncias locais, é necessária a criação de
uma matriz de custo com dimensões M x N, onde M é o número de elementos da série s e N é o
número de elementos da série t. A matriz de custo é então construída como segue:

γ(i, j) = δ(i, j) + min[γ(i − 1, j), γ(i, j − 1), γ(i − 1, j − 1)]. (2.17)

Nota-se que cada custo δ é somado a uma parcela que busca o menor vizinho da posição
(i, j). Ao final, com todos os elementos preenchidos, o caminho ótimo é definido a partir do
γ(M, N) — considerando que a posição (0,0) da matriz de custo tem início na extremidade
inferior esquerda —, buscando os menores vizinhos até a posição inicial γ(0, 0) (BERNDT;
CLIFFORD, 1994). Percebe-se que, para o DTW, as séries a serem comparadas podem ser
de tamanhos distintos. A Figura 6 exibe um exemplo do alinhamento gerado pelo DTW para
duas sequências de tamanhos distintos, mostrando que dois valores da sequência superior são
mapeados em um único ponto da sequência inferior.

4,0
3,5
3,0
2,5
2,0
1,5
1,0

4,0
3,5
3,0
2,5
2,0
1,5
1,0
0 1 2 3 4 5

Figura 6 – Exemplo de alinhamento entre duas séries, gerado pelo DTW. Fonte: Elaborada pelo
autor (2022).

Ao realizar a aplicação do DTW entre duas séries, pode ser necessário estabelecer uma
medida numérica que quantifique o grau de alinhamento entre elas. Uma das formas de se
realizar de se obter esse score, segundo Berndt e Clifford (1994), é calculando a razão entre o
valor cumulativo do caminho de alinhamento ótimo (warping path) e uma distância base. Outras
implementações do algoritmo DTW, como a encontrada na biblioteca dtaidistance2 , retorna um
score que é calculado como a raiz quadrada do primeiro elemento do warping path.

2.4.4 Sincronização de Eventos


A medida de Sincronização de Eventos, proposta por Quiroga, Kreuz e Grassberger
(2002), diferente das demais medidas, avalia a sincronicidade entre eventos ocorridos em duas
séries dentro de uma janela temporal de tamanho λ. Desta forma, buscando definir os eventos
2
https://dtaidistance.readthedocs.io/en/latest/index.html
28

que compõem um par de séries x e y, é necessário o uso de um limiar para filtrar se um dado
ponto é evento ou não, o que resulta em uma quantidade mx de eventos para a série x e my para y.
Após o tratamento dos eventos, são calculados os parâmetros cτ (x | y) e cτ (y | x), como segue:

my
mx X
X λ
λ
c (x | y) = Jij (2.18)
i=1 j=1

0 < tix − tjy ≤ λ



 1 se
λ
Jij = 1/2 se tix = tjy , (2.19)
0 caso contrário

sendo tix e tjy os instantes de ocorrência de eventos em cada uma das séries.
O parâmetro Qλ quantifica o nível de eventos síncronos contabilizados. Qλ = 1 indica
que a ocorrência de eventos nas duas séries está completamente sincronizada. Já o parâmetro qλ
fornece uma noção de precedência na ocorrência de eventos, sendo que qλ = 1 indica que os
eventos em x sempre precedem os eventos em y; a precedência contrária ocorre para qλ = −1.

cλ (x | y) + cλ (y | x)
Qλ = √ (2.20)
mx my

cλ (x | y) − cλ (y | x)
qλ = √ (2.21)
mx my

2.5 Construção de Redes Meteorológicas Funcionais

As redes funcionais são geradas a partir de um conjunto de dados organizados em malhas


(grid) que apresentam uma distribuição espaço-temporal. Cada ponto no grid corresponde a um
nó da rede funcional, e a conexão é realizada entre os nós que apresentam maior similaridade
(FERREIRA et al., 2021).

2.5.1 Limiarização global


A construção de redes funcionais regionais usando um critério de limiarização global
pode ser vista em trabalhos como os realizados por Ceron et al. (2020) e Jorge, Costa e Santos
(2020). Os dados, cuja distribuição no espaço é equidistante, podem ser interpretados como uma
matriz, contendo, em cada posição, a série temporal da variável analisada. O passo seguinte
consiste na avaliação da similaridade entre as séries, par a par, de forma a gerar uma matriz de
similaridade, Si,j , com o resultado da avaliação das similaridades. A geração da rede é dada pelo
mapeamento do conjunto de séries em um conjunto de nós. O estabelecimento dos links leva em
conta um critério de limiarização da matriz de similaridade, retornando a matriz de adjacência
(Aij ) da rede:
Aij = Θ(Sij − τ ), (2.22)
sendo Θ a função de Heaviside, definida como:

0 se t<a
u(t − a) = , (2.23)
1 senão
e τ o limiar aplicado aos valores de similaridade.
29

As conexões são realizadas entre nós cujo valor correspondente de similaridade é igual
ou superior ao limiar utilizado. A definição do τ precisa ser feita de modo a garantir que a rede
gerada terá conexões suficientes para análise de suas características, pois, como avaliado por
Ferreira et al. (2021) e Donges et al. (2009), um limiar muito restritivo resultará em uma rede
muito fragmentada e um limiar pouco restritivo permitirá que diversas conexões se formem.
Em ambas as situações, a análise da rede ficará prejudicada e pouco poderá ser dito sobre
o comportamento da variável ao longo da região de estudo. Os autores, então, apresentam
uma análise sobre a relação entre a densidade e métricas como o coeficiente de clusterização,
tamanho do caminho médio, número de componentes e tamanho do componente gigante. Essa
análise demonstrou que as métricas exibiam uma região de transição entre os estados críticos
mencionados à medida que a densidade era variada. Portanto, uma escolha de limiar guiada
por essa região de transição, garante uma rede que apresente características passíveis de serem
analisadas.

2.5.2 Espinha dorsal de uma rede


De forma alternativa ao processo de limiarização global, a extração da espinha dorsal
(backbone) de uma rede densa, busca uma filtragem que avalia o impacto que cada link possui
localmente, analisando qual a contribuição individual de todos os links da rede no grau e na força
dos nós aos quais eles se conectam. Assim, são preservados os links que mais contribuem para a
medida de strength em cada nó. Dada a relação
 ki −1
wij
pij = 1− , (2.24)
si

onde ki e si são o grau e a força do nó i, e wij é o peso do link (i, j), um link será preservado se
pij < α, onde α é o nível de significância. Valores muito baixos de α implicam em redes pouco
conectadas, uma vez que os links precisarão ter uma significância local cada vez maior para
serem preservados (MENCZER; FORTUNATO; DAVIS, 2020).
30

3 METODOLOGIA

Nesta seção são apresentadas informações a respeito dos dados utilizados na construção
das redes funcionais, cuja distribuição espacial se dá ao longo da Região Serrana do estado do
Rio de Janeiro. Em relação aos recursos computacionais necessários para o processamento desses
dados, são destacadas informações como a linguagem de programação e bibliotecas utilizadas.
Por último são destacadas as etapas relacionadas ao desenvolvimento.

3.1 Dados

Os dados utilizados são provenientes de um radar meteorológico instalado no Pico do


Couto (Lat.: S22◦ 270 5100 , Long.: W43◦ 170 5000 ), estado do Rio de Janeiro, a uma altitude de
1771,94m. Os valores de precipitação são obtidos a partir da relação entre a intensidade e o
tempo de retorno das ondas eletromagnéticas diretamente emitidas nas gotas de chuva e da sua
refletância (CERON et al., 2020).
As informações são apresentadas em arquivos contendo 1755 valores numéricos que
indicam a intensidade do evento de precipitação em mm/h e são distribuídas em 45 linhas e 39
colunas. Como a resolução espacial dos pontos é de 1km, cada arquivo é a representação de uma
janela temporal em uma região de 1755km2 , sendo 45km distribuídos de norte a sul e 39km de
leste a oeste. A resolução temporal é de 1h, compreendendo o intervalo de 10 dias entre 24 de
janeiro e 2 de fevereiro de 2012 (CERON et al., 2020).
A Figura 7 apresenta o recorte da região de estudo. A coordenada dos vértices da região
retangular, em graus decimais, é apresentada na Tabela 1.

Tabela 1 – Coordenadas da região de estudo. Elaborado pelo autor (2022).

Similaridade Latitude Longitude


Ponto inferior esquerdo -22,433056 -42,764444
Ponto superior esquerdo -22,0284753 -42,764444
Ponto superior direito -22,0284753 -42,386195
Ponto inferior direito -22,433056 -42,386195
31

Figura 7 – Área da região de estudo delimitada pelo retângulo verde. Fonte: Elaborada pelo autor
(2022).

3.2 Tecnicidades

Todas as etapas envolvendo programação foram realizadas utilizando a linguagem Python,


versão 3.7.3.
O gerenciamento dos grafos foi realizado com o auxílio da biblioteca igraph1 , que
fornece um conjunto de funcionalidades para a criação, leitura, análise e representação gráfica
de grafos. O coeficiente de correlação de Pearson foi calculado por meio da biblioteca SciPy2 ,
sendo necessária a passagem do par de dados a ser correlacionado. Os valores de informação
mútua foram obtidos através da biblioteca scikit-learn3 , que fornece uma opção de retorno
normalizado no intervalo [0, 1]. O DTW foi calculado pela biblioteca dtaidistance4 , que fornece
uma implementação do algoritmo baseada em linguagem C, conferindo melhor performance em
relação à linguagem Python.

3.3 Desenvolvimento

De posse dos dados, iniciou-se o processo de leitura dos arquivos para extração das séries
temporais. Elas são obtidas por meio da associação ordenada de cada ponto da matriz, de modo
que a série inicial, índice 0, é formada pelos pontos de coordenada (0,0) de cada um dos arquivos
(Figura 8). A indexação para tratamento das séries em termos sequenciais, ou seja, entre índices
1
https://igraph.org/
2
https://scipy.org/
3
https://scikit-learn.org/stable/
4
https://dtaidistance.readthedocs.io/en/latest/index.html
32

de 0 a 1754, pode ser descrita como na Equação a seguir:

44 X
X 38
i= (c + 39r), (3.1)
r=0 c=0

onde i é um conjunto de índices com 1755 posições, e c e r correspondem, respectivamente, às


iterações sobre as colunas e linhas da matriz de dados.

Precipitação
4.0
3.5
3.0
Intensidade [mm/h]

2.5
2.0
1.5
1.0
0.5
0.0
0 50 100 150 200 250
Tempo [h]

Figura 8 – Representação da série de índice 0. São 240 pontos oscilando entre eventos de
precipitação e períodos sem registro. Fonte: Elaborada pelo autor (2022).

Como visto na Figura 8, 19 das 240 observações da série são valores diferentes de 0. O
elevado número de valores nulos é uma tendência vista em todo o conjunto de séries. Para um
total de 421200 observações, 384865 são referentes a valores nulos, o que corresponde a 91, 37%
do total.
Após a extração de todas as séries, a próxima etapa consistiu na comparação das séries
usando cada um dos 4 algoritmos mencionados na Seção 2.4, de forma a gerar 4 matrizes
de similaridade, Sij , contendo os valores resultantes da comparação entre os pares de séries
temporais. Por serem algoritmos simétricos (comparar A e B é o mesmo que comparar B e A), o
número de comparações, evitando também a comparação entre séries de mesmo índice (iguais),
é dado por:

1755(1755 − 1)
= 1539135. (3.2)
2
O processo de comparação das séries para aplicação do DTW contou com uma etapa de
normalização dos valores de cada série dentro do intervalo [0,1], uma vez que o DTW busca
encontrar um caminho de alinhamento ótimo (menos custoso) que está relacionado apenas ao
deslocamento temporal das séries. Sem a normalização, a construção da matriz de custo, baseada
33

na diferença entre as observações das séries, terá uma distribuição tal que, ao final, o DTW
retornará um valor de custo elevado mesmo entre séries que possuem a mesma forma. Como
exemplo, temos a disposição de três séries na Figura 9: A, B e C. Embora compartilhem a
mesma forma, com crescimento e decrescimento da curva nos mesmos pontos, a medida de
custo de alinhamento retornada pelo DTW para as séries A e B foi igual a 25,73, ao passo
que o alinhamento entre as séries A e C foi de 8,94. Ao remover o efeito da escala, o custo de
alinhamento entre as séries A e B se torna 0, evidenciando a necessidade da normalização para
remover o efeito da escala no DTW quando é visado apenas o comportamento temporal.

Série A
17.5 Série B
Série C
15.0
12.5
Magnitude

10.0
7.5
5.0
2.5
0.0
0 1 2 3 4 5 6
Tempo
Figura 9 – Exemplo de como fatores relacionados à magnitude e alinhamento temporal de séries
interferem na aplicação do DTW. Fonte: Elaborada pelo autor (2022).

Em respeito ao algoritmo de sincronização de eventos, dois parâmetros são necessários


para a sua utilização. Um limiar que definirá quais observações das séries serão consideradas
eventos, e as janelas dentro das quais um par de evento será contabilizado como síncrono. De
forma a considerar a totalidade de observações, assim como os demais algoritmos, todos pontos
diferentes de zero foram considerados como eventos. Em relação à janela temporal, foi utilizada
uma definição local (τij ) que é adaptada de acordo com cada par de evento ocorrido. Essa janela
adaptável é definida, como mostrado por Quiroga, Kreuz e Grassberger (2002), por:
y
− tjy , tjy − tj−1
y
x
min ti+1 − tix , tix − ti−1
x
, tj+1
τij = . (3.3)
2
Assim, é definida a menor janela entre os vizinhos de cada par de eventos analisado.
Ao final das comparações foram construídos grafos completos não direcionados e ponde-
rados, um para cada algoritmo de avaliação de similaridade, gerando as redes CCP (coeficiente
de correlação de Pearson), IM (Informação Mútua), DTW (Dynamic Time Warping) e SE (Sin-
cronização de Eventos). O número de arestas presentes em um grafo completo com 1755 vértices
corresponde ao número de comparações mostrado na Equação (3.2); o peso de cada aresta (i, j)
é o valor da matriz de similaridade Sij entre as séries i e j.
A etapa que segue a geração das redes completas está relacionada ao processo de análise
dos limiares para geração das redes. Ceron et al. (2020) adotou um limiar de coeficiente de
34

correlação de Pearson de 0,9, levando à remoção dos links cujo peso estava abaixo desse limiar.
Percebe-se, por meio da Figura 10, que esse limiar corresponde a um valor de densidade de
aproximadamente 1%. Tomando a densidade como referência para as demais seções da Figura,
onde avalia-se o número de componentes, coeficiente de clusterização, componente gigante,
comprimento do caminho médio e parâmetro de heterogeneidade, empiricamente podemos notar
que as curvas apresentam tendência de estabilização após o ponto 10−2 . A partir desse ponto, de
fato, temos a formação de uma rede mais densa e sem alterações estruturais perceptíveis pelas
métricas analisadas; os pontos de densidade anteriores marcam um comportamento transiente
entre redes muito fragmentadas (vários componentes) e redes mais densas (poucos componentes).
A variação dos limiares globais τ e dos níveis de significância α, para extração do
backbone, se deu com incrementos de de 0,01 unidades. Em relação aos limiares, o limite inferior
foi de 0,55 e o limite superior foi de 0,99, com 45 passos. O limite inferior para os níveis de
significância foi de 0,01 e o superior foi de 0,45, com 45 passos.
Coeficiente de correlação de Pearson
10 Componente Gigante 1500
1
Densidade

10 2 1000
10 3 500

10 4 0
0.6 0.7 0.8 0.9 1.0 10 4 10 3 10 2 10 1
Limiar Densidade
Par. de heterogeneidade Comp. do caminho médio
N. de Componentes

1500
20
1000
500 10

0
10 4 10 3 10 2 10 1 10 4 10 3 10 2 10 1
Densidade Densidade
Coef. de clusterização

30
0.6
20
0.5
10
0.4 0
10 4 10 3 10 2 10 1 10 4 10 3 10 2 10 1
Densidade Densidade

Figura 10 – Impacto da variação do limiar global na geração das redes CCP. Fonte: Elaborada
pelo autor (2022).

Em comparação à rede CCP, as demais redes apresentam, em sua maioria, comportamen-


tos de métricas com tendência semelhante de estabilização após o marco de 1% de densidade da
rede, guiando a escolha dos limiares para essa faixa. No caso da rede IM, cujo comportamento
das métricas pode ser visto na Figura 11, o limiar utilizado foi de 0,717. Para as redes DTW
(Figura 12) e ES (Figura 13), os limiares foram, respectivamente, 0,8174 e 0,8977.
35

Informação Mútua

Componente Gigante
10 1 1500
Densidade

10 2 1000
500
10 3
0
0.5 0.6 0.7 0.8 0.9 10 3 10 2 10 1
Limiar Densidade

Par. de heterogeneidade Comp. do caminho médio


N. de Componentes

1000 15
10
500
5
0
10 3 10 2 10 1 10 3 10 2 10 1
Densidade Densidade
0.7
Coef. de clusterização

3.5
3.0
0.6
2.5
2.0
0.5
1.5
10 3 10 2 10 1 10 3 10 2 10 1
Densidade Densidade

Figura 11 – Impacto da variação do limiar global na geração de redes IM. Fonte: Elaborada pelo
autor (2022).

Dynamic Time Warping


100
Componente Gigante

1500
Densidade

10 2
1000

10 4 500
0
0.6 0.7 0.8 0.9 1.0 10 5 10 4 10 3 10 2 10 1 100
Limiar Densidade
Comp. do caminho médio
N. de Componentes

1500 6

1000 4
500
2
0
10 5 10 4 10 3 10 2 10 1 100 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Par. de heterogeneidade

1.0
Coef. de clusterização

150
0.8 100

0.6 50
0
10 5 10 4 10 3 10 2 10 1 100 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade

Figura 12 – Impacto da variação do limiar global na geração de redes DTW. Fonte: Elaborada
pelo autor (2022).

Após a definição dos limiares, foram geradas, por meio da função de Heaviside, as
matrizes de adjacência correspondentes a cada função de similaridade. Desta forma, a conexão
entre pares de série cuja similaridade se encontra abaixo do limiar é removida (Equação 2.22),
gerando as redes finais.
36

Sincronização de Eventos

Componente Gigante
10 1 1500
Densidade

10 3 1000
500
10 5
0
0.6 0.7 0.8 0.9 1.0 10 6 10 5 10 4 10 3 10 2 10 1 100
Limiar Densidade

Par. de heterogeneidade Comp. do caminho médio


N. de Componentes

1500
10
1000
500 5

0
10 6 10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
1.00
Coef. de clusterização

600
0.75
400
0.50
0.25 200
0.00 0
10 6 10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade

Figura 13 – Impacto da variação do limiar global na geração de redes SE. Fonte: Elaborada pelo
autor (2022).

De forma análoga ao processo de limiarização, as redes backbone passaram pelo processo


de análise da evolução das métricas, diferindo no ponto em que os limiares de similaridade
são agora níveis de significância α, relacionados à Equação (2.24). Os níveis responsáveis por
gerar redes compatíveis às da etapa anterior, em termos de densidade, foram: 0,1522 para a rede
backbone CCP (Figura 14); 0,1613 para a rede backbone IM (Figura 15); 0,2865 e 0,25 para as
redes backbone DTW (Figura 16) e SE (Figura 17), respectivamente.

Coeficiente de correlação de Pearson - Backbone


Componente Gigante

10 1 1500
Densidade

10 3 1000
500
10 5

0
0.0 0.1 0.2 0.3 0.4 10 6 10 5 10 4 10 3 10 2 10 1 100
Nível de Significância Densidade
Comp. do caminho médio
N. de Componentes

1500 8
1000 6
4
500
2
0
10 6 10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Par. de heterogeneidade

1.0
Coef. de clusterização

800
0.9
600
0.8
400
0.7 200
0.6 0
10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade

Figura 14 – Impacto da variação do nível de significância na geração de redes backbone CCP.


Fonte: Elaborada pelo autor (2022).
37

Informação Mútua - Backbone

Componente Gigante
10 1 1500
Densidade

10 3 1000
500
10 5
0
0.0 0.1 0.2 0.3 0.4 10 6 10 5 10 4 10 3 10 2 10 1 100
Nível de Significância Densidade

Par. de heterogeneidade Comp. do caminho médio


20
N. de Componentes

1500
15
1000
10
500
5
0
10 6 10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
0.8
Coef. de clusterização

400
0.6 300
0.4 200
0.2 100
0.0 0
10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade

Figura 15 – Impacto da variação do nível de significância na geração de redes backbone IM.


Fonte: Elaborada pelo autor (2022).

Dynamic Time Warping - Backbone


100
Componente Gigante

1500
Densidade

10 2
1000
500
10 4

0
0.0 0.1 0.2 0.3 0.4 10 5 10 4 10 3 10 2 10 1 100
Nível de Significância Densidade
Comp. do caminho médio

8
N. de Componentes

1500
6
1000
4
500
2
0
10 5 10 4 10 3 10 2 10 1 100 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Par. de heterogeneidade
Coef. de clusterização

0.8 200

0.6 100

0.4 0
10 5 10 4 10 3 10 2 10 1 100 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade

Figura 16 – Impacto da variação do nível de significância na geração de redes backbone DTW.


Fonte: Elaborada pelo autor (2022).
38

Sincronização de Eventos - Backbone

Componente Gigante
10 1 1500
Densidade

10 3 1000
500
10 5

0
0.0 0.1 0.2 0.3 0.4 10 6 10 5 10 4 10 3 10 2 10 1 100
Nível de Significância Densidade

Par. de heterogeneidade Comp. do caminho médio


N. de Componentes

1500 15
1000 10
500 5
0
10 6 10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Coef. de clusterização

0.8 800
0.6 600
0.4 400
0.2 200
0.0 0
10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade

Figura 17 – Impacto da variação do nível de significância na geração de redes backbone SE.


Fonte: Elaborada pelo autor (2022).

A análise das redes foi baseada na geração de métricas capazes de fornecer informações
sobre a organização estrutural de cada uma das redes. Além disso, foram avaliadas características
a respeito da organização de comunidades, cuja detecção foi realizada por meio do algoritmo
Walktrap. O algoritmo divisivo Girvan-Newman, apesar da facilidade em seu entendimento,
apresenta certas limitações relacionadas ao seu desempenho para redes que apresentam milhares
de nós e links. Considerando-se uma máquina com processador AMD Ryzen 3 de 3,5 GHz, e
8 mb RAM, a execução do Walktrap, para apenas uma rede (reforçando que todas possuem
densidade aproximada de 1%), foi feita em tempo aproximado de 1,4s. Para o Girvan-Newman, o
tempo foi de 11380s, o que evidencia a considerável diferença na eficiência dos dois algoritmos.
39

4 RESULTADOS

Em relação ao comportamento observado na distribuição geral das métricas na Seção


anterior (3.3), alguns padrões em comum puderam ser observados tanto para as redes usando
limiarização global, quanto para as redes backbone. É possível ver que, em todos os casos, o
número de componentes das redes se inicia em um patamar elevado. À medida que a densidade
aumenta, as redes sofrem uma transição entre um nível de fragmentação elevado (com vários sin-
gletons) e um patamar de estabilidade estrutural caracterizado pela presença de um componente
gigante principal, o que é esperado, segundo a teoria da percolação (BARABÁSI et al., 2016).
Quanto ao coeficiente de clusterização, vemos comportamentos diferentes se formando.
Como cada medida de avaliação da similaridade captura padrões diferentes entre as séries, os
pesos associados às arestas terão distribuições diferentes para cada rede. Associando isso ao fato
de que as duas metodologias usadas para geração das redes (limiarização global e backbone)
buscam a remoção de arestas de acordo com os seus respectivos pesos, é possível perceber que o
processo de densificação das redes por meio da variação dos limiares (e níveis de significância)
se dá de forma distinta, conectando diferentes nós de acordo com a medida de similaridade
utilizada e gerando diferentes tendências de evolução do coeficiente de clusterização.
O comportamento dos componentes gigantes vai de encontro ao padrão visto para o
número de componentes, pois é esperado um aumento no tamanho do componente gigante à
medida que o número de componentes diminui. Outro comportamento comum é observado na
evolução do comprimento do caminho médio. Inicialmente, para redes com um número elevado
de componentes, poucas conexões estão formadas e nós muito distantes ainda não podem ser
acessados, resultando em baixos valores de comprimento de caminho médio. O aumento na
densidade faz com que nós distantes, antes separados, possam ser conectados por meio de
um caminho contendo uma maior quantidade de arestas. Esse aumento nos componentes e
interligação de nós distantes acarreta na elevação no comprimento do caminho mínimo médio
até um limite máximo de limiar que pôde ser observado em todos os casos. A partir desse
limite, que ocorre na fase de transição entre redes fragmentadas e redes com poucos (e grandes)
componentes, temos o aparecimento de redes cada vez mais conectadas, o que oferece caminhos
mais curtos entre os nós e leva à diminuição observada no comprimento do caminho médio.
Com os limiares definidos e aplicados, as redes foram geradas e algumas métricas foram
extraídas com o intuito de avaliar as características das redes formadas para cada metodologia de
limiarização. Na Tabela 2 são apresentadas as métricas referentes às redes geradas por meio da
limiarização global, ao passo que a Tabela 3 exibe as métricas referentes às redes backbone.

Tabela 2 – Métricas das redes geradas pelo processo de limiarização global. Elaborado pelo autor
(2022).
Comp. do Parâmetro
Coef. de N. de Componente
Similaridade Densidade caminho de
clusterização componentes gigante
mínimo médio heterogeneidade
CCP 0,01 8,12 0,59 29 1675 1,49
IM 0,01 8,79 0,54 28 1660 1,96
DTW 0,01 4,49 0,48 475 1149 3,72
SE 0,01 7,84 0,58 121 1542 3,09
40

No caso das redes geradas por limiarização global, pode-se perceber uma semelhança
entre as redes CCP e IM. Ambas possuem um componente gigante maior que 1600 (1755 seria
o tamanho máximo), levando, de fato, a um número de componentes menor. Além disso, um
componente gigante de proporções mais elevadas leva a maiores valores de comprimento do
caminho mínimo médio, uma vez que a baixa fragmentação da rede gera conexões possíveis
entre nós distantes (espacialmente ou topologicamente). A rede SE se mostrou uma rede com
características intermediárias entre a CCP e IM e a rede DTW. Destaca-se para as redes SE e DTW
um elevado parâmetro de heterogeneidade, o que evidencia grandes variações na distribuição de
graus dos nós e aponta para a presença de hubs. Como essas duas medidas buscam relacionar
séries de acordo com a sincronicidade de seus eventos e de deslocamento temporal, a presença de
hubs aponta para a existência de séries cujo padrão de deslocamento temporal (no caso do DTW)
e sincronicidade dos eventos de precipitação (no caso do SE) é altamente compatível com várias
outras séries, sugerindo um comportamento de influência por parte desses hubs na ocorrência de
eventos nas áreas as quais eles estão ligados. A Figura 18 confirma o que havia sido capturado
pelo parâmetro de heterogeneidade. Podemos ver que os valores (grau de cada nó) da mediana
para as redes DTW e SE são inferiores às demais, mas se estendem a limites superiores muito
mais elevados, apontando para existência de nós que realizam mais de 100 conexões. As redes

160

140

120
Distribuição de graus

100

80

60

40

20

0
CCP IM DTW SE

Figura 18 – Distribuição de graus das redes geradas usando limiarização global. Fonte: Elaborada
pelo autor (2022).

backbone, cujas métricas estão apresentadas na Tabela 3, exibem uma organização estrutural
diferente das respectivas redes geradas usando limiarização global. Um resultado esperado, pois
cada link mantido nas redes backbone possui uma relevância predominantemente local. Desta
forma, mesmo que o peso de um link seja baixo, considerando o contexto geral da rede, ele ainda
pode ser relevante se possuir um peso elevado em relação ao contexto dos nós em que ele está
conectado. Conforme mostrado na Figura 19, a distribuição de graus para rede CCP se tornou
mais heterogênea em relação em relação à CCP com limiarização global. O mesmo aconteceu
com a rede DTW, que exibiu uma presença ainda maior de hubs, com 12 nós realizando mais
41

de 140 conexões. As redes IM e SE passaram por uma homogeneização em suas distribuições,


levando a uma diminuição no número de hubs com elevadas conexões. No caso da rede IM,
observou-se uma diminuição no número de componentes, o que levou a um componente gigante
que concentra 99, 09% dos nós da rede.

Tabela 3 – Métricas das redes backbone. Elaborado pelo autor (2022).


Comp. do Parâmetro
Coef. de N. de Componente
Similaridade Densidade caminho de
clusterização componentes gigante
mínimo médio heterogeneidade
CCP 0,01 7,00 0,65 477 1117 2,31
IM 0,01 11,89 0,56 11 1739 1,55
DTW 0,01 7,05 0,46 174 1495 4,29
SE 0,01 10,61 0,60 141 1477 2,04

140

120

100
Distribuição de graus

80

60

40

20

0
CCP IM DTW SE

Figura 19 – Distribuição de graus das redes geradas usando backbone. Fonte: Elaborada pelo
autor (2022).

A próxima análise se propõe a avaliar a organização das comunidades em cada uma


das redes, buscando relacionar as métricas calculadas à distribuição espacial dessas estruturas.
Estruturas de comunidade em redes como essas são importantes pois podem fornecer uma
ajuda no mapeamento da formação e ocorrência dos eventos de precipitação ao longo de uma
região. De fato, o trabalho publicado por Ceron et al. (2020) mostra que há uma relação entre as
comunidades encontradas na rede CCP e o uso de solo da região analisada, como, por exemplo,
áreas com vegetação, agricultura, área urbana, entre outros.
A representação das comunidades foi feita de forma a mapear cada estrutura em cores
diferentes. Desta forma, as cores não possuem um padrão específico e servem apenas como
um recurso visual para realizar a distinção entre as variadas comunidades identificadas pelo
42

Tabela 4 – Relação do número de comunidades e modularidade para cada uma das redes. Elabo-
rado pelo autor (2022).
Rede Número de comunidades Modularidade
CCP 80 0,81
IM 115 0,75
DTW 667 0,5
SE 279 0,63
CCP backbone 536 0,81
IM backbone 89 0,82
DTW backbone 506 0,47
SE backbone 213 0,8

algoritmo Walktrap. A Tabela 4 apresenta a contagem do número de estruturas de comunidades


encontradas, bem como o valor da modularidade para cada um dos casos. Com exceção da
rede DTW, todas as redes backbone apresentaram estruturas de comunidade cuja avaliação via
modularidade se mostrou elevada, pois, quanto mais próximo de 1, mais as partições encontradas
se distanciam de um caso aleatório onde não há comunidades aparentes. Desta forma, essas
redes podem ser vistas como detentoras de ligações preferenciais, indicando que as medidas de
similaridade utilizadas capturaram comportamentos relacionados, em algum nível, ao processo
de formação dos eventos de precipitação analisados.
Além da distinção por cores, os nós apresentam uma variação no tamanho que está
relacionada ao seus respectivos graus. Os limites de tamanho foram estabelecidos de forma a
permitir que mesmo os nós com pouca (ou nenhuma) conexão pudessem ser identificados e
distinguidos de acordo com sua coloração.
A Figura 20 demonstra como é a rede CCP por limiarização global. Como já dito, cada
comunidade é representada por uma cor diferente, resultando, neste caso, em 80 cores geradas
aleatoriamente para distinguir as respectivas comunidades. Podemos ver que a distribuição
das comunidades se espalha por toda a região de estudo e são, na maior parte das vezes, bem
limitadas, de forma a não possuir nós que estejam espacialmente/geograficamente distantes dos
limites da comunidade.
43

Figura 20 – Rede CCP gerada utilizando critério de limiarização global com distinção de comu-
nidades baseada em cores. Fonte: Elaborada pelo autor (2022).

No caso da rede IM, mostrada na Figura 21, pode-se evidenciar a formação de grandes
estruturas de comunidades bem definidas na parte inferior esquerda da região. Mesmo compar-
tilhando valores semelhantes de métricas com a rede CCP, como visto na Tabela 2, o fato da
informação mútua capturar as dependências não lineares entre variáveis, levou à emergência de
uma rede com distribuição espacial distinta, o que reforça o caráter não-linear de formação dos
eventos naquela área. Aponta-se, ainda, para a manutenção de estruturas de comunidades bem
demarcadas espacialmente.
44

Figura 21 – Rede IM gerada utilizando critério de limiarização global com distinção de comuni-
dades baseada em cores. Fonte: Elaborada pelo autor (2022).

Em relação à rede DTW, Figura 22, foi detectado o maior número de estruturas de
comunidades dentre todo o conjunto de redes geradas. Além disso, para a rede DTW por
limiarização global e DTW backbone, o valor de modularidade obtido foram os mais baixos,
sendo 0,5 e 0,47, respectivamente. Diferente do que foi observado nas duas redes anteriores,
é possível ver a ocorrência de comunidades que não estão bem demarcadas espacialmente.
Por meio da avaliação das cores associadas a cada nó, torna-se perceptível a presença de
comunidades cujos nós componentes estão distribuídos em diversos pontos do espaço. Voltando
à Tabela 2, tem-se que a rede DTW é detentora do menor comprimento de caminho médio,
menor coeficiente de clusterização e maior parâmetro de heterogeneidade. Tudo isso pode ser
avaliado pela organização da rede, uma vez que são notadas a presença de inúmeros hubs
que se conectam com diversos nós espacialmente distantes. Desta forma, o comprimento do
caminho médio entre pares de nós é encurtado; essa concentração de links gerada pelos hubs
também faz com que a contagem de cliques (subgrafos completos) seja diminuída, afetando no
coeficiente de clusterização. Esse resultado se assemelha ao que fora apresentado por Ferreira et
al. (2021), que identificou padrões de conexões de longo alcance e alta similaridade com DTW
em dados climáticos distribuídos em escala global. Apesar dos dados tratados aqui terem uma
distribuição local, a presença desse tipo de conexão pode indicar processos de difusão de eventos
de precipitação entre pontos ao longo da região analisada.
45

Figura 22 – Rede DTW gerada utilizando critério de limiarização global com distinção de
comunidades baseada em cores. Fonte: Elaborada pelo autor (2022).

A rede SE, Figura 23, demonstra a formação de duas grandes estruturas de comunidades
em regiões semelhantes às já apresentadas pela rede IM. Essa rede também é caracterizada pela
alta heterogeneidade dos graus, sendo que o maior hub, com 153 ligações, faz parte dessa rede.
46

Figura 23 – Rede SE gerada utilizando critério de limiarização global com distinção de comuni-
dades baseada em cores. Fonte: Elaborada pelo autor (2022).

Iniciando a discussão para as redes backbone, temos a backbone CCP, mostrada na Figura
24. Ao contrário da rede CCP por limiarização global, a rede backbone apresenta comunidades
com uma maior separação espacial, não ocupando a região da mesma forma que a anterior.
Diversas conexões de longo alcance levam à diminuição percebida no comprimento do caminho
mínimo médio. Muitas dessas conexões realizam uma união entre dois grupos de uma mesma co-
munidade, evidenciando uma divisão que não se mostrou muito comum na rede por limiarização
global.
47

Figura 24 – Rede backbone CCP com distinção de comunidades baseada em cores. Fonte: Ela-
borada pelo autor (2022).

A rede backbone IM apresentou o maior valor de modularidade e, como pode ser


percebido pela Figura 25, as comunidades não apresentaram divisões significativas em grupos
espaçados ao longo da região, como no caso da rede backbone CCP. Ao invés disso, pôde ser
percebido uma tendência de aparecimento de grandes comunidades nas regiões marginais da área
estudada. O comprimento do caminho médio sofre uma elevação, uma vez que a distribuição
de graus se tornou mais homogênea e o caminho entre dois nós distantes espacialmente precisa
passar pelo componente gigante que se estabeleceu nos arredores.
48

Figura 25 – Rede backbone IM com distinção de comunidades baseada em cores. Fonte: Elabo-
rada pelo autor (2022).

A rede backbone DTW (Figura 26) foi a que apresentou menor valor de modularidade,
mostrando que as partições se aproximam mais do caso aleatório onde não há presença das
ligações preferenciais responsáveis por gerar estruturas de comunidade. É possível notar, assim
como na rede por limiarização global, a presença de comunidades cujos componentes se dividem
ao longo de diversos pontos no espaço.
49

Figura 26 – Rede backbone DTW com distinção de comunidades baseada em cores. Fonte:
Elaborada pelo autor (2022).

A Figura 27 mostra a distribuição da rede backbone SE. Aqui, assim como na rede
backbone IM, há uma tendência evidente de distribuição de comunidades nas regiões margi-
nais da área de estudo. Sem uma análise mais aprofundada, porém, pouco pode ser falado a
respeito da existência de uma relação entre os padrões capturados pela informação mútua e pela
sincronização de eventos.
50

Figura 27 – Rede backbone SE com distinção de comunidades baseada em cores. Fonte: Elabo-
rada pelo autor (2022).
51

5 CONCLUSÃO

Em termos gerais, pôde ser observado como a variação na avaliação da similaridade e na


geração das redes impactam diretamente no resultado obtido. Como pontuado por Ferreira et
al. (2021), grande parte dos trabalhos realizados no campo das redes meteorológicas funcionais
utilizam o coeficiente de correlação de Pearson como medida para avaliação da similaridade
entre as séries temporais. Além disso, o processo de geração das redes é comumente baseado em
limiares globais. Fazendo o uso dos mesmos dados analisados por Ceron et al. (2020), porém
aplicando variadas medidas de similaridade e explorando a geração das espinhas dorsais das
redes, foi possível perceber que essas diferentes abordagens geram resultados muito distintos,
mas que apresentam conexões de longo alcance e alta similaridade que, associadas aos hubs, dão
indícios sobre o processo de difusão dos eventos de precipitação. A confirmação desses indícios,
porém, necessita de uma análise mais profunda e de cooperação multidisciplinar, o que figura
como um limitador para a realização de trabalhos em moldes semelhantes ao deste.
Em relação às redes, com exceção das redes DTW, notou-se a presença de estruturas de
comunidades muito bem demarcadas, levando à necessidade de exploração de características da
região de estudo para avaliar se são compatíveis com as comunidades formadas em alguma das
redes.
Avaliando o processo de realização do trabalho e seus resultados, é possível concluir que
os objetivos propostos foram alcançados. Espera-se que este trabalho sirva como referência para
muitos outros no ramo das redes complexas e na análise de conjuntos de séries temporais em
geral, uma vez que as medidas de similaridade exploradas aqui possuem aplicações diversas. O
DTW, como mencionado por Müller (2007), é um algoritmo já usado para comparação de padrões
de fala em sistemas de reconhecimento de voz, e a sincronização de eventos proposta por Quiroga,
Kreuz e Grassberger (2002) também pode ser usada para análise de eletroencefalografias em
pacientes epilépticos.

5.1 Trabalhos futuros

Como já mencionado, etapas futuras podem buscar comparar as comunidades obtidas


com as características da região, como uso de solo e elevação do terreno, algo que, como
mencionado por Ceron et al. (2020), possui grande relevância para o entendimento do regime
de chuva na região e a possível delimitação de áreas de risco. Esse mapeamento pode ser
feito pela atribuição de um identificador para cada nó de acordo com a característica do local
que ele representa, sendo possível verificar se as comunidades formadas possuem participação
preferencial de nós que compartilham a mesma identificação.
Em relação ao processo de avaliação de similaridade, ainda pode ser explorada a ca-
racterística de direcionalidade da propagação de eventos. Além de possibilitar a verificação da
sincronicidade dos eventos, seria possível mapear as séries que os originaram.
52

REFERÊNCIAS

AHRENS, C. D. Meteorology Today: An Introduction to Weather, Climate, and the Environment.


[S.l.]: Brooks/Cole, 2008. Citado na página 14.

AMARAL, L. A.; OTTINO, J. M. Complex networks. The European Physical Journal B, 2004.
Springer, v. 38, n. 2, p. 147–162, 2004. Citado na página 17.

BARABÁSI, A.-L. et al. Network science. [S.l.]: Cambridge university press, 2016. Citado 9
vezes nas páginas 14, 17, 18, 20, 21, 22, 23, 24 e 39.

BERNDT, D. J.; CLIFFORD, J. Using dynamic time warping to find patterns in time series. In:
SEATTLE, WA, USA:. KDD workshop. [S.l.], 1994. v. 10, n. 16, p. 359–370. Citado na página
27.

BOCCARA, N. Modeling complex systems. [S.l.]: Springer Science & Business Media, 2010.
Citado 2 vezes nas páginas 14 e 16.

BOERS, N. et al. Complex networks reveal global pattern of extreme-rainfall teleconnections.


Nature, 2019. Nature Publishing Group, v. 566, n. 7744, p. 373–377, 2019. Citado 2 vezes nas
páginas 14 e 15.

BROCKWELL, P. J.; DAVIS, R. A. Introduction to time series and forecasting. [S.l.]: springer,
2016. Citado 2 vezes nas páginas 14 e 16.

CERON, W. et al. Community detection in very high-resolution meteorological networks. IEEE


Geoscience and Remote Sensing Letters, 2020. v. 17, n. 11, p. 2007–2010, 2020. Citado 7 vezes
nas páginas 14, 15, 28, 30, 33, 41 e 51.

CHATFIELD, C. Time-series forecasting. [S.l.]: CRC press, 2000. Citado na página 16.

CRYER, J. D.; CHAN, K.-S. Time series analysis. [S.l.]: Springer, 2008. Citado 2 vezes nas
páginas 14 e 16.

DONGES, J. F. et al. Complex networks in climate dynamics. The European Physical Journal
Special Topics, 2009. Springer, v. 174, n. 1, p. 157–179, 2009. Citado 3 vezes nas páginas 14,
15 e 29.

ERDŐS, P.; RÉNYI, A. et al. On the evolution of random graphs. Publ. Math. Inst. Hung. Acad.
Sci, 1959. v. 5, n. 1, p. 17–60, 1959. Citado na página 17.

ESLING, P.; AGON, C. Time-series data mining. ACM Computing Surveys (CSUR), 2012. ACM
New York, NY, USA, v. 45, n. 1, p. 1–34, 2012. Citado na página 26.

FERREIRA, L. N. et al. The effect of time series distance functions on functional climate
networks. The European Physical Journal Special Topics, 2021. Springer, v. 230, n. 14, p.
2973–2998, 2021. Citado 7 vezes nas páginas 14, 15, 26, 28, 29, 44 e 51.

FORTUNATO, S. Community detection in graphs. Physics reports, 2010. Elsevier, v. 486, n. 3-5,
p. 75–174, 2010. Citado na página 24.
53

FREEMAN, L. C. A set of measures of centrality based on betweenness. Sociometry, 1977.


JSTOR, p. 35–41, 1977. Citado na página 21.

FREITAS, V. L. Controlling collective behaviors and autonomous mobile agents. Tese


(Doutorado) — Instituto Nacional de Pesquisas Espaciais (INPE), São José dos Campos, 2019.
Citado na página 16.

GIRVAN, M.; NEWMAN, M. E. Community structure in social and biological networks.


Proceedings of the national academy of sciences, 2002. National Acad Sciences, v. 99, n. 12, p.
7821–7826, 2002. Citado na página 24.

GRANOVETTER, M. S. The strength of weak ties. American journal of sociology, 1973.


University of Chicago Press, v. 78, n. 6, p. 1360–1380, 1973. Citado na página 17.

JORGE, A. A.; COSTA, I. C.; SANTOS, L. B. Geographical complex networks applied to


describe meteorological data. 2020. GEOINFO, v. 21, p. 258–263, 2020. Citado 2 vezes nas
páginas 14 e 28.

KRASKOV, A.; STÖGBAUER, H.; GRASSBERGER, P. Estimating mutual information.


Physical review E, 2004. APS, v. 69, n. 6, p. 066138, 2004. Citado na página 26.

LANDAU, H. Sampling, data transmission, and the nyquist rate. Proceedings of the IEEE, 1967.
v. 55, n. 10, p. 1701–1706, 1967. Citado na página 16.

LU, L. et al. Time series analysis of dengue fever and weather in guangzhou, china. BMC Public
Health, 2009. Springer, v. 9, n. 1, p. 1–5, 2009. Citado na página 14.

MCILVEEN, R. Fundamentals of weather and climate. [S.l.]: Psychology Press, 1991. Citado
na página 16.

MENCZER, F.; FORTUNATO, S.; DAVIS, C. A. A first course in network science. [S.l.]:
Cambridge University Press, 2020. Citado 7 vezes nas páginas 7, 19, 21, 22, 23, 24 e 29.

MÜLLER, M. Information retrieval for music and motion. [S.l.]: Springer, 2007. Citado na
página 51.

OGATA, K. Systems Dynamics. [S.l.]: Pearson Prentice Hall, 2003. Citado 2 vezes nas páginas
16 e 17.

PONS, P.; LATAPY, M. Computing communities in large networks using random walks. In:
SPRINGER. International symposium on computer and information sciences. [S.l.], 2005. p.
284–293. Citado na página 25.

QUIROGA, R. Q.; KREUZ, T.; GRASSBERGER, P. Event synchronization: a simple and fast
method to measure synchronicity and time delay patterns. Physical review E, 2002. APS, v. 66,
n. 4, p. 041904, 2002. Citado 3 vezes nas páginas 27, 33 e 51.

RHEINWALT, A. et al. Non-linear time series analysis of precipitation events using regional
climate networks for germany. Climate dynamics, 2016. Springer, v. 46, n. 3, p. 1065–1074,
2016. Citado na página 15.

SAEZ, M. et al. Relationship between weather temperature and mortality: a time series analysis
approach in barcelona. International journal of epidemiology, 1995. Oxford University Press,
v. 24, n. 3, p. 576–582, 1995. Citado na página 14.
54

SCHOBER, P.; BOER, C.; SCHWARTE, L. A. Correlation coefficients: appropriate use and
interpretation. Anesthesia & Analgesia, 2018. Wolters Kluwer, v. 126, n. 5, p. 1763–1768, 2018.
Citado na página 26.

SILVA, V. A. F. da. Time series analysis based on complex networks. Dissertação (Mestrado) —
University of Porto, 2018. Citado na página 17.

ZOU, Y. et al. Complex network approaches to nonlinear time series analysis. Physics Reports,
2019. Elsevier, v. 787, p. 1–97, 2019. Citado na página 19.

Você também pode gostar