Escolar Documentos
Profissional Documentos
Cultura Documentos
Titulo aqui
Highlights
Titulo aqui
• Research highlight 1
• Research highlight 2
Titulo aqui
a
,,,,,
Abstract
Texto aqui do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto
aqui do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui
do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui do
resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui do resumo.
Texto aqui do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto
aqui do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui
do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui do
resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui do resumo.
Texto aqui do resumo. Texto aqui do resumo. Texto aqui do resumo.
Keywords:
1. Introdução
A água é um fator crı́tico para o desenvolvimento e manutenção da so-
ciedade e a utilização múltipla do recurso está atrelada à sua disponibilidade
qualitativa e quantitativa. Neste contexto, grandes reservatórios têm papel
fundamental, caracterizados pela retenção substancial de grandes volumes
de água, nutrientes e sedimentos. Estes detêm capacidade de transformação
de habitats e são importantes provedores de serviços ecossistêmicos. Nor-
malmente, a água armazenada nos reservatórios tem usos múltiplos, sendo
os mais comuns: abastecimento público, geração de energia, irrigação e con-
trole de inundação [1].
O nı́vel da qualidade da água armazenada determina o estágio de con-
servação dos reservatórios, bem como delimita a utilização do recurso pela
sociedade e ecossistemas, e pode ser estimado por meio do monitoramento de
variáveis-chave, sendo as principais: clorofila-a, matéria orgânica dissolvida,
profundidade do disco de Secchi, turbidez, sólidos suspensos totais, temper-
atura, fósforo total, oxigênio dissolvido, demandas quı́mica e bioquı́mica de
oxigênio [2].
Preprint submitted to Remote Sensing Applications: Society and Environment.August 28, 2022
Em [3], os autores definem a turbidez como uma medida da clareza rel-
ativa de um lı́quido. É uma caracterı́stica óptica da água e é mensurada
como a quantidade de luz que é espalhada pelo material quando uma luz
é irradiada através da amostra de água. Quanto maior a intensidade da
luz espalhada, maior a turbidez. O valor da turbidez implica diretamente
na classificação da qualidade da água, sendo de extrema importância nesse
processo de classificação.
O monitoramento da qualidade da água em grandes reservatórios requer
medições para um elevado número de parâmetros fı́sico-quı́micos e biológicos,
que são frequentemente mensurados por equipamentos especializados. Esse
processo de medição apresenta altos custos operacionais (coleta/análise), e
elevado tempo de processamento de dados, frente à escassez de recursos hu-
manos/financeiros [4].
Neste contexto, o uso de técnicas de Machine Learning (ML) aplicadas
em imagens de sensoriamento remoto provê elementos capazes de avaliar e
classificar a qualidade da água com bons nı́veis de precisão, permitindo di-
agnósticos objetivos e confiáveis, possibilitando o monitoramento dos parâmetros
de forma custo-efetiva e favorecendo processos de tomada de decisão, tendo
em perspectiva o uso sustentável dos recursos hı́dricos.
A aplicação de técnicas de ML no processo de estimativa de variáveis de
qualidade da água exploradas nesta pesquisa têm como objeto de análise o
Reservatório de Três Marias, localizado na região central do Estado de Mi-
nas Gerais, pertencente à bacia do Rio São Francisco. O reservatório tem
múltiplas finalidades, sendo a principal a acumulação de volume para geração
de energia. No âmbito de integração entre tecnologia e recursos hı́dricos, esta
pesquisa tem como foco o desenvolvimento de uma abordagem computacional
de auxı́lio à gestão de recursos hı́dricos especializado na classificação da qual-
idade da água por meio da variável turbidez, empregando técnicas de ML.
O principal problema enfrentado em abordagens de ML para o problema
de classificação da qualidade água é o desbalanceamento de dados, em espe-
cial para a represa de Três Marias, uma vez que são raros os casos de coletas
realizadas para um valor de turbidez alto. Por isso, técnicas clássicas de
classificação e regressão de ML não tiveram bons resultados.
Dentre as técnicas existentes no campo da inteligência computacional
para lidar com este tipo de problema, os métodos de detecção de anomalias
têm ganhado destaque, vide [5]. No contexto de ML, especialmente em min-
eração de dados, uma anomalia, ou outlier, refere-se a uma amostra que é
consideravelmente diferente do restante dos dados. Detecção de anomalias é
2
definida, em termos básicos, como a tarefa de identificar ocorrências raras em
um conjunto de dados, seja por uma ou mais alterações dentro de um padrão
de dados, um valor atı́pico ou um evento que esteja fora de uma tendência
padrão.
Na literatura já existem pesquisas que empregaram métodos de detecção
de anomalias para prever a ocorrência de anomalias na avaliação da qualidade
da água [6, 7, 8]. Todavia, estes trabalhos se diferem da presente pesquisa
tanto em relação à base de dados utilizada bem como o pré-processamento
realizado, na localização onde a solução deve ser utilizada, e também no
objetivo proposto.
Dessa forma, o objetivo deste artigo é investigar se técnicas de ML po-
dem contribuir na classificação da qualidade da água através de imagens de
sensoriamento remoto, quando analisado o ı́ndice de turbidez para o Reser-
vatório de Três Marias. Dois métodos de ML de detecção de anomalias foram
utilizados e os resultados se mostraram satisfatórios.
Como contribuições dessa pesquisa, destacam-se:
2. Trabalhos Relacionados
A integração de algoritmos de Inteligência Artificial (IA) ao processa-
mento de dados de satélites tem aliado a computação de alto desempenho
à criação de novas perspectivas de análise, quantificação e compreensão dos
ecossistemas aquáticos [9]. Os algoritmos de IA potencializaram a capacidade
3
de estimar os parâmetros de qualidade da água, reduzindo tempo de análise
e apresentando resultados muito precisos, minimizando esforços humanos,
racionalizando recursos técnicos e econômicos [10].
No âmbito das ciências ambientais, durante muito tempo, boa parte
dos problemas atrelados à análise e estudos ambientais estava relacionada
à disponibilidade e qualidade de dados. O advento de novas tecnologias,
maior conectividade e IOT (Internet of Things), propiciaram a geração de
um grande volume de dados/informações (Big Data), transferindo parte do
problema para a capacidade de análise dos dados. Cabe ainda ressaltar que
dados hidrológicos e ambientais apresentam algumas caracterı́sticas que os
diferenciam dos demais: outliers (valores atı́picos), dados faltantes, erros de
análise, distribuições anormais, dentre outras [11].
Neste contexto, ML é uma ferramenta poderosa, provendo análises mais
precisas e prognósticos mais assertivos, dentre algumas aplicações com o foco
exclusivo na análise de recursos hı́dricos podemos destacar: [12] utilizou RNA
em imagens de sensoriamento remoto do Landsat-7 para melhorar, avaliar
e monitorar a qualidade da água de um reservatório na cidade de Taipei,
Taiwan; [13] aplicaram uma CNN para determinar os nı́veis de qualidade da
água dos lagos Erhai e Chaohu (China) a partir de imagens do Landsat-8;
[14] utilizaram imagens do satélite Sentinel-2 e RNA para mensurar florações
algais (clorofila-a) no reservatório Cefni (Anglesey, Inglaterra); [15] aplicaram
três modelos de redes neurais (CNN, LSTM e CNN-LSTM) para estimar o
nı́vel de oxigênio dissolvido e de concentração de clorofila-a em pequenos
lagos na região de Prespa, Grécia.
[16] identificaram 129 estudos publicados entre 2018 e 2020 relacionados
à aplicação de Deep Learning na avaliação, monitoramento e mensuração de
parâmetros de recursos hı́dricos em diferentes escopos: enchentes, superfı́cie
da água, água subterrânea, qualidade da água, gestão, dentre outros. [17]
realizaram um levantamento referente ao uso de imagens de sensoriamento
remoto em algoritmos (empı́ricos, semi-analı́ticos e ML) com foco exclusivo
em recursos hı́dricos, especificamente águas interiores (água doce). Foram
identificados 416 estudos, contemplando o perı́odo entre os anos 1974 e 2018,
nos quais o sensoriamento remoto propiciou diagnósticos e análises de corpos
d’água em suas mais amplas variações (reservatórios, rios, lagos, estuários,
etc.).
Embora a área de recursos hı́dricos tenha avançado no uso de técnicas de
ML, [18] destaca que algoritmos de Deep Learning têm registrado aplicações
na hidrologia com certo atraso quando comparado às demais ciências am-
4
bientais. Esta lacuna quanto às outras frentes de estudo têm acelerado a
produção técnica e cientı́fica sobre o tema, um levantamento realizado por
[19] no site Web of Science identificou que o número de artigos publicados
em 2019 com foco de abordagem Deep Learning e recursos hı́dricos aumen-
tou seis vezes em comparação a 2016, tendência que deve ser mantida nos
próximos anos.
Na literatura grande parte dos trabalhos encontrados que empregam métodos
de ML para a avaliação da qualidade da água se concentram nas tarefas de
classificação e regressão. Em especial para o caso de detecção de anomalias,
no artigo [6] os autores usaram imagens do Landsat-8 e do Sentinel-2 para
coletar um dataset contı́nuo e com duração de 40 meses, na região central
oeste dos Estados Unidos, onde estão localizados o Lago Decatur e o Lago
Carlyle. A ideia dos autores foi estimar algumas variáveis com um mod-
elo Multi Layer Perceptron (MLP) treinado para regressão, apoiado por um
modelo Empirical Data Analytics (EDA) para identificar pontos de dados
anormais.
No trabalho [7] os dados utilizados foram coletados no Rio Potomac da
Virgı́nia Ocidental, localizado nos Estados Unidos. A quantidade de amostras
totalizam 5089, sendo o perı́odo de 27 de janeiro de 2017 a 21 de março de
2017, para um intervalo de 15 minutos. A proposta foi usar o método de
ML Bayesian autoregressive (BAR) para prever a variação na qualidade da
água e o algoritmo Isolation Forest (IF) para detecção de anomalias. Para
avaliação dos métodos, foram empregadas as métricas de acurácia, precisão,
recall e F1-score. Os resultados demonstram que o estudo desenvolvido não
apenas pode melhorar a precisão da detecção de anomalias na qualidade da
água, mas também fornecer alertas precoces para operações de emergência.
Na pesquisa [8] os autores também utilizaram dados coletados por sen-
sores que compõe o conjunto de dados GECCO 2019, que foi disponibilizado
publicamente. O dataset contém 8 indicadores (horário da medição, temper-
atura da água, pH, condutividade elétrica, turbidez, coeficiente de absorção
espectral, modulação de frequência de pulso e classe) que foram coletados de
1 de julho de 2017 a 30 de setembro de 2017. Ao todo são 132480 registros,
sendo 132268 normais e 212 anomalias. Foi proposto uma abordagem usando
Convolutional Neural Network (CNN) e Extreme Learning Machine (ELM)
para detectar a presença de anomalias nos dados. Além disso, a técnicas
SMOTE foi aplicada para uma melhor convergência do modelo. Assim como
em [7], foram empregadas as métricas de acurácia, precisão, recall e F1-score
para avaliação do modelo. Os resultados obtidos mostraram que o modelo
5
melhorou a avaliação da qualidade da água no dataset público em relação a
trabalhos que usaram o mesmo conjunto, detectando as anomalias de forma
eficiente.
Os trabalhos encontrados na literatura que usam abordagens de detecção
de anomalias para a avaliação da qualidade da água investigam metodologias
diferentes da empregada nessa pesquisa. As pesquisas que usam dados de
sensores em campo, possuem como entrada os valores das variáveis (turbidez,
clorofila, pH, etc.) e, caso haja uma variação nesses dados, a anomalia é
detectada. No caso do trabalho aqui proposto, a entrada para o modelo de
ML são as bandas do satélite, logo após o pré-processamento da imagem
coletada ter sido realizado.
Os artigos que usam detecção de anomalias com imagens de satélites
tentaram explorar pontos especı́ficos na área monitorada, fazendo coletas
em campo para um mesmo ponto por um determinado perı́odo, coletando
informação temporal. Na pesquisa aqui proposta, vários são os pontos de
coleta das amostras para análise quı́mica, correlacionando com as imagens
obtidas pelo satélite. Dessa forma, o potencial para um modelo genérico para
uma área maior se torna possı́vel, apesar do aumento da dificuldade de gen-
eralização do algoritmo. Além disso, muitas das pesquisas encontradas usam
a informação temporal da coleta como entrada do algoritmo para realizar o
monitoramento, fazendo com que o modelo seja dependente desse dado, o
que não é o caso aqui do trabalho proposto.
Os tópicos apresentados anteriormente ratificam as potencialidades do uso
integrado de ML e do sensoriamento remoto no escopo de recursos hı́dricos,
especialmente na delimitação de estimativa de variáveis da qualidade da água
de reservatórios, objeto de interesse desta pesquisa.
Apesar das dificuldades aumentadas na tentativa de encontrar um modelo
que consiga generalizar para uma quantidade de pontos de forma que ele
consiga obter um bom desempenho em qualquer área da represa, de não
abordar o problema como uma tarefa de regressão assim como em grande
parte dos trabalhos relacionados e de não usar datasets públicos, o foco da
pesquisa foi contribuir investigando e desenvolvendo uma abordagem que não
pôde ser encontrada anteriormente na literatura. Dessa forma, pôde-se trazer
contribuições importantes para a área de recursos hı́dricos.
6
3. Material e Métodos
3.1. Área de Estudo e Aquisição de Dados Limnológicos
O Reservatório de Três Marias é um dos dez maiores do Brasil e tem como
modo de uso principal a geração de energia elétrica, apresentando capacidade
instalada de 396 MW, área aproximada de 1.055 km2 e volume de acumulação
de 20 Hm3 (CEMIG, 2021). Localizado na Bacia Hidrográfica do Rio São
Francisco, região central do Estado de Minas Gerais, região caracterizada por
apresentar duas estações bem definidas, inverno seco e verão úmido.
As amostragens do parâmetro de qualidade da água turbidez utilizadas
neste estudo foram mensuradas por sensor especializado (turbidı́metro) em
campanhas in situ realizadas entre 2019 e 2022, em perı́odos de cheia e seca.
A turbidez é amostrada em diferentes profundidades ao longo reservatório,
contudo, em testes realizados observou-se maior aplicabilidade/acurácia dos
modelos a partir do processamento de dados mensurados a uma profundidade
de até 1,2 m, deste modo, 987 pontos de amostragem foram selecionados, a
distribuição geográfica dos mesmo é apresentada Figura 1.
7
Figure 1: Reservatório de Três Marias com a localização dos pontos de amostragem..
´
N ormalizedDif f erenceW aterIndex; IndicedeDetec çãodeN eve, N BSI−N on−
BinarySnowIndexf orM ulti − ComponentSurf aces.
Normalmente utiliza-se como elemento para restrição da presença de nu-
vens/ruı́dos em imagens de sensoriamento remoto uma propriedade rela-
cionada ao percentual de nuvens contida nos metadados da imagem de in-
teresse, sendo o valor inferior a 20% uma prática razoável. Neste trabalho
esta propriedade não foi utilizada, uma vez que para o conjunto de dados ex-
plorado a combinação de filtros/ı́ndices citadas possibilitou capturar maior
quantidade de dados e com menores nı́veis de interferências/ruı́dos.
3.3. Pré-processamento
ANDERSON - FALAR DE TUDO , INCLUSIVE DO USO DA TABELA
LÁ PRA MEDIR O LIMIAR DA CLASSE 0 E 1FALAR DO SATELITE
daqui pra baixo, parte do bruno... sobre o pre processamento do python
8
Para o desenvolvimento do estudo foi utilizada a linguagem de programação
Python 3.6, no ambiente de desenvolvimento Google Colaboratory [20].
O ambiente de desenvolvimento foi preparado para uso da Scikit-learn,
que é uma biblioteca de aprendizado de máquina de código livre para a
linguagem de programação Python. O pacote possibilita o uso de algoritmos
de classificação, regressão e agrupamento, incluindo o SVM One Class e as
Florestas Isoladas, empregados nessa pesquisa. Além disso, a biblioteca foi
projetada para interoperar com outros pacotes numéricos e cientı́ficos da
linguagem de programação Python, tais como o NumPy e o SciPy [21].
A quantidade de amostras do dataset soma XXXXX, sendo XXXXX como
da classe 0 e XXXXX para a classe 1. É considerada uma amostra da classe
0 aquela que pertence a uma distribuição normal, possuindo um valor de
turbidez abaixo de XXXXX. Já uma amostra da classe 1, considerada como
anomalia, é aquela que possui um valor de turbidez acima de XXXXX.
Com o dataset organizado e pré-processado, foi feita a divisão dos dados
em treino e teste. A quantidade para cada um dos conjuntos de treino e teste
pode ser observada na Tabela 1.
9
sensoriamento remoto. São eles: SVM One Class [22] e Florestas Isoladas
[23], ambos implementados no pacote Scikit-learn [21].
Sabe-se que um algoritmo de aprendizado de máquina tem vários parâmetros
que não são ajustados pelo conjunto de treinamento. Esses parâmetros con-
trolam a precisão do modelo. Por isto, os hiperparâmetros são particular-
mente importantes na construção de um modelo de aprendizado. Eles são
configurados antecipadamente e utilizados pelo método de aprendizado antes
que o modelo seja treinado.
Desta forma, existem algumas abordagens de otimização de hiperparâmetros,
sendo que uma delas é a pesquisa em grade, que é uma técnica de ajuste que
tenta calcular os valores ótimos dos hiperparâmetros. A técnica usa a busca
exaustiva que é realizada nos valores dos parâmetros especı́ficos de um mod-
elo de aprendizado. O resultado do uso dessa abordagem é o melhor conjunto
de hiperparâmetros possı́veis para o modelo.
A Tabela 2 apresenta os valores de hiperparâmetros testados na con-
strução do modelo SVM One Class, usando a técnica de pesquisa em grade.
Table 2: Hiperparâmetros avaliados na pesquisa em grade para o método SVM One Class.
10
Table 3: Hiperparâmetros avaliados na pesquisa em grade para o método de Florestas
Isoladas.
11
entre o SVM One Class e Florestas Isoladas, especificamente para o problema
de classificação da qualidade da água por meio de imagens de sensoriamento
remoto.
4. Resultados e Discussão
5. Considerações Finais
References
[1] D. Gernaat, P. Bogaart, D. Vuuren, van, biemans, h. & niessink,
r.(2017), High-resolution assessment of global technical and economic
hydropower potential. Natural Energy 2 (2017) 821–828.
12
[8] S. Jansi Rani, A. Ramakrishnan, K. Rishivardhan, Improving water
quality assessment through anomaly detection using hybrid convolu-
tional neural network approach, GLOBAL NEST JOURNAL 24 (1)
(2022) 1–8.
[9] F. Ahmed, K. Kilic, Fuzzy analytic hierarchy process: A performance
analysis of various algorithms, Fuzzy Sets and Systems 362 (2019) 110–
128.
[10] N. Wagle, T. D. Acharya, D. H. Lee, Comprehensive review on appli-
cation of machine learning algorithms for water quality parameter esti-
mation using remote sensing data, Sensors and Materials 32 (11) (2020)
3879–3892.
[11] L. K. d. Oliveira, W. Pignati, M. G. Pignatti, L. Beserra, L. H. d. C.
Leão, Processo sócio-sanitário-ambiental da poluição por agrotóxicos na
bacia dos rios juruena, tapajós e amazonas em mato grosso, brasil, Saúde
e Sociedade 27 (2018) 573–587.
[12] L. T. Wang, T. E. McKenna, T. L. DeLiberty, Locating ground-water
discharge areas in rehoboth and indian river bays and indian river,
delaware using landsat 7 imagery, Tech. rep., Newark, DE: Delaware
Geological Survey, University of Delaware (2008).
[13] F. Pu, C. Ding, Z. Chao, Y. Yu, X. Xu, Water-quality classification
of inland lakes using landsat8 images by convolutional neural networks,
Remote Sensing 11 (14) (2019) 1674.
[14] H. N. Silva, M. Panella, Eutrophication analysis of water reservoirs by
remote sensing and neural networks, in: 2018 Progress in Electromag-
netics Research Symposium (PIERS-Toyama), IEEE, 2018, pp. 458–463.
[15] R. Barzegar, M. T. Aalami, J. Adamowski, Short-term water qual-
ity variable prediction using a hybrid cnn–lstm deep learning model,
Stochastic Environmental Research and Risk Assessment 34 (2) (2020)
415–433.
[16] M. Sit, B. Z. Demiray, Z. Xiang, G. J. Ewing, Y. Sermet, I. Demir,
A comprehensive review of deep learning applications in hydrology and
water resources, Water Science and Technology 82 (12) (2020) 2635–
2670.
13
[17] S. N. Topp, T. M. Pavelsky, D. Jensen, M. Simard, M. R. Ross, Research
trends in the use of remote sensing for inland water quality science:
Moving towards multidisciplinary applications, Water 12 (1) (2020) 169.
[18] C. Shen, A transdisciplinary review of deep learning research and its rel-
evance for water resources scientists, Water Resources Research 54 (11)
(2018) 8558–8593.
14