Classificação da qualidade da água em reservatórios por detecção de anomalias em imagens de satélite

Graphical Abstract
Titulo aqui
Highlights
Titulo aqui
• Research highlight 1
• Research highlight 2
Titulo aqui
a
,,,,,
Abstract
Texto aqui do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto
aqui do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui
do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui do
resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui do resumo.
Texto aqui do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto
aqui do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui
do resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui do
resumo. Texto aqui do resumo. Texto aqui do resumo. Texto aqui do resumo.
Texto aqui do resumo. Texto aqui do resumo. Texto aqui do resumo.
Keywords:
1. Introdução
A água é um fator crı́tico para o desenvolvimento e manutenção da so-
ciedade e a utilização múltipla do recurso está atrelada à sua disponibilidade
qualitativa e quantitativa. Neste contexto, grandes reservatórios têm papel
fundamental, caracterizados pela retenção substancial de grandes volumes
de água, nutrientes e sedimentos. Estes detêm capacidade de transformação
de habitats e são importantes provedores de serviços ecossistêmicos. Nor-
malmente, a água armazenada nos reservatórios tem usos múltiplos, sendo
os mais comuns: abastecimento público, geração de energia, irrigação e con-
trole de inundação [1].
O nı́vel da qualidade da água armazenada determina o estágio de con-
servação dos reservatórios, bem como delimita a utilização do recurso pela
sociedade e ecossistemas, e pode ser estimado por meio do monitoramento de
variáveis-chave, sendo as principais: clorofila-a, matéria orgânica dissolvida,
profundidade do disco de Secchi, turbidez, sólidos suspensos totais, temper-
atura, fósforo total, oxigênio dissolvido, demandas quı́mica e bioquı́mica de
oxigênio [2].
Preprint submitted to Remote Sensing Applications: Society and Environment.August 28, 2022
Em [3], os autores definem a turbidez como uma medida da clareza rel-
ativa de um lı́quido. É uma caracterı́stica óptica da água e é mensurada
como a quantidade de luz que é espalhada pelo material quando uma luz
é irradiada através da amostra de água. Quanto maior a intensidade da
luz espalhada, maior a turbidez. O valor da turbidez implica diretamente
na classificação da qualidade da água, sendo de extrema importância nesse
processo de classificação.
O monitoramento da qualidade da água em grandes reservatórios requer
medições para um elevado número de parâmetros fı́sico-quı́micos e biológicos,
que são frequentemente mensurados por equipamentos especializados. Esse
processo de medição apresenta altos custos operacionais (coleta/análise), e
elevado tempo de processamento de dados, frente à escassez de recursos hu-
manos/financeiros [4].
Neste contexto, o uso de técnicas de Machine Learning (ML) aplicadas
em imagens de sensoriamento remoto provê elementos capazes de avaliar e
classificar a qualidade da água com bons nı́veis de precisão, permitindo di-
agnósticos objetivos e confiáveis, possibilitando o monitoramento dos parâmetros
de forma custo-efetiva e favorecendo processos de tomada de decisão, tendo
em perspectiva o uso sustentável dos recursos hı́dricos.
A aplicação de técnicas de ML no processo de estimativa de variáveis de
qualidade da água exploradas nesta pesquisa têm como objeto de análise o
Reservatório de Três Marias, localizado na região central do Estado de Mi-
nas Gerais, pertencente à bacia do Rio São Francisco. O reservatório tem
múltiplas finalidades, sendo a principal a acumulação de volume para geração
de energia. No âmbito de integração entre tecnologia e recursos hı́dricos, esta
pesquisa tem como foco o desenvolvimento de uma abordagem computacional
de auxı́lio à gestão de recursos hı́dricos especializado na classificação da qual-
idade da água por meio da variável turbidez, empregando técnicas de ML.
O principal problema enfrentado em abordagens de ML para o problema
de classificação da qualidade água é o desbalanceamento de dados, em espe-
cial para a represa de Três Marias, uma vez que são raros os casos de coletas
realizadas para um valor de turbidez alto. Por isso, técnicas clássicas de
classificação e regressão de ML não tiveram bons resultados.
Dentre as técnicas existentes no campo da inteligência computacional
para lidar com este tipo de problema, os métodos de detecção de anomalias
têm ganhado destaque, vide [5]. No contexto de ML, especialmente em min-
eração de dados, uma anomalia, ou outlier, refere-se a uma amostra que é
consideravelmente diferente do restante dos dados. Detecção de anomalias é
2
definida, em termos básicos, como a tarefa de identificar ocorrências raras em
um conjunto de dados, seja por uma ou mais alterações dentro de um padrão
de dados, um valor atı́pico ou um evento que esteja fora de uma tendência
padrão.
Na literatura já existem pesquisas que empregaram métodos de detecção
de anomalias para prever a ocorrência de anomalias na avaliação da qualidade
da água [6, 7, 8]. Todavia, estes trabalhos se diferem da presente pesquisa
tanto em relação à base de dados utilizada bem como o pré-processamento
realizado, na localização onde a solução deve ser utilizada, e também no
objetivo proposto.
Dessa forma, o objetivo deste artigo é investigar se técnicas de ML po-
dem contribuir na classificação da qualidade da água através de imagens de
sensoriamento remoto, quando analisado o ı́ndice de turbidez para o Reser-
vatório de Três Marias. Dois métodos de ML de detecção de anomalias foram
utilizados e os resultados se mostraram satisfatórios.
Como contribuições dessa pesquisa, destacam-se:
• Aquisição de dados limnológicos para o Reservatório de Três Marias.
• Abordagem com detecção de anomalias para imagens de sensoriamento

remoto para a avaliação da qualidade da água.
• Modelo de ML dependente de somente a variável de turbidez e sem a

necessidade de informação temporal do ponto da coleta.
O restante do artigo é dividido da seguinte forma: A Seção 2 apresenta os

principais trabalhos relacionados ao monitoramento da qualidade de água e a
detecção de anomalias utilizando aprendizado de máquina. A Seção 3 detalha
a fonte de dados e os procedimentos metodológicos. A Seção 4 descreve os
resultados encontrados e o desempenho dos modelos, incluindo, ainda, uma
discussão sobre o tema e trabalhos futuros. Por fim, a Seção 5 apresenta a
conclusão dos resultados.
2. Trabalhos Relacionados
A integração de algoritmos de Inteligência Artificial (IA) ao processa-
mento de dados de satélites tem aliado a computação de alto desempenho
à criação de novas perspectivas de análise, quantificação e compreensão dos
ecossistemas aquáticos [9]. Os algoritmos de IA potencializaram a capacidade
3
de estimar os parâmetros de qualidade da água, reduzindo tempo de análise
e apresentando resultados muito precisos, minimizando esforços humanos,
racionalizando recursos técnicos e econômicos [10].
No âmbito das ciências ambientais, durante muito tempo, boa parte
dos problemas atrelados à análise e estudos ambientais estava relacionada
à disponibilidade e qualidade de dados. O advento de novas tecnologias,
maior conectividade e IOT (Internet of Things), propiciaram a geração de
um grande volume de dados/informações (Big Data), transferindo parte do
problema para a capacidade de análise dos dados. Cabe ainda ressaltar que
dados hidrológicos e ambientais apresentam algumas caracterı́sticas que os
diferenciam dos demais: outliers (valores atı́picos), dados faltantes, erros de
análise, distribuições anormais, dentre outras [11].
Neste contexto, ML é uma ferramenta poderosa, provendo análises mais
precisas e prognósticos mais assertivos, dentre algumas aplicações com o foco
exclusivo na análise de recursos hı́dricos podemos destacar: [12] utilizou RNA
em imagens de sensoriamento remoto do Landsat-7 para melhorar, avaliar
e monitorar a qualidade da água de um reservatório na cidade de Taipei,
Taiwan; [13] aplicaram uma CNN para determinar os nı́veis de qualidade da
água dos lagos Erhai e Chaohu (China) a partir de imagens do Landsat-8;
[14] utilizaram imagens do satélite Sentinel-2 e RNA para mensurar florações
algais (clorofila-a) no reservatório Cefni (Anglesey, Inglaterra); [15] aplicaram
três modelos de redes neurais (CNN, LSTM e CNN-LSTM) para estimar o
nı́vel de oxigênio dissolvido e de concentração de clorofila-a em pequenos
lagos na região de Prespa, Grécia.
[16] identificaram 129 estudos publicados entre 2018 e 2020 relacionados
à aplicação de Deep Learning na avaliação, monitoramento e mensuração de
parâmetros de recursos hı́dricos em diferentes escopos: enchentes, superfı́cie
da água, água subterrânea, qualidade da água, gestão, dentre outros. [17]
realizaram um levantamento referente ao uso de imagens de sensoriamento
remoto em algoritmos (empı́ricos, semi-analı́ticos e ML) com foco exclusivo
em recursos hı́dricos, especificamente águas interiores (água doce). Foram
identificados 416 estudos, contemplando o perı́odo entre os anos 1974 e 2018,
nos quais o sensoriamento remoto propiciou diagnósticos e análises de corpos
d’água em suas mais amplas variações (reservatórios, rios, lagos, estuários,
etc.).
Embora a área de recursos hı́dricos tenha avançado no uso de técnicas de
ML, [18] destaca que algoritmos de Deep Learning têm registrado aplicações
na hidrologia com certo atraso quando comparado às demais ciências am-
4
bientais. Esta lacuna quanto às outras frentes de estudo têm acelerado a
produção técnica e cientı́fica sobre o tema, um levantamento realizado por
[19] no site Web of Science identificou que o número de artigos publicados
em 2019 com foco de abordagem Deep Learning e recursos hı́dricos aumen-
tou seis vezes em comparação a 2016, tendência que deve ser mantida nos
próximos anos.
Na literatura grande parte dos trabalhos encontrados que empregam métodos
de ML para a avaliação da qualidade da água se concentram nas tarefas de
classificação e regressão. Em especial para o caso de detecção de anomalias,
no artigo [6] os autores usaram imagens do Landsat-8 e do Sentinel-2 para
coletar um dataset contı́nuo e com duração de 40 meses, na região central
oeste dos Estados Unidos, onde estão localizados o Lago Decatur e o Lago
Carlyle. A ideia dos autores foi estimar algumas variáveis com um mod-
elo Multi Layer Perceptron (MLP) treinado para regressão, apoiado por um
modelo Empirical Data Analytics (EDA) para identificar pontos de dados
anormais.
No trabalho [7] os dados utilizados foram coletados no Rio Potomac da
Virgı́nia Ocidental, localizado nos Estados Unidos. A quantidade de amostras
totalizam 5089, sendo o perı́odo de 27 de janeiro de 2017 a 21 de março de
2017, para um intervalo de 15 minutos. A proposta foi usar o método de
ML Bayesian autoregressive (BAR) para prever a variação na qualidade da
água e o algoritmo Isolation Forest (IF) para detecção de anomalias. Para
avaliação dos métodos, foram empregadas as métricas de acurácia, precisão,
recall e F1-score. Os resultados demonstram que o estudo desenvolvido não
apenas pode melhorar a precisão da detecção de anomalias na qualidade da
água, mas também fornecer alertas precoces para operações de emergência.
Na pesquisa [8] os autores também utilizaram dados coletados por sen-
sores que compõe o conjunto de dados GECCO 2019, que foi disponibilizado
publicamente. O dataset contém 8 indicadores (horário da medição, temper-
atura da água, pH, condutividade elétrica, turbidez, coeficiente de absorção
espectral, modulação de frequência de pulso e classe) que foram coletados de
1 de julho de 2017 a 30 de setembro de 2017. Ao todo são 132480 registros,
sendo 132268 normais e 212 anomalias. Foi proposto uma abordagem usando
Convolutional Neural Network (CNN) e Extreme Learning Machine (ELM)
para detectar a presença de anomalias nos dados. Além disso, a técnicas
SMOTE foi aplicada para uma melhor convergência do modelo. Assim como
em [7], foram empregadas as métricas de acurácia, precisão, recall e F1-score
para avaliação do modelo. Os resultados obtidos mostraram que o modelo
5
melhorou a avaliação da qualidade da água no dataset público em relação a
trabalhos que usaram o mesmo conjunto, detectando as anomalias de forma
eficiente.
Os trabalhos encontrados na literatura que usam abordagens de detecção
de anomalias para a avaliação da qualidade da água investigam metodologias
diferentes da empregada nessa pesquisa. As pesquisas que usam dados de
sensores em campo, possuem como entrada os valores das variáveis (turbidez,
clorofila, pH, etc.) e, caso haja uma variação nesses dados, a anomalia é
detectada. No caso do trabalho aqui proposto, a entrada para o modelo de
ML são as bandas do satélite, logo após o pré-processamento da imagem
coletada ter sido realizado.
Os artigos que usam detecção de anomalias com imagens de satélites
tentaram explorar pontos especı́ficos na área monitorada, fazendo coletas
em campo para um mesmo ponto por um determinado perı́odo, coletando
informação temporal. Na pesquisa aqui proposta, vários são os pontos de
coleta das amostras para análise quı́mica, correlacionando com as imagens
obtidas pelo satélite. Dessa forma, o potencial para um modelo genérico para
uma área maior se torna possı́vel, apesar do aumento da dificuldade de gen-
eralização do algoritmo. Além disso, muitas das pesquisas encontradas usam
a informação temporal da coleta como entrada do algoritmo para realizar o
monitoramento, fazendo com que o modelo seja dependente desse dado, o
que não é o caso aqui do trabalho proposto.
Os tópicos apresentados anteriormente ratificam as potencialidades do uso
integrado de ML e do sensoriamento remoto no escopo de recursos hı́dricos,
especialmente na delimitação de estimativa de variáveis da qualidade da água
de reservatórios, objeto de interesse desta pesquisa.
Apesar das dificuldades aumentadas na tentativa de encontrar um modelo
que consiga generalizar para uma quantidade de pontos de forma que ele
consiga obter um bom desempenho em qualquer área da represa, de não
abordar o problema como uma tarefa de regressão assim como em grande
parte dos trabalhos relacionados e de não usar datasets públicos, o foco da
pesquisa foi contribuir investigando e desenvolvendo uma abordagem que não
pôde ser encontrada anteriormente na literatura. Dessa forma, pôde-se trazer
contribuições importantes para a área de recursos hı́dricos.
6
3. Material e Métodos
3.1. Área de Estudo e Aquisição de Dados Limnológicos
O Reservatório de Três Marias é um dos dez maiores do Brasil e tem como
modo de uso principal a geração de energia elétrica, apresentando capacidade
instalada de 396 MW, área aproximada de 1.055 km2 e volume de acumulação
de 20 Hm3 (CEMIG, 2021). Localizado na Bacia Hidrográfica do Rio São
Francisco, região central do Estado de Minas Gerais, região caracterizada por
apresentar duas estações bem definidas, inverno seco e verão úmido.
As amostragens do parâmetro de qualidade da água turbidez utilizadas
neste estudo foram mensuradas por sensor especializado (turbidı́metro) em
campanhas in situ realizadas entre 2019 e 2022, em perı́odos de cheia e seca.
A turbidez é amostrada em diferentes profundidades ao longo reservatório,
contudo, em testes realizados observou-se maior aplicabilidade/acurácia dos
modelos a partir do processamento de dados mensurados a uma profundidade
de até 1,2 m, deste modo, 987 pontos de amostragem foram selecionados, a
distribuição geográfica dos mesmo é apresentada Figura 1.
3.2. Aquisição de Dados de Sensoriamento Remoto

Foram utilizadas imagens gratuitas de nı́vel 2A oriundas dos satélites
Sentinel-2 (Agência Espacial Europeia - ESA) e providas de correção at-
mosférica (reflectância de superfı́cie), as bandas espectrais forma reamostradas
(quando necessário) para a resolução espacial de 20 m, uma vez que menor
nı́vel de interferência foi observado nos processamentos aplicados.
Para extração dos valores de reflectância dos pixels das bandas espec-
trais das imagens de satélite foi desenvolvido um algoritmo em linguagem
Python, por meio do qual os valores dos pixels são computados e extraı́dos
junto à plataforma em nuvem Google Earth Engine, em seguida os dados
obtidos são consistidos em formato matricial/planilhas (sem necessidade de
processamento local das imagens).
O intervalo temporal considerado para extração dos pixels foi de +- 2
dias em relação à data de coleta da amostra em campo. A fim de re-
duzir a mitigar a baixa qualidade dos dados em função de ruı́dos espec-
trais, nuvens e sombras, foi aplicada uma combinação, filtros, ı́ndices e pro-
priedades auxiliares da imagem de satélite: máscaras de detecção de nuvens,
MSKC LDP RBeQA60; máscaradeneve/geloM SKS N W P RB; classif icaçãodepixel, SCL−
´
SceneClassif ication; IndicedeU midadeporDif erençaN ormalizada, N DW I−
7
Figure 1: Reservatório de Três Marias com a localização dos pontos de amostragem..
´
N ormalizedDif f erenceW aterIndex; IndicedeDetec çãodeN eve, N BSI−N on−
BinarySnowIndexf orM ulti − ComponentSurf aces.
Normalmente utiliza-se como elemento para restrição da presença de nu-
vens/ruı́dos em imagens de sensoriamento remoto uma propriedade rela-
cionada ao percentual de nuvens contida nos metadados da imagem de in-
teresse, sendo o valor inferior a 20% uma prática razoável. Neste trabalho
esta propriedade não foi utilizada, uma vez que para o conjunto de dados ex-
plorado a combinação de filtros/ı́ndices citadas possibilitou capturar maior
quantidade de dados e com menores nı́veis de interferências/ruı́dos.
3.3. Pré-processamento
ANDERSON - FALAR DE TUDO , INCLUSIVE DO USO DA TABELA
LÁ PRA MEDIR O LIMIAR DA CLASSE 0 E 1FALAR DO SATELITE
daqui pra baixo, parte do bruno... sobre o pre processamento do python
8
Para o desenvolvimento do estudo foi utilizada a linguagem de programação
Python 3.6, no ambiente de desenvolvimento Google Colaboratory [20].
O ambiente de desenvolvimento foi preparado para uso da Scikit-learn,
que é uma biblioteca de aprendizado de máquina de código livre para a
linguagem de programação Python. O pacote possibilita o uso de algoritmos
de classificação, regressão e agrupamento, incluindo o SVM One Class e as
Florestas Isoladas, empregados nessa pesquisa. Além disso, a biblioteca foi
projetada para interoperar com outros pacotes numéricos e cientı́ficos da
linguagem de programação Python, tais como o NumPy e o SciPy [21].
A quantidade de amostras do dataset soma XXXXX, sendo XXXXX como
da classe 0 e XXXXX para a classe 1. É considerada uma amostra da classe
0 aquela que pertence a uma distribuição normal, possuindo um valor de
turbidez abaixo de XXXXX. Já uma amostra da classe 1, considerada como
anomalia, é aquela que possui um valor de turbidez acima de XXXXX.
Com o dataset organizado e pré-processado, foi feita a divisão dos dados
em treino e teste. A quantidade para cada um dos conjuntos de treino e teste
pode ser observada na Tabela 1.
Table 1: Quantidade de amostras por conjunto.
Conjunto Classe Quantidade

0 XXX
Treino
1 0
0 XXX
Teste
1 XXX
Ainda na Tabela 1, pode-se observar que não existe nenhuma amostra

com o rótulo 1 no conjunto de treinamento. A justificativa para isso é pelo
fato de a classe 1 ser considerada como anomalia, uma vez que, existem
poucas observações de ocorrências de valores de turbidez acima de XXXXX
para a represa de Três Marias.
3.4. Métodos de Detecção de Anomalias

Dado esse problema evidente de desbalanceamento entre as classes, entende-
se que faz sentido explorar métodos de detecção de anomalias. Por isso, duas
técnicas foram abordadas nessa pesquisa investigativa para a modelagem de
um sistema para classificação da qualidade da água por meio de imagens de
9
sensoriamento remoto. São eles: SVM One Class [22] e Florestas Isoladas
[23], ambos implementados no pacote Scikit-learn [21].
Sabe-se que um algoritmo de aprendizado de máquina tem vários parâmetros
que não são ajustados pelo conjunto de treinamento. Esses parâmetros con-
trolam a precisão do modelo. Por isto, os hiperparâmetros são particular-
mente importantes na construção de um modelo de aprendizado. Eles são
configurados antecipadamente e utilizados pelo método de aprendizado antes
que o modelo seja treinado.
Desta forma, existem algumas abordagens de otimização de hiperparâmetros,
sendo que uma delas é a pesquisa em grade, que é uma técnica de ajuste que
tenta calcular os valores ótimos dos hiperparâmetros. A técnica usa a busca
exaustiva que é realizada nos valores dos parâmetros especı́ficos de um mod-
elo de aprendizado. O resultado do uso dessa abordagem é o melhor conjunto
de hiperparâmetros possı́veis para o modelo.
A Tabela 2 apresenta os valores de hiperparâmetros testados na con-
strução do modelo SVM One Class, usando a técnica de pesquisa em grade.
Table 2: Hiperparâmetros avaliados na pesquisa em grade para o método SVM One Class.
Abreviação Hiperparâmetro Valores testados

(1) kernel linear, poly, rbf, sigmoid
(2) gamma scale, auto
(3) nu 0.01, 0.1, 0.5, 0.8, 0.99
A Tabela 3 apresenta os valores de hiperparâmetros testados na con-

strução do modelo Florestas Isoladas, usando a técnica de pesquisa em grade.
Pré-processados os dados e definidos os métodos de aprendizado bem
como a abordagem de otimização de hiperparâmetros, deu-se inı́cio a etapa
de treinamento. Após cada geração de um novo modelo com uma combinação
de hiperparâmetros, foi feita a avaliação deles com as amostras do conjunto
de teste.
No problema atual que se trata de uma classificação estatı́stica, emprega-
se uma matriz de confusão para a avaliação de modelos de aprendizado de
máquina [24]. Ela é uma tabela que permite a visualização do desempenho de
um modelo. Cada linha dessa tabela representa as instâncias de uma classe
prevista, enquanto cada coluna ilustra as instâncias de uma classe real.
10
Table 3: Hiperparâmetros avaliados na pesquisa em grade para o método de Florestas
Isoladas.
Abreviação Hiperparâmetro Valores testados

(1) n estimators 100 a 800, com salto de 25
(2) max samples 100 a 500, com salto de 25
(3) contamination 0.001, 0.01, 0.1, 0.2, 0.3, 0.4, 0.5
(4) max features 1, 3, 7 ,10, 12
(5) bootstrap True, False
Uma matriz de confusão é composta por quatro valores: verdadeiro posi-

tivo, falso negativo, falso positivo e verdadeiro negativo. Essa matriz é muito
útil para a avaliação do modelo, uma vez que seus dados descrevem o resul-
tado da classificação de cada registro, além de que é através dela que se torna
possı́vel encontrar as demais métricas, como acurácia, precisão, revocação e
F1-score. Essas métricas foram as utilizadas na avaliação dos modelos e cada
uma delas é obtida sendo:
• Acurácia: é a divisão entre todos os acertos pelo total de exemplos.
• Precisão: também conhecida como especificidade, indica a relação
entre os valores previstos positivos realizados corretamente e todas as
previsões positivas, sendo as verdadeiras e as falsas.
• Revocação: também conhecida como sensibilidade, é utilizada para
indicar a relação entre as previsões positivas realizadas corretamente e
todas as previsões que realmente são positivas (verdadeiro positivo e
falso negativo).
• F1-score: é uma maneira de se visualizar as métricas de precisão e
de revocação juntas. O cálculo dessa métrica se dá através da média
harmônica, uma vez que os valores calculados são iguais, em que se
obtém resultados muito próximos da média aritmética simples. No
entanto, sempre que os valores são diferentes, essa média se aproxima
mais dos valores menores.
Através dessas métricas foi possı́vel avaliar e comparar cada um dos mod-
elos que foram construı́dos por meio de uma combinação diferente de hiper-
parâmetros. Assim sendo, foi possı́vel concluir as diferenças de desempenho
11
entre o SVM One Class e Florestas Isoladas, especificamente para o problema
de classificação da qualidade da água por meio de imagens de sensoriamento
remoto.
4. Resultados e Discussão
5. Considerações Finais
References
[1] D. Gernaat, P. Bogaart, D. Vuuren, van, biemans, h. & niessink,
r.(2017), High-resolution assessment of global technical and economic
hydropower potential. Natural Energy 2 (2017) 821–828.
[2] M. H. Gholizadeh, A. M. Melesse, L. Reddi, A comprehensive review on

water quality parameters estimation using remote sensing techniques,
Sensors 16 (8) (2016) 1298.
[3] R. Davies-Colley, D. Smith, Turbidity suspeni) ed sediment, and water

clarity: a review 1, JAWRA Journal of the American Water Resources
Association 37 (5) (2001) 1085–1101.
[4] I. Karaoui, A. Arioua, A. Boudhar, M. Hssaisoune, S. El Mouatassime,

K. A. Ouhamchich, D. Elhamdouni, A. E. A. Idrissi, W. Nouaim, Evalu-
ating the potential of sentinel-2 satellite images for water quality charac-
terization of artificial reservoirs: The bin el ouidane reservoir case study
(morocco), Meteorology Hydrology and Water Management. Research
and Operational Applications 7 (1) (2019) 31–39.
[5] S. Agrawal, J. Agrawal, Survey on anomaly detection using data

mining techniques, Procedia Computer Science 60 (2015) 708–713.
doi:10.1016/j.procs.2015.08.220.
[6] K. T. Peterson, V. Sagan, J. J. Sloan, Deep learning-based water qual-

ity estimation and anomaly detection using landsat-8/sentinel-2 virtual
constellation and cloud computing, GIScience & Remote Sensing 57 (4)
(2020) 510–525.
[7] J. Liu, P. Wang, D. Jiang, J. Nan, W. Zhu, An integrated data-driven

framework for surface water quality anomaly detection and early warn-
ing, Journal of Cleaner Production 251 (2020) 119145.
12
[8] S. Jansi Rani, A. Ramakrishnan, K. Rishivardhan, Improving water
quality assessment through anomaly detection using hybrid convolu-
tional neural network approach, GLOBAL NEST JOURNAL 24 (1)
(2022) 1–8.
[9] F. Ahmed, K. Kilic, Fuzzy analytic hierarchy process: A performance
analysis of various algorithms, Fuzzy Sets and Systems 362 (2019) 110–
128.
[10] N. Wagle, T. D. Acharya, D. H. Lee, Comprehensive review on appli-
cation of machine learning algorithms for water quality parameter esti-
mation using remote sensing data, Sensors and Materials 32 (11) (2020)
3879–3892.
[11] L. K. d. Oliveira, W. Pignati, M. G. Pignatti, L. Beserra, L. H. d. C.
Leão, Processo sócio-sanitário-ambiental da poluição por agrotóxicos na
bacia dos rios juruena, tapajós e amazonas em mato grosso, brasil, Saúde
e Sociedade 27 (2018) 573–587.
[12] L. T. Wang, T. E. McKenna, T. L. DeLiberty, Locating ground-water
discharge areas in rehoboth and indian river bays and indian river,
delaware using landsat 7 imagery, Tech. rep., Newark, DE: Delaware
Geological Survey, University of Delaware (2008).
[13] F. Pu, C. Ding, Z. Chao, Y. Yu, X. Xu, Water-quality classification
of inland lakes using landsat8 images by convolutional neural networks,
Remote Sensing 11 (14) (2019) 1674.
[14] H. N. Silva, M. Panella, Eutrophication analysis of water reservoirs by
remote sensing and neural networks, in: 2018 Progress in Electromag-
netics Research Symposium (PIERS-Toyama), IEEE, 2018, pp. 458–463.
[15] R. Barzegar, M. T. Aalami, J. Adamowski, Short-term water qual-
ity variable prediction using a hybrid cnn–lstm deep learning model,
Stochastic Environmental Research and Risk Assessment 34 (2) (2020)
415–433.
[16] M. Sit, B. Z. Demiray, Z. Xiang, G. J. Ewing, Y. Sermet, I. Demir,
A comprehensive review of deep learning applications in hydrology and
water resources, Water Science and Technology 82 (12) (2020) 2635–
2670.
13
[17] S. N. Topp, T. M. Pavelsky, D. Jensen, M. Simard, M. R. Ross, Research
trends in the use of remote sensing for inland water quality science:
Moving towards multidisciplinary applications, Water 12 (1) (2020) 169.
[18] C. Shen, A transdisciplinary review of deep learning research and its rel-
evance for water resources scientists, Water Resources Research 54 (11)
(2018) 8558–8593.
[19] G. V. Ayzel, Deep neural networks in hydrology: the new generation of

universal and efficient models, Vestnik of Saint Petersburg University.
Earth Sciences 66 (1) (2021).
[20] E. Bisong, Google colaboratory, in: Building Machine Learning and

Deep Learning Models on Google Cloud Platform, Springer, 2019, pp.
59–64. doi:10.1007/978-1-4842-4470-8.
[21] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion,

O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, et al.,
Scikit-learn: Machine learning in python, the Journal of machine Learn-
ing research 12 (2011) 2825–2830.
[22] B. Schölkopf, R. C. Williamson, A. Smola, J. Shawe-Taylor, J. Platt,

Support vector method for novelty detection, Advances in neural infor-
mation processing systems 12 (1999).
[23] F. T. Liu, K. M. Ting, Z.-H. Zhou, Isolation-based anomaly detection,

ACM Transactions on Knowledge Discovery from Data (TKDD) 6 (1)
(2012) 1–39. doi:10.1145/2133360.2133363.
[24] A. Luque, A. Carrasco, A. Martı́n, A. de Las Heras, The impact of

class imbalance in classification performance metrics based on the binary
confusion matrix, Pattern Recognition 91 (2019) 216–231.
14

Classificação da qualidade da água em reservatórios por detecção de anomalias em imagens de satélite

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Classificação da qualidade da água em reservatórios por detecção de anomalias em imagens de satélite

Enviado por

Direitos autorais:

Formatos disponíveis

Graphical Abstract

• Aquisição de dados limnológicos para o Reservatório de Três Marias.

• Abordagem com detecção de anomalias para imagens de sensoriamento

• Modelo de ML dependente de somente a variável de turbidez e sem a

O restante do artigo é dividido da seguinte forma: A Seção 2 apresenta os

3.2. Aquisição de Dados de Sensoriamento Remoto

Table 1: Quantidade de amostras por conjunto.

Conjunto Classe Quantidade

Ainda na Tabela 1, pode-se observar que não existe nenhuma amostra

3.4. Métodos de Detecção de Anomalias

Abreviação Hiperparâmetro Valores testados

A Tabela 3 apresenta os valores de hiperparâmetros testados na con-

Abreviação Hiperparâmetro Valores testados

Uma matriz de confusão é composta por quatro valores: verdadeiro posi-

[2] M. H. Gholizadeh, A. M. Melesse, L. Reddi, A comprehensive review on

[3] R. Davies-Colley, D. Smith, Turbidity suspeni) ed sediment, and water

[4] I. Karaoui, A. Arioua, A. Boudhar, M. Hssaisoune, S. El Mouatassime,

[5] S. Agrawal, J. Agrawal, Survey on anomaly detection using data

[6] K. T. Peterson, V. Sagan, J. J. Sloan, Deep learning-based water qual-

[7] J. Liu, P. Wang, D. Jiang, J. Nan, W. Zhu, An integrated data-driven

[19] G. V. Ayzel, Deep neural networks in hydrology: the new generation of

[20] E. Bisong, Google colaboratory, in: Building Machine Learning and

[21] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion,

[22] B. Schölkopf, R. C. Williamson, A. Smola, J. Shawe-Taylor, J. Platt,

[23] F. T. Liu, K. M. Ting, Z.-H. Zhou, Isolation-based anomaly detection,

[24] A. Luque, A. Carrasco, A. Martı́n, A. de Las Heras, The impact of

Você também pode gostar