Escolar Documentos
Profissional Documentos
Cultura Documentos
ISSN 1984-9354
1. Introdução
A água é um elemento essencial para a existência e a manutenção da vida, uma vez que é o
principal componente dos organismos vivos. No contexto humano, além de possibilitar nossa
sobrevivência, a água também viabiliza um amplo espectro de atividades, tais como abastecimento
público e industrial, irrigação agrícola, produção de energia elétrica e atividades de lazer e
recreação. Não obstante a esta realidade, a expansão demográfica e industrial das últimas décadas
vem ocasionando o comprometimento de muitos corpos hídricos, como rios, lagos e reservatórios.
Vale destacar ainda que a água doce é um recurso natural limitado pelo alto custo da sua obtenção
a partir de formas menos convencionais, como as águas marinhas e subterrâneas. Sendo assim, o
uso racional e o controle de qualidade das águas doces é de fundamental relevância para
preservação deste bem (Alves et al., 2008).
Atualmente, a Companhia Ambiental do estado de São Paulo (CETESB) é responsável
pelo monitoramento e levantamento de informações sobre a qualidade das águas dos corpos
hídricos deste estado. Para isso, mantém quase 350 pontos fixos de coleta de amostras, os quais
são localizados ao longo dos corpos hídricos monitorados. Cada amostra é analisada sob aspectos
físicos, químicos e biológicos, formando um conjunto de dados rico em informações relativas às
condições ambientais destes corpos hídricos (CETESB, 2011).
A avaliação individual destes dados pode não proporcionar descobertas relevantes,
tornando indispensáveis metodologias que permitam sintetizar os números levantados em
informações compreensíveis e significativas, viabilizando a inferência da sustentabilidade
ambiental das bacias hidrográficas. Atualmente, existem diversos “índices” ou “indicadores” para
caracterizar o desempenho dos sistemas hídricos. Estes possuem diferentes enfoques e
normalmente englobam vários parâmetros em um único número como, por exemplo, o IVA
(Índice de Qualidade das Águas para Proteção da Vida Aquática), um dos índices utilizados pela
CETESB, que considera em seu cálculo variáveis especialmente impactantes para a vida aquática
como metais, oxigênio dissolvido, pH e toxicidade (CETESB, 2011).
1.1 Objetivo
2
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
mais drásticos, causados por elevadas concentrações de agentes químicos e, em geral, manifestam-
se em um curto período de exposição dos organismos. Os efeitos tóxicos crônicos são mais sutis,
causados por baixas concentrações de agentes químicos dissolvidos e são detectados em
prolongados períodos de exposição ou por respostas fisiológicas adversas na reprodução e
crescimento dos organismos vivos (CETESB, 2011).
Esta pesquisa tem como objetivo descobrir padrões de classificação de ecotoxicidade a
partir dos dados de monitoramento levantados pela CETESB entre os anos de 2005 e 2010. Uma
vez descobertos, estes padrões poderiam ser utilizados na predição da toxicidade de futuras
amostras de água, minimizando a utilização de organismos vivos nas análises ecotoxicológicas,
tornando estas análises mais rápidas e eficazes, contribuindo na aferição de indicadores de
sustentabilidade ambiental como o IVA, por exemplo, ou então descobrir que o conjunto de
parâmetros/valores adotados são insuficientes para efetuar essa predição, indicando a necessidade
de análises adicionais ou alteração dos padrões vigentes. Para isso, os dados citados serão
processados por meio de técnicas de mineração de dados, que utilizam métodos específicos para
descoberta de informações implícitas em repositórios de dados.
1.2 Metodologia
3
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
contexto, o objetivo da técnica é descobrir regras que possam, com base nos valores destes
parâmetros, definir o nível de toxicidade de cada amostra de água.
A escolha da técnica de mineração, foi realizada a partir de uma pesquisa bibliográfica
visando levantar métodos já utilizados na área ambiental e com dados semelhantes. Vale ressaltar
que, apesar de serem relacionados à área da computação, todos os trabalhos pesquisados tinham
em comum a forte preocupação com a questão da gestão dos recursos naturais e do
desenvolvimento sustentável. Dentre as diversas abordagens aplicadas neste domínio, a técnica de
cobertura sequencial, foi considerada uma das mais apropriadas para a tarefa a ser realizada nesse
estágio da pesquisa, pois permite extrair regras de classificação diretamente dos dados, ao
contrário de outros métodos que extraem regras indiretamente, a partir de outros modelos como
árvores de decisão e redes neurais. Neste estudo, as regras de classificação extraídas são
representadas pela expressão condicional “Se <valores dos parâmetros químicos> Então <valor
da toxicidade>”, sendo a toxicidade a classe a ser atribuída aos registros de teste, que nada mais
são que as análises das amostras de água onde pretende-se prever o valor de toxicidade.
O desempenho das regras de classificação geradas por esta técnica foi avaliado pelo
método da validação cruzada de duas partes. Nesta abordagem, a base de dados é dividida em dois
subconjuntos com quantidades de registros semelhantes. Em um primeiro momento, um dos
subconjuntos é utilizado como base de treinamento, ou seja, as regras de classificação são
extraídas a partir deste subconjunto. Em seguida, as regras extraídas são aplicadas ao outro
subconjunto, que faz o papel de base de teste. Por fim, é calculada a taxa de erro das regras
aplicadas nesta base de teste. No segundo momento, os papéis são invertidos, de modo que o
subconjunto de treinamento passa a ser de teste e vice-versa. A taxa de erro total é então calculada
pela média das duas execuções. Com base nesta taxa, pode-se inferir a confiabilidade das regras
geradas e, consequentemente, saber o quanto elas podem ser úteis ao serem empregadas em
sistemas de gestão de qualidade de água.
Os resultados preliminares desta pesquisa são apresentados neste artigo, iniciando pela
Seção 2, que mostra um breve histórico da gestão e do monitoramento de recursos hídricos no
Brasil, em especial no estado de São Paulo. Em seguida, a Seção 3, descreve o processo de
descoberta de conhecimento destacando sua principal etapa, a mineração de dados. Na Seção 4 é
apresentada a aplicação da técnica de classificação baseada em regras nos dados de
monitoramento de água, bem como os resultados preliminares obtidos. Por fim, a Seção 5
apresenta as considerações finais referentes a este trabalho.
4
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
5
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
6
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
Figura 2. Etapas que compõem o processo de KDD. Adaptado de (Fayyad et al. 1996)
Na etapa de seleção é escolhido o conjunto de dados a ser estudado, contendo todas as
variáveis que possuem chance de serem utilizadas durante o processo. No pré-processamento são
realizados ajustes no conjunto de dados selecionado como por exemplo: eliminação de dados
7
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
8
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
9
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
A aplicação das técnicas de mineração de dados tem como premissa que os dados a serem
pesquisados estejam pré-selecionados, uniformes, normalizados, centralizados e com um nível
satisfatório de completude. Todas essas atividades de preparação dos dados visam sobretudo
otimizar a significância e a confiabilidade dos resultados gerados na etapa de mineração. Outro
importante benefício do pré-processamento dos dados é a redução de possíveis impactos no
desempenho da mineração, uma vez que, ao não se ocupar com o tratamento dos dados, esta pode
concentrar esforço computacional em seu propósito original, a busca de informações implícitas e
úteis no conjunto de dados. Nesse estudo, a etapa de pré-processamento compreendeu atividades
para seleção, transformação, centralização, imputação e discretização dos dados, as quais serão
apresentadas nas próximas seções.
No processo de KDD, a seleção dos dados está situada antes da etapa de pré-
processamento, no entanto, alguns autores como Tan et al. (2009), tratam a seleção como parte
desta etapa, abordagem também empregada neste artigo, uma vez que todas as etapas antes da
mineração de dados são fortemente relacionadas, podendo ser agrupadas em uma única etapa de
pré-processamento.
Neste trabalho, o conjunto de dados a ser analisado foi selecionado com base em critérios
gerais, relacionados a aspectos mais abrangentes dos dados, e critérios específicos, associados a
características mais peculiares dos dados. A seguir, os critérios gerais e as respectivas descrições
de como foram aplicados:
10
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
11
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
Após a aplicação destes critérios, dos 165 pontos de amostragem, selecionados com base
nos critérios gerais, permaneceram 44, considerados os pontos com maior riqueza e uniformidade
de dados.
Após selecionados, os dados brutos foram centralizados em um repositório criado por meio
do sistema gerenciador de banco de dados PostgreSQL. Porém, para tornar isto possível, foi
necessário converter os dados, que se encontravam em arquivos PDF, para um formato adequado à
estrutura de um banco de dados. Essa atividade foi realizada em várias etapas e consumiu a maior
parte do tempo de pré-processamento, uma vez que os arquivos originais tinham pequenas
diferenças entre si, que demandavam tratamento para que não impactassem na exatidão e na
confiabilidade dos dados recuperados. A Figura 3 ilustra o processo de conversão dos dados
originais até o armazenamento no banco de dados.
12
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
13
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
trabalho como Padrão CONAMA, o valor foi ignorado sendo imputado um valor médio mensal do
parâmetro nos seis anos (2005-2010). Exemplos:
Em medições abaixo do Padrão CONAMA, porém sem valor exato conhecido, foi
imputado o valor medido. Exemplo:
Valor imputado = 0,02
14
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
Indução Dedução
Para avaliar a qualidade de uma regra de classificação existem medidas básicas como a
cobertura e a precisão. A primeira visa determinar a taxa de registros que se enquadram no
antecedente da regra e, portanto, disparam esta regra. A segunda define a taxa de registros que se
15
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
enquadram tanto no antecedente quanto no consequente da regra e, portanto, além de disparar esta
regra, também pertencem à classe prevista p ela regra. Os cálculos destas medidas podem ser
expressos da seguinte forma:
Nessa pesquisa, o modelo de classificação foi gerado por um algoritmo de cobertura sequencial,
que faz uma busca pelas melhores regras para prever cada classe, no caso os valores de
Toxicidade: NT (Não Tóxico), CR (Crônico) e AG (Agudo). Durante a busca das regras, todos os
conjuntos de medição com classe igual a que está sendo pesquisada são considerados positivos, e
todos os outros conjuntos são considerados negativos. Uma regra é considerada satisfatória se
cobrir a maioria dos conjuntos positivos e poucos negativos.
16
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
1
n_amon, cu_dis, ni_tot, pb_tot, zn_tot, nitrat e sub_te referem-se respectivamente aos parâmetros: Nitrogênio
Amoniacal, Cobre Dissolvido, Níquel Total, Chumbo Total, Zinco Total, Nitrato e Substância Tensoativa.
17
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
5. Considerações Finais
Neste artigo, foi apresentada a utilização de técnicas específicas de mineração de dados
para descoberta de conhecimento no domínio de monitoramento de qualidade de água. Durante a
pesquisa, pôde-se perceber o grau de relevância do tema abordado para a gestão da
sustentabilidade. Há um grande volume de trabalhos relacionados à aplicação da computação na
área ambiental, especialmente na gestão de recursos hídricos, fato que demonstra uma forte
preocupação da comunidade científica com o futuro de nossas bacias hidrográficas.
Quanto aos dados selecionados para o estudo, procurou-se contemplar uma amostra
significativa dos dados de qualidade de água do estado de São Paulo, porém notou-se que o
18
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
conjunto de dados selecionado precisou ser drasticamente reduzido com relação ao conjunto
original. Um dos motivos que se deve destacar para esta ocorrência é a grande quantidade de
medições incompletas, visto que parâmetros essenciais para esta pesquisa não possuíam valor
medido. Portanto, esta estratégia foi adotada para conservar a qualidade do conjunto de dados,
visto que o resultado da mineração está diretamente relacionado a este fator.
Outro elemento que deve ser considerado é que a descoberta de conhecimento é um
processo inerentemente exploratório e iterativo, característica que demanda muitos ajustes e,
consequentemente, novas iterações e experimentos em busca padrões em meio aos dados. Por este
motivo, será necessário reavaliar particularmente o conjunto de parâmetros selecionados, além das
questões da imputação e da discretização dos dados, uma vez que podem influenciar fortemente
nas respostas da mineração.
Apesar de as técnicas utilizadas não terem gerado regras de classificação de toxicidade de
água muito significativas, os resultados iniciais desta pesquisa demonstram o potencial que a
mineração de dados possui para auxiliar na extração de informações implícitas em dados de
monitoramento de qualidade de água. A impossibilidade de se criar regras para a toxicidade
aguda, por exemplo, denota que os parâmetros químicos utilizados, nas concentrações medidas,
podem não influenciar uma medição a ponto de ela atingir este nível de toxicidade. Enfim,
informações como esta podem representar subsídios valiosos para a tomada de decisão no que diz
respeito à gestão de recursos hídricos e da sustentabilidade ambiental.
Referências Bibliográficas
ALVES, E. C.; SILVA, C. F.; COSSICH, E. S.; TAVARES, C. R. G.; FILHO, E. E. S.; CARNIEL, A.
(2008). Avaliação da qualidade da água da bacia do rio Pirapó – Maringá, Estado do Paraná, por meio de
parâmetros físicos, químicos e microbiológicos. Acta Scientiarum. Technology, Maringá, v. 30, n. 1, p. 39-
48.
BERRY, M. J. A.; LINOFF, G. S. (2004). Data Mining Techniques: For Marketing, Sales, and Customer
Relationship Management. Indianapolis:Wiley Publishing, Inc., 672 p.
BRASIL. Conselho Nacional do Meio Ambiente. Resolução n. 357, de 17 de março de 2005. Brasília:
CONAMA, 2005.
CETESB. Relatório de Qualidade das Águas Superficiais do Estado de São Paulo – 2010. São Paulo:
CETESB, 2011. Disponível em: <http://www.cetesb.sp.gov.br/
agua/aguas-superficiais/35-publicacoes-/-relatorios>. Acesso em: 27 fev. 2012.
19
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
08 e 09 de junho de 2012
DUARTE, A. A. A.; BERTHOLDO, L.; UMBUZEIRO, G. A.; CAMOLESI JÚNIOR, L.; SILVA, C. G..
Processamento e Visualização de Dados para a Descoberta de Conhecimento em Sistemas de
Monitoramento de Qualidade de Água. In: III Workshop de Computação Aplicada à Gestão do Meio
Ambiente e Recursos Naturais, Natal, p. 1409-1418.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. (1996). From data mining to knowledge
discovery: An overview. In: Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT
Press, England, p. 37-54.
FERNANDES, J.; DUARTE, A. S.. Um Sistema de Data Warehousing para a Área da Qualidade da Água.
2009. 16p. Universidade do Minho, Portugal.
HISTÓRICO. Institucional – CETESB - Companhia Ambiental do Estado de São Paulo. Disponível em:
<http://www.cetesb.sp.gov.br/institucional/institucional/52-Histórico>. Acesso em: 29 fev. 2012.
JACOBI, P. R.; BARBI, F.. Democracia e participação na gestão dos recursos hídricos no Brasil. Revista
Katálysis, Florianópolis, v. 10, n. 2, p.237-244, 2007.
KARIMIPOUR, F.; DELAVAR, M. R.; KINAIE, M. (2005). Water Quality Management Using GIS Data
Mining. Journal of Environmental Informatics. Canadá, v. 5, n. 2, p. 61-71.
MAGAIA, L. P. T.. O papel dos sistemas de suporte à decisão na análise da qualidade da água . 2009.
Dissertação (Mestrado em Sistemas de Dados e Processamento Analítico) –Universidade do Minho,
Portugal.
MARANHÃO, N.. Sistema de Indicadores para Planejamento e Gestão dos Recursos Hídricos de Bacias
Hidrográficas. 2007. 422 p. Tese (Doutorado) – Universidade Federal do Rio de Janeiro, Rio de Janeiro,
2007.
REDE DAS ÁGUAS. Uma política pública para as águas. Disponível em:
<http://www.rededasaguas.org.br/politicas-publicas/>. Acesso em: 02 mar. 2012.
SEIXAS, A. J.; NELSON, F. F. E.; BEATRIZ, S. L. P. L.. Mining spatial and temporal data to classify
water quality: a case study. In: Data Mining IX: Data Mining, Protection, Detection and Other Security
Technologies. Reino Unido, v. 40, p. 83-94, 2008.
TAN, P.; STEINBACH, M.; KUMAR, V. (2009). Introdução ao Data Mining – Mineração de Dados. Rio
de Janeiro: Editora Ciência Moderna. 900 p.
UMBUZEIRO, G. A.; LORENZETTI, M. L.. Fundamentos da Gestão da Qualidade das Águas: Resolução
CONAMA 357/2005. Limeira-SP: Biblioteca da Unicamp/CPEA, 2009.
VON SPERLING, M.. Estudos e modelagem da qualidade da água de rios. Belo Horizonte:
Departamento de Engenharia Sanitária e Ambiental – Universidade Federal de Minas Gerais,
2007. 588 p. v.7.
20