Técnicas de Mineração de Dados PDF

08 e 09 de junho de 2012
ISSN 1984-9354
TÉCNICAS DE MINERAÇÃO DE DADOS NA

CLASSIFICAÇÃO DE ECOTOXICIDADE DE ÁGUA
PARA APLICAÇÃO NA GESTÃO DE CORPOS
HÍDRICOS
Leonardo Bertholdo
(Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp); Fundação
Centro de Pesquisa e Desenvolvimento em Telecomunicações (CPqD)
Celmar Guimarães da Silva
(Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp)
Gisela de Aragão Umbuzeiro
Luiz Camolesi Júnior
Resumo: Dentre as diversas formas de ação que promovem a sustentabilidade, a inovação

tecnológica pode ser considerada uma das mais importantes. Neste trabalho são aplicadas
técnicas de mineração de dados na descoberta de conhecimento no domínio dee dados de
monitoramento de qualidade de água, para prover subsíd ios úteis e relevantes que auxiliem
na tomada de decisão em sistemas de gestão ambiental. No estágio atual da pesquisa, está
sendo utilizada uma técnica de modelagem previsiva conhecida como classificação baseada
em regras, onde o objetivo é descobrir regras que possam, com base nos valores de
determinados parâmetros químicos, prever o nível de ecotoxicidade de uma amostra de
água. Foram utilizados dados referentes a análises de água dos principais corpos hídricos
do estado de São Paulo, realizadas entre os anos de 2005 e 2010. Espera-se obter uma forma
confiável, rápida e eficaz para predizer os níveis de ecotoxicidade de água em rios, lagos e
reservatórios com base em análises de parâmetros químicos, ou indicar a
complementaridade dessas medições em busca da otimização das redes de monitoramento e
consequente melhoria da gestão dos recursos naturais.
Palavras-chaves: Monitoramento de qualidade de água, Gestão de recursos hídricos,

Descoberta de conhecimento em bases de dados, Mineração de dados
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
1. Introdução
A água é um elemento essencial para a existência e a manutenção da vida, uma vez que é o
principal componente dos organismos vivos. No contexto humano, além de possibilitar nossa
sobrevivência, a água também viabiliza um amplo espectro de atividades, tais como abastecimento
público e industrial, irrigação agrícola, produção de energia elétrica e atividades de lazer e
recreação. Não obstante a esta realidade, a expansão demográfica e industrial das últimas décadas
vem ocasionando o comprometimento de muitos corpos hídricos, como rios, lagos e reservatórios.
Vale destacar ainda que a água doce é um recurso natural limitado pelo alto custo da sua obtenção
a partir de formas menos convencionais, como as águas marinhas e subterrâneas. Sendo assim, o
uso racional e o controle de qualidade das águas doces é de fundamental relevância para
preservação deste bem (Alves et al., 2008).
Atualmente, a Companhia Ambiental do estado de São Paulo (CETESB) é responsável
pelo monitoramento e levantamento de informações sobre a qualidade das águas dos corpos
hídricos deste estado. Para isso, mantém quase 350 pontos fixos de coleta de amostras, os quais
são localizados ao longo dos corpos hídricos monitorados. Cada amostra é analisada sob aspectos
físicos, químicos e biológicos, formando um conjunto de dados rico em informações relativas às
condições ambientais destes corpos hídricos (CETESB, 2011).
A avaliação individual destes dados pode não proporcionar descobertas relevantes,
tornando indispensáveis metodologias que permitam sintetizar os números levantados em
informações compreensíveis e significativas, viabilizando a inferência da sustentabilidade
ambiental das bacias hidrográficas. Atualmente, existem diversos “índices” ou “indicadores” para
caracterizar o desempenho dos sistemas hídricos. Estes possuem diferentes enfoques e
normalmente englobam vários parâmetros em um único número como, por exemplo, o IVA
(Índice de Qualidade das Águas para Proteção da Vida Aquática), um dos índices utilizados pela
CETESB, que considera em seu cálculo variáveis especialmente impactantes para a vida aquática
como metais, oxigênio dissolvido, pH e toxicidade (CETESB, 2011).
1.1 Objetivo
Atualmente, a toxicidade de uma amostra de água é mensurada por meio de testes

ecotoxicológicos, que consistem na determinação de efeitos tóxicos em organismos aquáticos
causados por um ou mais agentes químicos. Os efeitos tóxicos agudos caracterizam-se por serem
2
mais drásticos, causados por elevadas concentrações de agentes químicos e, em geral, manifestam-
se em um curto período de exposição dos organismos. Os efeitos tóxicos crônicos são mais sutis,
causados por baixas concentrações de agentes químicos dissolvidos e são detectados em
prolongados períodos de exposição ou por respostas fisiológicas adversas na reprodução e
crescimento dos organismos vivos (CETESB, 2011).
Esta pesquisa tem como objetivo descobrir padrões de classificação de ecotoxicidade a
partir dos dados de monitoramento levantados pela CETESB entre os anos de 2005 e 2010. Uma
vez descobertos, estes padrões poderiam ser utilizados na predição da toxicidade de futuras
amostras de água, minimizando a utilização de organismos vivos nas análises ecotoxicológicas,
tornando estas análises mais rápidas e eficazes, contribuindo na aferição de indicadores de
sustentabilidade ambiental como o IVA, por exemplo, ou então descobrir que o conjunto de
parâmetros/valores adotados são insuficientes para efetuar essa predição, indicando a necessidade
de análises adicionais ou alteração dos padrões vigentes. Para isso, os dados citados serão
processados por meio de técnicas de mineração de dados, que utilizam métodos específicos para
descoberta de informações implícitas em repositórios de dados.
1.2 Metodologia
A metodologia utilizada nesta pesquisa é baseada no processo de descoberta de

conhecimento em base de dados, conhecido como Knowledge Discovery in Databases (KDD), o
qual é dividido em cinco etapas principais: Seleção dos dados brutos, Pré-processamento dos
dados selecionados, Transformação dos dados pré-processados, Mineração dos dados
transformados e Interpretação e Avaliação dos padrões encontrados pela mineração. Nas duas
etapas iniciais e na etapa final, a pesquisa conta com a importante participação de uma especialista
da área de saneamento ambiental, visando auxiliar na escolha e preparação dos dados e na análise
dos resultados obtidos.
Na etapa de mineração dos dados, foi aplicada uma das abordagens centrais desta
disciplina, a modelagem previsiva, que busca construir um modelo para prever o valor de um dado
atributo com base nos valores de outros atributos do conjunto de dados. Esta modelagem foi
realizada por meio da técnica de classificação baseada em regras, onde os registros de uma base de
dados são classificados a partir de regras obtidas por meio de um mecanismo de aprendizagem. No
âmbito dos dados de qualidade de água, cada registro da base de dados de monitoramento é
representado pela análise de uma amostra de água coletada de um dado ponto de um corpo
hídrico, em uma data específica, e que é analisada sob diversos parâmetros químicos. Neste
3
contexto, o objetivo da técnica é descobrir regras que possam, com base nos valores destes
parâmetros, definir o nível de toxicidade de cada amostra de água.
A escolha da técnica de mineração, foi realizada a partir de uma pesquisa bibliográfica
visando levantar métodos já utilizados na área ambiental e com dados semelhantes. Vale ressaltar
que, apesar de serem relacionados à área da computação, todos os trabalhos pesquisados tinham
em comum a forte preocupação com a questão da gestão dos recursos naturais e do
desenvolvimento sustentável. Dentre as diversas abordagens aplicadas neste domínio, a técnica de
cobertura sequencial, foi considerada uma das mais apropriadas para a tarefa a ser realizada nesse
estágio da pesquisa, pois permite extrair regras de classificação diretamente dos dados, ao
contrário de outros métodos que extraem regras indiretamente, a partir de outros modelos como
árvores de decisão e redes neurais. Neste estudo, as regras de classificação extraídas são
representadas pela expressão condicional “Se <valores dos parâmetros químicos> Então <valor
da toxicidade>”, sendo a toxicidade a classe a ser atribuída aos registros de teste, que nada mais
são que as análises das amostras de água onde pretende-se prever o valor de toxicidade.
O desempenho das regras de classificação geradas por esta técnica foi avaliado pelo
método da validação cruzada de duas partes. Nesta abordagem, a base de dados é dividida em dois
subconjuntos com quantidades de registros semelhantes. Em um primeiro momento, um dos
subconjuntos é utilizado como base de treinamento, ou seja, as regras de classificação são
extraídas a partir deste subconjunto. Em seguida, as regras extraídas são aplicadas ao outro
subconjunto, que faz o papel de base de teste. Por fim, é calculada a taxa de erro das regras
aplicadas nesta base de teste. No segundo momento, os papéis são invertidos, de modo que o
subconjunto de treinamento passa a ser de teste e vice-versa. A taxa de erro total é então calculada
pela média das duas execuções. Com base nesta taxa, pode-se inferir a confiabilidade das regras
geradas e, consequentemente, saber o quanto elas podem ser úteis ao serem empregadas em
sistemas de gestão de qualidade de água.
Os resultados preliminares desta pesquisa são apresentados neste artigo, iniciando pela
Seção 2, que mostra um breve histórico da gestão e do monitoramento de recursos hídricos no
Brasil, em especial no estado de São Paulo. Em seguida, a Seção 3, descreve o processo de
descoberta de conhecimento destacando sua principal etapa, a mineração de dados. Na Seção 4 é
apresentada a aplicação da técnica de classificação baseada em regras nos dados de
monitoramento de água, bem como os resultados preliminares obtidos. Por fim, a Seção 5
apresenta as considerações finais referentes a este trabalho.
4
2. Gestão de Recursos Hídricos
A gestão de bacias hidrográficas passou a assumir crescente importância no Brasil à

medida que os efeitos da degradação ambiental sobre a disponib ilidade de recursos hídricos foram
aumentando (Jacobi et al., 2007). Com a Constituição de 1988 a participação da sociedade na
gestão dos recursos naturais e, especialmente na gestão das águas, passou a ser um preceito
fundamental para nortear todas as políticas públicas do setor. No estado de São Paulo, a
Constituição Estadual de 1989 já havia incorporado novos conceitos à q uestão dos recursos
hídricos: a gestão descentralizada, participativa e integrada; a divisão por bacia hidrográfica; e o
aproveitamento múltiplo dos recursos hídricos. Em 1991, o governo federal encaminhou ao
Congresso Nacional o primeiro projeto de lei que tratava da Política Nacional de Recursos
Hídricos e, neste mesmo ano, o estado de São Paulo, instituiu, por meio da Lei 7.663, o Sistema
Estadual de Recursos Hídricos. A partir deste sistema, o território paulista foi dividido em 22
regiões hidrográficas e institui-se a gestão por bacia, com participação efetiva da sociedade civil
no processo decisório. A Lei paulista reforçou preceitos do Código de Águas e da Constituição ao
contemplar instrumentos de gestão, como o Plano de Bacias, a cobrança pelo uso da água e o
Fundo Estadual de Recursos Hídricos, para utilização direta nos Comitês de Bacias – colegiados,
com poder deliberativo, que reúnem representantes dos municípios, dos órgãos de Estado e da
sociedade civil organizada para gestão integrada, descentralizada e participativa das águas (Rede
das Águas, 2012).
No estado de São Paulo, a implantação dos comitês de bacia hidrográfica e de outras
agências ambientais descentralizadas, sucedeu a criação de uma instituição que se tornou centro de
referência para questões ambientais. A Companhia Ambiental do estado de São Paulo (CETESB),
criada em 1968, é responsável pelo controle, fiscalização, monitoramento e licenciamento de
atividades geradoras de poluição, com a preocupação fundamental de preservar e recuperar a
qualidade das águas, do ar e do solo (Histórico, 2012). Desde 1974, a CETESB vem coletando
informações sobre a qualidade das águas doces do estado de São Paulo por meio de uma ampla
rede de monitoramento distribuída pelas 22 Unidades de Gerenciamento de Recursos Hídricos
(UGRHIs) delimitadas. Cada uma destas UGRHIs conta com vários pontos de amostragem, de
onde são coletadas as amostras de água que, posteriormente, serão analisadas em laboratório
(CETESB, 2011). A Figura 1 mostra esta divisão, classificando as UGRHIs em grupos conforme
suas respectivas vocações.
5
Figura 1. Classificação das 22 UGRHIs por vocação (CETESB, 2010)

Cada UGRHI possui um dado número de pontos de amostragem, sendo que em cada ponto
é analisado um conjunto de parâmetros, os quais podem estar relacionados a aspectos físicos,
químicos, microbiológicos, hidrobiológicos e ecotoxicológicos da água. Anualmente, a CETESB
publica em sua página na Internet as análises realizadas em cada ponto de amostragem por meio
de arquivos em formato PDF. Somente a rede básica, que visa especificamente a análise da água
dos corpos hídricos do estado, gera um volume de dados anual de 65.000 análises (CETESB,
2011), considerando que cada análise corresponde a uma medição de um parâmetro em um ponto
de amostragem, realizada em uma data específica.
Estas análises são realizadas sob os preceitos da Resolução CONAMA 357/2005,
legislação ambiental regulamentada pelo Conselho Nacional de Meio Ambiente (Brasil, 2005),
que dispõe sobre a classificação dos corpos hídricos, dá diretrizes ambientais para o seu
enquadramento, bem como estabelece condições e padrões de lançamento de efluentes
(Umbuzeiro et al., 2010). Esta Resolução também define cinco classes para as águas doces,
Especial, 1, 2, 3 e 4, sendo que a Classe Especial pressupõe usos mais nobres e a Classe 4 menos
nobres. Estas classes representam um conjunto de condições e padrões de água necessários ao
atendimento dos usos preponderantes, atuais ou futuros (Von Sperling, 2007).
Enfim, as análises realizadas representam importantes indicadores ambientais para a gestão
do desenvolvimento sustentável, que pode ser definido como o desenvolvimento que atende às
necessidades do presente sem comprometer a capacidade das futuras gerações atenderem às suas
necessidades (Brundtland, 1987). Os indicadores ambientais são de grande valia, sobretudo por
servirem de insumo para composição dos chamados “indicadores de sustentabilidade” que,
segundo Maranhão (2007), representam um aprofundamento dos indicadores ambientais no
sentido de integrar os territórios dos indicadores econômicos, sociais e ambientais, visto que o
desenvolvimento sustentável requer um tipo de visão integrada do mundo.
6
3. Descoberta de Conhecimento em Bases de Dados
A capacidade de uma organização de tomar decisões é frequentemente associada ao

conhecimento que esta possui sobre seu domínio de dados. Um dos problemas dos analistas de
informação é a transformação de dados em informação relevante para a tomada de decisão (Silva,
2007). Conforme pôde-se notar, as análises realizadas pela CETESB originam um conjunto
valioso de informações referentes à qualidade da água dos corpos hídricos. No entanto, se
analisadas por meio de técnicas convencionais, a descoberta de insumos que possam auxiliar na
tomada de decisão torna-se bastante improvável.
Nas últimas décadas, foram desenvolvidos processos que podem auxiliar na descoberta de
informações não triviais em grandes repositórios de dados e, assim, dar um significado mais
representativo e abrangente aos dados existentes nestes repositórios. Entre estes processos, talvez
o Knowledge Discovery in Databases (KDD), ou Descoberta de Conhecimento em Bases de
Dados, seja um dos mais conhecidos e disseminados no meio computacional. Conforme Fayyad et
al. (1996), KDD é um processo não trivial de identificar padrões válidos, novos (antes
desconhecidos), potencialmente úteis e, essencialmente, compreensíveis em bancos de dados. Este
processo é formado por uma série de etapas, que compreendem todo o ciclo percorrido pelos
dados, desde a seleção do conjunto de dados a ser estudado até a interpretação dos padrões e
regras gerados por abordagens como a mineração de dados. A Figura 2 apresenta as cinco fases
que compõem o processo de KDD.
Figura 2. Etapas que compõem o processo de KDD. Adaptado de (Fayyad et al. 1996)
Na etapa de seleção é escolhido o conjunto de dados a ser estudado, contendo todas as
variáveis que possuem chance de serem utilizadas durante o processo. No pré-processamento são
realizados ajustes no conjunto de dados selecionado como por exemplo: eliminação de dados
7
redundantes, recuperação de dados incompletos e tratamento de dados discrepantes (outliers). A

fase de transformação contempla a uniformização e a centralização dos dados selecionados e
limpos nas fases anteriores, de modo a reduzir o tempo de processamento dos mecanismos de
mineração. A etapa de mineração de dados é onde são implementados os algoritmos, mecanismos
inteligentes responsáveis pelo levantamento de padrões e regras implícitos em meio ao conjunto
de dados. Por fim, a interpretação e avaliação verificam os resultados obtidos na etapa de
mineração, visando entender o significado e a relevância das informações descobertas (Prass,
2004). Na maior parte deste processo, é essencial o acompanhamento de um especialista no
domínio tratado, cujas habilidades auxiliam decisivamente na escolha do conjunto de dados a ser
estudado, na definição do tipo de conhecimento a ser descoberto e como tal conhecimento pode
contribuir no suporte a decisões (Duarte et al., 2011).
Dentre as cinco etapas do KDD, a mineração de dados, ou data mining, pode ser
considerada a principal, pois é nessa fase em que são extraídas de fato as informações implícitas
presentes no conjunto de dados. Este conhecimento é obtido por meio da busca de padrões e
relacionamentos entre as variáveis e seus dados. Segundo Berry (2004), a mine ração de dados
consiste na exploração e análise de grandes quantidades de dados, visando a descoberta de padrões
e regras significativas. Para atingir seu objetivo, a mineração de dados utiliza-se de técnicas de
diferentes áreas do conhecimento como: estatística, banco de dados, reconhecimento de padrões,
inteligência artificial, visualização de informação, aprendizagem de máquina, entre outras.
Atualmente, esta abordagem vem sendo aplicada nos mais diversos cenários, tais como: área
acadêmica, finanças, comércio, marketing, medicina, genética, telecomunicações e meio ambiente.
Particularmente no domínio da gestão ambiental, o método de KDD tem se mostrado
bastante útil no sentido de proporcionar diretrizes para a transformação de dados brutos em
informações de valor estratégico. Conforme Silva (2007), a descoberta de conhecimento em bases
de dados de monitoramento ambiental, utilizando técnicas de mineração de dados, para avaliar a
qualidade da água pode ser uma ferramenta importante para o processo de tomada de decisão
realizado por órgãos e gestores de recursos hídricos na avaliação qualitativa destes.
Em termos de processo de descoberta de conhecimento, o estado atual deste trabalho, no
que se refere à tarefa de modelagem previsiva, encontra-se entre as etapas de mineração de dados
e interpretação e avaliação dos resultados, uma vez que foram obtidos os primeiros resultados a
partir da técnica de classificação baseada em regras, os quais vem sendo analisados sob os
aspectos de significância e relevância.
8
3.1. Trabalhos Relacionados
Existem diversos trabalhos relativos à utilização da mineração de dados na classificação de

dados de monitoramento de recursos hídricos, os quais visam basicamente trazer insumos que
possam auxiliar na tomada de decisão e a definir futuras políticas públicas para gestão sustentável
destes recursos.
Fernandes et al. (2009) apresenta um sistema de data warehousing para armazenamento
dos dados de qualidade da água de uma determinada região de Portugal, Além de organizar e
uniformizar as informações em uma base de dados, a ferramenta procura auxiliar na descoberta do
conhecimento através da aplicação das técnicas de mineração de dados, como a classificação e a
regressão linear.
Magaia (2009) aborda o papel dos sistemas de suporte à decisão na análise da qualidade da
água. O autor propõe o desenvolvimento de um sistema para este fim específico, o qual é
empregado em uma estação de tratamento de água. A ferramenta tem como objetivo coletar e
fornecer estruturas e meios para a explo ração multidimensional dos dados, bem como a sua
classificação e geração de modelos através de mecanismos de data mining.
Seixas et al. (2008) investiga a correlação dos dados espaciais e temporais que compõem o
conjunto de poluentes da Lagoa Rodrigo de Freitas no Rio de Janeiro. O objetivo principal é obter
uma metodologia para a classificação da qualidade da água, que podem ser ut ilizados em outros
corpos hídricos. O trabalho inclui várias etapas de descoberta de conhecimento que são
implementadas para atingir as metas, bem como a utilização de técnicas de mineração de dados
para agrupar e classificar os dados.
Karimipour et al. (2005) investiga a mineração de dados geoespaciais para gestão de dados
ambientais e, especialmente, para gestão de qualidade de água. Um estudo de caso realizado na
região entre o Azerbaijão e o Irã apresenta a correlação entre a poluição de centros industriais e
indicadores de qualidade de água através de mineração de dados geoespaciais. Segundo o estudo,
ficam visíveis a relação entre o quantidade e a localização da poluição industrial e os indicadores
de qualidade da água.
Com relação às pesquisas citadas, este trabalho diferencia-se por buscar regras de
classificação que possibilitem especificamente a inferência da toxicidade da água dos corpos
hídricos. Além disso, a parte computacional é implementada por meio da técnica de cobertura
sequencial, visando a extração das regras diretamente do conjunto de dados.
9
4. Processo para Descoberta de Regras de Classificação de Toxicidade
A abordagem empregada neste estudo, para geração de regras de classificação de

toxicidade em corpos hídricos, foi baseada no processo de KDD, visto que este proporciona uma
eficiente diretriz para estudos voltados à descoberta de conhecimento em bases de dados, além de
ser um método bastante consolidado na área de tecnologia. Esta seção apresenta todos os passos
percorridos durante este processo, desde a seleção e preparação dos dados brutos de
monitoramento de qualidade de água, passando pela etapa de mineração dos dados pré-
processados, até a fase de análise dos resultados preliminares obtidos.
4.1. Pré-processamento dos dados
A aplicação das técnicas de mineração de dados tem como premissa que os dados a serem
pesquisados estejam pré-selecionados, uniformes, normalizados, centralizados e com um nível
satisfatório de completude. Todas essas atividades de preparação dos dados visam sobretudo
otimizar a significância e a confiabilidade dos resultados gerados na etapa de mineração. Outro
importante benefício do pré-processamento dos dados é a redução de possíveis impactos no
desempenho da mineração, uma vez que, ao não se ocupar com o tratamento dos dados, esta pode
concentrar esforço computacional em seu propósito original, a busca de informações implícitas e
úteis no conjunto de dados. Nesse estudo, a etapa de pré-processamento compreendeu atividades
para seleção, transformação, centralização, imputação e discretização dos dados, as quais serão
apresentadas nas próximas seções.
4.1.1. Seleção dos Dados
No processo de KDD, a seleção dos dados está situada antes da etapa de pré-
processamento, no entanto, alguns autores como Tan et al. (2009), tratam a seleção como parte
desta etapa, abordagem também empregada neste artigo, uma vez que todas as etapas antes da
mineração de dados são fortemente relacionadas, podendo ser agrupadas em uma única etapa de
pré-processamento.
Neste trabalho, o conjunto de dados a ser analisado foi selecionado com base em critérios
gerais, relacionados a aspectos mais abrangentes dos dados, e critérios específicos, associados a
características mais peculiares dos dados. A seguir, os critérios gerais e as respectivas descrições
de como foram aplicados:
10
Crité rios gerais para seleção dos dados:

 Tipo de rede de monitorame nto – Foram escolhidos os pontos da Rede Básica,
que abrange quase 85% dos pontos da rede de monitoramento da CETESB. Este
tipo de rede visa unicamente o avaliação da água dos rios do estado de São Paulo,
não contemplando análises de sedimentos e balneabilidade destes rios, tampouco
análises oriundas de sistemas de monitoramento automático.
 Aspecto temporal – Foram contempladas as análises realizadas entre os anos de

2005 a 2010. Apesar de a CETESB publicar dados de análises a partir do ano
2000, utilizamos somente os últimos seis anos disponíveis para restringir esta
pesquisa à realidade mais recente dos corpos hídricos.
 Aspecto espacial – Das 22 UGRHIs existentes no estado de São Paulo, foram

consideradas somente quatro delas, são elas: Paraíba do Sul (2), Piracicaba/
Capivari/Jundiaí (5), Alto Tietê (6), Sorocaba/Médio Tietê (10). O propósito foi
selecionar as UGRHIs mais populosas, com aproximadamente 70% dos habitantes
do estado, e fortemente industrializadas, uma vez que os rios de regiões com este
perfil normalmente são bastante impactados pela atividade industrial.
Após a aplicação dos critérios gerais, dos 317 pontos de amostragem, existentes em média
nos seis anos, permaneceram 165, todos localizados nas quatro UGRHIs selecionadas e
integrantes da Rede Básica da CETESB.
Os critérios específicos para seleção dos dados levaram em conta especialmente a questão
da completude, uma das premissas básicas para que a etapa de mineração de dados seja bem
sucedida. A seguir, são apresentados cada um dos critérios específicos empregados na seleção dos
dados, bem como a ordem em que foram aplicados:
Crité rios específicos para seleção dos pontos de amostragem:
1. Somente pontos dos corpos hídricos que possuem 2 ou mais pontos de

amostragem.
2. Somente pontos que estão presentes em todos os anos.
3. Somente pontos que possuem análise de Toxicidade, visto que este parâmetro é
essencial neste estudo.
4. Somente pontos pertencentes à Classe 2. Para manter a uniformidade dos dados,
foram descartados quatro pontos, dois pertencentes à Classe 0 (Especial) e dois
pertencentes à Classe 3.
11
Após a aplicação destes critérios, dos 165 pontos de amostragem, selecionados com base
nos critérios gerais, permaneceram 44, considerados os pontos com maior riqueza e uniformidade
de dados.
Crité rios específicos para seleção dos parâmetros de qualidade :
1. Parâmetros que constam em pelo menos 80% dos pontos de amostragem.

2. Parâmetros considerados mais impactantes para a vida aquática e a saúde humana
e, consequentemente, com maior possibilidade de trazer à tona informações
relevantes.
A aplicação destes critérios específicos resultaram na seleção de 10 parâmetros químicos,
que supostamente poderiam estar relacionados direta ou indiretamente, separadamente ou em
conjunto com efeitos tóxicos a biota, além da toxicidade, são eles: Cádmio Total, Chumbo Total,
Cobre Dissolvido, Níquel Total, Nitrato, Nitrito, Nitrogênio Amoniacal, Oxigênio Dissolvido,
Substância Tensoativa e Zinco Total.
Crité rio específico para seleção dos conjuntos de medição:

 Somente conjuntos de medição dos pontos e datas de coleta que contêm o valor
medido no campo Toxicidade.
Este último critério eliminou aproximadamente 30% dos conjuntos de medição
selecionados até então. Vale esclarecer que o termo “conjunto de medição” refere-se a cada grupo
“medições de n parâmetros + medição de toxicidade”, o qual está associado a um ponto de
amostragem e uma data de coleta específicos.
4.1.2. Transformação dos Dados
Após selecionados, os dados brutos foram centralizados em um repositório criado por meio
do sistema gerenciador de banco de dados PostgreSQL. Porém, para tornar isto possível, foi
necessário converter os dados, que se encontravam em arquivos PDF, para um formato adequado à
estrutura de um banco de dados. Essa atividade foi realizada em várias etapas e consumiu a maior
parte do tempo de pré-processamento, uma vez que os arquivos originais tinham pequenas
diferenças entre si, que demandavam tratamento para que não impactassem na exatidão e na
confiabilidade dos dados recuperados. A Figura 3 ilustra o processo de conversão dos dados
originais até o armazenamento no banco de dados.
12
Figura 3. Esquema de conversão dos dados brutos

Primeiramente, os arquivos PDF foram convertidos para o formato XML (eXtenbible
Markup Language) com o auxílio da própria ferramenta Adobe© Acrobat. Em seguida, por meio
de dois conversores implementados na linguagem de programação Java, foram efetuadas as
conversões de XML para o formato texto (TXT), e deste para o formato SQL (Structured Query
Language). Por fim, os comandos SQL gerados foram executados, permitindo a inserção dos
dados no banco previamente criado no PostgreSQL.
4.1.3. Imputação de Dados Faltantes
A ausência de valores para determinados parâmetros, ou a inexatidão destes, pode causar

interferências na mineração de dados e, consequentemente, gerar resultados distorcidos. A solução
mais radical para estes casos é a remoção do registro completo, mesmo que este possua somente
um dos atributos com valor faltante. Nesse estudo, para não reduzir ainda mais a quantidade de
conjuntos válidos, foi empregada a técnica de imputação, que consiste na atribuição de valores aos
parâmetros baseada em um ou mais critérios.
Em medições com valores faltantes ou onde não foi possível detectar se o valor estava
abaixo ou acima do padrão da resolução CONAMA 357/2005 (Brasil, 2005), denominado neste
13
trabalho como Padrão CONAMA, o valor foi ignorado sendo imputado um valor médio mensal do
parâmetro nos seis anos (2005-2010). Exemplos:
Valor imputado = Média
Valor imputado = Média
Em medições abaixo do Padrão CONAMA, porém sem valor exato conhecido, foi
imputado o valor medido. Exemplo:
Valor imputado = 0,02
4.1.4. Discretização dos Dados
Normalmente, os mecanismos de classificação requerem que os atributos contínuos sejam

categorizados por meio de valores discretos, processo denominado discretização. De acordo com
Tan et al. (2009), a melhor abordagem de discretização é aquela que produz o melhor resultado
para a técnica de mineração de dados a ser utilizada. A conversão de um atributo contínuo em
discreto envolve duas tarefas: definir quantas categorias devem existir e como será feito o
mapeamento dos valores contínuos para os valores discretos.
A discretização dos dados de monitoramento de qualidade água foi realizada de forma
empírica, por meio da inspeção visual dos dados, dispensando técnicas supervisionadas mais
apuradas. Esta abordagem segundo Tan et al. (2009) às vezes pode ser eficaz. A Tabela 1 mostra
como os parâmetros químicos foram discretizados considerando o Padrão CONAMA, a
Toxicidade como parâmetro previamente discretizado conforme a resposta do organismo vivo,
bem como os mnemônicos utilizados para identificação dos valores na base de dados.
Tabela 1. Discretização dos parâmetros contínuos

Parâmetros Contínuos Mnemônico Descrição dos Valores Discretizados
Cádmio Total, Cobre Dissolvido, PC Padrão CONAMA − Dentro do Padrão
Nitrogênio Amoniacal, Níquel Total, CONAMA.
Nitrato, Nitrito, Oxigênio AC Acima − Acima do Padrão CONAMA em até
Dissolvido, Chumbo Total, 3x.
Substância Tensoativa, Zinco Total MA Muito Acima − Acima do Padrão CONAMA
maior que 3x.
Parâmetro Discreto Mnemônico Descrição dos Valores Discretos
Toxicidade NT Não Tóxico − Ausência de resposta
fisiológica do microcrustáceo Ceriodaphnia
Dubia.
CR Crônico − Resposta fisiológica do
microcrustáceo Ceriodaphnia Dubia.
AG Agudo − Forte resposta fisiológica do
microcrustáceo Ceriodaphnia Dubia.
14
4.2. Classificação de Toxicidade de Água Baseada em Regras

A técnica de classificação baseada em regras é uma abordagem da mineração de dados que
busca construir um modelo, a partir de um conjunto de registros previamente rotulados, capaz de
classificar os registros de outros conjuntos ainda não rotulados. A Figura 4 ilustra de forma
genérica a construção de um modelo de classificação baseado em regras. Na fase inicial, um
conjunto de treinamento, contendo registros cujas classes são conhecidas, é selecionado. Este
conjunto é utilizado como insumo para construção do modelo de classificação, que nada mais é
que o conjunto de regras de classificação encontrado. No momento seguinte, este modelo é
aplicado a um conjunto de testes, contendo registros cujas classes são desconhecidas. Por fim, o
desempenho do modelo é avaliado com base na taxa de erros ao classificar os registros da base de
testes.
Conjunto de Treinamento Conjunto de Teste
Atributo 1 Atributo 2 Atributo 3 Classe Atributo 1 Atributo 2 Atributo 3 Classe
Sim Pequeno 22 B Sim Grande 32 ?
Não Grande 15 A Sim Pequeno 25 ?
Sim Pequeno 28 B Não Grande 19 ?
Indução Dedução
Algoritmo de Modelo de Regras de classificação

aprendizagem gera as geradas são aplicadas
regras de classificação
Classificação no conjunto de teste
Figura 4. Construção de um modelo de classificação baseado em regras

No contexto desta pesquisa, o algoritmo aprende um conjunto de regras condicionais a
partir da base de dados de treinamento, sendo cada regra composta por um antecedente, também
chamado de pré-condição, que contém os valores dos parâmetros químicos já mencionados, e um
consequente, que contém o valor da classe prevista, que no caso desse estudo é a toxicidade. Em
seguida, estas regras aprendidas pelo algoritmo são aplicadas à base de testes, de modo a atribuir
um valor de toxicidade à cada conjunto de medição desta base. Um exemplo de regra gerada seria:
Se Níquel=AC e Chumbo=AC e Zinco=MA Então Toxicidade=CR
Para avaliar a qualidade de uma regra de classificação existem medidas básicas como a
cobertura e a precisão. A primeira visa determinar a taxa de registros que se enquadram no
antecedente da regra e, portanto, disparam esta regra. A segunda define a taxa de registros que se
15
enquadram tanto no antecedente quanto no consequente da regra e, portanto, além de disparar esta
regra, também pertencem à classe prevista p ela regra. Os cálculos destas medidas podem ser
expressos da seguinte forma:
Nessa pesquisa, o modelo de classificação foi gerado por um algoritmo de cobertura sequencial,
que faz uma busca pelas melhores regras para prever cada classe, no caso os valores de
Toxicidade: NT (Não Tóxico), CR (Crônico) e AG (Agudo). Durante a busca das regras, todos os
conjuntos de medição com classe igual a que está sendo pesquisada são considerados positivos, e
todos os outros conjuntos são considerados negativos. Uma regra é considerada satisfatória se
cobrir a maioria dos conjuntos positivos e poucos negativos.
4.3. Resultados Preliminares
Para configurar o processamento da classificação e visualizar os resultados gerados por

este processamento, foi implementado uma ferramenta em linguagem de programação Java, cuja
interface principal é apresentada na Figura 5. Esta interface pode ser dividida em duas partes: o
painel de controle, à esquerda, que destina-se às configurações de classificação e visualização,
bem como aos botões de comando; e a área de processamento, à direita, onde os resultados do
processamento podem ser visualizados.
Antes de iniciar a classificação, primeiramente é necessário selecionar a base de dados de
treinamento, que servirá de insumo para o aprendizado do algoritmo. Em seguida, é possível
configurar as taxas de cobertura e precisão mínimas que deve m ser consideradas na busca de
regras, caso não sejam configuradas, são procuradas todas as regras possíveis, independentemente
de suas taxas de cobertura e precisão. Também é possível definir algumas opções de visualização,
que permitem configurar até quatro níveis de detalhamento das informações de processamento.
Por fim, o botão Buscar Regras inicia o processo de busca de regras de classificação para
toxicidade de água.
16
Figura 5. Ferramenta para busca de regras de classificação de toxicidade de água1

Após gerar as regras, pode-se visualizar o comportamento das taxas de cobertura e precisão
durante a formação de cada regra encontrada. Por meio de um gráfico de linhas, esta
funcionalidade permite avaliar de forma rápida e eficaz o desempenho de cada regra gerada,
auxiliando assim na tomada de decisão de quais regras devem ser consideradas ou descartadas
para a classificação da toxicidade da água. A Figura 6 mostra como as taxas de cobertura e
precisão tendem a seguir direções opostas conforme a regra vai sendo aumentada com novas
condições (ou parâmetros). Esse fenômeno indica que, em geral, quanto maior a precisão de uma
regra, menor será sua cobertura, e vice-versa.
Uma vez geradas as regras, estas são aplicadas na base de teste. Nesse momento, é
calculada e apresentada a quantidade de conjuntos de medição classificados incorretamente, bem
como a taxa de precisão das regras aplicadas. Vale lembrar que, esta verificação é possível porque,
as classes dos conjuntos de medição são conhecidas tanto na base de treinamento quanto na base
de teste, característica indispensável para se aplicar o método de validação cruzada de duas partes.
O passo seguinte consiste em trocar os papéis das duas bases utilizadas e repetir o mesmo
procedimento, de modo que a base que era de treinamento passe a ser a base de teste e vice- versa.
Por fim, o desempenho das regras geradas pelas duas iterações pode ser avaliado por meio do
botão Visualizar Resultado da Validação Cruzada.
1
n_amon, cu_dis, ni_tot, pb_tot, zn_tot, nitrat e sub_te referem-se respectivamente aos parâmetros: Nitrogênio
Amoniacal, Cobre Dissolvido, Níquel Total, Chumbo Total, Zinco Total, Nitrato e Substância Tensoativa.
17
Figura 6. Visualização da cobertura e precisão das regras geradas

Os resultados preliminares indicaram que a taxa máxima de precisão atingida pelas regras
de classificação geradas ficou em torno de 77%. Isto significa que para cada 100 conjuntos de
medição classificados pelas regras gerad as, em 23 deles a toxicidade (não tóxico, crônico ou
agudo) foi classificada incorretamente. Além da taxa de erro considerável, os resultados não se
mostraram muito significativos pois as regras de classificação obtidas estavam majoritariamente
associadas ao valor de toxicidade “não tóxico”, quando se esperava obter regras que previssem
valores tóxicos, como “crônico” e “agudo”. Ainda que a ferramenta tenha gerado algumas regras
para a toxicidade “crônica”, não foi possível gerar regras para toxicidade “aguda”, pois todas as
possíveis regras testadas, sempre produziam mais erros do que acertos.
5. Considerações Finais
Neste artigo, foi apresentada a utilização de técnicas específicas de mineração de dados
para descoberta de conhecimento no domínio de monitoramento de qualidade de água. Durante a
pesquisa, pôde-se perceber o grau de relevância do tema abordado para a gestão da
sustentabilidade. Há um grande volume de trabalhos relacionados à aplicação da computação na
área ambiental, especialmente na gestão de recursos hídricos, fato que demonstra uma forte
preocupação da comunidade científica com o futuro de nossas bacias hidrográficas.
Quanto aos dados selecionados para o estudo, procurou-se contemplar uma amostra
significativa dos dados de qualidade de água do estado de São Paulo, porém notou-se que o
18
conjunto de dados selecionado precisou ser drasticamente reduzido com relação ao conjunto
original. Um dos motivos que se deve destacar para esta ocorrência é a grande quantidade de
medições incompletas, visto que parâmetros essenciais para esta pesquisa não possuíam valor
medido. Portanto, esta estratégia foi adotada para conservar a qualidade do conjunto de dados,
visto que o resultado da mineração está diretamente relacionado a este fator.
Outro elemento que deve ser considerado é que a descoberta de conhecimento é um
processo inerentemente exploratório e iterativo, característica que demanda muitos ajustes e,
consequentemente, novas iterações e experimentos em busca padrões em meio aos dados. Por este
motivo, será necessário reavaliar particularmente o conjunto de parâmetros selecionados, além das
questões da imputação e da discretização dos dados, uma vez que podem influenciar fortemente
nas respostas da mineração.
Apesar de as técnicas utilizadas não terem gerado regras de classificação de toxicidade de
água muito significativas, os resultados iniciais desta pesquisa demonstram o potencial que a
mineração de dados possui para auxiliar na extração de informações implícitas em dados de
monitoramento de qualidade de água. A impossibilidade de se criar regras para a toxicidade
aguda, por exemplo, denota que os parâmetros químicos utilizados, nas concentrações medidas,
podem não influenciar uma medição a ponto de ela atingir este nível de toxicidade. Enfim,
informações como esta podem representar subsídios valiosos para a tomada de decisão no que diz
respeito à gestão de recursos hídricos e da sustentabilidade ambiental.
Referências Bibliográficas
ALVES, E. C.; SILVA, C. F.; COSSICH, E. S.; TAVARES, C. R. G.; FILHO, E. E. S.; CARNIEL, A.
(2008). Avaliação da qualidade da água da bacia do rio Pirapó – Maringá, Estado do Paraná, por meio de
parâmetros físicos, químicos e microbiológicos. Acta Scientiarum. Technology, Maringá, v. 30, n. 1, p. 39-
48.
BERRY, M. J. A.; LINOFF, G. S. (2004). Data Mining Techniques: For Marketing, Sales, and Customer
Relationship Management. Indianapolis:Wiley Publishing, Inc., 672 p.
BRASIL. Conselho Nacional do Meio Ambiente. Resolução n. 357, de 17 de março de 2005. Brasília:
CONAMA, 2005.
BRUNDTLAND, G.H.(chair.), “Our Common Future” – Report on the World Commission on

Environment and Development. New York, United Nations Environmental Programme, 1987.
CETESB. Relatório de Qualidade das Águas Superficiais do Estado de São Paulo – 2010. São Paulo:
CETESB, 2011. Disponível em: <http://www.cetesb.sp.gov.br/
agua/aguas-superficiais/35-publicacoes-/-relatorios>. Acesso em: 27 fev. 2012.
19
DUARTE, A. A. A.; BERTHOLDO, L.; UMBUZEIRO, G. A.; CAMOLESI JÚNIOR, L.; SILVA, C. G..
Processamento e Visualização de Dados para a Descoberta de Conhecimento em Sistemas de
Monitoramento de Qualidade de Água. In: III Workshop de Computação Aplicada à Gestão do Meio
Ambiente e Recursos Naturais, Natal, p. 1409-1418.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. (1996). From data mining to knowledge
discovery: An overview. In: Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT
Press, England, p. 37-54.
FERNANDES, J.; DUARTE, A. S.. Um Sistema de Data Warehousing para a Área da Qualidade da Água.
2009. 16p. Universidade do Minho, Portugal.
HISTÓRICO. Institucional – CETESB - Companhia Ambiental do Estado de São Paulo. Disponível em:
<http://www.cetesb.sp.gov.br/institucional/institucional/52-Histórico>. Acesso em: 29 fev. 2012.
JACOBI, P. R.; BARBI, F.. Democracia e participação na gestão dos recursos hídricos no Brasil. Revista
Katálysis, Florianópolis, v. 10, n. 2, p.237-244, 2007.
KARIMIPOUR, F.; DELAVAR, M. R.; KINAIE, M. (2005). Water Quality Management Using GIS Data
Mining. Journal of Environmental Informatics. Canadá, v. 5, n. 2, p. 61-71.
MAGAIA, L. P. T.. O papel dos sistemas de suporte à decisão na análise da qualidade da água . 2009.
Dissertação (Mestrado em Sistemas de Dados e Processamento Analítico) –Universidade do Minho,
Portugal.
MARANHÃO, N.. Sistema de Indicadores para Planejamento e Gestão dos Recursos Hídricos de Bacias
Hidrográficas. 2007. 422 p. Tese (Doutorado) – Universidade Federal do Rio de Janeiro, Rio de Janeiro,
2007.
PRASS, F. S. (2004). KDD: Processo de descoberta de conhecimento em bancos de dados. Grupo de

Interesse em Engenharia de Software, Florianópolis, v.1, p. 10-14.
REDE DAS ÁGUAS. Uma política pública para as águas. Disponível em:
<http://www.rededasaguas.org.br/politicas-publicas/>. Acesso em: 02 mar. 2012.
SEIXAS, A. J.; NELSON, F. F. E.; BEATRIZ, S. L. P. L.. Mining spatial and temporal data to classify
water quality: a case study. In: Data Mining IX: Data Mining, Protection, Detection and Other Security
Technologies. Reino Unido, v. 40, p. 83-94, 2008.
SILVA, I. A. F. Descoberta de Conhecimento em Base de Dados de Monitoramento Ambiental para

Avaliação da Qualidade da Água. 2007. 134 p. Dissertação (Mestrado) – Universidade Federal de Mato
Grosso, Cuiabá, 2007.
TAN, P.; STEINBACH, M.; KUMAR, V. (2009). Introdução ao Data Mining – Mineração de Dados. Rio
de Janeiro: Editora Ciência Moderna. 900 p.
UMBUZEIRO, G. A.; LORENZETTI, M. L.. Fundamentos da Gestão da Qualidade das Águas: Resolução
CONAMA 357/2005. Limeira-SP: Biblioteca da Unicamp/CPEA, 2009.
VON SPERLING, M.. Estudos e modelagem da qualidade da água de rios. Belo Horizonte:
Departamento de Engenharia Sanitária e Ambiental – Universidade Federal de Minas Gerais,
2007. 588 p. v.7.
20

Técnicas de Mineração de Dados PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Técnicas de Mineração de Dados PDF

Enviado por

Direitos autorais:

Formatos disponíveis

08 e 09 de junho de 2012

TÉCNICAS DE MINERAÇÃO DE DADOS NA

Resumo: Dentre as diversas formas de ação que promovem a sustentabilidade, a inovação

Palavras-chaves: Monitoramento de qualidade de água, Gestão de recursos hídricos,

Atualmente, a toxicidade de uma amostra de água é mensurada por meio de testes

A metodologia utilizada nesta pesquisa é baseada no processo de descoberta de

2. Gestão de Recursos Hídricos

A gestão de bacias hidrográficas passou a assumir crescente importância no Brasil à

Figura 1. Classificação das 22 UGRHIs por vocação (CETESB, 2010)

3. Descoberta de Conhecimento em Bases de Dados

A capacidade de uma organização de tomar decisões é frequentemente associada ao

redundantes, recuperação de dados incompletos e tratamento de dados discrepantes (outliers). A

3.1. Trabalhos Relacionados

Existem diversos trabalhos relativos à utilização da mineração de dados na classificação de

4. Processo para Descoberta de Regras de Classificação de Toxicidade

A abordagem empregada neste estudo, para geração de regras de classificação de

4.1. Pré-processamento dos dados

4.1.1. Seleção dos Dados

Crité rios gerais para seleção dos dados:

 Aspecto temporal – Foram contempladas as análises realizadas entre os anos de

 Aspecto espacial – Das 22 UGRHIs existentes no estado de São Paulo, foram

Crité rios específicos para seleção dos pontos de amostragem:

1. Somente pontos dos corpos hídricos que possuem 2 ou mais pontos de

Crité rios específicos para seleção dos parâmetros de qualidade :

1. Parâmetros que constam em pelo menos 80% dos pontos de amostragem.

Crité rio específico para seleção dos conjuntos de medição:

4.1.2. Transformação dos Dados

Figura 3. Esquema de conversão dos dados brutos

4.1.3. Imputação de Dados Faltantes

A ausência de valores para determinados parâmetros, ou a inexatidão destes, pode causar

Valor imputado = Média

Valor imputado = Média

4.1.4. Discretização dos Dados

Normalmente, os mecanismos de classificação requerem que os atributos contínuos sejam

Tabela 1. Discretização dos parâmetros contínuos

4.2. Classificação de Toxicidade de Água Baseada em Regras

Algoritmo de Modelo de Regras de classificação

Figura 4. Construção de um modelo de classificação baseado em regras

4.3. Resultados Preliminares

Para configurar o processamento da classificação e visualizar os resultados gerados por

Figura 5. Ferramenta para busca de regras de classificação de toxicidade de água1

Figura 6. Visualização da cobertura e precisão das regras geradas

BRUNDTLAND, G.H.(chair.), “Our Common Future” – Report on the World Commission on

PRASS, F. S. (2004). KDD: Processo de descoberta de conhecimento em bancos de dados. Grupo de

SILVA, I. A. F. Descoberta de Conhecimento em Base de Dados de Monitoramento Ambiental para

Você também pode gostar