Escolar Documentos
Profissional Documentos
Cultura Documentos
Mineração de Dados - Conceitos e Aplicações PDF
Mineração de Dados - Conceitos e Aplicações PDF
Abstract. Tools and techniques employed for automatic and smart analysis of
huge data repositories of industries, governments, corporations and scientific
institutes are the subjects dealt by the emerging field of Knowledge Discovery
in Databases (KDD). Data mining is the KDD step where it's performed the
method selection to search patterns in data, followed by the search for
interesting patterns in a particular representation and the best parameter
tuning of the chosen algorithms. This course will present the fundamentals of
data mining, as well some research and application areas of this technology.
In order to reach a practical and applied approach, data mining tasks will be
performed using Weka, a collection of machine learning algorithms for real
data mining tasks. The activities will help to fix concepts shown, allowing the
perception of potentialities of this recent and challenging research area.
Resumo. As ferramentas e tcnicas empregadas para anlise automtica e
inteligente dos imensos repositrios de dados de indstrias, governos,
corporaes e institutos cientficos so os objetos tratados pelo campo
emergente da Descoberta de Conhecimento em Bancos de Dados (Knowledge
Discovery in Databases - KDD). Minerao de dados a etapa em KDD
responsvel pela seleo dos mtodos a serem utilizados para localizar
padres nos dados, seguida da efetiva busca por padres de interesse numa
forma particular de representao, juntamente com a busca pelo melhor
ajuste dos parmetros do algoritmo para a tarefa em questo. Neste
minicurso, os fundamentos de minerao de dados sero apresentados, bem
como diferentes reas de pesquisa e aplicao desta tecnologia. Visando um
enfoque prtico e aplicado, atividades de minerao sero realizadas com o
Weka, um pacote de algoritmos de aprendizagem de mquina para resolver
problemas reais de minerao de dados. Estas atividades auxiliaro na
fixao dos conceitos apresentados, bem como numa melhor percepo do
potencial desta recente e desafiadora rea de pesquisa.
1. Introduo
As reas governamentais, corporativas e cientficas tm promovido um crescimento
explosivo em seus bancos de dados, superando em muito a usual capacidade de
Validade: os padres descobertos devem ser vlidos em novos dados com algum
grau de certeza. Uma medida de certeza uma funo C mapeando expresses
Novo: em geral, assume-se que novidade pode ser medida por uma funo
N(E,F), que pode ser uma funo booleana ou uma medida que expresse grau de
novidade ou surpresa. Exemplo de um fato que no novidade: sejam E =
usa tnis e F = alunos de colgio ento N(E,F) = 0 ou N(E,F) = false. Por
outro lado: sejam E = bom pagador e F = trabalhador da construo civil
ento N(E,F) = 0,85 ou N(E,F) = true.
2. Tcnicas e Algoritmos
Bases de dados so altamente suscetveis a dados ruidosos (erros e valores estranhos),
incompletos (valores de atributos ausentes) e inconsistentes (discrepncias semnticas)
devido a seus tpicos volumes. Tcnicas de pr-processamento e transformao de
dados so aplicadas para aumentar a qualidade e o poder de expresso dos dados a
serem minerados. Estas fases tendem a consumir a maior parte do tempo dedicado ao
processo de KDD (aproximadamente 70%). A etapa de minerao de dados
responsvel pela seleo dos mtodos a serem utilizados para localizar padres nos
dados, com efetiva busca por padres de interesse numa forma particular de
representao, alm da busca pelo melhor ajuste dos parmetros do algoritmo para a
tarefa em questo. Esta etapa pressupe que os dados tenham uma boa qualidade
(limpos, sem inconsistncias, campos nulos etc.), alm de uma boa representao e
relevncia semntica (dados devidamente tratados, transformados e enriquecidos).
2.1. Pr-processamento de Dados
Rotinas de limpeza de dados tentam suprir valores ausentes, reduzir discrepncias de
valores ruidosos e corrigir inconsistncias. Para valores ausentes, algumas tcnicas
aplicveis so [Han & Kamber 2001]:
1 - Ignorar a tupla
2 - Suprir valores ausentes
a) manualmente;
b) atravs de uma constante global;
c) utilizando a mdia do atributo;
d) utilizando a mdia do atributo para todas as instncias da mesma classe;
e) com o valor mais provvel (regresso, inferncia etc.).
As tcnicas 2b, 2c, 2d e 2e podem "viciar" os dados. A tcnica 2e uma estratgia
interessante, pois em comparao com outros mtodos utiliza um maior nmero de
informaes dos dados disponveis.
Rudos nos dados so erros aleatrios ou varincias numa varivel mensurada. A
eliminao de rudos pode ser realizada atravs de:
1 - Interpolao;
2 - Agrupamento;
3 - Inspeo humana e computacional combinadas;
4 Regresso.
Alguns tipos de inconsistncias podem ser corrigidos manualmente atravs de
referncias externas. Rotinas de consistncia evitam a insero de dados incorretos
atravs da interface do banco de dados (infelizmente, a maioria dos softwares no so
projetados e desenvolvidos levando em conta KDD). Ferramentas de engenharia do
conhecimento podem detectar a violao de restries de dados. Tanto redundncias
como discrepncias podem ser combatidas atravs de dependncias funcionais.
2.2. Transformao de Dados
O processo de minerao geralmente demanda a integrao de dados (combinao de
diferentes bases de dados) e a transformao destes (modificaes de formato e
enriquecimento semntico).
No caso da integrao de dados, vrias fontes podem ser utilizadas (diferentes bancos
de dados, cubos de dados, flat files, arquivos XML etc.). Alguns tpicos relevantes
neste processo so [Han & Kamber 2001]:
1 - Integrao de esquemas - casamento de entidades relevantes do mundo real
(utilizao dos metadados);
2 - Redundncia de atributos (anlise de correlao - medida de quanto um atributo
implica em outro);
3 - Identificao e resoluo de valores de dados conflitantes (especialmente devido a
diferenas na representao, escala ou codificao);
Uma integrao de dados criteriosa pode reduzir e evitar redundncias e inconsistncias
no conjunto de dados resultante, aumentando a preciso e velocidade do processo de
minerao de dados.
Dados nem sempre possuem independncia estatstica entre eles, ou seja, muitos
domnios possuem inter-relao entre seus objetos e respectivos atributos,
comprometendo a aplicao de mtodos estatsticos;
Desta forma, percebe-se claramente que a minerao de dados possui grande relevncia,
contribuio e abrangncia no que diz respeito a aplicaes. Visando uma melhor
compreenso das tarefas, ser apresentado a seguir uma breve descrio dos principais
mtodos de minerao de dados utilizando aprendizagem de mquina.
A exemplificao de cada tpico toma por base recursos do Weka, uma ferramenta de
KDD que contempla uma srie de algoritmos de preparao de dados, de aprendizagem
de mquina (minerao) e de validao de resultados. Na seo 4 outros pontos do
software sero abordados.
2.3.1. Aprendizagem Supervisionada
Esta categoria de algoritmos possui esta denominao porque a aprendizagem do
modelo supervisionada, ou seja, fornecida uma classe qual cada amostra no
treinamento pertence. Estes algoritmos so preditivos, pois suas tarefas de minerao
desempenham inferncias nos dados com o intuito de fornecer previses ou tendncias,
obtendo informaes no disponveis a partir dos dados disponveis:
consome(X,[roupa_grife,
perfume_nacional,
relgio_importado]). Neste caso, o prprio algoritmo elege os atributos
determinantes (lado esquerdo da regra) e os atributos resultantes (lado direito)
na tarefa revelando associaes entre valores dos atributos, tendo o algoritmo
sua nfase no compromisso entre preciso e cobertura (Figura 4).
3. Aplicaes
O nmero de pesquisadores e profissionais que utilizam tcnicas de minerao de dados
ainda muito pequeno no Brasil, haja vista o potencial e demanda desta tecnologia.
Tanto no campo acadmico como no corporativo, os bancos de dados abarrotados de
informaes so geralmente utilizados para consultas triviais, e muitos dados preciosos
fadados ao backup. O grande potencial do conhecimento intrnseco nestas montanhas de
dados continua ignorado ou inacessvel por muitas instituies. Entretanto, diferentes
aplicaes tm atestado a relevncia e poder desta tecnologia.
3.1. Aplicaes Acadmicas
Na rea acadmica, a demanda por novas e poderosas abordagens de minerao de
dados est presente em muitos segmentos de pesquisa, dentre eles:
Minerando dados mdicos: hospitais, clnicas e planos de sade, cada vez mais
interessados no aperfeioamento de procedimentos (diagnsticos e tratamentos),
buscam em KDD meios para maximizar recursos e resultados, preferencialmente
com reduo de custos. Exemplos: minerao de imagens tomogrficas, preciso
na prescrio de exames e procedimentos;
(A) Open File, Open URL, Open DB: atravs destes botes possvel
selecionar, respectivamente, bases de dados a partir de flat files locais (formato
.arff), bases remotas (Web), e diferentes bancos de dados (via JDBC). Para
algoritmo avaliador de atributos e o mtodo de busca para a tarefa (Figura 10). Faz-se
necessrio salientar que alguns avaliadores demandam mtodos de busca especficos.
Pgina de trouble-shooting;
Tutorial do Experimenter;
So disponibilizadas ainda bases de dados para testes e aprendizagem, alm de uma lista
de projetos relevantes relacionados ao Weka.
6. Consideraes Finais
Minerao de dados, e conseqentemente KDD, possuem uma vasta aplicao nos mais
diferentes segmentos, tanto acadmicos como corporativos, alm de uma srie de
desafios relevantes que podem motivar excelentes trabalhos cientficos.
Este minicurso no esgota em momento algum os diferentes tpicos da minerao de
dados, mas antes procura fornecer uma viso geral do assunto bem como seus
fundamentos, apresentando ainda diferentes reas de pesquisa e aplicao desta
tecnologia.
O avano tecnolgico e a oferta de ferramentas no dispensam de forma alguma o
especialista do domnio minerado. A experincia profissional, a convivncia com os
processos e a leitura dos padres descobertos so atributos que propiciam ao(s)
minerador(es) amplas chances de sucesso nos processos de KDD.
O breve contato com o software Weka permite que algumas tarefas de minerao (e
KDD) sejam de fato desenvolvidas, fixando conceitos e apresentando uma ferramenta
de qualidade e de cdigo aberto, possibilitando ainda a quebra de paradigmas em
relao minerao de dados.
Aqueles que de fato se identificarem com esta rea de pesquisa devem continuar a
explorao do Weka e de outras ferramentas, buscando nas referncias contedos e
subsdios para ampliar o conhecimento e a viso crtica deste promissor segmento da
computao. A partir deste ponto, o desenvolvimento de excelentes projetos,
dissertaes, teses e aplicaes ser uma conseqncia natural do envolvimento
acadmico e da dedicao pessoal.
Referncias
Agrawal, R.; Srikant, R. Fast algorithms for mining association rules in large
databases. Proceedings of the International Conference on Very Large Databases,
Santiago, Chile, 1994
Dbminer Technology Inc. DBMiner Interprise 2.0 (2000). Disponvel no site da
DBMiner Technology. URL: http://www.dbminer.com/
Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. From Data Mining to Knowledge
Discovery: An Overview. In: Advances in Knowledge Discovery and Data Mining,
AAAI Press, 1996.
Han, J.; Koperski, K.; Stefanovic, N. GeoMiner: A System Prototype for Spatial Data
Mining, ACM SIGMOD International Conference on Management of Data,
Arizona, 1997.
Han, J.; Kamber, M. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001.
Holder, L.; Cook, D.; Gonzalez, J.; Jonyer, I. Structural Pattern Recognition in Graphs,
in Pattern Recognition and String Matching, Kluwer Academic Publishers, 2002.
Kdnuggets. Data Mining and Knowledge Discovery. Disponvel no site da Kdnuggets
(2004). URL: http://www.kdnuggets.com
Sarawagi, S.; Agrawal, R.; Megiddo, N. Discovery-Driven Exploration of OLAP Data
Cubes. IBM Almaden Research Center, 1998.
Silva, M. P. S.; Robin, J. R. SKDQL Uma Linguagem Declarativa de Especificao
de Consultas e Processos para Descoberta de Conhecimento em Bancos de Dados e
sua Implementao (2002). Dissertao de Mestrado. UFPE, 2002.
Silva, M. P. S.; Robin, J. R. SKDQL: A Structured Language to Specify Knowledge
Discovery Processes and Queries (2004). XVII Brazilian Symposium on Artificial
Intelligence - SBIA'04.
Simoff, S.; Djeraba, C.; Zaiane, O. Multimedia Data Mining between Promisses and
Problems (2002). SIGKDD Explorations.
University of Waikato. Weka 3 Machine Learning Software in Java. Disponvel no
site da University of Waikato (2004). URL: http://www.cs.waikato.ac.nz/ml/weka
Witten, I.; Frank, E. Data Mining Practical Machine Learning Tools. Morgan
Kaufmann, 2000.