Escolar Documentos
Profissional Documentos
Cultura Documentos
RT Inf - 001 09 PDF
RT Inf - 001 09 PDF
Mtodos e Ferramentas
The contents of this document are the sole responsibility of the authors.
Instituto de Informtica
Universidade Federal de Gois
www.inf.ufg.br
Minerao de Dados: Conceitos, Tarefas, Mtodos
e Ferramentas
Cssio Oliveira Camilo Joo Carlos da Silva
cassio@inf.ufg.br jcs@inf.ufg.br
Abstract. This work will be presented the key concepts of Data Mining, main tasks
and methods. Besides the traditional methods, some variations and new approaches
will be discussed. Finally, a list of the main tools to work with mining.
1 Introduo
Desde o surgimento dos sistemas computacionais, um dos principais objetivos das orga-
nizaes tem sido o de armazenar dados. Nas ltimas dcadas essa tendncia ficou ainda mais
evidente com a queda nos custos para a aquisio de hardware, tornando possvel armazenar
quantidades cada vez maiores de dados. Novas e mais complexas estruturas de armazenamento
foram desenvolvidas, tais como: banco de dados, Data Warehouses , Bibliotecas Virtuais, Web
e outras [16] [27].
Bramer [6], exemplifica o enorme volume de dados gerado pelas aplicaes atuais:
O projeto Genoma armazena milhares de bytes para cada uma das bilhes de bases genti-
cas;
1
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 2
a finalidade de responder a esta questo, foi proposta, no final da dcada de 80, a Minerao de
Dados, do ingls Data Mining.
A Minerao de Dados uma das tecnologias mais promissoras da atualidade. Um dos
fatores deste sucesso o fato de dezenas, e muitas vezes centenas de milhes de reais serem
gastos pelas companhias na coleta dos dados e, no entanto, nenhuma informao til identifi-
cada [39]. Em seu trabalho, Han [27] refere-se a essa situao como "rico em dados, pobre em
informao". Alm da iniciativa privada, o setor pblico e o terceiro setor (ONGts) tambm
podem se beneficiar com a Minerao de Dados [84].
Witten et al. [88], Olson et al. [58] e Bramer [6] apresentam algumas das reas nas quais
a Minerao de Dados aplicada de forma satisfatria:
Reteno de clientes: identificao de perfis para determinados produtos, venda cruzada;
Bancos: identificar padres para auxiliar no gerenciamento de relacionamento com o
cliente;
Carto de Crdito: identificar segmentos de mercado, identificar padres de rotatividade;
Cobrana: deteco de fraudes;
Telemarketing: acesso facilitado aos dados do cliente;
Eleitoral: identificao de um perfil para possveis votantes;
Medicina: indicao de diagnsticos mais precisos;
Segurana: na deteco de atividades terroristas e criminais [48] [15];
Auxlio em pesquisas biomtricas [38];
RH: identificao de competncias em currculos [9];
Tomada de Deciso: filtrar as informaes relevantes, fornecer indicadores de probabili-
dade.
Segundo Ponniah [65], o uso da Minerao de Dados permite, por exemplo, que:
Um supermercado melhore a disposio de seus produtos nas prateleiras, atravs do
padro de consumo de seus clientes;
Uma companhia de marketing direcione o envio de mensagens promocionais, obtendo
melhores retornos;
Uma empresa area possa diferenciar seus servios oferecendo um atendimento person-
alizado;
Empresas planejem melhor a logstica de distribuio dos seus produtos, prevendo picos
nas vendas;
Empresas possam economizar identificando fraudes;
Agncias de viagens possam aumentar o volume de vendas direcionando seus pacotes a
clientes com aquele perfil;
Alguns casos de sucesso da Minerao de Dados esto relatados em Ye [91], Han et al.
[27], Myatt et al. [54] e Hornick et al. [30].
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 3
2 Descoberta de Conhecimento
Segundo Fayyad [20], o modelo tradicional para transformao dos dados em informao
(conhecimento), consiste em um processamento manual de todas essas informaes por es-
pecialistas que, ento, produzem relatrios que devero ser analisados. Na grande maioria
das situaes, devido ao grande volume de dados, esse processo manual torna-se impraticvel.
Ainda segundo Fayyad, o KDD (Knowledge Discovery in Databases ou Descoberta de Conhec-
imento nas Bases de Dados) uma tentativa de solucionar o problema causado pela chamada
"era da informao": a sobrecarga de dados.
Ainda no consenso a definio dos termos KDD e Data Mining. Em Rezende [69],
Wang [83] e Han et al. [27] eles so considerados sinnimos. Para Cios et al. [16] e Fayyad
[20] o KDD refere-se a todo o processo de descoberta de conhecimento, e a Minerao de Dados
a uma das atividades do processo. No entanto, todos concordam que o processo de minerao
deve ser iterativo, interativo e divido em fases. Na figura 1 podemos ver uma representao do
processo de KDD.
Uma das definies mais utilizadas para o termo KDD de Fayyad [20], que o define
como "um processo no trivial de identificao de novos padres vlidos, teis e compreen-
sveis".
Atualmente diversos processos definem e padronizam as fases e atividades da Minerao
de Dados. Apesar das particularidades, todos em geral contm a mesma estrutura. Neste tra-
balho, escolhemos o CRISP-DM (Cross-Industry Standard Processo of Data Mining) [14] como
modelo, devido vasta literatura disponvel e por atualmente ser considerado o padro de maior
aceitao [39] [28]. Um ranking do uso dos principais processos pode ser encontrado em [32].
Como afirma Olson et al. [58], o processo CRISP-DM consiste de seis fases organizadas
de maneira cclica, conforme mostra a figura 2. Alm disto, apesar de ser composto por fases,
o fluxo no unidirecional, podendo ir e voltar entre as fases.
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 4
2. Entendimento dos Dados: As fontes fornecedoras dos dados podem vir de diversos
locais e possurem diversos formatos. Segundo Olson et al. [58], aps definir os objetivos,
necessrio conhecer os dados visando:
3. Preparao dos Dados: Devido s diversas origens possveis, comum que os dados no
estejam preparados para que os mtodos de Minerao de Dados sejam aplicados dire-
tamente. Dependendo da qualidade desses dados, algumas aes podem ser necessrias.
Este processo de limpeza dos dados geralmente envolve filtrar, combinar e preencher val-
ores vazios.
3 Os Dados
Conhecer o tipo dos dados com o qual se ir trabalhar tambm fundamental para a
escolha do(s) mtodo(s) mais adequado(s). Pode-se categorizar os dados em dois tipos: quan-
titativos e qualitativos. Os dados quantitativos so representados por valores numricos. Eles
ainda podem ser discretos e contnuos. J os dados qualitativos contm os valores nominais e
ordinais (categricos). Em geral, antes de se aplicar os algoritmos de minerao necessrio
explorar, conhecer e preparar os dados.
Nesse sentido, uma das primeiras atividades obter uma visualizao dos dados, de forma
que se possa ter uma viso geral, para depois decidir-se quais as tcnicas mais indicadas. Diver-
sas so as tcnicas utilizadas para a visualizao dos dados. Simoff [78], Rezende [69], Myatt
[53], Myatt et al. [54], NIST [56] e Canada [10] apresentam diversas abordagens para as visu-
alizaes. Keim [33], apresenta um estudo sobre as diversas tcnicas de visualizao. A figura
3 mostra a evoluo dessas tcnicas.
Com uma viso inicial dos dados definida, necessrio explor-los, buscando, alm de
mais conhecimento sobre os mesmos, encontrarmos valores que possam comprometer sua quali-
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 6
dade, tais como: valores em branco ou nulo, valores viciados, variveis duplicadas, entre outras.
medida em que problemas vo sendo encontrados e o entendimento vai sendo obtido, ocorre
a preparao dos dados para que os algoritmos de minerao possam ser aplicados. Segundo
Olson et al. [58], o processo de preparao dos dados na maioria dos projetos de minerao,
compreende at 50% de todo o processo. Para McCue [48], est etapa pode compreender at
80%.
Han e Kamber [27], descrevem vrias tcnicas estatsticas de anlise de disperso (Quar-
tiles, Varincia) e de medida central (mdia, mediana, moda e faixa de valores) combinadas com
grficos (Histogramas, Frequncia, Barra, BoxPlot, Disperso) so usadas para a explorao dos
dados. Myatt [53], utiliza a tcnica de Anlise Exploratria dos Dados (EDA - Exploratory Data
Analisis) para auxiliar nessa atividade.
O processo de preparao dos dados para a minerao, tambm chamado de pr-
processamento, segundo Han et al. [27], consiste principalmente em:
Integrao dos dados: comum obter-se os dados a serem minerados de diversas fontes:
banco de dados, arquivos textos, planilhas, data warehouses, vdeos, imagens, entre
outras. Surge ento, a necessidade da integrao destes dados de forma a termos um
repositrio nico e consistente. Para isto, necessria uma anlise aprofundada dos da-
dos observando redundncias, dependncias entre as variveis e valores conflitantes (cat-
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 7
egorias diferentes para os mesmos valores, chaves divergentes, regras diferentes para os
mesmos dados, entre outros).
Transformao dos dados: A etapa de transformao dos dados merece destaque. Alguns al-
goritmos trabalham apenas com valores numricos e outros apenas com valores categri-
cos. Nestes casos, necessrio transformar os valores numricos em categricos ou os
categricos em valores numricos. No existe um critrio nico para transformao dos
dados e diversas tcnicas podem ser usadas de acordo com os objetivos pretendidos. Al-
gumas das tcnicas empregadas nesta etapa so: suavizao (remove valores errados dos
dados), agrupamento (agrupa valores em faixas sumarizadas), generalizao (converte
valores muito especficos para valores mais genricos), normalizao (colocar as var-
iveis em uma mesma escala) e a criao de novos atributos (gerados a partir de outros j
existentes).
Reduo dos dados: O volume de dados usado na minerao costuma ser alto. Em alguns
casos, este volume to grande que torna o processo de anlise dos dados e da prpria
minerao impraticvel. Nestes casos, as tcnicas de reduo de dados podem ser apli-
cadas para que a massa de dados original seja convertida em uma massa de dados menor,
porm, sem perder a representatividade dos dados originais. Isto permite que os algo-
ritmos de minerao sejam executados com mais eficincia, mantendo a qualidade do
resultado. As estratgias adotadas nesta etapa so: criao de estruturas otimizadas para
os dados (cubos de dados), seleo de um subconjunto dos atributos, reduo da dimen-
sionalidade e discretizao. Dentre as diversas tcnicas, a PCA - Principal Components
Analysis, desempenha um papel muito importante na reduo da dimensionalidade [77]
[79]. Outra tcnica muito utilizada a Discretizao Baseada na Entropia [27].
2. Conjunto de Testes (Test Set): conjunto de registros usados para testar o modelo con-
strudo;
3. Conjunto de Validao (Validation Set): conjunto de registros usados para validar o mod-
elo construdo;
novos algoritmos so criados de forma terica em ambientes acadmicos e, pela falta de da-
dos, no se consegue uma avaliao em um ambiente mais prximo do real. Para auxiliar nas
pesquisas, repositrios comuns e pblicos com diversas bases de dados foram criados por di-
versas instituies. Um dos mais conhecidos repositrios, com bases de diferentes negcios,
tamanhos e tipos, pode ser encontrado em [64].
4 Minerao de Dados
Por ser considerada multidisciplinar, as definies acerca do termo Minerao de Dados
variam com o campo de atuao dos autores. Destacamos neste trabalho trs reas que so
consideradas como de maior expresso dentro da Minerao de Dados: Estatstica, Aprendizado
de Mquina e Banco de Dados. Em Zhou [96], feita uma anlise comparativa sobre as trs
perspectivas citadas.
Em Cabena et al. [8], a definio dada de uma perspectiva de banco de dados: "Min-
erao de Dados um campo interdisciplinar que junta tcnicas de mquinas de conhec-
imentos, reconhecimento de padres, estatsticas, banco de dados e visualizao, para
conseguir extrair informaes de grandes bases de dados".
Apesar das definies sobre a Minerao de Dados levar a crer que o processo de extrao
de conhecimento se d de uma forma totalmente automtica, sabe-se hoje que de fato isso no
verdade [39]. Apesar de encontrarmos diversas ferramentas que nos auxiliam na execuo dos
algoritmos de minerao, os resultados ainda precisam de uma anlise humana. Porm, ainda
assim, a minerao contribui de forma significativa no processo de descoberta de conhecimento,
permitindo aos especialistas concentrarem esforos apenas em partes mais significativa dos
dados.
4.1 Tarefas
A Minerao de Dados comumente classificada pela sua capacidade em realizar deter-
minadas tarefas [39]. As tarefas mais comuns so:
Classificao (Classification) Uma das tarefas mais comuns, a Classificao, visa identificar a
qual classe um determinado registro pertence. Nesta tarefa, o modelo analisa o conjunto
de registros fornecidos, com cada registro j contendo a indicao qual classe pertence,
a fim de aprender como classificar um novo registro (aprendizado supervisionado). Por
exemplo, categorizamos cada registro de um conjunto de dados contendo as informaes
sobre os colaboradores de uma empresa: Perfil Tcnico, Perfil Negocial e Perfil Geren-
cial. O modelo analisa os registros e ento capaz de dizer em qual categoria um novo
colaborador se encaixa. A tarefa de classificao pode ser usada por exemplo para:
Determinar quando uma transao de carto de crdito pode ser uma fraude;
Identificar em uma escola, qual a turma mais indicada para um determinado aluno;
Diagnosticar onde uma determinada doena pode estar presente;
Identificar quando uma pessoa pode ser uma ameaa para a segurana.
Estimar a quantia a ser gasta por uma famlia de quatro pessoas durante a volta s
aulas;
Estimar a presso ideal de um paciente baseando-se na idade, sexo e massa corporal.
Alguns mtodos de classificao e regresso podem ser usados para predio, com as
devidas consideraes.
para os registros, ou seja, no necessrio um atributo alvo. Tais mtodos geralmente usam
alguma medida de similaridade entre os atributos [48]. As tarefas de agrupamento e associao
so consideradas como no-supervisionadas. J no aprendizado supervisionado, os mtodos so
providos com um conjunto de dados que possuem uma varivel alvo pr-definida e os registros
so categorizados em relao a ela. As tarefas mais comuns de aprendizado supervisionado so
a classificao (que tambm pode ser no-supervisionado) e a regresso [48].
Durante o processo de minerao, diversas tcnicas devem ser testadas e combinadas a
fim de que comparaes possam ser feitas e ento a melhor tcnica (ou combinao de tcnicas)
seja utilizada [48]. Na figura 6 podemos ver um exemplo de combinao dessas tcnicas.
Associaes
uma das tcnicas mais conhecidas de minerao de dados, devido ao problema da
Anlise da Cesta de Compras. Consiste em identificar o relacionamento dos itens mais
frequentes em um determinado conjunto de dados, e permite obter resultados do tipo: SE
compra leite e po TAMBM compra manteiga. Esta construo recebe o nome de Regra
de Associao (Association Rules). Na figura 7 pode ser visto um exemplo de algumas
regras.
Classificaes
As tcnicas de classificao podem ser supervisionadas e no-supervisionadas. So us-
adas para prever valores de variveis do tipo categricas. Pode-se, por exemplo, criar
um modelo que classifica os clientes de um banco como especiais ou de risco, um lab-
oratrio pode usar sua base histrica de voluntrios e verificar em quais indivduos uma
nova droga pode ser melhor ministrada. Em ambos os cenrios um modelo criado para
classificar a qual categoria um certo registro pertence: especial ou de risco, voluntrios
A, B ou C.
No final da dcada de 70, incio da dcada de 80, J. Ross Quinlan desenvolve o ID3
(Iterative Dichotomiser), um algoritmo para gerao de rvores de deciso. Depois
Quinlan desenvolveu o C4.5 (uma verso otimizada do ID3), e que at hoje serve
como benchmark para novos mtodos supervisionados [68]. Foi na mesma poca
(1984) que um grupo de estatsticos (L. Breiman, J. Friedman, R. Olshen e C. Stone),
sem conhecer o trabalho de Quinlan, desenvolveram um algoritmo e publicaram um
livro chamado Classification and Regression Trees (CART) [7]. Ambos algoritmos
so considerados precursores e diversas variaes surgiram deles. Eles utilizam a
estratgia de dividir-e-conquistar recursiva aplicada de cima para baixo (top-down).
Com o argumento de que os algoritmos tradicionais de rvore de deciso precisam
carregar todo o conjunto de dados na memria, novos algoritmos capazes de acessar
repositrios persistentes foram desenvolvidos: SLIQ [49] e SPRINT [74]. Mila-
gres [50] apresenta uma ferramenta que implementa esses dois algoritmos. Gehrke
apresenta um framework para auxiliar na execuo de algoritmos de classificao
e separ-los de questes relativas a escalabilidade [22]. O BOAT (Bootstrapped
Optimistic Algorithm for Tree Construction) utiliza-se de uma estratgia chamada
de "bootstrapping"[21]. Chandra apresenta uma otimizao do BOAT [12] e uma
variao usando lgica nebulosa para o SLIQ [13].
Classificao Bayesiana (Bayesian Classification) uma tcnica estatstica (probabili-
dade condicional) baseada no teorema de Thomas Bayes [87]. Segundo o teorema
de Bayes, possvel encontrar a probabilidade de um certo evento ocorrer, dada
a probabilidade de um outro evento que j ocorreu: Probabilidade(B dado A) =
Probabilidade(A e B)/Probabilidade(A). Comparativos mostram que os algoritmos
Bayesianos, chamados de naive Bayes, obtiveram resultados compatveis com os
mtodos de rvore de deciso e redes neurais. Devido a sua simplicidade e o alto
poder preditivo, um dos algoritmos mais utilizados [95]. O algoritmo de naive
Bayes parte do princpio que no exista relao de dependncia entre os atributos.
No entanto, nem sempre isto possvel. Nestes casos, uma variao conhecida como
Bayesian Belief Networks, ou Bayesian Networks [55], deve ser utilizada. Em [26],
proposta uma combinao dos algoritmos de naive Bayes e rvore de Deciso
para realizar a classificao. Mazlack [47] expe uma fragilidade na tcnica naive
Bayes.
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 14
SVM (Support Vector Machines) Apesar de relatos dos anos 60 sobre a tcnica de SVM,
foi em 1992 que um primeiro artigo foi apresentado por Vladimir Vapnik, Bernhard
Boser e Isabelle Guyon [5]. Apesar de ser uma tcnica nova, tem chamado muita
ateno pelos seus resultados: obtm altos ndices de assertividade, permite mod-
elar situaes no-lineares complexas gerando modelos de simples interpretao,
pode ser usada para relaes lineares e no-lineares, entre outros. utilizado tanto
para tarefas de classificao quanto de predio. Atualmente um dos problemas
da tcnica de SVM o tempo utilizado no aprendizado. Muitas pesquisas tem se
concentrado neste aspecto.
Classificao por Regras de Associao (Classification by Association Rule)
Recentemente, as tcnicas de Regras de Associao esto sendo usadas para
a classificao. A ideia geral buscar por padres de associaes fortes entre
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 15
Predies Numricas
Os mtodos de predio visam descobrir um possvel valor futuro de uma varivel. As
predies numricas visam prever valores para variveis contnuas. Para a predio de
variveis discretas, as tcnicas de classificao j apresentadas podem ser aplicadas. Os
mtodos mais conhecidos para predio numrica so as regresses, desenvolvidas por
Sir Frances Galton (1822 1911). Alguns autores tratam as predies numricas e as re-
gresses como sinnimos, porm, como vimos, alguns mtodos de classificao tambm
fazem predies. As tcnicas de regresso modelam o relacionamento de variveis inde-
pendentes (chamadas preditoras) com uma varivel dependente (chamada resposta). As
variveis preditoras so os atributos dos registros, e a resposta o que se quer predizer.
y = b + wx. Pode-se utilizar o mesmo princpio para modelos com mais de uma
varivel preditora. Na figura 12 tem-se um exemplo de uma regresso linear.
Agrupamento
As tcnicas de agrupamento so consideradas como no supervisionadas. Dado um con-
junto de registros, so gerados agrupamentos (ou cluster), contendo os registros mais
semelhantes. Em geral, as medidas de similaridade usadas so as medidas de distncias
tradicionais (Euclidiana, Manhattan, etc). Os elementos de um cluster so consider-
ados similares aos elementos no mesmo cluster e dissimilares aos elementos nos out-
ros clusters. Por trabalhar com o conceito de distncia (similaridade) entre os registros,
geralmente necessrio realizar a transformao dos diferentes tipos de dados (ordinais,
categricos, binrios, intervalos) para uma escala comum, exemplo [0.0, 1.0]. Podemos
classificar os algoritmos de agrupamento nas seguintes categorias:
Mtodos de Particionamento (Partitioning Methods) Dado um conjunto D de dados
com n registros e k o nmero de agrupamentos desejados, os algoritmos de parti-
cionamento organizam os objetos em k agrupamentos, tal que k <= n. Os algoritmos
mais comuns de agrupamento so: k-Means e k-Medoids.
k-Means Esse algoritmo usa o conceito da centroide. Dado um conjunto de dados,
o algoritmo seleciona de forma aleatria k registros, cada um representando
um agrupamento. Para cada registro restante, calculada a similaridade entre
o registro analisado e o centro de cada agrupamento. O objeto inserido no
agrupamento com a menor distncia, ou seja, maior similaridade. O centro do
cluster recalculado a cada novo elemento inserido. Diferentes variaes sur-
giram: implementando otimizaes para escolha do valor do k, novas medidas
de dissimilaridade e estratgias para o clculo do centro do agrupamento. Uma
variao bem conhecida do k-Means o k-Modes. Nesse caso, ao invs de cal-
cular o centro do agrupamento atravs da mdia de distncia dos registros, ele
usa a moda.
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 18
Apesar de cada mtodo possuir suas peculiaridades e apresentar melhor resultado com um
certo tipo de dado, no existe uma classificao nica para a escolha e aplicao destes mtodos
[20].
5 Limitaes
Apesar da grande potencialidade oferecida pela Minerao de Dados, alguns fatores de-
vem ser analisados. Wang et all. [85] discutem como alguns desses fatores podem prejudicar as
tcnicas de minerao:
As relaes entre os atributos precisam ser muito bem definidas, caso contrrio os resul-
tados podem ser mal interpretados;
Permitir que o processo de treinamento execute por muito tempo, at que se consiga obter
indcios que possam levar concluses factveis;
Gerar subsdios para uma concluso errada tornando-a mais plausvel. Porm, uma inter-
pretao falha pode disfarar as falhas nos dados;
Alguns outros autores mencionam trs outros fatores: o alto conhecimento exigido dos
usurios, a escolha do repositrio e o uso de muitas variveis. Wang et al. categorizam os
problemas encontrados na minerao de dados em quatro grupos [85]: estatsticos, preciso dos
dados e padronizaes, tcnicos (problemas encontrados em diversos mtodos, tais como Redes
Neurais, rvores de Deciso, Algoritmos Genticos e Lgica Nebulosa) e organizacionais. Se-
gundo [72], a Minerao de Dados apesar de revelar padres e relacionamentos, no os explica.
Alm disto, alguns relacionamentos e padres casuais no so capturados.
Outra questo que trs grande impacto na utilizao da Minerao de Dados refere-se
privacidade e legislao. Trabalhar com dados sobre o indivduo trs implicaes que pre-
cisam ser consideradas e analisadas [27]. Seifert [72], mostra que o Congresso Americano j
aprova leis para gerir o uso da Minerao de Dados e as questes de privacidade ligadas a elas.
Zhan et all. [94] apresentam um modelo para se trabalhar a privacidade dos dados.
Em [20], alguns desafios que precisam ser superados so apresentados:
Tcnicas para lidar com base de dados cada vez maiores, chegando a casa dos Terabytes;
Cada vez mais as tabelas possuem mais atributos, aumentando o espao de busca (alta
dimensionalidade);
A velocidade com que os dados mudam faz com que os modelos gerem resultados invli-
dos;
Os sistemas cada vez mais dependem de outros sistemas, gerando problemas de inte-
grao.
Minerao de Sries Temporais Bases de Sries Temporais so aquelas que armazenam in-
formaes de um certo evento em um intervalo de tempo definido. Por exemplo, bases que
armazenam o valor das aes de um mercado, velocidade do vento, medidas da atmos-
fera. O processo de identificao de padres em bases desse tipo envolve outras tcnicas
e anlises. Em [29], apresentado um trabalho para a deteco de fatores de risco na rea
mdica usando a minerao de sries temporais atravs de algoritmos de agrupamento.
Minerao de Dados Multirelacionais A grande maioria das bases relacionais armazena seus
dados de forma normalizada e distribuda. As tabelas que compem essa base so en-
to relacionadas entre si. No entanto, as tcnicas tradicionais de Minerao de Dados
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 21
utilizam-se de estruturas mais simples. Devido a isso, as diversas tabelas devem ser
agrupadas e simplificadas. Esse processo gera diversos problemas, tais como: variveis
desnecessrias ou duplicadas, complexidade dos dados, tempo de anlise e entendimento,
etc. A Minerao de Dados Multirelacionais visa criar algoritmos que utilizam as estru-
turas originais das bases, sem a necessidade de uma converso.
Minerao de Objetos Diferente das bases relacionais, que armazenam os dados de uma
forma estruturada (tabelas), as bases orientadas a objetos, guardam os dados em forma
de objetos (formados por um identificador, atributos e mtodos).
Minerao de Textos Grande parte dos dados de uma instituio armazenada de forma semi-
estruturada e no-estruturada, atravs de textos, e-mail, artigos, documentos (atas, mem-
orandos, oficios), etc. A busca de padres e conhecimento nestes documentos muito
comum. Porm, na maioria das vezes, o resultado obtido falho: documentos no rela-
cionados, volume muito alto de informaes dispensveis, entre outros. A minerao de
textos, visa ajudar neste processo.
Minerao da Internet A minerao da Internet tem sido alvo de recentes pesquisas, pois ela
rene em seu ambiente, quase a totalidade dos tipos de estruturas complexas e simples
que existem. Alm disso, possui um volume de dados gigantesco. Atende s diversas
necessidades e possui os mais diversos contedos. A Minerao da Internet (ou Web
Mining), consiste em minerar as estruturas de ligao, o contedo, os padres de acesso,
classificao de documentos, entre outras. Em [75], os conceitos da minerao na internet
podem ser analisados. Shimada et all. [76] propem um mtodo para minerar a opinio
das pessoas sobre determinados produtos. Em [45], proposta uma abordagem para a
gerao de um mapa de tpicos de pginas da internet.
7 Ferramentas
Diversas ferramentas foram desenvolvidas no intuito de tornar a aplicao da Minerao
de Dados uma tarefa menos tcnica, e com isto possibilitar que profissionais de outras reas
possam fazer usa dela. Neste sentido, o mercado de ferramentas de minerao de dados tem se
tornado bastante atraente.
Clementine Uma das ferramentas lder de mercado, desenvolvida pela SPSS o Clementine
suporta o processo CRISP-DM, alm de possuir outras facilidades [80].
SAS Enterprise Miner Suite Ferramenta desenvolvida pela empresa SAS. uma das ferra-
mentas mais conhecidas para minerao. Possui modulos para trabalhar em todas as
etapas do processo de minerao [70].
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 22
WEKA uma das melhores ferramentas livre. Possui uma srie de algoritmos para as tarefas
de minerao. Os algoritmos podem ser aplicados diretamente da ferramenta, ou utiliza-
dos por programas Java. Fornece as funcionalidades para pr-processamento, classifi-
cao, regresso, agrupamento, regras de associao e visualizao [82]. Atualmente faz
parte da ferramenta de BI OpenSource Pentaho [62]. Em [88] a ferramenta apresentada
em detalhes.
Oracle Data Mining (ODM) uma ferramenta para a Minerao de Dados desenvolvida pela
Oracle para o uso em seu banco de dados ORACLE [59].
KXEN Analytic Framework Ferramenta de Minerao de Dados comercial que utiliza con-
ceitos do Professor Vladimir Vapnik como Minimizao de Risco Estruturada (Structured
Risk Minimization ou SRM) e outros [37].
IBM Intelligent Miner Ferramenta de minerao da IBM para a minerao de dados no banco
de dados DB2 [31].
MDR Ferramenta livre em Java para deteco de interaes entre atributos utilizando o mtodo
da multifactor dimensionality reduction (MDR) [18].
8 Consideraes Finais
A Minerao de Dados tornou-se uma ferramenta de apoio com papel fundamental na
gesto da informao dentro das organizaes. A manipulao dos dados e a anlise das infor-
maes de maneira tradicional tornou-se invivel devido ao grande volume de dados (coletados
diariamente e armazenados em bases histricas). Descobrir padres implcitos e relacionamen-
tos em repositrios que contm um grande volume de dados de forma manual, deixou de ser
uma opo. As tcnicas de minerao passaram a estar presentes no dia a dia.
Os dados so considerados hoje como o principal ativo de um projeto de software. Isso se
deve, alm da reduo nos custos de aquisio de hardware e software, ao desenvolvimento de
tcnicas capazes de extrair, de forma otimizada, a informao contida, e muitas vezes implcita,
nestes dados.
Apesar dos bons resultados obtidos com aplicao da Minerao de Dados, os desafios
ainda so muitos. Diversos problemas relativos ao uso da minerao (tais como a segurana
dos dados e a privacidade dos indivduos), juntamente com o aumento na complexidade das
estruturas de armazenamento, criam cenrios complexos e desafiadores. Alm disso, novas
tendncias como a Web Semntica, exigem que variaes dos algoritmos tradicionais sejam
desenvolvidas.
A Minerao de Dados atualmente caminha para uma popularizao. As ferramentas,
cada vez mais amigveis e fceis de serem usadas por usurios que no sejam especialistas em
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 23
9 Agradecimentos
Ao Prof. Dr. Cedric Luiz de Carvalho, pela avaliao do presente texto e pelas sugestes
feitas, as quais muito contriburam para a melhoria do texto original.
Referncias
[1] AGRAWAL, R; IMIELINSKI, T; SWAMI, A. Mining association rules between sets of
items in large databases. Proc. of the ACM SIGMOD, p. 207216, 1993.
[2] AGRAWAL, R; SRIKANT, R. Fast algorithms for mining association rules. 20th
International Conference on Very Large Data Bases, p. 487499, 1994.
[13] CHANDRA, B; VARGHESE, P. Fuzzy sliq decision tree algorithm. IEEE Transactions
on Cybernetics, 38:12941301, 2008.
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 24
[15] Chen, H; Reid, E; Sinai, J; Silke, A; Ganor, B, editors. Terrorism Informatics - Knowl-
edge Management and Data Mining for Homeland Security. Springer, 2008.
[26] HALL, M; FRANK, E. Combining naive bayes and decision tables. In 2008 FLAIRS
Conference - AAAI, 2008.
[27] HAN, J; KAMBER, M. Data Mining: Concepts and Techniques. Elsevier, 2006.
[28] HAND, D; MANNILA, H; SMYTH, P. Principles of Data Mining. MIT Press, 2001.
[29] HIRANO, S; TSUMOTO, S. Detection of risk factors as temporal data mining. In:
PAKDD WORKSHOPS, p. 143156. Springer-Verlag, 2008.
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 25
[33] KEIM, D. A. Information visualization and visual data mining. IEEE Transactions on
Visualization and Computer Graphics, p. 18, 2002.
[36] KOH, J.-L; CHOU, P.-M. Incrementally mining recently repeating patterns over data
streams. In: PAKDD WORKSHOPS, p. 2637. Springer-Verlag, 2008.
[40] LI, W; HAN, J; PEI, J. Cmar: Accurate and efficient classification based on multiple
class-association rules, 2001.
[41] LI, W; NG, W.-K; ONG, K.-L. Graph-Based Data Mining, chapter XI, p. 291307. Idea
Group Inc., 2007.
[42] LIU, B; HSU, W; MA, Y. Integrating classification and association rule mining. AAAI
Workshop of Knowledge Discovery in Databases, 1998.
[45] MASE, M; YAMADA, S; NITTA, K. Extracting topic maps from web pages. In:
PAKDD WORKSHOPS, p. 169180. Springer-Verlag, 2008.
[46] MATSUO, Y; MORI, J; ISHIZUKA, M. Social Network Mining from the Web, chapter
VII, p. 149175. IGI, 2008.
Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 26
[47] MAZLACK, L. J. Naive rules do not consider underlying causality. In: STUDIES IN
COMPUTATIONAL INTELLIGENCE, p. 213U229. Springer-Verlag, 2008.
[48] MCCUE, C. Data Mining and Predictive Analysis - Intelligence Gathering and Crime
Analysis. Elsevier, 2007.
[49] MEHTA, M; AGRAWAL, R; RISSANEN, J. Sliq: A fast scalable classifier for data
mining. Procs. of the 5th EDBT, p. 18U32, 1996.
[53] MYATT, G. J. Making Sense of Data - A Practical Guide to Exploratory Data Analysis
and Data Mining. John Wiley and Sons, Inc, 2007.
[83] Wang, J, editor. Encyclopedia of Data Warehousing and Mining. Idea Group Reference,
2005.
[84] WANG, J; HU, X; ZHU, D. Data Mining in Public Administration, chapter XVIII, p.
556567. IGI, 2008.
[85] WANG, J; HU, X; ZHU, D. Minimizing the Minus Sides of Mining Data. In: Taniar, D,
editor, DATA MINING AND KNOWLEDGE DISCOVERY TECHNOLOGIES, p. 254
279. IGI Publishing, 2008.
[88] WITTEN, I. H; FRANK, E. Data Mining - Practical Machine Learning Tools and
Techniques. Elsevier, 2005.
[90] YANG, Q; YIN, J; LING, C; PAN, R. Extracting actionable knowledge from decision
trees. IEEE Transactions on Knowledge and Data Engineering, 19(1):4356, 2007.
[92] YIN, X; HAN, J. Cpar: Classification based on predictive association rules, 2001.
[93] ZAKI, M. J. Scalable algorithms for association mining. In: IEEE TRANSACTIONS
ON KNOWLEDGE AND DATA ENGINEERING, volume 12 de 3, p. 372390, May
2000.
[94] ZHAN, J; CHANG, L; MATWIN, S. How to prevent private data from being disclosed
to a malicious attacker. In: STUDIES IN COMPUTATIONAL INTELLIGENCE, p.
517528. Springer-Verlag, 2008.
[95] ZHANG, H. The optimality of naive bayes. In 2004 FLAIRS Conference - AAAI, 2004.
[96] ZHOU, Z.-H. Three perspectives of data mining. Artificial Intelligence Journal, p.
139146, 2003.
[97] ZHU, F; YAN, X; YU, J. H; CHENG, P. H. Mining colossal frequent patterns by core
pattern fusion. IEEE 23rd International Conference on Data Engineering, 2007. (to
appear).