Escolar Documentos
Profissional Documentos
Cultura Documentos
Mineracao Dados
Mineracao Dados
ts rrts
ss r
rt
rs
st
tr
st
sttt rt
rs r s
r
cassio@inf.ufg.br
jcs@inf.ufg.br
Abstract. This work will be presented the key concepts of Data Mining, main tasks
and methods. Besides the traditional methods, some variations and new approaches
will be discussed. Finally, a list of the main tools to work with mining.
Keywords: Data Mining, Tasks, Methods, Tools.
Resumo. Neste trabalho sero apresentados os conceitos fundamentais da Minerao de Dados, principais tarefas e mtodos. Alm dos mtodos tradicionais, algumas variantes e novas abordagens sero discutidas. Ao final ser apresentada uma
lista das principais ferramentas para se trabalhar com minerao.
Palavras-Chave: Minerao de Dados, Tarefas, Mtodos, Ferramentas.
Introduo
Desde o surgimento dos sistemas computacionais, um dos principais objetivos das organizaes tem sido o de armazenar dados. Nas ltimas dcadas essa tendncia ficou ainda mais
evidente com a queda nos custos para a aquisio de hardware, tornando possvel armazenar
quantidades cada vez maiores de dados. Novas e mais complexas estruturas de armazenamento
foram desenvolvidas, tais como: banco de dados, Data Warehouses , Bibliotecas Virtuais, Web
e outras [16] [27].
Bramer [6], exemplifica o enorme volume de dados gerado pelas aplicaes atuais:
Os satlites de observao da NASA geram cerca de um terabyte de dados por dia;
O projeto Genoma armazena milhares de bytes para cada uma das bilhes de bases genticas;
Instituies mantm repositrios com milhares de transaes dos seus clientes;
Com o volume de dados armazenados crescendo diariamente, responder uma questo
tornou-se crucial [39]: O que fazer com os dados armazenados? As tcnicas tradicionais de
explorao de dados no so mais adequadas para tratar a grande maioria dos repositrios. Com
a finalidade de responder a esta questo, foi proposta, no final da dcada de 80, a Minerao de
Dados, do ingls Data Mining.
A Minerao de Dados uma das tecnologias mais promissoras da atualidade. Um dos
fatores deste sucesso o fato de dezenas, e muitas vezes centenas de milhes de reais serem
gastos pelas companhias na coleta dos dados e, no entanto, nenhuma informao til identificada [39]. Em seu trabalho, Han [27] refere-se a essa situao como "rico em dados, pobre em
informao". Alm da iniciativa privada, o setor pblico e o terceiro setor (ONGts) tambm
podem se beneficiar com a Minerao de Dados [84].
Witten et al. [88], Olson et al. [58] e Bramer [6] apresentam algumas das reas nas quais
a Minerao de Dados aplicada de forma satisfatria:
Reteno de clientes: identificao de perfis para determinados produtos, venda cruzada;
Bancos: identificar padres para auxiliar no gerenciamento de relacionamento com o
cliente;
Carto de Crdito: identificar segmentos de mercado, identificar padres de rotatividade;
Cobrana: deteco de fraudes;
Telemarketing: acesso facilitado aos dados do cliente;
Eleitoral: identificao de um perfil para possveis votantes;
Medicina: indicao de diagnsticos mais precisos;
Segurana: na deteco de atividades terroristas e criminais [48] [15];
Auxlio em pesquisas biomtricas [38];
RH: identificao de competncias em currculos [9];
Tomada de Deciso: filtrar as informaes relevantes, fornecer indicadores de probabilidade.
Segundo Ponniah [65], o uso da Minerao de Dados permite, por exemplo, que:
Um supermercado melhore a disposio de seus produtos nas prateleiras, atravs do
padro de consumo de seus clientes;
Uma companhia de marketing direcione o envio de mensagens promocionais, obtendo
melhores retornos;
Uma empresa area possa diferenciar seus servios oferecendo um atendimento personalizado;
Empresas planejem melhor a logstica de distribuio dos seus produtos, prevendo picos
nas vendas;
Empresas possam economizar identificando fraudes;
Agncias de viagens possam aumentar o volume de vendas direcionando seus pacotes a
clientes com aquele perfil;
Alguns casos de sucesso da Minerao de Dados esto relatados em Ye [91], Han et al.
[27], Myatt et al. [54] e Hornick et al. [30].
Descoberta de Conhecimento
Segundo Fayyad [20], o modelo tradicional para transformao dos dados em informao
(conhecimento), consiste em um processamento manual de todas essas informaes por especialistas que, ento, produzem relatrios que devero ser analisados. Na grande maioria
das situaes, devido ao grande volume de dados, esse processo manual torna-se impraticvel.
Ainda segundo Fayyad, o KDD (Knowledge Discovery in Databases ou Descoberta de Conhecimento nas Bases de Dados) uma tentativa de solucionar o problema causado pela chamada
"era da informao": a sobrecarga de dados.
Ainda no consenso a definio dos termos KDD e Data Mining. Em Rezende [69],
Wang [83] e Han et al. [27] eles so considerados sinnimos. Para Cios et al. [16] e Fayyad
[20] o KDD refere-se a todo o processo de descoberta de conhecimento, e a Minerao de Dados
a uma das atividades do processo. No entanto, todos concordam que o processo de minerao
deve ser iterativo, interativo e divido em fases. Na figura 1 podemos ver uma representao do
processo de KDD.
Os Dados
Conhecer o tipo dos dados com o qual se ir trabalhar tambm fundamental para a
escolha do(s) mtodo(s) mais adequado(s). Pode-se categorizar os dados em dois tipos: quantitativos e qualitativos. Os dados quantitativos so representados por valores numricos. Eles
ainda podem ser discretos e contnuos. J os dados qualitativos contm os valores nominais e
ordinais (categricos). Em geral, antes de se aplicar os algoritmos de minerao necessrio
explorar, conhecer e preparar os dados.
Nesse sentido, uma das primeiras atividades obter uma visualizao dos dados, de forma
que se possa ter uma viso geral, para depois decidir-se quais as tcnicas mais indicadas. Diversas so as tcnicas utilizadas para a visualizao dos dados. Simoff [78], Rezende [69], Myatt
[53], Myatt et al. [54], NIST [56] e Canada [10] apresentam diversas abordagens para as visualizaes. Keim [33], apresenta um estudo sobre as diversas tcnicas de visualizao. A figura
3 mostra a evoluo dessas tcnicas.
dade, tais como: valores em branco ou nulo, valores viciados, variveis duplicadas, entre outras.
medida em que problemas vo sendo encontrados e o entendimento vai sendo obtido, ocorre
a preparao dos dados para que os algoritmos de minerao possam ser aplicados. Segundo
Olson et al. [58], o processo de preparao dos dados na maioria dos projetos de minerao,
compreende at 50% de todo o processo. Para McCue [48], est etapa pode compreender at
80%.
Han e Kamber [27], descrevem vrias tcnicas estatsticas de anlise de disperso (Quartiles, Varincia) e de medida central (mdia, mediana, moda e faixa de valores) combinadas com
grficos (Histogramas, Frequncia, Barra, BoxPlot, Disperso) so usadas para a explorao dos
dados. Myatt [53], utiliza a tcnica de Anlise Exploratria dos Dados (EDA - Exploratory Data
Analisis) para auxiliar nessa atividade.
O processo de preparao dos dados para a minerao, tambm chamado de prprocessamento, segundo Han et al. [27], consiste principalmente em:
egorias diferentes para os mesmos valores, chaves divergentes, regras diferentes para os
mesmos dados, entre outros).
Transformao dos dados: A etapa de transformao dos dados merece destaque. Alguns algoritmos trabalham apenas com valores numricos e outros apenas com valores categricos. Nestes casos, necessrio transformar os valores numricos em categricos ou os
categricos em valores numricos. No existe um critrio nico para transformao dos
dados e diversas tcnicas podem ser usadas de acordo com os objetivos pretendidos. Algumas das tcnicas empregadas nesta etapa so: suavizao (remove valores errados dos
dados), agrupamento (agrupa valores em faixas sumarizadas), generalizao (converte
valores muito especficos para valores mais genricos), normalizao (colocar as variveis em uma mesma escala) e a criao de novos atributos (gerados a partir de outros j
existentes).
Reduo dos dados: O volume de dados usado na minerao costuma ser alto. Em alguns
casos, este volume to grande que torna o processo de anlise dos dados e da prpria
minerao impraticvel. Nestes casos, as tcnicas de reduo de dados podem ser aplicadas para que a massa de dados original seja convertida em uma massa de dados menor,
porm, sem perder a representatividade dos dados originais. Isto permite que os algoritmos de minerao sejam executados com mais eficincia, mantendo a qualidade do
resultado. As estratgias adotadas nesta etapa so: criao de estruturas otimizadas para
os dados (cubos de dados), seleo de um subconjunto dos atributos, reduo da dimensionalidade e discretizao. Dentre as diversas tcnicas, a PCA - Principal Components
Analysis, desempenha um papel muito importante na reduo da dimensionalidade [77]
[79]. Outra tcnica muito utilizada a Discretizao Baseada na Entropia [27].
Geralmente, os repositrios usados possuem milhares de registros. Neste contexto, o uso
de todos os registros do repositrio para a construo do modelo de Minerao de Dados
invivel. Assim, utiliza-se uma amostra (mais representativa possvel) que dividida em trs
conjuntos:
1. Conjunto de Treinamento (Training Set): conjunto de registros usados no qual o modelo
desenvolvido;
2. Conjunto de Testes (Test Set): conjunto de registros usados para testar o modelo construdo;
3. Conjunto de Validao (Validation Set): conjunto de registros usados para validar o modelo construdo;
Essa diviso em grupos necessria para que o modelo no fique dependente de um
conjunto de dados especfico e, ao ser submetido a outros conjuntos (com valores diferentes dos
usados na construo e validao do modelo), apresente resultados insatisfatrios. Este efeito
chamado de efeito Bias. A medida que se aumenta a preciso do modelo para um conjunto de
dados especfico, perde-se a preciso para outros conjuntos.
Apesar da grande maioria dos repositrios conterem um volume alto de registros, em
alguns casos o que ocorre o inverso. Neste caso, algumas estratgias foram desenvolvidas
para gerar conjunto de dados a partir dos registros existentes [6] [88] [85].
importante destacar que, apesar de existir um volume muito grande de dados nas empresas, estes dados raramente so disponibilizados para fins de pesquisas. Assim, muitas vezes,
novos algoritmos so criados de forma terica em ambientes acadmicos e, pela falta de dados, no se consegue uma avaliao em um ambiente mais prximo do real. Para auxiliar nas
pesquisas, repositrios comuns e pblicos com diversas bases de dados foram criados por diversas instituies. Um dos mais conhecidos repositrios, com bases de diferentes negcios,
tamanhos e tipos, pode ser encontrado em [64].
Minerao de Dados
4.1
Tarefas
A Minerao de Dados comumente classificada pela sua capacidade em realizar determinadas tarefas [39]. As tarefas mais comuns so:
Descrio (Description) a tarefa utilizada para descrever os padres e tendncias revelados
pelos dados. A descrio geralmente oferece uma possvel interpretao para os resultados obtidos. A tarefa de descrio muito utilizada em conjunto com as tcnicas de
anlise exploratria de dados, para comprovar a influncia de certas variveis no resultado obtido.
Classificao (Classification) Uma das tarefas mais comuns, a Classificao, visa identificar a
qual classe um determinado registro pertence. Nesta tarefa, o modelo analisa o conjunto
de registros fornecidos, com cada registro j contendo a indicao qual classe pertence,
a fim de aprender como classificar um novo registro (aprendizado supervisionado). Por
exemplo, categorizamos cada registro de um conjunto de dados contendo as informaes
sobre os colaboradores de uma empresa: Perfil Tcnico, Perfil Negocial e Perfil Gerencial. O modelo analisa os registros e ento capaz de dizer em qual categoria um novo
colaborador se encaixa. A tarefa de classificao pode ser usada por exemplo para:
Determinar quando uma transao de carto de crdito pode ser uma fraude;
Identificar em uma escola, qual a turma mais indicada para um determinado aluno;
Diagnosticar onde uma determinada doena pode estar presente;
Identificar quando uma pessoa pode ser uma ameaa para a segurana.
Estimao (Estimation) ou Regresso (Regression) A estimao similar classificao,
porm usada quando o registro identificado por um valor numrico e no um
categrico. Assim, pode-se estimar o valor de uma determinada varivel analisando-se os
valores das demais. Por exemplo, um conjunto de registros contendo os valores mensais
gastos por diversos tipos de consumidores e de acordo com os hbitos de cada um. Aps
ter analisado os dados, o modelo capaz de dizer qual ser o valor gasto por um novo
consumidor. A tarefa de estimao pode ser usada por exemplo para:
Estimar a quantia a ser gasta por uma famlia de quatro pessoas durante a volta s
aulas;
Estimar a presso ideal de um paciente baseando-se na idade, sexo e massa corporal.
Predio (Prediction) A tarefa de predio similar s tarefas de classificao e estimao,
porm ela visa descobrir o valor futuro de um determinado atributo. Exemplos:
Predizer o valor de uma ao trs meses adiante;
Predizer o percentual que ser aumentado de trfego na rede se a velocidade aumentar;
Predizer o vencedor do campeonato baseando-se na comparao das estatsticas dos
times.
Alguns mtodos de classificao e regresso podem ser usados para predio, com as
devidas consideraes.
Agrupamento (Clustering) A tarefa de agrupamento visa identificar e aproximar os registros
similares. Um agrupamento (ou cluster) uma coleo de registros similares entre si,
porm diferentes dos outros registros nos demais agrupamentos. Esta tarefa difere da
classificao pois no necessita que os registros sejam previamente categorizados (aprendizado no-supervisionado). Alm disso, ela no tem a pretenso de classificar, estimar
ou predizer o valor de uma varivel, ela apenas identifica os grupos de dados similares,
conforme mostra a figura 5. Exemplos:
Segmentao de mercado para um nicho de produtos;
Para auditoria, separando comportamentos suspeitos;
10
4.2
Tradicionalmente, os mtodos de minerao de dados so divididos em aprendizado supervisionado (preditivo) e no-supervisionado (descritivo) [16] [20] [27]. Apesar do limite
dessa diviso ser muito tnue (alguns mtodos preditivos podem ser descritivos e vice-versa),
ela ainda interessante para fins didticos [20]. J existem variaes entre os dois tipos de
aprendizados. Seliya [73] e Wang [83], so propostas abordagens semi-supervisionadas.
A diferena entre os mtodos de aprendizado supervisionados e no-supervisionados reside no fato de que os mtodos no-supervisionados no precisam de uma pr-categorizao
11
para os registros, ou seja, no necessrio um atributo alvo. Tais mtodos geralmente usam
alguma medida de similaridade entre os atributos [48]. As tarefas de agrupamento e associao
so consideradas como no-supervisionadas. J no aprendizado supervisionado, os mtodos so
providos com um conjunto de dados que possuem uma varivel alvo pr-definida e os registros
so categorizados em relao a ela. As tarefas mais comuns de aprendizado supervisionado so
a classificao (que tambm pode ser no-supervisionado) e a regresso [48].
Durante o processo de minerao, diversas tcnicas devem ser testadas e combinadas a
fim de que comparaes possam ser feitas e ento a melhor tcnica (ou combinao de tcnicas)
seja utilizada [48]. Na figura 6 podemos ver um exemplo de combinao dessas tcnicas.
12
13
14
15
16
17
y = b + wx. Pode-se utilizar o mesmo princpio para modelos com mais de uma
varivel preditora. Na figura 12 tem-se um exemplo de uma regresso linear.
18
19
Limitaes
Apesar da grande potencialidade oferecida pela Minerao de Dados, alguns fatores devem ser analisados. Wang et all. [85] discutem como alguns desses fatores podem prejudicar as
tcnicas de minerao:
As relaes entre os atributos precisam ser muito bem definidas, caso contrrio os resultados podem ser mal interpretados;
Permitir que o processo de treinamento execute por muito tempo, at que se consiga obter
indcios que possam levar concluses factveis;
Gerar subsdios para uma concluso errada tornando-a mais plausvel. Porm, uma interpretao falha pode disfarar as falhas nos dados;
Usar um grande nmero de variveis.
Alguns outros autores mencionam trs outros fatores: o alto conhecimento exigido dos
usurios, a escolha do repositrio e o uso de muitas variveis. Wang et al. categorizam os
problemas encontrados na minerao de dados em quatro grupos [85]: estatsticos, preciso dos
dados e padronizaes, tcnicos (problemas encontrados em diversos mtodos, tais como Redes
Neurais, rvores de Deciso, Algoritmos Genticos e Lgica Nebulosa) e organizacionais. Segundo [72], a Minerao de Dados apesar de revelar padres e relacionamentos, no os explica.
Alm disto, alguns relacionamentos e padres casuais no so capturados.
Outra questo que trs grande impacto na utilizao da Minerao de Dados refere-se
privacidade e legislao. Trabalhar com dados sobre o indivduo trs implicaes que precisam ser consideradas e analisadas [27]. Seifert [72], mostra que o Congresso Americano j
aprova leis para gerir o uso da Minerao de Dados e as questes de privacidade ligadas a elas.
Zhan et all. [94] apresentam um modelo para se trabalhar a privacidade dos dados.
Em [20], alguns desafios que precisam ser superados so apresentados:
Tcnicas para lidar com base de dados cada vez maiores, chegando a casa dos Terabytes;
Cada vez mais as tabelas possuem mais atributos, aumentando o espao de busca (alta
dimensionalidade);
Os modelos so construdos usando um conjunto limitado de dados, que podem no conter todos os padres e com isto, ao serem submetidos a novos dados, se comportam de
maneira errnea;
20
A velocidade com que os dados mudam faz com que os modelos gerem resultados invlidos;
O problema da baixa qualidade dos dados;
Complexidade dos relacionamentos entre os atributos;
Tornar os padres descobertos mais legveis, facilitando o entendimento e a interpretao
pelo usurio;
A baixa interao e a dificuldade de insero de conhecimento prvio nos modelos;
Os sistemas cada vez mais dependem de outros sistemas, gerando problemas de integrao.
A Minerao de Dados foi inicialmente concebida para utilizar-se de repositrios estruturados de dados (Banco de Dados, Data Warehouse, Arquivos, etc). Porm, atualmente os dados
so representados por diversos formatos: No estruturado, Espacial e Temporal, Multimdia,
Web, entre outros. E cada vez mais, existe a necessidade da minerao nestes tipos de dados.
Com isto, uma rea que vem sendo bastante pesquisada a Minerao de Dados em estruturas
complexas. Em Han et al. [27], algumas dessas estruturas so abordadas:
Minerao de Fluxo de Dados Algumas aplicaes trafegam um volume altssimo de dados,
temporalmente ordenados, volteis e potencialmente infinito. Minerar estas informaes
aps terem sido armazenadas uma tarefa invivel. Ao invs disso, a minerao ocorre
medida em que os dados so lidos. Kid et all. [34] propem um framework para extrao
de padres temporais de fluxos de dados. Koh et all. [36] propem um algoritmo chamado
appearing-bit-sequence-based incremental mining para um reconhecimento incremental
dos padres em fluxos de dados.
Minerao de Sries Temporais Bases de Sries Temporais so aquelas que armazenam informaes de um certo evento em um intervalo de tempo definido. Por exemplo, bases que
armazenam o valor das aes de um mercado, velocidade do vento, medidas da atmosfera. O processo de identificao de padres em bases desse tipo envolve outras tcnicas
e anlises. Em [29], apresentado um trabalho para a deteco de fatores de risco na rea
mdica usando a minerao de sries temporais atravs de algoritmos de agrupamento.
Minerao de Grafos Grafos so muito importantes na modelagem de estruturas complexas,
como circuitos, imagens, protenas, redes biolgicas, redes sociais, etc. Variaes de
algoritmos tradicionais e novos algoritmos tem sido desenvolvido para esse fim [41].
Minerao de Relacionamentos As redes sociais representam o relacionamento (link) entre
as entidades envolvidas (similar a uma estrutura de grafos). Nas ltimas dcadas elas tem
chamado muita ateno pela riqueza de padres que podem ser extrados. Matsuo [46]
apresenta uma abordagem para a minerao de redes sociais na internet.
Minerao de Dados Multirelacionais A grande maioria das bases relacionais armazena seus
dados de forma normalizada e distribuda. As tabelas que compem essa base so ento relacionadas entre si. No entanto, as tcnicas tradicionais de Minerao de Dados
21
utilizam-se de estruturas mais simples. Devido a isso, as diversas tabelas devem ser
agrupadas e simplificadas. Esse processo gera diversos problemas, tais como: variveis
desnecessrias ou duplicadas, complexidade dos dados, tempo de anlise e entendimento,
etc. A Minerao de Dados Multirelacionais visa criar algoritmos que utilizam as estruturas originais das bases, sem a necessidade de uma converso.
Minerao de Objetos Diferente das bases relacionais, que armazenam os dados de uma
forma estruturada (tabelas), as bases orientadas a objetos, guardam os dados em forma
de objetos (formados por um identificador, atributos e mtodos).
Minerao de Dados Espaciais Bases espaciais envolvem um conjunto de dados relacionados
s questes espaciais, tais como mapas. Possuem informaes de topologia e distncia
organizadas de forma totalmente diferente das bases relacionais. A minerao espacial
visa identificar os padres armazenados nesses dados de uma forma implcita.
Minerao de Dados Multimdia Bases de dados multimdia armazenam dados em formato
de udio, vdeo, imagens, grficos, texto, etc. Em [89], tem-se um survey de reconhecimento de padres faciais em imagens. Malerba [43] apresenta uma proposta para gerao
de regras de associao de documentos textuais escaneados.
Minerao de Textos Grande parte dos dados de uma instituio armazenada de forma semiestruturada e no-estruturada, atravs de textos, e-mail, artigos, documentos (atas, memorandos, oficios), etc. A busca de padres e conhecimento nestes documentos muito
comum. Porm, na maioria das vezes, o resultado obtido falho: documentos no relacionados, volume muito alto de informaes dispensveis, entre outros. A minerao de
textos, visa ajudar neste processo.
Minerao da Internet A minerao da Internet tem sido alvo de recentes pesquisas, pois ela
rene em seu ambiente, quase a totalidade dos tipos de estruturas complexas e simples
que existem. Alm disso, possui um volume de dados gigantesco. Atende s diversas
necessidades e possui os mais diversos contedos. A Minerao da Internet (ou Web
Mining), consiste em minerar as estruturas de ligao, o contedo, os padres de acesso,
classificao de documentos, entre outras. Em [75], os conceitos da minerao na internet
podem ser analisados. Shimada et all. [76] propem um mtodo para minerar a opinio
das pessoas sobre determinados produtos. Em [45], proposta uma abordagem para a
gerao de um mapa de tpicos de pginas da internet.
Ferramentas
22
Consideraes Finais
23
minerao, desempenham um papel fundamental nesse sentido. Esta popularizao fundamental para o crescimento e a consolidao da Minerao de Dados.
No resta dvida de que essa uma rea extremamente promissora e que, apesar dos
resultados j obtidos, ainda tem muito para oferecer.
Agradecimentos
Ao Prof. Dr. Cedric Luiz de Carvalho, pela avaliao do presente texto e pelas sugestes
feitas, as quais muito contriburam para a melhoria do texto original.
Referncias
[1] AGRAWAL, R; IMIELINSKI, T; SWAMI, A. Mining association rules between sets of
items in large databases. Proc. of the ACM SIGMOD, p. 207216, 1993.
[2] AGRAWAL, R; SRIKANT, R. Fast algorithms for mining association rules. 20th
International Conference on Very Large Data Bases, p. 487499, 1994.
[3] ALIAS-I. LingPipe. http://alias-i.com/lingpipe/, acessado em Maio de
2009.
[4] BORGELT, C. An implementation of the FP-growth algorithm, 2005.
[5] BOSER, B. E; GUYON, I. M; VAPNIK, V. N. A training algorithm for optimal margin classifiers. In: PROCEEDINGS OF THE 5TH ANNUAL ACM WORKSHOP ON
COMPUTATIONAL LEARNING THEORY, p. 144152. ACM Press, 1992.
[6] BRAMER, M. Undergraduate Topics in Computer Science - Principles of Data Mining. Springer, 2007.
[7] BREIMAN, L; FRIEDMAN, J; OLSHEN, R; STONE, C. Classification and Regression
Trees. Chapman and Hall/CRC, 1984.
[8] CABENA, P; HADJINIAN, P; STADLER, R; JAAPVERHEES; ZANASI, A. Discovering Data Mining: From Concept to Implementation. Prentice Hall, 1998.
[9] CABRAL, L. S; SIEBRA, S. A. Identificao de competncias em currculos usando
ontologias: uma abordagem terica, 2006.
[10] CANADA, S. Statistics: Power from Data! http://www.statcan.gc.ca/edu/
power-pouvoir/toc-tdm/5214718-eng.htm, acessado em abril de 2009.
[11] CASANOVA, A. A; LABIDI, S. Algoritmo da Confiana Inversa para Minerao
de Dados Baseado em Tcnicas de Regras de Associao e Lgica Nebulosa. XXV
Congresso da Sociedade Brasileira de Computao, 2005.
[12] CHANDRA, B; VARGHESE, P. On improving efficiency of sliq decision tree algorithm. International Joint Conference on Neural Networks - IJCNN, p. 6671, 2007.
[13] CHANDRA, B; VARGHESE, P. Fuzzy sliq decision tree algorithm. IEEE Transactions
on Cybernetics, 38:12941301, 2008.
24
153U164.
Springer-Verlag, 2008.
[25] GRZYMALA-BUSSE, J. W. Three approaches to missing attribute values: A rough
25
26
[47] MAZLACK, L. J. Naive rules do not consider underlying causality. In: STUDIES IN
INTELLIGENCE, p. 197U211.
Springer-Verlag, 2008.
[61] PECHENIZKIY, M; PUURONEN, S; TSYMBAL, A. Does relevance matter to data
27
28