Escolar Documentos
Profissional Documentos
Cultura Documentos
Mineracao PDF
Mineracao PDF
2 MINERAO DE DADOS
Aprendizagem
de Mquina
Sistemas
Especialistas
KDD
Estatstica
Banco de
Dados
Visualizao
Minerao de dados a explorao e a anlise, por meio automtico ou semiautomtico, de grandes quantidades de dados, a fim de descobrir padres e regras
significativos (Berry e Linoff, 1997, p.5).
Os principais objetivos da minerao de dados so descobrir relacionamentos
entre dados e fornecer subsdios para que possa ser feita uma previso de tendncias
futuras baseada no passado.
Fundamentao Terica
Fundamentao Terica
que
diferentes
faixas
(intervalos)
de
valores
contnuos
Fundamentao Terica
c) Associao
A tarefa de associao consiste em determinar quais itens tendem a coocorrerem (serem adquiridos juntos) em uma mesma transao. O exemplo clssico
determinar quais produtos costumam ser colocados juntos em um carrinho de
supermercado, da o termo anlise de market basket . As cadeias de varejo usam
associao para planejar a disposio dos produtos nas prateleiras das lojas ou em um
catlogo, de modo que os itens geralmente adquiridos na mesma compra sejam vistos
prximos entre si (Harrison, 1998).
A tarefa de associao pode ser considerada uma tarefa bem definida,
determinstica e relativamente simples, que no envolve predio da mesma forma que a
tarefa de classificao (Freitas, 2000, p. 65).
d) Segmentao (ou Clustering)
A segmentao um processo de partio de uma populao heterognea em
vrios subgrupos ou clusters mais homogneos (Harrison, 1998). Na segmentao, no
h classes predefinidas, os registros so agrupados de acordo com a semelhana, o que a
diferencia da tarefa de classificao.
Exemplos de segmentao: agrupar os clientes por regio do pas, agrupar
clientes com comportamento de compra similar (Goebel e Gruenwald, 1999); agrupar
sees de usurios Web para prever comportamento futuro de usurio (Mobasher et al,
2000).
e) Sumarizao
Segundo Fayyad (1996), a tarefa de sumarizao envolve mtodos para
encontrar uma descrio compacta para um subconjunto de dados. Um simples exemplo
desta tarefa poderia ser tabular o significado e desvios padro para todos os itens de
dados. Mtodos mais sofisticados envolvem a derivao de regras de sumarizao.
As tarefas de minerao de dados, descritas acima, so apresentadas de forma
resumida na Tabela 2.1.
Fundamentao Terica
DESCRIO
Constri um modelo de algum tipo
que possa ser aplicado a dados no
classificados a fim de categoriz -los
em classes
Estimativa
(ou Regresso)
Associao
Segmentao
(ou Clustering)
Sumarizao
EXEMPLOS
?? Classificar pedidos de crdito
?? Esclarecer pedidos de seguros
fraudulentos
?? Identificar a melhor forma de
tratamento de um paciente
?? Estimar o nmero de filhos ou a renda
total de uma famlia
?? Estimar o valor em tempo de vida de um
cliente
?? Estimar a probabilidade de que um
paciente morrer baseando-se nos
resultados de diagnsticos mdicos
?? Prever a demanda de um consumidor
para um novo produto
?? Determinar quais os produtos costumam
ser colocados juntos em um carrinho de
supermercado
?? Agrupar clientes por regio do pas
?? Agrupar clientes com comportamento
de compra similar
?? Agrupar sees de usurios Web para
prever comportamento futuro de usurio
?? Tabular o significado e desvios padro
para todos os itens de dados
?? Derivar regras de sntese
Harrison (1998) afirma que no h uma tcnica que resolva todos os problemas
de minerao de dados. Diferentes mtodos servem para diferentes propsitos, cada
mtodo oferece suas vantagens e suas desvantagens. A familiaridade com as tcnicas
necessria para facilitar a escolha de uma delas de acordo com os problemas
apresentados. A seguir so descritas as tcnicas de minerao de dados normalmente
usadas.
a) Descoberta de Regras de Associao
A tcnica de descoberta de regras de associao estabelece uma correlao
estatstica entre certos itens de dados em um conjunto de dados (Goebel e Gruenwald,
1999).
Fundamentao Terica
Uma regra de associao tem a forma geral X1 ^ ... ^ Xn => Y [C,S], onde
X1,..., Xn so itens que prevem a ocorrncia de Y com um grau de confiana C e com
um suporte mnimo de S e ^ denota um operador de conjuno (AND). Um exemplo
desta regra pode ser que 90% dos clientes que compram leite, tambm compram po; o
percentual de 90% chamado a confiana da regra. O suporte da regra leite => po o
nmero de ocorrncias deste conjunto de itens na mesma transao.
A tcnica de descoberta de regras de associao apropriada tarefa de
associao.
Como exemplos de algoritmos que implementam regras de associao tem- se:
Apriori, AprioriTid, AprioriHybrid, AIS, SETM (Agrawal e Srikant, 1994) e DHP
(Chen et al, 1996).
b) rvores de Deciso
Uma rvore de deciso uma rvore onde cada n no terminal representa um
teste ou deciso sobre o item de dado considerado (Goebel e Gruenwald, 1999). O
objetivo principal separar as classes; tuplas de classes diferentes tendem a ser alocadas
em subconjuntos diferentes, cada um descrito por regra simples em um ou mais itens de
dados. Essas regras podem ser expressas como declaraes lgicas, em uma linguagem
como SQL, de modo que possam ser aplicadas diretamente a novas tuplas. Uma das
vantagens principais das rvores de deciso o fato de que o modelo bem explicvel,
uma vez que tem a forma de regras explcitas (Harrison, 1998).
A tcnica de rvore de deciso, em geral, apropriada s seguintes tarefas:
classificao e regresso.
Alguns exemplos de algoritmos de rvore de deciso so: CART, CHAID, C5.0,
Quest (Two Crows, 1999), ID-3 (Chen et al, 1996), SLIQ (Metha et al, 1996) e SPRINT
(Shafer et al, 1996).
c) Raciocnio Baseado em Casos
Tambm conhecido como MBR (Memory-Based Reasoning raciocnio
baseado em memria), o raciocnio baseado em casos tem base no mtodo do vizinho
mais prximo. O MBR procura os vizinhos mais prximos nos exemplos conhecidos e
combina seus valores para atribuir valores de classificao ou de previso (Harrison,
1998, p. 195). Tenta solucionar um dado problema fazendo uso direto de experincias e
solues passadas. A distncia dos vizinhos d uma medida da exatido dos resultados.
Fundamentao Terica
Fundamentao Terica
Uma das principais vantagens das redes neurais sua variedade de aplicao,
mas os seus dados de entrada so difceis de serem formados e os modelos produzidos
por elas so difceis de entender (Harrison, 1998).
A tcnica de redes neurais apropriada s seguintes tarefas: classificao,
estimativa e segmentao.
Exemplos de redes neurais: Perceptron, Rede MLP, Redes de Kohonen, Rede
Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation,
Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB (Azevedo, 2000),
(Braga, 2000), (Haykin, 2001).
A Tabela 2.2 apresenta um resumo das tcnicas de minerao de dados aqui
descritas.
Tabela 2.2: Tcnicas de Minerao de Dados
TCNICA
Descoberta de
Regras de
Associao
DESCRIO
TAREFAS
Estabelece uma correlao ?? Associao
estatstica entre atributos de
dados e conjuntos de dados
?? Classificao
?? Regresso
Redes Neurais
Artificiais
?? Classificao
?? Segmentao
rvores de
Deciso
Modelos inspirados na
fisiologia do crebro, onde
o conhecimento fruto do
mapa das conexes
neuronais e dos pesos
dessas conexes
?? Classificao
?? Segmentao
?? Classificao
?? Segmentao
EXEMPLOS
Apriori, AprioriTid,
AprioriHybrid, AIS, SETM
(Agrawal e Srikant, 1994) e
DHP (Chen et al, 1996).
CART, CHAID, C5.0, Quest
(Two Crows, 1999);
ID-3 (Chen et al, 1996);
SLIQ (Metha et al, 1996);
SPRINT (Shafer et al, 1996).
BIRCH (Zhang et al, 1996);
CLARANS (Chen et al,
1996);
CLIQUE (Agrawal et al,
1998).
Algoritmo Gentico Simples
(Goldberg, 1989); Genitor,
CHC (Whitley, 1993);
Algoritmo de Hillis (Hillis,
1997); GA -Nuggets (Freitas,
1999); GA -PVMINER
(Arajo et al, 1999).
Perceptron, Rede MLP,
Redes de Kohonen, Rede
Hopfield, Rede BAM, Redes
ART, Rede IAC, Rede LVQ,
Rede Counterpropagation,
Rede RBF, Rede PNN, Rede
Time Delay, Neocognitron,
Rede BSB (Azevedo, 2000),
(Braga, 2000), (Haykin,
2001)
Fundamentao Terica
Fundamentao Terica
10
Fundamentao Terica
11
padres
de
comportamento
de
clientes
perigosos,
identificar
comportamento fraudulento.
?? Transporte : determinar as escalas de distribuio entre distribuidores, analisar
padres de carga.
?? C & T (Cincia e Tecnologia): avaliar grupos de pesquisa do pas (Gonalves,
2000), (Romo, 1999).
?? Web: existem muitas pesquisas direcionadas aplicao de minerao de dados na
Web, tais como: (Loh et al, 2000), (Kosala e Blockeel, 2000), (Ma et al, 2000),
(Mobasher et al, 2000), (Sarawagi e Nagaralu, 2000), (Spiliopoulou, 2000).
Fundamentao Terica
12
Definio de
Objetivos
? Planejamento de ao
? Planejamento de
avaliao de resultados
Acesso e
Preparao de
Dados
Definio
de um Estudo
? Articular um alvo
? Escolher uma varivel dependente
? Especificar os campos de dados
usados no estudo
Construo de
um Modelo
Anlise do
Modelo
Predio
? Escolha do melhor
resultado possvel
2) Preparao de dados
A preparao de dados envolve as tarefas de seleo e transformao dos dados.
Os tipos de dados selecionados podem estar organizados ao longo de mltiplas tabelas.
Durante a seleo de dados, o usurio pode necessitar executar junes de tabelas ou
eliminar linhas e/ou colunas de tabelas. Os mtodos de transformao incluem organizar
dados na forma desejada e converter um tipo de dado em outro tipo. A definio de
Fundamentao Terica
13
novos atributos outro tipo de transformao que pode envolver aplicar operadores
matemticos ou lgicos sobre os valores de um ou mais atributos.
Os dados selecionados e transformados so armazenados em um DW, data mart
ou data set. Para facilitar a realizao desta fase, deve ser mantido um catlogo sobre as
fontes de dados e sobre o que est no DW, data mart e data set no metadados. Os
metadados so dados sobre as estruturas contidas em banco de dados. O metadados
facilita o entendimento sobre o contedo e a estrutura de um DW, bem como a histria
das modificaes realizadas.
A realizao das tarefas deste passo exige conhecimento dos dados operacionais
e de seus relacionamentos, disponibilidade de tempo do analista e/ou usurio e alguns
cuidados na escolha de subconjuntos de atributos e de dados. Becher et al (2000)
apresentam uma abordagem para a automatizao desse passo e Hsu et al (2000)
propem o uso de um sistema semi-automtico de limpeza de dados. Pyle (1999)
descreve uma metodologia de preparao de dados.
3) Definio de um estudo
Definir um estudo pode envolver articular um alvo, escolher uma varivel
dependente ou uma sada que caracterize um aspecto do alvo e especificar os campos de
dados que so usados no estudo. Bons estudos so unidos para caracterizar aquilo que
pode ser descrito com seus dados. Por outro lado, o alvo pode ser usado para agrupar
tipos similares de dados ou para identificar excees em um conjunto de dados. A
identificao de excees geralmente usada na descoberta de fraude ou de dados
incorretos.
As atividades realizadas neste passo complementam os objetivos de negcio,
definidos anteriormente, aps a obteno de um conhecimento mais detalhado sobre os
dados operacionais existentes.
4) Construo de um modelo
A construo de um modelo feita atravs de uma tcnica de minerao de
dados, tendo como base os dados transformados e o estudo definido no passo anterior.
Um modelo resume grandes quantidades de dados por acumular indicadores. Alguns
dos indicadores que vrios modelos acumulam so: a) freqncias: mostram em qual
freqncia que um certo valor ocorre; b) pesos ou impactos: indicam a influncia
exercida por algumas entradas na ocorrncia de uma sada; c) conjunes: algumas
Fundamentao Terica
14
vezes certas entradas tm mais peso juntas do que separadas; d) diferenciao: indica a
importncia de uma entrada para uma determinada sada do que para uma outra sada.
5) Entendimento do modelo
Dependendo do tipo de modelo usado para representar os dados, existem
diferentes formas de entend- lo. Os indicadores que muitos modelos podem acumular,
conforme descritos no passo anterior, podem influenciar no entendimento do modelo,
alm do tipo de tcnica de minerao de dados aplicada na construo do modelo.
6) Predio
A predio o processo de escolher o melhor resultado possvel baseado na
anlise de dados histricos. O usu rio deve analisar a informao descoberta de acordo
com sua tarefa de suporte deciso e objetivos. Portanto, ele precisa ter um bom
entendimento sobre o negcio da empresa e sobre o conhecimento descoberto.
Os
trabalhos
que
se
propem
apresentar
uma
metodologia
para
Fundamentao Terica
15
Fundamentao Terica
16
b) Metodologia de Feldens
Feldens et al (1998) propem uma metodologia integrada, na qual as tecnologias
de minerao de dados e data warehouse, bem como questes de visualizao tm
papis muito importantes no processo. Tambm supe uma forte interao entre
mineradores de dados e pessoas da organizao para questes de modelagem e
preparao de dados. As fases definidas para esta metodologia so: pr-processamento,
minerao de dados e ps-processamento, conforme Figura 2.4.
Fundamentao Terica
17
Entendimento
do Negcio
Entendimento
dos Dados
Preparao
de Dados
Utilizao
Dados
Modelagem
Avaliao
Fundamentao Terica
18
Fundamentao Terica
19
ao
nmero
mximo
de
tabelas/tuplas/atributos;
?? A capacidade de processamento com relao ao tamanho do banco de dados;
?? Variedade de tipos de atributos que a ferramenta pode manipular; e
?? Tipo de linguagem de consulta.
Fundamentao Terica
20
FERRAMENTA/
EMPRESA
FORNECEDORA
AIRA/
Hycones IT (1998)
TCNICAS DE
MINERAO DE
DADOS
Regras de associao
Alice 5.1/
Isoft AS. (1998)
rvore de deciso
Raciocnio baseado
em casos
Induo de regras
rvores de deciso
Redes neurais
Clementine/
Integral Solutions Limited
(ISL, 1996)
DataMind /
DataMind Technology Center
(1998), (Groth, 1998)
Decision Series/
Neovista Solutions Inc.
(1998)
Intelligent Miner/
IBM (1997)
KnowledgeSEEKER/
Angoss IL (Groth, 1998)
MineSet/
Silicon Graphics Computer
Systems (2000)
NeuralWorks Predict/
NeuralWare (Groth, 1998)
PolyAnalyst/
Megaputer Intelligence Ltd.
(1998)
(abordagem prpria)
rvore de deciso
Mtodos estatsticos
Induo de regras
Redes neurais
rvores de deciso
Redes neurais
rvores de deciso
Induo de regras
Mtodos estatsticos
rvores de deciso
Induo de regras
Rede neural
Algoritmo gentico
Mtodos estatsticos
Induo de regras
APLICAES
Gerenciamento de relacionamento de cliente,
marketing, deteco de fraude, controle de
processo e controle de qualidade.
Poltica de crdito, marketing, sade, controle
de qualidade, recursos humanos.
Marketing direto, identificao de
oportunidades de venda cruzada, reteno de
cliente, previso de lucro do cliente,
deteco de fraude, segmentao e lucro do
cliente.
No identificadas.