Você está na página 1de 20

2.

2 MINERAO DE DADOS

A minerao de dados pode ser considerada como uma parte do processo de


Descoberta de Conhecimento em Banco de Dados (KDD Knowledge Discovery in
Databases).
Segundo Goebel e Gruenwald (1999), o termo KDD usado para representar o
processo de tornar dados de baixo nvel em conhecimento de alto nvel, enquanto
minerao de dados pode ser definida como a extrao de padres ou modelos de dados
observados.
A minerao de dados combina mtodos e ferramentas das seguintes reas:
aprendizagem de mquina, estatstica, banco de dados, sistemas especialistas e
visualizao de dados, conforme Figura 2.1 (Cratochvil, 1999).

Aprendizagem
de Mquina

Sistemas
Especialistas

KDD
Estatstica

Banco de
Dados
Visualizao

Figura 2.1: A Minerao de Dados como um Campo Multidisciplinar

2.2.1 Conceito de Minerao de dados

Minerao de dados a explorao e a anlise, por meio automtico ou semiautomtico, de grandes quantidades de dados, a fim de descobrir padres e regras
significativos (Berry e Linoff, 1997, p.5).
Os principais objetivos da minerao de dados so descobrir relacionamentos
entre dados e fornecer subsdios para que possa ser feita uma previso de tendncias
futuras baseada no passado.

Fundamentao Terica

Os resultados obtidos com a minerao de dados podem ser usados no


gerenciamento de informao, processamento de pedidos de informao, tomada de
deciso, controle de processo e muitas outras aplicaes.
A minerao de dados pode ser aplicada de duas formas: como um processo de
verificao e como um processo de descoberta (Groth, 1998). No processo de
verificao, o usurio sugere uma hiptese acerca da relao entre os dados e tenta
prov- la aplicando tcnicas como anlises estatstica e multidimensional sobre um
banco de dados contendo informaes passadas. No processo de descoberta no feita
nenhuma suposio antecipada. Esse processo usa tcnicas, tais como descoberta de
regras de associao, rvores de deciso, algoritmos genticos e redes neurais.

2.2.2 Origem dos Dados

As tcnicas de minerao de dados podem ser aplicadas sobre bancos de dados


operacionais ou sobre Data Warehouse (DW) ou Data Mart, nos quais geralmente
resulta uma informao melhor, pois os dados normalmente so preparados antes de
serem armazenados no DW ou data mart (Dias et al, 1998). Podem ser aplicadas,
tambm, sobre um data set, que pode ser definido como um banco de dados (em um
sentido fraco do termo) contendo apenas o conjunto de dados especfico para um tipo de
investigao a ser realizada.
Um DW um conjunto de dados baseado em assuntos, integrado, no-voltil e
variante em relao ao tempo, de apoio s decises gerenciais (Inmon, 1997, p.33). No
princpio, a expresso representava simplesmente um armazm de dados, como a
traduo de DW; porm, ao longo do tempo, vem recebendo diversos incrementos em
sua estrutura.
Um DW tem por objetivo oferecer organizao, gerenciamento e integrao de
bancos de dados, assim como ferramentas de explorao dos mesmos, para se obter
vantagens competitivas no mercado. construdo tendo como base outros bancos de
dados operacionais que podem estar implementados em diferentes plataformas na
organizao. usado, geralmente, em aplicaes de suporte tomada de deciso.
Um data mart um DW departamental, ou seja, um DW construdo para uma
rea especfica da organizao (Inmon, 1997).
A tcnica de data mart facilita a tomada de decises em nvel departamental e
permite dados relacionais ou multidimensionais no volteis (Dias et al, 1998).

Fundamentao Terica

2.2.3 Tarefas Desempenhadas por Tcnicas de Minerao de dados


As tcnicas de minerao de dados podem ser aplicadas a tarefas1 como
classificao, estimativa, associao, segmentao e sumarizao. Essas tarefas so
descritas a seguir.
a) Classificao
A tarefa de classificao consiste em construir um modelo de algum tipo que
possa ser aplicado a dados no classificados visando categoriz- los em classes. Um
objeto examinado e classificado de acordo com uma classe definida (Harrison, 1998).
A tarefa de classificao pode ser considerada uma tarefa mal definida,
indeterminstica, que inevitvel pelo fato de envolver predio (Freitas, 2000, p. 65).
So exemplos de tarefas de classificao (Goebel e Gruenwald, 1999), (Mehta et
al, 1996): classificar pedidos de crditos como de baixo, mdio e alto risco; esclarecer
pedidos de seguros fraudulentos; identificar a forma de tratamento na qual um paciente
est mais propcio a responder, baseando-se em classes de pacientes que respondem
bem a determinado tipo de tratamento mdico.
b) Estimativa (ou Regresso)
A estimativa usada para definir um valor para alguma varivel contnua
desconhecida como, por exemplo, receita, altura ou saldo de carto de crdito (Harrison,
1998). Ela lida com resultados contnuos, enquanto que a classificao lida com
resultados discretos. Ela pode ser usada para executar uma tarefa de classificao,
convencionando-se

que

diferentes

faixas

(intervalos)

de

valores

contnuos

correspondem a diferentes classes.


Regresso aprender uma funo que mapea um item de dado para uma
varivel de predio real estimada (Fayyad, 1996, p. 13).
Como exemplos de tarefas de estimativa tem-se (Fayyad, 1996), (Harrison,
1998): estimar o nmero de filhos em uma famlia; estimar a renda total de uma famlia;
estimar o valor em tempo de vida de um cliente; estimar a probabilidade de que um
paciente morrer baseando-se nos resultados de um conjunto de diagnsticos mdicos;
prever a demanda de um consumidor para um novo produto.

Neste contexto, tarefa um tipo de problema de descoberta de conhecimento a ser solucionado.

Fundamentao Terica

c) Associao
A tarefa de associao consiste em determinar quais itens tendem a coocorrerem (serem adquiridos juntos) em uma mesma transao. O exemplo clssico
determinar quais produtos costumam ser colocados juntos em um carrinho de
supermercado, da o termo anlise de market basket . As cadeias de varejo usam
associao para planejar a disposio dos produtos nas prateleiras das lojas ou em um
catlogo, de modo que os itens geralmente adquiridos na mesma compra sejam vistos
prximos entre si (Harrison, 1998).
A tarefa de associao pode ser considerada uma tarefa bem definida,
determinstica e relativamente simples, que no envolve predio da mesma forma que a
tarefa de classificao (Freitas, 2000, p. 65).
d) Segmentao (ou Clustering)
A segmentao um processo de partio de uma populao heterognea em
vrios subgrupos ou clusters mais homogneos (Harrison, 1998). Na segmentao, no
h classes predefinidas, os registros so agrupados de acordo com a semelhana, o que a
diferencia da tarefa de classificao.
Exemplos de segmentao: agrupar os clientes por regio do pas, agrupar
clientes com comportamento de compra similar (Goebel e Gruenwald, 1999); agrupar
sees de usurios Web para prever comportamento futuro de usurio (Mobasher et al,
2000).
e) Sumarizao
Segundo Fayyad (1996), a tarefa de sumarizao envolve mtodos para
encontrar uma descrio compacta para um subconjunto de dados. Um simples exemplo
desta tarefa poderia ser tabular o significado e desvios padro para todos os itens de
dados. Mtodos mais sofisticados envolvem a derivao de regras de sumarizao.
As tarefas de minerao de dados, descritas acima, so apresentadas de forma
resumida na Tabela 2.1.

Fundamentao Terica

Tabela 2.1: Tarefas Realizadas por Tcnicas de Minerao de Dados


TAREFA
Classificao

DESCRIO
Constri um modelo de algum tipo
que possa ser aplicado a dados no
classificados a fim de categoriz -los
em classes

Estimativa
(ou Regresso)

Usada para definir um valor para


alguma varivel contnua
desconhecida

Associao

Usada para determinar quais itens


tendem a co-ocorrerem (serem
adquiridos juntos) em uma mesma
transao
Processo de partio de uma
populao heterognea em vrios
subgrupos ou grupos mais
homogneos

Segmentao
(ou Clustering)

Sumarizao

Envolve mtodos para encontrar uma


descrio compacta para um
subconjunto de dados

EXEMPLOS
?? Classificar pedidos de crdito
?? Esclarecer pedidos de seguros
fraudulentos
?? Identificar a melhor forma de
tratamento de um paciente
?? Estimar o nmero de filhos ou a renda
total de uma famlia
?? Estimar o valor em tempo de vida de um
cliente
?? Estimar a probabilidade de que um
paciente morrer baseando-se nos
resultados de diagnsticos mdicos
?? Prever a demanda de um consumidor
para um novo produto
?? Determinar quais os produtos costumam
ser colocados juntos em um carrinho de
supermercado
?? Agrupar clientes por regio do pas
?? Agrupar clientes com comportamento
de compra similar
?? Agrupar sees de usurios Web para
prever comportamento futuro de usurio
?? Tabular o significado e desvios padro
para todos os itens de dados
?? Derivar regras de sntese

2.2.4 Tcnicas de Minerao de dados

Harrison (1998) afirma que no h uma tcnica que resolva todos os problemas
de minerao de dados. Diferentes mtodos servem para diferentes propsitos, cada
mtodo oferece suas vantagens e suas desvantagens. A familiaridade com as tcnicas
necessria para facilitar a escolha de uma delas de acordo com os problemas
apresentados. A seguir so descritas as tcnicas de minerao de dados normalmente
usadas.
a) Descoberta de Regras de Associao
A tcnica de descoberta de regras de associao estabelece uma correlao
estatstica entre certos itens de dados em um conjunto de dados (Goebel e Gruenwald,
1999).

Fundamentao Terica

Uma regra de associao tem a forma geral X1 ^ ... ^ Xn => Y [C,S], onde
X1,..., Xn so itens que prevem a ocorrncia de Y com um grau de confiana C e com
um suporte mnimo de S e ^ denota um operador de conjuno (AND). Um exemplo
desta regra pode ser que 90% dos clientes que compram leite, tambm compram po; o
percentual de 90% chamado a confiana da regra. O suporte da regra leite => po o
nmero de ocorrncias deste conjunto de itens na mesma transao.
A tcnica de descoberta de regras de associao apropriada tarefa de
associao.
Como exemplos de algoritmos que implementam regras de associao tem- se:
Apriori, AprioriTid, AprioriHybrid, AIS, SETM (Agrawal e Srikant, 1994) e DHP
(Chen et al, 1996).
b) rvores de Deciso
Uma rvore de deciso uma rvore onde cada n no terminal representa um
teste ou deciso sobre o item de dado considerado (Goebel e Gruenwald, 1999). O
objetivo principal separar as classes; tuplas de classes diferentes tendem a ser alocadas
em subconjuntos diferentes, cada um descrito por regra simples em um ou mais itens de
dados. Essas regras podem ser expressas como declaraes lgicas, em uma linguagem
como SQL, de modo que possam ser aplicadas diretamente a novas tuplas. Uma das
vantagens principais das rvores de deciso o fato de que o modelo bem explicvel,
uma vez que tem a forma de regras explcitas (Harrison, 1998).
A tcnica de rvore de deciso, em geral, apropriada s seguintes tarefas:
classificao e regresso.
Alguns exemplos de algoritmos de rvore de deciso so: CART, CHAID, C5.0,
Quest (Two Crows, 1999), ID-3 (Chen et al, 1996), SLIQ (Metha et al, 1996) e SPRINT
(Shafer et al, 1996).
c) Raciocnio Baseado em Casos
Tambm conhecido como MBR (Memory-Based Reasoning raciocnio
baseado em memria), o raciocnio baseado em casos tem base no mtodo do vizinho
mais prximo. O MBR procura os vizinhos mais prximos nos exemplos conhecidos e
combina seus valores para atribuir valores de classificao ou de previso (Harrison,
1998, p. 195). Tenta solucionar um dado problema fazendo uso direto de experincias e
solues passadas. A distncia dos vizinhos d uma medida da exatido dos resultados.

Fundamentao Terica

Na aplicao do MBR, segundo Berry e Linoff (1997), existem quatro passos


importantes: 1) escolher o conjunto de dados de treinamento; 2) determinar a funo de
distncia; 3) escolher o nmero de vizinhos mais prximos; e 4) determinar a funo de
combinao.
A tcnica de raciocnio baseado em casos apropriada s seguintes tarefas:
classificao e segmentao.
Os seguintes algoritmos implementam a tcnica de raciocnio baseado em casos:
BIRCH (Zhang et al, 1996), CLARANS (Chen et al, 1996) e CLIQUE (Agrawal et al,
1998).
d) Algoritmos Genticos
Os algoritmos genticos so mtodos generalizados de busca e otimizao que
simulam os processos naturais de evoluo. Um algoritmo gentico um procedimento
iterativo para evoluir uma populao de organismos e usado em minerao de dados
para formular hipteses sobre dependncias entre variveis, na forma de algum
formalismo interno (Goebel e Gruenwald, 1999).
Os algoritmos genticos usam os operadores de seleo, cruzamento e mutao
para desenvolver sucessivas geraes de solues. Com a evoluo do algoritmo,
somente as solues com maior poder de previso sobrevivem, at os organismos
convergirem em uma soluo ideal (Harrison, 1998).
A tcnica de algoritmos genticos apropriada s tarefas de classificao e
segmentao.
Exemplos de algoritmos genticos: Algoritmo Gentico Simples (Goldberg,
1989), Genitor e CHC (Whitley, 1993), Algoritmo de Hillis (Hillis, 1997), GA-Nuggets
(Freitas, 1999), GA-PVMINER (Arajo et al, 1999).
e) Redes Neurais Artificiais
As redes neurais so uma classe especial de sistemas modelados seguindo
analogia com o funcionamento do crebro humano e so formadas de neurnios
artificiais conectados de maneira similar aos neurnios do crebro humano (Goebel e
Gruenwald, 1999).
Como no crebro humano, a intensidade de interconexes dos neurnios pode
alterar (ou ser alterada por algoritmo de aprendizagem) em resposta a um estmulo ou
uma sada obtida que permite a rede aprender (Goebel e Gruenwald, 1999, p. 23).

Fundamentao Terica

Uma das principais vantagens das redes neurais sua variedade de aplicao,
mas os seus dados de entrada so difceis de serem formados e os modelos produzidos
por elas so difceis de entender (Harrison, 1998).
A tcnica de redes neurais apropriada s seguintes tarefas: classificao,
estimativa e segmentao.
Exemplos de redes neurais: Perceptron, Rede MLP, Redes de Kohonen, Rede
Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation,
Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB (Azevedo, 2000),
(Braga, 2000), (Haykin, 2001).
A Tabela 2.2 apresenta um resumo das tcnicas de minerao de dados aqui
descritas.
Tabela 2.2: Tcnicas de Minerao de Dados
TCNICA
Descoberta de
Regras de
Associao

DESCRIO
TAREFAS
Estabelece uma correlao ?? Associao
estatstica entre atributos de
dados e conjuntos de dados

Hierarquizao dos dados,


baseada em estgios de
deciso (ns) e na
separao de classes e
subconjuntos
Raciocnio
Baseado no mtodo do
Baseado em Casos vizinho mais prximo,
ou MBR
combina e compara
atributos para estabelecer
hierarquia de semelhana
Algoritmos
Mtodos gerais de busca e
Genticos
otimizao, inspirados na
Teoria da Evoluo, onde a
cada nova gerao, solues
melhores tm mais chance
de ter descendentes

?? Classificao
?? Regresso

Redes Neurais
Artificiais

?? Classificao
?? Segmentao

rvores de
Deciso

Modelos inspirados na
fisiologia do crebro, onde
o conhecimento fruto do
mapa das conexes
neuronais e dos pesos
dessas conexes

?? Classificao
?? Segmentao

?? Classificao
?? Segmentao

EXEMPLOS
Apriori, AprioriTid,
AprioriHybrid, AIS, SETM
(Agrawal e Srikant, 1994) e
DHP (Chen et al, 1996).
CART, CHAID, C5.0, Quest
(Two Crows, 1999);
ID-3 (Chen et al, 1996);
SLIQ (Metha et al, 1996);
SPRINT (Shafer et al, 1996).
BIRCH (Zhang et al, 1996);
CLARANS (Chen et al,
1996);
CLIQUE (Agrawal et al,
1998).
Algoritmo Gentico Simples
(Goldberg, 1989); Genitor,
CHC (Whitley, 1993);
Algoritmo de Hillis (Hillis,
1997); GA -Nuggets (Freitas,
1999); GA -PVMINER
(Arajo et al, 1999).
Perceptron, Rede MLP,
Redes de Kohonen, Rede
Hopfield, Rede BAM, Redes
ART, Rede IAC, Rede LVQ,
Rede Counterpropagation,
Rede RBF, Rede PNN, Rede
Time Delay, Neocognitron,
Rede BSB (Azevedo, 2000),
(Braga, 2000), (Haykin,
2001)

Fundamentao Terica

2.2.5 Como Escolher a Tcnica de Minerao de dados mais Adequada

A escolha de uma tcnica de minerao de dados a ser aplicada no uma tarefa


fcil. Segundo Harrison (1998), a escolha das tcnicas de minerao de dados depender
da tarefa especfica a ser executada e dos dados disponveis para anlise. Harrison
(1998) sugere que a seleo das tcnicas de minerao de dados deve ser dividida em
dois passos: 1) traduzir o problema de negcio a ser resolvido em sries de tarefas de
minerao de dados; 2) compreender a natureza dos dados disponveis em termos de
contedo e tipos de campos de dados e estrutura das relaes entre os registros.
Essa escolha pode ser baseada, tambm, em critrios para classificao das
tcnicas. Uma relao desses tipos de critrios dada por Harrison (1998).
Diferentes esquemas de classificao podem ser usados para categorizar
mtodos de minerao de dados sobre os tipos de bancos de dados a serem estudados, os
tipos de conhecimento a serem descobertos e os tipos de tcnicas a serem utilizadas
(Chen et al,1996, p.4), como pode ser visto a seguir:
?? Com que tipos de bancos de dados trabalhar:
Um sistema de descoberta de conhecimento pode ser classificado de acordo com os
tipos de bancos de dados sobre os quais tcnicas de minerao de dados so
aplicadas, tais como: bancos de dados relacionais, bancos de dados de transao,
orientados a objetos, dedutivos, espaciais, temporais, de multimdia, heterogneos,
ativos, de herana, banco de informao de Internet e bases textuais.
?? Qual o tipo de conhecimento a ser explorado:
Vrios tipos de conhecimento podem ser descobertos por extrao de dados,
incluindo regras de associao, regras caractersticas, regras de classificao, regras
discriminantes, grupamento, evoluo e anlise de desvio.
?? Qual tipo de tcnica a ser utilizada:
A extrao de dados pode ser categorizada de acordo com as tcnicas de minerao
de dados subordinadas. Por exemplo, extrao dirigida a dados, extrao dirigida a
questionamento e extrao de dados interativa. Pode ser categorizada, tambm, de
acordo com a abordagem de minerao de dados subordinada, tal como: extrao
de dados baseada em generalizao, baseada em padres, baseada em teorias
estatsticas ou matemticas, abordagens integradas, etc.

Fundamentao Terica

10

Atualmente, a descoberta de regras de associao parece ser uma das tcnicas de


minerao de dados mais utilizada, sendo encontrada em diversas pesquisas (Agrawal e
Srikant, 1994), (Chen et al, 1996), (Hipp et al, 2000), (Holsheimer et al, 1996),
(Mannila, 1997), (Viveros et al, 1996).

2.2.6 reas de Aplicao de Tcnicas de Minerao de dados

A seguir, so relacionadas as principais reas de interesse na utilizao de


minerao de dados, de acordo com Cratochvil (1999), (Mannila, 1996), (Viveros et al,
1996):
?? Marketing. Tcnicas de minerao de dados so aplicadas para descobrir
preferncias do consumidor e padres de compra, com o objetivo de realizar
marketing direto de produtos e ofertas promocionais, de acordo com o perfil do
consumidor.
?? Deteco de fraudes. Muitas fraudes bvias (tais como, a compensao de cheque
por pessoas falecidas) podem ser encontradas sem minerao de dados, mas padres
mais sutis de fraude podem ser difceis de serem detectados, por exemplo, o
desenvolvimento de modelos que predizem quem ser um bom cliente ou aquele que
poder se tornar inadimplente em seus pagamentos.
?? Medicina : caracterizar comportamento de paciente para prever visitas, identificar
terapias mdicas de sucesso para diferentes doenas, buscar por padres de novas
doenas.
?? Instituies governamentais : descoberta de padres para melhorar as coletas de
taxas ou descobrir fraudes.
?? Cincia: tcnicas de minerao de dados podem ajudar cientistas em suas pesquisas,
por exemplo, encontrar padres em estruturas moleculares, dados genticos,
mudanas globais de clima, oferecendo concluses valiosas rapidamente.
?? Controle de processos e controle de qualidade : auxiliar no planejamento
estratgico de linhas de produo e buscar por padres de condies fsicas na
embalagem e armaze namento de produtos.

Fundamentao Terica

11

?? Banco: detectar padres de uso de carto de crdito fraudulento, identificar clientes


leais, determinar gastos com carto de crdito por grupos de clientes, encontrar
correlaes escondidas entre diferentes indicadores financeiros.
?? Aplice de seguro : anlise de reivindicaes determinar quais procedimentos
mdicos so reivindicados juntos, prever quais clientes compraro novas aplices,
identificar

padres

de

comportamento

de

clientes

perigosos,

identificar

comportamento fraudulento.
?? Transporte : determinar as escalas de distribuio entre distribuidores, analisar
padres de carga.
?? C & T (Cincia e Tecnologia): avaliar grupos de pesquisa do pas (Gonalves,
2000), (Romo, 1999).
?? Web: existem muitas pesquisas direcionadas aplicao de minerao de dados na
Web, tais como: (Loh et al, 2000), (Kosala e Blockeel, 2000), (Ma et al, 2000),
(Mobasher et al, 2000), (Sarawagi e Nagaralu, 2000), (Spiliopoulou, 2000).

2.2.7 O Processo de Descoberta de Conhecimento

O processo de descoberta de conhecimento um mtodo semi-automtico


complexo e iterativo (Mannila, 1996). De acordo com Groth (1998), ele pode ser
dividido em cinco passos bsicos: preparao de dados, definio de um estudo,
construo de um modelo, entendimento do modelo e predio.
Para Lans (1997), existe um passo que antecede a preparao de dados, trata-se
da definio de objetivos.
A Figura 2.2 representa o processo de descoberta de conhecimento.
A seguir, os passos bsicos do processo de descoberta de conhecimento so
descritos.
1) Definio de Objetivos
Neste passo, deve-se definir os objetivos de negcio que devero ser alcanados
com a minerao de dados e o que dever ser feito com os seus resultados, como por
exemplo: mudana de plano de marketing.

Fundamentao Terica

12

Definio de
Objetivos

? Planejamento de ao
? Planejamento de
avaliao de resultados

Acesso e
Preparao de
Dados

? Seleo e transformao dos dados


? Registro no Metadados
? Registro do DW, DM ou DS

Definio
de um Estudo

? Articular um alvo
? Escolher uma varivel dependente
? Especificar os campos de dados
usados no estudo

Construo de
um Modelo

? Aplicao de uma tcnica


de minerao de dados

Anlise do
Modelo

? Anlise baseada no tipo


de tcnica de minerao
de dados aplicada

Predio

? Escolha do melhor
resultado possvel

Figura 2.2: Processo de Descoberta de Conhecimento

2) Preparao de dados
A preparao de dados envolve as tarefas de seleo e transformao dos dados.
Os tipos de dados selecionados podem estar organizados ao longo de mltiplas tabelas.
Durante a seleo de dados, o usurio pode necessitar executar junes de tabelas ou
eliminar linhas e/ou colunas de tabelas. Os mtodos de transformao incluem organizar
dados na forma desejada e converter um tipo de dado em outro tipo. A definio de

Fundamentao Terica

13

novos atributos outro tipo de transformao que pode envolver aplicar operadores
matemticos ou lgicos sobre os valores de um ou mais atributos.
Os dados selecionados e transformados so armazenados em um DW, data mart
ou data set. Para facilitar a realizao desta fase, deve ser mantido um catlogo sobre as
fontes de dados e sobre o que est no DW, data mart e data set no metadados. Os
metadados so dados sobre as estruturas contidas em banco de dados. O metadados
facilita o entendimento sobre o contedo e a estrutura de um DW, bem como a histria
das modificaes realizadas.
A realizao das tarefas deste passo exige conhecimento dos dados operacionais
e de seus relacionamentos, disponibilidade de tempo do analista e/ou usurio e alguns
cuidados na escolha de subconjuntos de atributos e de dados. Becher et al (2000)
apresentam uma abordagem para a automatizao desse passo e Hsu et al (2000)
propem o uso de um sistema semi-automtico de limpeza de dados. Pyle (1999)
descreve uma metodologia de preparao de dados.
3) Definio de um estudo
Definir um estudo pode envolver articular um alvo, escolher uma varivel
dependente ou uma sada que caracterize um aspecto do alvo e especificar os campos de
dados que so usados no estudo. Bons estudos so unidos para caracterizar aquilo que
pode ser descrito com seus dados. Por outro lado, o alvo pode ser usado para agrupar
tipos similares de dados ou para identificar excees em um conjunto de dados. A
identificao de excees geralmente usada na descoberta de fraude ou de dados
incorretos.
As atividades realizadas neste passo complementam os objetivos de negcio,
definidos anteriormente, aps a obteno de um conhecimento mais detalhado sobre os
dados operacionais existentes.
4) Construo de um modelo
A construo de um modelo feita atravs de uma tcnica de minerao de
dados, tendo como base os dados transformados e o estudo definido no passo anterior.
Um modelo resume grandes quantidades de dados por acumular indicadores. Alguns
dos indicadores que vrios modelos acumulam so: a) freqncias: mostram em qual
freqncia que um certo valor ocorre; b) pesos ou impactos: indicam a influncia
exercida por algumas entradas na ocorrncia de uma sada; c) conjunes: algumas

Fundamentao Terica

14

vezes certas entradas tm mais peso juntas do que separadas; d) diferenciao: indica a
importncia de uma entrada para uma determinada sada do que para uma outra sada.
5) Entendimento do modelo
Dependendo do tipo de modelo usado para representar os dados, existem
diferentes formas de entend- lo. Os indicadores que muitos modelos podem acumular,
conforme descritos no passo anterior, podem influenciar no entendimento do modelo,
alm do tipo de tcnica de minerao de dados aplicada na construo do modelo.
6) Predio
A predio o processo de escolher o melhor resultado possvel baseado na
anlise de dados histricos. O usu rio deve analisar a informao descoberta de acordo
com sua tarefa de suporte deciso e objetivos. Portanto, ele precisa ter um bom
entendimento sobre o negcio da empresa e sobre o conhecimento descoberto.

2.2.8 Metodologias para Sistemas de Descoberta de Conhecimento

O desenvolvimento de um sistema de descoberta de conhecimento em banco de


dados uma tarefa muito complexa, principalmente pela caracterstica de
indeterminismo deste tipo de sistema. Portanto, imprescindvel o uso de uma
metodologia completa e sistemtica.

Uma metodologia de engenharia de software um processo para a produo


organizada de software, com utilizao de uma coleo de tcnicas predefinidas
e convenes notacionais. Uma metodologia costuma ser apresentada como uma
srie de etapas, com tcnicas e notao associadas a cada etapa. (Rumbaugh et
al, 1994, p. 191).

Os

trabalhos

que

se

propem

apresentar

uma

metodologia

para

desenvolvimento de sistemas de descoberta de conhecimento no incluem formalismo


na especificao desses sistemas. Normalmente, as metodologias propostas procuram
solucionar questes relativas a determinadas etapas do processo de desenvolvimento
desses sistemas e no apresentam notao para representar as caractersticas do sistema
como um todo.

Fundamentao Terica

15

A seguir, so relacionados trs trabalhos que propem uma metodologia para


sistemas de descoberta de conhecimento em banco de dados.
a) Metodologia de Klemettinen
Klemettinen et al (1997) apresentam uma metodologia que pode ser usada para
automatizar aquisio de conhecimento. As fases dessa metodologia so aquelas j
definidas por outros autores (Fayyad, 1996), (Mannila, 1996): pr-processamento,
transformao, descoberta, apresentao e utilizao (ver Figura 2.3). No entanto, maior
nfase dada nas duas fases centrais dessa metodologia:
?? Fase de descoberta de padres: onde so encontrados todos os padres
potencialmente relevantes para algum critrio bastante livre;
?? Fase de apresentao: onde so fornecidos mtodos flexveis para iterativa e
interativamente criar diferentes vises para os padres descobertos.

Figura 2.3: O Modelo do Processo KDD (Klemettinen et al, 1997)

Nas duas primeiras fases do processo, os dados so coletados e preparados de


forma adequada para descoberta de padres. Uma viso geral sobre os dados pode ser
produzida nesta fase. Os atributos ident ificados como irrelevantes so removidos e
novos atributos podem ser derivados.
Na fase de descoberta de padres, todos os padres potencialmente interessantes
so gerados do conjunto do data set.
A apresentao do conhecimento descoberto uma parte princ ipal dessa
metodologia. Nesta fase, os padres relevantes podem ser localizados de grandes
colees de padres potencialmente relevantes.

Fundamentao Terica

16

b) Metodologia de Feldens
Feldens et al (1998) propem uma metodologia integrada, na qual as tecnologias
de minerao de dados e data warehouse, bem como questes de visualizao tm
papis muito importantes no processo. Tambm supe uma forte interao entre
mineradores de dados e pessoas da organizao para questes de modelagem e
preparao de dados. As fases definidas para esta metodologia so: pr-processamento,
minerao de dados e ps-processamento, conforme Figura 2.4.

Figura 2.4: Processo KDD (Feldens et al, 1998)

A fase de pr-processamento inclui tudo o que feito antes da minerao de


dados, o que significa a anlise que feita na organizao a fim de enfocar o projeto de
minerao de dados, a anlise dos dados existentes, integrao de fontes de dados,
transformaes de dados, etc.
A fase de minerao de dados inclui a aplicao de algoritmos, possivelmente a
aplicao repetida. A escolha dos algoritmos pode ser realizada baseando-se na anlise
que feita na fase de pr-processamento.
A fase de ps-processamento pode ser definida por operaes de filtragem,
estruturao e classificao. Somente aps esta fase, o conhecimento descoberto

Fundamentao Terica

17

apresentado ao usurio. O conhecimento descoberto pode ser filtrado por alguma


medida estatstica, por exemplo, suporte, confiana ou outro critrio definido pelo
usurio. Estruturao significa que o conhecimento pode ser organizado de forma
hierrquica.
c) Modelo de Processo CRISP-DM
O Modelo de Processo CRISP-DM (CRoss-Industry Standard Process for Data
Mining) define um processo de minerao de dados no linear (CRIP-DM, 2001),
conforme pode ser visto na Figura 2.5.

Entendimento
do Negcio

Entendimento
dos Dados

Preparao
de Dados
Utilizao

Dados

Modelagem

Avaliao

Figura 2.5: Fases do Modelo de Processo CRISP-DM (CRISP-DM, 2001)

Neste modelo, o ciclo de vida do projeto de minerao de dados consiste de seis


fases. A seqncia dessas fases no rigorosa, depende do resultado de cada fase ou de
qual tarefa particular de uma fase precisa ser executada na prxima fase. As flechas
indicam as dependncias mais importantes e freqentes entre as fases.
O crculo externo na figura simboliza a natureza cclica da minerao de dados.
Um processo de minerao de dados continua aps uma soluo ter sido descoberta. Os
processos de minerao de dados subseqentes se beneficiaro das exp erincias
anteriores.

Fundamentao Terica

18

A seguir, cada fase do modelo definida sucintamente.


A fase inicial do processo, Entendimento do Negcio (Business Understanding),
visa o entendimento dos objetivos do projeto e dos requisitos sob o ponto de vista do
negcio. Baseado no conhecimento adquirido, o problema de minerao de dados
definido e um plano preliminar projetado para ativar os objetivos.
A fase Entendimento dos Dados (Data Understanding) inicia com uma coleo
de dados e procede com atividades que visam: buscar familiaridade com os dados,
identificar problemas de qualidade de dados, descobrir os primeiros discernimentos nos
dados ou detectar subconjuntos interessantes para formar hipteses da informao
escondida.
A fase Preparao de Dados (Data Preparation) cobre todas as atividades de
construo do dataset final. As tarefas de preparao de dados so, provavelmente,
desempenhadas vrias vezes e no em qualquer ordem prescrita. Estas tarefas incluem
seleo de tabelas, registros e atributos, bem como transformao e limpeza dos dados
para as ferramentas de modelagem.
Na fase Modelagem (Modelling), vrias tcnicas de modelagem so selecionadas
e aplicadas e seus parmetros so ajustados para valores timos. Geralmente, existem
vrias tcnicas para o mesmo tipo de problema de minerao de dados. Algumas
tcnicas tm requisitos especficos na formao de dados. Portanto, retornar fase de
preparao de dados freqentemente necessrio.
Na fase Avaliao (Evaluation), o modelo (ou modelos) construdo na fase
anterior avaliado e so revistos os passos executados na sua construo para se ter
certeza de que o modelo representa os objetivos do negcio. O principal objetivo
determinar se existe alguma questo de negcio importante que no foi suficientemente
considerada. Nesta fase, uma deciso sobre o uso dos resultados de minerao de dados
dever ser alcanada.
Aps o modelo (ou modelos) ser construdo e avaliado, na fase Utilizao, ou
Aplicao, (Deployment) ele pode ser usado de duas formas. Na primeira forma, o
analista pode recomendar aes a serem tomadas baseando-se simplesmente na viso do
modelo e de seus resultados. Na segunda forma, o modelo pode ser aplicado a diferentes
conjuntos de dados.

Fundamentao Terica

19

2.2.9 Ferramentas de Minerao de dados

De acordo com Goebel e Gruenwald (1999), muitas ferramentas atualmente


disponveis so ferramentas genricas da Inteligncia Artificial ou da comunidade de
estatstica. Tais ferramentas geralmente operam separadamente da fonte de dados,
requerendo uma quantidade significativa de tempo gasto com exportao e importao
de dados, pr- e ps-processamento e transformao de dados. Entretanto, segundo os
autores, a conexo rgida entre a ferramenta de descoberta de conhecimento e a base de
dados analisada, utilizando o suporte do SGBD (Sistema de Gerenciamento de Banco de
Dados) existente, claramente desejvel. Para Goebel e Gruenwald (1999), as
caractersticas a serem consideradas na escolha de uma ferramenta de descoberta de
conhecimento devem ser as seguintes:
?? A habilidade de acesso a uma variedade de fontes de dados, de forma on-line e offline;
?? A capacidade de incluir modelos de dados orientados a objetos ou modelos no
padronizados (tal como multimdia, espacial ou temporal);
?? A capacidade de processamento com relao

ao

nmero

mximo

de

tabelas/tuplas/atributos;
?? A capacidade de processamento com relao ao tamanho do banco de dados;
?? Variedade de tipos de atributos que a ferramenta pode manipular; e
?? Tipo de linguagem de consulta.

Existem ferramentas que implementam uma ou mais tcnicas de minerao de


dados. A Tabela 2.3 relaciona algumas dessas ferramentas, fornecendo informaes tais
como: a empresa fornecedora, as tcnicas implementadas de minerao de dados e
exemplos de aplicaes.
Collier et al (1999) propem uma metodologia para seleo de ferramentas de
software de minerao de dados disponveis no mercado.

Fundamentao Terica

20

Tabela 2.3: Ferramentas de Minerao de Dados

FERRAMENTA/
EMPRESA
FORNECEDORA
AIRA/
Hycones IT (1998)

TCNICAS DE
MINERAO DE
DADOS
Regras de associao

Alice 5.1/
Isoft AS. (1998)

rvore de deciso
Raciocnio baseado
em casos
Induo de regras
rvores de deciso
Redes neurais

Clementine/
Integral Solutions Limited
(ISL, 1996)

DataMind /
DataMind Technology Center
(1998), (Groth, 1998)
Decision Series/
Neovista Solutions Inc.
(1998)
Intelligent Miner/
IBM (1997)
KnowledgeSEEKER/
Angoss IL (Groth, 1998)
MineSet/
Silicon Graphics Computer
Systems (2000)
NeuralWorks Predict/
NeuralWare (Groth, 1998)
PolyAnalyst/
Megaputer Intelligence Ltd.
(1998)

(abordagem prpria)

rvore de deciso
Mtodos estatsticos
Induo de regras
Redes neurais
rvores de deciso
Redes neurais
rvores de deciso
Induo de regras
Mtodos estatsticos
rvores de deciso
Induo de regras
Rede neural
Algoritmo gentico
Mtodos estatsticos
Induo de regras

APLICAES
Gerenciamento de relacionamento de cliente,
marketing, deteco de fraude, controle de
processo e controle de qualidade.
Poltica de crdito, marketing, sade, controle
de qualidade, recursos humanos.
Marketing direto, identificao de
oportunidades de venda cruzada, reteno de
cliente, previso de lucro do cliente,
deteco de fraude, segmentao e lucro do
cliente.
No identificadas.

Marketing direcionado, deteco de fraude,


reteno de cliente, anlise de risco,
segmentao de cliente, anlise de promoo.
Segmentao de cliente, anlise de conjunto
de itens, deteco de fraude.
Lucro e segmentao de cliente para deteco
de fraude e anlise de risco, controle de
processo, marketing direto.
reas da sade, farmacutica, biotecnologia e
qumica.
Indstria.
Marketing direto, pesquisa mdica, anlise de
conjunto de itens.

Você também pode gostar