Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
MINERAO DE
DADOS
COMPONENTES:
SUMRIO
ii
LISTA DE FIGURAS
Figura 01 Processo Descoberta de Conhecimento em Banco de Dados ....................... 04
Figura 02 Modelo CRISP-DM ...................................................................................... 12
iii
LISTA DE REDUES
SIGLAS
DESCRIO
KDD
MBR
Memory-Based Reasoning
SQL
iv
RESUMO
CAPTULO I INTRODUO
1.3 OBJETIVOS
Como objetivos deste trabalho podemos descrever:
- o conceito de minerao de dados;
- a minerao de dados como parte da DCBD;
- as tarefas desempenhadas por tcnicas de minerao de dados;
- as tcnicas de minerao de dados;
- como escolher a tcnica de minerao de dados mais adequada;
- as reas de aplicao de tcnicas de minerao de dados;
- o processo de descoberta de conhecimento;
- o modelo de processo CRISP-DM.
CAPTULO II DESENVOLVIMENTO
2.1 CONCEITOS
Antes de conceituarmos Minerao de Dados, necessrio, mencionarmos as
definies de Data Warehouse e Data Mart, haja visto ocorrer uma relao direta entre eles.
Data Warehouse armazena dados que foram extrados dos vrios bancos de dados
de uma organizao. uma fonte central de dados j trabalhados, transformados e
catalogados (OLIVEIRA, 1997).
Data Mart um subconjunto do data warehouse que est mais ajustado para
fornecer dados detalhados de uma rea especfica. Por exemplo: abrangem um subconjunto de
dados referentes a um nico aspecto do negcio da companhia, ou seja, finanas, estoque ou
pessoal de uma empresa. Os data marts so mais teis para grupos menores que precisam
acessar dados detalhados, enquanto o data warehouse usado para consolidar os dados que
sero acessado por toda a empresa (OLIVEIRA, 1997).
Data Mining consiste no uso de tcnicas automticas de explorao de grandes
quantidades de dados de forma a descobrir novos padres e relaes que, devido ao volume
de dados, no seriam facilmente descobertos a olho nu, isto , prever ou classificar e, por fim,
propor estratgias de negcios, voltadas para aumentar a competitividade, elevar os lucros e
transformar os processos corporativos. Esse procedimento utilizado para auxiliar nas
tomadas de decises que englobam mudanas estratgicas nas operaes para obterem
vantagens competitivas no mercado (OLIVEIRA, 1997).
a) Classificao
A tarefa de classificao consiste em construir um modelo de algum tipo que
possa ser aplicado a dados no classificados visando categoriz-los em classes.
So exemplos de tarefas de classificao: classificar pedidos de crditos como de
baixo, mdio e alto risco; esclarecer pedidos de seguros fraudulentos; identificar a forma de
tratamento na qual um paciente est mais propcio a responder, baseando-se em classes de
pacientes que respondem bem a determinado tipo de tratamento mdico.
c) Associao
A tarefa de associao consiste em determinar quais itens tendem a serem
adquiridos juntos em uma mesma transao. O exemplo clssico determinar quais produtos
costumam ser colocados juntos em um carrinho de supermercado. As cadeias de varejo usam
associao para planejar a disposio dos produtos nas prateleiras das lojas ou em um
catlogo, de modo que os itens geralmente adquiridos na mesma compra sejam vistos
prximos entre si.
e) Sumarizao
A tarefa de sumarizao envolve mtodos para encontrar uma descrio compacta
para um subconjunto de dados. Um simples exemplo desta tarefa poderia ser tabular o
significado e desvios padro para todos os itens de dados. Mtodos mais sofisticados
envolvem a derivao de regras de sumarizao.
f) rvores de deciso
Uma rvore de deciso uma rvore onde cada n no terminal representa um
teste ou deciso sobre o item de dado considerado. O objetivo principal separar as classes;
tuplas de classes diferentes tendem a ser alocadas em subconjuntos diferentes, cada um
descrito por regra simples em um ou mais itens de dados. Essas regras podem ser expressas
como declaraes lgicas, em uma linguagem como SQL, de modo que possam ser aplicadas
diretamente a novas tuplas.
6
h) Algoritmos genticos
Os algoritmos genticos so mtodos generalizados de busca e otimizao que
simulam os processos naturais de evoluo. Um algoritmo gentico um procedimento
iterativo para evoluir uma populao de organismos e usado em minerao de dados para
formular hipteses sobre dependncias entre variveis, na forma de algum formalismo
interno.
Os algoritmos genticos usam os operadores de seleo, cruzamento e mutao
para desenvolver sucessivas geraes de solues. Com a evoluo do algoritmo, somente as
solues com maior poder de previso sobrevivem, at os organismos convergirem em uma
soluo ideal.
A tcnica de algoritmos genticos apropriada s tarefas de classificao e
segmentao.
1) Definio de objetivos
Neste passo, deve-se definir os objetivos de negcio que devero ser alcanados
com a minerao de dados e o que dever ser feito com os seus resultados, como por
exemplo: mudana de plano de marketing.
2) Preparao de dados
A preparao de dados envolve as tarefas de seleo e transformao dos dados.
Os tipos de dados selecionados podem estar organizados ao longo de mltiplas tabelas.
Durante a seleo de dados, o usurio pode necessitar executar junes de tabelas ou eliminar
linhas e/ou colunas de tabelas. Os mtodos de transformao incluem organizar dados na
forma desejada e converter um tipo de dado em outro tipo.
10
3) Definio de um estudo
Definir um estudo pode envolver articular um alvo, escolher uma varivel
dependente ou uma sada que caracterize um aspecto do alvo e especificar os campos de
dados que so usados no estudo. Bons estudos so unidos para caracterizar aquilo que pode
ser descrito com seus dados. Por outro lado, o alvo pode ser usado para agrupar tipos
similares de dados ou para identificar excees em um conjunto de dados. A identificao de
excees geralmente usada na descoberta de fraude ou de dados incorretos.
As atividades realizadas neste passo complementam os objetivos de negcio,
definidos anteriormente, aps a obteno de um conhecimento mais detalhado sobre os dados
operacionais existentes.
4) Construo de um modelo
A construo de um modelo feita atravs de uma tcnica de minerao de dados,
tendo como base os dados transformados e o estudo definido no passo anterior. Um modelo
resume grandes quantidades de dados por acumular indicadores. Alguns dos indicadores que
vrios modelos acumulam so: a) freqncias: mostram em qual freqncia que um certo
valor ocorre; b) pesos ou impactos: indicam a influncia exercida por algumas entradas na
ocorrncia de uma sada; c) conjunes: algumas vezes certas entradas tm mais peso juntas
do que separadas; d) diferenciao: indica a importncia de uma entrada para uma
determinada sada do que para uma outra sada.
5) Entendimento do modelo
Dependendo do tipo de modelo usado para representar os dados, existem
diferentes formas de entend-lo. Os indicadores que muitos modelos podem acumular,
conforme descritos no passo anterior, podem influenciar no entendimento do modelo, alm do
tipo de tcnica de minerao de dados aplicada na construo do modelo.
6) Predio
A predio o processo de escolher o melhor resultado possvel baseado na
anlise de dados histricos. O usurio deve analisar a informao descoberta de acordo com
11
sua tarefa de suporte deciso e objetivos. Portanto, ele precisa ter um bom entendimento
sobre o negcio da empresa e sobre o conhecimento descoberto (Freitas, 1993).
13
3.1 CONCLUSES
Conclumos que a minerao de dados processada para identificar fatores e
tendncias nas atividades de negcios, pesquisas cientficas, deteco de fraudes, controle de
processos e controle de qualidade.
O software de minerao de dados utiliza algortimos avanados de
reconhecimento de padres, assim como uma variedade de tcnicas matemticas e estatsticas
para selecionar montanhas de dados e extrair informaes estratgicas anteriormente
desconhecidas.
A minerao de dados pode destacar padres de compra, revelar tendncias de
clientes, cortar custos suprfluos, ou descobrir relaes e oportunidades lucrativas no
percebidas. Por exemplo, muitas empresas usam a minerao de dados para encontrar formas
mais lucrativas de elaborar malas diretas (mesmo com e-mail) de sucesso, ou descobrir
melhores formas de exibir produtos numa loja, projetar um melhor website de e-commerce,
atingir clientes lucrativos no atingidos, ou identificar clientes ou produtos marginais ou no
lucrativos.
Por fim, ratificamos que os dados so um recurso organizacional essencial que
precisa ser administrado com grande importncia dentro das empresas. A maioria das
organizaes no conseguiria sobreviver ou ter sucesso sem dados de qualidade sobre as
operaes internas e externas das indstrias.
14
REFERNCIAS
CARVALHO, Lus Alfredo Vidal de. Data Mining: a minerao de dados no marketing,
medicina, economia, engenharia e administrao. So Paulo: rica, 2001.
BRASIL,
Universidade
Federal
do
Par.
Seminrio
de
MD.
Disponvel
em
15