Data Mining

FACULDADE EXPONENCIAL – FIE
CURSO DE SISTEMAS DE INFORMÇÃO
DATAMINING
GLAUBER DE BORTOLI
JOSÉ CLAUDIO PIGNAT FILHO
ANDRÉ GEIER MENDES
Extração de Informações de DB’s
CHAPECÓ – SC, OUTUBRO DE 2005

O que é um DataMining?
DataMining (ou mineração de dados) é o processo de extrair informação válida,

previamente desconhecida e de máxima abrangência a partir de grandes bases de dados,
usando-as para efetuar decisões cruciais. O Datamining vai muito além da simples
consulta a um banco de dados, no sentido de que permite aos usuários explorar e inferir
informação útil a partir dos dados, descobrindo relacionamentos escondidos no banco
de dados. Pode ser considerada uma forma de descobrimento de conhecimento em
bancos de dados (KDD - Knowledge Discovery in Databases), área de pesquisa de
bastante evidência no momento, envolvendo Inteligência Artificial e Banco de
Dados. Apesar dessa tecnologia ter uma longa evolução de sua história, o termo como
conhecemos hoje só foi introduzido recentemente, nos anos 90.
Características de um Datamining
A figura abaixo exemplifica como o Datamining está definido:
O Datamining descende fundamentalmente de 3 linhagens.
A estatística: A mais antiga delas. Sem a estatística não seria possível termos o DM,
visto que a mesma é a base da maioria das tecnologias a partir das quais o DM é
construído. A Estatística Clássica envolve conceitos como distribuição normal,
variância, análise de regressão, desvio simples, análise de conjuntos, análises de
discriminantes e intervalos de confiança, todos usados para estudar dados e os
relacionamentos entre eles. Esses são as pedras fundamentais onde as mais avançadas
análises estatísticas se apóiam. E sem dúvida, no coração das atuais ferramentas e
técnicas de DM, a análise estatística clássica desempenha um papel fundamental.
Inteligência Artificial: A segunda linhagem do DM é a Inteligência Artificial, ou IA.

Essa disciplina, que é construída a partir dos fundamentos da heurística, em oposto à
estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas
estatísticos. As notáveis exceções utilizações de IA certamente são alguns conceitos
adotados por alguns produtos de ponta, como módulos de otimização de consultas para
SGBDs.
Machine Learning: E a terceira e última linhagem do DM é a chamada machine

learning, que pode ser melhor descrita como o casamento entre a estatística e a IA. A
machine learning tenta fazer com que os programas de computador “aprendam” com os
dados que eles estudam, tal que esses programas tomem decisões diferentes baseadas
nas características dos dados estudados, usando a estatística para os conceitos
fundamentais, e adicionando mais heurística avançada da IA e algoritmos para alcançar
os seus objetivos. De muitas formas, o DM é fundamentalmente a adaptação das
técnicas da Machine Learning para as aplicações de negócios.
Aplicações do Datamining
Técnicas de Datamining têm sido aplicadas com sucesso para a solução de

problemas em diversas áreas, como descrito a seguir:
Vendas:
- Identificar padrões de comportamento dos consumidores;
- Encontrar características dos consumidores de acordo com a região demográfica;
- Prever quais consumidores serão atingidos nas campanhas de marketing.
Finanças:
- Detectar padrões de fraudes no uso dos cartões de crédito;

- Identificar os consumidores que estão tendendo a mudar a companhia do cartão de
crédito;
- Identificar regras de estocagem a partir dos dados do mercado;
- Encontrar correlações escondidas nas bases de dados.
Seguros e Planos de Saúde:
- Determinar quais procedimentos médicos são requisitados ao mesmo tempo;
- Prever quais consumidores comprarão novas apólices;
- Identificar comportamentos fraudulentos;
Transporte:
- Determinar a distribuição dos horários entre os vários caminhos;
- Analisar padrões de sobrecarga;
Medicina:
- Caracterizar o comportamento dos pacientes para prever novas consultas;
- Identificar terapias de sucessos para diferentes doenças.
Fases de implementação de um Datamining
Pode ser dito com relativa confiança que é fácil começar um projeto de
Datamining, a dificuldade está em finalizá-lo de acordo com as expectativas. As
promessas geradas, no início de um projeto, pela utilização de novas tecnologias que
podem solucionar problemas tradicionalmente difíceis, podem ser mal interpretadas ao
avaliar as perspectivas de um novo projeto. Dificuldades com extração dos dados,
preparação dos mesmos, validação dos dados extraídos e a alocação de recursos no
cliente, frequentemente são subestimadas ao planejar o envolvimento e os cronogramas
para a execução do projeto. As atividades de obtenção e limpeza dos dados
normalmente consomem mais da metade do tempo dedicado ao projeto. Para a execução
de projetos de Datamining e a correta alocação de recursos para os mesmos, foi
desenvolvida uma metodologia padrão não proprietária que visa identificar as diferentes
fases na implantação de um projeto. Segundo a metodologia desenvolvida, a
implementação de um sistema de Datamining pode ser dividida em seis fases
interdependentes para que o mesmo atinja seus objetivos finais. São elas:
Entendimento do negócio: A fase inicial do projeto deve ter por objetivo identificar as
metas e requerimentos a partir de uma perspectiva de negócio, e então converte-las para
uma aplicação de Datamining e um plano inicial de ataque ao problema.
Entendimento dos dados: Esta fase tem como atividade principal extrair uma amostra
dos dados a serem usados e avaliar o ambiente em que os mesmos se encontram.
Preparação dos dados: Criação de programas de extração, limpeza e transformação

dos dados para uso pelos algoritmos de Datamining.
Modelagem: Seleção do(s) algoritmo(s) a serem utilizados e efetivo processamento do

modelo. Alguns algoritmos necessitam dos dados em formatos específicos, o que acaba
causando vários retornos à fase de preparação dos dados.
Avaliação do modelo: Ao final da fase de modelagem, vários modelos devem ter sido
avaliados sob a perspectiva do analista responsável. Agora, o objetivo passa a ser avaliar
os modelos com a visão do negócio, se certificando que não existem falhas ou
contradições com relação às regras do negócio.
Publicação: A criação e validação do modelo permite avançarmos mais um passo, no

sentido de tornar a informação gerada acessível. Isto pode ser feito de várias maneiras,
desde a criação de um software específico para tal, até a publicação de um relatório para
uso interno.
Exemplo de Produtos Comerciais (segundo a visão da empresa desenvolvedora)
DSS EBIS®: Preparado para atender ambientes tecnológicos e informacionais

complexos, integrando fontes de dados heterogêneas como: bancos relacionais, arquivos
de texto, planilhas eletrônicas e entradas manuais. Aplicativos próprios e integrados
para extração, transformação e carga de dados (ETL), registro de dados (Data Enters),
preparação e entrega de informações para análises, em ambientes dinâmicos, com
acesso via intranet ou internet. Nas aplicações para usuários finais são disponibilizados
poderosos recursos analíticos, garantindo autonomia para que analistas de negócio
explorem as informações corporativas com segurança e facilidade, sem a dependência
da equipe de TI.
Cypress Data Mining: O Cypress Data Mining filtra, classifica e resume dados de
relatórios "num instante" segundo as necessidades de cada usuário, salva as informações
como uma conveniente planilha Excel ou arquivo de texto e então o encaminha
automaticamente para a impressora, caixa de entrada de e-mail, fax, diretório ou outro
local adequado da empresa. Uma vez que os relatórios tenham sido processados, os
arquivos resultados em Excel ou texto podem ser totalmente integrados com outros
softwares, incluindo arquivamento e entrega na internet. A integração com o Cypress
DocuVault possibilita aos usuários ver somente as informações que foram autorizados a
acessar - isso é algo que as soluções de Datamining de usuário final não conseguem
fornecer de forma consistente. A capacidade de arquivamento de longo prazo do
Cypress proporciona uma solução rápida livre de programação para informações
históricas de exploração que podem não estar mais em seus bancos de dados. O Módulo
Cypress Datamning é baseado em servidor e destinado a ambiente de produção ao invés
de um software para usuário final. O treinamento extensivo dos usuários finais é,
portanto eliminado e as informações podem ser disponibilizadas mais rapidamente a um
número maior de usuários. Automatizar as tarefas de datamining normalmente
executadas pelos usuários finais significa que eles podem dedicar mais tempo em suas
tarefas básicas e menos tempo aprendendo e operando software sofisticado de
Datamining baseado em cliente.
Keyword AxB: A proposta da família de ferramentas Keyword AxB é trazer a

informação diretamente para quem precisa dela no seu dia a dia com velocidade,
segurança, confiabilidade e com muita simplicidade, sendo útil onde quer que haja
necessidade de consolidar e analisar bases de dados de qualquer tamanho. O Keyword
AxB é uma ferramenta muito flexível e pode ser empregado nas mais diversas
necessidades de análise.
BIBLIOGRAFIA
Bruno Eduardo Cerquinho, e Henrique Figueiredo de Souza (UNICAP – 2002),

disponível em:
http://www.dei.unicap.br/~almir/seminarios/2002.1/ns01/datawarehouse/datamining.ht
m, acesso em: 20/10/2005.
Crisp DM, disponível em: http://www.crisp-dm.org/, acesso em: 20/10/2005.
Fabio Vessoni, disponível em: http://www.mv2.com.br/datamining.doc, acesso em:

20/10/2005.

Data Mining

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Data Mining

Enviado por

Direitos autorais:

Formatos disponíveis

FACULDADE EXPONENCIAL – FIE

CURSO DE SISTEMAS DE INFORMÇÃO

CHAPECÓ – SC, OUTUBRO DE 2005

DataMining (ou mineração de dados) é o processo de extrair informação válida,

A figura abaixo exemplifica como o Datamining está definido:

O Datamining descende fundamentalmente de 3 linhagens.

Inteligência Artificial: A segunda linhagem do DM é a Inteligência Artificial, ou IA.

Machine Learning: E a terceira e última linhagem do DM é a chamada machine

Técnicas de Datamining têm sido aplicadas com sucesso para a solução de

- Identificar padrões de comportamento dos consumidores;

- Encontrar características dos consumidores de acordo com a região demográfica;

- Prever quais consumidores serão atingidos nas campanhas de marketing.

- Detectar padrões de fraudes no uso dos cartões de crédito;

- Identificar regras de estocagem a partir dos dados do mercado;

- Encontrar correlações escondidas nas bases de dados.

Seguros e Planos de Saúde:

- Determinar quais procedimentos médicos são requisitados ao mesmo tempo;

- Prever quais consumidores comprarão novas apólices;

- Identificar comportamentos fraudulentos;

- Determinar a distribuição dos horários entre os vários caminhos;

- Analisar padrões de sobrecarga;

- Caracterizar o comportamento dos pacientes para prever novas consultas;

- Identificar terapias de sucessos para diferentes doenças.

Fases de implementação de um Datamining

Preparação dos dados: Criação de programas de extração, limpeza e transformação

Modelagem: Seleção do(s) algoritmo(s) a serem utilizados e efetivo processamento do

Publicação: A criação e validação do modelo permite avançarmos mais um passo, no

Exemplo de Produtos Comerciais (segundo a visão da empresa desenvolvedora)

DSS EBIS®: Preparado para atender ambientes tecnológicos e informacionais

Keyword AxB: A proposta da família de ferramentas Keyword AxB é trazer a

Bruno Eduardo Cerquinho, e Henrique Figueiredo de Souza (UNICAP – 2002),

Crisp DM, disponível em: http://www.crisp-dm.org/, acesso em: 20/10/2005.

Fabio Vessoni, disponível em: http://www.mv2.com.br/datamining.doc, acesso em:

Você também pode gostar