Você está na página 1de 15

Data Mining

ou
Mineração de Dados

 Dado cru é fácil de coletar, mas caro para


analisar.
 Métodos: aprendizado de máquina,
estatística, bases de dados + visualização.
 Uma ferramenta para análises de dados.
 Pode ser combinado com métodos
tradicionais.
 Grande interesse desde 1989.
 Sucesso nas aplicações práticas.

Profa. Dra. Jaqueline Brigladori Pugliesi 2

1
Aprendizado
Exemplos de Máquina
(AM)

Data Mining BC
(DM)
Dados
Knowledge
Discovery
in Database
(KDD)

Profa. Dra. Jaqueline Brigladori Pugliesi 3

 Usualmente percebe-se uma grande confusão


de termos na comunidade como: Data
Warehouse, OLAP, Data Mining, KDD
 KDD (Knowledge Discovery in Databases) e
DM (Data Mining) são muitas vezes utilizados
como sinônimo.
 É comum utilizar DM em contextos
industriais, enquanto que KDD é uma
expressão mais científica.

Profa. Dra. Jaqueline Brigladori Pugliesi 4

2
Idade Motivo Duração Valor Risco
45 Carro 36 10,000 Baixo
20 Negoc. 20 35,000 Alto
37 Casa 40 30,000 Baixo
29 Carro 24 25,000 Alto
66 Mobil. 10 7,000 Alto
39,4

Profa. Dra. Jaqueline Brigladori Pugliesi 5

Idade Motivo Duração Valor Risco


45 Carro 36 10,000 Baixo
20 Negoc. 20 35,000 Alto
37 Casa 40 30,000 Baixo
29 Carro 24 25,000 Alto
66 Mobil. 10 7,000 Alto
Se Idade >= 35 e Duração >=20 então Risco = Baixo

Profa. Dra. Jaqueline Brigladori Pugliesi 6

3
Data Mining (DM) refere-se ao processo de
extrair conhecimento de bases de dados, ou
seja, trabalhar com grandes quantidades de
dados com o objetivo de extrair significado e
descobrir novos conhecimentos.

Profa. Dra. Jaqueline Brigladori Pugliesi 7

 Data Mining - processo de extração de


conhecimento de Bases de Dados.
 Definição formal (Fayyad,96)
• Processo não trivial de identificação de padrões:
 válidos;
 novos;
 potencialmente úteis;
 compreensíveis.
 Área multidisciplinar.

Profa. Dra. Jaqueline Brigladori Pugliesi 8

4
NIKE

WAL MART

Profa. Dra. Jaqueline Brigladori Pugliesi 9

PRÉ-PROCESSAMENTO
EXTRAÇÃO
DE PADRÕES

IDENTIFICAÇÃO
DO PROBLEMA

PÓS-PROCESSAMENTO
UTILIZAÇÃO DO
CONHECIMENTO

Profa. Dra. Jaqueline Brigladori Pugliesi 10

5
 Estudo do domínio da aplicação;
 Definidos objetivos e metas a
serem alcançados;
 Identificados e selecionados os
conjuntos de dados.
IDENTIFICAÇÃO
DO PROBLEMA

PRÉ-
PROCESSAMENTO

 Obtenção e unificação;
 Transformação;
IDENTIFICAÇÃO
DO PROBLEMA  Limpeza;
 Redução do volume de dados:
 redução do número de exemplos;
 redução do número de atributos;
 redução do número de valores de
um atributo.

6
PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES

IDENTIFICAÇÃO
DO PROBLEMA
 Escolha da função:
 descritiva ou preditiva
 Escolha do algoritmo:
 algoritmo e parâmetros
 Obtenção de padrões:
 aplicação do algoritmo aos dados

PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES

IDENTIFICAÇÃO
DO PROBLEMA

 Interpretação e explanação:
 documentado;
PÓS-
PROCESSAMENTO  visualizado;
 modificado;
 comparado.

7
PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES

IDENTIFICAÇÃO
DO PROBLEMA

 Filtragem do conhecimento:
 pós-poda;
PÓS-
PROCESSAMENTO  truncagem;
 restrição de atributos;
 ordenação por métricas.

PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES

IDENTIFICAÇÃO
DO PROBLEMA

 Avaliação:
 precisão;
PÓS-
PROCESSAMENTO  compreensibilidade;
 interessabilidade.

8
PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES

IDENTIFICAÇÃO
DO PROBLEMA

PÓS-
PROCESSAMENTO

PROCESSO
ITERATIVO E INTERATIVO

PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES

IDENTIFICAÇÃO
DO PROBLEMA
 O objetivo maior do processo de
Extração de Conhecimento é o
uso do conhecimento obtido, seja
PÓS-
UTILIZAÇÃO DO
em um Sistema Inteligente, seja
PROCESSAMENTO
CONHECIMENTO diretamente pelo usuário final
para apoio a algum processo de
decisão.

9
PRÉ-PROCESSAMENTO
EXTRAÇÃO
DE PADRÕES

IDENTIFICAÇÃO
DO PROBLEMA

PÓS-PROCESSAMENTO
UTILIZAÇÃO DO
CONHECIMENTO

Profa. Dra. Jaqueline Brigladori Pugliesi 19

 A exploração dos dados começa com os


dados?

Grande volume
de dados
Terabytes ou até
PentaBytes (1015
bytes)
Base de
Dados

Profa. Dra. Jaqueline Brigladori Pugliesi 20

10
 A exploração normalmente começa com a
identificação de uma necessidade!

Necessidade:

Decifrar os dados com


informações biológicas
e transformá-los em
conhecimento
Base de
Dados

Profa. Dra. Jaqueline Brigladori Pugliesi 21

 Antes do início do processo é imprescindível


a obtenção de um conhecimento inicial do
domínio
 Questões importantes:
• Quais são as principais metas do processo?
• Quais critérios de performance são importantes?
• Qual deve ser a relação entre simplicidade e
precisão do conhecimento extraído?
 Fornece subsídio para todas as etapas do
processo

Profa. Dra. Jaqueline Brigladori Pugliesi 22

11
 Atividade preditivas
• Classificação
• Regressão
 Atividades descritivas
• Regras de associação
• Sumarização
• Clustering
• etc.

Profa. Dra. Jaqueline Brigladori Pugliesi 23

 Aprendizado de máquina
 Estatística
 Arquiteturas
 Visualização
 Sistemas de suporte à decisão
 Gerenciamento de dados
 Data warehouse e OLAP

Profa. Dra. Jaqueline Brigladori Pugliesi 24

12
 Técnicas simbólicas: Árvores de decisão e
Regras de decisão
 Algoritmos genéticos
 Redes neurais
 Técnicas de preparação de dados para
mineração
 Ferramentas para Data Mining

Profa. Dra. Jaqueline Brigladori Pugliesi 25

 Text Mining
 Web Mining
 Recuperação de Informação

Profa. Dra. Jaqueline Brigladori Pugliesi 26

13
 DM é muito útil quando há dados disponíveis.
 Exemplos como Wal Mart nos Estados Unidos,
demonstram que DM e TI funcionam.
 Um dos grandes problemas de DM está
relacionado com a utilização/criação dos
algoritmos para grande volume de dados.
 A presença de especialistas nos dados é muito
importante no processo DM.
 Se o custo da descoberta é maior que o ganho,
o esforço pode não justificar!

Profa. Dra. Jaqueline Brigladori Pugliesi 27

 Alguns Problemas em Data Mining:


• falta de informação;
• buracos na sequência da informação;
• em bases dinâmicas as trocas nos registros
(tamanho, tipo, etc.) são comuns;
• contaminação da informação por erros;
• incerteza nos dados.

Profa. Dra. Jaqueline Brigladori Pugliesi 28

14
FIM

Profa. Dra. Jaqueline Brigladori Pugliesi 29

15

Você também pode gostar