Você está na página 1de 22

Data Mining:

Conceitos e Tcnicas

DM, DW e OLAP

Data Warehousing e OLAP para


Data Mining

O que data warehouse?


De data warehousing para data mining

Data Warehousing e OLAP para


Data Mining

Data Warehouse: A Memria da Empresa


Data Mining: A Inteligncia da Empresa

O que Data Warehouse?


Definido de diversas formas, mas no
rigorosamente:
uma base de dados de suporte que
mantida separadamente da base de dados
operacional da organizao;
Suporta o processamento de informaes
provendo uma slida plataforma de dados
histricos e consolidados para anlise;

O que Data Warehouse?

1.
2.
3.
4.

Um data warehouse uma coleo


de dados:
orientada a assunto (subject-oriented);
integrada;
variante no tempo, e
no-voltil
para suporte a decises de
gerenciamento.W. H. Inmon
Data warehousing: o processo de
construo e uso de data warehouses.

Usos do data warehouse


Processamento de Informaes:
Suporta consultas, anlise estatstica bsica e
relatrios usando tabelas, grficos, etc.

Processamento analtico:
Anlise multi-dimensional doas dados contidos no
data warehouse;
Suporta operaes OLAP bsicas (slice-dice,
drilling, pivoting);

Usos do data warehouse


Data mining:
Descoberta de conhecimento em padres;
Suporta associaes, construo de modelos
analticos, executa classificao e predio, e
apresenta os resultados usando ferramentas de
visualizao.

De OLAP para OLAM


Por que OLAM?
Alta qualidade dos dados nos data warehouses;
DW contem dados integrados, consistentes e limpos.

Estrutura para o tratamento de informao disponvel


no ambiente de DW:
ODBC, OLEDB, acesso Web, facilidades de servio, relatrios e
ferramentas OLAP;

Anlise de dados exploratria baseada em OLAP;


Minerao com drilling, dicing, pivoting, etc.

Seleo on-line das funes de data mining:


Integrao e intercmbio de mltiplas funes de minerao,
algoritmos e tarefas.

Uma arquitetura OLAM


Mining query

Mining result

Layer4
User Interface

User GUI API

OLAM
Engine

OLAP
Engine

Layer3
OLAP/OLAM

Data Cube API


Layer2

MDDB

MDDB
Meta Data

Filtering&Integration

Database API

Filtering

Layer1
Data cleaning

Databases

Data
Data integration Warehouse

Data
Repository

Pr-processamento de
dados

Por que pr-processar os dados ?


Dados reais so sujos:
Incompletos: falta de valores de atributos, falta de
atributos de interesse ou existncia de atributos
agregados;
Ruidosos: contem erros e desvios;
Inconsistentes: contem discrepncias em nomes e
na codificao.

Sem dados de qualidade, sem resultados de


qualidade em DM:
Decises de qualidade devem estar baseadas em
dados de qualidade;
DW necessita da integrao consistente de dados
de qualidade.

Medida multidimensional da
qualidade dos dados
Uma viso multidimensional bem aceita:

Correo;
Completude;
Consistncia;
Atualidade (timeliness);
Credibilidade;
Valor adicionado;
Interpretabilidade;
Acessibilidade.

Categorias abrangentes:
Intrnseca, contextual, representacional e
acessibilidade.

Principais tarefas no prprocessamento dos dados


Limpeza dos dados:
Preenchimento de valores inexistentes, atenuao
de dados ruidosos, identificao e remoo de
desvios, resoluo de inconsistncias;

Integrao de dados:
Integrao de mltiplos DB, data cubos, e arquivos;

Transformaes nos dados:


normalizao e agregao;

Reduo de dados:
Obteno de uma representao reduzida em
volume mas que produz resultados de anlise
idnticos ou similares.

Principais tarefas no prprocessamento dos dados

Limpeza dos dados: Valores faltantes


1.
2.
3.
4.
5.
6.

Ignorar a tupla;
Preencher o valor manualmente;
Usar uma constante global;
Usar o valor mdio do atributo na base;
Usar o valor mdio do atributo na classe;
Usar o valor mais provvel.

Principais tarefas no prprocessamento dos dados

Limpeza dos dados: Atenuao de


dados ruidosos
1.
2.
3.
4.

Discretizao;
Agrupamento;
Interao humana;
Regresso.

Principais tarefas no prprocessamento dos dados

Limpeza dos dados: Inconsistncias


1. Eliminar dados;
2. Corrigir manualmente;
3. Ignorar.

Principais tarefas no prprocessamento dos dados


Integrao de dados:
Integrao de esquemas de BD: problema
da identificao de entidades;
Redundncias;
Deteco e resoluo de valores
conflitantes nos dados.

Principais tarefas no prprocessamento dos dados


Transformaes nos dados:

Suavizao (smooting);
Agregao;
Generalizao;
Normalizao (entre 0 e 1);
Construo de atributos.

Principais tarefas no prprocessamento dos dados


Reduo de dados:

Agregao de data cubes;


Reduo de dimensionalidade;
Compresso de dados;
Reduo de instncias;
Gerao de hierarquias de conceitos.

Formas de pr-processamento
de dados

Sumrio
A preparao do dados um ponto crucial
tanto para data warehousing quanto para data
mining;
A preparao de dados inclui:
Limpeza e Integrao de dados;
Reduo de dados e seleo de caractersticas;
Discretizao: intervalos iguais, freqncias iguais,
agrupamento.

Vrios mtodos tm sido desenvolvidos, mas


ainda rea ativa de pesquisa.

Você também pode gostar