Você está na página 1de 43

The

CRISPDM
Process
Model
Rodrigo Cunha

O que CRISP-DM?
Metodologia padro no proprietria que
identifica as diferentes fases na implantao de
um projeto de data mining (DMP).

Metodologias em Data Mining

CRISP-DM
http://www.crisp-dm.org/
Fonte: http://www.kdnuggets.com/polls/

CRoss Industry Standard


Process for Data Mining

Source: http://www.crisp-dm.org/

Nveis do CRISP-DM
Phases

CRISP
Process Model

Generic Tasks

Mapping
Specialized
Tasks
Process
Instances

CRISP
Process

Fluxo do Processo: CRISP-DM


Business
Business
understanding
understanding

Data
Data
understanding
understanding

Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling

Evaluation
Evaluation

Processo de Descoberta do
Conhecimento [Fayyad 96]
Interpretation/
Evaluation

Data Mining

Transformation

Preprocessing

Selection

Data
Sources

Target
Data

Patterns /
Models

Transformed
Data

Preprocessed
Data

Knowledge

CRISP-DM X KDD

6. Evaluation 7. Deployment
Interpretation/
Evaluation

5. Modeling
Data Mining

4.3 Construct
Data
Transformation

Patterns /
Models

4.2 Clean Data


Preprocessing

Transformed
Data

4.1 Select Data


Selection

Preprocessed
Data

3. Data
Understanding
Data
Sources

2. Business
Understanding

Target
Data

Knowledge

Exemplo: Projeto
Minerao de Dados
Utilizando CRISP-DM

Objetivo do Projeto
Descrever todo o processo de desenvolvimento da soluo
do projeto: Minerao de dados para a diagnstico de falhas.

Apresentar a metodologia de desenvolvimento de solues


padro em minerao de dados chamada CRISP-DM

Sistema de Telecomunicaes da Chesf


SDH-Alcatel

Fase 1 no projeto de DM
Business Understanding:
Definio dos objetivos do negcio
Detectar as falhas do sistema, a partir do histrico das ocorrncias
e da condio dos alarmes de sinalizao de problemas nos
sistemas.

Extrair conhecimento dos dados atravs de regras para o melhor


entendimento das circunstncias que resultam em falhas.

Descrever os critrios de resultados para que o projeto seja


considerado um sucesso, assim como a forma de medir.
Auxlio para a definio de polticas de manuteno

Uniformidade no padro de qualidade do servio (livre de fadiga,


stress, desgaste emocional)

Reduo do tempo de resposta s consultas

Fase 1 no projeto de DM (cont)


Business Understanding:
Avaliar situao atual do cliente.

Recursos Disponveis
Dados em um data warehouse (ORACLE)

Suposies e Restries
Alarme Crtico = Falha
SDH Alcatel

Fase 1 no projeto de DM (cont)


Business Understanding:
Determinar os riscos

Demanda do especialista do domnio


Qualidade dos dados
Recebimento dos dados

Fase 1 no projeto de DM (cont)


Business Understanding:
Determinar tarefas de minerao de dados

Classificao de padres
Regras de classificao

Fase 1 no projeto de DM (cont)


Business Understanding:
Fazer Plano do Projeto
Etapa 1:

Levantamento da situao atual do problema de falhas

Etapa 2:

Anlise preliminar dos dados sobre as ocorrncias de


falhas de equipamentos

Etapa 3:

Preparao dos dados


Modelagem dos dados
Extrao de Regras do conhecimento adquirido

Etapa 4:

Interao com especialista do domnio


Homologao dos resultados

Etapa 5:

Implantao do prottipo

Fluxo do Processo: CRISP-DM


Business
Business
understanding
understanding

Data
Data
understanding
understanding

Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling

Evaluation
Evaluation

Fase 2 no projeto de DM
Data Understanding
Coletar dados iniciais

Dados referentes aos alarmes na rede de

telecomunicaes SDH - Alcatel foram


disponibilizados em arquivos textos mensais
nos 14 meses de dez/2001 a jan/2003.
Juno dos dados em uma nica tabela.
(ACCESS).
Apenas 1 ano fev2002 a jan2003

Fase 2 no projeto de DM
Data Understanding
Descrever os dados

491.127 alarmes
75934 (15,46%) so alarmes crticos (falhas).
Campo

NOME DO
CAMPO

EQUIPAMENTO

ALARME

MODULO

LOCAL

NOME LOCAL

GERENCIA

SEVERIDA

DATAALARME

DATANORM

10

ROTA

Fase 2 no projeto de DM
Data Understanding
Descrever os dados
Tipo de alarmes

Freqncia

Percentual

CRITICAL

75934

15,5 %

MAJOR

234780

47,8 %

MINOR

147797

30,1 %

WARNING

32616

6,6 %

Fase 2 no projeto de DM
Data Understanding
Verificar qualidade dos dados
Boa qualidade dos dados
0% de missings
0% de outliers

Fluxo do Processo: CRISP-DM


Business
Business
understanding
understanding

Data
Data
understanding
understanding

Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling

Evaluation
Evaluation

Fase 3 no projeto de DM
Data Preparation:
Preparar os dados para importao no software
de DM.
Derivar campos calculados (se necessrio)
Integrar bases de dados externas (IBGE,
Correios, etc.)
Limpeza dos dados: outliers e missings.
Codificar campos em: irrelevante, categrico e
numrico.

Fase 3 no projeto de DM
Data preparation:
Campos Calculados:

QTD WARNING => Quantidade de alarmes


warnings desde o ltimo alarme crtico.

QTD MAJOR => Quantidade de alarmes


major desde o ltimo alarme crtico

QTD MINOR => Quantidade de alarmes


minor desde o ltimo alarme crtico

Fase 3 no projeto de DM
Data preparation:
Pr-Processamento:
5 (cinco) atributos relevantes
3 natureza numrica
Normalizao [0...1]
2 natureza categrica
Transformao 1 de n
Varivel de sada
WARNING para No-FALHA
MINOR para No-FALHA
MAJOR para No-FALHA
CRITICO para FALHA

Fluxo do Processo: CRISP-DM


Business
Business
understanding
understanding

Data
Data
understanding
understanding

Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling

Evaluation
Evaluation

Fase 4 no projeto de DM
Modeling:
Selecionar as tcnicas de modelagem
Redes Neurais
Regras de Classificao
Catalogar parmetros utilizados
50% para treinamento,
25% para validao
25% para teste
Retornar ao Data Preparation
Software: Tanagra

Tanagra O que ?
Autor: Ricco RAKOTOMALALA
Universidade de Lyon - FRANCE
Tanagra uma ferramenta free para minerao de
dados
open source project
DELPHI (verso 6.0)

Tanagra

Vantagens
Ferramenta grfica
Modular (Componentes)
Alta produtividade
Cdigo Aberto
Integra algoritmos de terceiros
Muito Eficiente!

Desvantagens
Help deficiente
Muitos BUGS
Pr-Processamento e Preparao dos
Dados

Fase 4 no projeto de DM
Modeling:
Regras de Classificao:

Rede Neural:
Arquitetura
Algoritmo:
Camadas Escondidas:
Neurnios Escondidos:

MLP
Backpropagation
1
2, 4, 8 e 20

Taxa de Aprendizado:

0,1, 0,01 e 0,001

Nmero de iteraes:

100, 1000 e
10000

Problema:
Nmero de Entradas:
Nmero de Sadas

Diagnstico de
Falhas
16
2

Padres de
Treinamento

50%

Padres de Validao

25%

Padres de Teste

25%

Regras com abrangncia


maior que 5%

Fluxo do Processo: CRISP-DM


Business
Business
understanding
understanding

Data
Data
understanding
understanding

Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling

Evaluation
Evaluation

Fase 5 no projeto de DM
Evaluation Rede Neural:

Erro I = 3.4% (Classificar como falha quando na


verdade apenas alarme).
Erro II = 5.1% (Classificar como alarme quando na
verdade uma falha).
Erro Geral = 3.7% (classificao errnea)

Fase 5 no projeto de DM
Evaluation - Regras de Classificao:
Regras que caracterizam situaes de falhas:
SE LOCAL = "XINGO MARGEM ESQUERD"
ENTO
FALHA EM 41.45%, REPRESENTANDO
6.9% DA MASSA.
SE LOCAL = "ANGELIM (REPETIDORA)"
ENTO
FALHA EM 38.35%, REPRESENTANDO
8.2% DA MASSA.
SE QTDWARNI = "DE 0 AT 1"
ENTO
FALHA EM 23.30%, REPRESENTANDO
12% DA MASSA.

Fase 5 no projeto de DM
Evaluation - Regras de Classificao:
Regras que caracterizam situaes de alarmes:
SE LOCAL = "RECIFE - COS"
ENTO
FALHA EM 00.95%, REPRESENTANDO
25.54% DA MASSA.
SE LOCAL = "USINA DE SOBRADINHO"
ENTO
FALHA EM 01.58%, REPRESENTANDO
11.69% DA MASSA.
SE QTDMINOR = "DE 1 AT 2"
ENTO
FALHA EM 01.63%, REPRESENTANDO
15.60% DA MASSA.

Fluxo do Processo: CRISP-DM


Business
Business
understanding
understanding

Data
Data
understanding
understanding

Data
Data
preparation
preparation
Data
Deployment
Deployment
Modelling
Modelling

Evaluation
Evaluation

Fase 6 no projeto de DM
Deployment
Entrega do produto do projeto de minerao de dados.
Software em produo (on-line)
Software analtico (off-line)
Relatrio com um resumo das etapas do
processo CRISP-DM.
Treinamento e Apresentao para o Usurio

Resumo das Ferramentas


Utilizadas
Nome

Funo

Fabricante

Fase

Excel

Planilha

Microsoft

Avaliao de
desempenho

ORACLE
DISCOVERY

Data Warehouse

ORACLE

Entendendo os
dados

Access

Banco de Dados

Microsoft

Entendendo os
dados

Word

Editor de texto

Microsoft

Entendendo o
negcio

Oxedit

Manipulao de grandes
arquivos texto.

OX

Entendendo os
dados

TANAGRA

Minerao de Dados

Universidade
de Lyon

Modelagem

SPSS

Manipulao de dados

SPSS

Preparao dos
dados

Concluses
Necessidade de uma ferramenta de minerao de
dados completa.
Apresentao metodologia CRISP-DM em um problema
prtico de minerao de dados.
Formalizao
Replicao
Bom poder de classificao da rede neural (poderia ser
colocado em produo)
Regras extraem conhecimento para tomada de deciso
do especialista (off-line)

Trabalhos Futuros
Utilizao de outros algoritmos de aprendizagem
KNN
Regresso Logstica
Anlise Discriminante
Apresentao dos artefatos gerados em cada
uma das fases do CRISP-DM.

Referncia Bibliogrfica
Han, J., Kamber M. (2001) Data Mining: Concepts and
techniques. Morgan Kaufman Publishers, San Francisco,
CA.
Witten, I., Frank, E. (2000) Data Mining: Pratical
Machine Learning Tools and Techniques with Java
Implementations. San Diego, California: Academic
Press.
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P.
From data mining to knowledge discovery: An overview :
in Fayyad, Piatetsky-Shapiro, Smyth and Uthurusamy,
1996.

Referncia Bibliogrfica
Pgina do Tanagra http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.ht
ml
Pgina do CRISP-DM www.crisp-dm.org
REINARTZ, T.; WIRTH, R.; CLINTON, J.;
KHABAZA, T.; HEJLESEN, J.; CHAPMAN, P.;
KERBER, R. The current CRISP-DM process
model for data mining. Berlin: Technical University.,
1998.

Perguntas?

Você também pode gostar