Você está na página 1de 53

Guia CRISP-DM

Sumário

Apresentação ............................................................................................................................................................................................. 2
A descoberta de conhecimento......................................................................................................................................................... 3
O CRISP-DM ............................................................................................................................................................................................ 6
1. COMPREENSÃO DO NEGÓCIO/PROBLEMA ............................................................................................................................. 8
1.1 Determinando os objetivos do negócio (definição do problema) ..............................................................................................9
1.2 Avaliando a situação ....................................................................................................................................................................... 11
1.3 Determinando os objetivos da mineração de dados ................................................................................................................... 12
1.4 Produzindo um plano do projeto ................................................................................................................................................... 13
2. COMPREENSÃO DOS DADOS .......................................................................................................................................................15
2.1 Coletando dados iniciais ................................................................................................................................................................. 16
2.2 Descrevendo os dados ..................................................................................................................................................................... 17
2.3 Explorando os dados ....................................................................................................................................................................... 18
2.4 Verificando a qualidade dos dados ............................................................................................................................................... 19
3. PREPARAÇÃO DOS DADOS ..........................................................................................................................................................20
3.1 Selecionando os dados .................................................................................................................................................................... 21
3.2 Limpando os dados .......................................................................................................................................................................... 22
3.3 Construindo novos dados ...............................................................................................................................................................23
3.4 Integrando os dados ......................................................................................................................................................................... 24
3.5 Formatando os dados....................................................................................................................................................................... 25
4. MODELAGEM ..................................................................................................................................................................................26
4.1 Selecionando a técnica de modelagem ......................................................................................................................................... 27
4.2 Projetando o design de teste ...........................................................................................................................................................28
4.3 Construindo o(s) modelo(s) ...........................................................................................................................................................29
4.4 Avaliando o(s) modelo(s) ...............................................................................................................................................................30
5. AVALIAÇÃO .....................................................................................................................................................................................31
5.1 Avaliando os resultados .................................................................................................................................................................. 32
5.2 Revisando os processos .................................................................................................................................................................. 33
5.3 Determinando os próximos passos................................................................................................................................................ 34
6. IMPLEMENTAÇÃO..........................................................................................................................................................................35
6.1 Planejando a implementação..........................................................................................................................................................36
6.2 Planejando o monitoramento e a manutenção .............................................................................................................................37
6.3 Produzindo o relatório final ...........................................................................................................................................................38
6.4 Revisando o projeto ......................................................................................................................................................................... 39
RESULTADO EM AÇÃO! ....................................................................................................................................................................40

Possíveis problemas ao se utilizar CRISP-DM ......................................................................................................................41


Estrutura do relatório de projeto.....................................................................................................................................................43
Apresentação

Com o intuito de instrumentalizar metodologicamente os iniciantes em Ciência de Dados,


disponibilizamos este documento, uma reformulação do guia do Cross Industry Standard Process for
Data Mining (CRISP-DM) produzido em 2001 pelo consórcio DaimlerChrysler/NCR/SPSS, e
adaptado pela IBM em 2011.
Este guia apresenta: (i) o racional de criação do CRISP-DM desde a sua origem até sua versão atual;
(ii) sua estrutura tanto em termos de processo quanto de metodologia; (iii) um exemplo de aplicação e
(iv) um modelo de relatório de projeto. É uma síntese dos seguintes documentos:
o CHAPMAN, P.; CLINTON, J.; KERBER, R.; KHABAZA, T.; REINARTZ, T.; SHEARER, C.;
WIRTH, R. CRISP-DM 1.0 Step-by-step data mining guide. 2001.
https://www.the-modeling-agency.com/crisp-dm.pdf
o IBM. IBM SPSS Modeler CRISP-DM Guide. 2011.
https://www.coursehero.com/file/33438948/SPSS-CRISP-DMpdf/
Outras fontes foram:
o BARGER, D. Delivering Machine Learning Solutions. 2018.
https://www.sei.com/2018/04/18/delivering-machine-learning-solutions
o FAYYAD, U., PIATETSKY-SHAPIRO, G., SMYTH, P. (1996). Knowledge Discovery and Data
Mining: Towards a Unifying Framework. KDD-96 Proceedings, Thirteenth National Conference
on Artificial Intelligence (AAAI-96), Association for the Advancement of Artificial Intelligence.
https://www.aaai.org/Papers/KDD/1996/KDD96-014.pdf
o Microsoft Azure. Processo de ciência de dados de equipe.
https://docs.microsoft.com/pt-br/azure/machine-learning/team-data-science-process/overview
o PIATETSKY, G. CRISP-DM, still the top methodology for analytics, data mining, or data
science projects. KDnuggets, 2014.
https://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science-
projects.html
o TAYLOR, J. Four Problems in Using CRISP-DM and How To Fix Them. KDNuggets, 2017.
https://www.kdnuggets.com/2017/01/four-problems-crisp-dm-fix.html

Um exemplo simplificado, também apresentado no IBM SPSS Modeler CRISP-DM Guide,


acompanha as tarefas genéricas de cada fase. Ele diz respeito a uma aplicação específica em varejo
online. O produto real de um projeto de Ciência de Dados é consideravelmente mais aprofundado do
que é apresentado no exemplo.

Profs. Edilson Ferneda & Hércules Antonio do Prado


Mestrado em Governança, Tecnologia e Inovação
Universidade Católica de Brasília

Guia CRISP-DM 2
A descoberta de conhecimento

Até o final dos anos 80, a busca por padrões (ou modelos) úteis nos dados era chamado de Mineração
de Dados, extração de conhecimento, descoberta de informações, coleta de informações, arqueologia
de dados e processamento de padrões. O termo Mineração de Dados era usado principalmente por
estatísticos, analistas de dados e comunidades de sistemas de informação gerencial. Posteriormente, já
em meados dos anos 90, o conceito de Mineração de Dados se firmou junto à comunidade de
Inteligência Artificial como o uso de técnicas de Aprendizagem de Máquina (Machine Learning) para
a busca de padrões em conjuntos de dados do contexto da Descoberta de Conhecimento em Bancos de
Dados.
A expressão Knowledge Discovery in Databases (KDD), ou Descoberta de Conhecimento em Bancos
de Dados (DCBD) foi cunhada por Gregory Piatetsky-Shapiro, quando, em 1989, organizou o primeiro
Workshop sobre esse tema, o KDD-1989, durante o principal evento mundial sobre Inteligência
Artificial, o Internacional Joint Conferences on Artificial Intelligence (IJCAI). O objetivo era enfatizar
que "conhecimento" é o produto final de um processo de descoberta orientada a dados. Em 1996, em
outra edição desse Workshop, Usama Fayyad, o mesmo Gregory Piatetsky-Shapiro e Padhraic Smyth
propõem uma metodologia para guiar o processo de DCBD, representado pela Figura 1.

Figura 1: Uma visão geral das etapas que compreendem ao Processo KDD, proposto por Fayyad, Piatetsky-Shapiro Smyth.

Fonte: Fayyad, U., Piatetsky-Shapiro, G., Smyth, P. (1996). Knowledge Discovery and Data Mining: Towards a Unifying
Framework. KDD-96 Proceedings, Thirteenth National Conference on Artificial Intelligence (AAAI-96), Association for
the Advancement of Artificial Intelligence.

Os autores também apontam que, antes do início do processo, é necessário se ter claro o objetivo a ser
alcançado, compreender o domínio de aplicação e o conhecimento prévio relevante e compreender
este processo do ponto de vista do cliente.
O processo envolve: (i) seleção de um conjunto de dados, (ii) processamento de dados inconsistentes
ou ausentes (limpeza de dados), (iii) identificação de dados desnecessários e inclusão de novos
atributos (redução ou transformação de dimensionalidade), (iv) aplicação de um ou mais métodos de
mineração de dados específicos para se alcançar os objetivos do processo (mineração de dados por
meio de algoritmos de classificação, regressão, agrupamento, etc) e (v) Interpretação dos padrões
obtidos e, eventualmente, retornar a qualquer uma das etapas anteriores para iteração adicional. Uma
vez consolidado o conhecimento descoberto, este deve ser incorporado a outro sistema para outras
ações, ou documentado/relatado às partes interessadas.
Entretanto, a experiência de aplicação deste processo em ambientes corporativos se mostrou
insuficiente, pois reflete sobretudo as atividades a serem desenvolvidas pelos especialistas das áreas de

Guia CRISP-DM 3
Informática e de Análise de Dados, não levando em conta o ecossistema em que esse processo
acontece, os diversos atores envolvidos e os recursos materiais disponíveis para sua realização.
Na busca por uma metodologia mais abrangente, em 1999, três empresas, a DaimlerChrysler,
interessada na aplicação de análises de mineração de dados em seus negócios, a NCR, empresa
provedora de soluções de bancos de dados, e a Statistical Product and Service Solutions, que
comercializava o software SPSS (Statistical Package for the Social Sciences), formam um consórcio e
propõem a metodologia (ou processo) Cross Industry Standard Process for Data Mining (CRISP-
DM). Posteriormente, o SPSS foi adquirido pela IBM, que hoje é a empresa que difunde o CRISP-
DM, incorporando-o ao seu produto SPSS Modeler.
Outras metodologias similares surgiram, como a SEMMA (Sample, Explore, Modify, Model and
Assess) que foca em tarefas de modelagem e projetos de mineração de dados, mas sem considerar os
aspectos de negócios.
Na Figura 2 é apresentada a enquete apresentado em um texto de Gregory Piatetsky-Shapiro,
publicado no site Kdnuggets, sobre os métodos de DCBD mais difundidos no ambiente corporativo.
Visto que o CRISP-DM vem sendo largamente utilizada em projetos de DCBD não só nesse ambiente,
mas também no científico e acadêmico, sua adoção é justifica-se sua difusão entre os interessados em
Ciência de Dados.

Figura 2: Metodologias utilizadas nas organizações para projetos de descoberta de conhecimento em bancos de dados [200
votos].

2014 CRISP-DM 43,0%


42,0%
2007
27,5%
Minha própria 19,0%

8,5%
SEMMA 13,0%

8,0%
Outra, sem domínio específico 4,0%

7,5%
Processo KDD 7,3%

3,5%
Da minha organização 5,3%

2,0%
Metodologia para um dompínio específico 4,7%

0,0%
Nenhuma 4,7%

Fonte: PIATETSKY, G. CRISP-DM, still the top methodology for analytics, data mining, or data science projects.
KDnuggets, 2014
https://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html

É preciso lembrar, no entanto, que o CRISP-DM não sofreu ajustes desde sua criação, e que ele
próprio é uma evolução do Processo KDD, de meados dos anos 1990, por este não relacionar o
processo de descoberta de conhecimento ao contexto organizacional em que o projeto estaria inserido.
Desde então, avanços tecnológicos como Big Data, Computação em Nuvem, Computação Móvel e
Internet das Coisas, viabilizaram o surgimento de sistemas de apoio à decisão que consomem
dinamicamente dados gerados em tempo real, advindos de fontes heterogêneas e muitas vezes de baixa
qualidade, tornando-os de difícil entendimento e processamento.
Visto que DCBD realiza a análise offline de dados coletados de bases de dados, diversas propostas têm
surgido para sanar suas limitações. Entre as alternativas ao CRISP-DM está a metodologia de Ciência

Guia CRISP-DM 4
de Dados ágil (e iterativa) Team Data Science Process (TDSP), proposta pela Microsoft, cujo ciclo de
vida é apresentado na Figura 3. Ele foi concebido para compor projetos para desenvolvimento de
aplicativos inteligentes que envolvam algum tipo de análise preditiva. Para projetos voltados
unicamente para a exploração ou análise de dados, algumas fases são dispensáveis.

Figura 3: Ciclo de vida do Team Data Science Process (TDSP).

Fonte: Microsoft Azure. Processo de ciência de dados de equipe.


https://docs.microsoft.com/pt-br/azure/machine-learning/team-data-science-process/overview

Nota-se que esta metodologia é uma evolução do CRISP-DM, ao assimilar algumas práticas modernas
de engenharia de software e viabilizar a incorporação de novas tecnologias. Assim, para os iniciantes
em Ciência de Dados, o domínio do CRISP-DM é relevante, tendo, entretanto, em mente que este é
um passo inicial para aqueles que pretendem se aprofundar nesse tema.

Guia CRISP-DM 5
O CRISP-DM

O CRISP-DM pode ser considerado sob dois aspectos:


− Como uma metodologia, que inclui descrições das fases típicas de um projeto de DCBD, das
tarefas envolvidas em cada fase e uma explicação das relações entre essas tarefas.
− Ou como um modelo de processo, apresentando uma visão geral do ciclo de vida da DCBD.
Esses dois aspectos se complementam em um guia para o cientista de dados desenvolverem aplicações
de mineração de dados com a segurança de não estar omitindo alguma tarefa relevante.
O modelo de ciclo de vida do CRISP-DM (Figura 4) consiste em seis fases com setas indicando as
dependências mais importantes e frequentes entre as fases.

Figura 4: Ciclo de vida da metodologia/processo CRISP-DM.

Fonte: CHAPMAN, P. et al. CRISP-DM 1.0 Step-by-step data mining guide. 2001.
https://www.the-modeling-agency.com/crisp-dm.pdf

O modelo CRISP-DM é flexível e pode ser personalizado facilmente. Por exemplo, se sua organização
pretende detectar lavagem de dinheiro, é provável que você examine grandes quantidades de dados
sem uma meta de modelagem específica. Em vez de modelar, seu trabalho se concentrará na
exploração e visualização de dados para descobrir padrões suspeitos em dados financeiros. O CRISP-
DM permite criar um modelo de mineração de dados que atenda às suas necessidades particulares.
Em tal situação, as fases de modelagem, avaliação e implementação podem ser menos relevantes do
que as fases de compreensão e preparação dos dados. No entanto, ainda é importante considerar
algumas das questões levantadas durante essas fases posteriores para o planejamento a longo prazo e
as metas futuras de mineração de dados.
É fato reconhecido que os dados para a mineração de dados raramente estão disponíveis na forma
desejada. Geralmente estão em mais de um arquivo que pode, inclusive, ser externo à organização (por

Guia CRISP-DM 6
exemplo, arquivos demográficos do IBGE). Com isso, não há garantia de que haja formas seguras de
juntá-los, nem de que os domínios de seus atributos ou seus formatos estejam padronizados. Assim,
conforme mostra a Figura 5, Tarefas que antecedem a mineração de dados propriamente dita,
costumam consumir a maior parte do esforço total para se desenvolver uma aplicação.

Figura 5: Proporção típica de esforço para cada uma das fases do CRISP-DM em %.

40

35

30

25

20

15

10

0
Compreensão Compreensão Preparação dos Modelagem Avaliação Implementação
do negócio dos dados dados

Fonte: BARGER, D. Delivering Machine Learning Solutions. 2018.


https://www.sei.com/2018/04/18/delivering-machine-learning-solutions/

Antes de se iniciar com as fases do CRISP-DM, vale observar como o modelo se estrutura em termos
de processo. A Figura 6 mostra as camadas do CRISP-DM quando considerado como um modelo de
processos. Essas camadas estão organizadas de modo a conduzir o Cientista de Dados pelas suas
diversas fases, com controle dos níveis mais específicos desde as tarefas mais gerais, passando pelas
tarefas específicas até as instâncias de processos onde as intervenções são realizadas.

Figura 6: Estrutura do CRISP

Fonte: CHAPMAN, P. et al. CRISP-DM 1.0 Step-by-step data mining guide. 2001.
https://www.the-modeling-agency.com/crisp-dm.pdf

Guia CRISP-DM 7
1. COMPREENSÃO DO NEGÓCIO

Nesta fase, deve ser explorado o que a organização espera


ganhar com o projeto de mineração de dados. Recomenda-se
envolver nas discussões pessoas diretamente afetadas pelo
projeto ou detentoras de conhecimento.
O rigor com que é realizada esta fase influenciará a qualidade
dos primeiros resultados e o número de iterações do ciclo de
vida necessários para se alcançar os resultados do projeto.

Guia CRISP-DM 8
1.1 Determinando os objetivos do negócio
A primeira tarefa genérica é tentar obter o máximo de informações possível sobre os objetivos de
negócios para a mineração de dados, ou seja, a definição do problema. Isso pode não ser tão fácil
quanto parece, mas ajudará a reduzir os riscos posteriores por tornar os problemas, objetivos e
recursos mais claros. O esquema a seguir relaciona as tarefas específicas, atividades e resultados
correspondentes.

Compilação das informações básicas sobre a situação atual do negócio


Atividades Resultado
Descrever a estrutura organizacional (organograma e projetos
corporativos, com nomes e responsabilidades, identificando os
stakeholders, patrocinadores e setores afetados pelo projeto)
Descrever o problema em termos gerais, o ecossistema (processos,
recursos e atores) em que ele está inserido, além das motivações e pré- Contexto organizacional
requisitos para o projeto, seu status na organização e experiências prévias
em mineração de dados
Descrever a solução atual, suas vantagens, desvantagens e nível de
aceitação na organização

Definição dos objetivos do negócio pelos tomadores de decisão


Atividades Resultado
Descrever o problema do negócio que se quer abordar com Mineração de
Dados
Especificar as questões associadas ao problema Objetivos do negócio
Determinar quaisquer outros requisitos de negócio
Especificar benefícios esperados em termos de negócio

Definição dos critérios de sucesso do projeto


Atividades Resultado
Definir os critérios de sucesso do projeto
Definir os critérios de sucesso da mineração de dados para cada um dos Critérios de sucesso do
objetivos do negócio projeto na perspectiva do
negócio
Definir os avaliadores das medidas de sucesso subjetivas. Se possível,
anotar suas expectativas

Exemplo:
À medida que mais empresas fazem a transição para as vendas na Web, um varejista eletrônico estabelecido de
computadores/eletroeletrônicos enfrenta uma concorrência crescente de novos sites.
Diante da realidade de que as lojas na Web estão surgindo tão rapidamente (ou mais rapidamente!) quanto os
clientes estão migrando para a Web, a empresa deve encontrar maneiras de permanecer rentável, apesar dos
custos crescentes da aquisição do cliente. Uma solução proposta é cultivar os relacionamentos existentes com o
cliente para maximizar o valor de cada um dos clientes atuais da empresa.

Guia CRISP-DM 9
Assim, um estudo foi encomendado com os seguintes objetivos: (i) melhorar as vendas cruzadas fazendo
melhores recomendações e (ii) aumentar a fidelidade do cliente com um serviço mais personalizado.
Como tentativa, o estudo será julgado um sucesso se: (i) as vendas cruzadas aumentarem em 10%, (ii) os clientes
passarem mais tempo e consultarem mais páginas no site por visita e (iii) o estudo for concluído em tempo e
abaixo do orçamento.

Guia CRISP-DM 10
1.2 Avaliando a situação
De posse de um objetivo de projeto claramente definido, é momento de se avaliar em que ponto nos
encontramos, o que envolve responder que tipo de dados temos disponíveis para análise e se temos os
profissionais necessários para desenvolver o projeto? Quais são os maiores fatores de risco
envolvidos? Temos um plano de contingência para cada fator de risco identificado?

Realização do inventário de recursos


Atividades Resultado
Levantar recursos de hardware e de software disponíveis
Identificar fontes de dados e de conhecimento Inventário de recursos
Identificar recursos de pessoal técnico e de negócio

Levantamento de requisitos, suposições e restrições


Atividades Resultado
Determinar os requisitos (ex: de segurança em relação aos dados e aos
resultados do projeto)
Esclarecer os pressupostos (ex: sobre fatores econômicos, qualidade dos Requisitos, pressupostos e
dados e apresentação dos resultados) restrições

Verificar restrições (ex: disponibilidade de senhas, financeiras, legais em


relação ao acesso aos dados)

Identificação de riscos e contingências


Atividades Resultado
Identificar possíveis riscos (ex: atraso na execução do projeto, problemas
orçamentários, qualidade dos dados e resultados pouco impactantes) Riscos e contingências
Elaborar um plano de contingência para cada possível risco

Levantamento da terminologia empregada


Atividades Resultado
Elaborar uma lista de termos ou jargões técnicos e de negócio relevantes
para o projeto Glossário
Compartilhar a lista com a equipe do projeto

Análise de custo-benefício
Atividades Resultado
Identificar os custos de obtenção dos dados (internos ou externos), de
implementação dos resultados e operacionais
Custos e benefícios
Identificar os benefícios esperados com o alcance dos objetivos do projeto
(ex: melhor percepção do problema e do acervo de dados da organização)

Guia CRISP-DM 11
Exemplo:
Esta é a primeira tentativa do varejista eletrônico de eletroeletrônico em mineração na Web e a empresa decidiu
consultar um especialista em mineração de dados para ajudar na introdução. Uma das primeiras tarefas com a
qual o consultor se depara é a avaliação dos recursos da empresa para a mineração de dados.
Equipe. Está claro que há conhecimento interno em relação a gerenciamento de logs do servidor e de bancos de
dados de produtos e compras, mas pouca experiência em data warehouse e na limpeza de dados para análise.
Assim, um especialista em banco de dados também deve ser consultado. Visto que a empresa espera que os
resultados do estudo se tornem uma parte de um processo contínuo de mineração na web, o gerenciamento
também deve levar em conta se qualquer posição criada durante o esforço atual irá se tornar permanente.
Dados. Visto que esta é uma empresa estabelecida, há logs da Web e dados de compras suficientes nos quais se
basear. De fato, para este estudo inicial, a empresa restringirá a análise a clientes que se "registraram" no site. Se
for bem-sucedido, o programa poderá ser expandido.
Riscos. Além dos dispêndios monetários para os consultores e o tempo gasto pelos funcionários no estudo, não
há um grande risco imediato neste empreendimento. Entretanto, o tempo é sempre importante, então este projeto
inicial é planejado para um único trimestre financeiro.
Além disso, não há um grande fluxo de caixa extra no momento, portanto é indispensável que o estudo ocorra
abaixo do orçamento. Caso uma dessas metas esteja em risco, os gerentes de negócios sugerem que o escopo do
projeto seja reduzido.

Guia CRISP-DM 12
1.3 Determinando os objetivos da mineração de dados
Com os objetivos do negócio claros, é hora de traduzi-los para a mineração de dados. Por exemplo, se
o objetivo do negócio for oferecer o preço mais atraente com lucro aceitável, as metas de mineração de
dados poderiam ser: (i) identificar as fontes de precificação da concorrência, (ii) analisar os preços da
concorrência vis-à-vis nosso custo de produção e (iii) especificar a margem de lucro aceitável levando
em conta os preços da concorrência.

Definição dos objetivos da mineração de dados


Atividades Resultado
Descrever o tipo de problema de mineração de dados (ex: agrupamento,
classificação etc)
Objetivos da mineração de
Enumerar as metas da mineração de dados (ex: predições válidas por três
dados do ponto de vista
meses) técnico
Quantificar os resultados desejados em relação à situação atual (ex:
indicadores de perda de clientes)

Definição dos critérios de sucesso da mineração de dados


Atividades Resultado
Definir e descrever os métodos para avaliação do(s) modelo(s) (ex:
precisão, desempenho, etc)
Definir critérios objetivos (numéricos) de desempenho para avaliação do Critérios de sucesso da
sucesso da mineração de dados mineração de dados

Especificar medidas subjetivas e determinar os responsáveis pelas


avaliações
Nota: Garanta que a implementação bem sucedida do modelo seja parte do sucesso da solução. Inclua a implementação no
planejamento.

Exemplo:
Com a ajuda de seu consultor de mineração de dados, o varejista eletrônico foi capaz de converter os objetos de
negócios da empresa em termos de mineração de dados. As metas para que o estudo inicial seja concluído neste
trimestre são:
• Use informações históricas sobre compras anteriores para gerar um modelo que vincule itens "relacionados".
Quando os usuários olham uma descrição de item, forneça vínculos para outros itens no grupo relacionado
(análise de cesta de compras).
• Use logs da Web para determinar aquilo que diferentes clientes estão tentando encontrar e, então, projete
novamente o site para destacar esses itens. Cada "tipo" de cliente diferente verá uma página principal diferente
para o site (determinação de perfil).
• Use logs da Web para tentar prever para onde a pessoa irá a seguir, dado de onde ela veio e se já esteve em seu
site (análise de sequência).

Guia CRISP-DM 13
1.4 Produzindo um plano do projeto
Com base nos resultados obtidos até o momento, o plano do projeto deve ser elaborado. Um bom
plano do projeto agrega informações sobre metas, recursos, riscos e planejamento de todas as fases da
mineração de dados.

Elaboração do plano do projeto do ponto de vista técnico


Atividades Resultado
Estimar o tempo necessário para se realizar cada fase ou atividade
Estimar os esforços ou recursos necessários para a implementação dos Plano de projeto do ponto de
resultados para a solução de negócio vista técnico
Definir pontos de revisão e decisão no plano
Nota: Considerar que há fases que requerem iteração, em particular a de Construção do Modelo.

Avaliação de ferramentas e técnicas


Atividades Resultado
Avaliar as ferramentas disponíveis
Ferramentas e técnicas
Avaliar os tipos de padrões produzidos por meio das técnicas escolhidas adequadas
(ex: rede neural, árvore de decisão, etc)

Exemplo:
O plano de visão geral do estudo é como este mostrado na tabela abaixo.

Fase Tempo Recursos Riscos


Compreensão do 1 semana Todos os analistas Mudança econômica
negócio
Compreensão 3 semanas Todos os analistas Problemas de dados
dos dados Problemas de tecnologia
Preparação dos 5 semanas Consultor de mineração de Problemas de dados
dados dados, algum tempo como Problemas de tecnologia
analista de banco de dados
Modelagem 2 semanas Consultor de mineração de Problemas de tecnologia
dados, algum tempo como Incapacidade de chegar a um modelo
analista de banco de dados adequado
Avaliação 1 semana Todos os analistas Mudança econômica
Incapacidade de implementar os
resultados
Implementação 1 semana Consultor de mineração de Mudança econômica
dados, algum tempo como Incapacidade de implementar os
analista de banco de dados resultados

Guia CRISP-DM 14
2. COMPREENSÃO DOS DADOS

Esta fase corresponde ao estágio de familiarização com os


dados do problema e identificação da qualidade dos mesmos,
obtenção das primeiras percepções e formulação de
prognoses sobre o que os dados podem mostrar.
A interação desta fase com a primeira se dá pela necessidade
de se confrontar os objetivos declarados com os dados
disponíveis.

Guia CRISP-DM 15
2.1 Coletando dados iniciais
Neste ponto, estamos prontos para acessar os dados. Esses dados podem ser já existentes na própria
organização (dados transacionais, de pesquisa de opinião, logs da Web, etc), externos (como dados
demográficos ou econômicos) ou adicionais (produzidos para a finalidade do projeto).

Coleta inicial de dados


Atividades Resultados
Identificar as bases de dados potencialmente relevantes para o projeto
Para cada base, identificar os atributos mais promissores
Identificar atributos que pareçam irrelevantes e que podem ser excluídos
Verificar se há dados suficientes para conclusões generalizáveis ou Processo de definição da
predições acuradas coleção inicial de dados
Coleção inicial de dados
Verificar a necessidade de redução de dimensionalidade dos dados
Se você estiver considerando dados de diversas fontes, verifique a
viabilidade ou possíveis problemas de se fazer sua junção
Verificar como os valores faltantes poderão ser tratados
Nota: A consideração de fontes múltiplas de dados vai requerer sua integração, nesta fase ou na de preparação de dados
mais à frente.

Exemplo:
O varejista eletrônico neste exemplo usa diversas fontes de dados importantes, incluindo:
Logs da Web. Os logs de acesso brutos contêm todas as informações sobre como os clientes navegam no
website. As referências a arquivos de imagem e a outras entradas não informativas nos logs da Web precisarão
ser removidas como parte do processo de preparação de dados.
Dados de compra. Quando um cliente envia um pedido, todas as informações pertinentes a essa ordem são
salvas. As ordens no banco de dados de compra precisam ser mapeadas para as sessões correspondentes nos logs
da Web.
Banco de dados do produto. Os atributos do produto podem ser úteis ao determinar os produtos "relacionados".
As informações do produto precisam ser mapeadas para as ordens correspondentes.
Banco de dados do cliente. Este banco de dados contém informações adicionais coletadas de clientes
registrados. Os registros não estão completos de forma alguma, pois vários clientes não preenchem os
questionários. As informações do cliente precisam ser mapeadas para as compras e sessões correspondentes nos
logs da Web.
Nesse momento, a empresa não tem nenhum plano de comprar bancos de dados externos ou de gastar dinheiro
fazendo pesquisas, pois seus analistas estão ocupados gerenciando os dados que têm atualmente. Em algum
momento, entretanto, eles podem desejar considerar uma implementação estendida de resultados da mineração
de dados, caso no qual a compra de dados demográficos adicionais para clientes não registrados pode ser muito
útil. Pode ser útil ter informações demográficas para ver como a base do cliente do varejista eletrônico se difere
do comprador médio da Web.

Guia CRISP-DM 16
2.2 Descrevendo os dados
Há diversas formas de ser descrever os dados, o que inclui sua quantidade e qualidade (quantos dados
estão disponíveis e a suas características). Essas características incluem, principalmente, os tipos de
cada item de dado e os esquemas particulares de codificação.

Levantamento de informações sobre os dados


Atividades Resultado
Verificar a formatação dos arquivos
Identificar o método usado para a captura dos dados
Levantar o tamanho da(s) base(s) de dados (número de linhas e colunas)
Descrição da(s) base(s) de
Descrever significado, relacionamentos, origem, uso e tipo dos atributos dados
de cada base de dados (dicionários de dados)
Verificar a relevância dos dados para o alcance dos objetivos do projeto
Calcular estatísticas básicas para os atributos-chave

Exemplo:
Há muitos registros e atributos a serem processados em um aplicativo de mineração na Web. Ainda que o
varejista eletrônico realizando este projeto de mineração de dados tenha limitado o estudo inicial a
aproximadamente 30.000 clientes que se registraram no site, ainda há milhões de registros nos logs da Web.
A maioria dos tipos de valores nessas fontes de dados é simbólica, sejam eles datas e horas, páginas da web
acessadas ou respostas a perguntas de múltipla escolha do questionário do registro. Algumas dessas variáveis
serão usadas para criar novas variáveis que são numéricas, como número de páginas da Web visitadas e o tempo
gasto no website. As poucas variáveis numéricas existentes nas fontes de dados incluem o número de cada
produto solicitado, a quantia gasta durante uma compra e as especificações de peso e dimensão do produto do
banco de dados do produto.
Há pouca sobreposição nos esquemas de codificação para as diversas fontes de dados, pois essas fontes de dados
contêm atributos muito diferentes. As únicas variáveis que se sobrepõem são as "chaves", como IDs de clientes e
códigos de produtos. Essas variáveis devem ter esquemas de codificação idênticos de fonte de dados a fontes de
dados, do contrário seria impossível mesclar as fontes de dados. Será necessária alguma preparação de dados
adicional para recodificar esses campos principais para mesclagem.

Guia CRISP-DM 17
2.3 Explorando os dados
Nesta fase explora-se e analisa-se os dados construindo-se tabelas, gráficos e outros recursos de
visualização com as ferramentas disponíveis. Essas análises podem apoiar a formulação de hipóteses e
o delineamento das tarefas de transformação de dados que ocorrem durante a fase de preparação dos
dados.

Realização da exploração dos dados


Atividades Resultado
Formular hipóteses sobre os dados
Identificar atributos promissores para análise
Enumerar novas características sobre os dados reveladas pela sua
exploração dos dados
Percurso e achados a partir
Relatar que mudanças nas hipóteses iniciais foram ocasionadas pela da exploração de dados
exploração dos dados
Identificar subconjuntos particulares dos dados para uso posterior
Verificar se o resultado da exploração dos dados justifica a alteração dos
objetivos do projeto ou da mineração de dados

Exemplo:
Embora o CRISP-DM sugira realizar uma exploração inicial neste ponto, a exploração de dados é difícil, se não
impossível, em logs brutos da Web, como nosso varejista eletrônico descobriu. Normalmente, os dados do log da
Web devem ser processados primeiro na fase de preparação de dados para produzir dados que possam ser
explorados de forma significativa. Esse afastamento do CRISP-DM ressalta o fato de que o processo pode e deve
ser customizado para suas necessidades específicas de mineração de dados. O CRISP-DM é cíclico e os
mineradores de dados normalmente vão e vêm entre as fases.
Embora os logs da Web devam ser processados antes da exploração, as outras fontes de dados disponíveis para o
varejista eletrônico são mais acessíveis à exploração. Usar o banco de dados de compras para exploração revela
sumarizações interessantes sobre clientes, tais como quanto eles gastam, quantos itens eles adquirem por compra
e de onde eles vêm. As sumarizações do banco de dados de clientes mostrarão a distribuição de respostas aos
itens no questionário de registro.
A exploração também é útil para procurar erros nos dados. Embora a maior das fontes de dados seja gerada
automaticamente, as informações no banco de dados de produtos foram inseridas manualmente.
Algumas sumarizações rápidas de dimensões de produtos listados ajudarão a descobrir erros de digitação como
"monitor de 119 polegadas" (em vez de "19 polegadas").

Guia CRISP-DM 18
2.4 Verificando a qualidade dos dados
Os dados raramente são perfeitos. A maioria dos dados contém erros de codificação, valores ausentes
ou outros tipos de inconsistências que dificultam a realização da mineração de dados. Recomenda-se
uma análise completa da qualidade dos dados disponíveis antes da modelagem. Devem ser
considerados dados faltantes, erros nos dados, métricas de erros, codificações consistentes e
metadados incorretos.

Levantamento da qualidade dos dados


Atividades Resultado
Verificar se há valores de atributo faltantes ou em branco e explicitar o que
isso significa
Verificar se existem inconsistências ortográficas que podem causar
problemas em junções ou transformações nos dados
Verificar se há desvios nos valores dos dados (outliers) e se isso é ruído ou
tem algum significado
Checar a plausibilidade dos valores dos dados e registrar eventuais Relato sobre a qualidade dos
conflitos dados

Verificar a possibilidade de excluir dados que não tenham impacto nas


hipóteses
Verificar se os dados estão corretamente separados por delimitadores e se
há o mesmo número de campos em cada linha
Verificar se a qualidade dos dados justifica a alteração dos objetivos do
projeto ou da mineração dos dados

Exemplo:
A verificação da qualidade dos dados é normalmente realizada no decorrer dos processos de descrição e
exploração. Alguns dos problemas encontrados pelo varejista eletrônico incluem:
• Dados omissos. Os dados omissos conhecidos incluem os questionários não respondidos por alguns dos
usuários registrados. Sem as informações adicionais fornecidas pelo questionário, pode ser necessário que esses
clientes sejam deixados de fora de alguns desses modelos subsequentes.
• Erros de dados. A maioria das fontes de dados é gerada automaticamente, portanto isso não é uma grande
preocupação. Erros tipográficos no banco de dados do produto podem ser encontrados durante o processo de
exploração.
• Erros de medição. A maior origem potencial para o erro de medição é o questionário. Se algum dos itens for
mal recomendado ou mal formulado, ele poderá não fornecer as informações que o varejista eletrônico espera
obter. Novamente, durante o processo de exploração, é importante prestar atenção especial a itens que têm uma
distribuição incomum de respostas.

Guia CRISP-DM 19
3. PREPARAÇÃO DOS DADOS

Aqui, realiza-se tarefas como: seleção e integração de tabelas,


amostragem, criação de novos atributos, limpeza dos dados
brutos iniciais, construção de gráficos, elaboração do
dicionário de variáveis com seus respectivos tipos e
particionamento do arquivo em dados de treinamento e dados
de teste.
Esta fase depende das bases de dados identificadas na fase
anterior. Por outro lado, se inter-relaciona com as técnicas de
mineração, definidas na primeira fase, e ferramentas a serem
utilizadas na próxima fase.
Ao final desta fase, deverá estar disponível a base de dados a
ser utilizada na fase de modelagem.

Guia CRISP-DM 20
3.1 Selecionando os dados
Com base na coleção inicial de dados obtida na fase anterior, esse é o momento de selecionar os dados
relevantes para os objetivos da mineração de dados. Isto pode ocorrer de duas formas: pela seleção de
registros (linhas) ou pela seleção de atributos (colunas).

Rationale para a inclusão/exclusão de dados


Atividades Resultado
Verificar a existência de atributos especialmente relevantes para os
objetivos da mineração de dados
Identificar se há problemas de qualidade em um conjunto de dados ou um
atributo que possa comprometer a validade dos resultados Critérios de inclusão e
exclusão de dados aplicados
Verificar a possibilidade e as formas de sanar esses problemas
Verificar se há alguma restrição quanto ao uso de atributos específicos
Efetuar a limpeza de dados

Exemplo:
Muitas das decisões do varejista eletrônico sobre quais dados selecionar já foram tomadas em fases anteriores do
processo de mineração de dados.
Selecionar itens. O estudo inicial será limitado a (aproximadamente) 30.000 clientes que se registraram no site,
portanto os filtros precisam ser configurados para excluir compras e logs da Web de clientes não registrados.
Outros filtros devem ser estabelecidos para remover chamadas de arquivos de imagem e outras entradas não
informativas nos logs da Web.
Selecionar atributos. O banco de dados de compras conterá informações confidenciais sobre os clientes do
varejista eletrônico, portanto é importante filtrar os atributos como nome, endereço, número do telefone e cartões
de crédito do cliente.

Guia CRISP-DM 21
3.2 Limpando os dados
Esta tarefa envolve uma análise mais detalhada dos problemas nos dados escolhidos para análise,
como dados faltantes, inconsistentes ou com erros. As diversas técnicas para tratamento desses
problemas devem ser consideradas.

Realização da limpeza de dados


Atividades Resultado
Relacionar os tipos de ruídos que ocorrem nos dados
Detalhar que abordagens e técnicas que podem ser utilizadas para remover
esses ruídos Estratégias e ações para a
limpeza dos dados
Efetuar a limpeza de dados
Relatar se houve atributos com ruídos que não puderam ser recuperados

Exemplo:
O varejista eletrônico usa o processo de limpeza de dados para abordar os problemas anotados no relatório de
qualidade de dados.
Dados omissos. É provável que os clientes que não concluíram o questionário on-line tenham de ser deixados de
lado de alguns modelos posteriormente. Pode-se requerer novamente que esses clientes preencham o
questionário, mas isso exigirá tempo e dinheiro que o varejista eletrônico não pode se dar ao luxo de gastar. O
que o varejista eletrônico pode fazer é modelar as diferenças de compras entre os clientes que respondem e não
respondem ao questionário. Se esses dois conjuntos de clientes têm hábitos de compras semelhantes, os
questionários omissos são menos preocupantes.
Erros de dados. Os erros encontrados durante o processo de exploração podem ser corrigidos aqui. No entanto,
na maior parte dos casos, a entrada de dados apropriados é impingida no website antes de o cliente enviar uma
página para o banco de dados de backend.
Erros de medição. Os itens redigidos de forma insatisfatória no questionário podem afetar muito a qualidade
dos dados. Assim como com questionários omissos, esse é um problema difícil, pois pode não haver tempo ou
dinheiro disponível para coletar respostas para uma nova pergunta de substituição. Para os itens problemáticos, a
melhor solução pode ser voltar ao processo de seleção e filtrar esses itens de análises adicionais.

Guia CRISP-DM 22
3.3 Construindo novos dados
É comum que se necessite construir novos dados, com a criação de novos atributos (colunas) a partir
de atributos já existentes ou pela introdução de novos registros (linhas).

Construção de dados novos ou derivados


Atividades Resultado
Verificar se os dados estão de acordo com o que é esperado pelo algoritmo
de mineração de dados escolhido e, se preciso, realizar as transformações
necessárias
Se preciso, realizar a normalização de atributos
Relato sobre a derivação de
Definir e aplicar abordagens para tratamento de dados faltantes novos atributos
Relato sobre a geração de
Verificar a possibilidade de se criar atributos relevantes a partir dos
novos registros
atributos existentes
Verificar a necessidade de se aplicar oversampling ou undersampling no
caso de bases desbalanceadas
Efetuar a geração de novos atributos e registros

Exemplo:
O processamento de logs da Web pode criar diversos novos atributos. Para os eventos registrados nos logs, o
varejista eletrônico desejará criar registros de data e hora, identificar visitantes e sessões e anotar a página
acessada e o tipo de atividade que o evento representa. Algumas dessas variáveis serão usadas para criar mais
atributos, como o tempo entre os eventos em uma sessão.
Outros atributos podem ser criados como um resultado de uma mesclagem ou de outra reestruturação de dados.
Por exemplo, quando os logs da Web de evento por linha forem "reunidos" para que cada linha seja uma sessão,
serão criados novos atributos que gravam o número total de ações, o tempo total gasto e o total de compras feito
durante a sessão. Quando os logs da Web forem mesclados com o banco de dados do cliente para que cada linha
seja um cliente, serão criados novos atributos registrando o número de sessões, o número total de ações, o tempo
gasto e o valor total de compras feitas por cada cliente.
Depois de construir novos dados, o varejista eletrônico passa por um processo de exploração para se certificar de
que a criação de dados foi executada corretamente.

Guia CRISP-DM 23
3.4 Integrando os dados
É comum ter os dados necessários para a mineração de dados distribuídos em várias fontes. Os
métodos básicos para a integração de dados são: a importação de colunas de ou a importação de linhas
de diferentes bases de dados.

Realização da integração de dados


Atividades Resultado
Integrar (importação de linhas ou colunas) os conjuntos de dados
considerados úteis para a mineração de dados
Relato sobre a combinação de
Gerar uma base única de dados para a mineração de dados dados

Verificar a necessidade de construção de novos dados

Exemplo:
Com diversas fontes de dados, há diversas formas diferentes nas quais o varejista eletrônico pode integrar os
dados:
• Incluindo atributos de cliente e produto nos dados do evento. Para modelar eventos de log da Web usando
atributos de outros bancos de dados, cada ID de cliente, número de produto e número de ordem de compra
associados a cada evento devem ser corretamente identificados e os atributos correspondentes devem ser
mesclados nos logs da Web processados. Observe que o arquivo mesclado replica as informações de cliente e
produto toda vez que um cliente ou produto é associado a um evento.
• Incluindo informações de compra e log da Web nos dados do cliente. Para modelar o valor de um cliente,
suas informações de compras e sessão devem ser escolhidas nos bancos de dados apropriados, totalizadas e
mescladas com o banco de dados do cliente. Isso envolve a criação de novos atributos, conforme discutido no
processo de construção de dados.
Depois de integrar os bancos de dados, o varejista eletrônico passa por um processo de exploração para se
certificar de que a mesclagem de dados foi executada corretamente.

Guia CRISP-DM 24
3.5 Formatando os dados
Como etapa final antes da construção do modelo, deve-se verificar se a ferramenta de modelagem
requer algum formato específico para os dados, como, por exemplo, o formato CSV (Comma
Separated Values).

Realização da formatação de dados


Atividades Resultado
Verificar as formatações necessárias para utilização da ferramenta de
mineração de dados escolhida Relato sobre a formatação dos
dados
Transpor a base de dados para o formato apropriado

Guia CRISP-DM 25
4. MODELAGEM

Nesta fase é construído um modelo sobre os dados, conforme


o tipo de tarefa a ser realizada (agrupamento, classificação,
associação, etc) por um algoritmo de aprendizagem de
máquina.
Para iniciar esta fase, algumas questões devem ser
consideradas:
(i) Todos os dados estão acessíveis pela ferramenta?
(ii) Baseado na compreensão e exploração inicial dos dados,
foi possível selecionar subconjuntos relevantes de
dados?
(iii) Foi feita a limpeza efetiva de dados ou remoção dados
inconsistentes?
(iv) As múltiplas bases de dados foram apropriadamente
integradas?
(v) Estão claros os requisitos da ferramenta de modelagem
escolhida?
(vi) Há algum aspecto de formatação a ser considerado antes
da modelagem?

Guia CRISP-DM 26
4.1 Selecionando a(s) técnica(s) de modelagem
Mesmo que já se tenha ideia dos tipos de modelos a serem criados, neste momento algumas decisões
definitivas quanto a isto devem ser tomadas, considerando-se: os tipos de dados disponíveis na base de
dados, os objetivos da mineração e os requisitos específicos de modelagem. Normalmente, são
testadas diversas técnicas de modelagem até se encontrar a que produza os melhores resultados.
Poderá ser necessário voltar à fase anterior para se fazer ajustes nos dados já trabalhados para garantir
a qualidade do modelo a ser construído.

Avaliação das técnicas de modelagem


Atividades Resultado
Verificar se o modelo a ser criado requer o particionamento dos dados em
dados de treinamento e de teste
Verificar se há dados suficientes para se produzir um modelo confiável Técnicas de modelagem
consideradas
Verificar se os dados possuem qualidade suficiente para se produzir um
Adequação dos dados às
modelo confiável
premissas concernentes às
Verificar se os tipos de dados são apropriados para o modelo a ser técnicas de modelagem
construído consideradas

Adequar os dados às necessidades da técnica de mineração de dados a ser


utilizada

Exemplo:
As técnicas de modelagem empregadas pelo varejista eletrônico são conduzidas pelas metas de mineração de
dados da empresa:
• Recomendações melhoradas. Da forma mais simples, isso envolve ordens de compra de armazenamento em
cluster para determinar quais produtos são comprados juntos com maior frequência. Os dados do cliente, e até os
registros de visita, podem ser incluídos para a obtenção de melhores resultados. As técnicas de armazenamento
em cluster de rede Kohonen são apropriados para esse tipo de modelagem. Posteriormente, os clusters podem ser
modelados usando um conjunto de regras do C5.0 para determinar quais recomendações são as mais apropriadas
em qualquer ponto durante a visita de um cliente.
• Navegação de site melhorada. Por enquanto, o varejista eletrônico irá se concentrar na identificação de
páginas que são frequentemente usadas, mas que requerem diversos cliques para que os usuários as encontrem.
Isso requer aplicar um algoritmo de sequenciamento nos logs da Web a fim de gerar os "caminhos exclusivos"
que os clientes podem pegar no website e, então, procurar especificamente por sessões com muitas páginas a
serem visitadas sem (ou antes) que uma medida seja tomada. Posteriormente, em uma análise mais profunda, as
técnicas de armazenamento em cluster poderão ser usadas para identificar diferentes "tipos" de visitas e de
visitantes e o conteúdo do site poderá ser organizado e apresentado de acordo com o tipo.

Guia CRISP-DM 27
4.2 Projetando o design de teste
Nesta etapa, deverá ser detalhado como os modelos criados serão testados. Há duas questões a serem
consideradas: (i) quais são os critérios de aceitação do modelo e
(ii) que dados serão utilizados no teste do modelo. A aceitação de um modelo de classificação, por
exemplo, pode ser feita por um limite desejável de acurácia. Eventualmente, pode ser necessário a
experimentação com diferentes esquemas de teste, buscando maior qualidade do modelo.

Concepção do design de teste


Atividades Resultado
Especificar o esquema de teste do modelo a ser criado (ex: utilização de
máquinas de comitê, separação da base de dados em treinamento e teste,
parâmetros para essa divisão, etc)
Design de teste
Definir qual a medida de sucesso para modelos
Definir estratégias para se testar um modelo quanto à sua efetividade em
relação aos objetivos da mineração de dados

Exemplo:
Os critérios pelos quais os modelos são avaliados dependem dos modelos sob consideração e das metas de
mineração de dados:
• Recomendações melhoradas. Até que as recomendações melhoradas estejam presentes em tempo real para os
clientes, não há nenhuma forma puramente objetiva de avaliá-los. Entretanto, o varejista eletrônico pode requerer
que as regras que geram as recomendações sejam simples o suficiente para fazer sentido a partir de uma
perspectiva do negócio. Da mesma forma, as regras devem ser suficientemente complexas para gerar
recomendações diferentes para clientes e sessões diferentes.
• Navegação de site melhorada. Dada a evidência de quais páginas os clientes acessam no website, o varejista
eletrônico pode objetivamente avaliar o design atualizado do site em termos da facilidade de acesso a páginas
importantes. Entretanto, da mesma forma que as recomendações, é difícil avaliar antecipadamente como os
clientes irão se ajustar ao site reorganizado. Se o tempo e s finanças permitirem, algum teste de usabilidade deve
estar preparado.

Guia CRISP-DM 28
4.3 Construindo o(s) modelo(s)
Nesta fase considera-se que todas as questões anteriores, com relação a uma iteração do processo,
estão resolvidas e o Cientista de Dados dispõe de todas as condições para construir o modelo desejado.
Para se chegar a este modelo, é comum que se experimente diversas alternativas de modelo para a
mesma tarefa e compare seus resultados de forma a escolher o que melhor se ajusta aos objetivos da
mineração.
As atividades desta tarefa devem ser realizadas para cada modelo em construção.

Estruturação e construção do(s) modelo(s)


Atividades Resultado
Calibrar os parâmetros do algoritmo que implementa a técnica de
modelagem escolhida Processo de calibragem dos
Gerar o(s) modelo(s) parâmetros
Modelo(s) gerado(s)
Descrever os resultados do(s) modelo(s), incluindo indicadores de
Descrição do(s) modelo(s)
desempenho, problemas durante a execução e achados a partir da
Resultados alcançados
exploração do modelo (ex: novos insights, padrões úteis, problemas de
execução e inconsistências)

Exemplo:
Recomendações melhoradas. As clusterizações (agrupamentos) são produzidas para níveis variáveis de
integração de dados, iniciando apenas com o banco de dados de compra e, em seguida, incluindo as informações
sobre o cliente relacionado e a sessão. Para cada nível de integração, as clusterizações são produzidas sob
configurações variáveis de parâmetros para os algoritmos de rede em duas etapas e Kohonen. Para cada uma
dessas clusterizações, alguns conjuntos de regras C5.0 são gerados com diferentes configurações de parâmetros.
Navegação de site melhorada. O nó de modelagem Sequência é usado para gerar caminhos do cliente. O
algoritmo permite a especificação de um critério de suporte mínimo, o qual é útil para se concentrar nos
caminhos mais comuns do cliente. São testadas diversas configurações para os parâmetros.

Guia CRISP-DM 29
4.4 Avaliando o(s) modelo(s)
De posse dos modelos gerados, este é o momento de determinar os melhores, considerando os critérios
de sucesso da mineração definidos na fase Compreensão do Negócio.

Realização da avaliação do(s) modelo(s)


Atividades Resultado
Avaliar os resultados do(s) modelo(s), considerando os indicadores de
qualidade
Realizar uma revisão dos resultados baseado no entendimento do problema
do negócio (na perspectiva dos Cientistas de Dados e dos especialistas do
negócio)
Avaliação do(s) modelos(s)
Verificar se os resultados dos modelos são facilmente aproveitáveis na Fundamentação para o(s)
prática modelo(s) escolhido(s)
Analisar o impacto dos resultados dos modelos tendo em vista os critérios
de sucesso da mineração definidos anteriormente
Ranquear o(s) modelos, escolher o(s) modelo(s) mais adequado(s) para
solucionar o problema de negócio e fundamentar essa escolha

Exemplo:
Recomendações melhoradas. Uma das redes Kohonen e uma clusterização em duas etapas oferecem resultados
razoáveis e o varejista eletrônico tem dificuldades para escolher entre elas. Com o tempo, a empresa espera usar
ambas, aceitando as recomendações de que as duas técnicas combinam e estudando detalhadamente as situações
nas quais elas diferem. Com um pouco de esforço e conhecimento aplicado de negócios, o varejista eletrônico
pode desenvolver outras regras para resolver as diferenças entre as duas técnicas.
O varejista eletrônico também descobre que os resultados que incluem as informações da sessão são
surpreendentemente bons. Há evidências que sugerem que as recomendações podem ser ligadas à navegação do
site. Um conjunto de regras, definindo para onde o cliente provavelmente irá a seguir, pode ser usado em tempo
real para afetar o conteúdo do site diretamente enquanto o cliente está navegando.
Navegação de site melhorada. O modelo Sequência fornece ao varejista eletrônico um alto nível de confiança
de que determinados caminhos do cliente podem ser previstos, produzindo resultados que sugerem um número
gerenciável de mudanças no design do site.

Guia CRISP-DM 30
5. AVALIAÇÃO

Neste momento, é importante avaliar e rever os passos


executados para a obtenção do modelo que permitirá o
alcance dos objetivos do projeto.
Resultados insatisfatórios acarretarão o retorno à fase inicial
do processo para sua reestruturação.

Guia CRISP-DM 31
5.1 Avaliando os resultados
Após verificar que os modelos criados estão tecnicamente corretos e são eficazes de acordo com os
critérios de sucesso da mineração de dados que você definiu anteriormente, deve-se avaliar os achados
de cada modelo de acordo com os critérios de sucesso do negócio estabelecidos no início do projeto.

Realização de avaliação dos resultados


Atividades Resultado
Verificar se os resultados apresentados estão inteligíveis
Verificar se existem achados particularmente interessantes que mereçam
ser enfatizados
Ranquear os modelos e achados de acordo com a sua aplicabilidade aos Resultados da avaliação da
objetivos do negócio mineração
Selecionar o(s) modelo(s) que serão efetivamente utilizados Modelos selecionados

Analisar até que ponto os resultados respondem aos objetivos do negócio


Identificar questões adicionais que tenham surgido a partir dos resultados,
em relação às metas do negócio

Exemplo:
Os resultados gerais da primeira experiência do varejista eletrônico com a mineração de dados são bem fáceis de
serem transmitidos a partir de uma perspectiva do negócio: o estudo produziu aquilo que se espera que sejam
melhores recomendações do produto e um design de site aprimorado. O design aprimorado do site baseia-se nas
sequências de navegação do cliente, as quais mostram os recursos do site que os clientes desejam, mas que
requerem vários passos para que sejam atingidos. A evidência de que as recomendações do produto são melhores
é mais difícil de transferir, pois as regras de decisão podem se tornar complicadas. Para produzir o relatório final,
os analistas tentarão identificar algumas tendências gerais nos conjuntos de regras que podem ser explicadas
mais facilmente.
Ranqueando os modelos. Como vários dos modelos iniciais pareceram fazer sentido nos negócios, o
ranqueamento nesse grupo se baseou nos critérios estatísticos, na facilidade de interpretação e na diversidade.
Assim, o modelo forneceu diferentes recomendações para diferentes situações.
Novas perguntas. A pergunta mais importante que surgiu do estudo é: Como o varejista eletrônico pode saber
mais sobre seus clientes? As informações no banco de dados de clientes desempenham um importante papel na
formação dos clusters para recomendações. Embora regras especiais estejam disponíveis para fazer
recomendações a clientes cujas informações estejam omissas, as recomendações são mais gerais por natureza do
que aquelas feitas a clientes registrados.

Guia CRISP-DM 32
5.2 Revisando os processos
Parte da aplicação do CRISP-DM consiste em aprender com a experiência vivenciada para que futuros
projetos de mineração de dados sejam mais eficazes. É preciso sumarizar as decisões de cada uma das
fases realizadas. Assim, as atividades desta tarefa devem ser realizadas para cada uma das fases/tarefas
realizadas.

Avaliação dos processos empregados durante o projeto


Atividades Resultado
Verificar de que forma a fase/tarefa contribuiu para os resultados finais
Verificar se há meios de se melhorar esta fase/tarefa
Identificar as falhas ou erros desta fase/tarefa e como evitá-los no futuro
Verificar se houve impasses (ex.: modelos específicos que se mostraram
inadequados) e se existem maneiras de prever tais impasses para evitar Avaliação do processo
desperdício de esforços
Identificar surpresas positivas ou negativas durante a execução da
fase/tarefa
Verificar a existência de decisões ou estratégias alternativas que poderiam
ser usadas em uma dada fase/tarefa

Exemplo:
Como resultado da revisão do processo do projeto de mineração de dados inicial, o varejista eletrônico
desenvolveu uma maior apreciação das inter-relações entre os passos no processo. Inicialmente relutante para
"retroceder" no processo do CRISP-DM, o varejista eletrônico agora vê que a natureza cíclica do processo
aumenta seu poder. A revisão do processo também levou o varejista eletrônico a entender que:
• Um retorno ao processo de exploração é sempre justificado quando algo incomum aparece em outra fase do
processo do CRISP-DM.
• A preparação de dados, especialmente de logs da Web, requer paciência, visto que isso pode levar muito
tempo.
• É essencial manter-se focado nos problemas de negócios em mãos, pois assim que os dados estão prontos para
análise, é muito fácil começar a construir modelos sem levar em consideração uma imagem mais ampla.
• Assim que a fase de modelagem termina, o entendimento dos negócios é ainda mais importante na decisão de
como implementar resultados e determinar quais outros estudos são justificados.

Guia CRISP-DM 33
5.3 Determinando os próximos passos
Neste momento é tomada a decisão sobre prosseguir para a implementação do modelo ou retornar para
a fase de Compreensão do Negócio para mais uma iteração do processo de mineração de dados.

Definição dos próximos passos do projeto


Atividades Resultado
Avaliar os resultados da mineração Decisão sobre a próxima fase
Decidir as próximas ações Lista de possíveis ações

Exemplo:
O varejista eletrônico está bem confiante da precisão e da relevância dos resultados do projeto e, portanto, está
prosseguindo para a fase de implementação.
Ao mesmo tempo, a equipe do projeto também está pronta para voltar e aumentar alguns dos modelos para que
incluam as técnicas preditivas. Neste ponto, eles estão aguardando pela entrega dos relatórios finais e por uma
luz verde dos tomadores de decisões.

Guia CRISP-DM 34
6. IMPLEMENTAÇÃO

Esta é a fase em que o conhecimento adquirido é organizado,


apresentado e colocado em uso. Corresponde à aplicação dos
novos insights para fazer melhorias na organização. Isso pode
significar a criação de novos processos ou a integração
formal do modelo criado a algum processo existente.

Guia CRISP-DM 35
6.1 Planejando a implementação
Neste momento deverá ser elaborado o Plano de Implementação dos resultados da mineração de
dados.

Concepção de um plano de implementação


Atividades Resultado
Sumarizar os resultados (modelos e achados) para fins de integração com
sistemas de informação e de compartilhamento com a equipe
Para cada modelo selecionado, criar um plano passo-a-passo para sua
implementação e integração aos processos da organização
Para cada achado, criar um plano de disseminação junto aos tomadores de
decisão concernentes
Plano de implementação
Caso necessário, identificar alternativas de implementação do(s) modelo(s) Plano de contingência
e achados
Especificar como a utilização dos resultados implementados será
monitorada, incluindo a definição de critérios para se identificar a sua
obsolescência
Elaborar plano de contingência para possíveis problemas na
implementação

Exemplo:
Uma implementação bem-sucedida dos resultados de mineração de dados do varejista eletrônico requer que as
informações corretas atinjam as pessoas certas.
Tomadores de decisão. Os tomadores de decisões precisam ser informados das recomendações e mudanças
propostas para o site e receber breves explicações de como essas mudanças ajudarão. Presumindo que eles
aceitem os resultados do estudo, as pessoas que implementarão as mudanças precisam ser notificadas.
Desenvolvedores da Web. As pessoas que mantêm o website terão de incorporar as novas recomendações e a
organização do conteúdo do site. Informe-os sobre as mudanças que poderão ocorrer devido a estudos futuros,
para que eles possam lançar as bases agora. Preparar a equipe para a rápida construção do site com base na
análise de sequência em tempo real poderá ser útil posteriormente.
Especialistas em banco de dados. As pessoas que mantêm os bancos de dados de clientes, compras e produtos
devem ser avisadas de como as informações dos bancos de dados estão sendo usadas e quais atributos podem ser
incluídos nos bancos de dados em projetos futuros.
Acima de tudo, a equipe do projeto precisa manter contato com cada um desses grupos para coordenar a
implementação de resultados e planejar os futuros projetos.

Guia CRISP-DM 36
6.2 Planejando o monitoramento e a manutenção
O trabalho de mineração de dados é contínuo, podendo levar ao reinício do ciclo de vida do CRISP-
DM. Quando a solução começa a não responde adequadamente às expectativas dos seus usuários,
torna-se necessário seu ajuste ou, em casos mais críticos, a produção de novos modelos.

Concepção de um plano de monitoramento e manutenção


Atividades Resultado
Verificar para cada modelo ou achado que fatores ou influências precisam
ser rastreados
Especificar como a validade e a precisão de cada modelo podem ser
medidas e monitoradas
Definir em que condições o(s) modelo(s) será(ão) considerado(s) Plano de monitoramento e
obsoleto(s) manutenção

Definir as medidas a serem tomadas quando da obsolescência do(s)


modelo(s)
Verificar se o(s) modelo(s) considerado(s) obsoleto(s) pode(m) ser
usado(s) para problemas de negócios semelhantes.
Nota: É aqui que a boa documentação se torna crítica para avaliar o objetivo comercial de cada projeto de mineração de
dados.

Exemplo:
A tarefa imediata para o monitoramento é determinar se a organização do novo site e as recomendações
melhoradas realmente funcionam. Ou seja, os usuários podem seguir rotas mais diretas para as páginas que estão
procurando? As vendas cruzadas de itens recomendados aumentaram? Após algumas semanas de
monitoramento, o varejista eletrônico poderá determinar o sucesso do estudo.
O que pode ser manipulado automaticamente é a inclusão de novos usuários registrados. Quando os clientes se
registram no site, os conjuntos de regras atuais podem ser aplicados a suas informações para determinar quais
recomendações eles devem receber.
Decidir quando atualizar os conjuntos de regras para determinar recomendações é uma tarefa mais delicada.
Atualizar os conjuntos de regras não é um processamento automático, pois a criação do cluster requer entrada
manual referente à apropriabilidade de uma determinada solução de cluster.
Visto que projetos futuros geram modelos mais complexos, é quase certo que a necessidade e a quantidade de
monitoramento aumentarão. Quando possível, o volume do monitoramento deve ser automático com relatórios
planejados com regularidade disponíveis para revisão. Como alternativa, a criação de modelos que fornecem
predições rapidamente pode ser uma direção que a empresa gostaria de seguir. Isso requer uma maior
sofisticação da equipe do que o primeiro projeto de mineração de dados.

Guia CRISP-DM 37
6.3 Produzindo o relatório final
A elaboração de um relatório final não apenas une as pontas soltas da documentação anterior, mas
também pode ser usada para comunicar seus resultados. É importante apresentar seus resultados para
as várias pessoas com interesse nos resultados (ex: administradores técnicos responsáveis pela
implementação dos resultados da modelagem ou patrocinadores que tomarão decisões com base nos
resultados alcançados).

Apresentação dos resultados


Atividades Resultado
Elaborar uma descrição completa do problema de negócio inicial
Descrever o processo desenvolvido para a mineração de dados
Detalhar os custos e os benefícios do projeto
Relatório final
Descrever quaisquer desvios com relação ao plano original do projeto
Apresentação final
Elaborar um sumário dos resultados da mineração (modelos e achados)
Elaborar uma descrição geral do plano de implementação
Elaborar recomendações para trabalhos futuros de mineração de dados

Exemplo:
O maior desvio do plano original do projeto também é uma oportunidade interessante para um maior trabalho de
mineração de dados. O plano original determinava a descoberta de como fazer os clientes passarem mais tempo e
visualizarem mais páginas no site por visita.
Como se vê, manter um cliente feliz não é simplesmente uma questão de mantê-lo on-line. As distribuições de
frequência do tempo gasto por sessão, divididas em a sessão ter resultado ou não em uma compra, descobriram
que os tempos de sessão para a maioria de sessões que resultam em compras recaem entre os tempos de sessão
de dois grupos de sessões sem compras.
Agora que isso é sabido, o problema é descobrir se esses clientes que passam muito tempo no site sem comprar
nada estão apenas olhando sem compromisso ou simplesmente não conseguem encontrar o que estão
procurando. A etapa seguinte é descobrir como entregar aquilo que eles estão procurando para encorajar as
compras.

Guia CRISP-DM 38
6.4 Revisando o projeto
Esta é a etapa final da metodologia CRISP-DM e oferece a oportunidade de formular suas impressões
finais e agrupar as lições aprendidas durante o processo de mineração de dados.

Produção de um relato sobre as lições aprendidas com o projeto


Atividades Resultado
Detalhar suas impressões gerais sobre o projeto
Detalhar o que foi aprendido com o projeto, tanto em relação à mineração
de dados quanto em relação aos dados disponíveis Relato de experiência
Descrever as partes do projeto que merecem destaque dos pontos de vista
positivo e negativo

Exemplo:
Entrevistas com membros do projeto. O varejista eletrônico descobre que os membros do projeto mais
estreitamente associados ao estudo, do início ao fim, estão, em sua maioria, entusiasmados com os resultados e
aguardam projetos futuros. O grupo do banco de dados parece cuidadosamente otimista; embora apreciem a
utilidade do estudo, eles apontam para a carga acrescentada aos recursos do banco de dados. Um consultor estava
disponível durante o estudo, mas com o passar do tempo, será necessário outro funcionário dedicado à
manutenção do banco de dados será necessário, à medida que o escopo do projeto se expande.
Entrevistas com clientes. O feedback do cliente foi amplamente positivo até o momento. Um problema que não
foi bem considerado foi o impacto da mudança do design do site nos clientes estabelecidos. Depois de alguns
anos, os clientes registrados desenvolveram algumas expectativas sobre como o site está organizado. O feedback
de usuários registrados não é tão positivo quanto aquele de clientes não registrados e alguns realmente não
gostam das mudanças. O varejista eletrônico deve estar atento a esse problema e considerar cuidadosamente se
uma mudança trará novos clientes suficientes para se arriscar a perder os existentes.

Guia CRISP-DM 39
RESULTADO EM AÇÃO!

Após vencida a primeira iteração do projeto, o modelo entra em uso e deve ser observado quanto à sua
efetividade frente ao problema inicial, seguindo o plano de monitoramento e de manutenção definido
na fase de Implementação. A principal tarefa é aplicar o conhecimento obtido na geração de resultados
de negócio e aferir a qualidade do(s) modelo(s) ao longo do tempo.
O monitoramento pode ser visto como uma fase “oculta” do CRISP-DM, como mostrado na Figura 7.

Figura 7: Fase e transições “ocultas” do CRISP-DM

Quando há perda de qualidade do modelo ou o modelo atual pode ser melhorado a partir de novos
dados, por exemplo, desencadeia-se um novo ciclo do processo CRISP-DM.

Guia CRISP-DM 40
Possíveis problemas ao se utilizar CRISP-DM

O CRISP-DM é um ótimo framwork para projetos de DCBD e seu uso ajuda a focá-los na entrega de
valor real aos negócios. Por ser bastante genérico, muitos projetos que usam o CRISP-DM adotam
algumas simplificações. Algumas simplificações fazem sentido, mas que podem gerar problemas,
como a mostrado na Figura 8.

Figura 8: Quatro possíveis problemas ao se utilizar uma versão simplificada do CRISP-DM.

Fonte: TAYLOR, J. Four Problems in Using CRISP-DM and How To Fix Them. KDNuggets, 2017.
https://www.kdnuggets.com/2017/01/four-problems-crisp-dm-fix.html

Entre os problemas que podem ocorrer ao se usar uma versão simplificada do CRISP-DM estão:
1. Falta de clareza. Em vez de se aprofundar nos detalhes e obter clareza sobre o problema de
negócios e como a Ciência de Dados pode ajudar, a equipe do projeto se contenta com as metas de
negócios e algumas métricas de sucesso. A equipe agora “entende” o objetivo do negócio, quer
minimizar a “sobrecarga” e pular para a parte “interessante” do projeto, analisando os dados. Com
muita frequência, isso resulta em modelos que não atendem a uma necessidade real do negócio.
2. Retrabalho irracional. Algumas equipes de Ciência de Dados simplesmente avaliam os resultados
de seus projetos em termos técnicos - se o modelo é preditivo, deve ser bom. A maioria percebe
que isso não é necessariamente verdade e tenta verificar seus resultados analíticos em relação ao
objetivo do negócio. Isso é difícil sem uma verdadeira clareza sobre o problema de negócio. Se a
análise que eles desenvolveram não parece atender aos objetivos de negócios, a equipe tem poucas
opções. A maioria tenta encontrar novos dados ou novas técnicas de modelagem, em vez de
trabalhar com seus parceiros de negócios para reavaliar o problema do negócio.
3. Transferência cega para a TI. Algumas equipes analíticas não pensam na implementação e
operacionalização de seus modelos. A maioria se sai melhor do que isso, reconhecendo que os
modelos que eles constroem terão que ser aplicados sobre dados reais em bancos de dados
operacionais ou incorporados a sistemas de informação. Mesmo essas equipes, normalmente, não

Guia CRISP-DM 41
se envolvem com a TI. Antes disso, não têm clareza sobre as necessidades de implementação dos
resutlados do processo de descoberta de conhecimento e não consideram implementação como um
trabalho de Ciência de Dados. O resultado final é um modelo passado para a TI sem os devidos
cuidados. Se o modelo é de fácil ou difícil (ou mesmo impossível) implementação ou se é
realmente utilizável após sua implementação, isso é um problema que não lhes concerne. Isso
aumenta o tempo e o custo da implementação de um modelo e contribui para a enorme
porcentagem de modelos que não causam impacto nos negócios, ou seja, o processo fracassou
como um todo.
4. Falha na iteração. Os profissionais de Ciência de Dados sabem que os modelos envelhecem e que
precisam ser atualizados para que possam continuar relevantes. Eles sabem que o contexto do
negócio pode mudar e diminuir o valor de um modelo. Eles sabem que os padrões de dados
utilizados para a construção do modelo podem mudar. Mas eles pensam nisso como um problema
para outro momento, ou seja, não têm clareza suficiente sobre o problema de negócio de modo a
determinar como acompanhar o desempenho do modelo e nem se preocupam em tornar a revisão
do modelo menos custosa em uma eventual nova iteração do processo. Afinal, é muito mais
interessante enfrentar outro novo problema. Isso pode levar à negligência quanto ao monitoramento
e manutenção do(s) modelo(s), prejudicando o seu valor em longo prazo.
Cada um desses problemas aumenta a probabilidade de a equipe criar uma solução analítica elegante,
mas que não agregue valor aos negócios. As organizações que desejam realmente explorar a Ciência
de Dados não podem permitir a ocorrência desses problemas.

Guia CRISP-DM 42
PROJETO DE CIÊNCIA DE DADOS

TÍTULO........... : xxxx

EQUIPE ........... : xxxx (Nome, contato)


...
xxxx (Nome, contato)

SUMÁRIO
1. COMPREENSÃO DO NEGÓCIO/PROBLEMA ........................................................................................................... xx
1.1 Determinando os objetivos do negócio ........................................................................................................................ xx
1.2 Avaliando a situação ....................................................................................................................................................... xx
1.3 Determinando os objetivos da mineração de dados ................................................................................................... xx
1.4 Produzindo um plano do projeto ................................................................................................................................... xx
2. COMPREENSÃO DOS DADOS ...................................................................................................................................... xx
2.1 Coletando dados iniciais................................................................................................................................................. xx
2.2 Descrevendo os dados .................................................................................................................................................... xx
2.3 Explorando os dados ....................................................................................................................................................... xx
2.4 Verificando a qualidade dos dados ............................................................................................................................... xx
3. PREPARAÇÃO DOS DADOS.......................................................................................................................................... xx
3.1 Selecionando os dados .................................................................................................................................................... xx
3.2 Limpando os dados ......................................................................................................................................................... xx
3.3 Construindo novos dados ............................................................................................................................................... xx
3.4 Integrando os dados ........................................................................................................................................................ xx
3.5 Formatando os dados ...................................................................................................................................................... xx
4. MODELAGEM.................................................................................................................................................................. xx
4.1 Selecionando a técnica de modelagem ......................................................................................................................... xx
4.2 Projetando o design de teste .......................................................................................................................................... xx
4.3 Construindo o(s) modelo(s) ........................................................................................................................................... xx
4.4 Avaliando o(s) modelo(s)............................................................................................................................................... xx
5. AVALIAÇÃO..................................................................................................................................................................... xx
5.1 Avaliando os resultados ................................................................................................................................................. xx
5.2 Revisando os processos .................................................................................................................................................. xx
5.3 Determinando os próximos passos ............................................................................................................................... xx
6. IMPLEMENTAÇÃO ......................................................................................................................................................... xx
6.1 Planejando a implementação ......................................................................................................................................... xx
6.2 Planejando o monitoramento e a manutenção ............................................................................................................. xx
6.3 Produzindo o relatório final ........................................................................................................................................... xx
6.4 Revisando o projeto ........................................................................................................................................................ xx

Guia CRISP-DM 43
1. COMPREENSÃO DO NEGÓCIO
1.1 Determinando os objetivos do negócio
Informações básicas sobre a situação atual do negócio
(i) Descrever a estrutura organizacional (organograma e projetos corporativos, com nomes e responsabilidades, identificando os
stakeholders, patrocinadores e setores afetados pelo projeto);
xxx
(ii) Descrever o problema em termos gerais, o ecossistema (processos, recursos e atores) em que ele está inserido, motivações e pré-
requisitos para o projeto, seu status na organização e experiências prévias em mineração de dados;
xxx
(iii) Descrever a solução atual, suas vantagens, desvantagens e nível de aceitação na organização.
xxx
Objetivos do negócio do ponto de vista dos tomadores de decisão
(i) Descrever o problema do negócio que se quer abordar com Mineração de Dados;
xxx
(ii) Especificar as questões associadas ao problema;
xxx
(iii) Determinar quaisquer outros requisitos de negócio; (iv) Especificar benefícios esperados em termos de negócio.
xxx
Critérios de sucesso do projeto
(i) Definir os critérios de sucesso do projeto;
xxx
(ii) Definir os critérios de sucesso da mineração de dados para cada um dos objetivos do negócio;
xxx
(iii) Definir os avaliadores das medidas de sucesso subjetivas. Se possível, anotar suas expectativas.
xxx

1.2 Avaliando a situação


Inventário de recursos
(i) Levantar recursos de hardware e de software disponíveis;
xxx
(ii) Identificar fontes de dados e de conhecimento; (iii) Identificar recursos de pessoal técnico e de negócio.
xxx
Requisitos, suposições e restrições
(i) Determinar os requisitos (ex: de segurança em relação aos dados e aos resultados do projeto);
xxx
(ii) Esclarecer os pressupostos (ex: sobre fatores econômicos, qualidade dos dados e apresentação dos resultados);
xxx
(iii) Verificar restrições (ex: disponibilidade de senhas, financeiras, legais em relação ao acesso aos dados).
xxx
Riscos e contingências
(i) Identificar possíveis riscos (ex: atraso na execução do projeto, problemas orçamentários, qualidade dos dados e resultados pouco
impactantes);
xxx
(ii) Elaborar um plano de contingência para cada possível risco.

Guia CRISP-DM 44
xxx
Levantamento da terminologia empregada
(i) Elaborar uma lista de termos ou jargões técnicos e de negócio relevantes para o projeto;
xxx
(ii) Compartilhar a lista com a equipe do projeto.
xxx
Análise de custo-benefício
(i) Identificar os custos de obtenção dos dados (internos ou externos), de implementação dos resultados e operacionais;
xxx
(ii) Identificar os benefícios esperados com o alcance dos objetivos do projeto (ex: melhor percepção do problema e do acervo de dados da
organização).
xxx

1.3 Determinando os objetivos da mineração de dados


Definição dos objetivos da mineração de dados
Nota: Garanta que a implementação bem sucedida do modelo seja parte do sucesso da solução. Inclua a implementação no
planejamento.

(i) Descrever o tipo de problema de mineração de dados (ex: agrupamento, classificação etc);
xxx
(ii) Enumerar as metas da mineração de dados (ex: predições válidas por três meses);
xxx
(iii) Quantificar os resultados desejados em relação à situação atual (ex: indicadores de perda de clientes).
xxx
Critérios de sucesso da mineração de dados
(i) Definir e descrever os métodos para avaliação do(s) modelo(s) (ex: precisão, desempenho, etc);
xxx
(ii) Definir critérios objetivos (numéricos) de desempenho para avaliação do sucesso da mineração de dados);
xxx
(iii) Especificar medidas subjetivas e determinar os responsáveis pelas avaliações.
xxx

1.4 Produzindo um plano do projeto


Plano do projeto do ponto de vista técnico
Nota: Considerar que há fases que requerem iteração, em particular a de Construção do Modelo.

(i) Estimar o tempo necessário para se realizar cada fase ou atividade;


xxx
(ii) Estimar os esforços ou recursos necessários para a implementação dos resultados para a solução de negócio);
xxx
(iii) Definir pontos de revisão e decisão no plano.
xxx
Avaliação de ferramentas e técnicas
(i) Avaliar as ferramentas disponíveis;
xxx
(ii) Avaliar os tipos de padrões produzidos por meio das técnicas escolhidas (ex: rede neural, árvore de decisão, etc).
xxx

Guia CRISP-DM 45
Síntese da compreensão do negócio
xxx

2. COMPREENSÃO DOS DADOS


2.1 Coletando dados iniciais
Coleta inicial de dados
Nota: A consideração de fontes múltiplas de dados vai requerer sua integração, nesta fase ou na de preparação de dados mais à
frente.

(i) Identificar as bases de dados potencialmente relevantes para o projeto;


xxx
(ii) Para cada base, identificar os atributos mais promissores);
xxx
(iii) Identificar atributos que pareçam irrelevantes e que podem ser excluídos;
xxx
(iv) Verificar se há dados suficientes para conclusões generalizáveis ou predições acuradas;
xxx
(v) Verificar a necessidade de redução de dimensionalidade dos dados;
xxx
(vi) Se você estiver considerando dados de diversas fontes, verifique a viabilidade ou possíveis problemas de se fazer sua junção;
xxx
(vii) Verificar como os valores faltantes poderão ser tratados.
xxx

2.2 Descrevendo os dados


Informações sobre os dados
(i) Verificar a formatação dos arquivos;
xxx
(ii) Identificar o método usado para a captura dos dados);
xxx
(iii) Levantar o tamanho da(s) base(s) de dados (número de linhas e colunas);
xxx
(iv) Descrever significado, relacionamentos, origem, uso e tipo dos atributos de cada base de dados (dicionários de dados);
xxx
(v) Verificar a relevância dos dados para o alcance dos objetivos do projeto;
xxx
(vi) Calcular estatísticas básicas para os atributos-chave.
xxx

2.3 Explorando os dados


Exploração dos dados
(i) Formular hipóteses sobre os dados;
xxx
(ii) Identificar atributos promissores para análise);
xxx

Guia CRISP-DM 46
(iii) Enumerar novas características sobre os dados reveladas pela sua exploração dos dados;
xxx
(iv) Relatar que mudanças nas hipóteses iniciais foram ocasionadas pela exploração dos dados;
xxx
(v) Identificar subconjuntos particulares dos dados para uso posterior;
xxx
(vi) Verificar se o resultado da exploração dos dados justifica a alteração dos objetivos do projeto ou da mineração de dados.
xxx
Qualidade dos dados
(i) Verificar se há valores de atributo faltantes ou em branco e explicitar o que isso significa;
xxx
(ii) Verificar se existem inconsistências ortográficas que podem causar problemas em junções ou transformações nos dados);
xxx
(iii) Verificar se há desvios nos valores dos dados (outliers) e se isso é ruído ou tem algum significado;
xxx
(iv) Checar a plausibilidade dos valores dos dados e registrar eventuais conflitos;
xxx
(v) Verificar a possibilidade de excluir dados que não tenham impacto nas hipóteses;
xxx
(vi) Verificar se os dados estão corretamente separados por delimitadores e se há o mesmo número de campos em cada linha;
xxx
(vii) Verificar se a qualidade dos dados justifica a alteração dos objetivos do projeto ou da mineração dos dados.
xxx

Síntese da compreensão dos dados


xxx

3. PREPARAÇÃO DOS DADOS


3.1 Selecionando os dados
Rationale para a inclusão/exclusão de dados
(i) Verificar a existência de atributos especialmente relevantes para os objetivos da mineração de dados;
xxx
(ii) Identificar se há problemas de qualidade em um conjunto de dados ou um atributo que possa comprometer a validade dos resultados);
xxx
(iii) Verificar a possibilidade e as formas de sanar esses problemas;
xxx
(iv) Verificar se há alguma restrição quanto ao uso de atributos específicos; (v) Efetuar a limpeza de dados.
xxx

3.2 Limpando os dados


Limpeza de dados
(i) Relacionar os tipos de ruídos que ocorrem nos dados;
xxx

Guia CRISP-DM 47
(ii) Detalhar que abordagens e técnicas que podem ser utilizadas para remover esses ruídos);
xxx
(iii) Efetuar a limpeza de dados;
xxx
(iv) Relatar se houve atributos com ruídos que não puderam ser recuperados.
xxx

3.3 Construindo novos dados


Construção de dados novos ou derivados
(i) Verificar se os dados estão de acordo com o que é esperado pelo algoritmo de mineração de dados escolhido e, se preciso, realizar as
transformações necessárias;
xxx
(ii) Se preciso, realizar a normalização de atributos);
xxx
(iii) Definir e aplicar abordagens para tratamento de dados faltantes;
xxx
(iv) Verificar a possibilidade de se criar atributos relevantes a partir dos atributos existentes;
xxx
(v) Verificar a necessidade de se aplicar oversampling ou undersampling no caso de bases desbalanceadas;
xxx
(vi) Efetuar a geração de novos atributos e registros.
xxx

3.4 Integrando os dados


Integração de dados
(i) Integrar (importação de linhas ou colunas) os conjuntos de dados considerados úteis para a mineração de dados;
xxx
(ii) Gerar uma base única de dados para a mineração de dados);
xxx
(iii) Verificar a necessidade de construção de novos dados.
xxx

3.5 Formatando os dados


Formatação de dados
(i) Verificar as formatações necessárias para utilização da ferramenta de mineração de dados escolhida;
xxx
(ii) Transpor a base de dados para o formato apropriado
xxx

Síntese da preparação dos dados


xxx

4. MODELAGEM
4.1 Selecionando a(s) técnica(s) de modelagem
Avaliação das técnicas de modelagem

Guia CRISP-DM 48
(i) Verificar se o modelo a ser criado requer o particionamento dos dados em dados de treinamento e de teste;
xxx
(ii) Verificar se há dados suficientes para se produzir um modelo confiável);
xxx
(iii) Verificar se os dados possuem qualidade suficiente para se produzir um modelo confiável;
xxx
(iv) Verificar se os tipos de dados são apropriados para o modelo a ser construído;
xxx
(v) Adequar os dados às necessidades da técnica de mineração de dados a ser utilizada.
xxx

4.2 Projetando o design de teste


Design de teste
(i) Especificar o esquema de teste do modelo a ser criado (ex: utilização de máquinas de comitê, separação da base de dados em
treinamento e teste, parâmetros para essa divisão, etc);
xxx
(ii) Definir qual a medida de sucesso para modelos);
xxx
(iii) Definir estratégias para se testar um modelo quanto à sua efetividade em relação aos objetivos da mineração de dados.
xxx

4.3 Construindo o(s) modelo(s)


Estruturação e construção do(s) modelo(s)
(i) Calibrar os parâmetros do algoritmo que implementa a técnica de modelagem escolhida;
xxx
(ii) Gerar o(s) modelo(s));
xxx
(iii) Descrever os resultados do(s) modelo(s), incluindo indicadores de desempenho, problemas durante a execução e achados a partir da
exploração do modelo (ex: novos insights, padrões úteis, problemas de execução e inconsistências).
xxx

4.4 Avaliando o(s) modelo(s)


Avaliação do(s) modelo(s)
(i) Avaliar os resultados do(s) modelo(s), considerando os indicadores de qualidade;
xxx
(ii) Realizar uma revisão dos resultados baseado no entendimento do problema do negócio (na perspectiva dos cientistas de dados e dos
especialistas do negócio);
xxx
(iii) Verificar se os resultados dos modelos são facilmente aproveitáveis na prática;
xxx
(iv) Analisar o impacto dos resultados dos modelos tendo em vista os critérios de sucesso da mineração definidos anteriormente;
xxx
(v) Ranquear o(s) modelos, escolher o(s) modelo(s) mais adequado(s) para solucionar o problema de negócio e fundamentar essa escolha.
xxx

Síntese da modelagem
xxx

Guia CRISP-DM 49
5. AVALIAÇÃO
5.1 Avaliando os resultados
Avaliação dos resultados
(i) Verificar se os resultados apresentados estão inteligíveis;
xxx
(ii) Verificar se existem achados particularmente interessantes que mereçam ser enfatizados;
xxx
(iii) Ranquear os modelos e achados de acordo com a sua aplicabilidade aos objetivos do negócio;
xxx
(iv) Selecionar o(s) modelo(s) que serão efetivamente utilizados;
xxx
(v) Analisar até que ponto os resultados respondem aos objetivos do negócio;
xxx
(vi) Identificar questões adicionais que tenham surgido a partir dos resultados, em relação às metas do negócio.
xxx

5.2 Revisando os processos


Avaliação dos processos empregados durante o projeto
(i) Verificar de que forma a fase/tarefa contribuiu para os resultados finais;
xxx
(ii) Verificar se há meios de se melhorar esta fase/tarefa;
xxx
(iii) Identificar as falhas ou erros desta fase/tarefa e como evitá-los no futuro;
xxx
(iv) Verificar se houve impasses (ex.: modelos específicos que se mostraram inadequados) e se existem maneiras de prever tais impasses
para evitar desperdício de esforços;
xxx
(v) Identificar surpresas positivas ou negativas durante a execução da fase/tarefa;
xxx
(vi) Verificar a existência de decisões ou estratégias alternativas que poderiam ser usadas em uma dada fase/tarefa.
xxx

5.3 Determinando os próximos passos


Próximos passos do projeto
(i) Avaliar os resultados da mineração;
xxx
(ii) Decidir as próximas ações.
xxx

Síntese da avaliação
xxx

6. IMPLEMENTAÇÃO
6.1 Planejando a implementação

Guia CRISP-DM 50
Plano de implementação
(i) Sumarizar os resultados (modelos e achados) para fins de integração com sistemas de informação e de compartilhamento com a equipe;
xxx
(ii) Para cada modelo selecionado, criar um plano passo-a-passo para sua implementação e integração aos processos da organização;
xxx
(iii) Para cada achado, criar um plano de disseminação junto aos tomadores de decisão concernentes;
xxx
(iv) Caso necessário, identificar alternativas de implementação do(s) modelo(s) e achados;
xxx
(v) Especificar como a utilização dos resultados implementados será monitorada, incluindo a definição de critérios para se identificar a sua
obsolescência;
xxx
(vi) Elaborar plano de contingência para possíveis problemas na implementação.
xxx

6.2 Planejando o monitoramento e a manutenção


Plano de monitoramento e manutenção
Nota: É aqui que a boa documentação se torna crítica para avaliar o objetivo comercial de cada projeto de mineração de dados.

(i) Verificar para cada modelo ou achado que fatores ou influências precisam ser rastreados;
xxx
(ii) Especificar como a validade e a precisão de cada modelo podem ser medidas e monitoradas;
xxx
(iii) Definir em que condições o(s) modelo(s) será(ão) considerado(s) obsoleto(s);
xxx
(iv) Definir as medidas a serem tomadas quando da obsolescência do(s) modelo(s);
xxx
(v) Verificar se o(s) modelo(s) considerado(s) obsoleto(s) pode(m) ser usado(s) para problemas de negócios semelhantes.
xxx

6.3 Produzindo o relatório final


Resultados
(i) Elaborar uma descrição completa do problema de negócio inicial;
xxx
(ii) Descrever o processo desenvolvido para a mineração de dados;
xxx
(iii) Detalhar os custos e os benefícios do projeto;
xxx
(iv) Descrever quaisquer desvios com relação ao plano original do projeto;
xxx
(v) Elaborar um sumário dos resultados da mineração (modelos e achados);
xxx
(vi) Elaborar uma descrição geral do plano de implementação;
xxx
(vii) Elaborar recomendações para trabalhos futuros de mineração de dados.
xxx

Guia CRISP-DM 51
6.4 Revisando o projeto
Lições aprendidas com o projeto
(i) Detalhar suas impressões gerais sobre o projeto;
xxx
(ii) Detalhar o que foi aprendido com o projeto, tanto em relação à mineração de dados quanto em relação aos dados disponíveis;
xxx
(iii) Descrever as partes do projeto que merecem destaque dos pontos de vista positivo e negativo.
xxx

Síntese da implementação
xxx

Guia CRISP-DM 52

Você também pode gostar