Escolar Documentos
Profissional Documentos
Cultura Documentos
Sumário
Apresentação ............................................................................................................................................................................................. 2
A descoberta de conhecimento......................................................................................................................................................... 3
O CRISP-DM ............................................................................................................................................................................................ 6
1. COMPREENSÃO DO NEGÓCIO/PROBLEMA ............................................................................................................................. 8
1.1 Determinando os objetivos do negócio (definição do problema) ..............................................................................................9
1.2 Avaliando a situação ....................................................................................................................................................................... 11
1.3 Determinando os objetivos da mineração de dados ................................................................................................................... 12
1.4 Produzindo um plano do projeto ................................................................................................................................................... 13
2. COMPREENSÃO DOS DADOS .......................................................................................................................................................15
2.1 Coletando dados iniciais ................................................................................................................................................................. 16
2.2 Descrevendo os dados ..................................................................................................................................................................... 17
2.3 Explorando os dados ....................................................................................................................................................................... 18
2.4 Verificando a qualidade dos dados ............................................................................................................................................... 19
3. PREPARAÇÃO DOS DADOS ..........................................................................................................................................................20
3.1 Selecionando os dados .................................................................................................................................................................... 21
3.2 Limpando os dados .......................................................................................................................................................................... 22
3.3 Construindo novos dados ...............................................................................................................................................................23
3.4 Integrando os dados ......................................................................................................................................................................... 24
3.5 Formatando os dados....................................................................................................................................................................... 25
4. MODELAGEM ..................................................................................................................................................................................26
4.1 Selecionando a técnica de modelagem ......................................................................................................................................... 27
4.2 Projetando o design de teste ...........................................................................................................................................................28
4.3 Construindo o(s) modelo(s) ...........................................................................................................................................................29
4.4 Avaliando o(s) modelo(s) ...............................................................................................................................................................30
5. AVALIAÇÃO .....................................................................................................................................................................................31
5.1 Avaliando os resultados .................................................................................................................................................................. 32
5.2 Revisando os processos .................................................................................................................................................................. 33
5.3 Determinando os próximos passos................................................................................................................................................ 34
6. IMPLEMENTAÇÃO..........................................................................................................................................................................35
6.1 Planejando a implementação..........................................................................................................................................................36
6.2 Planejando o monitoramento e a manutenção .............................................................................................................................37
6.3 Produzindo o relatório final ...........................................................................................................................................................38
6.4 Revisando o projeto ......................................................................................................................................................................... 39
RESULTADO EM AÇÃO! ....................................................................................................................................................................40
Guia CRISP-DM 2
A descoberta de conhecimento
Até o final dos anos 80, a busca por padrões (ou modelos) úteis nos dados era chamado de Mineração
de Dados, extração de conhecimento, descoberta de informações, coleta de informações, arqueologia
de dados e processamento de padrões. O termo Mineração de Dados era usado principalmente por
estatísticos, analistas de dados e comunidades de sistemas de informação gerencial. Posteriormente, já
em meados dos anos 90, o conceito de Mineração de Dados se firmou junto à comunidade de
Inteligência Artificial como o uso de técnicas de Aprendizagem de Máquina (Machine Learning) para
a busca de padrões em conjuntos de dados do contexto da Descoberta de Conhecimento em Bancos de
Dados.
A expressão Knowledge Discovery in Databases (KDD), ou Descoberta de Conhecimento em Bancos
de Dados (DCBD) foi cunhada por Gregory Piatetsky-Shapiro, quando, em 1989, organizou o primeiro
Workshop sobre esse tema, o KDD-1989, durante o principal evento mundial sobre Inteligência
Artificial, o Internacional Joint Conferences on Artificial Intelligence (IJCAI). O objetivo era enfatizar
que "conhecimento" é o produto final de um processo de descoberta orientada a dados. Em 1996, em
outra edição desse Workshop, Usama Fayyad, o mesmo Gregory Piatetsky-Shapiro e Padhraic Smyth
propõem uma metodologia para guiar o processo de DCBD, representado pela Figura 1.
Figura 1: Uma visão geral das etapas que compreendem ao Processo KDD, proposto por Fayyad, Piatetsky-Shapiro Smyth.
Fonte: Fayyad, U., Piatetsky-Shapiro, G., Smyth, P. (1996). Knowledge Discovery and Data Mining: Towards a Unifying
Framework. KDD-96 Proceedings, Thirteenth National Conference on Artificial Intelligence (AAAI-96), Association for
the Advancement of Artificial Intelligence.
Os autores também apontam que, antes do início do processo, é necessário se ter claro o objetivo a ser
alcançado, compreender o domínio de aplicação e o conhecimento prévio relevante e compreender
este processo do ponto de vista do cliente.
O processo envolve: (i) seleção de um conjunto de dados, (ii) processamento de dados inconsistentes
ou ausentes (limpeza de dados), (iii) identificação de dados desnecessários e inclusão de novos
atributos (redução ou transformação de dimensionalidade), (iv) aplicação de um ou mais métodos de
mineração de dados específicos para se alcançar os objetivos do processo (mineração de dados por
meio de algoritmos de classificação, regressão, agrupamento, etc) e (v) Interpretação dos padrões
obtidos e, eventualmente, retornar a qualquer uma das etapas anteriores para iteração adicional. Uma
vez consolidado o conhecimento descoberto, este deve ser incorporado a outro sistema para outras
ações, ou documentado/relatado às partes interessadas.
Entretanto, a experiência de aplicação deste processo em ambientes corporativos se mostrou
insuficiente, pois reflete sobretudo as atividades a serem desenvolvidas pelos especialistas das áreas de
Guia CRISP-DM 3
Informática e de Análise de Dados, não levando em conta o ecossistema em que esse processo
acontece, os diversos atores envolvidos e os recursos materiais disponíveis para sua realização.
Na busca por uma metodologia mais abrangente, em 1999, três empresas, a DaimlerChrysler,
interessada na aplicação de análises de mineração de dados em seus negócios, a NCR, empresa
provedora de soluções de bancos de dados, e a Statistical Product and Service Solutions, que
comercializava o software SPSS (Statistical Package for the Social Sciences), formam um consórcio e
propõem a metodologia (ou processo) Cross Industry Standard Process for Data Mining (CRISP-
DM). Posteriormente, o SPSS foi adquirido pela IBM, que hoje é a empresa que difunde o CRISP-
DM, incorporando-o ao seu produto SPSS Modeler.
Outras metodologias similares surgiram, como a SEMMA (Sample, Explore, Modify, Model and
Assess) que foca em tarefas de modelagem e projetos de mineração de dados, mas sem considerar os
aspectos de negócios.
Na Figura 2 é apresentada a enquete apresentado em um texto de Gregory Piatetsky-Shapiro,
publicado no site Kdnuggets, sobre os métodos de DCBD mais difundidos no ambiente corporativo.
Visto que o CRISP-DM vem sendo largamente utilizada em projetos de DCBD não só nesse ambiente,
mas também no científico e acadêmico, sua adoção é justifica-se sua difusão entre os interessados em
Ciência de Dados.
Figura 2: Metodologias utilizadas nas organizações para projetos de descoberta de conhecimento em bancos de dados [200
votos].
8,5%
SEMMA 13,0%
8,0%
Outra, sem domínio específico 4,0%
7,5%
Processo KDD 7,3%
3,5%
Da minha organização 5,3%
2,0%
Metodologia para um dompínio específico 4,7%
0,0%
Nenhuma 4,7%
Fonte: PIATETSKY, G. CRISP-DM, still the top methodology for analytics, data mining, or data science projects.
KDnuggets, 2014
https://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html
É preciso lembrar, no entanto, que o CRISP-DM não sofreu ajustes desde sua criação, e que ele
próprio é uma evolução do Processo KDD, de meados dos anos 1990, por este não relacionar o
processo de descoberta de conhecimento ao contexto organizacional em que o projeto estaria inserido.
Desde então, avanços tecnológicos como Big Data, Computação em Nuvem, Computação Móvel e
Internet das Coisas, viabilizaram o surgimento de sistemas de apoio à decisão que consomem
dinamicamente dados gerados em tempo real, advindos de fontes heterogêneas e muitas vezes de baixa
qualidade, tornando-os de difícil entendimento e processamento.
Visto que DCBD realiza a análise offline de dados coletados de bases de dados, diversas propostas têm
surgido para sanar suas limitações. Entre as alternativas ao CRISP-DM está a metodologia de Ciência
Guia CRISP-DM 4
de Dados ágil (e iterativa) Team Data Science Process (TDSP), proposta pela Microsoft, cujo ciclo de
vida é apresentado na Figura 3. Ele foi concebido para compor projetos para desenvolvimento de
aplicativos inteligentes que envolvam algum tipo de análise preditiva. Para projetos voltados
unicamente para a exploração ou análise de dados, algumas fases são dispensáveis.
Nota-se que esta metodologia é uma evolução do CRISP-DM, ao assimilar algumas práticas modernas
de engenharia de software e viabilizar a incorporação de novas tecnologias. Assim, para os iniciantes
em Ciência de Dados, o domínio do CRISP-DM é relevante, tendo, entretanto, em mente que este é
um passo inicial para aqueles que pretendem se aprofundar nesse tema.
Guia CRISP-DM 5
O CRISP-DM
Fonte: CHAPMAN, P. et al. CRISP-DM 1.0 Step-by-step data mining guide. 2001.
https://www.the-modeling-agency.com/crisp-dm.pdf
O modelo CRISP-DM é flexível e pode ser personalizado facilmente. Por exemplo, se sua organização
pretende detectar lavagem de dinheiro, é provável que você examine grandes quantidades de dados
sem uma meta de modelagem específica. Em vez de modelar, seu trabalho se concentrará na
exploração e visualização de dados para descobrir padrões suspeitos em dados financeiros. O CRISP-
DM permite criar um modelo de mineração de dados que atenda às suas necessidades particulares.
Em tal situação, as fases de modelagem, avaliação e implementação podem ser menos relevantes do
que as fases de compreensão e preparação dos dados. No entanto, ainda é importante considerar
algumas das questões levantadas durante essas fases posteriores para o planejamento a longo prazo e
as metas futuras de mineração de dados.
É fato reconhecido que os dados para a mineração de dados raramente estão disponíveis na forma
desejada. Geralmente estão em mais de um arquivo que pode, inclusive, ser externo à organização (por
Guia CRISP-DM 6
exemplo, arquivos demográficos do IBGE). Com isso, não há garantia de que haja formas seguras de
juntá-los, nem de que os domínios de seus atributos ou seus formatos estejam padronizados. Assim,
conforme mostra a Figura 5, Tarefas que antecedem a mineração de dados propriamente dita,
costumam consumir a maior parte do esforço total para se desenvolver uma aplicação.
Figura 5: Proporção típica de esforço para cada uma das fases do CRISP-DM em %.
40
35
30
25
20
15
10
0
Compreensão Compreensão Preparação dos Modelagem Avaliação Implementação
do negócio dos dados dados
Antes de se iniciar com as fases do CRISP-DM, vale observar como o modelo se estrutura em termos
de processo. A Figura 6 mostra as camadas do CRISP-DM quando considerado como um modelo de
processos. Essas camadas estão organizadas de modo a conduzir o Cientista de Dados pelas suas
diversas fases, com controle dos níveis mais específicos desde as tarefas mais gerais, passando pelas
tarefas específicas até as instâncias de processos onde as intervenções são realizadas.
Fonte: CHAPMAN, P. et al. CRISP-DM 1.0 Step-by-step data mining guide. 2001.
https://www.the-modeling-agency.com/crisp-dm.pdf
Guia CRISP-DM 7
1. COMPREENSÃO DO NEGÓCIO
Guia CRISP-DM 8
1.1 Determinando os objetivos do negócio
A primeira tarefa genérica é tentar obter o máximo de informações possível sobre os objetivos de
negócios para a mineração de dados, ou seja, a definição do problema. Isso pode não ser tão fácil
quanto parece, mas ajudará a reduzir os riscos posteriores por tornar os problemas, objetivos e
recursos mais claros. O esquema a seguir relaciona as tarefas específicas, atividades e resultados
correspondentes.
Exemplo:
À medida que mais empresas fazem a transição para as vendas na Web, um varejista eletrônico estabelecido de
computadores/eletroeletrônicos enfrenta uma concorrência crescente de novos sites.
Diante da realidade de que as lojas na Web estão surgindo tão rapidamente (ou mais rapidamente!) quanto os
clientes estão migrando para a Web, a empresa deve encontrar maneiras de permanecer rentável, apesar dos
custos crescentes da aquisição do cliente. Uma solução proposta é cultivar os relacionamentos existentes com o
cliente para maximizar o valor de cada um dos clientes atuais da empresa.
Guia CRISP-DM 9
Assim, um estudo foi encomendado com os seguintes objetivos: (i) melhorar as vendas cruzadas fazendo
melhores recomendações e (ii) aumentar a fidelidade do cliente com um serviço mais personalizado.
Como tentativa, o estudo será julgado um sucesso se: (i) as vendas cruzadas aumentarem em 10%, (ii) os clientes
passarem mais tempo e consultarem mais páginas no site por visita e (iii) o estudo for concluído em tempo e
abaixo do orçamento.
Guia CRISP-DM 10
1.2 Avaliando a situação
De posse de um objetivo de projeto claramente definido, é momento de se avaliar em que ponto nos
encontramos, o que envolve responder que tipo de dados temos disponíveis para análise e se temos os
profissionais necessários para desenvolver o projeto? Quais são os maiores fatores de risco
envolvidos? Temos um plano de contingência para cada fator de risco identificado?
Análise de custo-benefício
Atividades Resultado
Identificar os custos de obtenção dos dados (internos ou externos), de
implementação dos resultados e operacionais
Custos e benefícios
Identificar os benefícios esperados com o alcance dos objetivos do projeto
(ex: melhor percepção do problema e do acervo de dados da organização)
Guia CRISP-DM 11
Exemplo:
Esta é a primeira tentativa do varejista eletrônico de eletroeletrônico em mineração na Web e a empresa decidiu
consultar um especialista em mineração de dados para ajudar na introdução. Uma das primeiras tarefas com a
qual o consultor se depara é a avaliação dos recursos da empresa para a mineração de dados.
Equipe. Está claro que há conhecimento interno em relação a gerenciamento de logs do servidor e de bancos de
dados de produtos e compras, mas pouca experiência em data warehouse e na limpeza de dados para análise.
Assim, um especialista em banco de dados também deve ser consultado. Visto que a empresa espera que os
resultados do estudo se tornem uma parte de um processo contínuo de mineração na web, o gerenciamento
também deve levar em conta se qualquer posição criada durante o esforço atual irá se tornar permanente.
Dados. Visto que esta é uma empresa estabelecida, há logs da Web e dados de compras suficientes nos quais se
basear. De fato, para este estudo inicial, a empresa restringirá a análise a clientes que se "registraram" no site. Se
for bem-sucedido, o programa poderá ser expandido.
Riscos. Além dos dispêndios monetários para os consultores e o tempo gasto pelos funcionários no estudo, não
há um grande risco imediato neste empreendimento. Entretanto, o tempo é sempre importante, então este projeto
inicial é planejado para um único trimestre financeiro.
Além disso, não há um grande fluxo de caixa extra no momento, portanto é indispensável que o estudo ocorra
abaixo do orçamento. Caso uma dessas metas esteja em risco, os gerentes de negócios sugerem que o escopo do
projeto seja reduzido.
Guia CRISP-DM 12
1.3 Determinando os objetivos da mineração de dados
Com os objetivos do negócio claros, é hora de traduzi-los para a mineração de dados. Por exemplo, se
o objetivo do negócio for oferecer o preço mais atraente com lucro aceitável, as metas de mineração de
dados poderiam ser: (i) identificar as fontes de precificação da concorrência, (ii) analisar os preços da
concorrência vis-à-vis nosso custo de produção e (iii) especificar a margem de lucro aceitável levando
em conta os preços da concorrência.
Exemplo:
Com a ajuda de seu consultor de mineração de dados, o varejista eletrônico foi capaz de converter os objetos de
negócios da empresa em termos de mineração de dados. As metas para que o estudo inicial seja concluído neste
trimestre são:
• Use informações históricas sobre compras anteriores para gerar um modelo que vincule itens "relacionados".
Quando os usuários olham uma descrição de item, forneça vínculos para outros itens no grupo relacionado
(análise de cesta de compras).
• Use logs da Web para determinar aquilo que diferentes clientes estão tentando encontrar e, então, projete
novamente o site para destacar esses itens. Cada "tipo" de cliente diferente verá uma página principal diferente
para o site (determinação de perfil).
• Use logs da Web para tentar prever para onde a pessoa irá a seguir, dado de onde ela veio e se já esteve em seu
site (análise de sequência).
Guia CRISP-DM 13
1.4 Produzindo um plano do projeto
Com base nos resultados obtidos até o momento, o plano do projeto deve ser elaborado. Um bom
plano do projeto agrega informações sobre metas, recursos, riscos e planejamento de todas as fases da
mineração de dados.
Exemplo:
O plano de visão geral do estudo é como este mostrado na tabela abaixo.
Guia CRISP-DM 14
2. COMPREENSÃO DOS DADOS
Guia CRISP-DM 15
2.1 Coletando dados iniciais
Neste ponto, estamos prontos para acessar os dados. Esses dados podem ser já existentes na própria
organização (dados transacionais, de pesquisa de opinião, logs da Web, etc), externos (como dados
demográficos ou econômicos) ou adicionais (produzidos para a finalidade do projeto).
Exemplo:
O varejista eletrônico neste exemplo usa diversas fontes de dados importantes, incluindo:
Logs da Web. Os logs de acesso brutos contêm todas as informações sobre como os clientes navegam no
website. As referências a arquivos de imagem e a outras entradas não informativas nos logs da Web precisarão
ser removidas como parte do processo de preparação de dados.
Dados de compra. Quando um cliente envia um pedido, todas as informações pertinentes a essa ordem são
salvas. As ordens no banco de dados de compra precisam ser mapeadas para as sessões correspondentes nos logs
da Web.
Banco de dados do produto. Os atributos do produto podem ser úteis ao determinar os produtos "relacionados".
As informações do produto precisam ser mapeadas para as ordens correspondentes.
Banco de dados do cliente. Este banco de dados contém informações adicionais coletadas de clientes
registrados. Os registros não estão completos de forma alguma, pois vários clientes não preenchem os
questionários. As informações do cliente precisam ser mapeadas para as compras e sessões correspondentes nos
logs da Web.
Nesse momento, a empresa não tem nenhum plano de comprar bancos de dados externos ou de gastar dinheiro
fazendo pesquisas, pois seus analistas estão ocupados gerenciando os dados que têm atualmente. Em algum
momento, entretanto, eles podem desejar considerar uma implementação estendida de resultados da mineração
de dados, caso no qual a compra de dados demográficos adicionais para clientes não registrados pode ser muito
útil. Pode ser útil ter informações demográficas para ver como a base do cliente do varejista eletrônico se difere
do comprador médio da Web.
Guia CRISP-DM 16
2.2 Descrevendo os dados
Há diversas formas de ser descrever os dados, o que inclui sua quantidade e qualidade (quantos dados
estão disponíveis e a suas características). Essas características incluem, principalmente, os tipos de
cada item de dado e os esquemas particulares de codificação.
Exemplo:
Há muitos registros e atributos a serem processados em um aplicativo de mineração na Web. Ainda que o
varejista eletrônico realizando este projeto de mineração de dados tenha limitado o estudo inicial a
aproximadamente 30.000 clientes que se registraram no site, ainda há milhões de registros nos logs da Web.
A maioria dos tipos de valores nessas fontes de dados é simbólica, sejam eles datas e horas, páginas da web
acessadas ou respostas a perguntas de múltipla escolha do questionário do registro. Algumas dessas variáveis
serão usadas para criar novas variáveis que são numéricas, como número de páginas da Web visitadas e o tempo
gasto no website. As poucas variáveis numéricas existentes nas fontes de dados incluem o número de cada
produto solicitado, a quantia gasta durante uma compra e as especificações de peso e dimensão do produto do
banco de dados do produto.
Há pouca sobreposição nos esquemas de codificação para as diversas fontes de dados, pois essas fontes de dados
contêm atributos muito diferentes. As únicas variáveis que se sobrepõem são as "chaves", como IDs de clientes e
códigos de produtos. Essas variáveis devem ter esquemas de codificação idênticos de fonte de dados a fontes de
dados, do contrário seria impossível mesclar as fontes de dados. Será necessária alguma preparação de dados
adicional para recodificar esses campos principais para mesclagem.
Guia CRISP-DM 17
2.3 Explorando os dados
Nesta fase explora-se e analisa-se os dados construindo-se tabelas, gráficos e outros recursos de
visualização com as ferramentas disponíveis. Essas análises podem apoiar a formulação de hipóteses e
o delineamento das tarefas de transformação de dados que ocorrem durante a fase de preparação dos
dados.
Exemplo:
Embora o CRISP-DM sugira realizar uma exploração inicial neste ponto, a exploração de dados é difícil, se não
impossível, em logs brutos da Web, como nosso varejista eletrônico descobriu. Normalmente, os dados do log da
Web devem ser processados primeiro na fase de preparação de dados para produzir dados que possam ser
explorados de forma significativa. Esse afastamento do CRISP-DM ressalta o fato de que o processo pode e deve
ser customizado para suas necessidades específicas de mineração de dados. O CRISP-DM é cíclico e os
mineradores de dados normalmente vão e vêm entre as fases.
Embora os logs da Web devam ser processados antes da exploração, as outras fontes de dados disponíveis para o
varejista eletrônico são mais acessíveis à exploração. Usar o banco de dados de compras para exploração revela
sumarizações interessantes sobre clientes, tais como quanto eles gastam, quantos itens eles adquirem por compra
e de onde eles vêm. As sumarizações do banco de dados de clientes mostrarão a distribuição de respostas aos
itens no questionário de registro.
A exploração também é útil para procurar erros nos dados. Embora a maior das fontes de dados seja gerada
automaticamente, as informações no banco de dados de produtos foram inseridas manualmente.
Algumas sumarizações rápidas de dimensões de produtos listados ajudarão a descobrir erros de digitação como
"monitor de 119 polegadas" (em vez de "19 polegadas").
Guia CRISP-DM 18
2.4 Verificando a qualidade dos dados
Os dados raramente são perfeitos. A maioria dos dados contém erros de codificação, valores ausentes
ou outros tipos de inconsistências que dificultam a realização da mineração de dados. Recomenda-se
uma análise completa da qualidade dos dados disponíveis antes da modelagem. Devem ser
considerados dados faltantes, erros nos dados, métricas de erros, codificações consistentes e
metadados incorretos.
Exemplo:
A verificação da qualidade dos dados é normalmente realizada no decorrer dos processos de descrição e
exploração. Alguns dos problemas encontrados pelo varejista eletrônico incluem:
• Dados omissos. Os dados omissos conhecidos incluem os questionários não respondidos por alguns dos
usuários registrados. Sem as informações adicionais fornecidas pelo questionário, pode ser necessário que esses
clientes sejam deixados de fora de alguns desses modelos subsequentes.
• Erros de dados. A maioria das fontes de dados é gerada automaticamente, portanto isso não é uma grande
preocupação. Erros tipográficos no banco de dados do produto podem ser encontrados durante o processo de
exploração.
• Erros de medição. A maior origem potencial para o erro de medição é o questionário. Se algum dos itens for
mal recomendado ou mal formulado, ele poderá não fornecer as informações que o varejista eletrônico espera
obter. Novamente, durante o processo de exploração, é importante prestar atenção especial a itens que têm uma
distribuição incomum de respostas.
Guia CRISP-DM 19
3. PREPARAÇÃO DOS DADOS
Guia CRISP-DM 20
3.1 Selecionando os dados
Com base na coleção inicial de dados obtida na fase anterior, esse é o momento de selecionar os dados
relevantes para os objetivos da mineração de dados. Isto pode ocorrer de duas formas: pela seleção de
registros (linhas) ou pela seleção de atributos (colunas).
Exemplo:
Muitas das decisões do varejista eletrônico sobre quais dados selecionar já foram tomadas em fases anteriores do
processo de mineração de dados.
Selecionar itens. O estudo inicial será limitado a (aproximadamente) 30.000 clientes que se registraram no site,
portanto os filtros precisam ser configurados para excluir compras e logs da Web de clientes não registrados.
Outros filtros devem ser estabelecidos para remover chamadas de arquivos de imagem e outras entradas não
informativas nos logs da Web.
Selecionar atributos. O banco de dados de compras conterá informações confidenciais sobre os clientes do
varejista eletrônico, portanto é importante filtrar os atributos como nome, endereço, número do telefone e cartões
de crédito do cliente.
Guia CRISP-DM 21
3.2 Limpando os dados
Esta tarefa envolve uma análise mais detalhada dos problemas nos dados escolhidos para análise,
como dados faltantes, inconsistentes ou com erros. As diversas técnicas para tratamento desses
problemas devem ser consideradas.
Exemplo:
O varejista eletrônico usa o processo de limpeza de dados para abordar os problemas anotados no relatório de
qualidade de dados.
Dados omissos. É provável que os clientes que não concluíram o questionário on-line tenham de ser deixados de
lado de alguns modelos posteriormente. Pode-se requerer novamente que esses clientes preencham o
questionário, mas isso exigirá tempo e dinheiro que o varejista eletrônico não pode se dar ao luxo de gastar. O
que o varejista eletrônico pode fazer é modelar as diferenças de compras entre os clientes que respondem e não
respondem ao questionário. Se esses dois conjuntos de clientes têm hábitos de compras semelhantes, os
questionários omissos são menos preocupantes.
Erros de dados. Os erros encontrados durante o processo de exploração podem ser corrigidos aqui. No entanto,
na maior parte dos casos, a entrada de dados apropriados é impingida no website antes de o cliente enviar uma
página para o banco de dados de backend.
Erros de medição. Os itens redigidos de forma insatisfatória no questionário podem afetar muito a qualidade
dos dados. Assim como com questionários omissos, esse é um problema difícil, pois pode não haver tempo ou
dinheiro disponível para coletar respostas para uma nova pergunta de substituição. Para os itens problemáticos, a
melhor solução pode ser voltar ao processo de seleção e filtrar esses itens de análises adicionais.
Guia CRISP-DM 22
3.3 Construindo novos dados
É comum que se necessite construir novos dados, com a criação de novos atributos (colunas) a partir
de atributos já existentes ou pela introdução de novos registros (linhas).
Exemplo:
O processamento de logs da Web pode criar diversos novos atributos. Para os eventos registrados nos logs, o
varejista eletrônico desejará criar registros de data e hora, identificar visitantes e sessões e anotar a página
acessada e o tipo de atividade que o evento representa. Algumas dessas variáveis serão usadas para criar mais
atributos, como o tempo entre os eventos em uma sessão.
Outros atributos podem ser criados como um resultado de uma mesclagem ou de outra reestruturação de dados.
Por exemplo, quando os logs da Web de evento por linha forem "reunidos" para que cada linha seja uma sessão,
serão criados novos atributos que gravam o número total de ações, o tempo total gasto e o total de compras feito
durante a sessão. Quando os logs da Web forem mesclados com o banco de dados do cliente para que cada linha
seja um cliente, serão criados novos atributos registrando o número de sessões, o número total de ações, o tempo
gasto e o valor total de compras feitas por cada cliente.
Depois de construir novos dados, o varejista eletrônico passa por um processo de exploração para se certificar de
que a criação de dados foi executada corretamente.
Guia CRISP-DM 23
3.4 Integrando os dados
É comum ter os dados necessários para a mineração de dados distribuídos em várias fontes. Os
métodos básicos para a integração de dados são: a importação de colunas de ou a importação de linhas
de diferentes bases de dados.
Exemplo:
Com diversas fontes de dados, há diversas formas diferentes nas quais o varejista eletrônico pode integrar os
dados:
• Incluindo atributos de cliente e produto nos dados do evento. Para modelar eventos de log da Web usando
atributos de outros bancos de dados, cada ID de cliente, número de produto e número de ordem de compra
associados a cada evento devem ser corretamente identificados e os atributos correspondentes devem ser
mesclados nos logs da Web processados. Observe que o arquivo mesclado replica as informações de cliente e
produto toda vez que um cliente ou produto é associado a um evento.
• Incluindo informações de compra e log da Web nos dados do cliente. Para modelar o valor de um cliente,
suas informações de compras e sessão devem ser escolhidas nos bancos de dados apropriados, totalizadas e
mescladas com o banco de dados do cliente. Isso envolve a criação de novos atributos, conforme discutido no
processo de construção de dados.
Depois de integrar os bancos de dados, o varejista eletrônico passa por um processo de exploração para se
certificar de que a mesclagem de dados foi executada corretamente.
Guia CRISP-DM 24
3.5 Formatando os dados
Como etapa final antes da construção do modelo, deve-se verificar se a ferramenta de modelagem
requer algum formato específico para os dados, como, por exemplo, o formato CSV (Comma
Separated Values).
Guia CRISP-DM 25
4. MODELAGEM
Guia CRISP-DM 26
4.1 Selecionando a(s) técnica(s) de modelagem
Mesmo que já se tenha ideia dos tipos de modelos a serem criados, neste momento algumas decisões
definitivas quanto a isto devem ser tomadas, considerando-se: os tipos de dados disponíveis na base de
dados, os objetivos da mineração e os requisitos específicos de modelagem. Normalmente, são
testadas diversas técnicas de modelagem até se encontrar a que produza os melhores resultados.
Poderá ser necessário voltar à fase anterior para se fazer ajustes nos dados já trabalhados para garantir
a qualidade do modelo a ser construído.
Exemplo:
As técnicas de modelagem empregadas pelo varejista eletrônico são conduzidas pelas metas de mineração de
dados da empresa:
• Recomendações melhoradas. Da forma mais simples, isso envolve ordens de compra de armazenamento em
cluster para determinar quais produtos são comprados juntos com maior frequência. Os dados do cliente, e até os
registros de visita, podem ser incluídos para a obtenção de melhores resultados. As técnicas de armazenamento
em cluster de rede Kohonen são apropriados para esse tipo de modelagem. Posteriormente, os clusters podem ser
modelados usando um conjunto de regras do C5.0 para determinar quais recomendações são as mais apropriadas
em qualquer ponto durante a visita de um cliente.
• Navegação de site melhorada. Por enquanto, o varejista eletrônico irá se concentrar na identificação de
páginas que são frequentemente usadas, mas que requerem diversos cliques para que os usuários as encontrem.
Isso requer aplicar um algoritmo de sequenciamento nos logs da Web a fim de gerar os "caminhos exclusivos"
que os clientes podem pegar no website e, então, procurar especificamente por sessões com muitas páginas a
serem visitadas sem (ou antes) que uma medida seja tomada. Posteriormente, em uma análise mais profunda, as
técnicas de armazenamento em cluster poderão ser usadas para identificar diferentes "tipos" de visitas e de
visitantes e o conteúdo do site poderá ser organizado e apresentado de acordo com o tipo.
Guia CRISP-DM 27
4.2 Projetando o design de teste
Nesta etapa, deverá ser detalhado como os modelos criados serão testados. Há duas questões a serem
consideradas: (i) quais são os critérios de aceitação do modelo e
(ii) que dados serão utilizados no teste do modelo. A aceitação de um modelo de classificação, por
exemplo, pode ser feita por um limite desejável de acurácia. Eventualmente, pode ser necessário a
experimentação com diferentes esquemas de teste, buscando maior qualidade do modelo.
Exemplo:
Os critérios pelos quais os modelos são avaliados dependem dos modelos sob consideração e das metas de
mineração de dados:
• Recomendações melhoradas. Até que as recomendações melhoradas estejam presentes em tempo real para os
clientes, não há nenhuma forma puramente objetiva de avaliá-los. Entretanto, o varejista eletrônico pode requerer
que as regras que geram as recomendações sejam simples o suficiente para fazer sentido a partir de uma
perspectiva do negócio. Da mesma forma, as regras devem ser suficientemente complexas para gerar
recomendações diferentes para clientes e sessões diferentes.
• Navegação de site melhorada. Dada a evidência de quais páginas os clientes acessam no website, o varejista
eletrônico pode objetivamente avaliar o design atualizado do site em termos da facilidade de acesso a páginas
importantes. Entretanto, da mesma forma que as recomendações, é difícil avaliar antecipadamente como os
clientes irão se ajustar ao site reorganizado. Se o tempo e s finanças permitirem, algum teste de usabilidade deve
estar preparado.
Guia CRISP-DM 28
4.3 Construindo o(s) modelo(s)
Nesta fase considera-se que todas as questões anteriores, com relação a uma iteração do processo,
estão resolvidas e o Cientista de Dados dispõe de todas as condições para construir o modelo desejado.
Para se chegar a este modelo, é comum que se experimente diversas alternativas de modelo para a
mesma tarefa e compare seus resultados de forma a escolher o que melhor se ajusta aos objetivos da
mineração.
As atividades desta tarefa devem ser realizadas para cada modelo em construção.
Exemplo:
Recomendações melhoradas. As clusterizações (agrupamentos) são produzidas para níveis variáveis de
integração de dados, iniciando apenas com o banco de dados de compra e, em seguida, incluindo as informações
sobre o cliente relacionado e a sessão. Para cada nível de integração, as clusterizações são produzidas sob
configurações variáveis de parâmetros para os algoritmos de rede em duas etapas e Kohonen. Para cada uma
dessas clusterizações, alguns conjuntos de regras C5.0 são gerados com diferentes configurações de parâmetros.
Navegação de site melhorada. O nó de modelagem Sequência é usado para gerar caminhos do cliente. O
algoritmo permite a especificação de um critério de suporte mínimo, o qual é útil para se concentrar nos
caminhos mais comuns do cliente. São testadas diversas configurações para os parâmetros.
Guia CRISP-DM 29
4.4 Avaliando o(s) modelo(s)
De posse dos modelos gerados, este é o momento de determinar os melhores, considerando os critérios
de sucesso da mineração definidos na fase Compreensão do Negócio.
Exemplo:
Recomendações melhoradas. Uma das redes Kohonen e uma clusterização em duas etapas oferecem resultados
razoáveis e o varejista eletrônico tem dificuldades para escolher entre elas. Com o tempo, a empresa espera usar
ambas, aceitando as recomendações de que as duas técnicas combinam e estudando detalhadamente as situações
nas quais elas diferem. Com um pouco de esforço e conhecimento aplicado de negócios, o varejista eletrônico
pode desenvolver outras regras para resolver as diferenças entre as duas técnicas.
O varejista eletrônico também descobre que os resultados que incluem as informações da sessão são
surpreendentemente bons. Há evidências que sugerem que as recomendações podem ser ligadas à navegação do
site. Um conjunto de regras, definindo para onde o cliente provavelmente irá a seguir, pode ser usado em tempo
real para afetar o conteúdo do site diretamente enquanto o cliente está navegando.
Navegação de site melhorada. O modelo Sequência fornece ao varejista eletrônico um alto nível de confiança
de que determinados caminhos do cliente podem ser previstos, produzindo resultados que sugerem um número
gerenciável de mudanças no design do site.
Guia CRISP-DM 30
5. AVALIAÇÃO
Guia CRISP-DM 31
5.1 Avaliando os resultados
Após verificar que os modelos criados estão tecnicamente corretos e são eficazes de acordo com os
critérios de sucesso da mineração de dados que você definiu anteriormente, deve-se avaliar os achados
de cada modelo de acordo com os critérios de sucesso do negócio estabelecidos no início do projeto.
Exemplo:
Os resultados gerais da primeira experiência do varejista eletrônico com a mineração de dados são bem fáceis de
serem transmitidos a partir de uma perspectiva do negócio: o estudo produziu aquilo que se espera que sejam
melhores recomendações do produto e um design de site aprimorado. O design aprimorado do site baseia-se nas
sequências de navegação do cliente, as quais mostram os recursos do site que os clientes desejam, mas que
requerem vários passos para que sejam atingidos. A evidência de que as recomendações do produto são melhores
é mais difícil de transferir, pois as regras de decisão podem se tornar complicadas. Para produzir o relatório final,
os analistas tentarão identificar algumas tendências gerais nos conjuntos de regras que podem ser explicadas
mais facilmente.
Ranqueando os modelos. Como vários dos modelos iniciais pareceram fazer sentido nos negócios, o
ranqueamento nesse grupo se baseou nos critérios estatísticos, na facilidade de interpretação e na diversidade.
Assim, o modelo forneceu diferentes recomendações para diferentes situações.
Novas perguntas. A pergunta mais importante que surgiu do estudo é: Como o varejista eletrônico pode saber
mais sobre seus clientes? As informações no banco de dados de clientes desempenham um importante papel na
formação dos clusters para recomendações. Embora regras especiais estejam disponíveis para fazer
recomendações a clientes cujas informações estejam omissas, as recomendações são mais gerais por natureza do
que aquelas feitas a clientes registrados.
Guia CRISP-DM 32
5.2 Revisando os processos
Parte da aplicação do CRISP-DM consiste em aprender com a experiência vivenciada para que futuros
projetos de mineração de dados sejam mais eficazes. É preciso sumarizar as decisões de cada uma das
fases realizadas. Assim, as atividades desta tarefa devem ser realizadas para cada uma das fases/tarefas
realizadas.
Exemplo:
Como resultado da revisão do processo do projeto de mineração de dados inicial, o varejista eletrônico
desenvolveu uma maior apreciação das inter-relações entre os passos no processo. Inicialmente relutante para
"retroceder" no processo do CRISP-DM, o varejista eletrônico agora vê que a natureza cíclica do processo
aumenta seu poder. A revisão do processo também levou o varejista eletrônico a entender que:
• Um retorno ao processo de exploração é sempre justificado quando algo incomum aparece em outra fase do
processo do CRISP-DM.
• A preparação de dados, especialmente de logs da Web, requer paciência, visto que isso pode levar muito
tempo.
• É essencial manter-se focado nos problemas de negócios em mãos, pois assim que os dados estão prontos para
análise, é muito fácil começar a construir modelos sem levar em consideração uma imagem mais ampla.
• Assim que a fase de modelagem termina, o entendimento dos negócios é ainda mais importante na decisão de
como implementar resultados e determinar quais outros estudos são justificados.
Guia CRISP-DM 33
5.3 Determinando os próximos passos
Neste momento é tomada a decisão sobre prosseguir para a implementação do modelo ou retornar para
a fase de Compreensão do Negócio para mais uma iteração do processo de mineração de dados.
Exemplo:
O varejista eletrônico está bem confiante da precisão e da relevância dos resultados do projeto e, portanto, está
prosseguindo para a fase de implementação.
Ao mesmo tempo, a equipe do projeto também está pronta para voltar e aumentar alguns dos modelos para que
incluam as técnicas preditivas. Neste ponto, eles estão aguardando pela entrega dos relatórios finais e por uma
luz verde dos tomadores de decisões.
Guia CRISP-DM 34
6. IMPLEMENTAÇÃO
Guia CRISP-DM 35
6.1 Planejando a implementação
Neste momento deverá ser elaborado o Plano de Implementação dos resultados da mineração de
dados.
Exemplo:
Uma implementação bem-sucedida dos resultados de mineração de dados do varejista eletrônico requer que as
informações corretas atinjam as pessoas certas.
Tomadores de decisão. Os tomadores de decisões precisam ser informados das recomendações e mudanças
propostas para o site e receber breves explicações de como essas mudanças ajudarão. Presumindo que eles
aceitem os resultados do estudo, as pessoas que implementarão as mudanças precisam ser notificadas.
Desenvolvedores da Web. As pessoas que mantêm o website terão de incorporar as novas recomendações e a
organização do conteúdo do site. Informe-os sobre as mudanças que poderão ocorrer devido a estudos futuros,
para que eles possam lançar as bases agora. Preparar a equipe para a rápida construção do site com base na
análise de sequência em tempo real poderá ser útil posteriormente.
Especialistas em banco de dados. As pessoas que mantêm os bancos de dados de clientes, compras e produtos
devem ser avisadas de como as informações dos bancos de dados estão sendo usadas e quais atributos podem ser
incluídos nos bancos de dados em projetos futuros.
Acima de tudo, a equipe do projeto precisa manter contato com cada um desses grupos para coordenar a
implementação de resultados e planejar os futuros projetos.
Guia CRISP-DM 36
6.2 Planejando o monitoramento e a manutenção
O trabalho de mineração de dados é contínuo, podendo levar ao reinício do ciclo de vida do CRISP-
DM. Quando a solução começa a não responde adequadamente às expectativas dos seus usuários,
torna-se necessário seu ajuste ou, em casos mais críticos, a produção de novos modelos.
Exemplo:
A tarefa imediata para o monitoramento é determinar se a organização do novo site e as recomendações
melhoradas realmente funcionam. Ou seja, os usuários podem seguir rotas mais diretas para as páginas que estão
procurando? As vendas cruzadas de itens recomendados aumentaram? Após algumas semanas de
monitoramento, o varejista eletrônico poderá determinar o sucesso do estudo.
O que pode ser manipulado automaticamente é a inclusão de novos usuários registrados. Quando os clientes se
registram no site, os conjuntos de regras atuais podem ser aplicados a suas informações para determinar quais
recomendações eles devem receber.
Decidir quando atualizar os conjuntos de regras para determinar recomendações é uma tarefa mais delicada.
Atualizar os conjuntos de regras não é um processamento automático, pois a criação do cluster requer entrada
manual referente à apropriabilidade de uma determinada solução de cluster.
Visto que projetos futuros geram modelos mais complexos, é quase certo que a necessidade e a quantidade de
monitoramento aumentarão. Quando possível, o volume do monitoramento deve ser automático com relatórios
planejados com regularidade disponíveis para revisão. Como alternativa, a criação de modelos que fornecem
predições rapidamente pode ser uma direção que a empresa gostaria de seguir. Isso requer uma maior
sofisticação da equipe do que o primeiro projeto de mineração de dados.
Guia CRISP-DM 37
6.3 Produzindo o relatório final
A elaboração de um relatório final não apenas une as pontas soltas da documentação anterior, mas
também pode ser usada para comunicar seus resultados. É importante apresentar seus resultados para
as várias pessoas com interesse nos resultados (ex: administradores técnicos responsáveis pela
implementação dos resultados da modelagem ou patrocinadores que tomarão decisões com base nos
resultados alcançados).
Exemplo:
O maior desvio do plano original do projeto também é uma oportunidade interessante para um maior trabalho de
mineração de dados. O plano original determinava a descoberta de como fazer os clientes passarem mais tempo e
visualizarem mais páginas no site por visita.
Como se vê, manter um cliente feliz não é simplesmente uma questão de mantê-lo on-line. As distribuições de
frequência do tempo gasto por sessão, divididas em a sessão ter resultado ou não em uma compra, descobriram
que os tempos de sessão para a maioria de sessões que resultam em compras recaem entre os tempos de sessão
de dois grupos de sessões sem compras.
Agora que isso é sabido, o problema é descobrir se esses clientes que passam muito tempo no site sem comprar
nada estão apenas olhando sem compromisso ou simplesmente não conseguem encontrar o que estão
procurando. A etapa seguinte é descobrir como entregar aquilo que eles estão procurando para encorajar as
compras.
Guia CRISP-DM 38
6.4 Revisando o projeto
Esta é a etapa final da metodologia CRISP-DM e oferece a oportunidade de formular suas impressões
finais e agrupar as lições aprendidas durante o processo de mineração de dados.
Exemplo:
Entrevistas com membros do projeto. O varejista eletrônico descobre que os membros do projeto mais
estreitamente associados ao estudo, do início ao fim, estão, em sua maioria, entusiasmados com os resultados e
aguardam projetos futuros. O grupo do banco de dados parece cuidadosamente otimista; embora apreciem a
utilidade do estudo, eles apontam para a carga acrescentada aos recursos do banco de dados. Um consultor estava
disponível durante o estudo, mas com o passar do tempo, será necessário outro funcionário dedicado à
manutenção do banco de dados será necessário, à medida que o escopo do projeto se expande.
Entrevistas com clientes. O feedback do cliente foi amplamente positivo até o momento. Um problema que não
foi bem considerado foi o impacto da mudança do design do site nos clientes estabelecidos. Depois de alguns
anos, os clientes registrados desenvolveram algumas expectativas sobre como o site está organizado. O feedback
de usuários registrados não é tão positivo quanto aquele de clientes não registrados e alguns realmente não
gostam das mudanças. O varejista eletrônico deve estar atento a esse problema e considerar cuidadosamente se
uma mudança trará novos clientes suficientes para se arriscar a perder os existentes.
Guia CRISP-DM 39
RESULTADO EM AÇÃO!
Após vencida a primeira iteração do projeto, o modelo entra em uso e deve ser observado quanto à sua
efetividade frente ao problema inicial, seguindo o plano de monitoramento e de manutenção definido
na fase de Implementação. A principal tarefa é aplicar o conhecimento obtido na geração de resultados
de negócio e aferir a qualidade do(s) modelo(s) ao longo do tempo.
O monitoramento pode ser visto como uma fase “oculta” do CRISP-DM, como mostrado na Figura 7.
Quando há perda de qualidade do modelo ou o modelo atual pode ser melhorado a partir de novos
dados, por exemplo, desencadeia-se um novo ciclo do processo CRISP-DM.
Guia CRISP-DM 40
Possíveis problemas ao se utilizar CRISP-DM
O CRISP-DM é um ótimo framwork para projetos de DCBD e seu uso ajuda a focá-los na entrega de
valor real aos negócios. Por ser bastante genérico, muitos projetos que usam o CRISP-DM adotam
algumas simplificações. Algumas simplificações fazem sentido, mas que podem gerar problemas,
como a mostrado na Figura 8.
Fonte: TAYLOR, J. Four Problems in Using CRISP-DM and How To Fix Them. KDNuggets, 2017.
https://www.kdnuggets.com/2017/01/four-problems-crisp-dm-fix.html
Entre os problemas que podem ocorrer ao se usar uma versão simplificada do CRISP-DM estão:
1. Falta de clareza. Em vez de se aprofundar nos detalhes e obter clareza sobre o problema de
negócios e como a Ciência de Dados pode ajudar, a equipe do projeto se contenta com as metas de
negócios e algumas métricas de sucesso. A equipe agora “entende” o objetivo do negócio, quer
minimizar a “sobrecarga” e pular para a parte “interessante” do projeto, analisando os dados. Com
muita frequência, isso resulta em modelos que não atendem a uma necessidade real do negócio.
2. Retrabalho irracional. Algumas equipes de Ciência de Dados simplesmente avaliam os resultados
de seus projetos em termos técnicos - se o modelo é preditivo, deve ser bom. A maioria percebe
que isso não é necessariamente verdade e tenta verificar seus resultados analíticos em relação ao
objetivo do negócio. Isso é difícil sem uma verdadeira clareza sobre o problema de negócio. Se a
análise que eles desenvolveram não parece atender aos objetivos de negócios, a equipe tem poucas
opções. A maioria tenta encontrar novos dados ou novas técnicas de modelagem, em vez de
trabalhar com seus parceiros de negócios para reavaliar o problema do negócio.
3. Transferência cega para a TI. Algumas equipes analíticas não pensam na implementação e
operacionalização de seus modelos. A maioria se sai melhor do que isso, reconhecendo que os
modelos que eles constroem terão que ser aplicados sobre dados reais em bancos de dados
operacionais ou incorporados a sistemas de informação. Mesmo essas equipes, normalmente, não
Guia CRISP-DM 41
se envolvem com a TI. Antes disso, não têm clareza sobre as necessidades de implementação dos
resutlados do processo de descoberta de conhecimento e não consideram implementação como um
trabalho de Ciência de Dados. O resultado final é um modelo passado para a TI sem os devidos
cuidados. Se o modelo é de fácil ou difícil (ou mesmo impossível) implementação ou se é
realmente utilizável após sua implementação, isso é um problema que não lhes concerne. Isso
aumenta o tempo e o custo da implementação de um modelo e contribui para a enorme
porcentagem de modelos que não causam impacto nos negócios, ou seja, o processo fracassou
como um todo.
4. Falha na iteração. Os profissionais de Ciência de Dados sabem que os modelos envelhecem e que
precisam ser atualizados para que possam continuar relevantes. Eles sabem que o contexto do
negócio pode mudar e diminuir o valor de um modelo. Eles sabem que os padrões de dados
utilizados para a construção do modelo podem mudar. Mas eles pensam nisso como um problema
para outro momento, ou seja, não têm clareza suficiente sobre o problema de negócio de modo a
determinar como acompanhar o desempenho do modelo e nem se preocupam em tornar a revisão
do modelo menos custosa em uma eventual nova iteração do processo. Afinal, é muito mais
interessante enfrentar outro novo problema. Isso pode levar à negligência quanto ao monitoramento
e manutenção do(s) modelo(s), prejudicando o seu valor em longo prazo.
Cada um desses problemas aumenta a probabilidade de a equipe criar uma solução analítica elegante,
mas que não agregue valor aos negócios. As organizações que desejam realmente explorar a Ciência
de Dados não podem permitir a ocorrência desses problemas.
Guia CRISP-DM 42
PROJETO DE CIÊNCIA DE DADOS
TÍTULO........... : xxxx
SUMÁRIO
1. COMPREENSÃO DO NEGÓCIO/PROBLEMA ........................................................................................................... xx
1.1 Determinando os objetivos do negócio ........................................................................................................................ xx
1.2 Avaliando a situação ....................................................................................................................................................... xx
1.3 Determinando os objetivos da mineração de dados ................................................................................................... xx
1.4 Produzindo um plano do projeto ................................................................................................................................... xx
2. COMPREENSÃO DOS DADOS ...................................................................................................................................... xx
2.1 Coletando dados iniciais................................................................................................................................................. xx
2.2 Descrevendo os dados .................................................................................................................................................... xx
2.3 Explorando os dados ....................................................................................................................................................... xx
2.4 Verificando a qualidade dos dados ............................................................................................................................... xx
3. PREPARAÇÃO DOS DADOS.......................................................................................................................................... xx
3.1 Selecionando os dados .................................................................................................................................................... xx
3.2 Limpando os dados ......................................................................................................................................................... xx
3.3 Construindo novos dados ............................................................................................................................................... xx
3.4 Integrando os dados ........................................................................................................................................................ xx
3.5 Formatando os dados ...................................................................................................................................................... xx
4. MODELAGEM.................................................................................................................................................................. xx
4.1 Selecionando a técnica de modelagem ......................................................................................................................... xx
4.2 Projetando o design de teste .......................................................................................................................................... xx
4.3 Construindo o(s) modelo(s) ........................................................................................................................................... xx
4.4 Avaliando o(s) modelo(s)............................................................................................................................................... xx
5. AVALIAÇÃO..................................................................................................................................................................... xx
5.1 Avaliando os resultados ................................................................................................................................................. xx
5.2 Revisando os processos .................................................................................................................................................. xx
5.3 Determinando os próximos passos ............................................................................................................................... xx
6. IMPLEMENTAÇÃO ......................................................................................................................................................... xx
6.1 Planejando a implementação ......................................................................................................................................... xx
6.2 Planejando o monitoramento e a manutenção ............................................................................................................. xx
6.3 Produzindo o relatório final ........................................................................................................................................... xx
6.4 Revisando o projeto ........................................................................................................................................................ xx
Guia CRISP-DM 43
1. COMPREENSÃO DO NEGÓCIO
1.1 Determinando os objetivos do negócio
Informações básicas sobre a situação atual do negócio
(i) Descrever a estrutura organizacional (organograma e projetos corporativos, com nomes e responsabilidades, identificando os
stakeholders, patrocinadores e setores afetados pelo projeto);
xxx
(ii) Descrever o problema em termos gerais, o ecossistema (processos, recursos e atores) em que ele está inserido, motivações e pré-
requisitos para o projeto, seu status na organização e experiências prévias em mineração de dados;
xxx
(iii) Descrever a solução atual, suas vantagens, desvantagens e nível de aceitação na organização.
xxx
Objetivos do negócio do ponto de vista dos tomadores de decisão
(i) Descrever o problema do negócio que se quer abordar com Mineração de Dados;
xxx
(ii) Especificar as questões associadas ao problema;
xxx
(iii) Determinar quaisquer outros requisitos de negócio; (iv) Especificar benefícios esperados em termos de negócio.
xxx
Critérios de sucesso do projeto
(i) Definir os critérios de sucesso do projeto;
xxx
(ii) Definir os critérios de sucesso da mineração de dados para cada um dos objetivos do negócio;
xxx
(iii) Definir os avaliadores das medidas de sucesso subjetivas. Se possível, anotar suas expectativas.
xxx
Guia CRISP-DM 44
xxx
Levantamento da terminologia empregada
(i) Elaborar uma lista de termos ou jargões técnicos e de negócio relevantes para o projeto;
xxx
(ii) Compartilhar a lista com a equipe do projeto.
xxx
Análise de custo-benefício
(i) Identificar os custos de obtenção dos dados (internos ou externos), de implementação dos resultados e operacionais;
xxx
(ii) Identificar os benefícios esperados com o alcance dos objetivos do projeto (ex: melhor percepção do problema e do acervo de dados da
organização).
xxx
(i) Descrever o tipo de problema de mineração de dados (ex: agrupamento, classificação etc);
xxx
(ii) Enumerar as metas da mineração de dados (ex: predições válidas por três meses);
xxx
(iii) Quantificar os resultados desejados em relação à situação atual (ex: indicadores de perda de clientes).
xxx
Critérios de sucesso da mineração de dados
(i) Definir e descrever os métodos para avaliação do(s) modelo(s) (ex: precisão, desempenho, etc);
xxx
(ii) Definir critérios objetivos (numéricos) de desempenho para avaliação do sucesso da mineração de dados);
xxx
(iii) Especificar medidas subjetivas e determinar os responsáveis pelas avaliações.
xxx
Guia CRISP-DM 45
Síntese da compreensão do negócio
xxx
Guia CRISP-DM 46
(iii) Enumerar novas características sobre os dados reveladas pela sua exploração dos dados;
xxx
(iv) Relatar que mudanças nas hipóteses iniciais foram ocasionadas pela exploração dos dados;
xxx
(v) Identificar subconjuntos particulares dos dados para uso posterior;
xxx
(vi) Verificar se o resultado da exploração dos dados justifica a alteração dos objetivos do projeto ou da mineração de dados.
xxx
Qualidade dos dados
(i) Verificar se há valores de atributo faltantes ou em branco e explicitar o que isso significa;
xxx
(ii) Verificar se existem inconsistências ortográficas que podem causar problemas em junções ou transformações nos dados);
xxx
(iii) Verificar se há desvios nos valores dos dados (outliers) e se isso é ruído ou tem algum significado;
xxx
(iv) Checar a plausibilidade dos valores dos dados e registrar eventuais conflitos;
xxx
(v) Verificar a possibilidade de excluir dados que não tenham impacto nas hipóteses;
xxx
(vi) Verificar se os dados estão corretamente separados por delimitadores e se há o mesmo número de campos em cada linha;
xxx
(vii) Verificar se a qualidade dos dados justifica a alteração dos objetivos do projeto ou da mineração dos dados.
xxx
Guia CRISP-DM 47
(ii) Detalhar que abordagens e técnicas que podem ser utilizadas para remover esses ruídos);
xxx
(iii) Efetuar a limpeza de dados;
xxx
(iv) Relatar se houve atributos com ruídos que não puderam ser recuperados.
xxx
4. MODELAGEM
4.1 Selecionando a(s) técnica(s) de modelagem
Avaliação das técnicas de modelagem
Guia CRISP-DM 48
(i) Verificar se o modelo a ser criado requer o particionamento dos dados em dados de treinamento e de teste;
xxx
(ii) Verificar se há dados suficientes para se produzir um modelo confiável);
xxx
(iii) Verificar se os dados possuem qualidade suficiente para se produzir um modelo confiável;
xxx
(iv) Verificar se os tipos de dados são apropriados para o modelo a ser construído;
xxx
(v) Adequar os dados às necessidades da técnica de mineração de dados a ser utilizada.
xxx
Síntese da modelagem
xxx
Guia CRISP-DM 49
5. AVALIAÇÃO
5.1 Avaliando os resultados
Avaliação dos resultados
(i) Verificar se os resultados apresentados estão inteligíveis;
xxx
(ii) Verificar se existem achados particularmente interessantes que mereçam ser enfatizados;
xxx
(iii) Ranquear os modelos e achados de acordo com a sua aplicabilidade aos objetivos do negócio;
xxx
(iv) Selecionar o(s) modelo(s) que serão efetivamente utilizados;
xxx
(v) Analisar até que ponto os resultados respondem aos objetivos do negócio;
xxx
(vi) Identificar questões adicionais que tenham surgido a partir dos resultados, em relação às metas do negócio.
xxx
Síntese da avaliação
xxx
6. IMPLEMENTAÇÃO
6.1 Planejando a implementação
Guia CRISP-DM 50
Plano de implementação
(i) Sumarizar os resultados (modelos e achados) para fins de integração com sistemas de informação e de compartilhamento com a equipe;
xxx
(ii) Para cada modelo selecionado, criar um plano passo-a-passo para sua implementação e integração aos processos da organização;
xxx
(iii) Para cada achado, criar um plano de disseminação junto aos tomadores de decisão concernentes;
xxx
(iv) Caso necessário, identificar alternativas de implementação do(s) modelo(s) e achados;
xxx
(v) Especificar como a utilização dos resultados implementados será monitorada, incluindo a definição de critérios para se identificar a sua
obsolescência;
xxx
(vi) Elaborar plano de contingência para possíveis problemas na implementação.
xxx
(i) Verificar para cada modelo ou achado que fatores ou influências precisam ser rastreados;
xxx
(ii) Especificar como a validade e a precisão de cada modelo podem ser medidas e monitoradas;
xxx
(iii) Definir em que condições o(s) modelo(s) será(ão) considerado(s) obsoleto(s);
xxx
(iv) Definir as medidas a serem tomadas quando da obsolescência do(s) modelo(s);
xxx
(v) Verificar se o(s) modelo(s) considerado(s) obsoleto(s) pode(m) ser usado(s) para problemas de negócios semelhantes.
xxx
Guia CRISP-DM 51
6.4 Revisando o projeto
Lições aprendidas com o projeto
(i) Detalhar suas impressões gerais sobre o projeto;
xxx
(ii) Detalhar o que foi aprendido com o projeto, tanto em relação à mineração de dados quanto em relação aos dados disponíveis;
xxx
(iii) Descrever as partes do projeto que merecem destaque dos pontos de vista positivo e negativo.
xxx
Síntese da implementação
xxx
Guia CRISP-DM 52