Você está na página 1de 7

17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)

CRISP-DM (Processo Padrão Inter-


Indústrias para Mineração de Dados)
PUBLISHED ON 4 DE JUN DE 2022 —
BIG DATA (https://jodavid.github.io/categories/big-data), MACHINE LEARNING
(https://jodavid.github.io/categories/machine-learning), PROGRAMMING
(https://jodavid.github.io/categories/programming), R (https://jodavid.github.io/categories/r), STATISTICS
(https://jodavid.github.io/categories/statistics)

Olá, no texto de hoje será abordado o CRISP-DM, este que é uma das
metodologias ou processo (particularmente prefiro esse termo) que pode ser
utilizado na jornada de desenvolvimento de soluções com dados.
Apesar do foco
do texto caminhar pelo CRISP-DM, existem outros processos propostos na
literatura, dois deles são o famoso KDD - Knowledge Discovery in Databases
(Descoberta de Conhecimento em Bases de Dados) proposto por Fayyad et al
(1996) e o SEMMA acrônimo de Sample, Explore, Modify, Model e Assess (Amostra,
Explorar, Modificar, Modelar e Avaliar), desenvolvido pelo Instituto SAS.
Desenvolvido em 1999 por meio dos esforços de um consórcio composto
inicialmente pela DaimlerChrysler, SPSS e NCR,
o CRISP-DM - Cross Industry
Standard Process for Data Mining (Processo Padrão Inter-Indústrias para Mineração
de Dados) surgiu como forma de apoio ao processo de descoberta do
conhecimento e para padronizar os processos de mineração de dados em
todos os setores .
Desde então, este processo é um dos mais utilizados para
projetos de mineração de dados, estatística, análise e ciência de dados.

Os times de ciência de dados que combinam uma implementação flexível do


CRISP-DM com abordagens abrangentes de gerenciamento de projetos ágeis
baseadas em equipe, provavelmente obterão melhores resultados.

O CRISP-DM é formado por 6 fases, que podemos descrever como:


1. Compreensão do Negócio: O que o negócio precisa?
2. Compreensão dos Dados: Que dados temos/precisamos? Está ‘limpo’,
tratado, prontos para uso?
3. Preparação dos Dados: Como organizamos os dados para modelagem?
4. Modelagem: Quais técnicas de modelagem devemos aplicar?
5. Avaliação: Qual modelo melhor atende aos objetivos do negócio?
https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 1/7
17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)

6. Desenvolvimento:Como as partes interessadas acessam os resultados?


Abaixo é mostrado uma figura que representa o processo CRISP-DM e como as
fases se interrelacionam:

Etapas do CRISP-DM.Fonte: próprio autor.

A seguir serão detalhados as etapas como forma de deixar mais claro o que é
necessário extrair e executar em cada uma delas.

1. Compreensão do Negócio
Nesta primeira fase de compreensão do negócio, o foco é no entendimento dos
objetivos e requisitos do projeto.
Conhecer e compreender o problema a ser
resolvido é de suma importância neste processo.
Perceba que no próprio
diagrama existem retornos para esta fase a partir de outras etapas do processo,
ou seja, podem ocorrer falhas durante o processo por má compreensão do
negócio. Para fins de tentar mitigar estes riscos de má compreensão, o CRISP-DM
determina algumas atividades nesta fase, conforme é descrito a seguir:
Determine os objetivos de negócios: entender completamente de uma
perspectiva de negócios, o que o cliente realmente deseja realizar e, em
seguida, definir os critérios de sucesso do negócio.
Avalie a situação: determine a disponibilidade de recursos, os requisitos do
projeto, avalie riscos e contingências e realize uma análise de custo-
https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 2/7
17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)

benefício.
Determine as metas: Além de definir os objetivos de negócios, você também
deve definir como é o sucesso de uma perspectiva técnica.
Produza o plano do projeto: selecione tecnologias e ferramentas e defina
planos detalhados para cada fase do projeto.

Outros pontos interessantes que podem deixar o entendimento mais completo


são:

Identificar os especialistas na organização: Os especialistas da área de


negócio (domínio), o pessoal da TI, bem como os responsáveis pela tomada
de decisão precisam conhecer o processo. É comum nesta etapa, realizar
treinamentos para fins de nivelamento de conhecimento do pessoal em torno
do processo e onde o CRISP-DM estará atuando.
Levantar e esboçar as necessidades e expectativas: As pessoas que
estarão envolvidas no processo, precisam expor suas necessidades,
principalmente aqueles que irão lidar com os dados e informações obtidos
para posterior análise e tomada de decisão. É comum serem feitas rodadas
de reuniões com estas pessoas para fins de elencar os objetivos e
necessidades.
Levantamento dos hardwares e softwares: A organização não é feita apenas
de pessoas, mas também de ferramentas e neste sentido se faz necessário
conhecer o que existe disponível ou não. O CRISP-DM orienta que o processo
seja realizado em plataforma que possua arquitetura expansível, com
capacidade de suportar grandes volumes de dados, com grandes chances
destes dados serem heterogêneos e que possa ter capacidade de
processamento compatível com o volume de dados.
Fazer inventário das bases de dados existentes: É importante conhecer o
que a organização possui de bases de dados internas e do acesso e uso de
bases de dados externas. Neste momento, se faz necessário também
observar potenciais bases de dados externas que guardem relação com o
negócio da organização e por isso podem fazer parte do processo.
Verificar a existência de DW (Data Warehouses) na organização: Caso a
organização possua dados armazenados em bases multidimensionais, como
os Data Lake, Data Warehouses, Data Marts, é possível que ela já tenha
estabelecido um processo ETL e neste caso haverá um ganho de esforço no
restante do processo.

2. Compreensão dos Dados

https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 3/7
17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)

Esta fase geralmente é executada juntamente com a fase anterior (Compreensão


do Negócio), em que o estudo sobre as informações coletadas se faz necessário e
deve ser feita de forma detalhista.
Aqui neste caso, o foco é direcionado para
identificar, coletar e analisar os conjuntos de dados que podem ajudá-lo a atingir
as metas do projeto. Podemos definir essa fase através de algumas tarefas:

Solicite dados iniciais: adquira os dados necessários e (se necessário)


carregue-os em sua ferramenta de análise.
Descreva os dados: examine os dados e documente suas propriedades de
superfície, como formato de dados, número de registros ou identidades de
campo.
Explorar dados: aprofunde-se nos dados. Consulte-o, visualize-o e identifique
relacionamentos entre os dados.
Verificar a qualidade dos dados: o quão “limpos/sujos”, “tratados/não
tratados” estão os dados? Documente quaisquer problemas de qualidade.
Verificar se a volumetria dos dados atende ao negócio: refere-se a
quantidade de dados que será utilizada, pois amostras pequenas de dados
podem não ser úteis para o processo, portanto é importante que seja feito
um acordo para o fornecimento de volume de dados adequado.

3. Preparação dos Dados


Esta fase, prepara o(s) conjunto(s) de dados final(is) para modelagem.
As diversas
ferramentas analíticas que podem ser usadas nesta fase, apesar de oferecerem
muitos recursos, impõem alguns requisitos sobre os dados quanto ao seu
formato, gerando a necessidade de formatações e/ou transformações dos
mesmos.
Nesta estapa é possível dividir em cinco tarefas distintas:
Selecionar dados: determine quais conjuntos de dados serão usados e
documente os motivos da inclusão/exclusão.
Limpeza dos Dados: muitas vezes esta é a tarefa mais demorada. Sem ele,
você provavelmente será vítima do "lixo que entra e sai do lixo" . Uma
prática comum durante esta tarefa é corrigir, imputar ou remover valores
incorretos.
Construir dados: Derive novos atributos que serão úteis. Por exemplo, derivar
o índice de massa corporal de alguém dos campos de altura e peso.
Integrar dados: crie novos conjuntos de dados combinando dados de várias
fontes.
Formatar dados: Reformate os dados conforme necessário. Por exemplo,
você pode converter valores de string que armazenam números em valores
numéricos para poder realizar operações matemáticas.

https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 4/7
17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)

4. Modelagem
A modelagem é o principal local onde as técnicas são aplicadas aos dados. É
importante ter alguma compreensão dos conceitos de modelagem, incluindo os
tipos de técnicas e algoritmos existentes.
É aqui que você provavelmente
construirá e avaliará vários modelos com base em várias técnicas de modelagem
diferentes. Esta fase tem quatro tarefas:

Selecione técnicas de modelagem: Determine quais algoritmos se adequam


a problemática, por exemplo: regressão, rede neural, etc.
Gerar design de teste: enquanto aguarda sua abordagem de modelagem,
pode ser necessário dividir os dados em conjuntos de treinamento, teste e
validação.
Modelo de construção: Aqui é etapa da execução da modelagem dos
algoritmos utilizando a tecnologia selecionada.
Modelo de avaliação: Geralmente, vários modelos estão competindo entre si,
e o cientista de dados precisa interpretar os resultados do modelo com base
no conhecimento do domínio, nos critérios de sucesso predefinidos e
no design do teste .

5. Avaliação
O insumo desta fase é a saída da fase anterior em forma de um ou mais modelos.
Aqui na fase avaliação, é analisado qual modelo atende melhor ao negócio e o que
fazer em seguida.
Esta fase possui três tarefas:

Avalie os resultados: os modelos atendem aos critérios de sucesso do


negócio? Qual(is) devemos aprovar para o negócio?
Processo de revisão: revise o trabalho realizado. Alguma coisa foi
esquecida? Todas as etapas foram executadas corretamente? Resuma as
descobertas e corrija qualquer coisa, se necessário.
Determine as próximas etapas: Com base nas três tarefas anteriores,
determine se deve continuar com a implantação, iterar mais ou iniciar novos
projetos.

6. Desenvolvimento
A fase de desenvolvimento consiste da definição das fases de implantação do
projeto, levando em consideração que o modelo resultante da fase de modelagem
precisa ser factível de ser usado, ou seja,
digamos que um modelo não é
particularmente útil a menos que o cliente possa acessar seus resultados .
A complexidade desta fase varia muito. Esta fase final tem quatro tarefas:
https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 5/7
17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)

Planejar a implantação: desenvolva e documente um plano para implantar o


modelo.
Plano de monitoramento e manutenção: desenvolva um plano completo de
monitoramento e manutenção para evitar problemas durante a fase
operacional (ou fase pós-projeto) de um modelo.
Produzir relatório final: a equipe do projeto documenta um resumo do
projeto que pode incluir uma apresentação final dos resultados das etapas
realizadas.
Revisão do projeto: conduza uma retrospectiva do projeto sobre o que deu
certo, o que poderia ter sido melhor e como melhorar no futuro.

Conclusão
Como uma forma de finalização desse post, com uma conclusão, podemos
escrever alguns pontos
para que seja possível aproveitar ao máximo os benefícios
da CRISP-DM,
para suprir as fraquezas ou pontos negativos existentes.
Sendo assim, pense sempre em fazer a equipe se concentrar estritamente em
entregar lançamentos menores de todas as etapas e frequentemente solicitar
feedback ao longo do caminho,
evitando dessa forma
cair em uma armadilha em
cascata trabalhando minuciosamente em todas as etapas do projeto,
e raramente
retornar a uma etapa anterior,
e a entrega ser um “big bang” no final do projeto
porque a sua primeira entrega pode não ser muito útil, por estar nas fases iniciais
do processo.

As etapas do processo exigem muita documentação, assim o gasto de tempo


fazendo documentações poderá ser maior do que fazendo qualquer outra coisa,
entretanto, procure sempre documentar o que for suficiente… mas não precisa
exagerar.
Não se esqueça também das tecnologias atuais: adicione etapas para
aproveitar arquiteturas de nuvem e práticas de software modernos, como controle
de versão git e pipelines de CI/CD ao seu plano de projeto, quando apropriado.
O CRISP-DM carece de estratégias de comunicação com as partes interessadas.
Portanto, certifique-se de definir expectativas e se comunicar com eles com
frequência.
E por fim, combine com uma abordagem de gerenciamento de projetos. Como
uma declaração mais generalizada do item anterior, o CRISP-DM não é realmente
uma abordagem de gerenciamento de projetos. Assim, combine-o com uma
estrutura de coordenação de ciência de dados. As abordagens ágeis populares
incluem: Kanban, Scrum e Scrum Orientado a Dados.

https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 6/7
17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)

Fontes:

Azevedo, A. e Manuel, F.S. “KDD, SEMMA and CRISP-DM: a parallel overview.” IADS-
DM (2008).

Fayyad, U. M. “Data mining and knowledge discovery: making sense out of data”.
IEEE Expert, Vol. 11 No. 5, pp. 20-25 (1996).
https://dnc.group/blog/data-science/metodologia-crisp-dm/
(https://dnc.group/blog/data-science/metodologia-crisp-dm/)
https://www.datascience-pm.com/crisp-dm-2/ (https://www.datascience-
pm.com/crisp-dm-2/)
https://blog.grancursosonline.com.br/processo-de-mineracao-de-dados-com-
crisp-dm/ (https://blog.grancursosonline.com.br/processo-de-mineracao-de-
dados-com-crisp-dm/)

Texto baseado nas fontes citadas.

“Post gerado com framework HUGO (http://gohugo.io/ (http://gohugo.io/)), R


Markdown (http://rmarkdown.rstudio.com/ (http://rmarkdown.rstudio.com/)), no
qual os resultados são gerados na geração da página.”

TAGS:
BIG DATA (https://jodavid.github.io/tags/big-data), MACHINE LEARNING (https://jodavid.github.io/tags/machine-
learning), PROGRAMMING (https://jodavid.github.io/tags/programming), R (https://jodavid.github.io/tags/r), STATISTICS
(https://jodavid.github.io/tags/statistics)

< prev | (https://jodavid.github.io/post/2022-05-22-utiliza-o-de-mem-ria-entre-


vari-veis-tipo-inteiro-integer-ou-num-rico-double/) post
(https://jodavid.github.io/post)
home (https://jodavid.github.io)

© 2022. Jodavid Ferreira. Todos os direitos reservados (http://creativecommons.org/licenses/by/3.0/).

Powered by Hugo v0.68.3 (https://gohugo.io/) & Goa (https://github.com/shenoybr/hugo-goa).

 ()

https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 7/7

Você também pode gostar