Escolar Documentos
Profissional Documentos
Cultura Documentos
Olá, no texto de hoje será abordado o CRISP-DM, este que é uma das
metodologias ou processo (particularmente prefiro esse termo) que pode ser
utilizado na jornada de desenvolvimento de soluções com dados.
Apesar do foco
do texto caminhar pelo CRISP-DM, existem outros processos propostos na
literatura, dois deles são o famoso KDD - Knowledge Discovery in Databases
(Descoberta de Conhecimento em Bases de Dados) proposto por Fayyad et al
(1996) e o SEMMA acrônimo de Sample, Explore, Modify, Model e Assess (Amostra,
Explorar, Modificar, Modelar e Avaliar), desenvolvido pelo Instituto SAS.
Desenvolvido em 1999 por meio dos esforços de um consórcio composto
inicialmente pela DaimlerChrysler, SPSS e NCR,
o CRISP-DM - Cross Industry
Standard Process for Data Mining (Processo Padrão Inter-Indústrias para Mineração
de Dados) surgiu como forma de apoio ao processo de descoberta do
conhecimento e para padronizar os processos de mineração de dados em
todos os setores .
Desde então, este processo é um dos mais utilizados para
projetos de mineração de dados, estatística, análise e ciência de dados.
A seguir serão detalhados as etapas como forma de deixar mais claro o que é
necessário extrair e executar em cada uma delas.
1. Compreensão do Negócio
Nesta primeira fase de compreensão do negócio, o foco é no entendimento dos
objetivos e requisitos do projeto.
Conhecer e compreender o problema a ser
resolvido é de suma importância neste processo.
Perceba que no próprio
diagrama existem retornos para esta fase a partir de outras etapas do processo,
ou seja, podem ocorrer falhas durante o processo por má compreensão do
negócio. Para fins de tentar mitigar estes riscos de má compreensão, o CRISP-DM
determina algumas atividades nesta fase, conforme é descrito a seguir:
Determine os objetivos de negócios: entender completamente de uma
perspectiva de negócios, o que o cliente realmente deseja realizar e, em
seguida, definir os critérios de sucesso do negócio.
Avalie a situação: determine a disponibilidade de recursos, os requisitos do
projeto, avalie riscos e contingências e realize uma análise de custo-
https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 2/7
17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)
benefício.
Determine as metas: Além de definir os objetivos de negócios, você também
deve definir como é o sucesso de uma perspectiva técnica.
Produza o plano do projeto: selecione tecnologias e ferramentas e defina
planos detalhados para cada fase do projeto.
https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 3/7
17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)
https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 4/7
17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)
4. Modelagem
A modelagem é o principal local onde as técnicas são aplicadas aos dados. É
importante ter alguma compreensão dos conceitos de modelagem, incluindo os
tipos de técnicas e algoritmos existentes.
É aqui que você provavelmente
construirá e avaliará vários modelos com base em várias técnicas de modelagem
diferentes. Esta fase tem quatro tarefas:
5. Avaliação
O insumo desta fase é a saída da fase anterior em forma de um ou mais modelos.
Aqui na fase avaliação, é analisado qual modelo atende melhor ao negócio e o que
fazer em seguida.
Esta fase possui três tarefas:
6. Desenvolvimento
A fase de desenvolvimento consiste da definição das fases de implantação do
projeto, levando em consideração que o modelo resultante da fase de modelagem
precisa ser factível de ser usado, ou seja,
digamos que um modelo não é
particularmente útil a menos que o cliente possa acessar seus resultados .
A complexidade desta fase varia muito. Esta fase final tem quatro tarefas:
https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 5/7
17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)
Conclusão
Como uma forma de finalização desse post, com uma conclusão, podemos
escrever alguns pontos
para que seja possível aproveitar ao máximo os benefícios
da CRISP-DM,
para suprir as fraquezas ou pontos negativos existentes.
Sendo assim, pense sempre em fazer a equipe se concentrar estritamente em
entregar lançamentos menores de todas as etapas e frequentemente solicitar
feedback ao longo do caminho,
evitando dessa forma
cair em uma armadilha em
cascata trabalhando minuciosamente em todas as etapas do projeto,
e raramente
retornar a uma etapa anterior,
e a entrega ser um “big bang” no final do projeto
porque a sua primeira entrega pode não ser muito útil, por estar nas fases iniciais
do processo.
https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 6/7
17/06/2022 14:02 Jodavid Ferreira - CRISP-DM (Processo Padrão Inter-Indústrias para Mineração de Dados)
Fontes:
Azevedo, A. e Manuel, F.S. “KDD, SEMMA and CRISP-DM: a parallel overview.” IADS-
DM (2008).
Fayyad, U. M. “Data mining and knowledge discovery: making sense out of data”.
IEEE Expert, Vol. 11 No. 5, pp. 20-25 (1996).
https://dnc.group/blog/data-science/metodologia-crisp-dm/
(https://dnc.group/blog/data-science/metodologia-crisp-dm/)
https://www.datascience-pm.com/crisp-dm-2/ (https://www.datascience-
pm.com/crisp-dm-2/)
https://blog.grancursosonline.com.br/processo-de-mineracao-de-dados-com-
crisp-dm/ (https://blog.grancursosonline.com.br/processo-de-mineracao-de-
dados-com-crisp-dm/)
TAGS:
BIG DATA (https://jodavid.github.io/tags/big-data), MACHINE LEARNING (https://jodavid.github.io/tags/machine-
learning), PROGRAMMING (https://jodavid.github.io/tags/programming), R (https://jodavid.github.io/tags/r), STATISTICS
(https://jodavid.github.io/tags/statistics)
()
https://jodavid.github.io/post/2022-06-04-crisp-dm-processo-padr-o-inter-ind-strias-para-minera-o-de-dados/ 7/7