Você está na página 1de 5

Metodologa CRISP-DM

Abstract

Durante 1996 el inters en data mining (a partir de ahora DM) iba creciendo pero se trataba
de una industria joven e inmadura lo que provocaba que los acercamientos a este tipo de
proyectos fueran dubitativos.

A finales de este ao tres lderes de la industria: DaimlerBenz, SPSS (entonces ISL) y NCR
formaron un consorcio, inventaron un acrnimo CRISP-DM (CRoss- I ndustry Standard
Process for Data Mining) y comenzaron a proponer ideas.

Actualmente existen alrededor de 200 miembros del CRISP-DM Special Interest Group (SIG),
incluidos proveedores de DM, consultores y usuarios finales. La metodologa CRISP tiene la
ventaja de que no ha sido construida de manera terica y acadmica sino que se basa en
experiencias reales de cmo la gente hace proyectos de DM.

El modelo CRISP-DM

La metodologa se describe en trminos de un proceso jerrquico, consistente en un grupo
de tareas descritas en cuatro niveles de abstraccin (de general a especfico): fase, tarea
genrica, tarea especializada e instancia de proceso (ver figura 1).



FIGURA 1 NIVELES DE LA METODOLOGA

En el nivel superior encontramos las fases, que se dividen en varios niveles de tareas
genricas. Este segundo nivel es llamado genrico porque pretende ser lo bastante general
como para cubrir todas las situaciones posibles.
En el tercer nivel, el de las tareas especializadas, describe cmo las tareas genricas del
segundo nivel han de ser tratadas en determinadas situaciones. P.e. en el segundo nivel
puede haber una tarea llamada limpieza de datos y en el tercer nivel describir cmo esta
tarea cambia en situaciones diferentes, tales como la limpieza de valores numricos frente a
la limpieza de valores categricos.
El cuarto nivel es un registro de las acciones, decisiones y resultados del proyecto
representando lo que ha sucedido en un caso particular en lugar de lo que sucede a nivel
general.

El modelo provee una representacin completa del ciclo de vida de un proyecto de DM, que
se divide en seis fases, sus tareas y relaciones entre ellas.
La secuencia de estas fases no es estricta y son frecuentes los movimientos hacia delante y
hacia atrs. stos dependen del resultado de cada fase o cul es la tarea siguiente que se ha
de ejecutar.
Estas fases ayudan a las organizaciones a entender el proceso y proveen de un mapa del
camino a seguir: conocimiento del negocio, conocimiento de los datos, preparacin de los
datos, modelado, evaluacin, despliegue.



FIGURA 2 - FASES DEL MODELO CRISP-DM

La figura 2 muestra las fases de un proceso de DM. Las flechas indican las ms importantes
y frecuentes dependencias entre las fases, mientras que el crculo exterior simboliza la
naturaleza cclica de un proyecto de estas caractersticas e ilustra que las lecciones
aprendidas durante el proceso y a partir de la fase de evaluacin pueden hacernos tener
nuevas cuestiones relativas al negocio. Los siguientes procesos se beneficiarn de las
experiencias obtenidas en los anteriores.

El plan del proyecto describe los timing para alcanzar los objetivos, un estndar de facto es
que el reparto sea:

50-70 % fase de preparacin de los datos,
20-30 % fase de conocimiento de los datos,
10-20 % en el modelado, evaluacin y conocimiento del negocio, y
5-10 % fase de despliegue.

Fase 1: Conocimiento del negocio

La fase ms importante de cualquier proyecto de data mining consiste en entender
los objetivos del proyecto desde una perspectiva de negocio para a continuacin
desarrollar un plan preliminar para alcanzar los objetivos.

Con el objetivo de entender qu datos deben ser analizados y cmo, es vital que los
diseadores del proyecto tengan un completo entendimiento del negocio para el
que estn encontrando una solucin.
La fase de conocimiento del negocio involucra pasos clave como determinar los
objetivos del negocio, comprender la situacin, determinar los objetivos del
proyecto de data mining y producir el plan del proyecto.

Fase 2: Conocimiento de los datos

Esta fase arranca con una coleccin inicial de datos. El analista procede a
familiarizarse con los datos, identificar la calidad de los mismos, descubrir ideas
iniciales en los datos o detectar subconjuntos para formar hiptesis sobre
informacin escondida.

Esta fase incluye cuatro pasos:

recoleccin inicial de los datos,
descripcin de los mismos,
exploracin y
verificacin de su calidad.

Fase 3: Preparacin de los datos

Cubre todas las actividades para construir el conjunto final de los datos que sern
utilizados en la(s) herramienta(s) de modelado. Las tareas incluyen la seleccin de
tablas, registros y atributos, as como la transformacin y limpieza de los datos
para las herramientas de modelado.

Las cinco tareas incluidas en la fase de preparacin de los datos son:

seleccin,
limpieza,
construccin e
integracin y
formateo de los datos.

Las tcnicas utilizadas para asegurar la calidad de los datos y que estn en la forma
adecuada son:

limpieza,
transformacin y
reduccin de la dimensionalidad.

Fase 4: Modelado

En esta fase, varias tcnicas de modelado son seleccionadas y aplicadas y sus
parmetros son calibrados a valores ptimos. Usualmente existen varias tcnicas
para los mismos problemas de data mining. Algunas de ellas tienen requerimientos
especficos en el formato de los datos, por lo que el paso atrs a la fase de
preparacin de los datos puede ser necesario.

Las tareas de modelado incluyen:

seleccin de la tcnica de modelado,
generacin de las pruebas,
creacin de los modelos e
interpretacin.
Fase 5: Evaluacin

Antes de proceder a la fase de despliegue final es importante evaluar el modelo y
revisar la construccin a fin de comprobar que se cumplen los objetivos del
negocio.

Aqu es crtico determinar si partes importantes del negocio han sido lo
suficientemente consideradas. Al final de esta fase, el lder del proyecto debe
decidir exactamente cmo utilizar los resultados del proceso de data mining.

Las fases son:

evaluacin de los resultados,
revisin de los procesos y
determinar los siguientes pasos a seguir.

Es en esta fase y con la ayuda del analista de los datos que gracias a la naturaleza
iterativa de un proyecto de data mining pueden surgir nuevas preguntas a
responder que hagan que el proyecto retorne a la fase de conocimiento del negocio
a fin de poder responderlas.

Fase 6: Despliegue

La creacin del modelo no es el final del proyecto. El conocimiento obtenido debe
ser organizado y presentado de manera que el usuario lo pueda utilizar.

Dependiendo de los requerimientos, esta fase puede ser tan simple como la
generacin de un informe o tan compleja como implementar un proceso de data
mining repetible a travs de la organizacin.

Es importante que el usuario entienda qu acciones deben ser llevadas a cabo para
utilizar los modelos creados.

Las tareas son:
planificar el despliegue, la monitorizacin y el mantenimiento,
generar un informe final y
revisar el proyecto a fin de identificar fracasos y xitos y potenciales reas de
mejora para el uso en futuros proyectos.



FIGURA 3 TAREAS GENRICAS Y RESULTADOS DEL MODELO

La figura 3 presenta las fases del modelo acompaadas de las tareas genricas (en negrita)
y los resultados (en cursiva).

Por qu utilizar un proceso estndar?

CRISP se dise para dar una gua a inexpertos en DM y para proveer un modelo genrico
que se puede especializar de acuerdo con las necesidades de cualquier compaa o sector
particular, lo que permitir a los analistas tener una razonable seguridad de que sus
esfuerzos sern tiles y vlidos.

Se provee una manera de reaprovechar la experiencia y ayuda a la planificacin y gestin del
proyecto.

DaimlerChrysler ha adaptado CRISP-DM para desarrollar su herramienta de CRM
especializado, SPSS y NCR han adoptado el modelo y lo han utilizado en numerosos
proyectos en diferentes industrias y con requerimientos de negocio.

No obstante el modelo no pretende ser un libro mgico de instrucciones que
instantneamente haga al ms inexperto triunfar en proyectos de DM. Sin embargo,
combinado con formacin, as como con la ayuda de consultores expertos, puede ser una
valiosa herramienta para ayudar a los analistas ms inexpertos a comprender las tareas
involucradas en un ciclo de vida de un proyecto de DM.

BIBLIOGRAFA

Peter Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinatz, Colin
Shearer, Rudiger Wirth. CRISP-DM 1.0, Step by step data mining guide, www.spss.com,
2000.

Colin Shearer. The CRISP-DM Model: The New Blueprint for Data Mining. Journal of Data
Warehousing, volume 5, number 4, fall 2000.

CRISP-DM, www.crisp-dm.org












Autor: Oscar Alonso Llombart (oalonsol@uoc.edu)

Você também pode gostar