Você está na página 1de 4

Estudio comparativo de metodologías para minería de datos

Ing. Juan Miguel Moine


Dra. Ana Silvia Haedo
Dra. Silvia Gordillo

Grupo de investigación en Minería de Datos, UTN Rosario


Facultad de Ciencias Exactas, Universidad Nacional de Buenos Aires
Facultad de Informática, Universidad Nacional de La Plata

juanmiguelmoine@gmail.com, ahaedo@dc.uba.ar, gordillo@lifia.info.unlp.edu.ar

Resumen datos” de la Universidad Tecnológica


La sistematización del proceso de minería Nacional, Facultad Regional Rosario.
de datos es un punto importante para la
planificación y ejecución de este tipo de Introducción
proyecto. Algunas organizaciones La minería de datos es una disciplina que
implementan el proceso KDD, mientras que ha crecido enormemente en los últimos
otras aplican un estándar más específico años. Las organizaciones han comprendido
como CRISP-DM. Si la organización ha que los grandes volúmenes de datos que
adquirido productos de la empresa SAS, residen en sus sistemas pueden ser
tiene a su disposición una metodología analizados y explotados para obtener nuevo
especialmente desarrollada para los conocimiento a partir de los mismos.
mismos, la metodología SEMMA. Por otro
Minería de Datos o Explotación de
lado, la metodología Catalyst (conocida
Información, es el proceso de extraer
como P3TQ) está ganando cada vez mayor
conocimiento útil, comprensible y
popularidad debido a su completitud y
novedoso de grandes volúmenes de datos,
flexibilidad para adaptarse en distintos
siendo su principal objetivo encontrar
escenarios.
información oculta o implícita, que no es
En este trabajo de investigación se realizará posible obtener mediante métodos
un estudio comparativo entre las distintas estadísticos convencionales. La entrada al
metodologías vigentes para proyectos de proceso de minería está formada
minería de datos, evaluando las ventajas y generalmente por registros provenientes de
desventajas de las mismas en un escenario bases de datos operacionales o bien
donde el proyecto tiene como objetivo bodegas de datos (Datawarehouse).
colaborar a la solución de un problema Los proyectos de explotación de
organizacional. información pueden ser llevados a cabo en
Palabras clave: Minería de datos, gestión de distintos escenarios. Según el punto de
proyectos, Knowledge Discovery in Databases, partida del proceso, es posible clasificarlos
explotación de información, CRISP-DM, en:
SEMMA, Catalyst, P3TQ, metodologías en
minería de datos. • Escenarios donde se aborda desde la
minería de datos una situación
organizacional (un problema o una
Contexto oportunidad), buscando patrones y
Este trabajo se desarrolla en el marco del relaciones que puedan colaborar con la
Proyecto de Investigación y Desarrollo misma. Este escenario es el más frecuente
“Análisis comparativo de metodologías en el ámbito de las empresas y
para la gestión de proyectos en minería de organizaciones.

1
• Escenarios donde el proyecto comienza estableció las etapas principales de un
con un conjunto de datos y el objetivo es proyecto de explotación de información.
explorarlos para encontrar relaciones Formalmente el modelo establece que la
interesantes que puedan ser útiles en el minería de datos es la etapa dentro del
dominio de aplicación. En estos casos, proceso en la cual se realiza la extracción
algunos autores como Pyle[1], no de patrones a partir de los datos. Sin
recomiendan trabajar directamente con embargo actualmente, en la comunidad
los datos sin establecer de antemano la científica y en la literatura, el término KDD
problemática que se aborda, el personal y minería de datos se utilizan
involucrado y las expectativas y indistintamente para hacer referencia al
necesidades de los usuarios. Este punto proceso completo de descubrimiento de
resulta de gran importancia para justificar conocimiento.
la realización del proyecto, ya que A partir del año 2000, con el gran
ninguna organización adquirirá una crecimiento que surgió en el área de la
herramienta si no sabe la función que minería de datos, surgen tres nuevos
cumplirá. modelos que plantean un enfoque
Los esfuerzos en el área de la minería de sistemático para llevar a cabo el proceso [3]:
datos se han centrado en su gran mayoría en SEMMA, Catalyst (conocida como P3TQ)
la investigación de técnicas para la y CRISP-DM. Como se puede observar en
explotación de información y extracción de la Figura 1, CRISP-DM se ha convertido en
patrones (tales como árboles de decisión, la metodología más utilizada, según un
análisis de conglomerados y reglas de estudio publicado en el año 2007 por la
asociación). Sin embargo, se ha comunidad KDnuggets (Data Mining
profundizado en menor medida el hecho de Community's Top Resource).
cómo ejecutar este proceso hasta obtener el
“nuevo conocimiento”, es decir, en las ¿Qué metodología utiliza para minería de datos?
KDnuggets, año 2007
metodologías. Las metodologías permiten
CRISP-DM 42%
llevar a cabo el proceso de minería de datos
en forma sistemática y no trivial. Ayudan a Propia 19%

las organizaciones a entender el proceso de SEMMA 13%

descubrimiento de conocimiento y proveen


Proceso KDD 7%
una guía para la planificación y ejecución
de los proyectos. De la organización 5%

Específica del
5%
Algunos modelos conocidos como dominio

metodologías son en realidad un modelo de Otra 4%

proceso: un conjunto de actividades y tareas No utiliza 5%

organizadas para llevar a cabo un trabajo. 0% 10% 20% 30% 40% 50%
La diferencia fundamental entre
Fig. 1. Encuesta realizada por la KDnuggets en el año 2007
metodología y modelo de proceso radica en
que el modelo de proceso establece qué Algunos modelos profundizan en mayor
hacer, y la metodología especifica cómo detalle sobre las tareas y actividades a
hacerlo. Una metodología no solo define las ejecutar en cada etapa del proceso de
fases de un proceso sino también las tareas minería de datos (como CRISP-DM),
que deberían realizarse y cómo llevar a mientras que otros proveen sólo una guía
cabo las mismas. general del trabajo a realizar en cada fase
(como el proceso KDD o SEMMA).
En los inicios del año 1996, el modelo
KDD (Knowledge Discovery in SEMMA, creada por el SAS Institute, se
Databases)[2] constituyó el primer modelo define como “el proceso de selección,
aceptado en la comunidad científica que exploración y modelado de grandes

2
volúmenes de datos para descubrir patrones construcción y ejecución de modelos de
de negocio desconocidos” [4]. El nombre de minería de datos a partir del Modelo de
esta terminología es el acrónimo Negocio (MII).
correspondiente a las cinco fases básicas El foco que la metodología Catalyst
del proceso: Sample (Muestreo), Explore propone en su Modelo de Negocio sobre la
(Exploración), Modify (Modificación), cadena de valor organizacional, hizo que
Model (Modelado), Assess (Valoración). sea difundida en la comunidad científica
La metodología SEMMA se encuentra como metodología “P3TQ”, aunque ésta no
enfocada especialmente en aspectos sea su denominación original.
técnicos, excluyendo actividades de análisis
La metodología Catalyst, en sus dos
y comprensión del problema que se está modelos, está compuesta por una serie de
abordando. Fue propuesta especialmente pasos llamados “boxes”. El concepto es que
para trabajar con el software de minería de luego de llevar a cabo una acción, se deben
datos de la compañía SAS. Este producto evaluar los resultados y determinar cuál es
organiza sus herramientas (llamadas el próximo paso (box) a seguir. La
“nodos”) en base a las distintas fases que secuencia y la interacción entre los distintos
componen la metodología. Es decir, el pasos permiten una flexibilidad muy
software proporciona un conjunto de grande, y una amplia variedad de caminos
herramientas especiales para la etapa de posibles.
muestreo, otras para la etapa de
exploración, y así sucesivamente. Sin CRISP–DM, creada por el grupo de
embargo, el usuario podría hacer uso del empresas SPSS, NCR y Daimer Chrysler en
mismo siguiendo cualquier otra el año 2000, es actualmente la guía de
metodología de minería de datos (como referencia más utilizada en el desarrollo
CRISP-DM por ejemplo). de proyectos de Data Mining. Estructura el
La metodología Catalyst [1], conocida como proceso en seis fases: Comprensión del
P3TQ (Product, Place, Price, Time, negocio, Comprensión de los datos,
Quantity), fue propuesta por Dorian Pyle en Preparación de los datos, Modelado,
el año 2003. Esta metodología plantea la Evaluación e Implantación [5]. La sucesión
formulación de dos modelos: el Modelo de de fases, no es necesariamente rígida. Cada
Negocio y el Modelo de Explotación de fase es descompuesta en varias tareas
Información. generales de segundo nivel. Las tareas
generales se proyectan a tareas específicas,
El Modelo de Negocio (MII), proporciona
pero en ningún momento se propone como
una guía de pasos para identificar un
realizarlas. Es decir, CRISP-DM establece
problema de negocio (o la oportunidad del
un conjunto de tareas y actividades para
mismo) y los requerimientos reales de la
organización. Contempla diferentes ámbitos cada fase del proyecto pero no especifica
para el proyecto de minería de datos, cómo llevarlas a cabo.
explicitando acciones específicas según el
escenario desde el cual se parte. Para Líneas de investigación/desarrollo
proyectos donde el problema u oportunidad En el marco de este proyecto se investigará:
de negocio no está definido, se recomienda
• Las distintas metodologías y modelos de
comenzar analizando las relaciones P3TQ
proceso vigentes para proyectos de
que existen en la cadena de valor
minería de datos.
organizacional, es decir, aquellas relaciones
precio/lugar/producto/tiempo/cantidad que • Las similitudes y diferencias entre cada
son importantes para la empresa. modelo. Se tendrán en cuenta no sólo las
etapas que los componen, sino también
El Modelo de Explotación de Información
aspectos clave para la gestión de
(MIII), proporciona una guía pasos para la

3
proyectos, como gestión del tiempo, Maestría en Ingeniería de Software en la
gestión del riesgo y costos. Universidad Nacional de La Plata, por
medio del Programa de Becas de Posgrado
• Ventajas y desventajas de cada
de la Universidad Tecnológica Nacional.
metodología en un escenario de
aplicación. El caso particular que se
estudiará será aquel donde se comienza Referencias
con un problema de negocio a partir del 1. Pyle, Dorian (2003). “Business Modeling and
cual el proyecto de minería de datos tiene Data Mining”. Morgan Kaufmann Publishers.
el objetivo de encontrar patrones y 2. Fayyad, Usama (1996). “Advances in
relaciones que aporten nuevo Knowledge Discovery and Data Mining”. MIT
conocimiento para la solución del mismo. Press.
3. Britos Paola (2008). “Procesos de explotación
Resultados y Objetivos de información basados en sistemas
inteligentes”. Universidad Nacional de La Plata,
En la actualidad, son escasos y poco Argentina.
difundidos los estudios que comparan los 4. SAS Institute. “Data Mining and the Case for
modelos mencionados, enfocados en Sampling”
aspectos principalmente descriptivos (www.sasenterpriseminer.com/documents
(comparación de las fases que los /SAS-SEMMA.pdf). Último acceso Julio 2010.
componen) y no en un estudio 5. Chapman, P., Clinton, J., Keber y otros (2000).
comprensivo-comparativo, que contemple “CRISP-DM 1.0 Step by step guide”. SPSS
(www.crisp-dm.org/CRISPWP-0800.pdf).
aspectos tales como:
Último acceso Julio 2010.
• Grado en el que se incorporan actividades 6. Fayyad, Usama y otros, (1996). “The KDD
para la gestión del proyecto (como process for extracting useful knowledge from
gestión del riesgo, de costos, de Recursos volumes of data”. ACM vol. 39 (11).
Humanos). 7. Azevedo Ana (2008). "KDD, SEMMA AND
CRISP-DM: a parallel overview". AIDIS 2008.
• Nivel de detalle de las tareas que
componen cada fase, abriendo una 8. Pollo-Cattaneo F. y otros (2010). “Ingeniería de
Proyectos de explotación de información”.
discusión sobre qué modelos pueden ser WICC 2010. ISBN 978-950-34-0652-6
realmente considerados una metodología.
9. Mariscal Gonzalo y otros (2010). “A survey of
• Viabilidad de cada modelo para la data mining and knowledge discovery process
aplicación en diferentes escenarios (ya models and methodologies”. The Knowledge
sea partiendo de un conjunto de datos o Engineering Review, Vol. 25:2, 137–166.
abordando una situación o problema
organizacional).
Como objetivo de este trabajo se pretende
la construcción de un marco comparativo
que permita confrontar los distintos
modelos, y evaluar la adecuación de los
mismos en escenarios donde el proyecto de
minería de datos tiene por objetivo
colaborar en la solución de un problema
organizacional.

Formación de los Recursos Humanos


En el marco de este proyecto de
investigación se está realizando una tesis de