Escolar Documentos
Profissional Documentos
Cultura Documentos
estndares
Jordi Girons Roig
PID_00197285
CC-BY-NC-ND PID_00197285 Metodologas y estndares
Los textos e imgenes publicados en esta obra estn sujetos excepto que se indique lo contrario a una licencia de
Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 Espaa de Creative Commons. Podis copiarlos, distribuirlos
y transmitirlos pblicamente siempre que citis el autor y la fuente (FUOC. Fundacin para la Universitat Oberta de Catalunya),
no hagis de ellos un uso comercial y ni obra derivada. La licencia completa se puede consultar en http://creativecommons.org/
licenses/by-nc-nd/3.0/es/legalcode.es
CC-BY-NC-ND PID_00197285 Metodologas y estndares
ndice
Introduccin............................................................................................... 5
1. Metodologas y estndares............................................................... 7
1.1. Metodologa CRISP-DM .............................................................. 7
1.1.1. Comprensin del negocio ............................................. 9
1.1.2. Comprensin de los datos ............................................. 14
1.1.3. Preparar los datos .......................................................... 17
1.1.4. Modelado ....................................................................... 19
1.1.5. Evaluacin del modelo .................................................. 23
1.1.6. Despliegue ...................................................................... 25
1.1.7. Objeciones a la metodologa ......................................... 27
1.2. Modelo DELTA para la mejora continua de BA .......................... 28
1.2.1. No consideran el anlisis ............................................... 28
1.2.2. Actividad analtica aislada ............................................. 30
1.2.3. Aspirante analtico ......................................................... 31
1.2.4. Organizacin analtica ................................................... 32
1.2.5. Competidor analtico ..................................................... 33
1.3. Estndar PMML ........................................................................... 34
1.4. Gobierno de servicios IT ............................................................. 35
1.4.1. Definiciones ................................................................... 35
1.4.2. Procesos .......................................................................... 36
3. Anexo..................................................................................................... 47
3.1. Esquema PMML ........................................................................... 47
Resumen....................................................................................................... 53
Bibliografa................................................................................................. 55
CC-BY-NC-ND PID_00197285 5 Metodologas y estndares
Introduccin
1. Metodologas y estndares
Lo recomendable en estos casos es disear una hoja de ruta que nos va a per-
mitir saber dnde estamos, dnde queremos llegar y las medidas a tomar para
corregir peridicamente las desviaciones del rumbo seguido.
Factores delta, factores clave para cultivar la visin analtica en las orga-
nizaciones.
CRISP-DM (cross industry standard process for data mining) naci en el seno de
dos empresas, DaimlerChrysler y SPSS, que en su da fueron pioneras en la
aplicacin de tcnicas data mining en los procesos de negocio. CRISP-DM es
una metodologa basada en la prctica y experiencia real de analistas DM que
han contribuido activamente al desarrollo de la misma.
Calidadtotal
Todas las fases son importantes, por supuesto, pero quisiera remarcar que la
tendencia natural de la condicin humana, por experiencia propia, es la de
concentrar recursos en exceso al final del proyecto, en la fase despliegue, por
no haber hecho las cosas bien en las fases anteriores.
Vamos a estudiar con detalle todas las fases que nos propone la metodologa
CRISP-DM. Observad que en el centro del esquema que la resume se encuentra
el objetivo de la misma, es decir, la conversin de los datos en conocimiento.
Stakeholder
Adecuacindelametodologaalproyecto
Merece la pena mencionar que la metodologa debe ser entendida siempre co-
mo una gua de trabajo que permite garantizar una calidad en la entrega del
proyecto. Para conseguir que efectivamente sea una gua de trabajo til y prc-
tica, deberemos adaptarla a las necesidades de nuestro proyecto en concreto.
Enmarcarelentornodelentorno
Identificarlosobjetivosdelnegocio
Listar las preguntas de negocio a las que se pretende dar respuesta con el
proyecto.
Criteriosparamedirelxito
Cada objetivo de negocio debe poder ser asociado al menos a un criterio me-
dible de xito y a ser posible, habr de establecer quin ejecutar estas medi-
ciones.
Inventarioderecursos
Requerimientos,supuestosylimitaciones
Riesgosycontingencias
Deberemos identificar los riesgos del proyecto, que pueden venir por proble-
mas en el negocio, en la propia organizacin interna, en los recursos econ-
micos, en los aspectos tecnolgicos o en la baja calidad de las fuentes de datos.
Considerar tambin circunstancias que podran impactar en el proyecto, as
como su coste en tiempo y en dinero.
Anlisiscoste-beneficio
CC-BY-NC-ND PID_00197285 13 Metodologas y estndares
Identificarlosobjetivosdatamining
Criteriosparamedirelxito
Plan de proyecto
Merece la pena mencionar que el plan de proyecto debe concebirse como una
herramienta dinmica y susceptible de ser revisada, actualizada y modificada
siempre que sea necesario y que debera ser consultado si no al inicio y finali-
zacin de cada tarea, s al menos en los hitos.
Detallarelplandeproyecto
Listaremos las fases identificadas junto con su respectivo detalle de tareas, du-
racin, recursos necesarios, entradas y salidas de informacin, y dependencias.
Importante tambin marcar los riesgos identificados y especificar el impacto
en tiempo que podran acarrear al proyecto.
Evaluacininicialdeherramientasytcnicas
CC-BY-NC-ND PID_00197285 14 Metodologas y estndares
Se trata de una fase crtica puesto que es donde trabajamos de lleno con la
calidad de los datos, que por otro lado debemos ver como la materia prima
para el data mining.
Tener una buena calidad de los datos ser siempre una condicin necesaria
aunque no suficiente para tener xito en el proyecto.
Captura de datos
Informederequerimientosycriterios
Se deber tener prevista la gestin de los valores ausentes missing values o in-
cluso la gestin de datos no en formato electrnico, en papel u otros.
Informedeatributosyvolmenes
Por un lado documentaremos tanto el formato de los datos que nos llegan
como su nivel de calidad, inventariaremos las tablas con las que trabajaremos,
sus relaciones y volumetra.
Identificacindehiptesis,propiedadesyobjetivos
En esta fase se desarrollarn la mayor parte de las actividades data quality ma-
nagement, que se tratarn ms extensamente en un captulo propio.
Identificacindeproblemasysoluciones
Estudiar el grado de cobertura de los datos estn todos los casos posibles
representados? o si por el contrario, lo que tenemos en realidad es una
visin sesgada del universo que queremos estudiar.
Estudiar las desviaciones por si se trata de ruido, valores outliers, por ejem-
plo, o si por el contrario se trata de patrones que merecen ms estudio.
Contrastar los supuestos hechos con anterioridad para verificar si una vez
revisados los datos, siguen teniendo sentido o hay que replantearlos.
CC-BY-NC-ND PID_00197285 17 Metodologas y estndares
El objetivo de esta fase es el de poder disponer del juego de datos final sobre
el que se aplicarn los modelos. Tambin se desarrollar la documentacin
descriptiva necesaria sobre el juego de datos.
Seleccin de datos
Documentaremos los motivos tanto para incluir datos, como para excluir da-
tos.
Criteriosdeseleccinyexclusindedatos
Limpieza de datos
Detallaraccionesarealizarparagarantizarlacalidad
Ejecutarlastransformacionesprevistas
En esta fase tambin deberemos considerar las necesidades del algoritmo se-
leccionado, por ejemplo, si vamos a usar una regresin lineal, deberemos con-
siderar si hay atributos con una relacin no lineal respecto de la variable obje-
tivo, puesto que estos atributos no deberan ser usados en la fase de modelado.
Integracin de datos
Integrarlasdistintasfuentesdedatos
La agregacin suele ser una de las actividades que se lleva a cabo en un proceso
de fusin de datos. Pasamos de un estado de informacin detallada a un estado
de informacin sumarizada.
Formateo de datos
Ajustesexigidosporelmodelado
Habr que reorganizar atributos, por ejemplo, los atributos clave al principio
y el atributo objetivo al final.
1.1.4. Modelado
El objetivo ltimo de esta fase ser el de disponer de un modelo que nos ayude
a alcanzar los objetivos data mining y los objetivos de negocio establecidos en
el proyecto.
El hecho de que esta fase entre en iteracin tanto con su antecesora, la prepa-
racin de los datos, como con su sucesora, la evaluacin del modelo, nos da
una idea de la importancia de la misma en trminos de la calidad del proyecto.
CC-BY-NC-ND PID_00197285 20 Metodologas y estndares
Dado un problema en el mbito data mining, pueden existir una o varias tc-
nicas que den respuesta al mismo, por ejemplo:
Seleccindetcnicasyherramientas
CC-BY-NC-ND PID_00197285 21 Metodologas y estndares
Identificarlosprerrequisitosdelmodelo
Los datos deben estar en formatos especficos, los atributos en posiciones con-
cretas, los registros en un orden preestablecido, las relaciones entre atributos
quiz deben cumplir condiciones de independencia o de linealidad.
Deberemos verificar todos los requisitos que nos exija la tcnica seleccionada
y regresar a la tarea de preparacin de los datos en caso necesario.
Entrenamiento,pruebayevaluacindelmodelo
Ajustesdeparmetros
Ejecucindelmodelo
Descripcindelmodeloresultante
Anteriormente se definieron los criterios de xito para los objetivos data mi-
ning, pues bien, en esta tarea procederemos a la verificacin de su cumplimien-
to.
Evaluacindelmodelo
Revisindeparmetros
CC-BY-NC-ND PID_00197285 23 Metodologas y estndares
Resultados=Modelos+Descubrimientos
Es decir, el propsito de un proyecto data mining no son los modelos, que son
por supuesto importantes, sino tambin los descubrimientos, que podramos
definir como cualquier cosa aparte del modelo que contribuye a alcanzar los
objetivos de negocio o que contribuye a plantear nuevas preguntas, que a su
vez son decisivas para alcanzar los objetivos de negocio.
Evaluacin de modelos
Verificacinderesultadoscontracriteriosdexito
Modelosaprobados
Identificacindeerrores,mejorasyalternativas
Siguientes pasos
Prosycontrasdelasaccionesatomar
CC-BY-NC-ND PID_00197285 25 Metodologas y estndares
Argumentacindelasdecisionestomadas
1.1.6. Despliegue
En esta fase se organizarn y ejecutarn tanto las tareas propias del despliegue
de los resultados como del mantenimiento de las nuevas funcionalidades, una
vez el despliegue haya finalizado.
Estrategiayaccionesdetalladas
CC-BY-NC-ND PID_00197285 26 Metodologas y estndares
En el caso de que haya que instalar o distribuir software por nuestros sistemas,
deberemos gestionarlo para minimizar posibles efectos negativos y planificarlo
para que se ejecute con suficiente antelacin.
Habr que prever cmo vamos a medir el beneficio producido por el despliegue
y cmo vamos a monitorizar todo el proceso.
Seguimiento y mantenimiento
Seguimientodeldespliegue
Informe final
Leccionesaprendidas
Evaluaremos las cosas que se han hecho bien y las que no se han hecho tan
bien e identificaremos puntos y aspectos a mejorar.
Experienciayconclusiones
Incluiremos entrevistas con los miembros del equipo de trabajo para conocer
su visin.
Incluiremos si es posible entrevistas con usuarios finales en los que haya re-
percutido los resultados desplegados por el proyecto. Mejoraran algo? Re-
forzaran algn aspecto?
Por ejemplo, faltara dedicar tareas y actividades especficas al estudio del im-
pacto del despliegue en la organizacin. Cada vez ms las organizaciones res-
ponden a estructuras complejas de flujos de informacin, sistemas informti-
cos integrados e intereses miopes de departamentos o grupos de trabajo.
Este ambiente de trabajo al que se refiere Gary Loveman, acompaado por un Ved tambin
equipo de analistas tan bien formados como apasionados por su trabajo, es la
Ved tambin el apartado Es-
clave para escalar en la pirmide de tipologas de organizaciones analticas. tndar PMML
OrganizacinRecursoshumanosTecnologa
El primer aspecto que se debera trabajar para poder tener cierta actividad ana-
ltica es el de disponer de un entorno transaccional que nos pueda garantizar
una calidad en los datos referentes a las operaciones corrientes.
Asimismo, ser muy conveniente poder disponer de alguna estrategia que nos
permita focalizar la atencin en aquellos datos que realmente son importantes
para nuestra organizacin.
ficiente compromiso con los procesos analticos como para poder dar, con
garantas suficientes, el siguiente paso.
Para llegar a este estadio, es vital contar con el apoyo de al menos una parte
de la direccin de la organizacin, tanto es as que podramos considerar que
cualquier organizacin que cuente con este apoyo, al margen de cmo estn
los otros factores, ya se puede considerar aspirante analtico.
Avanzar en esta lnea significar disponer de una lista de mtricas que nos de-
ber ayudar a medir el progreso de los procesos analticos puestos en marcha.
CC-BY-NC-ND PID_00197285 32 Metodologas y estndares
Los retos en esta fase se multiplican y requieren de una profunda gestin del
cambio para pasar a una cultura analtica y a una organizacin orientada a
procesos analticos integrados.
CC-BY-NC-ND PID_00197285 33 Metodologas y estndares
Para llegar a este estado se requiere que la habilidad analtica sea precisamente
la principal ventaja competitiva de la empresa, la razn de ser de la misma, el
producto estrella que justifica su presencia en el mercado.
PMML es un lenguaje basado en XML y elaborado por the Data Mining Group,
accesible en www.dmg.org, consorcio integrado por IBM, MicroStrategy, SAS
y SPSS.
PredictiveModelMarkupLanguage
De este modo, es posible, por ejemplo, utilizar una aplicacin para generar el
modelo y utilizar otra aplicacin distinta para visualizarlo, analizarlo o eva-
luarlo, superando as las tpicas barreras de incompatibilidades entre fabrican-
tes.
CoberturadelestndarPMML
Angoss, BlueLine, Business Objects, Crystal Ball, Dante, data mining Suite,
DMG, DuckMiner, EMB, Experian, IBM, Info Centricity, Info Decipher, In-
sightful Miner, KNIME, KXEN, Laten View Analytics, Marketswitch Strategy
CC-BY-NC-ND PID_00197285 35 Metodologas y estndares
1.4.1. Definiciones
Servicio
CC-BY-NC-ND PID_00197285 36 Metodologas y estndares
Sistemadeinformacin
Proceso
Gruposdeprocesos
Procedimiento
1.4.2. Procesos
MetodologaPDCA,Plan-Do-Check-Act
Los siguientes son los objetivos que la ISO20000 establece para cada uno de
los procesos que identifica.
Gestindelniveldeservicio
Informesdelservicio
Generar en plazo los informes acordados, fiables y precisos, que sirvan de apo-
yo a la toma de decisiones y faciliten una comunicacin eficaz.
Gestindeladisponibilidadylacontinuidaddelservicio
Asegurar que los compromisos adquiridos con los clientes sobre la disponibi-
lidad y la continuidad del servicio se pueden cumplir bajo todas las circuns-
tancias.
PresupuestosycontabilidaddelosserviciosIT
Gestindelacapacidad
CC-BY-NC-ND PID_00197285 39 Metodologas y estndares
Gestindelaseguridaddelainformacin
Procesos de relacin
Gestinderelacionesconelnegocio
Gestindeproveedores
Procesos de resolucin
Gestindeincidencias
Restaurar el servicio acordado con el negocio tan pronto como sea posible o
responder a peticiones de servicio.
Gestindeproblemas
Procesos de control
Gestindelaconfiguracin
Gestindeloscambios
Asegurar que todos los cambios son evaluados, aprobados, implantados y re-
visados de una manera controlada.
CC-BY-NC-ND PID_00197285 40 Metodologas y estndares
Procesos de entrega
Cuando realizamos tareas de business analytics con las que se busca obtener
conocimiento a partir de los datos, parece ms que obvio que los datos, como
materia prima de nuestro proceso, deben ser de la mxima calidad.
Una primera aproximacin sera observar que a una base de datos se le exi-
ge que cumpla con las propiedades de validez, la informacin falsa debe ser
excluida, y de completitud, en el sentido de que no debe faltar informacin
verdadera, es aquello de ...
Estos mismos autores distinguen dos tipos de mtricas para medir la calidad
de los datos.
CC-BY-NC-ND PID_00197285 42 Metodologas y estndares
Las mtricas objetivas y las mtricas subjetivas, donde las primeras se basan
exclusivamente en el propio juego de datos, mientras que las segundas requie-
ren de la contextualizacin de los datos y del aporte de la experiencia del con-
sumidor de datos.
Integracindedatos
Transformaciones
Reduccindedatos
2.2. Discretizacin
Mtododeiguallongitud
Otrosmtodosmselaborados
El mtodo 1RD propuesto por Holte (machine learning, 1994) trata de conseguir
que cada intervalo solo contenga instancias de una clase o atributo objetivo.
Ruido en los datos se refiere a cualquier cosa que oculta la relacin entre los atributos
independientes y los atributos objetivo.
Los factores que pueden ocasionar ruido en un juego de datos son varios:
Eliminacindelruido
Por ejemplo, en el algoritmo rbol de decisin C4.5, existe una tarea que es la
poda del rbol. Esta puede llevarse a cabo en el propio proceso de construccin
del rbol o al final del proceso de construccin como un postproceso.
Otro ejemplo puede ser el uso del algoritmo clasificador K-Nearest Neighbor,
especficamente para identificar errores, de modo que aquellas instancias que
son incorrectamente clasificadas por el algoritmo pueden ser consideradas co-
mo errores (Tomek, 1976).
Al margen de las relaciones entre variables, tambin hay que tener en cuenta
otras limitaciones que justifican la reduccin de la dimensionalidad de los
juegos de datos, una puede ser la propia capacidad de computacin, que, a
pesar que cada vez es mayor, no deja de ser un recurso con sus fronteras.
3. Anexo
Presentamos a continuacin una imagen resumida del cdigo PMML que des-
cribe nuestro modelo, donde se distinguen los siguientes esquemas:
Cabecera
Fuente: www.dmg.org
Diccionariodedatos
Value: Lista los valores aceptados por el campo que lo precede. Este marcador
es sustitutivo del marcador interval que definira rangos vlidos.
CC-BY-NC-ND PID_00197285 49 Metodologas y estndares
Fuente: www.dmg.org
Esquemadelmodelo
usageType: Define el papel que juega el campo dentro del esquema, los valores
que puede tomar son:
Figura 20. PMML Esquema del modelo Modelo de asociacin Cesta de la compra
Fuente: www.dmg.org
Otras etiquetas importantes de este esquema definen cmo gestionar los va-
lores ausentes o los valores no vlidos.
Agrupaciones
Itemset: Identifica una relacin de valores del atributo sobre el que buscamos
asociaciones.
Fuente: www.dmg.org
Asociaciones
Fuente: www.dmg.org
CC-BY-NC-ND PID_00197285 52 Metodologas y estndares
Transformaciones
Es frecuente que los modelos precisen realizar transformaciones sobre los da-
tos de entrada. Algunas de ellas pueden ser normalizaciones, discretizaciones,
mapeo de valores, agregaciones o aplicacin de funciones de conversin.
Estadsticas
Taxonomasyjerarquas
Los valores de una variable categrica puede ser que necesitemos representar-
los de forma jerrquica, este es el caso por ejemplo de las familias de produc-
tos. Este esquema establece un entorno para llevar a cabo este tipo de repre-
sentaciones.
Output
Esta funcionalidad permite crear objetos PMML que acten como consumi-
dores de resultados de modelos, quiz para ejecutar nuevos modelos o para
integrar los resultados en otros procesos.
Resumen
Modelado
Despliegue
La posicin de las organizaciones ante las posibilidades que les brinda un en-
foque analtico, como el propuesto por BA, queda perfectamente visualizado
mediante el modelo delta, que adems nos da las pautas que una organiza-
cin debera seguir para evolucionar su cultura organizativa hacia visiones ms
analticas.
Hemos visto tambin cmo el estndar PMML surge como iniciativa de los
principales fabricantes de software data mining, para dar respuesta a problemas
de incompatibilidad entre productos y versiones distintas.
PMML permite, de una forma muy eficiente, que las organizaciones puedan
cubrir sus necesidades de minera de datos, combinando software de distintos
fabricantes.
Bibliografa
Davenport, T. H.; Harris, J.; Morison, R. (2010). Analytics at Work: Smarter Decisions,
Better Results. Harvard Business Press.
Artculos
Yan Zhang (mayo, 2008). Noise tolerant Data Mining. The University of Vermont.