Rodrguez Ortiz, Carlos Vicente Segovia Cabrera, Lizeth Untiveros Morales, Miriam UNIVERSIDAD NACIONAL DEL CALLAO Facultad de Ingeniera Industrial y de Sistemas INTEGRANTES: Qu es Minera de Datos? Proceso de la Minera de Datos Protocolo de un proyecto de minera de datos Tcnicas de minera de datos Ejemplo de uso de la minera de datos Herramientas de Software Cada vez es ms frecuente el almacn de informacin en bases de datos como en: Data Warehouse Empresas de Marketing Escuelas Gobierno Esto dificulta la realizacin de anlisis de aspectos relevantes. La bsqueda tradicional de datos se realiza mediante anlisis estadsticos. A finales de los 80s la estadstica se ampli a tcnicas como lgica difusa, razonamiento heurstico y redes neuronales. Actualmente, las tcnicas anteriores se aprovechan para generar conocimiento. 4 La minera de datos (DM) es el proceso de obtener conocimiento a partir de conjuntos grandes de datos. Es tambin una de las principales actividades de la Inteligencia de Negocios (BI). Utiliza el anlisis matemtico para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploracin tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos. 5 Estos patrones y tendencias se pueden recopilar y definir como un modelo de minera de datos. Los modelos de minera de datos se pueden aplicar a situaciones empresariales como las siguientes: Predecir ventas Dirigir correo a clientes especficos Determinar los productos que se pueden vender juntos Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra 6 7 La generacin de un modelo de minera de datos forma parte de un proceso mayor que incluye desde la formulacin de preguntas acerca de los datos y la creacin de un modelo para responder dichas cuestiones, hasta la implementacin del modelo en un entorno de trabajo. Este proceso se puede definir mediante los seis pasos bsicos siguientes: 1. Definir el problema 2. Preparar los datos 3. Explorar los datos 4. Generar modelos 5. Explorar y validar los modelos 6. Implementar y actualizar los modelos 8 Aunque el proceso que se ilustra en el diagrama es circular, esto no significa que cada paso conduzca directamente al siguiente. La creacin de un modelo de minera de datos es un proceso dinmico e iterativo. Una vez que ha explorado los datos, puede que descubra que resultan insuficientes para crear los modelos de minera de datos adecuados y que, por tanto, debe buscar ms datos. O bien, puede generar varios modelos y descubrir entonces que no responden adecuadamente al problema planteado cuando los defini y que, por tanto, debe volver a definir el problema. Es posible que deba actualizar los modelos una vez implementados debido a que haya ms datos disponibles. Puede que haya que repetir cada paso del proceso muchas veces para crear un modelo adecuado. 9 El primer paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste en definir claramente el problema empresarial y considerar formas de proporcionar una respuesta para el mismo. Este paso incluye analizar los requisitos empresariales, definir el mbito del problema, definir las mtricas por las que se evaluar el modelo y definir los objetivos concretos del proyecto de minera de datos. 10 Estas tareas se traducen en preguntas como las siguientes: Qu est buscando? Qu tipos de relaciones intenta buscar? Refleja el problema que est intentando resolver las directivas o procesos de la empresa? Desea realizar predicciones a partir del modelo de minera de datos o solamente buscar asociaciones y patrones interesantes? Qu atributo del conjunto de datos desea intentar predecir? Cmo se relacionan las columnas? En caso de que haya varias tablas, cmo se relacionan? Cmo se distribuyen los datos? Los datos son estacionales? Los datos representan con precisin los procesos de la empresa? 11 El segundo paso del proceso de minera de datos, como se indica en el siguiente diagrama, consiste en consolidar y limpiar los datos identificados en el paso Definir el problema. 12 Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos; tambin pueden contener incoherencias como entradas que faltan o incorrectas. Por ejemplo, los datos pueden mostrar que un cliente adquiri un producto incluso antes que se ofreciera en el mercado o que el cliente compra regularmente en una tienda situada a 2.000 kilmetros de su casa. 13 La limpieza de datos no solamente implica quitar los datos no vlidos, sino tambin buscar las correlaciones ocultas en los datos, identificar los orgenes de datos que son ms precisos y determinar qu columnas son las ms adecuadas para usarse en el anlisis. Por ejemplo, debera utilizar la fecha de envo o la fecha de pedido? Qu influye ms en las ventas: la cantidad, el precio total o un precio con descuento? Los datos incompletos, los datos equivocados y las entradas que parecen independientes, pero que de hecho estn estrechamente correlacionadas pueden influir en los resultados del modelo de maneras que no espera. Por consiguiente, antes de empezar a generar los modelos de minera de datos, debera identificar estos problemas y determinar cmo los corregir. 14 El tercer paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste en explorar los datos preparados. 15 Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de minera de datos. Entre las tcnicas de exploracin se incluyen calcular los valores mnimos y mximos, calcular la media y las desviaciones estndar, y examinar la distribucin de los datos. Por ejemplo, al revisar el mximo, el mnimo y los valores de la media se podra determinar que los datos no son representativos de los clientes o procesos de negocio, y que por consiguiente debe obtener ms datos equilibrados o revisar las suposiciones que son la base de sus expectativas. Al explorar los datos para conocer el problema empresarial, puede decidir si el conjunto de datos contiene datos defectuosos y, a continuacin, puede inventar una estrategia para corregir los problemas u obtener una descripcin ms profunda de los comportamientos que son tpicos de su negocio. 16 El cuarto paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste en generar el modelo o modelos de minera de datos. Utilizar los conocimientos adquiridos en el paso Explorar los datos para definir y crear los modelos. 17 Defina qu datos desea que se utilicen creando una estructura de minera de datos. La estructura de minera de datos define el origen de datos, pero no contiene ningn dato hasta que lo procesa. Antes de que se procese el modelo, un modelo de minera de datos simplemente es un contenedor que especifica las columnas que se usan para la entrada, el atributo que est prediciendo y parmetros que indican al algoritmo cmo procesar los datos. El proceso de un modelo tambin se denomina entrenamiento. El entrenamiento hace referencia al proceso de aplicar un algoritmo matemtico concreto a los datos de la estructura para extraer patrones. Los patrones que encuentre en el proceso de entrenamiento dependern de la seleccin de los datos de entrenamiento, el algoritmo que elija y cmo se haya configurado el algoritmo. 18 El quinto paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste en explorar los modelos de minera de datos que ha generado y comprobar su eficacia. Antes de implementar un modelo en un entorno de produccin, es aconsejable probar si funciona correctamente. Adems, al generar un modelo, normalmente se crean varios con configuraciones diferentes y se prueban todos para ver cul ofrece los resultados mejores para su problema y sus datos. 19 El ltimo paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste en implementar los modelos que funcionan mejor en un entorno de produccin. 20 Una vez que los modelos de minera de datos se encuentran en el entorno de produccin, puede llevar acabo diferentes tareas, dependiendo de sus necesidades. Las siguientes son algunas de las tareas que puede realizar: Utilizar los modelos para crear predicciones que pueda utilizar para tomar decisiones empresariales. Crear consultas de contenido para recuperar estadsticas, reglas o frmulas del modelo. Incrustar la funcionalidad de minera de datos directamente en una aplicacin. Puede incluir Objetos de administracin de anlisis (AMO), que contiene un conjunto de objetos que la aplicacin pueda utilizar para crear, cambiar, procesar y eliminar estructuras y modelos de minera de datos. 21 Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minera de datos existente. Actualizar los modelos despus de la revisin y anlisis. Cualquier actualizacin requiere que vuelve a procesar los modelos. Actualizar dinmicamente los modelos, cuando entren ms datos en la organizacin, y realizar modificaciones constantes para mejorar la efectividad de la solucin debera ser parte de la estrategia de implementacin. 22 Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente: Comprensin del negocio y del problema que se quiere resolver. Determinacin, obtencin y limpieza de los datos necesarios. Creacin de modelos matemticos. Validacin, comunicacin, etc. de los resultados obtenidos. Integracin, si procede, de los resultados en un sistema transaccional o similar. 23 Las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados 24 Las tcnicas ms representativas son: Redes neuronales Regresin lineal rboles de decisin Modelos estadsticos Agrupamiento o Clustering 25 Son capaces de detectar y aprender patrones y caractersticas de los datos. Una vez adiestradas las redes pueden hacer previsiones, clasificaciones y segmentacin. Esto se realiza estructurando niveles o capas. Se tienen dos tipos de aprendizaje: supervisado y no supervisado. 26 Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2 variables. 27 Se construye partiendo el conjuntos de dos o ms. Cada subconjunto a su vez es particionado. Se continua hasta no encontrar diferencias significativas de influencia. Herramientas analticas empleadas para el descubrimiento de reglas y relaciones. 28 Tcnica tradicional en el tratamiento de grandes volmenes de datos. Existen varios modelos: ANOVA (Anlisis de Varianza). Contrasta con variables continuas. Ji cuadrado. Contrasta con la independencia de variables. Componentes principales. Permite reducir el nmero de variables. 29 Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos: Algoritmo K-means. Algoritmo K-medoids. 30 31 FRAUDES Un caso anlogo es el de la deteccin de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar medidas rpidas frente a ellas. 32 COMPORTAMIENTO EN INTERNET Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre todo, cuando son clientes potenciales en una pgina de Internet. O la utilizacin de la informacin obtenida por medios ms o menos legtimos sobre ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la informacin histrica disponible acerca de los clientes que han comprado el primero. 33 Privadas: IBM Intelligent Miner for Data SPSS Clementine DB2 Datawarehouse Suite STATISTICA Data Miner Libres: Orange RapidMiner Weka KNIME JHepWork 34 http://msdn.microsoft.com/es-es/library/ms 174949.aspx http://es.wikipedia.org/wiki/Miner%C3%ADa_ de_datos http://www.sinnexus.com/business_intelligence/ datamining.aspx 35