Capitulo 1

Parte 1: Introduccin a la minera de datos Captulo 1: De qu se trata?
Humanos de la fertilizacin in vitro consiste en recoger varios vulos de los ovarios de una mujer que, despus de la fertilizacin con esperma de la pareja o de un donante, producen varios embriones. Algunos de stos se seleccionan y se transfieren al tero de la mujer. El reto consiste en seleccionar los "mejores" embriones a utilizar los que tienen ms probabilidades de sobrevivir. La seleccin se basa en alrededor de 60 caractersticas registrados de los embriones que caracterizan su morfologa, los ovocitos, y el folculo, y la muestra de esperma. El nmero de caractersticas es lo suficientemente grande como para que sea difcil para un embrilogo para evaluar todos ellos simultneamente y correlacionar los datos histricos con el resultado crucial de si ese embrin se produjo o no resultar en un nio vivo. En un proyecto de investigacin en Inglaterra, el aprendizaje automtico se ha investigado como una tcnica para hacer la seleccin, utilizando los registros histricos de los embriones y sus resultados como datos de entrenamiento. Cada ao, los productores de leche en Nueva Zelanda tienen que tomar una decisin empresarial difcil: que las vacas de retener en su rebao y que vender a un matadero. Por lo general, una quinta parte de las vacas en un hato lechero son sacrificados cada ao cerca del final de la temporada de ordeo como alimento disminuyen las reservas. Cada vaca, la cra de AOS y la historia de produccin de leche influyen en esta decisin. Otros factores son la edad (una vaca se acerca al final de su vida productiva en ocho aos), problemas de salud, antecedentes de parto difcil, los rasgos indeseables temperamento (patear o saltar vallas), y no estar embarazada de becerro para la temporada siguiente. Cerca de 700 atributos para cada uno de varios millones de vacas se han registrado en los ltimos aos. El aprendizaje automtico se ha investigado como una forma de determinar qu factores son tenidos en cuenta por los agricultores exitosos no para automatizar la decisin, sino para propagar sus conocimientos y experiencia a los dems. La vida y la muerte. De Europa a las Antpodas. Familia y los negocios. El aprendizaje automtico es una tecnologa incipiente nuevo conocimiento para la minera de datos, una tecnologa que mucha gente est empezando a tomar en serio. 1.1 MINERA DE DATOS Y EL LENGUAJE DE LA MAQUINA Estamos abrumados con datos. La cantidad de datos en el mundo y en nuestras vidas parece cada vez ms y no hay final a la vista. Computadoras omnipresentes hacen demasiado fcil para guardar las cosas que antes nos hubiera papelera. Discos de bajo costo y almacenamiento en lnea que sea demasiado fcil posponer las decisiones acerca de qu hacer con todas estas cosas que simplemente conseguir ms memoria y quedarse con todo. Electrnica ubicua grabar nuestras decisiones, nuestras elecciones en el supermercado, nuestros hbitos financieros, nuestras idas y venidas. Tenemos nuestro camino pase por el mundo, cada golpe un registro en una base de datos. La World Wide Web (WWW) nos abruma con la informacin, por su parte, cada eleccin que hacemos es registrada. Y todas estas son slo las decisiones personales que tienen contrapartes incontables en el mundo del comercio y la industria. Todos podemos dar testimonio de la creciente brecha entre la generacin de los datos y el conocimiento de la misma. A medida que el volumen de datos aumenta, inexorablemente, la proporcin de lo que las personas entienden disminuye alarmantemente. Mentir escondido en todos estos datos es informacin potencialmente til la informacin que rara vez se hace explcito o aprovechado. Este libro trata sobre la bsqueda de patrones en los datos. No hay nada nuevo en esto. La gente ha estado buscando patrones en los datos desde que comenz la vida humana Hunters buscar patrones en el comportamiento animal migracin, los agricultores buscan patrones en el crecimiento del cultivo, los polticos buscan patrones en la opinin de los votantes, y los amantes de buscar patrones en las respuestas de su pareja. El trabajo de un cientfico (como la de un beb) es de dar sentido a los datos, para descubrir los patrones que rigen el funcionamiento del mundo fsico y encapsular las teoras en que se pueden utilizar para predecir lo que suceder en situaciones nuevas. La tarea del empresario es identificar oportunidades es decir, los patrones de comportamiento que se pueden convertir en un negocio rentable y explotarlas.
En la minera de datos, los datos se almacenan electrnicamente y la bsqueda est automatizada o al menos aumentada por ordenador. Aunque esto no es particularmente nuevo. Economistas, estadsticos, los meteorlogos e ingenieros de la comunicacin han trabajado durante mucho tiempo con la idea de que los patrones en los datos se pueden buscar de forma automtica, identificar, validar, y se utiliza para la prediccin. Lo que es nuevo es el espectacular aumento de las oportunidades de encontrar patrones en los datos. El crecimiento desenfrenado de las bases de datos en los ltimos aos, bases de datos para este tipo de actividades cotidianas como opciones del cliente, aporta la minera de datos a la vanguardia de las tecnologas de negocio. Se ha estimado que la cantidad de datos almacenados en bases de datos del mundo se duplica cada 20 meses, y aunque seguramente sera difcil justificar esta cifra en un sentido cuantitativo, que todos pueden relacionarse con el ritmo de crecimiento cualitativo. A medida que el flujo de datos se hincha y mquinas que pueden realizar la bsqueda vuelto frecuente, las posibilidades de aumento de la minera de datos. A medida que el mundo crece en complejidad, nos agobia con los datos que genera, minera de datos se convierte en nuestra nica esperanza para elucidar patrones ocultos. Inteligentemente datos analizados es un recurso valioso. Puede conducir a nuevos conocimientos y, en instalaciones comerciales, a ventajas competitivas. La minera de datos se trata de resolver los problemas mediante el anlisis de los datos ya existentes en bases de datos. Supongamos, por poner un ejemplo bien gastado, el problema es la lealtad del cliente voluble en un mercado altamente competitivo. Una base de datos de opciones del cliente, junto con los perfiles de los clientes, es la clave de este problema. Los patrones de comportamiento de los clientes antiguos pueden ser analizados para identificar las caractersticas distintivas de las que pueden cambiar los productos y las probabilidades de permanecer leal. Una vez que estas caractersticas se encuentran, pueden ser puestos a trabajar para identificar a los clientes actuales que tienen probabilidades de abandonar el barco. Este grupo puede ser objeto de un tratamiento especial, el tratamiento demasiado costoso de aplicar a la base de clientes como un todo. Ms positivamente, las mismas tcnicas que se pueden utilizar para identificar a los clientes que podran ser atrados a otro servicio de la empresa proporcionan, uno que no estn actualmente disfrutando, dirigirse a ellos para las ofertas especiales que promuevan este servicio. En el altamente competitivo, cliente centrado en la economa orientada a los servicios, la informacin es la materia prima que sustenta el crecimiento de negocios si slo puede ser explotada. La minera de datos se define como el proceso de descubrimiento de patrones en los datos. El proceso debe ser automtico o (ms habitualmente) semiautomtico. Los patrones descubiertos deben ser significativos en cuanto a que llevar a alguna ventaja, por lo general de carcter econmico. Los datos son invariablemente presentes en cantidades sustanciales. Y cmo se expresan los patrones? Patrones de inters nos permiten hacer predicciones triviales sobre nuevos datos. Hay dos extremos para la expresin de un patrn: como un cuadro negro cuyas tripas son efectivamente incomprensible, y como una caja transparente cuya construccin revela la estructura del patrn. Ambos, suponemos, hacer buenas predicciones. La diferencia es si o no los patrones que se extraen estn representados en trminos de una estructura que puede ser examinada, motivada sobre, y se utiliza para informar las decisiones futuras. Tales patrones que llamamos estructural porque capturan la estructura de decisin de manera explcita. En otras palabras, ayudan a explicar algo sobre los datos. Ahora, una vez ms, podemos decir que este libro trata de: Se trata de tcnicas para encontrar y describir patrones estructurales en los datos. La mayora de las tcnicas que cubren han desarrollado dentro de un campo conocido como mquina de aprendizaje. Pero primero echemos un vistazo a lo que los patrones estructurales. Describir los patrones estructurales Qu se entiende por patrones estructurales? Cmo los describiras? Y qu forma la entrada de tomar? Vamos a responder a estas preguntas a modo de ilustracin y no por intentar formales, y en ltima instancia, la definicin estril. Habr un montn de ejemplos ms adelante en este captulo, pero vamos a examinar uno ahora mismo para tener una idea de lo que estamos hablando. Observe los datos de lentes de contacto en la Tabla 1.1. Le da a las condiciones en que un ptico puede ser que desee
para prescribir lentes de contacto blandas, lentes de contacto duros, o no lentes de contacto en absoluto, vamos a decir ms acerca de cules son las caractersticas individuales refiero ms adelante. Cada lnea de la tabla es uno de los ejemplos. Parte de una descripcin estructural de esta informacin podra ser como sigue:
If tear production rate = reduced then recommendation = none Otherwise, if age = young and astigmatic = no then recommendation = soft
Descripciones estructurales no tiene por qu ser expresada como reglas de este tipo. Los rboles de decisin, que especifican la secuencia de decisiones que se deben tomar junto con la recomendacin resultante, son otra forma popular de expresin. Este ejemplo es muy simplista. Para empezar, todas las combinaciones de valores posibles se representan en la tabla. Hay 24 filas, que representan tres posibles valores de edad y dos valores de cada espectculo para la prescripcin, el astigmatismo y la tasa de produccin de lgrimas (3 2 2 2 = 24). Estas reglas no est realmente generalizar a partir de los datos, sino que simplemente resumirlo. En la mayora de las situaciones de aprendizaje, el conjunto de ejemplos que se dan como entrada est lejos de ser completa, y parte del trabajo consiste en generalizar a otros ejemplos, nuevos. Usted puede imaginar omitiendo algunas de las filas de la tabla para la que se reduce la tasa de produccin de lgrimas y todava dar con la regla Si la tasa de produccin de lgrimas = redujo entonces recomendacin = ninguno
Esto generalizar a las filas que faltan y llenarlos correctamente. En segundo lugar, se especifican valores para todas las caractersticas de todos los ejemplos. De la vida real los conjuntos de datos contienen invariablemente ejemplos en los que los valores de algunas caractersticas, por alguna razn u otra, no se conocen, por ejemplo, las medidas no se tomaron o se perdieron. En tercer lugar, las reglas anteriores clasificar correctamente los ejemplos, mientras que a
menudo, debido a errores o ruido en los datos, errores de clasificacin se producen incluso en los datos que se utilizan para crear el clasificador. Machine Learning Ahora que tenemos una idea de las entradas y salidas, demos vuelta a la mquina de aprendizaje. Qu es el aprendizaje, de todos modos? Qu es el aprendizaje de las mquinas? Estas son preguntas filosficas, y no vamos a estar demasiado preocupado con la filosofa de este libro, nuestro nfasis est firmemente en la prctica. Sin embargo, vale la pena dedicar unos minutos al principio sobre las cuestiones fundamentales, slo para ver lo difcil que son, antes de enrollar nuestras mangas y mirando a mquina de aprendizaje en la prctica. El diccionario define "a aprender" como Para tener conocimiento de algo por medio del estudio, la experiencia, o ensea. Tomar conciencia de la informacin o de la observacin Para aprender de memoria A ser informado de o para determinar Para recibir instruccin
Estos significados tienen algunas limitaciones cuando se trata de hablar sobre las computadoras. Para los dos primeros, es prcticamente imposible comprobar si el aprendizaje ha sido alcanzado o no. Cmo saber si una mquina tiene conocimiento de algo? Es probable que no slo puede hacer lo preguntas, incluso si pudiera, no estara poniendo a prueba su capacidad de aprender, pero su capacidad para responder a las preguntas. Cmo s si se ha dado cuenta de algo? Toda la cuestin de si los equipos pueden ser conscientes o conscientes, es una cuestin filosfica en llamas. En cuanto a los ltimos tres significados, aunque podemos ver lo que denotan en trminos humanos, ms que su memoria y recibiendo instruccin parece que estn muy lejos de lo que podramos decir con aprendizaje automtico. Son demasiado pasivo, y sabemos que las computadoras encontrar estas tareas triviales. En su lugar, estamos interesados en las mejoras en el rendimiento, o al menos en el potencial de rendimiento, en situaciones nuevas. Puede memorizar algo o ser informado de algo por el aprendizaje de memoria, sin ser capaz de aplicar los nuevos conocimientos a nuevas situaciones. En otras palabras, usted puede recibir instruccin sin beneficiarse de ello en absoluto. Anteriormente se ha definido operacionalmente minera de datos, como el proceso de descubrimiento de patrones, de forma automtica o semiautomtica, en grandes cantidades de datos y los patrones deben ser tiles. Una definicin operacional se puede formular de la misma manera para el aprendizaje: Cosas aprender cuando cambian su comportamiento de una manera que los hace un mejor desempeo en el futuro
Esto se relaciona con el rendimiento de aprendizaje en lugar de conocimiento. Se puede probar el aprendizaje mediante la observacin de la conducta presente y su comparacin con el comportamiento pasado. Este es un tipo mucho ms objetivo de definicin y parece ser mucho ms satisfactorio. Pero todava hay un problema. El aprendizaje es un concepto bastante resbaladiza. Hay muchas cosas que cambiar su comportamiento de forma que les hagan un mejor desempeo en el futuro, sin embargo, no quiere decir que se han aprendido. Un buen ejemplo es una zapatilla cmoda. Ha aprendido la forma de tu pie? Ciertamente ha cambiado su comportamiento para hacer que funcione mejor como una zapatilla! Sin embargo, apenas nos gustara llamar a este aprendizaje. En el lenguaje cotidiano, a menudo utilizamos la palabra capacitacin para denotar un tipo sin sentido de
aprendizaje. Formamos a los animales e incluso plantas, aunque sera forzar un poco la palabra para hablar de los objetos de formacin como zapatillas, que no son en modo alguno con vida. Pero el aprendizaje es diferente. Aprender implica pensamiento y propsito. Algo que aprende tiene que hacerlo intencionalmente. Por eso no quiso decir que una via ha aprendido a crecer alrededor de un enrejado en un viedo nos dira que ha sido entrenado. Aprender sin fin no es ms que la formacin. O, ms concretamente, en aprender el propsito es el de aprendiz, mientras que en la formacin, es la de la maestra. As, en un examen ms detallado de la segunda definicin de aprendizaje, en trminos operativos, orientados a los resultados, tiene sus propios problemas cuando se trata de hablar sobre las computadoras. Para decidir si algo ha aprendido realmente, es necesario ver si tena la intencin de, si existe algn propsito en cuestin. Eso hace que el concepto discutible cuando se aplica a las mquinas porque si los artefactos pueden comportarse a propsito no est claro. Las discusiones filosficas de lo que realmente se entiende por aprendizaje, al igual que las discusiones sobre lo que realmente se quiere decir con intencin o propsito, estn llenos de dificultades. Incluso los tribunales de justicia intencin encontrar difcil de resolver. Data Mining Afortunadamente, el tipo de tcnicas de aprendizaje se explican en este libro no presentan estos problemas conceptuales que son llamados de aprendizaje automtico sin realmente presuponer ninguna postura filosfica particular, sobre lo que el aprendizaje es en realidad. La minera de datos es un tema que involucra el aprendizaje en un sentido prctico, no terico. Estamos interesados en tcnicas para encontrar y describir patrones estructurales en los datos, como una herramienta para ayudar a explicar los datos y hacer predicciones a partir de ella. Los datos se harn en forma de un conjunto de ejemplos, como los clientes que se han cambiado lealtades, por ejemplo, o situaciones en las que ciertos tipos de lentes de contacto pueden ser prescritos. La salida toma la forma de predicciones sobre nuevos ejemplos de una prediccin de si un cliente particular o cambiar una prediccin de qu tipo de lente se prescribe en determinadas circunstancias. Pero debido a que este libro se trata de encontrar y describir patrones en los datos, la salida tambin puede incluir una descripcin real de una estructura que puede ser usado para clasificar ejemplos desconocidos. Adems de la actuacin, es til para suministrar una representacin explcita del conocimiento que se adquiere. En esencia, esto refleja las dos definiciones de aprendizaje considerado anteriormente: la adquisicin de conocimientos y la capacidad para utilizarla. Muchas tcnicas de aprendizaje buscar descripciones estructurales de lo que se aprende descripciones que pueden llegar a ser bastante complejo y se expresan tpicamente como conjuntos de reglas, tales como los descritos anteriormente o los rboles de decisin descritas ms adelante en este captulo. Debido a que puede ser entendido por la gente, estas descripciones sirven para explicar lo que se ha aprendido en otras palabras, para explicar la base para nuevas predicciones. La experiencia demuestra que en muchas aplicaciones de aprendizaje automtico para la minera de datos, las estructuras de conocimiento explcito que se adquieren, las descripciones estructurales, son por lo menos tan importante como la capacidad para desempearse bien en nuevos ejemplos. La gente con frecuencia utilizan la minera de datos para obtener conocimiento, no slo predicciones. La adquisicin de conocimientos a partir de datos ciertamente suena como una buena idea si usted puede hacerlo. Para averiguar cmo hacerlo, siga leyendo! 1.2 Ejemplos sencillos: el clima Y OTROS PROBLEMAS Vamos a utilizar una gran cantidad de ejemplos en este libro, que parece particularmente apropiado teniendo en cuenta que el libro se trata de aprender a partir de ejemplos! Hay varios conjuntos de datos estndar que nosotros vamos a volver a repetidas veces. Diferentes conjuntos de datos tienden a exponer problemas y nuevos desafos, y es interesante e instructivo tener en cuenta una serie de problemas cuando se consideran los mtodos de aprendizaje. De hecho, la necesidad de trabajar con diferentes conjuntos de datos es tan importante que un corpus que contiene alrededor de 100 problemas de ejemplo se ha reunido de manera que diferentes algoritmos puede ser probado y comparado en el mismo conjunto de problemas.
El conjunto de problemas en esta seccin son irrealmente simple. Aplicacin seria de la minera de datos consiste en miles, cientos de miles, o incluso millones de casos individuales. Pero la hora de explicar lo que los algoritmos hacen y cmo funcionan, necesitamos ejemplos simples que capturan la esencia del problema, pero son lo suficientemente pequeos para ser comprensible por todos los detalles. Vamos a trabajar con las bases de datos en esta seccin todo el libro, y que estn destinados a ser "acadmico" en el sentido de que nos ayudar a entender lo que est pasando. Algunas aplicaciones reales en campaa de tcnicas de aprendizaje se discuten en la Seccin 1.3, y muchos ms se tratan en los libros mencionados en la Seccin 1.7, Lectura adicional, al final del captulo. Otro problema con las reales de la vida real los conjuntos de datos es que son a menudo de propiedad. Nadie va a compartir su base de datos de clientes y eleccin del producto con usted para que usted pueda comprender los detalles de su aplicacin de minera de datos y cmo funciona. Datos de la empresa es un activo valioso, cuyo valor ha aumentado enormemente con el desarrollo de tcnicas de minera de datos, tales como los descritos en este libro. Sin embargo, nos preocupa aqu con la comprensin de cmo los mtodos utilizados para el trabajo de minera de datos, y la comprensin de los detalles de estos mtodos para que podamos rastrear su operacin en datos reales. Es por eso que nuestros datos ilustrativos son simples. Pero ellos no son simplistas: Presentan las caractersticas de los conjuntos de datos reales. El problema del tiempo El problema del tiempo es un conjunto de datos pequeo que vamos a utilizar varias veces para ilustrar los mtodos de aprendizaje automtico. Totalmente ficticia, que supuestamente se refiere a las condiciones
que son adecuados para jugar algn juego no especificado. En general, las instancias de un conjunto de datos se caracterizan por los valores de caractersticas, o atributos, que miden diferentes aspectos de la instancia. En este caso hay cuatro atributos: perspectivas, temperatura, humedad y viento. El resultado es si jugar o no. En su forma ms simple, que se muestra en la Tabla 1.2, los cuatro atributos tienen valores que son categoras simblicas en lugar de nmeros. Outlook puede estar nublado, soleado, lluvioso o, la temperatura puede ser caliente, templado o fro, la humedad puede ser alto o normal y con viento puede ser verdadera o falsa. Esto crea 36 combinaciones posibles (3 3 2 2 = 36), de los cuales 14 estn presentes en el conjunto de ejemplos de entrada. Un conjunto de reglas aprendidas de esta informacin no necesariamente una muy buena podra tener este aspecto: If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity = normal then play = yes If none of the above then play = yes
Estas reglas estn destinados a ser interpretados en orden: el primero, y luego, si no se aplica, la segunda, y as sucesivamente. Un conjunto de reglas que estn destinados a ser interpretados en secuencia se denomina lista de decisin. Se interpreta como una lista de decisiones, las reglas de clasificar correctamente todos los ejemplos de la tabla, mientras que consideradas individualmente, fuera de contexto, algunas de las reglas son incorrectas. Por ejemplo, si la regla de humedad = normal luego jugar = si obtiene uno de los ejemplos incorrectos (verifique cul). El significado de un conjunto de reglas depende de cmo se interprete como era de esperar! En la forma ligeramente ms complejo se muestra en la Tabla 1,3, dos de los atributos de la temperatura y la humedad tienen valores numricos. Esto significa que cualquier aprendizaje
esquema debe crear desigualdades que implican estos atributos en lugar de pruebas sencillas de igualdad como en el caso anterior. Esto se llama un problema atributo numrico en este caso, un problema atributo mezclado, ya que no todos los atributos son numricos. Ahora, la primera regla dada anteriormente puede tomar la forma
If outlook = sunny and humidity > 83 then play = no
Un proceso un poco ms complejo se requiere para llegar a reglas que implican pruebas numricas. Las reglas que hemos visto hasta ahora son las reglas de clasificacin: Predicen la clasificacin del ejemplo en trminos de si jugar o no. Tambin es posible hacer caso omiso de la clasificacin y slo tiene que buscar reglas que asocian fuertemente diferentes valores de los atributos. Estos se llaman reglas de asociacin. Muchas reglas de asociacin se pueden derivar de los datos meteorolgicos en la Tabla 1,2. Algunos buenos son
If temperature = cool then humidity = normal If humidity = normal and windy = false then play = yes If outlook = sunny and play = no then humidity = high If windy = false and play = no then outlook = sunny and humidity = high
Todas estas reglas son 100% correcto en los datos dados, sino que no hacen predicciones falsas. Los dos primeros se aplican a cuatro ejemplos del conjunto de datos, ejemplos de la tercera a tres, y el cuarto a dos ejemplos. Y hay muchas otras reglas. De hecho, cerca de 60 reglas de asociacin se puede encontrar lo que corresponda a dos o ms ejemplos de los datos meteorolgicos y estn completamente corregir en estos datos. Y si usted busca reglas que son menos de 100% correcto, entonces usted va a encontrar muchos ms. Hay tantos porque, a diferencia reglas de clasificacin, reglas de asociacin puede "predecir" cualquiera de los atributos, no slo una clase especificada, e incluso puede predecir con ms de una cosa. Por ejemplo, la cuarta regla predice tanto que la perspectiva ser soleado y que la humedad ser alta.
Lentes de contacto: un problema idealizado Los datos introducidos antes de lentes de contacto le indica el tipo de lente de contacto para prescribir, dada la informacin sobre un paciente determinado. Tenga en cuenta que este ejemplo est destinado nicamente para ilustracin: Se simplifica enormemente el problema y no debera ser usada para fines de diagnstico! La primera columna de la Tabla 1,1 da la edad del paciente. En caso de que usted se est preguntando, la presbicia es una forma de hipermetropa que acompaa el inicio de la edad media. La segunda, la prescripcin espectculo: miope significa miope y hipermtrope significa longsighted. El tercero muestra si el paciente es astigmtico, mientras que la cuarta se refiere a la tasa de produccin de lgrimas, que es importante en este contexto porque las lgrimas lubricar las lentes de contacto. La ltima columna muestra qu tipo de lentes de prescribir, ya sea duro, blando, o ninguno. Todas las combinaciones posibles de los valores de atributos estn representados en la tabla. Un conjunto de muestras de reglas aprendidas a partir de esta informacin se muestra en la figura 1,1. Se trata de un conjunto bastante amplio de normas, pero s clasificar correctamente todos los ejemplos. Estas reglas son completas y determinista: Le dan una receta nica para todos los ejemplos imaginables. Generalmente, este no es el caso. A veces hay situaciones en las que no se aplica la regla, en otras ocasiones ms de una regla puede aplicarse, lo que resulta en
recomendaciones contradictorias. A veces las probabilidades o pesos pueden estar asociados con las propias reglas para indicar que algo es ms importante, o ms fiables que otros. Tal vez se pregunte si existe un conjunto de reglas ms pequeo que funciona tan bien. Si es as, sera mejor usar el conjunto de reglas ms pequeo, y si es as por qu? Estos son exactamente el tipo de preguntas que nos ocupan en este libro. Debido a que los ejemplos forman un conjunto completo para el espacio del problema, las reglas no hacen ms que resumir toda la informacin que se da, expresarlo de una manera diferente y ms conciso. A pesar de que no implica la generalizacin, esto es a menudo una cosa muy til que hacer! La gente con frecuencia utilizan tcnicas de aprendizaje automtico para obtener informacin sobre la estructura de los datos en lugar de hacer predicciones para los nuevos casos. De hecho, una lnea prominente y exitoso de la investigacin en el aprendizaje de mquina que comenz como un intento de comprimir una gran base de datos de los finales de ajedrez posibles y sus resultados en una estructura de datos de un tamao razonable. La estructura de datos elegida para esta empresa no era un conjunto de reglas, sino un rbol de decisin. La figura 1.2 muestra una descripcin estructural de los datos de lente de contacto en la forma de un rbol de decisin, que para muchos propsitos es una representacin ms concisa y perspicaz de las reglas y tiene la ventaja de que puede ser visualizado ms fcilmente. (Sin embargo, este rbol de decisin, en contraste con la norma dada en la Figura 1,1, clasifica dos ejemplos incorrectamente.) El rbol de llama primero para una prueba de la tasa de produccin de lgrimas, y las dos primeras
ramas corresponden a los dos resultados posibles. Si la tasa de produccin de lgrimas se reduce (la rama izquierda), el resultado es ninguno. Si es normal (la rama derecha), un segundo anlisis, esta vez sobre el astigmatismo. Finalmente, cualquiera que sea el resultado de las pruebas, una hoja del rbol se alcanza el que dicta la recomendacin lente de contacto para ese caso. La cuestin de cul es el formato ms natural y fcil de entender para la salida de un sistema de aprendizaje automtico es el que volveremos en el captulo 3.
IRIS: UN CONJUNTO DE DATOS NUMRICOS CLASSIC El conjunto de datos del iris, que se remonta a la obra seminal por el eminente estadstico RA Fisher en mediados de 1930 y es sin duda el ms famoso conjunto de datos utilizado en la minera de datos, contiene 50 ejemplos de cada uno de los tres tipos de plantas: Iris setosa, Iris versicolor, y Iris virginica. Esto es un extracto de la Tabla 1.4. Hay cuatro atributos: longitud spalo,
anchura de spalo, ptalo longitud, y la anchura del ptalo (todo medido en centmetros). A diferencia de los conjuntos de datos anteriores, todos los atributos tienen valores que son numricos. El siguiente conjunto de reglas puede ser aprendido de esta base de datos:
If petal-length < 2.45 then Iris-setosa If sepal-width < 2.10 then Iris-versicolor
If sepal-width < 2.45 and petal-length < 4.55 then Iris-versicolor If sepal-width < 2.95 and petal-width < 1.35 then Iris-versicolor If petal-length 2.45 and petal-length < 4.45 then Iris-versicolor If sepal-length 5.85 and petal-length < 4.75 then Iris-versicolor If sepal-width < 2.55 and petal-length < 4.95 and petal-width < 1.55 then Iris-versicolor If petal-length 2.45 and petal-length < 4.95 and petal-width < 1.55 then Iris-versicolor If sepal-length 6.55 and petal-length < 5.05 then Iris-versicolor If sepal-width < 2.75 and petal-width < 1.65 and sepal-length < 6.05 then Iris-versicolor If sepal-length 5.85 and sepal-length < 5.95 and petal-length < 4.85 then Iris-versicolor If petal-length 5.15 then Iris-virginica If petal-width 1.85 then Iris-virginica If petal-width 1.75 and sepal-width < 3.05 then Iris-virginica If petal-length 4.95 and petal-width < 1.55 then Iris-virginica
Estas reglas son muy engorrosas, y veremos en el captulo 3 cmo las reglas ms compactas se pueden expresar que transmiten la misma informacin. RENDIMIENTO CPU: PRESENTACIN DE PREDICCIN NUMRICA Aunque el conjunto de datos iris implica atributos numricos, el resultado del tipo de iris es una categora, no un valor numrico. La Tabla 1.5 muestra algunos datos para que tanto el resultado y los atributos son numricos. Tiene que ver con el rendimiento relativo de potencia de procesamiento informtico sobre la base de un nmero de atributos relevantes; cada fila representa uno de 209 diferentes configuraciones de ordenador. La forma clsica del tratamiento con la prediccin continua es escribir el resultado como una suma lineal de los valores de atributo con pesos apropiados, por ejemplo,
(Los nombres de las variables abreviados se dan en la segunda fila de la tabla). Esto se conoce como una ecuacin de regresin, y el proceso de determinacin de los pesos se llama regresin, un procedimiento bien conocido en las estadsticas que vamos a revisar en el Captulo 4. Sin embargo, el mtodo de regresin bsica es incapaz de descubrir relaciones no lineales (aunque las variantes no existen, de hecho, uno se describe en la seccin 6.4), y en el captulo 3 examinaremos diferentes representaciones que pueden ser utilizados para predecir las cantidades numricas. En los datos de rendimiento del iris y la unidad central de procesamiento (CPU), todos los atributos tienen valores numricos. Las situaciones prcticas con frecuencia presentan una mezcla de atributos numricos y no numricos. LAS NEGOCIACIONES LABORALES: UN EJEMPLO MS REALISTA El conjunto de datos de las negociaciones laborales en la Tabla 1.6 se resumen los resultados de las negociaciones contractuales canadienses en 1987 y 1988. Incluye todos los acuerdos colectivos alcanzados en el sector de los servicios personales y de negocios para organizaciones con por lo menos 500 miembros (profesores, enfermeras, personal de la universidad, la polica, etc.) Cada caso se refiere a un contrato, y el resultado es que el contrato se considera aceptable o inaceptable. Los contratos aceptables son aquellas en las que los acuerdos fueron aceptados por los trabajadores y la gerencia. Los que son o bien inaceptables ofertas conocidas que cayeron a travs de una de las partes, porque no aceptarlas o contratos aceptables que haban sido perturbados significativamente en la medida en que, a juicio de los expertos, no habran sido aceptadas. Hay 40 ejemplos del conjunto de datos (ms otros 17 que normalmente se reserva para fines de prueba). A diferencia de las otras mesas aqu, la Tabla 1.6 se presentan los ejemplos como columnas en lugar de filas, de lo contrario, tendra que ser estirado en varias pginas. Muchos de los valores son desconocidos o ausentes, segn lo indicado por signos de interrogacin. Se trata de un conjunto de datos mucho ms realista que las otras que hemos visto.
Contiene muchos valores perdidos, y parece poco probable que una clasificacin exacta se puede obtener. La figura 1.3 muestra dos rboles de decisin que representan el conjunto de datos. Figura 1.3 (a) es simple y aproximado, no representa los datos con exactitud. Por ejemplo, ser malo para predecir algunos contratos que estn actualmente marcados buena. Sin embargo, s tiene sentido intuitivo: Un contrato es malo (para el empleado!) Si el aumento del salario en el primer ao es muy pequeo (menos del 2,5%). Si el incremento salarial del primer ao es ms grande que esto, es bueno si hay un montn de das feriados (ms de 10 das). Incluso si hay un menor nmero de das feriados, es bueno que el aumento salarial del primer ao es bastante grande (ms del 4%). La figura 1.3 (b) es un rbol de decisin ms compleja que representa el mismo conjunto de datos. Tome una mirada detallada por la rama izquierda. A primera vista, no parece tener sentido intuitivamente que, si las horas de trabajo
superior a 36, un contrato es malo si no hay una contribucin de planes de salud o de una contribucin total del plan de salud, pero es bueno si hay un medio de salud contribucin plan. Sin duda, es razonable que la contribucin de planes de salud juega un papel en la decisin, pero parece anmalo que un medio es bueno y tanto completa y ninguno es malo. Sin embargo, pensndolo bien esto podra tener sentido despus de todo, ya que los contratos "buenos" son los que han sido aceptadas por las dos partes: el trabajo y la gestin. Tal vez esta estructura refleja compromisos que haba que hacer para llegar a un acuerdo. Este tipo de razonamiento detallado sobre qu partes de los rboles de decisin quieren decir es una buena manera de conocer los datos y reflexiones sobre el problema subyacente. De hecho, la figura 1.3 (b) es una representacin ms precisa de la formacin de datos de la Figura 1.3 (a). Pero no es necesariamente una representacin ms precisa del concepto subyacente del bien contra el mal contratos. Aunque es ms precisa sobre los datos que se utilizan para entrenar el clasificador, puede realizar tan bien en un conjunto independiente de datos de prueba. Puede ser "overfitted" para los datos de entrenamiento despus tambin servilmente. El rbol de la figura 1.3 (a) se obtiene a partir de la Figura 1.3 (b) por un proceso de poda, lo que vamos a aprender ms acerca de en el captulo 6. SOJA CLASIFICACIN: A MACHINE LEARNING SUCCESS CLASSIC Una historia de xito prematuro a menudo citado en la aplicacin de la mquina de aprendizaje a los problemas prcticos es la identificacin de las normas para el diagnstico de enfermedades de la soja. Los datos proceden de cuestionarios que describen enfermedades de las plantas. Hay alrededor de 680 ejemplos, cada uno representando una planta enferma. Las plantas se midieron en 35 atributos, cada uno con un pequeo conjunto de posibles valores. Los ejemplos se etiquetan con el diagnstico de un experto en biologa de las plantas: Hay 19 categoras de enfermedades por completo horriblesounding enfermedades como el cancro del tallo Diaporthe, rhizoctonia pudricin de la raz y tizn bacteriano, por mencionar slo algunos. Tabla 1.7 proporciona los atributos, el nmero de valores diferentes que cada uno pueda tener, y un registro de la muestra para una planta en particular. Los atributos se colocan en diferentes categoras slo para que sean ms fciles de leer. Aqu hay dos reglas de ejemplo, se enter de estos datos:
Estas reglas ilustran muy bien el papel potencial de los conocimientos previos a menudo llamado conocimiento del dominio en el aprendizaje de mquina, para, de hecho, la nica diferencia entre las dos descripciones es condicin de la hoja es normal frente malformacin hoja est ausente. Ahora, en este dominio, si la condicin de la hoja es normal entonces malformacin hoja es necesariamente ausente, por lo que una de estas condiciones pasa a ser un caso especial de la otra. Por lo tanto, si la primera regla es cierta, la segunda es necesariamente cierto. La nica vez que la segunda regla entra en juego es cuando malformacin hoja est ausente, pero condicin de la hoja no es normal, es decir, cuando algo ms que la malformacin es malo en la hoja. Esto ciertamente no es evidente a partir de una lectura superficial de las reglas. La investigacin sobre este problema en la dcada de 1970 encontr que estas reglas de diagnstico podran ser generados por un algoritmo de aprendizaje de mquina, junto con las reglas de cada categora de enfermedad, a partir de unos 300 ejemplos de entrenamiento. Estos ejemplos de entrenamiento fueron cuidadosamente seleccionados del corpus de los casos por ser muy diferente de unos a otros "distantes" en el espacio de ejemplo. Al mismo tiempo, el patlogo de plantas que haban producido los diagnsticos fue entrevistado, y su experiencia se tradujo
en reglas de diagnstico. Sorprendentemente, las reglas generadas por ordenador superaron a las reglas de experto derivados en los ejemplos de ensayo restantes. La enfermedad se sita en el lugar correcto el 97,5% ms de las veces en comparacin con slo el 72% de las normas derivadas de expertos. Adems, no slo el algoritmo de aprendizaje encontrar reglas que superaron las del colaborador experto, pero el mismo experto qued tan impresionado que supuestamente adopt las reglas descubiertas en lugar de su propio! 1.3 APLICACIONES ENVI Los ejemplos que hemos abierto con los proyectos de investigacin son especulativos, no los sistemas de produccin. Y las cifras anteriores son problemas de juguete: Se eligen deliberadamente para ser pequeos para que podamos usarlos para trabajar a travs de algoritmos ms adelante en el libro. Dnde est la carne? Estas son algunas de las aplicaciones de la mquina de aprendizaje que de hecho se han puesto en uso. Ser aplicaciones desplegadas, los ejemplos que siguen tienden a resaltar el uso de aprendizaje en situaciones de rendimiento, en el que el nfasis est en la capacidad de realizar bien en nuevos ejemplos. Este libro tambin describe el uso de los sistemas de aprendizaje para adquirir conocimientos de las estructuras de toma de decisiones que se deducen de los datos. Creemos que esto es tan importante probablemente an ms importante en el largo plazo un uso de la tecnologa como hacer predicciones de alto rendimiento. Sin embargo, tender a ser baja representacin en las aplicaciones desplegadas por el aprendizaje de las tcnicas se utilizan para obtener una perspectiva, el resultado no suele ser un sistema que se puso a trabajar como una aplicacin en su propio derecho. Sin embargo, en tres de los siguientes ejemplos, el hecho de que la estructura de decisin es comprensible es una caracterstica clave en la adopcin con xito de la aplicacin.
Web Mining Minera informacin en la World Wide Web es un rea de crecimiento explosivo. Compaas de motores de bsqueda examinan los hipervnculos en las pginas web para llegar a una medida de "prestigio" para cada pgina web y el sitio web. Los diccionarios definen el prestigio de "alto standing logrado a travs del xito o influencia." Un llamado PageRank mtrica, introducida por los fundadores de Google y tambin se utiliza en diversas formas por otros desarrolladores de motores de bsqueda, los intentos de medir la posicin de una pgina web. Cuantas ms pginas que enlazan a su sitio web, mayor es su prestigio, sobre todo si las pginas que enlazan en son de elevado nivel a s mismos. La definicin suena circular, pero puede ser hecho para trabajar. Los motores de bsqueda utilizan PageRank (entre otras cosas) para clasificar las pginas web en orden antes de mostrar los resultados de su bsqueda. Otra forma en que los motores de bsqueda frente al problema de cmo clasificar las pginas web es el uso de la mquina para el aprendizaje basado en un entrenamiento conjunto de ejemplos de consultas de documentos que contienen los trminos en los juicios de consulta y humanos sobre la relevancia de los documentos que se van a esa consulta. A continuacin, un algoritmo de aprendizaje analiza estos datos de entrenamiento y se le ocurre una manera de predecir el juicio la pertinencia de cualquier documento y consulta. Para cada documento, se calcula un conjunto de valores de caracterstica que depende del trmino de la consulta, por ejemplo, si se produce en la etiqueta del ttulo, ya sea que ocurra en la direccin URL del documento, la frecuencia con que se produce en el propio documento, y la frecuencia con que aparece en el texto de anclaje de los hipervnculos que apuntan al documento. Para consultas MULTITERM caractersticas incluyen la frecuencia dos trminos diferentes aparecen juntos en el documento, y as sucesivamente. Hay muchas caractersticas posibles algoritmos tpicos de filas de aprendizaje utilizan cientos o miles de ellos. Los motores de bsqueda minar el contenido de la Web. Tambin minar el contenido de las consultas de los trminos que usted busca para seleccionar los anuncios que podra estar interesado pulg Ellos tienen un fuerte incentivo para hacerlo con precisin, ya que se les paga por los anunciantes slo cuando los usuarios hacen clic en sus enlaces. Compaas de motores de bsqueda minan los clics, porque el conocimiento de que los resultados se hace clic en se pueden utilizar para mejorar la bsqueda de la prxima vez. Libreros en lnea minar la base de datos de compra para llegar a recomendaciones tales como "los usuarios que han comprado este libro tambin han comprado estos queridos", de nuevo, tienen un fuerte incentivo para presentarle atractivos, opciones personalizadas. Sitios Pelcula recomiendan las pelculas basadas en sus opciones y decisiones anteriores de otras personas que ganan si hacen recomendaciones que los clientes regresen a su sitio web. Y luego estn las redes sociales y otros datos personales. Vivimos en la era de la auto-revelacin: La gente comparte sus pensamientos ms ntimos en blogs y tweets, sus fotografas, su msica y gustos de cine, las opiniones de los libros, software, gadgets, y los hoteles, su vida social. Ellos pueden creer que estn haciendo esto de forma annima o bajo seudnimo, pero a menudo son incorrectas (ver seccin 1.6). Existe un enorme inters comercial en hacer dinero por la minera de la Web. LAS DECISIONES QUE IMPLICAN JUICIO Cuando usted solicita un prstamo, usted tiene que llenar un cuestionario solicitando informacin financiera y personal relevante. Esta informacin es utilizada por la compaa de prstamos como base para su decisin en cuanto a si prestarle dinero. Estas decisiones se hacen tpicamente en dos etapas. En primer lugar, se utilizan mtodos estadsticos para determinar claro "aceptar" y "rechazar" casos. Los casos dudosos restantes son ms difciles y requieren juicio humano. Por ejemplo, una compaa de prstamos utiliza un procedimiento de decisin estadstica para calcular un parmetro numrico basado en la informacin suministrada en el cuestionario. Los solicitantes son aceptados si este parmetro excede un umbral preestablecido y rechazadas si cae por debajo de un segundo umbral. Esto representa el 90% de los casos y el 10% restante se hace referencia a los oficiales de crdito de una decisin. Al examinar los datos histricos sobre si los solicitantes efectivamente pagan sus prstamos, sin embargo, result que la mitad de los candidatos dudosos que hayan recibido prstamos en realidad Fallidos. Aunque sera tentador simplemente negar crdito a los clientes dudosos, profesionales de la industria de crdito sealan que si slo su pago futuro pudiera determinarse de forma fiable, son precisamente estos clientes cuyo negocio debe ser cortejada, sino que tienden a ser clientes activos de una entidad de crdito debido a que sus finanzas, se mantienen en un crnicamente condiciones voltiles. Un compromiso adecuado debe alcanzarse entre el punto de vista de un contador de la empresa, que no le gusta la morosidad, y la de un ejecutivo de ventas, que no le gusta girar negocio lejos. Introduzca el aprendizaje automtico. La entrada era 1.000 ejemplos de entrenamiento de los casos dudosos para los
que se haba hecho un prstamo que especifica si el prestatario por fin haba dado sus frutos o en mora. Para cada ejemplo de entrenamiento, cerca de 20 atributos fueron extrados de la encuesta, como la edad, los aos con empresa actual, Aos en la direccin actual, ao en el banco, y otras tarjetas de crdito posean. Un procedimiento de aprendizaje automtico se utiliza para producir un pequeo conjunto de reglas de clasificacin que hicieron predicciones correctas en dos tercios de los casos lmite en un conjunto de pruebas elegido de forma independiente. No slo estas reglas mejorar la tasa de xito de las decisiones de prstamo, pero la empresa tambin se encuentran atractivos, ya que pueden ser utilizados para explicar a los solicitantes de las razones detrs de la decisin. Aunque el proyecto fue un ao de exploracin que tuvo slo un pequeo esfuerzo de desarrollo, la compaa de prstamos fue aparentemente tan contento con el resultado de que las reglas fueron puestas en uso inmediatamente. SCREENING IMGENES Desde los primeros das de la tecnologa de satlites, los cientficos ambientales han estado tratando de detectar manchas de petrleo a partir de imgenes de satlite para dar alerta temprana de desastres ecolgicos y disuadir el vertido ilegal. Satlites radar proporcionan una oportunidad para vigilar las aguas costeras da y de noche, independientemente de las condiciones meteorolgicas. Las manchas de petrleo aparecen como zonas oscuras en la imagen, el tamao y la forma de que evolucionan en funcin de las condiciones climticas y del mar. Sin embargo, otras regiones que parezcan oscuras pueden ser causadas por condiciones climticas locales, tales como vientos fuertes. Deteccin de manchas de petrleo es un proceso manual costoso que requiere personal altamente capacitado que evalan cada regin de la imagen. Un sistema de deteccin de peligros se ha preparado a la pantalla de imgenes para el procesamiento manual posterior. Destinados a ser comercializados en todo el mundo a una amplia variedad de usuarios de los organismos gubernamentales y empresas con diferentes objetivos, aplicaciones y reas geogrficas, este sistema debe ser altamente adaptable a las circunstancias individuales. El aprendizaje automtico permite al sistema ser entrenado en ejemplos de derrames y nonspills suministrados por el usuario y permite al usuario controlar el compromiso entre los derrames detectados y falsas alarmas. A diferencia de otras aplicaciones de aprendizaje de mquina, que generan un clasificador que se despliega a continuacin en el campo, aqu es el rgimen de aprendizaje en s mismo que se va a implementar. La entrada es un conjunto de imgenes de pxeles primas desde un satlite de radar, y la salida es un conjunto mucho ms pequeo de imgenes con putativo mareas negras marcadas por un borde de color. En primer lugar, las operaciones de procesamiento de imgenes estndar se aplican para normalizar la imagen. A continuacin, se identifican las regiones oscuras sospechosas. Varias docenas de atributos se extraen de cada regin, la caracterizacin de su tamao, forma, la superficie, la intensidad, la nitidez y jaggedness de los lmites, la proximidad a otras regiones, y la informacin acerca de los antecedentes en la proximidad de la regin. Por ltimo, las tcnicas de aprendizaje estndar se aplican a los vectores de atributos resultantes. Se han encontrado varios problemas interesantes. Uno de ellos fue la escasez de datos de entrenamiento. Las mareas negras son (afortunadamente) muy raros, y la clasificacin manual es muy costoso. Otra fue la naturaleza desequilibrada del problema: De las muchas zonas oscuras en los datos de entrenamiento, slo una fraccin muy pequea eran manchas de petrleo reales. Una tercera es que los ejemplos naturalmente agrupados en lotes, con regiones extradas de cada imagen de la formacin de un nico lote, y las caractersticas de fondo varan de un lote a otro. Por ltimo, la tarea de rendimiento era servir como un filtro, y el usuario tena que estar provistos de un medio conveniente de la variacin de la tasa de falsas alarmas. CARGAR FORECASTING En el sector de suministro de energa elctrica, es importante para determinar la demanda futura de energa con la mayor antelacin posible. Si las estimaciones exactas pueden ser hechas para la carga mxima y mnima para cada hora, da, mes, temporada y ao, las empresas de servicios pblicos pueden hacer importantes economas en reas tales como el establecimiento de la reserva operacional, programacin del mantenimiento y la gestin de inventarios de combustible. Un asistente previsin de cargas automatizado ha estado operando en un importante proveedor de servicios pblicos por ms de una dcada para generar previsiones por hora con dos das de antelacin. El primer paso fue usar los datos recogidos durante los ltimos 15 aos para crear un modelo de carga sofisticada manualmente. Este modelo tiene tres componentes: la base de carga para el ao, cargue la periodicidad en el ao, y el efecto de los das festivos. Para
normalizar la carga base, los datos correspondientes a cada ao anterior se normaliz restando la carga promedio para ese ao de cada una lectura cada hora y dividiendo por la desviacin estndar en el ao. Carga elctrica muestra la periodicidad en tres frecuencias fundamentales: diurnos, donde el uso tiene un mnimo de la maana y el medioda y la tarde; mximos semanales, donde la demanda es ms baja en los fines de semana, y de temporada, donde el aumento de la demanda durante el invierno y el verano para la calefaccin y la refrigeracin, respectivamente, crea un ciclo anual. Las principales fiestas, como Accin de Gracias, Navidad y Ao Nuevo, muestran una variacin significativa de la carga normal y cada uno modelado por separado el promedio de cargas por hora de ese da en los ltimos 15 aos. Das de fiesta oficiales menores, como Da de la Raza, se agrupan como las vacaciones escolares y tratados como una compensacin al patrn diurno normal. Todos estos efectos se incorporan mediante la reconstruccin de la carga de un ao como una secuencia de das tpicos, el montaje de los das de fiesta en su posicin correcta, y desnormalizar la carga para tener en cuenta el crecimiento general. Hasta ahora, el modelo de carga es un ser esttico, construida manualmente a partir de datos histricos, y se asume implcitamente las condiciones "normales" climticas durante todo el ao. La etapa final fue de tomar en cuenta las condiciones climticas localizando el da anterior ms similar a las circunstancias actuales y el uso de la informacin histrica de que da como predictor. La prediccin se trata como una correccin aditivo para el modelo de carga esttica. Para protegerse de los valores extremos, de los ocho das ms similares se encuentran y sus correcciones aditivas promedio. Una base de datos se construy de la temperatura, humedad, velocidad del viento, y la cubierta de nubes en tres centros locales del tiempo para cada hora del registro histrico de 15 aos, junto con la diferencia entre la carga real y la que predice el modelo esttico. Un anlisis de regresin lineal se realiz para determinar los efectos relativos de estos parmetros en la carga, y los coeficientes se utiliza para ponderar la funcin de distancia se utiliza para localizar los das ms similares. El sistema resultante se obtiene el mismo rendimiento que el de los pronosticadores humanos capacitados, pero era mucho ms rpido teniendo segundos en lugar de horas para generar un pronstico diario. Los operadores humanos pueden analizar la sensibilidad de la previsin de los cambios simulados en tiempo y llevar a examen los das "ms similares" que el sistema utiliza para el ajuste de tiempo. DIAGNSTICO El diagnstico es una de las principales reas de aplicacin de los sistemas expertos. Aunque las reglas artesanales utilizadas en sistemas expertos a menudo funcionan bien, aprendizaje de mquina puede ser til en situaciones en las que las reglas productoras de forma manual es demasiado trabajo. El mantenimiento preventivo de los equipos electromecnicos, tales como motores y generadores puede prevenir fallas que interrumpen los procesos industriales. Los tcnicos inspeccionan peridicamente cada dispositivo, la medicin de vibraciones en varios puntos para determinar si el dispositivo necesita reparacin. Fallas tpicas incluyen desalineacin del eje, aflojamiento mecnico, cojinetes defectuosos, y las bombas no balanceadas. Una planta qumica en particular utiliza ms de 1.000 dispositivos diferentes, que van desde bombas pequeas a muy grandes turbo-alternadores, que hasta hace poco fueron diagnosticados por un experto humano con 20 o ms aos de experiencia. Los fallos se identificaron mediante la medicin de vibraciones en diferentes lugares de montaje del dispositivo y el uso de anlisis de Fourier para comprobar la energa presente en tres direcciones diferentes en cada armnico de la velocidad de rotacin bsica. Esta informacin, que es muy ruidoso debido a las limitaciones en la medicin y el procedimiento de grabacin, se estudi por el experto para llegar a un diagnstico. Aunque las reglas artesanales de sistemas expertos haban sido desarrollados para algunas situaciones, el proceso de elicitacin tendra que repetirse varias veces para diferentes tipos de mquinas, de modo que se ha investigado un enfoque de aprendizaje. Seiscientos fallos, cada uno integrado por un conjunto de medidas, junto con el diagnstico de los expertos, se dispuso, en representacin de 20 aos de experiencia. Alrededor de la mitad eran insatisfactoria por varias razones y tuvo que ser descartada, y el resto se utiliza como ejemplos de entrenamiento. El objetivo no era determinar si exista o no un fallo pero para diagnosticar el tipo de fallo, dado que uno estaba all. Por lo tanto, no haba necesidad de incluir los casos libres de fallos en el conjunto de entrenamiento. Los atributos medidos eran bastante bajo nivel y tuvo que ser aumentada por conceptos intermedios, es decir, las funciones de los atributos bsicos que se definieron en consulta con el experto y encarnan un poco de conocimiento de dominio causal. Los atributos derivados se llevaron a cabo a travs de un algoritmo de induccin para producir un conjunto de reglas de diagnstico. Inicialmente, el experto no estaba satisfecho con las reglas porque no les poda relacionarse con su propio conocimiento y experiencia. Para l, la simple evidencia estadstica no era, en s misma, una explicacin adecuada. Profundizar en los conocimientos de fondo tuvo
que ser utilizado antes de que se generan normas satisfactorias. Aunque las reglas resultantes eran bastante complejo, el experto les gustaba porque poda justificar a la luz de su conocimiento mecnico. Era satisfecho de que un tercio de las normas coincidi con los que us l y estaba encantado de tener una nueva visin de algunos de los otros. Las pruebas de rendimiento indicaron que las reglas aprendidas fueron ligeramente superiores a las hechas a mano que haban sido provocados de los expertos, y este resultado fue confirmado por su uso posterior en la fbrica de productos qumicos. Es interesante notar, sin embargo, que el sistema se puso en funcionamiento, no por su buen desempeo, sino por el dominio de expertos aprob las normas que haban sido aprendidas. MARKETING Y VENTAS Algunas de las aplicaciones ms activos de minera de datos han estado en el rea de marketing y ventas. Se trata de esferas en las que las empresas poseen grandes volmenes de datos registrados con precisin, lo que se ha dado cuenta hace poco, es potencialmente muy valiosa. En estas aplicaciones, las propias predicciones son el inters principal: la estructura de cmo se toman las decisiones a menudo es completamente irrelevante. Ya hemos mencionado el problema de la fidelidad de los clientes inconstante y el reto de detectar los clientes que es probable que desertar, para que puedan ser cortejados de vuelta al redil, dndoles un tratamiento especial. Los bancos fueron los primeros en adoptar la tecnologa de minera de datos, debido a sus xitos en el uso de la mquina de aprendizaje de la evaluacin de crdito. La minera de datos se est utilizando para reducir el desgaste de los clientes mediante la deteccin de cambios en los patrones bancarios individuales que pueden anunciar un cambio de banco, o incluso los cambios de la vida, como mudarse a otra ciudad, que pueden resultar en un banco diferente de ser elegido. Se puede revelar, por ejemplo, un grupo de clientes con tasa de desgaste superior a la media que lo hacen la mayora de sus transacciones bancarias por telfono despus de horas cuando telfono de respuesta es lenta. La minera de datos puede determinar los grupos a los que nuevos servicios sean apropiados, como por ejemplo un grupo de clientes rentables, confiables que rara vez reciben adelantos en efectivo de sus tarjetas de crdito, excepto en los meses de noviembre y diciembre, cuando estn dispuestos a pagar tasas de inters exorbitantes para verlos a travs de la temporada de vacaciones. En otro mbito, las empresas de telefona celular pelea rotacin mediante la deteccin de patrones de comportamiento que podran beneficiarse de nuevos servicios y, a continuacin, anunciar dichos servicios para mantener su base de clientes. Los incentivos previstos especficamente para retener a los clientes existentes pueden ser costosas, y la minera de datos con xito les permite ser dirigidos precisamente a aquellos clientes que tienen probabilidades de obtener el mximo beneficio. Anlisis de la cesta de mercado es el uso de tcnicas de asociacin de encontrar grupos de elementos que tienden a ocurrir juntos en las transacciones, por lo general de datos caja del supermercado. Para muchos minoristas esta es la nica fuente de informacin de ventas que est disponible para la minera de datos. Por ejemplo, el anlisis automatizado de los datos de comprobacin puede revelar el hecho de que los clientes que compran cerveza tambin compran fichas, un descubrimiento que podra ser importante desde el punto de vista del operador de supermercados (aunque ms bien una obvia que probablemente no necesita un ejercicio de minera de datos para descubrir). O anlisis que pueda llegar con el hecho de que el jueves los clientes suelen comprar paales y cerveza juntos, un resultado inicialmente sorprendente que, pensndolo bien, tiene sentido que los padres jvenes abastecerse para un fin de semana en casa. Esta informacin podra ser utilizada para muchos propsitos: la planificacin de layouts tiendas, lo que limita los descuentos especiales para slo uno de una serie de elementos que tienden a ser adquiridos en conjunto, que ofrece cupones de productos que correspondan cuando uno de ellos se vende solo, y as sucesivamente. Hay un enorme valor aadido de ser capaz de identificar las historias de ventas del cliente individual. De descuento o tarjetas de "lealtad" minoristas permiten identificar todas las compras que cada cliente hace. Estos datos personales es mucho ms valioso que el valor en efectivo del descuento. Identificacin de los clientes individuales no slo permite el anlisis histrico de los patrones de compra, sino tambin permite un objetivo preciso ofertas especiales para ser enviados por correo a los clientes potenciales o quiz cupones personalizados se pueden imprimir en tiempo real en la caja para su uso durante la prxima ejecucin de comestibles. Supermercados queremos que se sienta que aunque vivamos en un mundo de manera inexorable aumento de los precios, que no aumentan tanto para usted, porque las gangas que ofrece cupones personalizados hacen atractivo para que usted pueda abastecerse de las cosas que normalmente no ha comprado. El marketing directo es otro dominio popular para la minera de datos. Ofertas promocionales a granel electrnico son caros y tienen una tasa baja, pero muy rentable respuesta. Cualquier cosa que ayuda a promociones de enfoque, el
logro de la misma o casi la misma respuesta de una muestra ms pequea, es valiosa. Bases de datos disponibles en el mercado que contienen informacin demogrfica que caracteriza a los barrios sobre la base de los cdigos postales se pueden correlacionar con la informacin sobre los clientes existentes para predecir qu tipo de gente que puede comprar artculos. Este modelo se prob en la informacin obtenida en respuesta a una mailout inicial, donde las personas envan una tarjeta de respuesta o llamar a un nmero 800 para obtener ms informacin, predecir posibles futuros clientes. A diferencia de los minoristas de centros comerciales, empresas de correo directo tienen historias de compras completas para cada cliente y pueden utilizar la minera de datos para determinar aquellos que puedan responder a las ofertas especiales. Las campaas especficas a ahorrar dinero al dirigir ofertas slo a aquellos que se desea que el producto. OTRAS APLICACIONES Hay un sinnmero de otras aplicaciones de aprendizaje automtico. Mencionamos brevemente unas pocas reas ms para ilustrar la amplitud de lo que se ha hecho. Procesos de fabricacin sofisticados a menudo implican parmetros de control ajuste. La separacin de crudo a partir del gas natural es un requisito esencial para el refinamiento de petrleo, y el control del proceso de separacin es un trabajo difcil. British Petroleum utiliza aprendizaje automtico para crear reglas de fijacin de los parmetros. Esto ahora toma slo 10 minutos, mientras que los expertos anteriormente humanos tuvieron ms de un da. Westinghouse enfrenta problemas en su proceso para la fabricacin de pastillas de combustible nuclear y de aprendizaje de la mquina utilizado para crear reglas para controlar el proceso. As lo inform a los han ahorrado ms de $ 10 millones por ao (en 1984). El Tennessee empresa de impresin RR Donnelly aplica la misma idea de controlar las prensas de impresin de rotograbado para reducir los artefactos causados por los ajustes de parmetros no apropiado, reducir el nmero de artefactos de ms de 500 cada ao a menos de 30. En el mbito de la atencin al cliente y el servicio, que ya hemos descrito adjudicacin de crditos y de marketing y ventas de aplicaciones. Otro ejemplo se produce cuando un cliente informa de un problema de telfono y la empresa debe decidir qu tipo de tcnico que se asigna al trabajo. Un sistema experto desarrollado por Bell Atlantic en 1991 para tomar esta decisin fue reemplazado en 1999 por un conjunto de normas desarrolladas utilizando la mquina de aprendizaje, que salv a ms de $ 10 millones por ao, haciendo menos decisiones incorrectas. Hay muchas aplicaciones cientficas. En biologa, se utiliza la mquina de aprendizaje para ayudar a identificar a los miles de genes dentro de cada nuevo genoma. En biomedicina, que se utiliza para predecir la actividad del frmaco mediante el anlisis no slo las propiedades qumicas de las drogas, sino tambin a su estructura tridimensional. Esto acelera el descubrimiento de frmacos y reduce su coste. En astronoma, el aprendizaje de la mquina ha sido utilizada para desarrollar un sistema de catalogacin totalmente automtico para los objetos celestes que son demasiado dbiles para ser visto por inspeccin visual. En qumica, se ha utilizado para predecir la estructura de ciertos compuestos orgnicos a partir de los espectros de resonancia magntica. En todas estas aplicaciones, tcnicas de aprendizaje mquina han alcanzado niveles de rendimiento o deberamos decir habilidad? que rivalizan o superan las de los expertos humanos. Automatizacin es especialmente bienvenida en situaciones de monitorizacin continua, un trabajo que requiere mucho tiempo y excepcionalmente aburrido para los humanos. Aplicaciones ecolgicas incluyen la vigilancia del derrame de petrleo se ha descrito anteriormente. Otras aplicaciones son bastante menos consecuencias por ejemplo, aprendizaje de mquina se utiliza para predecir las preferencias de los programas de televisin basados en las elecciones pasadas y asesorar a los televidentes sobre los canales disponibles. Todava otras aplicaciones pueden salvar vidas. Los pacientes de cuidados intensivos pueden ser monitorizados para detectar cambios en las variables que no pueden ser explicados por el ritmo circadiano, la medicacin, y as sucesivamente, levantando una alarma cuando sea apropiado. Por ltimo, en un mundo que se basa en los sistemas informticos en red vulnerables y est cada vez ms preocupado por la seguridad ciberntica, el aprendizaje de mquina se utiliza para la deteccin de intrusos mediante el reconocimiento de patrones inusuales de operaciones. 1.4 APRENDIZAJE Y ESTADSTICA DE LA MQUINA Cul es la diferencia entre el aprendizaje de la mquina y las estadsticas? Los cnicos, mirando con irona a la explosin del inters comercial (y la publicidad) en esta rea, equiparan la minera de datos para las estadsticas, ms de marketing. En verdad, no se debe buscar una lnea divisoria entre el aprendizaje automtico y la estadstica, porque hay un continuo y uno multidimensional a la de las tcnicas de anlisis de datos. Algunos derivan de las habilidades que se ensean en los cursos de estadstica estndar, y otros estn ms estrechamente relacionados con el tipo de aprendizaje
automtico que ha surgido de la informtica. Histricamente, las dos partes han tenido lugar diferentes tradiciones. Si se ve obligado a sealar a una nica diferencia de nfasis, podra ser que las estadsticas se ha preocupado ms por la comprobacin de hiptesis, mientras que la mquina de aprendizaje ha sido ms que ver con la formulacin del proceso de generalizacin como una bsqueda a travs de posibles hiptesis. Pero esto es una simplificacin excesiva: La estadstica es mucho ms que la prueba de hiptesis, y muchas tcnicas de aprendizaje automtico no implican ninguna bsqueda en absoluto. En el pasado, los sistemas muy similares se han desarrollado en paralelo en la mquina de aprendizaje y las estadsticas. Una de ellas es la decisin de induccin rbol. Cuatro estadsticos (Breiman et al., 1984) public un libro, de clasificacin y regresin rboles, a mediados de la dcada de 1980, ya lo largo de la dcada de 1970 y principios de 1980 un prominente investigador de la mquina de aprendizaje, J. Ross Quinlan, estaba desarrollando un sistema para deducir la clasificacin rboles de ejemplos. Estos dos proyectos independientes producen esquemas muy similares para la generacin de rboles a partir de ejemplos, y los investigadores slo se dieron cuenta de su trabajo de otra mucho ms tarde. Una segunda rea en la que han surgido mtodos similares implica el uso de mtodos de vecinos ms cercanos para la clasificacin. Se trata de tcnicas estadsticas estndar que han sido adaptados ampliamente por investigadores de aprendizaje automtico, tanto para mejorar el rendimiento de clasificacin y para hacer el procedimiento ms eficiente computacionalmente. Vamos a examinar la induccin de rbol de decisin y los mtodos de vecino ms cercano en el captulo 4. Pero ahora las dos perspectivas han convergido. Las tcnicas que examinaremos en este libro incorpora una gran cantidad de pensamiento estadstico. Desde el principio, en la construccin y perfeccionamiento del conjunto de ejemplo inicial, se aplican mtodos estadsticos estndar: visualizacin de los datos, la seleccin de atributos, valores atpicos descartando, y as sucesivamente. La mayora de los algoritmos de aprendizaje utilizan pruebas estadsticas en la construccin de las normas o los rboles y para la correccin de los modelos que se "overfitted" ya que dependen demasiado en los detalles de los ejemplos particulares utilizadas para su produccin (que ya hemos visto un ejemplo de esto en las dos decisiones rboles en la Figura 1.3 para el problema de las negociaciones laborales). Las pruebas estadsticas se utilizan para validar modelos de aprendizaje de la mquina y para evaluar los algoritmos de aprendizaje automtico. En nuestro estudio de tcnicas prcticas para la minera de datos, vamos a aprender mucho acerca de las estadsticas. 1.5 GENERALIZACIN BUSCAR Una manera de visualizar el problema de aprendizaje y uno que lo distingue de los enfoques estadsticos es imaginar una bsqueda a travs de un espacio de posibles descripciones de concepto para que se ajuste a los datos. Aunque la idea de la generalizacin de bsqueda es una poderosa herramienta conceptual para pensar acerca de la mquina de aprendizaje, no es esencial para la comprensin de los esquemas prcticos descritos en este libro. Es por ello que esta seccin se distingue (en caja), lo que sugiere que es opcional. Supongamos, por definiteness, ese concepto descripciones del resultado del aprendizaje se expresan en normas tales como las dadas para el problema del tiempo en la Seccin 1.2 (aunque otras descripcin concepto idiomas haran igual de bien). Supongamos que una lista de todos los posibles conjuntos de reglas y luego busque los que cumplen un conjunto de ejemplos. Un gran trabajo? S. Un trabajo infinito? A primera vista parece ser as porque no hay lmite para el nmero de reglas que pudiera haber. Pero en realidad el nmero de posibles conjuntos de reglas es finito. Tenga en cuenta que cada primera regla no es mayor que un tamao mximo fijo, con a lo sumo un trmino para cada atributo: Para los datos meteorolgicos de la Tabla 1.2 se trata de cuatro trminos en todo. Debido a que el nmero de posibles reglas es finito, el nmero de posibles conjuntos de reglas es finito tambin, aunque extremadamente grande. Sin embargo, nos gustara apenas estar interesado en los sistemas que contienen un gran nmero de reglas. De hecho, tendramos apenas estar interesado en sets que tenan ms reglas que los que hay ejemplos, ya que es difcil imaginar que necesitan ms de una regla para cada ejemplo. As que si tuviramos que restringir el examen para descartar conjuntos ms pequeos que eso, el problema se reducira considerablemente, aunque sigue siendo muy grande. La amenaza de un nmero infinito de posibles descripciones de concepto parece ms grave para la segunda versin del problema del tiempo en el Cuadro 1.3 porque estas reglas contienen nmeros. Si son nmeros reales, no se puede enumerar, ni siquiera en principio. Sin embargo, en la reflexin el problema desaparece de nuevo debido a que los nmeros realmente slo representan puntos de interrupcin en los valores numricos que aparecen en los ejemplos.
Por ejemplo, considere el atributo de la temperatura en la Tabla 1.3. Se trata de los nmeros 64, 65, 68, 69, 70, 71, 72, 75, 80, 81, 83 y 85 a 12 nmeros diferentes. Hay 13 posibles lugares en los que podramos querer para poner un punto de interrupcin para una regla de participacin de la temperatura. El problema no es infinito, despus de todo. Por lo tanto el proceso de generalizacin puede ser considerada como una bsqueda a travs de una enorme, pero el espacio finito, de bsqueda. En principio, el problema se puede resolver mediante la enumeracin de las descripciones y ponch a aquellos que no encajan en los ejemplos presentados. Un ejemplo positivo elimina todas las descripciones que no coincida, y negativa elimina los hace coincidir. Con cada ejemplo el conjunto de descripciones se encoge restantes (o sigue siendo el mismo). Si slo queda uno, es la descripcin-el concepto de destino objetivo. Si varias descripciones se dejan, todava se pueden utilizar para clasificar objetos desconocidos. Un objeto desconocido que coincide con todas las descripciones restantes debe ser clasificado como juego el objetivo, y si no coincide ninguna descripcin debe clasificarse como fuera del concepto objetivo. Slo cuando coincide con algunas descripciones, pero no en otros hay ambigedad. En este caso, si la clasificacin del objeto desconocido se revel, que hara que el conjunto de descripciones restantes a disminuir porque los conjuntos de reglas que clasifican el objeto en sentido contrario sera rechazada. ENUMERAR EL ESPACIO CONCEPT En cuanto a lo que busca es una buena manera de ver el proceso de aprendizaje. Sin embargo, el espacio de bsqueda, aunque finito, es extremadamente grande, y por lo general es bastante poco prctico enumerar todas las descripciones posibles y luego ver que encajan queridos. En el problema del tiempo que hay 4 4 3 3 2 = 288 posibilidades de cada regla. Hay cuatro posibilidades para el atributo perspectivas: soleado, nublado, lluvioso, o no puede participar en la regla en absoluto. Del mismo modo, hay cuatro para la temperatura, tres cada uno para mucho viento y humedad y dos para la clase. Si restringimos el conjunto de reglas para contener no ms de 14 normas (porque hay 14 ejemplos en el conjunto de entrenamiento), hay alrededor de 2,7 1034 posibles diferentes conjuntos de reglas. Eso es un montn de enumerar, sobre todo para un problema tan patentemente trivial. Aunque hay formas de hacer que el procedimiento de enumeracin ms factible, sigue siendo un grave problema: En la prctica, es raro que el proceso para converger en una descripcin nica aceptable. Cualquiera de muchas descripciones siguen en la carrera despus de los ejemplos que se procesan o los descriptores estn eliminados. Surge el primer caso, cuando los ejemplos no son lo suficientemente amplia para eliminar todas las descripciones posibles a excepcin de la "correcta". En la prctica, las personas a menudo quieren un nico "mejor" descripcin, y es necesario aplicar otros criterios para seleccionar la mejor de la serie de descripciones restantes. El segundo problema surge ya sea debido a que el lenguaje de descripcin no es lo suficientemente expresivas para capturar el concepto real o debido al ruido en los ejemplos. Si viene en un ejemplo con la clasificacin "mal" debido a un error en algunos de los valores de los atributos o en la clase que se asigna a la misma, es probable que esto eliminara la descripcin correcta del espacio. El resultado es que el conjunto de descripciones restantes se convierte en vaco. Esta situacin es muy probable que ocurra si los ejemplos contienen ningn ruido en absoluto, lo que inevitablemente lo hacen, salvo en situaciones artificiales. Otra forma de ver la generalizacin de bsqueda es de imaginar, no como un proceso de enumeracin de descripciones y ponch a los que no se aplican, sino como una especie de colina que sube en espacio de descripciones para encontrar la descripcin que mejor coincide con el conjunto de ejemplos segn con algn criterio coincidente especificado previamente. Esta es la forma ms prctica que la mquina de aprendizaje de mtodos de trabajo. Sin embargo, excepto en los casos ms triviales, no es prctico para buscar en todo el espacio de manera exhaustiva, algoritmos ms prcticas implican bsqueda heurstica y no se puede garantizar para encontrar la descripcin ptima. Parcialidad Viendo generalizacin como una bsqueda en un espacio de posibles conceptos deja en claro que las decisiones ms importantes en un sistema de aprendizaje automtico son: La descripcin del concepto del lenguaje El orden en el que se busca en el espacio La forma en que se evita el sobreajuste de los datos de entrenamiento especial Estas tres propiedades se conocen en general como el sesgo de la bsqueda y se llaman sesgo de idioma, el sesgo de bsqueda, y el sesgo de sobreajuste de evitacin. Usted sesgo del sistema de aprendizaje mediante la eleccin de un lenguaje para expresar los conceptos, mediante la bsqueda de una forma particular para una descripcin aceptable, y al decidir que el concepto se ha vuelto tan complejo que necesita ser simplificado. Sesgo Idioma
La pregunta ms importante de sesgo de idioma es si la descripcin del concepto del lenguaje es universal o si se impone restricciones sobre qu conceptos se pueden aprender. Si se tiene en cuenta el conjunto de todos los ejemplos posibles, el concepto es en realidad una divisin de ese conjunto en subconjuntos. En el ejemplo el clima, si tuviera que enumerar todas las condiciones climticas posibles, el concepto de juego es un subconjunto de las posibles condiciones meteorolgicas. Un lenguaje "universal" es uno que es capaz de expresar cada posible subconjunto de ejemplos. En la prctica, el conjunto de posibles ejemplos generalmente, es enorme, y en este sentido nuestro punto de vista es un uno terico, no prctico,. Si la descripcin del concepto del lenguaje permite declaraciones implican lgico o, es decir, disyunciones, entonces cualquier subconjunto se puede representar. Si est basado en normas del lenguaje de descripcin, disyuncin se puede lograr mediante el uso de reglas separadas. Por ejemplo, un posible concepto de representacin es slo para enumerar los ejemplos:
Esto no es una descripcin particularmente esclarecedor concepto: Simplemente graba los ejemplos positivos que se han observado y se supone que todos los dems son negativos. Cada ejemplo positivo se le da su propio gobierno, y el concepto es la disyuncin de las reglas. Alternativamente, usted podra imaginar tener reglas individuales para cada uno de los ejemplos negativos, tambin un concepto igualmente interesante. En cualquiera de los casos, la descripcin concepto no realiza ninguna generalizacin, sino que simplemente registra los datos originales. Por otro lado, si la disyuncin no est permitido, algunos conceptos posibles conjuntos de ejemplos no puede ser capaz de ser representado en absoluto. En ese caso, un sistema de aprendizaje de mquina puede ser simplemente incapaces de lograr un buen rendimiento. Otro tipo de sesgo de idioma que se obtiene a partir del conocimiento del dominio particular que se utilice. Por ejemplo, puede ser que algunas combinaciones de valores de atributo no puede ocurrir nunca. Este sera el caso si un atributo implicaba otra. Vimos un ejemplo de esto al considerar las normas para el problema de la soja se describe en la Seccin 1.2. Entonces no tendra sentido incluso a considerar conceptos que intervienen combinaciones redundantes o imposible de valores de los atributos. Conocimiento del dominio puede utilizarse para reducir el espacio de bsqueda. El conocimiento es poder: Un poco va un largo camino, e incluso una pequea pista puede reducir el espacio de bsqueda de forma espectacular. Buscar Blas En los problemas de minera de datos realistas, hay muchas descripciones de conceptos alternativos que se ajusten a los datos, y el problema es encontrar el "mejor" de un acuerdo con algn criterio general sencillez. Utilizamos el ajuste trmino en un sentido estadstico, buscamos la mejor descripcin que se ajusta a los datos razonablemente bien. Por otra parte, a menudo es computacionalmente imposible de buscar en todo el espacio y la garanta de que la descripcin se ha encontrado realmente es el mejor. Por lo tanto, la consulta de forma heurstica, y sin garantas se puede hacer acerca de la optimizacin del resultado final. Esto deja mucho espacio para el sesgo: bsqueda heurstica diferente sesgo la bsqueda de diferentes maneras. Por ejemplo, un algoritmo de aprendizaje podra adoptar una bsqueda de "codiciosos" de las normas, tratando de encontrar la mejor regla en cada etapa y agregarla al conjunto de reglas. Sin embargo, puede ser que el mejor par de reglas no es slo las dos reglas que se encuentran individualmente mejor. O cuando la construccin de un rbol de decisin, un compromiso para dividir principios sobre el uso de un atributo particular podra llegar ms tarde de ser mal considerado a la luz de cmo el rbol se desarrolla por debajo de ese nodo. Para evitar estos problemas, una bsqueda en haz podra utilizarse donde no se realizan compromisos irrevocables pero en lugar de un conjunto de varios activos alternativas-el nmero de los cuales es el haz ancho-se persiguen en paralelo. Esto complicar el algoritmo de
aprendizaje bastante considerablemente, pero tiene el potencial de evitar la miopa asociada con una bsqueda codiciosa. Por supuesto, si el ancho del haz no es lo suficientemente grande, puede todava se producen miopa. Hay estrategias de bsqueda ms complejos que ayudan a superar este problema. Un tipo ms general y de ms alto nivel de las preocupaciones de polarizacin de bsqueda si la bsqueda se realiza partiendo de una descripcin general y refinarlo o bien empezar con un ejemplo especfico y generalizarlo. El primero se denomina sesgo de bsqueda general a lo especfico, este ltimo, uno especfico a general. Muchos algoritmos de aprendizaje que adopten la poltica anterior, a partir de un rbol de decisin vaca o una regla muy general y especializada que se ajuste a los ejemplos. Sin embargo, es perfectamente posible trabajar en la otra direccin. Mtodos basados en instancias comienzan con un ejemplo particular y ver cmo se puede generalizar para cubrir otros ejemplos ms cercanos en la misma clase. Sesgo Overfitting-evitacin Sesgo Overfitting de evitacin suele ser ms que otro tipo de sesgo de bsqueda. Sin embargo, ya que aborda un problema muy especial, tratamos por separado. Recordemos el problema disyuncin se ha descrito anteriormente. El problema es que si se permite que la disyuncin, descripciones de conceptos intiles que slo resumen los datos son posibles, mientras que si est prohibido, algunos conceptos son inaprensible. Para solucionar este problema, es comn para buscar el espacio concepto empezando por los ms simples descripciones de conceptos y de proceder a las ms complejas: simple primer orden. Esto influye en la bsqueda a favor de simples descripciones de conceptos. Usando una simple bsqueda primero y se detiene cuando se encuentra una descripcin suficientemente complejo concepto es una buena manera de evitar el sobreajuste. A veces se llama poda adelante o prepruning porque descripciones complejas se podan de distancia antes de que se alcancen. La alternativa, la poda hacia atrs o postpruning, tambin es viable. Aqu, encontramos por primera vez una descripcin que se ajusta bien a los datos y luego podar de nuevo a una descripcin ms simple que tambin se ajusta a los datos. Esto no es tan redundante como suena: A menudo, la mejor manera de llegar en una teora sencilla es encontrar un complejo uno y luego simplificarlo. Adelante y atrs poda son a la vez una especie de sesgo sobreajuste de evitacin. En resumen, aunque la generalizacin como la bsqueda es una buena manera de pensar en el problema de aprendizaje, el sesgo es la nica manera de que sea factible en la prctica. Los diferentes algoritmos de aprendizaje corresponden a diferentes espacios descripcin concepto buscadas con diferentes sesgos. Esto es lo que lo hace interesante: Diferentes lenguajes descripcin y sesgos sirven algunos problemas as y otros problemas mal. No existe un mtodo-como el aprendizaje universal "mejor" cada maestro sabe! 1.6 DATOS DE MINAS Y TICA El uso de datos en particular datos sobre las personas-para la minera de datos tiene serias implicaciones ticas y profesionales de tcnicas de minera de datos debe actuar de forma responsable, haciendo ellos mismos conscientes de los problemas ticos que rodean su aplicacin particular. Cuando se aplica a las personas, la minera de datos se utiliza con frecuencia para discriminar-que recibe el prstamo, que recibe la oferta especial, y as sucesivamente. Ciertas formas de discriminacin racial, sexual, religiosa, etc-no slo tico, sino tambin ilegal. Sin embargo, la situacin es compleja: Todo depende de la aplicacin. Utilizando la informacin sexual y racial para el diagnstico mdico es sin duda tica, pero utilizando la misma informacin que el comportamiento de pago de prstamo minera no es. Incluso cuando se descarta la informacin sensible, existe el riesgo de que los modelos se construyeron que dependen de las variables que se pueden mostrar para sustituir a las caractersticas raciales o sexual. Por ejemplo, las personas con frecuencia viven en zonas que se asocian con determinadas identidades tnicas, y por lo tanto el uso de un cdigo postal en un estudio de la minera de datos corre el riesgo de la construccin de modelos que se basan en la raza, aunque la informacin racial se ha excluido explcitamente de los datos. Reidentificacin Trabajos recientes en lo que se estn llamadas tcnicas de reidentificacin ha proporcionado ideas que dan que pensar en la dificultad de anonimizar los datos. Resulta, por ejemplo, que ms del 85% de los estadounidenses puede ser identificado a partir de registros de acceso pblico con slo tres piezas de informacin: cdigo postal de cinco dgitos, fecha de nacimiento (incluyendo el ao) y sexo. No sabe el cdigo postal?-Ms de la mitad de los estadounidenses pueden identificar a partir slo de la ciudad, fecha de nacimiento y sexo. Cuando el Estado de Massachusetts public historias clnicas resumen de historia clnica de todos los empleados del estado a mediados de 1990, el gobernador dio una garanta pblica de que haba sido annimos mediante la eliminacin de todos los datos de identificacin, tales como nombre, direccin, y nmero de seguro social. l se sorprendi al recibir sus propios registros de salud (que
incluye diagnsticos y prescripciones) en el correo. Abundan las historias de las empresas liberando datos supuestamente annimos de buena fe, slo para encontrar que muchas personas son fcilmente identificables. En 2006, una compaa de servicios de Internet puesto en libertad a la comunidad de investigacin de los registros de 20 millones de bsquedas de los usuarios. Los registros fueron annimos mediante la eliminacin de toda la informacin personal, o lo que la empresa cree. Pero muy pronto los periodistas de The New York Times fueron capaces de identificar a la persona real que corresponde al nmero de usuario 4417749 (que buscaban su permiso antes de exponer a ella). Lo hicieron mediante el anlisis de los trminos de bsqueda se usan, que incluyen consultas para paisajistas en su ciudad natal y de varias personas con el mismo apellido como el suyo, que los periodistas correlacionados con bases de datos pblicas. Dos meses ms tarde, Netflix, el servicio de alquiler de pelculas en lnea, lanz 100 millones de registros de calificaciones de pelculas (de 1 a 5) con sus fechas. Para su sorpresa, result ser bastante fcil de identificar a las personas en la base de datos y as descubrir todas las pelculas que haban nominales. Por ejemplo, si usted sabe aproximadamente cundo (dar o tomar dos semanas) a una persona en la base de datos nominal de seis pelculas y sabes las votaciones, se puede identificar el 99% de las personas en la base de datos. Al conocer slo dos pelculas con sus calificaciones y fechas, ms o menos de tres das, casi el 70% de la gente se puede identificar. A partir de slo un poco de informacin acerca de sus amigos (o enemigos) se puede determinar todas las pelculas que he clasificado en Netflix. La moraleja es que si realmente eliminar toda la informacin posible identificacin de una base de datos, probablemente se quedar con nada til. Uso de la informacin personal Es ampliamente aceptado que para que la gente toma la decisin de proporcionar informacin personal necesaria para saber cmo se va a utilizar y qu se va a utilizar para, que se adoptarn las medidas necesarias para proteger la confidencialidad e integridad, lo que las consecuencias de suministro o retencin la informacin son, y cualquier derecho de recurso que pueda tener. Cada vez que se recoge dicha informacin, las personas deben saber estas cosas, no en letra pequea legalista pero sin rodeos en un lenguaje sencillo que puedan entender. El uso potencial de las tcnicas de minera de datos significa que las formas en que se puede utilizar un repositorio de datos pueden extenderse mucho ms all de lo que fue concebido cuando se recogieron originalmente los datos. Esto crea un serio problema: Es necesario determinar las condiciones en que se recopilaron los datos y con qu fines se puede utilizar. La propiedad de los datos otorgan el derecho a usar de maneras distintas a las supuestamente cuando fue grabada originalmente? Es evidente que en el caso de los datos personales recogidos de forma explcita, no es as. Pero, en general, la situacin es compleja. Cosas sorprendentes emergen de minera de datos. Por ejemplo, se ha informado de que uno de los principales grupos de consumo en Francia se ha encontrado que las personas con los coches rojos son ms propensos a dejar de pagar sus prstamos para automviles. Cul es el estado de un "descubrimiento" como? Qu informacin se basa? Bajo qu condiciones se recogi esa informacin? De qu manera es tico usar? Est claro que las compaas de seguros estn en el negocio de discriminar entre las personas basadas en estereotipos hombres jvenes pagan un alto precio por el seguro del automvil, pero esos estereotipos no se basan nicamente en correlaciones estadsticas, sino que tambin se basan en el sentido comn conocimientos sobre el mundo tambin. Si el hallazgo anterior dice algo acerca de la clase de persona que opta por un coche rojo, o si debe ser desechada como algo irrelevante, es un asunto para el juicio humano basado en el conocimiento del mundo y no en criterios puramente estadsticos. Cuando se presentan los datos, es necesario pedir que se le permite tener acceso a la misma, para lo cual han sido recogidos, y qu tipo de conclusiones es legtimo sacar de ella. La dimensin tica plantea preguntas difciles para los involucrados en la minera de datos prcticos. Es necesario tener en cuenta las normas de la comunidad que est acostumbrado a tratar con el tipo de datos en cuestin, las normas que pueden haber evolucionado a lo largo de dcadas o siglos, pero los que no pueden ser conocidos por el especialista en informacin. Por ejemplo, saba usted que en la comunidad bibliotecaria se da por sentado que la privacidad de los lectores es un derecho que est protegido celosamente? Si llama a su biblioteca de la universidad y pedir que tenga un libro de texto tal y como en prstamo, no te lo dir. Esto evita que el estudiante sea sometido a la presin de un profesor furioso para obtener acceso a un libro que ella necesita desesperadamente su ltima solicitud de subvencin. Tambin prohbe la investigacin sobre la dudosa lectura gustos recreativos de la universidad tica presidente del comit. Los que construyen, por ejemplo, las bibliotecas digitales no pueden estar al tanto de estas sensibilidades y podra incorporar sistemas de minera de datos que analizan y comparan los hbitos de lectura de los individuos para recomendar nuevos libros-tal vez incluso vender los resultados a los editores!
Cuestiones ms amplias Adems de las distintas normas comunitarias para el uso de datos, las normas lgicas y cientficas deben cumplirse al extraer conclusiones de ella. Si llegar a conclusiones (por ejemplo, los propietarios de automviles rojos son mayores los riesgos de crdito), es necesario adjuntar advertencias para ellos y respaldarlos con argumentos distintos de los puramente estadsticos. El punto es que la minera de datos es una herramienta en el proceso. Se trata de las personas que toman los resultados, junto con otros conocimientos, y decidir qu medidas aplicar. La minera de datos le pide otra pregunta, que es realmente una decisin poltica sobre el uso al que se estn poniendo recursos de la sociedad. Ya hemos mencionado la aplicacin de minera de datos para anlisis de la cesta, donde se analizan los registros de caja del supermercado para detectar asociaciones entre los artculos que compra la gente. Qu se debera hacer uso de la informacin resultante? Si el gerente del supermercado colocar la cerveza y patatas fritas en conjunto, para que sea ms fcil para los compradores, o ms separados para que sea ms conveniente para ellos, a fin de maximizar su tiempo en la tienda y por lo tanto su probabilidad de ser arrastrados a nuevas compras? Si el gestor de mover las ms caras paales, ms rentables, cerca de la cerveza, el aumento de las ventas a los padres agobiados de un elemento de alto margen, y aadir ms productos para bebs de lujo cercano? Por supuesto, cualquier persona que utilice tecnologas avanzadas debera considerar la sabidura de lo que estn haciendo. Si los datos se caracteriza como hechos registrados, entonces la informacin es el conjunto de patrones, o las expectativas, que subyacen a los datos. Usted podra ir a definir el conocimiento como la acumulacin de su conjunto de expectativas y la sabidura que el valor que se asigna al conocimiento. Aunque no vamos a profundizar ms en ello aqu, este tema vale la pena reflexionar. Como vimos al principio de este captulo, las tcnicas descritas en este libro pueden ser llamados a ayudar a que algunas de las decisiones ms profundas e ntimas que la vida presenta. La minera de datos es una tecnologa que tenemos que tomar en serio. 1.7 LECTURA ADICIONAL Para evitar romper el flujo del texto principal, todas las referencias se recogen en una seccin al final de cada captulo. Esta seccin describe los papeles, libros y otros recursos relacionados con la materia tratada en este captulo. El ser humano en la investigacin fertilizacin in vitro se menciona en la inauguracin se llev a cabo por el Laboratorio de Computacin de la Universidad de Oxford, y la investigacin sobre la matanza de vaca se llev a cabo en el Departamento de Ciencias de la Computacin en la Universidad de Waikato, Nueva Zelanda. El problema del tiempo es de Quinlan (1986) y ha sido ampliamente utilizado para explicar los sistemas de aprendizaje de mquina. El corpus de problemas de ejemplo mencionados en la introduccin a la Seccin 1.2 est disponible desde Asuncion y Newman (2007). En el ejemplo de la lente de contacto es de Cendrowska (1987), que introdujo el algoritmo de regla-learning PRISM que nos vamos a encontrar en el captulo 4. El conjunto de datos del iris se describe en un artculo clsico de principios de la inferencia estadstica (Fisher, 1936). Los datos de las negociaciones del trabajo es de la opinin sobre la negociacin colectiva, una publicacin del Trabajo de Canad emitida por el Servicio de Informacin sobre Relaciones Industriales (BLI 1988), y el problema de la soja fue descrita por primera vez por Michalski y Chilausky (1980). Algunas de las aplicaciones en la seccin 1.3 estn cubiertas de un papel relevante que le da un montn de otras aplicaciones de aprendizaje automtico y la regla de induccin (Langley y Simon, 1995), otra fuente de las aplicaciones desplegadas es un nmero especial de la mquina de aprendizaje del Journal (Kohavi y Provost, 1998). Chakrabarti (2003) ha escrito un libro excelente y completo sobre las tcnicas de minera web, y otra, ms reciente, el libro es la minera de datos Web de Liu (2009). La aplicacin compaa de prstamo se describe con ms detalle por Michie (1989), el detector de mancha de aceite es de Kubat et al. (1998), el trabajo de previsin de carga elctrica es por Jabbour et al. (1988), y la aplicacin de mantenimiento preventivo de los dispositivos electromecnicos es de Saitta y Neri (1998). Descripciones ms completas de algunos de los otros proyectos mencionados en la Seccin 1.3 (incluyendo las cifras de las cantidades en dlares guardados y relacionado referencias bibliogrficas) aparecen en el sitio web del Centro de Ingenuity Alberta Learning Machine. Luan (2002) describe las aplicaciones de minera de datos en la educacin superior. Dasu et al. (2006) presentan una serie de recomendaciones para la minera de datos con xito. Otro nmero especial de la Revista de la mquina de aprendizaje aborda las lecciones que se han aprendido de las aplicaciones de minera de datos y resolucin colaborativa de problemas (Lavrac et al., 2004). Los "paales y cerveza" historia es legendaria. Segn un artculo publicado en el Financial Times de Londres (7 de febrero, 1996), El ejemplo citado a menudo de lo que la minera de datos puede alcanzar es el caso de una cadena de supermercados de EE.UU. grande, que descubri una fuerte asociacin para muchos clientes entre una marca de paales para bebs
(paales) y una marca de cerveza. La mayora de los clientes que compraron los paales tambin han comprado la cerveza. Los mejores hypothesisers del mundo se les hace difcil proponer esta combinacin, pero la minera de datos mostr que exista, y el punto de venta fue capaz de explotarlo al mover los productos ms juntos en los estantes. Sin embargo, parece que es slo una leyenda, despus de todo, el poder (2002) remonta su historia. La Clasificacin de libro y rboles de regresin, que se menciona en la seccin 1.4, es por Breiman et al. (1984), y Quinlan deriva de forma independiente, pero esquema similar se describe en una serie de documentos que finalmente llev a un libro (Quinlan, 1993). El primer libro sobre la minera de datos fue escrito por Piatetsky-Shapiro y Frawley (1991), una coleccin de trabajos presentados en un taller de descubrimiento de conocimiento en bases de datos a finales de 1980. Otro libro de la misma cuadra desde entonces ha aparecido (Fayyad et al., 1996) a partir de un taller de 1994. A ello sigui una avalancha de libros businessoriented en la minera de datos, centrndose principalmente en los aspectos prcticos de cmo se puede poner en prctica con una descripcin nica y no superficiales de la tecnologa que subyace en los mtodos utilizados. Son valiosas fuentes de las aplicaciones y la inspiracin. Por ejemplo, Adriaans y Zantige (1996) de Syllogic, unos sistemas europeos y de consultora de base de datos, es una introduccin temprana a la minera de datos. Berry y Linoff (1997), de una empresa con sede en Pennsylvania especializada en el almacenamiento de datos y minera de datos, dar un examen excelente y lleno de ejemplo de tcnicas de minera de datos para marketing, ventas y atencin al cliente. CABENA et al. (1998), escrito por personas de cinco laboratorios internacionales IBM, contiene una visin general del proceso de minera de datos con muchos ejemplos de aplicaciones del mundo real. Dhar y Stein (1997) dan una perspectiva de negocio de la minera de datos y se incluyen a grandes rasgos, popularizado opiniones de muchas de las tecnologas involucradas. Groth (1998), que trabaja para un proveedor de software de minera de datos, ofrece una breve introduccin a la minera de datos y luego una muy amplia revisin de los productos de software de minera de datos, el libro incluye un CD-ROM con una versin demo del producto de su compaa. Weiss y Indurkhya (1998) observan una gran variedad de tcnicas estadsticas para hacer predicciones a partir de lo que ellos llaman "grandes datos". Han y Kamber (2006), la minera de datos cubierta desde una perspectiva de base de datos, se centra en el descubrimiento de conocimiento en grandes bases de datos corporativas sino que tambin discuten mineras tipos de datos complejos. Mano y col. (2001) produjeron un libro interdisciplinario sobre la minera de datos a partir de un grupo internacional de autores que son muy respetados en el campo. Por ltimo, Nisbet et al. (2009) han elaborado un manual integral de anlisis estadstico y minera de datos. Libros sobre el aprendizaje de las mquinas, por el contrario, tienden a ser textos acadmicos adecuados para su uso en los estudios universitarios y no como guas prcticas. Mitchell (1997) escribi un excelente libro que cubre muchas de las tcnicas de aprendizaje automtico, incluyendo algoritmos algunos-principalmente genticos y de refuerzo de aprendizaje que no estn cubiertos aqu. Langley (1996) ofrece otro buen texto. Aunque el libro mencionado anteriormente por Quinlan (1993) se concentra en un algoritmo de aprendizaje particular, C4.5, que vamos a cubrir en detalle en los captulos 4 y 6, es una buena introduccin a algunos de los problemas y tcnicas de aprendizaje automtico. Un libro absolutamente excelente en la mquina de aprendizaje desde una perspectiva estadstica es Hastie et al. (2009). Esto es un trabajo de orientacin terica, y est muy bien producido con figuras aptas y narracin. Russell y la inteligencia artificial de Norvig: Un enfoque moderno (2009) es la tercera edicin de un texto clsico que incluye una gran cantidad de informacin sobre el aprendizaje automtico y minera de datos. El reconocimiento de patrones es un tema que est estrechamente relacionado con el aprendizaje de la mquina, y muchas de las mismas tcnicas que se aplican. Duda et al. (2001) es la segunda edicin de un libro clsico y exitoso en el reconocimiento de patrones (Duda y Hart, 1973). Ripley (1996) y Bishop (1995) describen el uso de redes neuronales para el reconocimiento de patrones; Obispo tiene un libro ms reciente, reconocimiento de patrones y aprendizaje automtico (2006). La minera de datos con las redes neuronales es el tema de un libro de 1996 por Bigus de IBM, que cuenta con el producto Neural Network Utility IBM que l desarroll. Hay una gran cantidad de inters actual en mquinas de vectores de soporte. Cristianini y Shawe-Taylor (2000) ofrecen una buena introduccin y un trabajo de seguimiento generaliza este para cubrir algoritmos adicionales, granos, y soluciones con aplicaciones a problemas de descubrimiento de patrones en reas como la bioinformtica, anlisis de textos y anlisis de imgenes (Shawe -Taylor y Cristianini, 2004). Schlkopf y Smola (2002) ofrecen una introduccin general para apoyar las mquinas de vectores y mtodos relacionados con el kernel por dos jvenes investigadores que hicieron su Ph.D. la investigacin en esta rea de rpido desarrollo. Se explora el rea emergente de las tcnicas de reidentificacin, junto con sus consecuencias para la forma annima, por Ohm (2009).

Capitulo 1

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Capitulo 1

Enviado por

Direitos autorais:

Formatos disponíveis

Parte 1: Introduccin a la minera de datos Captulo 1: De qu se trata?

Você também pode gostar