Você está na página 1de 4

Gestin y Tecnolog o a del Conocimiento

Miner de Datos a
Agosto - Septiembre 2008

Ejercicios de Weka
Comentarios generales sobre los ejercicios
Asumiendo que se conocen los contenidos tericos, el tiempo estimado o para realizar los ejercicios es de 2 horas Describir las soluciones a los ejercicios de una manera lo ms formal a posible

1.

Anlisis de los datos a

El objetivo de este ejercicio es familiarizarse con el entorno de Weka, y estudiar algunas de las funcionalidades de anlisis de datos. Estas funcionalidades incluyen anlisis estad a a stico, visualizacin, etc. Recordad que el manual o de Weka est disponible en http://www.cs.waikato.ac.nz/ml/weka/index documentation.html a

1.1.

Obtencin de los datos o


iris data set: iris.ar

Descargar el siguiente conjunto de datos:

Abrir el chero de datos con un editor, y estudiar su contenido: 1. Cuntos atributos caracterizan los datos de esta tabla de datos? a 2. Si suponemos que queremos predecir el ultimo atributo a partir de los anteriores, estar amos ante un problema de clasicacin o de regresin? o o

1.2.

Estudio estad stico de los datos


Lanzar la herramienta weka Lanzar el Explorer Abrir el chero iris.ar

Una vez cargado el conjunto de datos, en la seccin attributes se puede pinchar sobre cada atributo para obtener o informacin estad o stica de ellos. Contestad a las siguientes preguntas: 1. Cul es el rango de valores del atributo petalwitdth? a 2. Con la informacin que puedes obtener visualmente, qu atributo/s crees que son los que mejor permitirn o e a predecir el atributo class?

1.3.

Aplicacin de ltros o

1. Aplicar el ltro lters/unsupervised/attribute/normalize sobre el conjunto de datos. Qu efecto tiene este e ltro? 2. Aplicar el ltro lters/unsupervised/instance/RemovePercentage sobre el conjunto de datos. Qu efecto tiene e este ltro? 3. Grabar el conjunto de datos como iris2.ar. 4. Aplicar el ltro lters/unsupervised/attribute/Discretize sobre el conjunto de datos. Qu efecto tiene este e ltro?

1.4.

Visualizacin o

Volver a cargar el conjunto de datos iris2.ar Pulsar la pestaa Visualize. Aumentar Point Size a 5 para n visualizarlos datos mejor. 1. Aumentar el valor de Jitter: qu efecto tiene? e

2.

Clasicacin o

El objetivo de este ejercicio es familiarizarse con las primeras tcnicas de anlisis de datos. En concreto, con los e a a rboles de decisin. o

2.1.

Clasicador ZeroR

Cargar el conjunto de datos iris.ar. En la pestaa Classify, seleccionar el clasicador ZeroR. En las Test n Options seleccionar Use trainning set, y pulsar el botn de Start para que genere el clasicador. En un instante, en o la ventana de salida aparecern los datos de la clasicacin realizada. Analizar esta salida. a o 1. Qu modelo genera el clasicador ZeroR? e 2. Cuntas instancias del conjunto de entrenamiento clasica bien? a 3. Qu porcentaje de instancias clasica bien? e 4. Qu crees que indica la matriz de confusin? e o

2.2.

Clasicador J48

Cargar el conjunto de datos iris.ar. En la pestaa Classify, seleccionar el clasicador trees/j48. En las Test n Options seleccionar Use trainning set, y pulsar el botn de Start para que genere el clasicador. o 1. Cuntas hojas tiene el rbol generado con J48? a a 2. Cuntas instancias del conjunto de entrenamiento clasica bien? a 3. Qu porcentaje de instancias clasica bien? e 4. Analizar la matriz de confusin: qu ha clasicado mal? o e 5. Pulsar el botn de More Options y seleccionar la opcin de Output predictions. En qu instancias se ha o o e equivocado? 6. Elegir una instancia que J48 haya clasicado errneamente y a analizar por qu o e Adems, utiliza alguna de las herramientas de visualizacin de Weka: a o En la ventana de Result list, pulsa en el botn derecho sobre el modelo generado con J48 para desplegar las o opciones. Pulsa sobre Visualize Tree En la ventana de Result list, pulsa en el botn derecho sobre el modelo generado con J48 para desplegar las o opciones. Pulsa sobre Visualize Errors

2.3.

Clasicador ID3

Cargar el conjunto de datos iris.ar. Seleccionar el clasicador ID3 y utilizarlo para generar un rbol de decisin. a o 1. Has podido ejecutar el algoritmo ID3 sobre el conjunto de datos directamente? Por qu? e 2. Qu acciones has llevado a cabo para poder ejecutarlo? e 3. Qu porcentaje de xito sobre el conjunto de entrenamiento has obtenido? e e 4. Qu porcentaje de xito obtienes si utilizas como mecanismo de evaluacin la validacin cruzada? e e o o 5. Qu porcentaje de xito estimas que obtendrs en el futuro sobre nuevos datos con el rbol generado con e e a a ID3?

2.4.

Arboles de Regresin o

Cargar el conjunto de datos cpu.ar. Entre los algoritmos ID3, J48 y M5P, elegir uno de ellos para aproximar el atributo class sin que sea necesario tratar los datos de entrada de ninguna forma. 1. Qu algoritmo has elegido? por qu? e e 2. Qu porcentaje de error obtienes si utilizas como mecanismo de evaluacin la validacin cruzada? e o o 3. Por qu no disponemos ahora de una matriz de confusin? e o

3.

Agrupacin o

El objetivo de este ejercicio es familiarizarse con algunas tcnicas de agrupacin. Para ello, vamos a utilizar e o tambin el conjunto de datos iris.ar. e Cargar el conjunto de datos iris.ar. Eliminar el atributo class Ejecutar el algoritmo SimpleKMeans para generar 3 grupos. Qu medida de rendimiento genera Weka? e Qu valor proporciona? e Ejecutar el algoritmo SimpleKMeans para generar 5 grupos. Cmo mejora la medida de rendimiento? o Utilizar la herramienta de visualizacin de grupos para comparar los dos resultados. Puedes obtener alguna o conclusin? o Ejecutar el algoritmo EM con los parmetros por defecto. Cuntas distribuciones genera? Hay alguna a a relacin con alguno de los resultados generados con SimpleKMeans? o

4.

El Experimenter

El objetivo de este ejercicio es familiarizarse con una herramienta avanzada de anlisis de datos integrada a en Weka, denominada Experimenter. Esta herramienta permite ejecutar distintos algoritmos de miner de datos a sobre distintos conjuntos de datos, de forma que su ejecucin secuencial hace ms rpida su ejecucin, as como la o a a o evaluacin de los resultados. o Para ello, seguir los siguientes pasos: Pulsar el botn New para generar un nuevo experimento o Seleccionar los conjuntos de datos: iris.ar, soybean.ar y labor.ar Seleccionar los clasicadores: J48,IBK con K = 1, IBK con K = 3, IBK con K = 5, y SVO En el apartado Results Destination seleccionar CSV le y utilizar el botn de Browse para elegir el chero o Pulsar la pestaa Run y pulsar el botn de Start n o

Una vez nalizado el proceso, abrir una hoja de clculo, y cargar el chero CSV. a En ese chero, se muestra en cada la los datos de cada ejecucin, incluyendo el conjunto de datos, el o clasicador utilizado con sus parmetros, as como datos sobre sus resultados a Localizar la columna que mide el porcentaje de xito e Obtener la media del porcentaje de xito para cada clasicador y conjunto de datos e Una vez realizados los pasos anteriores, responder a las siguientes preguntas: Qu resultados ha obtenido cada clasicador en cada conjunto de datos? e Qu algoritmo ha obtenido mejores resultados en cada conjunto de datos? e Son los resultados del mejor algoritmo mucho mejores que los del resto?

Você também pode gostar