Escolar Documentos
Profissional Documentos
Cultura Documentos
Bibliografa: H. Liu, F. Hussain, C.L. Tan, M. Dash. Discretization: An Enabling Technique. Data mining and Knowledge Discovery 6, 393-423, 2002. F. Berzal, J.C. Cubero, N. MarinD. Snchez. Buildingmulti-way decision trees with numerical attributes. Information Sciences 165 (2004) 73 90.
Divide el rango de atributos continuos en intervalos Almacena solo las etiquetas de los intervalos Importante para reglas de asociacin y clasificacin, algunos algoritmos solo aceptan datos discretos.
68
Ejemplo:
Edad (16-24 aos) Edad (25 - 65 aos)
Edad # de Autos
1 0 0
1 4 0
1 5 1
2 0 0
2 3 1
2 4 0
2 5 1
2 7 0
2 9 2
3 1 1
4 3 3
5 0 2
6 5 4
74
69
Igual amplitud
Distribucin de Temperatura
8 6 4 2 0 [64,,,67) [67,,,70) [70,,,73) [73,,,76) [76,,,79) [79,,,82) [82,,,85] Temperatura
Valores de Temperatura: 63, 65, 66, 67, 70,70, 71, 71, 72, 72, 73, 73, 74, 75, 76, 76, 82, 82, 83, 84,85, 85
Frecuencia
70
Igual Frecuencia
Distribucin de Temperatura
6 Frecuencia 4 2 0 63,,,70 71,,,73 74,,,82 83,,,85
Temperatura en C
Valores de Temperatura: 63, 65, 66, 67, 70,70, 71, 71, 72, 72, 73, 73, 74, 75, 76, 76, 82, 82, 83, 84,85, 85
Evita desequilibrios en el balance o entre valores En la prctica permite obtener puntos de corte mas intuitivos. Se deben crear cajas para valores especiales Se deben tener puntos de corte interpretables
Consideraciones adicionales:
71
Valores numricos que pueden ser ordenados de menor a mayor Particionar en grupos con valores cercanos Cada grupo es representado por un simple valor (media, la mediana o la moda) Cuando el numero de bins es pequeo, el limite mas cercano puede ser usado para representar el bin
Ejemplo: f = {3, 2, 1, 5, 4, 3, 1, 7, 5, 3} ordenado f= {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} particionando en 3 BINs: {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} representacion usando la moda: {1, 1, 1, 3, 3, 3, 5, 5, 5, 5}
72
usando media:
{1.33, 1.33, 1.33, {1, 1, 2, 3, 3, 3, 3, 3, 3, 5.25, 5.25, 5.25, 5.25} 4, 4, 4, 7}
Problema de optimizacin en la seleccin de k bins, dado el numero de bins k: distribuir los valores en los bins para minimizar la distancia promedio entre un valor y la media o mediana del bin.
Algoritmo Ordenar valores Asignar aproximadamente igual numero de valores (vi) a cada bin (el numero de bins es parmetro) Mover al borde el elemento vi de un bin al siguiente (o previo) si la distancia de error (ER) es reducida. (ER es la suma de todas las distancias de cada vi a la media o moda asignada al bin)
73
Ejemplo: f = {5, 1, 8, 2, 2, 9, 2, 1, 8, 6} Particionar en 3 bins. Los bins deben ser representados por sus modas.
f ordenado ={1, 1, 2, 2, 2, 5, 6, 8, 8, 9} Bins iniciales = {1, 1, 2, 2, 2, 5, 6, 8, 8, 9} Modas = {1, 2, 8} Total ER = 0+0+1+0+0+3+2+0+0+1 = 7
Despus de mover dos elementos del bin2 al bin1, y un elemento del bin3 al bin2:
f ={1, 1, 2, 2, 2 Modas = {2, 5, ER = 4 5, 6, 8} 8, 8, 9}
Mas all de los intervalos de igual amplitud o frecuencias: Algoritmos no supervisados: Intervalores de igual amplitud Intervalos de igual frecuencia Clustering .. Algoritmos supervisados: Basados en Entropa [Fayyad & Irani and others, 1993] Metodos Chi-square [Kerber 92]
74
75
76
Reduccin de Datos
Bibliografa: H. Liu, H. Motoda. Feature Selection for Knowledge Discovery and Data Mining. Kluwer Academic, 1998. H. Liu, H. Motoda (Eds.) Feature Extraction, Construction, and Selection: A Data Mining Perspective, Kluwer Ac., 1998.
La SC pretende elegir atributos que sean relevantes para una aplicacin y lograr el mximo rendimiento con el mnimo esfuerzo. El resultado de la SC sera:
Menos datos los algoritmos pueden aprender ms rpidamente Mayor exactitud el clasificador generaliza mejor Resultados ms simples ms fcil de entender
77
4,4 100,12 5,4 100,12 6,4 100,12 7,4 100,12 8,4 100,12
{1,2}
{1,3}
{1,2,3}
{2,3}
{1,2,4}
{1,4}
{1,3,4}
{2,4}
{2,3,4}
{3,4}
{1,2,3,4}
78
Distintas Clasificaciones.
ENTRADA: X Atributos, C criterio de Evaluacin LISTA = {} PARA CADA ATRIBUTO xi, i {1, , N}
Vi= Calcular(xi, C)
Insertar xi en la LISTA segn Vi SALIDA: Lista (ordenada por releavancia de atributos)
79
where Dij
n S ij x ik x jk / n k 1
F1 R1 R2 R3 R4 R5 A B C B C F2 X Y Y X Z F3 1 2 2 1 3
R1 R1 R2 R3 R4
R2 0/3
R3 0/3 2/3
similaridades
80
Compara la entropa antes y despus de remover una dimensin Si las medidas son cercanas, el conjunto de datos reducido aproxima el original conjunto de datos Entropa:
N 1
i 1 j i 1
(S
N
ij
Similaridad entre xi y xj
El algoritmo esta basado en sequential backward ranking La entropa es calculada en cada iteracin para decidir el ranking de las dimensiones. Las dimensiones son gradualmente removidas
81
Algoritmo Comienza con todo el conjunto de datos F EF = entropa de F Por cada dimensin f F,
Remover una dimensin f de F y obtener el subconjunto Ff EFf = entropa de Ff Si (EF - EFf ) es mnima Actualizar el conjunto de datos F = F f f es colocada en la lista rankeada
4.
El proceso puede ser parado en cualquier iteracin y las dimensiones son seleccionadas de la lista. Desventaja: complejidad Implementacin paralela
82