BINENTROPIA

Reduccin de Datos
Agrupamiento Compactacin Discretizacin Seleccin de caractersticas Seleccin de Instancias
Bibliografa: H. Liu, F. Hussain, C.L. Tan, M. Dash. Discretization: An Enabling Technique. Data mining and Knowledge Discovery 6, 393-423, 2002. F. Berzal, J.C. Cubero, N. MarinD. Snchez. Buildingmulti-way decision trees with numerical attributes. Information Sciences 165 (2004) 73 90.
Reduccin de Datos: Discretizacin

Divide el rango de atributos continuos en intervalos Almacena solo las etiquetas de los intervalos Importante para reglas de asociacin y clasificacin, algunos algoritmos solo aceptan datos discretos.
68
Ejemplo:
Edad (16-24 aos) Edad (25 - 65 aos)
Edad (0-14 aos)
Edad # de Autos
1 0 0
1 4 0
1 5 1
2 0 0
2 3 1
2 4 0
2 5 1
2 7 0
2 9 2
3 1 1
4 3 3
5 0 2
6 5 4

Distribucin de Peso
20 Frecuencia 15 10 5 0 50 52 54 56 58 60 62 64 66 68 70 72 Peso
Peso (50 58 Kg) Peso (59 67 Kg) Peso ( > 68 Kg)
74
69
Igual amplitud
Distribucin de Temperatura
8 6 4 2 0 [64,,,67) [67,,,70) [70,,,73) [73,,,76) [76,,,79) [79,,,82) [82,,,85] Temperatura
Valores de Temperatura: 63, 65, 66, 67, 70,70, 71, 71, 72, 72, 73, 73, 74, 75, 76, 76, 82, 82, 83, 84,85, 85
Frecuencia
Problemas Igual Amplitud

Ingresos Mensuales
25 Frecuencia 20 15 10 5 0 [0 - 5'000,000) [5'000,000 10'000,000) Ingresos [10'000,000 15'000,000]
70
Igual Frecuencia
Distribucin de Temperatura
6 Frecuencia 4 2 0 63,,,70 71,,,73 74,,,82 83,,,85
Temperatura en C
Valores de Temperatura: 63, 65, 66, 67, 70,70, 71, 71, 72, 72, 73, 73, 74, 75, 76, 76, 82, 82, 83, 84,85, 85
Ventajas de la igualdad en frecuencia

Evita desequilibrios en el balance o entre valores En la prctica permite obtener puntos de corte mas intuitivos. Se deben crear cajas para valores especiales Se deben tener puntos de corte interpretables
Consideraciones adicionales:

71
Reduccin de Datos: Discretizacin - BIN

Valores numricos que pueden ser ordenados de menor a mayor Particionar en grupos con valores cercanos Cada grupo es representado por un simple valor (media, la mediana o la moda) Cuando el numero de bins es pequeo, el limite mas cercano puede ser usado para representar el bin
Ejemplo: f = {3, 2, 1, 5, 4, 3, 1, 7, 5, 3} ordenado f= {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} particionando en 3 BINs: {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} representacion usando la moda: {1, 1, 1, 3, 3, 3, 5, 5, 5, 5}
72
usando media:
{1.33, 1.33, 1.33, {1, 1, 2, 3, 3, 3, 3, 3, 3, 5.25, 5.25, 5.25, 5.25} 4, 4, 4, 7}
Remplazando por el limite mas cercano:
Problema de optimizacin en la seleccin de k bins, dado el numero de bins k: distribuir los valores en los bins para minimizar la distancia promedio entre un valor y la media o mediana del bin.
Algoritmo Ordenar valores Asignar aproximadamente igual numero de valores (vi) a cada bin (el numero de bins es parmetro) Mover al borde el elemento vi de un bin al siguiente (o previo) si la distancia de error (ER) es reducida. (ER es la suma de todas las distancias de cada vi a la media o moda asignada al bin)
73

1. 2. 3. 4.
Ejemplo: f = {5, 1, 8, 2, 2, 9, 2, 1, 8, 6} Particionar en 3 bins. Los bins deben ser representados por sus modas.
f ordenado ={1, 1, 2, 2, 2, 5, 6, 8, 8, 9} Bins iniciales = {1, 1, 2, 2, 2, 5, 6, 8, 8, 9} Modas = {1, 2, 8} Total ER = 0+0+1+0+0+3+2+0+0+1 = 7
Despus de mover dos elementos del bin2 al bin1, y un elemento del bin3 al bin2:
f ={1, 1, 2, 2, 2 Modas = {2, 5, ER = 4 5, 6, 8} 8, 8, 9}
Cualquier movimiento de elementos incrementa ER
Mas all de los intervalos de igual amplitud o frecuencias: Algoritmos no supervisados: Intervalores de igual amplitud Intervalos de igual frecuencia Clustering .. Algoritmos supervisados: Basados en Entropa [Fayyad & Irani and others, 1993] Metodos Chi-square [Kerber 92]
74

Discretizacin sin el uso de clases
DATOS Intervalo de Igual Amplitud

DATOS Intervalo de Igual Frecuencia
75

DATOS K - Means
Discretizacin utilizando clases (basado en entropa)
5 Clases para las variables X y Y
3 Clases para las variables X y Y
76
Reduccin de Datos

Agrupamiento Compactacin Discretizacin Seleccin de caractersticas Seleccin de Instancias
Bibliografa: H. Liu, H. Motoda. Feature Selection for Knowledge Discovery and Data Mining. Kluwer Academic, 1998. H. Liu, H. Motoda (Eds.) Feature Extraction, Construction, and Selection: A Data Mining Perspective, Kluwer Ac., 1998.
Reduccin de Datos: Seleccin de Caractersticas
La SC pretende elegir atributos que sean relevantes para una aplicacin y lograr el mximo rendimiento con el mnimo esfuerzo. El resultado de la SC sera:

Menos datos los algoritmos pueden aprender ms rpidamente Mayor exactitud el clasificador generaliza mejor Resultados ms simples ms fcil de entender
SC y Transformacin (extraccin y construccin)
77

Variable 1 1 a b c d e 5 6 7 8 9 2 50 51 52 53 54 3 4 5 0 1 0 1 0 Variable 6
6 0,001 1,001 2,001 3,001 4,001
4,4 100,12 5,4 100,12 6,4 100,12 7,4 100,12 8,4 100,12
La SC se puede considerar como en problema de bsqueda {} {1} {2} {3} {4}
{1,2}
{1,3}
{1,2,3}
{2,3}
{1,2,4}
{1,4}
{1,3,4}
{2,4}
{2,3,4}
{3,4}
{1,2,3,4}
78
Distintas Clasificaciones.

Algoritmos de Ranking
Devuelven una lista de atributos ordenados segn algn criterio de evaluacin.
ENTRADA: X Atributos, C criterio de Evaluacin LISTA = {} PARA CADA ATRIBUTO xi, i {1, , N}
Vi= Calcular(xi, C)
Insertar xi en la LISTA segn Vi SALIDA: Lista (ordenada por releavancia de atributos)
79

Algoritmos Subconjunto de Atributos
Devuelven un subconjunto de atributos optimizado segn algn criterio de evaluacin.

ENTRADA: X Atributos, U criterio de Evaluacin SUBCONJUNTO = {} REPETIR SK = GenerarSubconjunto(x) Si existeMejora (S, SK , U) Subconjunto = SK HASTA (Criterio de Parada ) SALIDA: Lista (ordenada por releavancia de atributos)
Reduccin de Datos: SC usando Entropa

Para enumerar dimensiones (ranking) Basado en la medida de similaridad (inversa a la distancia)

S ij e
D ij
where Dij
es la dis tan cia euclidiana (ln 0.5) / D

Hamming similarity (variables nominales)
n S ij x ik x jk / n k 1
F1 R1 R2 R3 R4 R5 A B C B C F2 X Y Y X Z F3 1 2 2 1 3
R1 R1 R2 R3 R4
R2 0/3
R3 0/3 2/3
R4 2/3 2/3 0/3
R5 0/3 0/3 1/3 0/3
similaridades
80

Distribucin de las similaridades es una caracterstica de la organizacin y orden de los datos en el espacio de n-dimensiones Criterio para excluir dimensiones: cambios en el nivel del orden en los datos Cambios medidos con entropa Entropa es una medida global que es menor para configuraciones ordenadas y grande para configuraciones desordenadas

Compara la entropa antes y despus de remover una dimensin Si las medidas son cercanas, el conjunto de datos reducido aproxima el original conjunto de datos Entropa:
N 1
i 1 j i 1
(S
N
ij
log(Sij )) ((1 Sij ) log(1 Sij ))
Similaridad entre xi y xj

El algoritmo esta basado en sequential backward ranking La entropa es calculada en cada iteracin para decidir el ranking de las dimensiones. Las dimensiones son gradualmente removidas
81

1. 2. 3.
Algoritmo Comienza con todo el conjunto de datos F EF = entropa de F Por cada dimensin f F,

Remover una dimensin f de F y obtener el subconjunto Ff EFf = entropa de Ff Si (EF - EFf ) es mnima Actualizar el conjunto de datos F = F f f es colocada en la lista rankeada
4.
Repetir 2-3 hasta que solo haya una dimensin en F
El proceso puede ser parado en cualquier iteracin y las dimensiones son seleccionadas de la lista. Desventaja: complejidad Implementacin paralela
82

BINENTROPIA

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

BINENTROPIA

Enviado por

Direitos autorais:

Formatos disponíveis

Reduccin de Datos

Agrupamiento Compactacin Discretizacin Seleccin de caractersticas Seleccin de Instancias

Reduccin de Datos: Discretizacin

Reduccin de Datos: Discretizacin

Edad (0-14 aos)

Reduccin de Datos: Discretizacin

Reduccin de Datos: Discretizacin

Reduccin de Datos: Discretizacin

Problemas Igual Amplitud

Reduccin de Datos: Discretizacin

Reduccin de Datos: Discretizacin

Ventajas de la igualdad en frecuencia

Reduccin de Datos: Discretizacin - BIN

Reduccin de Datos: Discretizacin - BIN

Reduccin de Datos: Discretizacin - BIN

Remplazando por el limite mas cercano:

Reduccin de Datos: Discretizacin - BIN

Reduccin de Datos: Discretizacin - BIN

Cualquier movimiento de elementos incrementa ER

Reduccin de Datos: Discretizacin

Reduccin de Datos: Discretizacin

Reduccin de Datos: Discretizacin

Reduccin de Datos: Discretizacin

Reduccin de Datos: Discretizacin

Discretizacin utilizando clases (basado en entropa)

5 Clases para las variables X y Y

3 Clases para las variables X y Y

Agrupamiento Compactacin Discretizacin Seleccin de caractersticas Seleccin de Instancias

Reduccin de Datos: Seleccin de Caractersticas

SC y Transformacin (extraccin y construccin)

Reduccin de Datos: Seleccin de Caractersticas

6 0,001 1,001 2,001 3,001 4,001

Reduccin de Datos: Seleccin de Caractersticas

La SC se puede considerar como en problema de bsqueda {} {1} {2} {3} {4}

Reduccin de Datos: Seleccin de Caractersticas

Reduccin de Datos: Seleccin de Caractersticas

Devuelven una lista de atributos ordenados segn algn criterio de evaluacin.

Reduccin de Datos: Seleccin de Caractersticas

Devuelven un subconjunto de atributos optimizado segn algn criterio de evaluacin.

Reduccin de Datos: SC usando Entropa

Para enumerar dimensiones (ranking) Basado en la medida de similaridad (inversa a la distancia)

es la dis tan cia euclidiana (ln 0.5) / D

R4 2/3 2/3 0/3

R5 0/3 0/3 1/3 0/3

Reduccin de Datos: SC usando Entropa

Reduccin de Datos: SC usando Entropa

log(Sij )) ((1 Sij ) log(1 Sij ))

Reduccin de Datos: SC usando Entropa

Repetir 2-3 hasta que solo haya una dimensin en F

Reduccin de Datos: SC usando Entropa

Você também pode gostar