Você está na página 1de 15

Reduccin de Datos

Agrupamiento Compactacin Discretizacin Seleccin de caractersticas Seleccin de Instancias

Bibliografa: H. Liu, F. Hussain, C.L. Tan, M. Dash. Discretization: An Enabling Technique. Data mining and Knowledge Discovery 6, 393-423, 2002. F. Berzal, J.C. Cubero, N. MarinD. Snchez. Buildingmulti-way decision trees with numerical attributes. Information Sciences 165 (2004) 73 90.

Reduccin de Datos: Discretizacin


Divide el rango de atributos continuos en intervalos Almacena solo las etiquetas de los intervalos Importante para reglas de asociacin y clasificacin, algunos algoritmos solo aceptan datos discretos.

68

Reduccin de Datos: Discretizacin

Ejemplo:
Edad (16-24 aos) Edad (25 - 65 aos)

Edad (0-14 aos)

Edad # de Autos

1 0 0

1 4 0

1 5 1

2 0 0

2 3 1

2 4 0

2 5 1

2 7 0

2 9 2

3 1 1

4 3 3

5 0 2

6 5 4

Reduccin de Datos: Discretizacin


Distribucin de Peso
20 Frecuencia 15 10 5 0 50 52 54 56 58 60 62 64 66 68 70 72 Peso
Peso (50 58 Kg) Peso (59 67 Kg) Peso ( > 68 Kg)

74

69

Reduccin de Datos: Discretizacin

Igual amplitud
Distribucin de Temperatura
8 6 4 2 0 [64,,,67) [67,,,70) [70,,,73) [73,,,76) [76,,,79) [79,,,82) [82,,,85] Temperatura

Valores de Temperatura: 63, 65, 66, 67, 70,70, 71, 71, 72, 72, 73, 73, 74, 75, 76, 76, 82, 82, 83, 84,85, 85

Reduccin de Datos: Discretizacin

Frecuencia

Problemas Igual Amplitud


Ingresos Mensuales
25 Frecuencia 20 15 10 5 0 [0 - 5'000,000) [5'000,000 10'000,000) Ingresos [10'000,000 15'000,000]

70

Reduccin de Datos: Discretizacin

Igual Frecuencia
Distribucin de Temperatura
6 Frecuencia 4 2 0 63,,,70 71,,,73 74,,,82 83,,,85

Temperatura en C
Valores de Temperatura: 63, 65, 66, 67, 70,70, 71, 71, 72, 72, 73, 73, 74, 75, 76, 76, 82, 82, 83, 84,85, 85

Reduccin de Datos: Discretizacin

Ventajas de la igualdad en frecuencia


Evita desequilibrios en el balance o entre valores En la prctica permite obtener puntos de corte mas intuitivos. Se deben crear cajas para valores especiales Se deben tener puntos de corte interpretables

Consideraciones adicionales:

71

Reduccin de Datos: Discretizacin - BIN


Valores numricos que pueden ser ordenados de menor a mayor Particionar en grupos con valores cercanos Cada grupo es representado por un simple valor (media, la mediana o la moda) Cuando el numero de bins es pequeo, el limite mas cercano puede ser usado para representar el bin

Reduccin de Datos: Discretizacin - BIN

Ejemplo: f = {3, 2, 1, 5, 4, 3, 1, 7, 5, 3} ordenado f= {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} particionando en 3 BINs: {1, 1, 2, 3, 3, 3, 4, 5, 5, 7} representacion usando la moda: {1, 1, 1, 3, 3, 3, 5, 5, 5, 5}

72

Reduccin de Datos: Discretizacin - BIN

usando media:
{1.33, 1.33, 1.33, {1, 1, 2, 3, 3, 3, 3, 3, 3, 5.25, 5.25, 5.25, 5.25} 4, 4, 4, 7}

Remplazando por el limite mas cercano:

Problema de optimizacin en la seleccin de k bins, dado el numero de bins k: distribuir los valores en los bins para minimizar la distancia promedio entre un valor y la media o mediana del bin.

Reduccin de Datos: Discretizacin - BIN

Algoritmo Ordenar valores Asignar aproximadamente igual numero de valores (vi) a cada bin (el numero de bins es parmetro) Mover al borde el elemento vi de un bin al siguiente (o previo) si la distancia de error (ER) es reducida. (ER es la suma de todas las distancias de cada vi a la media o moda asignada al bin)

73

Reduccin de Datos: Discretizacin - BIN



1. 2. 3. 4.

Ejemplo: f = {5, 1, 8, 2, 2, 9, 2, 1, 8, 6} Particionar en 3 bins. Los bins deben ser representados por sus modas.
f ordenado ={1, 1, 2, 2, 2, 5, 6, 8, 8, 9} Bins iniciales = {1, 1, 2, 2, 2, 5, 6, 8, 8, 9} Modas = {1, 2, 8} Total ER = 0+0+1+0+0+3+2+0+0+1 = 7

Despus de mover dos elementos del bin2 al bin1, y un elemento del bin3 al bin2:
f ={1, 1, 2, 2, 2 Modas = {2, 5, ER = 4 5, 6, 8} 8, 8, 9}

Cualquier movimiento de elementos incrementa ER

Reduccin de Datos: Discretizacin

Mas all de los intervalos de igual amplitud o frecuencias: Algoritmos no supervisados: Intervalores de igual amplitud Intervalos de igual frecuencia Clustering .. Algoritmos supervisados: Basados en Entropa [Fayyad & Irani and others, 1993] Metodos Chi-square [Kerber 92]

74

Reduccin de Datos: Discretizacin


Discretizacin sin el uso de clases
DATOS Intervalo de Igual Amplitud

Reduccin de Datos: Discretizacin


Discretizacin sin el uso de clases
DATOS Intervalo de Igual Frecuencia

75

Reduccin de Datos: Discretizacin


Discretizacin sin el uso de clases
DATOS K - Means

Reduccin de Datos: Discretizacin

Discretizacin utilizando clases (basado en entropa)

5 Clases para las variables X y Y

3 Clases para las variables X y Y

76

Reduccin de Datos

Agrupamiento Compactacin Discretizacin Seleccin de caractersticas Seleccin de Instancias

Bibliografa: H. Liu, H. Motoda. Feature Selection for Knowledge Discovery and Data Mining. Kluwer Academic, 1998. H. Liu, H. Motoda (Eds.) Feature Extraction, Construction, and Selection: A Data Mining Perspective, Kluwer Ac., 1998.

Reduccin de Datos: Seleccin de Caractersticas

La SC pretende elegir atributos que sean relevantes para una aplicacin y lograr el mximo rendimiento con el mnimo esfuerzo. El resultado de la SC sera:

Menos datos los algoritmos pueden aprender ms rpidamente Mayor exactitud el clasificador generaliza mejor Resultados ms simples ms fcil de entender

SC y Transformacin (extraccin y construccin)

77

Reduccin de Datos: Seleccin de Caractersticas


Variable 1 1 a b c d e 5 6 7 8 9 2 50 51 52 53 54 3 4 5 0 1 0 1 0 Variable 6

6 0,001 1,001 2,001 3,001 4,001

4,4 100,12 5,4 100,12 6,4 100,12 7,4 100,12 8,4 100,12

Reduccin de Datos: Seleccin de Caractersticas

La SC se puede considerar como en problema de bsqueda {} {1} {2} {3} {4}

{1,2}

{1,3}
{1,2,3}

{2,3}
{1,2,4}

{1,4}
{1,3,4}

{2,4}
{2,3,4}

{3,4}

{1,2,3,4}

78

Reduccin de Datos: Seleccin de Caractersticas

Distintas Clasificaciones.

Reduccin de Datos: Seleccin de Caractersticas


Algoritmos de Ranking

Devuelven una lista de atributos ordenados segn algn criterio de evaluacin.

ENTRADA: X Atributos, C criterio de Evaluacin LISTA = {} PARA CADA ATRIBUTO xi, i {1, , N}

Vi= Calcular(xi, C)
Insertar xi en la LISTA segn Vi SALIDA: Lista (ordenada por releavancia de atributos)

79

Reduccin de Datos: Seleccin de Caractersticas


Algoritmos Subconjunto de Atributos

Devuelven un subconjunto de atributos optimizado segn algn criterio de evaluacin.


ENTRADA: X Atributos, U criterio de Evaluacin SUBCONJUNTO = {} REPETIR SK = GenerarSubconjunto(x) Si existeMejora (S, SK , U) Subconjunto = SK HASTA (Criterio de Parada ) SALIDA: Lista (ordenada por releavancia de atributos)

Reduccin de Datos: SC usando Entropa


Para enumerar dimensiones (ranking) Basado en la medida de similaridad (inversa a la distancia)


S ij e
D ij

where Dij

es la dis tan cia euclidiana (ln 0.5) / D


Hamming similarity (variables nominales)

n S ij x ik x jk / n k 1
F1 R1 R2 R3 R4 R5 A B C B C F2 X Y Y X Z F3 1 2 2 1 3

R1 R1 R2 R3 R4

R2 0/3

R3 0/3 2/3

R4 2/3 2/3 0/3

R5 0/3 0/3 1/3 0/3

similaridades

80

Reduccin de Datos: SC usando Entropa


Distribucin de las similaridades es una caracterstica de la organizacin y orden de los datos en el espacio de n-dimensiones Criterio para excluir dimensiones: cambios en el nivel del orden en los datos Cambios medidos con entropa Entropa es una medida global que es menor para configuraciones ordenadas y grande para configuraciones desordenadas

Reduccin de Datos: SC usando Entropa


Compara la entropa antes y despus de remover una dimensin Si las medidas son cercanas, el conjunto de datos reducido aproxima el original conjunto de datos Entropa:

N 1

i 1 j i 1

(S
N

ij

log(Sij )) ((1 Sij ) log(1 Sij ))

Similaridad entre xi y xj

El algoritmo esta basado en sequential backward ranking La entropa es calculada en cada iteracin para decidir el ranking de las dimensiones. Las dimensiones son gradualmente removidas

81

Reduccin de Datos: SC usando Entropa


1. 2. 3.

Algoritmo Comienza con todo el conjunto de datos F EF = entropa de F Por cada dimensin f F,

Remover una dimensin f de F y obtener el subconjunto Ff EFf = entropa de Ff Si (EF - EFf ) es mnima Actualizar el conjunto de datos F = F f f es colocada en la lista rankeada

4.

Repetir 2-3 hasta que solo haya una dimensin en F

Reduccin de Datos: SC usando Entropa

El proceso puede ser parado en cualquier iteracin y las dimensiones son seleccionadas de la lista. Desventaja: complejidad Implementacin paralela

82

Você também pode gostar