Escolar Documentos
Profissional Documentos
Cultura Documentos
Tema 3
Juan A. Bota Blaya
juanbot@um.es
y las Comunicaciones
Departamento de Ingeniera de la Informacion
Universidad de Murcia
rboles de decisin
1. Introduccin
2. Aplicabilidad
3. Algoritmo bsico
4. Bsqueda en ID3
5. Sobre-aprendizaje
6. Valores continuos
7. Medidas alternativas para seleccin de atributos
8. Valores nulos
9. Atributos con costes diferentes
Introduccin
Mtodo para aproximar funciones de valores discretos a la entrada y
a la salida.
La funcin de salida viene representada por un rbol de decisin
Los nodos representan atributos de entrada, y los arcos los
diferentes valores que stos pueden tomar.
Las hojas son los valores de salida de la funcin.
Tambin pueden escribirse en forma de reglas IF-THEN
Aplicacin tpica: concesin de crditos
Uva
no
color=amarillo
tamao=grande
si
Meln
no
si
no
tamao=medio
si
Manzana
no
forma=redondeado
si
Uva
Pomelo
no
si
no
Banana
tamao=grande
si
tamao=pequeo
no
Limn
Manzana
sabor=dulce
si
Cereza
no
Uva
Humedad
Normal
No
Alta
Si
Lluvioso
Viento
Fuerte
No
Suave
Si
(T iempo = N ublado)
C1
x2
x3
C2
C1
x1
x1
Aplicabilidad
Los ejemplos se presentan en forma de pares
< atributo, valor >
Mejor si los atributos tienen un dominio de valores reducido.
La funcin de salida presenta valores discretos.
Es interesante el tipo de representacin con vistas a la explotacin posterior del
modelo.
Resulta conveniente una representacin del tipo de la disyuncin de conjunciones.
Los datos de aprendizaje pueden contener errores.
Los datos de aprendizaje pueden contener valores nulos en algn atributo para algn
ejemplo.
= aadir un nodo hoja al arco que acabamos de aadir con la etiqueta de Etiquetas ms probable en
Ejemplos.
Sino aadir al nuevo arco el subrbol generado por ID3(Ejemplosv , Etiquetas, Atributos {A})
i
Paso 5: Devolver el nodo raz
Basada en la entropa
Entropa: la cantidad de bits, en promedio, que haran falta para codificar mensajes
que indicaran las clases de los ejemplos.
Et(S) = p log2 p p log2 p
Func. Entropia
K
1
0.5
00
0.2 0.4
p. ej. +0.6 0.8
1 0
1
0.8
0.6
0.4 p. ej. 0.2
Ganancia de informacin
Informalmente es la reduccin en entropa del conjunto, al clasificar
S usando el ejemplo determinado.
Es una medida relativa al conjunto S y a cada atributo.
X
Ganancia(S, A) = Et(S)
vV alores(A)
|Sv |
Et(Sv )
|S|
Ejemplo
Sea S con atributos V iento = {Suave, F uerte} y Humedad = {Alta, N ormal}.
S tiene 14 ejemplos, 9 de ellos positivos y 5 negativos.
Cuando la humedad es Alta, 3 ejemplos son negativos y 4 positivos.
Cuando es N ormal 6 de los ejemplos son positivos y 1 ejemplo negativo.
Si el viento es Suave se presentan 6 ejemplos positivos y 2 negativos.
Cuando es F uerte se tienen tres positivos y tres negativos.
Cul de ellos sera el que mejor clasifica el conjunto S?
Et(Humedad = Alta) = 37 log2 ( 73 )
4
7
log2 ( 74 ) = 0.985
1
7
log2 ( 17 ) = 0.592
2
log2 ( 28 ) = 0.811
8
36 log2 ( 36 ) = 1.0
Et(S) = 0.940
Ganancia(S, V iento) = 0.940 (8/14) 0.811 (6/14) 1.00 = 0.048
Ms ganancia con el atributo Humedad
A2
A1
A2
A2
+
*
A4
*
A3
Sobre-aprendizaje
ID3 puede adolecer de overfitting.
El conjunto de ejemplos no es lo suficientemente
representativo
Los ejemplos tienen errores
Definimos sobreaprendizaje.
Definicin 1 Dado un espacio de hiptesis H , se dice
que una hiptesis particular h H sobreajusta los
datos de entrenamiento si existe una hiptesis
alternativa h0 H , tal que h presenta un error menor
que h0 sobre los ejemplos de entrenamiento, pero h0
presenta un error menor que h sobre el conjunto total
de observaciones.
Sobre-aprendizaje (II)
0.9
0.85
Accuracy
0.8
0.75
0.7
0.65
0.6
On training data
On test data
0.55
0.5
0
10
20
30
40
50
60
70
80
90
100
Outlook
Sunny
Sunny
Overcast
Rain
Rain
Rain
Overcast
Sunny
Sunny
Rain
Sunny
Overcast
Overcast
Rain
Temperature
Hot
Hot
Hot
Mild
Cool
Cool
Cool
Mild
Cool
Mild
Mild
Mild
Hot
Mild
Humidity
High
High
High
High
Normal
Normal
Normal
High
Normal
Normal
Normal
High
Normal
High
Wind
Weak
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Strong
PlayTennis
No
No
Yes
Yes
Yes
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No
Soleado
Nublado
Lluvioso
Humedad
Viento
Si
Alta
Normal
Si
Temp.
Cal.
Media
Fria
No
Si
Si
Fuerte
No
Suave
Si
40
48
60
72
80
90
Jugar Tenis
No
No
Si
Si
Si
No
Usaremos la ganancia de informacin para decidir entre varios posibles valores para c
1. Candidato: T emp54 = (60 + 48)/2 y
2. Candidado: T emp85 = (80 + 90)/2.
3. Ganancia(T emp54 ) > Ganancia(T emp85 )
c
X
|Si |
i=1
|Si |
log2
|S|
|S|