Escolar Documentos
Profissional Documentos
Cultura Documentos
org
Árboles De Decisión – DT
En nuestro caso, las decisiones son datos manejados por un algoritmo, con estructura de
clasi cación o regresión, que anticipa matemáticamente la mejor opción. En otras palabras,
inducen un modelo del dominio de entrada de datos a partir de un conjunto dado de
observaciones. Tienen dos funciones: Facilitar el recuento de todas las posibilidades, datos o
sucesos, y hacer operativo el cálculo de la probabilidad de los mismos. Es uno de los métodos
de aprendizaje inductivo más usado y también muy e ciente en la minería de datos. Se basan
en gran medida en métodos estadísticos y de probabilidad.
Una de las grandes ventajas de los árboles de decisión, respecto de otras técnicas, es la
posibilidad de unir fácilmente varios de ellos y provocar predicciones más seguras con un
coste computacional más bajo. Pero no todo es tan fácil, en un entorno caracterizado por la
incertidumbre y la imprecisión, debidas al ruido o la variación residual en los datos, no se
realiza bien la clasi cación, por lo tanto, tener información incierta o imprecisa en relación
con cualquier parámetro del problema puede llevar a resultados de cientes, para superar
esta limitación se han introducido teorías que pudieran representar la incertidumbre en
distintos tipos de árboles:
Difusos.
Convicción.
Posibilista.
Un poco de historia.
Trattato di arithmetica
Después de un par de siglos más, en 1.931, Frank P. Ramsey propuso su teoría de la toma
de decisiones, basada en la probabilidad subjetiva y de utilidad. En 1.937 Bruno de Finetti,
desde el lado de la incertidumbre, también contribuye a la estructura de la probabilidad
subjetiva. Un poco más tarde se llega a las proposiciones de la moderna teoría de la
utilidad para la toma de decisiones bajo incertidumbre, desarrollada en 1.944 por John
von Neumann y Oskar Morgenstern en base a las ideas de Bernoulli. A partir de aquí hay
otros muchos más contribuidores, pero sobrepasa el objetivo de este artículo.
Morgenstern y Neumann
Hasta los años 80 del siglo pasado, los modelos de árboles de decisión tuvieron mucha
popularidad en el entorno cientí co, médico e industrial debido a su capacidad de
aprendizaje y sobre todo por su aplicación en las denominadas EIS (Executive information
system) Sistemas de información estratégico. Durante un periodo corto se guardaron en
el “cajón de sastre”, ya que muchos algoritmos conducían a estructuras de árboles
excesivamente ajustados debido a la naturaleza heurística y codiciosa de estos
algoritmos.
Los datos que manejan los árboles se representan con tres tipos diferentes de
elementos: Atributos/Predictores, Valores y Clases. Los Atributos se pueden usar para
clasi car los datos existentes (árboles de clasi cación) o para aproximar funciones de
valores reales (árboles de regresión). Tenemos dos tipos básicos de árboles de decisión:
De clasi cación, cuando las variables son discretas, numéricas que tienen un
número contable de valores en un intervalo cualquiera. Predice el valor de una
variable categórica (objetivo o clase) mediante la construcción de un modelo
basado en uno o más predictores o atributos. En cada terminal / hoja asigna
una etiqueta de clase, generalmente la clase mayoritaria de todas las instancias
que alcanzan esa hoja en particular.
Árbol de regresión
Valores binarios. Solo es posible una división, se generaran dos ramas a partir
del nodo a dividir.
Valores categóricos (Nominales). Son cualitativos no ordenados y se expresan
de dos maneras, la primera es una división de múltiples vías que usa tantas
particiones como valores distintos. La segunda es usar una división binaria para
obtener los valores en dos subconjuntos. Podemos realizar la división a través
de (xi ∈ C) hasta probar todos los valores. Por ejemplo: color de piel, sexo, etc.
La técnica para parar el crecimiento del árbol o podarlo. Una idea sería
controlar el error de clasi cación (con el índice de Gini o la Entropía), en el
conjunto de datos de prueba, de manera que se detendrá cuando el índice
seleccionado comience a aumentar.
Los datos nos llegan en un chero ARFF, representados por una variable (Atributo) y su
valor. A partir de aquí comenzamos a trabajar desde un nodo primario:
En el ejemplo, los datos son los que aparecen en numerosas publicaciones (jugar al tenis,
futbol,…). La representación grá ca puede ser la más adecuada.
R3 Si (cielo=Nublado) jugar.
Ejemplo de algunos algoritmos que los tratan son ID3, CART o C4.5.
Métodos de división.
La división consiste en seleccionar la variable más adecuada para fraccionar el árbol, esta
pequeña toma de decisión afecta mucho al rendimiento del árbol y no es trivial. Después
de esta selección, se toma el valor de la variable que proporciona la mejor división, esto
se hace para llegar a las diferentes clases con el menor número de divisiones y errores.
Las divisiones se aplican en el contexto de los nodos o sus conjuntos de datos, de modo
que la división de un nodo y la división de los datos de un nodo son dos nombres para la
misma operación. El objetivo nal es determinar la variable correcta asociada con el
umbral correcto para maximizar la homogeneidad de los subgrupos / ramas. Los
algoritmos empleados se basan en gran medida en métodos estadísticos y de
probabilidad. Los dos métodos básicos son: el propuesto en 1.984 por Leo Breiman que
se basa en una combinación lineal de características o el de Quinlan, en 1.986, basado en
la división por una característica.
Los más utilizados son los basados en la impureza, están representados por los que
cumplen con:
dada una variable aleatoria x con n valores discretos, distribuidos según V = (v1, v2, …,
vn), una medida de impureza es una función φ: [0, 1] n → R que cumple las siguientes
condiciones:
φ (V) ≥0
Ganancia de información.
Índice de Gini.
Ratio de error. Es el porcentaje de ítems mal clasi cados. Esta medida no tiene
buen poder discriminador debido a: si que tenemos un sistema de dos clases,
en el que y es la clase mayoritaria no solo en X, sino en todas las particiones
disponibles de X. La tasa de error considerará a todas esas particiones de igual
preferencia.
Criterios binarios.
AUC (Area under the ROC Curve). Selecciona el atributo que obtiene el área
máxima bajo la envoltura convexa de la curva ROC, este criterio supera en
precisión a otros métodos. Es importante tener en cuenta que no realiza una
comparación entre la impureza del nodo padre y la impureza ponderada de los
hijos después de la división. Representa la probabilidad de que un ejemplo
positivo, elegido al azar, se clasi que correctamente con mayor seguridad que
una muestra negativa elegida al azar. ROC (Receiver Operating Characteristic)
genera un grá co que muestra el rendimiento de un modelo de clasi cación en
todos los umbrales de la misma. Una de las maneras fáciles de calcular el valor
AUC es usar la regla trapezoidal, suma todos los trapecios debajo de la curva.
Los algoritmos que construyen el árbol lo realizan para tratar un conjunto de datos con el
objetivo de reducir el error de generalización, pero también se pueden de nir otras
funciones como reducir el número de nodos o la profundidad. La elaboración de un árbol
óptimo tiene un nivel de complejidad alto (NP-completa), es una labor difícil, pero viable
para pequeños problemas. En consecuencia, se requieren métodos heurísticos para
resolver el problema el más comun es de arriba hacia abajo TDIDT (Top-Down Induction
of Decision Tree) como CLS, ID3, C4.5 entre otros.
En Redes neuronales.
En las redes neuronales los árboles se tratan como un problema de optimización
anidado. En los nodos, el algoritmo de gradiente descendente se usa para encontrar wi (y
w0) que reduce el error cuadrático medio y, por lo tanto, encuentra una buena división
para los dos grupos de distintas clases. Para la optimización externa se podrá utilizar
cualquier método que encuentre la mejor división de clases en dos grupos.
Para el trabajo en los nodos se puede utilizar una red neuronal separada para cada nodo
del árbol, con tres tipos diferentes de modelos: Perceptrones lineales (multivariados
lineales), perceptrones multicapa (multivariados no lineales) y una combinación de ellos.
Modelo Hibrido. Pensamos que lo mejor puede ser encontrar una forma de
combinar métodos lineales y no lineales, debido a que los métodos no lineales
tienen demasiados parámetros y son propensos a sobreajuste y no son
interpretables. La forma de trabajar sería entrenar en cada nodo un perceptrón
tanto lineal como no lineal y utilizar una prueba estadística para veri car si
existe una diferencia de rendimiento signi cativa entre los dos. Si el
rendimiento del perceptrón multicapa es mejor, está claro, elegimos ese
modelo y en caso contrario el del perceptrón lineal. De todas formas el % lo
marcaremos a nuestra elección, teniendo claro que el perceptrón lineal es el
más simple.
1.995 AdaBoost
Yoav Freund y Donde:
Robert E.
Schapire ht (x) es la salida del clasi cador débil t para la
entrada x
Ejemplo computacional.
2 respuestas
check this
29 marzo, 2019
Responder
root
3 abril, 2019
Responder
Deja un comentario
Tu dirección de correo electrónico no será publicada. Los campos obligatorios están
marcados con *
Comentario
Nombre *
Correo electrónico *
Web
11 + dos =
Publicar comentario
Volver arriba
Móvil Escritorio