Aprendizaje Bayesiano

Teor de Decisin Bayesiana a o
Fernando Fernndez Rebollo a

1. Introduccin o 2. El Teorema de Bayes. Decisores MAP y ML 3. Funciones Discriminantes y Fronteras de Decisin o 4. Estimadores Paramtricos e 5. Clasicadores Bayesianos
Introduccin o
Introduccin o
La teor de decisin bayesiana se basa en dos asumciones: a o El problema de decisin se puede describir en trminos probabil o e sticos: Dado un conjunto de datos, D, cul es la mejor hiptesis h del a o cunjunto de hiptesis H o La mejor hiptesis es la hiptesis ms probable o o a Todos los valores de las probabilidades del problema son conocidas Decisiones tomadas en funcin de ciertas observaciones o
Introduccin o
Ejemplo: el Caso de la Moneda Trucada

Espacio de hiptesis: {cara, cruz} o Espacio de observaciones: {brillo, mate} Lanzo una moneda, recibo la observacin, D, y genero una hiptesis, h o o Preguntas: Cul es la mejor hiptesis? a o Cul es la hiptesis ms probable? a o a Cul es la probabilidad de obtener cara? a Cul es la probabilidad de obtener cruz? a Cul es la probabilidad de obtener cara, habindo recibido como a e observacin brillo? o Cul es la probabilidad de obtener cruz, habindo recibido como a e observacin mate? o

El Teorema de Bayes
Notacin o
P (h): Probabilidad de que la hiptesis h sea cierta o Probabilidad a o priori de la hiptesis h o Reeja el conocimiento que tenemos sobre las oportunidades de que la hiptesis h sea cierta antes de recibir ninguna observacin o o Si no tenemos ningn conocimiento a priori, se le podr asignar la u a misma probabilidad a todas las hiptesis o P (D): Probabilidad de que recibamos la observacin D o Probabilidad o a priori de la observacin D o Reeja la probabilidad de recibir la observacin D, cuando no tenemos o ninguna idea sobre cul es la hiptesis real a o P (D|h): Probabilidad de observar el dato D, cuando se cumple la hiptesis h o Probabilidad a posteriori de la observacin D o o P (h|D): Probabilidad de que se cumpla la hiptesis h, dado que se ha o obtenido el dato D, o Probabilidad a posteriori de la hiptesis h o
6
El Teorema de Bayes
Teorema de Bayes
En aprendizaje inductivo, estamos interesados en calcular las probabilidades de las hiptesis a posteriori, ya que son las que se o obtienen tras recibir observaciones o ejemplos de entrenamiento. Teorema de Bayes: P (D|h)P (h) P (h|D) = P (D) Calcula la probabilidad a posteriori de la hiptesis en funcin de otras o o probabilidades
El Teorema de Bayes
Decisor MAP
Decisor mximo a posteriori: a hM AP = arg mx P (h|D) = a
hH
P (D|h)P (h) arg mx P (h|D) = a = hH P (D) arg mx P (h|D) = P (D|h)P (h) a

hH
El decisor de mxima verosimilitud, ML (maximum likelihood), asume a que todas las hiptesis son equiprobables a priori: o hM L = arg mx P (D|h) a
hH
El Teorema de Bayes

Probabilidades a priori: P (cara) = 0,2, P (cruz) = 0,8 Probabilidades a posteriori: P (brillo|cara) = 0,9, P (mate|cara) = 0,1 P (brillo|cruz) = 0,6, P (brillo|cara) = 0,4 Tiro la moneda y obtengo brillo: hM AP = arg mx P (brillo|h)P (h) = a
cara,cruz
arg mx (P (brillo|cara)P (cara), P (brillo|cruz)P (cruz)) = a

cara,cruz
arg mx (0,9 0,2, 0,6 0, 8) = a

cara,cruz
arg mx (0,18, 0,48) = cruz a

cara,cruz
9
El Teorema de Bayes

Sin embargo: hM L = arg mx P (brillo|h) = a
cara,cruz
arg mx (P (brillo|cara), P (brillo|cruz)) = cara a

cara,cruz
10
El Teorema de Bayes
Clasicador MAP de Fuerza Bruta

Caso general: 1. Para cada hiptesisclase h H , calcular la probabilidad a posteriori: o P (h|D) = P (D|h)P (h) P (D)
2. Dar como salida la hiptesis/clase con la mayor probabilidad a posteriori: o
hM AP = arg mx P (h|D) = a
hH
Dos hiptesis/clases: o g1(D) = P (D|h1)P (h1) P (D|h2)P (h2) hM AP = 1 0 g(x) 0 g(x) < 0
(1)
11
El Teorema de Bayes
Probabilidades de Error: Ejemplo

Un clasicador de, por ejemplo, dos categor divide el espacio en dos as, regiones, R1 para la categor h1, y R2 para la categor h2. a a Errores de clasicacin de una instancia x: o 1. x pertenece a categor w1 pero cae en la regin R2 a o 2. x pertenece a categor w2 pero cae en la regin R1 a o Probabilidad de Error de un clasicador MAP: P (error) = P (x R2, w1) + P (x R1, w2) = P (x R2|w1)P (w1) + P (x R1|w2)P (w2) = p(x|w1)P (w1)dx + R1 p(x|w2)P (w2)dx R2
(2)
12
El Teorema de Bayes
Probabilidades de Error
p(x|w 1)P(w1)

p(x|w 2)P(w2)
R1
Cul es el punto de divisin entre las regiones que minimiza el error de a o clasicacin? o
x R2
13

14
Fronteras de Decisin o
Dadas dos clases, 1 y 2, tenemos sus funciones discriminantes: gi(x) = p(x|i)P (i) gi(x) = log p(x|i) + log P (i) Frontera de decisin: o g1(x) = g2(x)
15
Funcin de Densidad Normal o

Funcin de densidad normal unidimensional: o 1 1 exp p(x) = 2 2 Donde:
Z E[x] =
2
= N (, 2)
(3)
0.5
N(0, 1)
0.4
xp(x)dx = Z
2 2
0.3
0.2
E[(x)) ] =
(x ) p(x)dx =
0.1
Con un factor de conanza de aproximadamente el 95 %, |x | 2

16
Funcin de Densidad Normal o

Funcin de densidad normal multidimensional: o p(x) = 1 exp[ (x )t1(x )] = N [, ] 2 (2)d/2||1/2 1 (4)
Donde: : vector de medias = E[x]; i = E[xi] : matriz de covarianzas d d = E[(x )(x )t]; ij = E[(xi i)(xj j )] ii: varianza de xi Si ij = 0, para i = j, entonces xi es estad sticamente independiente de xj ||: determinante de (x )t: transpuesta de (x )
17
Funcin Discriminante de una Densidad Normal o

Recordamos la funcin discriminante: o gi(x) = log p(x|i) + log P (i) Si asumimos que p(x|i) = N (i, i): d 1 1 gi(x) = (x i)t1(x i) log 2 log |i| + log P (i) (5) i 2 2 2
18
Caso Particular: i = 2I
Si i = 2I: Las caracter sticas son estad sticamente independientes Todas las caracter sticas tienen la misma varianza, 2 |i| = 2d 1 = (1/ 2)I i Entonces: ||x i||2 gi(x) = + log P (i) 2 2 Donde ||.|| es la norma eucl dea:
d
(6)
||x i||2 = (x i)(x i)t =

j=1
(xj ij )2
19
Caso Particular: i = 2I
Si desarrollamos la funcin discriminante: o gi(x) = 1 t [x x 2tx + ti] + log P (i) i i 2 2 (7)
De donde se deriva un discriminador lineal (dado que xtx es independiente de i): t gi(x) = wi x + wi0 (8) Donde: 1 wi = 2 i 1 wi0 = 2 ti + log P (i) 2 i
20
Ejemplo
x2 R1 g 1(x)=g2(x)
R2
x1
21

22
Estimacin de Parmetros o a
Estimacin de o Supervisado
Parmetros a
Aprendizaje
Hemos visto que se pueden construir clasicadores ptimos si se o conocen las probabilidades a priori, P (j ), y las densidades de clases condicionales, p(x|j ) Desafortunadamente, esas probabilidades son raramente conocidas En cambio, en la mayor de las ocasiones se dispone de cierto a conocimiento del modelo, as como de un nmero de ejemplos u representativos de dicho modelo Por tanto, una buena aproximacin es utilizar el conocimiento del o dominio y los ejemplos para disear el clasicador: n Probabilidades a priori parece sencillo Para las probabilidades a posteriori, se necesita demasiada informacin, sobre todo cuando crece la dimensin de los datos o o de entrada.
23
Estimacin de o Supervisado
Parmetros a
Aprendizaje
Utilizar conocimiento del problema para parametrizar las funciones de densidad Asumir que la funcin de densidad sigue una distribuncin dada, por o o ejemplo N (j , j ) Traspasar el problema de aproximar la funcin p(x|j ) a estimar los o parmetros j y j . a Aadir ms simplicaciones, por ejemplo, que j es conocida. n a
24
Estimacin o de Mxima a Verosimilitud (Maximum Likelihood Estimation)

Suponer que podemos separar todas las instancias de acuerdo con su clase, de forma que generamos c conjuntos de ejemplo, 1, . . . , c Los ejemplos en han sido generados independientes siguiendo una distribucin p(x|j ) o Asumimos que p(x, j ) se puede parametrizar un vocamente por un vector de parmetros j a Por ejemplo, podemos asumir que p(x, j ) N (j , j ), donde j =< j , j > Esa dependencia de p(x|j ) con j la representamos expl citamente con p(x|j , j ) Objetivo: utilizar los conjuntos de ejemplos 1, . . . , c para estimar 1 , . . . , c
25
Estimador de Mxima Verosimilitud a

Idea: utilizar el conjunto de ejemplos , generados independientemente siguiendo la densidad de probabilidad p(|), para estimar el vector de parmetros desconocido . a Si que contiene n ejemplos, = {x1, . . . , xn}, dado que fueron generados independientemente:
n
p(|) =
k=1
p(xk |)
(9)
Vista como una funcin, p(|) puede ser denominada la probabilidad o de dado el conjunto El estimador de verosimilitud probabilidad de es, por denicin, el o valor que maximiza p(|)
26
Estimador de Mxima Verosimilitud: Ejemplo a
p(| )
Por tanto, estamos planteando el problema de encontrar el mximo de la a funcin p(|) o
27
Estimador de Mxima Verosimilitud para una a Densidad de Probabilidad Normal, dada

Como viene dada, intentamos estimar Dado que la funcin logaritmo es montona creciente, el estimador de o o mxima verosimilitud coincide con el estimador de mxima verosimilitud a a de su logaritmo p(xk |) =
1 (2)d/2 ||1/2
exp[ 1 (xk )t1(xk )] 2 (10)
1 log p(xk |) = 2 (xk )t1(xk ) d log 2 1 log || 2 2 1 log p(xk |) = (xk ) n p(|) = k=1 p(xk |) n k=1 log p(xk |) = n 1(xk ) k=1
= (11)
28
Estimador de Mxima Verosimilitud para una a Densidad de Probabilidad Normal, dada

Ahora igualamos a 0 para obtener el mximo: a
n
1(xk ) = 0
k=1 n
(12)
1 = n
xk
k=1
(13)
Igualmente, se puede calcular el estimador de la matriz de covarianzas cuando dicha matriz es desconocida: 1 = n (xk )(xk )t
k=1
29
(14)

30
Clasicadores Bayesianos
Clasicador Bayesiano
Necesitamos aprender las probabilidades a posteri, P (i|x) Por teorema de Bayes: P (i|x) = p(x|i)P (i) = P (x) P (x|i)P (i) c j=1 p(x|i )P (j ) (15)
Las probabilidades anteriores son desconocidas, pero: Diponemos de conocimiento del dominio que nos permite parametrizar esas densidades de probabilidad (por ejemplo, que siguen una distribucin normal) o Diponemos de un conjunto de entrenamiento, , del que podemos aprender los parmetros de las funciones de densidad a
31
Clasicador Bayesiano
La regla de Bayes para clasicacin desde ejemplos queda como: o p(x|i, )P (i|) = P (i|x, ) = P (x|) p(x|i, )P (i|) = c p(x|j , )P (j |) j=1 (16)
Separando las instancias de entrenamiento de en c conjuntos, 1, . . . , c, y asumiendo que las probabilidades a priori son conocidas: P (i|x, ) = p(x|i, i)P (i) c j=1 p(x|j , j )P (j ) (17)
Por tanto, el clasicador Bayesiano se dene como: Bayes(x) = = argi mx p(x|i, i)P (i) a (18)
32
El Caso Discreto
Para toda clase i, P (i|) =
|i | ||
Para toda posible instancia x Sea Mi el conjunto de todas las ocurrencias de x en i p(x|i, i) = |Mi|| |i Bayes(x) = argi mx |Mi| a El problema de la dimensionalidad: Cada ejemplo x debe aparencer en i un nmero sucientemente u grande de veces como para obtener estad sticas signicativas. Si la dimensin de x crece, el nmero de posibles valores de x crece o u exponencialmente, haciendo el problema intratable Qu ocurre si el nuevo ejemplo a clasicar, x, no se hab dado en e a ?
33
Ejemplo: Jugar al tenis

Day D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 outlook sunny sunny overcast rainy rainy rainy overcast sunny sunny rainy sunny overcast overcast rainy temperature hot hot hot mild cool cool cool mild cool mild mild mild hot mild humidity high high high high normal normal normal high normal normal normal high normal high windy weak strong weak weak weak strong strong weak weak weak strong strong weak strong play no no yes yes yes no yes no yes yes yes yes yes no
34
Solucin de la Clasicacin Bayesiana o o

Consulta: (outlook=sunny, Wind=strong) Clasicador Bayesiano: Bayes(x) = = argi mx p(x|i, i)P (i|) = a = argyes,no mx(p(x|yes, yes)P (yes|), p(x|no, no)P (no|)) a (19) Probabilidades a priori:
9 P (yes) = 14 5 P (no) = 14
Temperature=cool,
Humidity=hig,
(20)
probabilidades a posteriori: p(< sunny, cool, high, strong > |yes, yes) =?? p(< sunny, cool, high, strong > |no, no) =?? (21)
35
El Clasicador Naive Bayes

Naive Bayes asume independencia lineal entre los distintos atributos Eso implica que: p(x|i, i) = p(< x1, x2, . . . , xk > |i, i) = K k=1 p(xk |i , i ) Por tanto:
K
(22)
N aiveBayes(x) = = argi mx a
k=1
p(xk |i, i)P (i)
(23)
36
Solucin al Ejemplo con Naive Bayes o

Consulta: (outlook=sunny, Wind=strong) Probabilidades a priori:
9 P (yes|) = 14 = 0,64 5 P (no|) = 14 = 0,35
Temperature=cool,
Humidity=high,
(24)
37
Solucin al Ejemplo con Naive Bayes o

Probabilidades a posteriori:
p(< outlook = sunny > |yes , yes ) = 2 = 0,22 9 3 p(< outlook = sunny > |no , no ) = 5 = 0,6 3 p(< T emperature = cool > |yes , yes ) = 9 = 0,33 1 p(< T emperature = cool > |no , no ) = 5 = 0,2 3 p(< Humidity = high > |yes , yes ) = 9 = 0,33 4 p(< Humidity = high > |no , no ) = 9 = 0,44 3 p(< W ind = strong > |yes , yes ) = 9 = 0,33 3 p(< W ind = strong > |no , no ) = 5 = 0,6
(25)
Entonces:
P (yes)p(sunny|yes)p(cool|yes)p(high|yes)p(strong|yes) = 0,64 0,22 0,33 0,33 0,33 = 0,005 P (no)p(sunny|no)p(cool|no)p(high|no)p(strong|no) = 0,35 0,6 0,2 0,44 0,6 = 0,01 N aiveBayes(< sunny, cool, high, strong >) = no
(26)
38
Resumen
Teor Bayesina nos da mecanismos para generar clasicadores basndose a a en las probabilidades a priori y las distribuciones de probabilidad a posteriori Las probabilidades pueden ser desconocidas: aprendizaje paramtrico e Estimacin de parmetros en distribuciones conocidas o a Clasicador Bayesiano Naive Bayes
39
Bibliograf a
Pattern Classication and Scene Analysis, Duda and Hart. Cap tulo 2 Machine Learning, Tom Mitchell. Cap tulo 6
40

Aprendizaje Bayesiano

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aprendizaje Bayesiano

Enviado por

Direitos autorais:

Formatos disponíveis

Teor de Decisin Bayesiana a o

Fernando Fernndez Rebollo a

Teor de Decisin Bayesiana a o

Ejemplo: el Caso de la Moneda Trucada

Teor de Decisin Bayesiana a o

P (D|h)P (h) arg mx P (h|D) = a = hH P (D) arg mx P (h|D) = P (D|h)P (h) a

Ejemplo: el Caso de la Moneda Trucada

arg mx (P (brillo|cara)P (cara), P (brillo|cruz)P (cruz)) = a

arg mx (0,9 0,2, 0,6 0, 8) = a

arg mx (0,18, 0,48) = cruz a

Ejemplo: el Caso de la Moneda Trucada

arg mx (P (brillo|cara), P (brillo|cruz)) = cara a

Clasicador MAP de Fuerza Bruta

Probabilidades de Error: Ejemplo

Teor de Decisin Bayesiana a o

Funcin de Densidad Normal o

Con un factor de conanza de aproximadamente el 95 %, |x | 2

Funcin de Densidad Normal o

Funcin Discriminante de una Densidad Normal o

||x i||2 = (x i)(x i)t =

Teor de Decisin Bayesiana a o

Estimacin o de Mxima a Verosimilitud (Maximum Likelihood Estimation)

Estimador de Mxima Verosimilitud a

Estimador de Mxima Verosimilitud: Ejemplo a

Por tanto, estamos planteando el problema de encontrar el mximo de la a funcin p(|) o

Estimador de Mxima Verosimilitud para una a Densidad de Probabilidad Normal, dada

exp[ 1 (xk )t1(xk )] 2 (10)

Estimador de Mxima Verosimilitud para una a Densidad de Probabilidad Normal, dada

Teor de Decisin Bayesiana a o

Ejemplo: Jugar al tenis

Solucin de la Clasicacin Bayesiana o o

El Clasicador Naive Bayes

p(xk |i, i)P (i)

Solucin al Ejemplo con Naive Bayes o

Solucin al Ejemplo con Naive Bayes o

Você também pode gostar