Você está na página 1de 40

Teor de Decisin Bayesiana a o

Fernando Fernndez Rebollo a

Teor de Decisin Bayesiana a o


1. Introduccin o 2. El Teorema de Bayes. Decisores MAP y ML 3. Funciones Discriminantes y Fronteras de Decisin o 4. Estimadores Paramtricos e 5. Clasicadores Bayesianos

Introduccin o

Introduccin o
La teor de decisin bayesiana se basa en dos asumciones: a o El problema de decisin se puede describir en trminos probabil o e sticos: Dado un conjunto de datos, D, cul es la mejor hiptesis h del a o cunjunto de hiptesis H o La mejor hiptesis es la hiptesis ms probable o o a Todos los valores de las probabilidades del problema son conocidas Decisiones tomadas en funcin de ciertas observaciones o

Introduccin o

Ejemplo: el Caso de la Moneda Trucada


Espacio de hiptesis: {cara, cruz} o Espacio de observaciones: {brillo, mate} Lanzo una moneda, recibo la observacin, D, y genero una hiptesis, h o o Preguntas: Cul es la mejor hiptesis? a o Cul es la hiptesis ms probable? a o a Cul es la probabilidad de obtener cara? a Cul es la probabilidad de obtener cruz? a Cul es la probabilidad de obtener cara, habindo recibido como a e observacin brillo? o Cul es la probabilidad de obtener cruz, habindo recibido como a e observacin mate? o

Teor de Decisin Bayesiana a o


1. Introduccin o 2. El Teorema de Bayes. Decisores MAP y ML 3. Funciones Discriminantes y Fronteras de Decisin o 4. Estimadores Paramtricos e 5. Clasicadores Bayesianos

El Teorema de Bayes

Notacin o
P (h): Probabilidad de que la hiptesis h sea cierta o Probabilidad a o priori de la hiptesis h o Reeja el conocimiento que tenemos sobre las oportunidades de que la hiptesis h sea cierta antes de recibir ninguna observacin o o Si no tenemos ningn conocimiento a priori, se le podr asignar la u a misma probabilidad a todas las hiptesis o P (D): Probabilidad de que recibamos la observacin D o Probabilidad o a priori de la observacin D o Reeja la probabilidad de recibir la observacin D, cuando no tenemos o ninguna idea sobre cul es la hiptesis real a o P (D|h): Probabilidad de observar el dato D, cuando se cumple la hiptesis h o Probabilidad a posteriori de la observacin D o o P (h|D): Probabilidad de que se cumpla la hiptesis h, dado que se ha o obtenido el dato D, o Probabilidad a posteriori de la hiptesis h o
6

El Teorema de Bayes

Teorema de Bayes
En aprendizaje inductivo, estamos interesados en calcular las probabilidades de las hiptesis a posteriori, ya que son las que se o obtienen tras recibir observaciones o ejemplos de entrenamiento. Teorema de Bayes: P (D|h)P (h) P (h|D) = P (D) Calcula la probabilidad a posteriori de la hiptesis en funcin de otras o o probabilidades

El Teorema de Bayes

Decisor MAP
Decisor mximo a posteriori: a hM AP = arg mx P (h|D) = a
hH

P (D|h)P (h) arg mx P (h|D) = a = hH P (D) arg mx P (h|D) = P (D|h)P (h) a


hH

El decisor de mxima verosimilitud, ML (maximum likelihood), asume a que todas las hiptesis son equiprobables a priori: o hM L = arg mx P (D|h) a
hH

El Teorema de Bayes

Ejemplo: el Caso de la Moneda Trucada


Probabilidades a priori: P (cara) = 0,2, P (cruz) = 0,8 Probabilidades a posteriori: P (brillo|cara) = 0,9, P (mate|cara) = 0,1 P (brillo|cruz) = 0,6, P (brillo|cara) = 0,4 Tiro la moneda y obtengo brillo: hM AP = arg mx P (brillo|h)P (h) = a
cara,cruz

arg mx (P (brillo|cara)P (cara), P (brillo|cruz)P (cruz)) = a


cara,cruz

arg mx (0,9 0,2, 0,6 0, 8) = a


cara,cruz

arg mx (0,18, 0,48) = cruz a


cara,cruz
9

El Teorema de Bayes

Ejemplo: el Caso de la Moneda Trucada


Sin embargo: hM L = arg mx P (brillo|h) = a
cara,cruz

arg mx (P (brillo|cara), P (brillo|cruz)) = cara a


cara,cruz

10

El Teorema de Bayes

Clasicador MAP de Fuerza Bruta


Caso general: 1. Para cada hiptesisclase h H , calcular la probabilidad a posteriori: o P (h|D) = P (D|h)P (h) P (D)
2. Dar como salida la hiptesis/clase con la mayor probabilidad a posteriori: o

hM AP = arg mx P (h|D) = a
hH

Dos hiptesis/clases: o g1(D) = P (D|h1)P (h1) P (D|h2)P (h2) hM AP = 1 0 g(x) 0 g(x) < 0
(1)

11

El Teorema de Bayes

Probabilidades de Error: Ejemplo


Un clasicador de, por ejemplo, dos categor divide el espacio en dos as, regiones, R1 para la categor h1, y R2 para la categor h2. a a Errores de clasicacin de una instancia x: o 1. x pertenece a categor w1 pero cae en la regin R2 a o 2. x pertenece a categor w2 pero cae en la regin R1 a o Probabilidad de Error de un clasicador MAP: P (error) = P (x R2, w1) + P (x R1, w2) = P (x R2|w1)P (w1) + P (x R1|w2)P (w2) = p(x|w1)P (w1)dx + R1 p(x|w2)P (w2)dx R2

(2)

12

El Teorema de Bayes

Probabilidades de Error
p(x|w 1)P(w1)

p(x|w 2)P(w2)

R1

Cul es el punto de divisin entre las regiones que minimiza el error de a o clasicacin? o

x R2

13

Teor de Decisin Bayesiana a o


1. Introduccin o 2. El Teorema de Bayes. Decisores MAP y ML 3. Funciones Discriminantes y Fronteras de Decisin o 4. Estimadores Paramtricos e 5. Clasicadores Bayesianos

14

Fronteras de Decisin o

Fronteras de Decisin o
Dadas dos clases, 1 y 2, tenemos sus funciones discriminantes: gi(x) = p(x|i)P (i) gi(x) = log p(x|i) + log P (i) Frontera de decisin: o g1(x) = g2(x)

15

Fronteras de Decisin o

Funcin de Densidad Normal o


Funcin de densidad normal unidimensional: o 1 1 exp p(x) = 2 2 Donde:
Z E[x] =
2

= N (, 2)

(3)

0.5

N(0, 1)
0.4

xp(x)dx = Z
2 2

0.3

0.2

E[(x)) ] =

(x ) p(x)dx =

0.1

Con un factor de conanza de aproximadamente el 95 %, |x | 2


16

Fronteras de Decisin o

Funcin de Densidad Normal o


Funcin de densidad normal multidimensional: o p(x) = 1 exp[ (x )t1(x )] = N [, ] 2 (2)d/2||1/2 1 (4)

Donde: : vector de medias = E[x]; i = E[xi] : matriz de covarianzas d d = E[(x )(x )t]; ij = E[(xi i)(xj j )] ii: varianza de xi Si ij = 0, para i = j, entonces xi es estad sticamente independiente de xj ||: determinante de (x )t: transpuesta de (x )
17

Fronteras de Decisin o

Funcin Discriminante de una Densidad Normal o


Recordamos la funcin discriminante: o gi(x) = log p(x|i) + log P (i) Si asumimos que p(x|i) = N (i, i): d 1 1 gi(x) = (x i)t1(x i) log 2 log |i| + log P (i) (5) i 2 2 2

18

Fronteras de Decisin o

Caso Particular: i = 2I
Si i = 2I: Las caracter sticas son estad sticamente independientes Todas las caracter sticas tienen la misma varianza, 2 |i| = 2d 1 = (1/ 2)I i Entonces: ||x i||2 gi(x) = + log P (i) 2 2 Donde ||.|| es la norma eucl dea:
d

(6)

||x i||2 = (x i)(x i)t =


j=1

(xj ij )2

19

Fronteras de Decisin o

Caso Particular: i = 2I
Si desarrollamos la funcin discriminante: o gi(x) = 1 t [x x 2tx + ti] + log P (i) i i 2 2 (7)

De donde se deriva un discriminador lineal (dado que xtx es independiente de i): t gi(x) = wi x + wi0 (8) Donde: 1 wi = 2 i 1 wi0 = 2 ti + log P (i) 2 i

20

Fronteras de Decisin o

Ejemplo
x2 R1 g 1(x)=g2(x)

R2

x1

21

Teor de Decisin Bayesiana a o


1. Introduccin o 2. El Teorema de Bayes. Decisores MAP y ML 3. Funciones Discriminantes y Fronteras de Decisin o 4. Estimadores Paramtricos e 5. Clasicadores Bayesianos

22

Estimacin de Parmetros o a

Estimacin de o Supervisado

Parmetros a

Aprendizaje

Hemos visto que se pueden construir clasicadores ptimos si se o conocen las probabilidades a priori, P (j ), y las densidades de clases condicionales, p(x|j ) Desafortunadamente, esas probabilidades son raramente conocidas En cambio, en la mayor de las ocasiones se dispone de cierto a conocimiento del modelo, as como de un nmero de ejemplos u representativos de dicho modelo Por tanto, una buena aproximacin es utilizar el conocimiento del o dominio y los ejemplos para disear el clasicador: n Probabilidades a priori parece sencillo Para las probabilidades a posteriori, se necesita demasiada informacin, sobre todo cuando crece la dimensin de los datos o o de entrada.
23

Estimacin de Parmetros o a

Estimacin de o Supervisado

Parmetros a

Aprendizaje

Utilizar conocimiento del problema para parametrizar las funciones de densidad Asumir que la funcin de densidad sigue una distribuncin dada, por o o ejemplo N (j , j ) Traspasar el problema de aproximar la funcin p(x|j ) a estimar los o parmetros j y j . a Aadir ms simplicaciones, por ejemplo, que j es conocida. n a

24

Estimacin de Parmetros o a

Estimacin o de Mxima a Verosimilitud (Maximum Likelihood Estimation)


Suponer que podemos separar todas las instancias de acuerdo con su clase, de forma que generamos c conjuntos de ejemplo, 1, . . . , c Los ejemplos en han sido generados independientes siguiendo una distribucin p(x|j ) o Asumimos que p(x, j ) se puede parametrizar un vocamente por un vector de parmetros j a Por ejemplo, podemos asumir que p(x, j ) N (j , j ), donde j =< j , j > Esa dependencia de p(x|j ) con j la representamos expl citamente con p(x|j , j ) Objetivo: utilizar los conjuntos de ejemplos 1, . . . , c para estimar 1 , . . . , c
25

Estimacin de Parmetros o a

Estimador de Mxima Verosimilitud a


Idea: utilizar el conjunto de ejemplos , generados independientemente siguiendo la densidad de probabilidad p(|), para estimar el vector de parmetros desconocido . a Si que contiene n ejemplos, = {x1, . . . , xn}, dado que fueron generados independientemente:
n

p(|) =
k=1

p(xk |)

(9)

Vista como una funcin, p(|) puede ser denominada la probabilidad o de dado el conjunto El estimador de verosimilitud probabilidad de es, por denicin, el o valor que maximiza p(|)
26

Estimacin de Parmetros o a

Estimador de Mxima Verosimilitud: Ejemplo a

p(| )

Por tanto, estamos planteando el problema de encontrar el mximo de la a funcin p(|) o

27

Estimacin de Parmetros o a

Estimador de Mxima Verosimilitud para una a Densidad de Probabilidad Normal, dada


Como viene dada, intentamos estimar Dado que la funcin logaritmo es montona creciente, el estimador de o o mxima verosimilitud coincide con el estimador de mxima verosimilitud a a de su logaritmo p(xk |) =
1 (2)d/2 ||1/2

exp[ 1 (xk )t1(xk )] 2 (10)

1 log p(xk |) = 2 (xk )t1(xk ) d log 2 1 log || 2 2 1 log p(xk |) = (xk ) n p(|) = k=1 p(xk |) n k=1 log p(xk |) = n 1(xk ) k=1

= (11)

28

Estimacin de Parmetros o a

Estimador de Mxima Verosimilitud para una a Densidad de Probabilidad Normal, dada


Ahora igualamos a 0 para obtener el mximo: a
n

1(xk ) = 0
k=1 n

(12)

1 = n

xk
k=1

(13)

Igualmente, se puede calcular el estimador de la matriz de covarianzas cuando dicha matriz es desconocida: 1 = n (xk )(xk )t
k=1
29

(14)

Teor de Decisin Bayesiana a o


1. Introduccin o 2. El Teorema de Bayes. Decisores MAP y ML 3. Funciones Discriminantes y Fronteras de Decisin o 4. Estimadores Paramtricos e 5. Clasicadores Bayesianos

30

Clasicadores Bayesianos

Clasicador Bayesiano
Necesitamos aprender las probabilidades a posteri, P (i|x) Por teorema de Bayes: P (i|x) = p(x|i)P (i) = P (x) P (x|i)P (i) c j=1 p(x|i )P (j ) (15)

Las probabilidades anteriores son desconocidas, pero: Diponemos de conocimiento del dominio que nos permite parametrizar esas densidades de probabilidad (por ejemplo, que siguen una distribucin normal) o Diponemos de un conjunto de entrenamiento, , del que podemos aprender los parmetros de las funciones de densidad a

31

Clasicadores Bayesianos

Clasicador Bayesiano
La regla de Bayes para clasicacin desde ejemplos queda como: o p(x|i, )P (i|) = P (i|x, ) = P (x|) p(x|i, )P (i|) = c p(x|j , )P (j |) j=1 (16)

Separando las instancias de entrenamiento de en c conjuntos, 1, . . . , c, y asumiendo que las probabilidades a priori son conocidas: P (i|x, ) = p(x|i, i)P (i) c j=1 p(x|j , j )P (j ) (17)

Por tanto, el clasicador Bayesiano se dene como: Bayes(x) = = argi mx p(x|i, i)P (i) a (18)
32

Clasicadores Bayesianos

El Caso Discreto
Para toda clase i, P (i|) =
|i | ||

Para toda posible instancia x Sea Mi el conjunto de todas las ocurrencias de x en i p(x|i, i) = |Mi|| |i Bayes(x) = argi mx |Mi| a El problema de la dimensionalidad: Cada ejemplo x debe aparencer en i un nmero sucientemente u grande de veces como para obtener estad sticas signicativas. Si la dimensin de x crece, el nmero de posibles valores de x crece o u exponencialmente, haciendo el problema intratable Qu ocurre si el nuevo ejemplo a clasicar, x, no se hab dado en e a ?

33

Clasicadores Bayesianos

Ejemplo: Jugar al tenis


Day D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 outlook sunny sunny overcast rainy rainy rainy overcast sunny sunny rainy sunny overcast overcast rainy temperature hot hot hot mild cool cool cool mild cool mild mild mild hot mild humidity high high high high normal normal normal high normal normal normal high normal high windy weak strong weak weak weak strong strong weak weak weak strong strong weak strong play no no yes yes yes no yes no yes yes yes yes yes no
34

Clasicadores Bayesianos

Solucin de la Clasicacin Bayesiana o o


Consulta: (outlook=sunny, Wind=strong) Clasicador Bayesiano: Bayes(x) = = argi mx p(x|i, i)P (i|) = a = argyes,no mx(p(x|yes, yes)P (yes|), p(x|no, no)P (no|)) a (19) Probabilidades a priori:
9 P (yes) = 14 5 P (no) = 14

Temperature=cool,

Humidity=hig,

(20)

probabilidades a posteriori: p(< sunny, cool, high, strong > |yes, yes) =?? p(< sunny, cool, high, strong > |no, no) =?? (21)
35

Clasicadores Bayesianos

El Clasicador Naive Bayes


Naive Bayes asume independencia lineal entre los distintos atributos Eso implica que: p(x|i, i) = p(< x1, x2, . . . , xk > |i, i) = K k=1 p(xk |i , i ) Por tanto:
K

(22)

N aiveBayes(x) = = argi mx a
k=1

p(xk |i, i)P (i)

(23)

36

Clasicadores Bayesianos

Solucin al Ejemplo con Naive Bayes o


Consulta: (outlook=sunny, Wind=strong) Probabilidades a priori:
9 P (yes|) = 14 = 0,64 5 P (no|) = 14 = 0,35

Temperature=cool,

Humidity=high,

(24)

37

Clasicadores Bayesianos

Solucin al Ejemplo con Naive Bayes o


Probabilidades a posteriori:
p(< outlook = sunny > |yes , yes ) = 2 = 0,22 9 3 p(< outlook = sunny > |no , no ) = 5 = 0,6 3 p(< T emperature = cool > |yes , yes ) = 9 = 0,33 1 p(< T emperature = cool > |no , no ) = 5 = 0,2 3 p(< Humidity = high > |yes , yes ) = 9 = 0,33 4 p(< Humidity = high > |no , no ) = 9 = 0,44 3 p(< W ind = strong > |yes , yes ) = 9 = 0,33 3 p(< W ind = strong > |no , no ) = 5 = 0,6

(25)

Entonces:

P (yes)p(sunny|yes)p(cool|yes)p(high|yes)p(strong|yes) = 0,64 0,22 0,33 0,33 0,33 = 0,005 P (no)p(sunny|no)p(cool|no)p(high|no)p(strong|no) = 0,35 0,6 0,2 0,44 0,6 = 0,01 N aiveBayes(< sunny, cool, high, strong >) = no

(26)

38

Clasicadores Bayesianos

Resumen
Teor Bayesina nos da mecanismos para generar clasicadores basndose a a en las probabilidades a priori y las distribuciones de probabilidad a posteriori Las probabilidades pueden ser desconocidas: aprendizaje paramtrico e Estimacin de parmetros en distribuciones conocidas o a Clasicador Bayesiano Naive Bayes

39

Clasicadores Bayesianos

Bibliograf a
Pattern Classication and Scene Analysis, Duda and Hart. Cap tulo 2 Machine Learning, Tom Mitchell. Cap tulo 6

40

Você também pode gostar