Escolar Documentos
Profissional Documentos
Cultura Documentos
Introduccin o
Introduccin o
La teor de decisin bayesiana se basa en dos asumciones: a o El problema de decisin se puede describir en trminos probabil o e sticos: Dado un conjunto de datos, D, cul es la mejor hiptesis h del a o cunjunto de hiptesis H o La mejor hiptesis es la hiptesis ms probable o o a Todos los valores de las probabilidades del problema son conocidas Decisiones tomadas en funcin de ciertas observaciones o
Introduccin o
El Teorema de Bayes
Notacin o
P (h): Probabilidad de que la hiptesis h sea cierta o Probabilidad a o priori de la hiptesis h o Reeja el conocimiento que tenemos sobre las oportunidades de que la hiptesis h sea cierta antes de recibir ninguna observacin o o Si no tenemos ningn conocimiento a priori, se le podr asignar la u a misma probabilidad a todas las hiptesis o P (D): Probabilidad de que recibamos la observacin D o Probabilidad o a priori de la observacin D o Reeja la probabilidad de recibir la observacin D, cuando no tenemos o ninguna idea sobre cul es la hiptesis real a o P (D|h): Probabilidad de observar el dato D, cuando se cumple la hiptesis h o Probabilidad a posteriori de la observacin D o o P (h|D): Probabilidad de que se cumpla la hiptesis h, dado que se ha o obtenido el dato D, o Probabilidad a posteriori de la hiptesis h o
6
El Teorema de Bayes
Teorema de Bayes
En aprendizaje inductivo, estamos interesados en calcular las probabilidades de las hiptesis a posteriori, ya que son las que se o obtienen tras recibir observaciones o ejemplos de entrenamiento. Teorema de Bayes: P (D|h)P (h) P (h|D) = P (D) Calcula la probabilidad a posteriori de la hiptesis en funcin de otras o o probabilidades
El Teorema de Bayes
Decisor MAP
Decisor mximo a posteriori: a hM AP = arg mx P (h|D) = a
hH
El decisor de mxima verosimilitud, ML (maximum likelihood), asume a que todas las hiptesis son equiprobables a priori: o hM L = arg mx P (D|h) a
hH
El Teorema de Bayes
El Teorema de Bayes
10
El Teorema de Bayes
hM AP = arg mx P (h|D) = a
hH
Dos hiptesis/clases: o g1(D) = P (D|h1)P (h1) P (D|h2)P (h2) hM AP = 1 0 g(x) 0 g(x) < 0
(1)
11
El Teorema de Bayes
(2)
12
El Teorema de Bayes
Probabilidades de Error
p(x|w 1)P(w1)
p(x|w 2)P(w2)
R1
Cul es el punto de divisin entre las regiones que minimiza el error de a o clasicacin? o
x R2
13
14
Fronteras de Decisin o
Fronteras de Decisin o
Dadas dos clases, 1 y 2, tenemos sus funciones discriminantes: gi(x) = p(x|i)P (i) gi(x) = log p(x|i) + log P (i) Frontera de decisin: o g1(x) = g2(x)
15
Fronteras de Decisin o
= N (, 2)
(3)
0.5
N(0, 1)
0.4
xp(x)dx = Z
2 2
0.3
0.2
E[(x)) ] =
(x ) p(x)dx =
0.1
Fronteras de Decisin o
Donde: : vector de medias = E[x]; i = E[xi] : matriz de covarianzas d d = E[(x )(x )t]; ij = E[(xi i)(xj j )] ii: varianza de xi Si ij = 0, para i = j, entonces xi es estad sticamente independiente de xj ||: determinante de (x )t: transpuesta de (x )
17
Fronteras de Decisin o
18
Fronteras de Decisin o
Caso Particular: i = 2I
Si i = 2I: Las caracter sticas son estad sticamente independientes Todas las caracter sticas tienen la misma varianza, 2 |i| = 2d 1 = (1/ 2)I i Entonces: ||x i||2 gi(x) = + log P (i) 2 2 Donde ||.|| es la norma eucl dea:
d
(6)
(xj ij )2
19
Fronteras de Decisin o
Caso Particular: i = 2I
Si desarrollamos la funcin discriminante: o gi(x) = 1 t [x x 2tx + ti] + log P (i) i i 2 2 (7)
De donde se deriva un discriminador lineal (dado que xtx es independiente de i): t gi(x) = wi x + wi0 (8) Donde: 1 wi = 2 i 1 wi0 = 2 ti + log P (i) 2 i
20
Fronteras de Decisin o
Ejemplo
x2 R1 g 1(x)=g2(x)
R2
x1
21
22
Estimacin de Parmetros o a
Estimacin de o Supervisado
Parmetros a
Aprendizaje
Hemos visto que se pueden construir clasicadores ptimos si se o conocen las probabilidades a priori, P (j ), y las densidades de clases condicionales, p(x|j ) Desafortunadamente, esas probabilidades son raramente conocidas En cambio, en la mayor de las ocasiones se dispone de cierto a conocimiento del modelo, as como de un nmero de ejemplos u representativos de dicho modelo Por tanto, una buena aproximacin es utilizar el conocimiento del o dominio y los ejemplos para disear el clasicador: n Probabilidades a priori parece sencillo Para las probabilidades a posteriori, se necesita demasiada informacin, sobre todo cuando crece la dimensin de los datos o o de entrada.
23
Estimacin de Parmetros o a
Estimacin de o Supervisado
Parmetros a
Aprendizaje
Utilizar conocimiento del problema para parametrizar las funciones de densidad Asumir que la funcin de densidad sigue una distribuncin dada, por o o ejemplo N (j , j ) Traspasar el problema de aproximar la funcin p(x|j ) a estimar los o parmetros j y j . a Aadir ms simplicaciones, por ejemplo, que j es conocida. n a
24
Estimacin de Parmetros o a
Estimacin de Parmetros o a
p(|) =
k=1
p(xk |)
(9)
Vista como una funcin, p(|) puede ser denominada la probabilidad o de dado el conjunto El estimador de verosimilitud probabilidad de es, por denicin, el o valor que maximiza p(|)
26
Estimacin de Parmetros o a
p(| )
27
Estimacin de Parmetros o a
1 log p(xk |) = 2 (xk )t1(xk ) d log 2 1 log || 2 2 1 log p(xk |) = (xk ) n p(|) = k=1 p(xk |) n k=1 log p(xk |) = n 1(xk ) k=1
= (11)
28
Estimacin de Parmetros o a
1(xk ) = 0
k=1 n
(12)
1 = n
xk
k=1
(13)
Igualmente, se puede calcular el estimador de la matriz de covarianzas cuando dicha matriz es desconocida: 1 = n (xk )(xk )t
k=1
29
(14)
30
Clasicadores Bayesianos
Clasicador Bayesiano
Necesitamos aprender las probabilidades a posteri, P (i|x) Por teorema de Bayes: P (i|x) = p(x|i)P (i) = P (x) P (x|i)P (i) c j=1 p(x|i )P (j ) (15)
Las probabilidades anteriores son desconocidas, pero: Diponemos de conocimiento del dominio que nos permite parametrizar esas densidades de probabilidad (por ejemplo, que siguen una distribucin normal) o Diponemos de un conjunto de entrenamiento, , del que podemos aprender los parmetros de las funciones de densidad a
31
Clasicadores Bayesianos
Clasicador Bayesiano
La regla de Bayes para clasicacin desde ejemplos queda como: o p(x|i, )P (i|) = P (i|x, ) = P (x|) p(x|i, )P (i|) = c p(x|j , )P (j |) j=1 (16)
Separando las instancias de entrenamiento de en c conjuntos, 1, . . . , c, y asumiendo que las probabilidades a priori son conocidas: P (i|x, ) = p(x|i, i)P (i) c j=1 p(x|j , j )P (j ) (17)
Por tanto, el clasicador Bayesiano se dene como: Bayes(x) = = argi mx p(x|i, i)P (i) a (18)
32
Clasicadores Bayesianos
El Caso Discreto
Para toda clase i, P (i|) =
|i | ||
Para toda posible instancia x Sea Mi el conjunto de todas las ocurrencias de x en i p(x|i, i) = |Mi|| |i Bayes(x) = argi mx |Mi| a El problema de la dimensionalidad: Cada ejemplo x debe aparencer en i un nmero sucientemente u grande de veces como para obtener estad sticas signicativas. Si la dimensin de x crece, el nmero de posibles valores de x crece o u exponencialmente, haciendo el problema intratable Qu ocurre si el nuevo ejemplo a clasicar, x, no se hab dado en e a ?
33
Clasicadores Bayesianos
Clasicadores Bayesianos
Temperature=cool,
Humidity=hig,
(20)
probabilidades a posteriori: p(< sunny, cool, high, strong > |yes, yes) =?? p(< sunny, cool, high, strong > |no, no) =?? (21)
35
Clasicadores Bayesianos
(22)
N aiveBayes(x) = = argi mx a
k=1
(23)
36
Clasicadores Bayesianos
Temperature=cool,
Humidity=high,
(24)
37
Clasicadores Bayesianos
(25)
Entonces:
P (yes)p(sunny|yes)p(cool|yes)p(high|yes)p(strong|yes) = 0,64 0,22 0,33 0,33 0,33 = 0,005 P (no)p(sunny|no)p(cool|no)p(high|no)p(strong|no) = 0,35 0,6 0,2 0,44 0,6 = 0,01 N aiveBayes(< sunny, cool, high, strong >) = no
(26)
38
Clasicadores Bayesianos
Resumen
Teor Bayesina nos da mecanismos para generar clasicadores basndose a a en las probabilidades a priori y las distribuciones de probabilidad a posteriori Las probabilidades pueden ser desconocidas: aprendizaje paramtrico e Estimacin de parmetros en distribuciones conocidas o a Clasicador Bayesiano Naive Bayes
39
Clasicadores Bayesianos
Bibliograf a
Pattern Classication and Scene Analysis, Duda and Hart. Cap tulo 2 Machine Learning, Tom Mitchell. Cap tulo 6
40