Bayes PDF

Aprendizagem de Máquina
Inferência estatística
Classificador bayesiano
Prof. Paulo Martins Engel
Informática
UFRGS Prof. Paulo Martins Engel
Inferência estatística
• Na inferência estatística, toma-se uma decisão usando a informação
contida numa amostra.
• Na abordagem paramétrica, assume-se que a amostra é obtida de
uma distribuição que obedece a um modelo conhecido, p. ex.
gaussiano.
• Neste caso, a especificação do modelo se dá pela estimação dos
valores de um número pequeno de parâmetros, a estatística suficiente
da distribuição (p. ex., média e variância).
• Uma vez que estes parâmetros sejam estimados a partir de uma
amostra, toda a distribuição se torna conhecida.
• A estimação por máxima verossimilhança é o método fundamental
para estimar os parâmetros de uma distribuição.
2
Informática
Estimação por Máxima Verossimilhança (MLE)

• Digamos que temos uma amostra independente e identicamente
distribuída (iid), .
• Assumimos que xt sejam instâncias retiradas de uma família de
densidades de probabilidade, p(x|), definida pelos parâmetros :
xt  p(x|)
• Desejamos encontrar o  que torne a amostragem de xt por p(x|) o
mais provável possível.
• Como os xt são independentes (amostra iid), a probabilidade do
parâmetro  dada a amostra X, a chamada verossimilhança
(likelihood) de , é o produto das verossimilhanças de cada instância:
≡
3
Informática
Estimação por Máxima Verossimilhança (MLE)

• Na estimação por máxima verossimilhança, desejamos encontrar  que
maximiza a verossimilhança , que é equivalente a maximizar o
seu logaritmo, :
≡ log log
• Se X for uma distribuição normal (gaussiana) com média E[X]   e

variância Var(X)  2, representada por N(,2), a sua função
densidade de probabilidade é:
1
exp , ∞ ∞
2 2
4
Informática
MLE de uma densidade normal

• Dada uma amostra , com  N(,2), é:
∑
, log 2 log
2 2
2
• As estimativas da média, m, e da variância, s , por MLE, são obtidas
tomando as derivadas parciais de , em relação aos
parâmetros, e igualando a 0, resultando em:
Informática
Exemplo de distribuição normal
1, 2|1 0, 2 0,  2, 2 2
6
Informática
Variáveis Aleatórias
• Considere que E seja uma variável aleatória que representa um evento que pode ou não
ocorrer (E = V ou E = F)
• P(E) probabilidade que o evento E irá ocorrer. Tem um valor entre 0 e 1.
P(E) = 1 : certeza que E vai ocorrer; P(E) = 0 : certeza que E não vai ocorrer.
• Quando um evento (p. ex., jogar um dado ou uma moeda) tem vários resultados
possíveis (as 6 faces de um dado ou as duas faces de uma moeda) associa-se uma
probabilidade a cada resultado possível (probabilidade a priori).
• X : variável aleatória “face” cujas realizações possíveis são x  {1, 2, 3, 4, 5, 6}
P(X = 1) = P(X = 2) = P(X = 3) = P(X = 4) = P(X = 5) = P(X = 6) = 1/6
• A soma das probabilidades de todos os resultados possíveis é um.
• Probabilidade objetiva: medida por análise das estatísticas dos eventos.
• Probabilidade subjetiva: estimada através de entrevistas com peritos.
• Em muitos domínios é impossível realizar medições, o que obriga o uso de
probabilidade subjetiva.
• Por outro lado, muitos peritos têm dificuldade em estimar probabilidades.
7
Informática
Representação por variáveis aleatórias

• Do ponto de vista de representação de conhecimento, considera-se uma coleção de
variáveis aleatórias, V1, V2, ..., VK, que são características do domínio (atributos).
• Cada atributo Vi tem valores vij.
• Os valores das variáveis podem ser de vários tipos. Se as variáveis forem
proposições, então os seus valores são V ou F (1 ou 0).
• Se as variáveis (atributos) forem medidas físicas (peso, altura, velocidade, etc.) os
valores são numéricos.
• Se as variáveis forem categóricas (cor, letras do alfabeto, etc.) os valores são
nominais.
• Ex.: O resultado de se jogar uma moeda pode ser representado por uma única
variável C, que representa o atributo “face”, cujo valor pode ser “cara” (Ca) ou
“coroa” (Co).
• Se uma variável representar proposição, p.ex. B, os seus valores (V ou F) podem ser
representados simplesmente por: B ou B.
8
Informática
Cálculo de probabilidades
• A representação por probabilidades começa pelo cálculo das probabilidades
conjuntas das variáveis (atributos) dos objetos observados no domínio.
• Lembrando que no aprendizado supervisionado, um dos atributos é a classe, o
problema desta abordagem é que ela assume que a probabilidade a priori de cada
classe pode ser obtida da amostra de treinamento, o que nem sempre é verdade.
• Ex.: Objetos definidos por três atributos categóricos, binários, sendo um deles a
classe de interesse (máquinas de fabricação diferentes, de cores azul e vermelho):
Forma (Fo): quadrada (Q), redonda (R)
Número de Furos (NFu): dois (D), três (T)
Cor (Cor): azul (A), vermelho (V)
• Ex.: calcular as probabilidades conjuntas dos (valores dos) atributos que
definem os objetos do domínio, a partir do conjunto de treinamento abaixo:
Informática
Cálculo de probabilidades conjuntas
Fo NFu Cor P(Foi,NFui,Ci)

Q D A ? P(Q,D,A)
Q D V ? P(Q,D,V)
Q T A ? P(Q,T,A)
Q T V ? P(Q,T,V)
R D A ? P(R,D,A)
R D V ? P(R,D,V)
R T A ? P(R,T,A)
R T V ? P(R,T,V)
10
Informática

Q D A 2/18 P(Q,D,A)
Q D V 3/18 P(Q,D,V)
Q T A 3/18 P(Q,T,A)
Q T V 1/18 P(Q,T,V)
R D A 1/18 P(R,D,A)
R D V 3/18 P(R,D,V)
R T A 2/18 P(R,T,A)
R T V 3/18 P(R,T,V)
11
Informática

• Podemos definir probabilidades conjuntas de uma combinação qualquer de
valores de variáveis, inclusive de valores isolados. Por exemplo:
Q D A 2/18 P(Q,D,A) P(Q,A) = P(A) =
? P(Q,A)
Q D V 3/18 P(Q,D,V)
P(Q,V) = +
Q T A 3/18 P(Q,T,A) ? P(R,A) =
?
Q T V 1/18 P(Q,T,V)
R D A 1/18 P(R,D,A) P(R,A) = P(V) =

? P(Q,V)
R D V 3/18 P(R,D,V)
P(R,V) = +
R T A 2/18 P(R,T,A) ? P(R,V) =
?
R T V 3/18 P(R,T,V)
12
Informática

• Podemos definir probabilidades conjuntas de uma combinação qualquer de
valores de variáveis, inclusive de valores isolados. Por exemplo:
Q D A 2/18 P(Q,D,A) P(Q,A) = P(A) =
2/18 + 3/18 = P(Q,A)
Q D V 3/18 P(Q,D,V)
5/18 +
Q T A 3/18 P(Q,T,A) P(Q,V) = P(R,A) =
3/18 + 1/18 = 8/18
Q T V 1/18 P(Q,T,V) 4/18
R D A 1/18 P(R,D,A) P(R,A) = P(V) =
1/18 + 2/18 = P(Q,V)
R D V 3/18 P(R,D,V)
3/18 +
R T A 2/18 P(R,T,A) P(R,V) = P(R,V) =
3/18 + 3/18 = 10/18
R T V 3/18 P(R,T,V) 6/18
• As probabilidades de valores isolados, P(A) e P(V), são chamadas de probabilidades a

priori, correspondendo à probabilidade de ocorrência destes valores ao acaso no
domínio, isto é, antes de se coletar informações (medidas) sobre um objeto específico.
13
Informática
Probabilidades Condicionais
• A inferência probabilística usa a informação disponível sobre os valores de algumas
variáveis para obter a probabilidade para valores de outras variáveis.
• A probabilidade condicional P(B|A) é a probabilidade de B ocorrer dado que A tenha
ocorrido. Ela é definida a partir da probabilidade conjunta P(A,B) :
P(A,B)
P(B|A) =
P(A)
• P(B|A) é chamada de probabilidade a posteriori de B, no sentido de que a probabilidade
de ocorrência de B é modificada depois que se constata a ocorrência de A, em relação ao
que se sabia a priori, P(B).
• Esta probabilidade pode ser interpretada como um fator de confiança que se pode
inferir a partir dos dados na relação de dependência correspondente à regra: A  B
• P(A) e P(B) são as probabilidades marginais de A e B, respectivamente. Elas são
também chamadas de probabilidades a priori destes valores de variáveis.
• A dificuldade do cálculo de P(B|A) está na determinação das probabilidades conjuntas,
que só é possível de ser obtida se as probabilidades a priori estiverem expressas nos
dados.
14
Informática
Probabilidades Condicionais
• Uma propriedade importante que resulta da definição das probabilidades condicionais
é a sua simetria em relação à probabilidade conjunta.
• Da definição da probabilidade condicional decorre:
P(A,B) P(A,B)
P(B|A) = P(A|B) =
P(A) P(B)
• Portanto, as probabilidades condicionais estão relacionadas da seguinte forma:
P(A,B) = P(B|A)P(A) = P(A|B)P(B)
• Rearranjando as duas últimas expressões, obtemos a fórmula do teorema de Bayes (TB):
P(A|B) P(B)
P(B|A) =
P(A)
• O cálculo das probabilidades condicionais pelo TB tem a vantagem de não depender
das probabilidades conjuntas.
• Além disso, é possível usar um valor da probabilidade a priori diferente da proporção
em que as classes se apresentam no arquivo de treinamento.
15
Informática
O Teorema de Bayes
• O Teorema de Bayes mostra uma maneira prática de se calcular a probabilidade de um
evento em particular, a partir de um conjunto de observações, sem a necessidade de se
conhecer as probabilidades conjuntas.
• O evento pode ser um determinado valor de um atributo especial, que seria o rótulo de
uma classe i, ou hipótese Hi.
• Inicialmente, se determina a probabilidade a priori de cada hipótese Hk, P(Hk) presente
no domínio. (H1, H2, ..., Hi, ..., Hn)
• A seguir, a partir de conjuntos de amostras contendo objetos pertencentes a cada uma
das hipóteses possíveis, se determinam as probabilidades com que ocorrem os
atributos observáveis (E1, E2, ..., Ej, ..., El) em cada classe, ou seja, as P(Ej|Hk).
• O TB afirma que, para um objeto do domínio no qual ocorra p. ex. Ej, a probabilidade
de que este objeto satisfaça a hipótese Hi é dada por P(Hi|Ej):
P(Ej|Hi) . P(Hi) P(Ej|Hi) . P(Hi)

P(Hi|Ej) = = n
P(Ej)
∑ P(Ej|Hk) . P(Hk)
k=1
16
Informática
Regras das probabilidades

• Considere um teste envolvendo duas variáveis aleatórias X e Y, onde X pode assumir
qualquer valor xi, com i = 1,..., M, e Y pode assumir os valores yj, onde j = 1,..., L.
• Considere um total de N testes nos quais amostramos ambas as variáveis X e Y, onde
nij representa o número de testes onde X = xi e Y = yj ocorreram simultaneamente.
• Considere ainda que ci representa o número de vezes em que ocorreu X = xi,
independente do valor que Y assumiu. Da mesma forma, rj representa o número de
vezes em que ocorreu Y = yj.
• A probabilidade conjunta de X = xi e Y = yj, P(X = xi, Y = yj), é dada pela razão:
, 
• A probabilidade que X assuma o valor xi independentemente do valor de X, P(X = xi), é
denominada probabilidade marginal de X = xi, e calculada pela fração:

• Destas definições, segue a regra da soma das probabilidades (marginalização):
,
17
Informática
Regras das probabilidades condicionais
• Considerando apenas as instâncias em que X = xi, então a fração destas instâncias nas
quais Y = yj, representada por P(Y = yj | X = xi), é denominada probabilidade
condicional de Y = yj dado X = xi, e calculada pela fração;
|
• A partir das definições das probabilidades conjunta, marginais e condicionais, segue a
regra do produto das probabilidades condicionais:
, ∙ ∙
, | ∙
• e a sua variante , | ∙
• A generalização desta regra para um número qualquer de variáveis, A1, ..., An, é
conhecida como a regra da cadeia das probabilidades condicionais e escrita como:
, ⋯ | | , ⋯ | , ⋯
• Quando as variáveis são condicionalmente independentes entre si, podemos escrever:
| , ⋯ , ∀
, ⋯ ⋯
18
Informática
Regras das probabilidades condicionais

• Substituindo a probabilidade conjunta pela regra do produto das probabilidades
condicionais à expressão da regra da soma, obtemos o chamado condicionamento:
, | ∙
• Aplicando o TB e a regra da cadeia, podemos mostrar a regra de atualização sucessiva

da probabilidade a posteriori de uma hipótese C, dadas uma série de variáveis:
, , ⋯ , ⋯
, ⋯
, ⋯
• Quando as variáveis observáveis são condicionalmente independentes entre si, dada a
classe, podemos calcular a probabilidade condicional por classe como o produto:
, ⋯ | | | | ⋯ |
• Sendo as evidências independentes entre si, podemos escrever:
| , ⋯
• Neste caso, a atualização da hipótese para evidências independentes é dada por:
, ⋯
, ⋯
19
Informática
Exemplo
• Considere um jogo de futebol entre dois times rivais: Time 0 e Time 1.
• Suponha que, a partir do histórico dos jogos entre eles, o Time 0 tenha ganho 65% das
vezes.
• Entre os jogos ganhos pelo Time 0, apenas 30% foram jogados no campo do
adversário.
• Por outro lado, 75% das vitórias do Time 1 foram obtidas jogando em casa.
• Sabendo-se que o próximo jogo será no campo do Time 1, qual é o time que tem a
maior chance de sair vitorioso?
20
Informática
Exemplo
• A partir do histórico dos jogos entre eles, o Time 0 tenha ganho 65% das vezes.
• Entre os jogos ganhos pelo Time 0, apenas 30% foram jogados no campo do adversário.
• Sabendo-se que o próximo jogo será no campo do Time 1, qual é o time que tem a maior chance
de sair vitorioso?
• Representação por variáveis aleatórias:
• X : representa o campo onde acontece o jogo, com as realizações x  {0, 1}
• Y : representa o time vencedor de um jogo, com as realizações y  {0, 1}
• Representação das informações do problema:
• Probabilidade (a priori) que o Time 0 vença é P(Y = 0) = ?
• Probabilidade (a priori) que o Time 1 vença é P(Y = 1) = ?
• Probabilidade do Time 1 jogar em casa quando ele vence é P(X = 1 | Y = 1) = ?
• Probabilidade do Time 0 jogar fora de casa quando ele vence é P(X = 1 | Y = 0) = ?
• Probabilidade do Time 1 ganhar sabendo-se que o jogo é em casa é P(Y = 1 | X = 1) = ?
• Probabilidade do Time 0 ganhar sabendo-se que o jogo é fora de casa é P(Y = 0 | X = 1) = ?
21
Informática
Exemplo
• A partir do histórico dos jogos entre eles, o Time 0 tenha ganho 65% das vezes.
• Entre os jogos ganhos pelo Time 0, apenas 30% foram jogados no campo do adversário.
• Sabendo-se que o próximo jogo será no campo do Time 1, qual é o time que tem a maior chance
de sair vitorioso?
• Representação por variáveis aleatórias:
• X : representa o campo onde acontece o jogo, com as realizações x  {0, 1}
• Y : representa o time vencedor de um jogo, com as realizações y  {0, 1}
• Representação das informações do problema:
• Probabilidade (a priori) que o Time 0 vença é P(Y = 0) = 0,65
• Probabilidade (a priori) que o Time 1 vença é P(Y = 1) = 1 – P(Y = 0) = 0,35
• Probabilidade do Time 1 jogar em casa quando ele vence é P(X = 1 | Y = 1) = 0,75
• Probabilidade do Time 0 jogar fora de casa quando ele vence é P(X = 1 | Y = 0) = 0,3
22
Informática
Exemplo
• Probabilidade (a priori) que o Time 0 vença é P(Y = 0) = 0,65
• Probabilidade (a priori) que o Time 1 vença é P(Y = 1) = 1 – P(Y = 0) = 0,35
• Probabilidade do Time 1 jogar em casa quando ele vence é P(X = 1 | Y = 1) = 0,75
• Probabilidade do Time 0 jogar fora de casa quando ele vence é P(X = 1 | Y = 0) = 0,3
P( X  1 | Y  1) P(Y  1) 0,2625
P(Y  1 | X  1)    0,574
P( X  1) 0,4575
P( X  1 | Y  0) P(Y  0) 0,195
P(Y  0 | X  1)    0,426
P( X  1) 0,4575
P( X  1 | Y  1) P(Y  1)  0,75  0,35  0,2625
P( X  1 | Y  0) P(Y  0)  0,3  0,65  0,195
P( X  1)  P( X  1 | Y  1) P(Y  1)  P( X  1 | Y  0) P(Y  0)  0,2625  0,195  0,4575

23
Informática
Exercício
• Objetos definidos por três atributos categóricos, binários, sendo um deles a classe de
interesse (máquinas de fabricação diferentes, de cores azul e vermelho):
Forma (Fo): quadrada (Q), redonda (R)
Número de Furos (NFu): dois (D), três (T)
Cor (Cor): azul (A), vermelho (V)
• Sabendo-se que P(A) = 0,6, encontrar a combinação de atributos-valores que
prediz cada classe com a maior probabilidade a posteriori.
24
Informática
• Obtenção das probabilidades condicionais por classe, por contagem (aprendizado):
P (Fo ,Fu |C )
C P(C)
Fo Fu C=A C=V
Q D
P(Fo,Fu | C) Q T
R D
Fo,Fu R T
25
Informática
C P(C) P (Fo ,Fu |C )

Fo Fu C=A C=V
P(Fo,Fu | C) Q D
Q T
R D
Fo,Fu
R T
Obtenção das probabilidades conjuntas, por inferência no gráfico:

regra do produto das probabilidades condicionais : P(Fo, Fu, C) = P(Fo, Fu |C)* P(C)
P (Fo ,Fu ,C )
Fo Fu C=A C=V
Q D
Q T
R D
R T
26
Informática
C P(C) P (Fo ,Fu |C ) P (Fo ,Fu ,C )

Fo Fu C=A C=V Fo Fu C=A C=V
P(Fo,Fu | C) Q D Q D
Q T Q T
R D R D
Fo,Fu
R T R T
Probabilidades conjuntas dos pares atributos-valores

regra do condicionamento ou marginalização das conjuntas:
P(Fo, Fu) = P(Fo, Fu, C = A) + P(Fo, Fu, C = V)
Fo Fu P (Fo,Fu )
Q D
Q T
R D
R T
27
Informática

Fo Fu C=A C=V
P(Fo,Fu | C) Q D
Q T
R D
Fo,Fu
R T
Fo Fu P (Fo,Fu ) Fi P (Fi )
Q D Fo=Q
Q T Fo=R
R D Fu=D
R T Fu=T
Probabilidades marginais de cada atributo-valor (por marginalização):

P(Fi) = P(Fi, Fj1) + P(Fi, Fj2)
28
Informática

Fo Fu C=A C=V
P(Fo,Fu | C) Q D
Q T
R D
Fo,Fu
R T
P (Fi |C )
Fi C=A C=V
Fo=Q
Fo=R
Fu=D
Fu=T
Probabilidades condicionais de cada atributo-valor por classe (por marginalização):

P(Fi |C) = P(Fi, Fj1 |C) + P(Fi, Fj2 |C)
29
Informática
C P(C) P (Fo ,Fu |C ) P (C |Fo ,Fu )

Q D Q D
P(Fo,Fu | C) Q T
Q T
R D R D
Fo,Fu R T R T
Probabilidades a posteriori pelo Teorema de Bayes:
P ( Fo  Q, Fu  D | C  A) P (C  A)
P (C  A | Fo  Q, Fu  D) 
P ( Fo  Q, Fu  D | C  A) P (C  A)  P ( Fo  Q, Fu  D | C  V ) P(C  V )
P( Fo  Q, Fu  D | C  V ) P(C  V )
P(C  V | Fo  Q, Fu  D) 
P ( Fo  Q, Fu  D | C  A) P (C  A)  P( Fo  Q, Fu  D | C  V ) P (C  V )
30
Informática
P (Fo ,Fu |C ) P (Fi |C )

C P(C) Fo Fu C=A C=V Fi C=A C=V
Q D Fo=Q
P(Fo,Fu | C) Q T Fo=R
R D Fu=D
Fo,Fu R T Fu=T
P (C |Fi )
Fi C=A C=V
Fo=Q
Fo=R
Fu=D
Fu=T
Probabilidades a posteriori pelo Teorema de Bayes:

P( Fo  Q | C  A) P(C  A)
P (C  A | Fo  Q) 
P ( Fo  Q | C  A) P(C  A)  P( Fo  Q | C  V ) P(C  V )
P( Fo  Q | C  V ) P(C  V )
P(C  V | Fo  Q) 
P( Fo  Q | C  A) P(C  A)  P( Fo  Q | C  V ) P(C  V )
31
Informática
Características do aprendizado bayesiano

• Cada exemplo de treinamento pode aumentar ou diminuir a probabilidade estimada de
que uma hipótese seja correta, tratando assim inconsistências nos exemplos
adequadamente como probabilidades de ocorrência de eventos probabilísticos.
• O conhecimento a priori pode ser combinado com os dados observados para
determinar a probabilidade final de uma hipótese. Isto ocorre na forma de
probabilidades a priori para cada hipótese, P(Hi), e em distribuições de probabilidades
sobre dados observados para cada hipótese, P(Ej|Hi).
• Métodos bayesianos trabalham com hipóteses que fazem previsões probabilísticas.
• Novas instâncias podem ser classificadas combinando-se as previsões de múltiplas
hipóteses, ponderadas por suas probabilidades.
• Os métodos bayesianos requerem o conhecimento a priori de muitas probabilidades,
que freqüentemente são estimadas a partir de conhecimento prévio, ou de dados
previamente disponíveis, ou por suposições sobre a forma das distribuições.
• Em geral a determinação da hipótese ótima pelo método bayesiano requer um custo
computacional significativo.
32
Informática
Determinação da hipótese ótima bayesiana

• Na abordagem bayesiana, a melhor hipótese de um espaço H, dado os dados de
treinamento D, é a hipótese mais provável, dado os dados D e todo o conhecimento
inicial sobre as probabilidades das várias hipóteses em H.
• A hipótese mais provável, entre várias candidatas h  H, corresponde àquela com a
máxima probabilidade a posteriori, hMAP.
P ( D | h) P ( h)
h MAP  arg max P (h | D)  arg max  arg max P ( D | h) P (h)
hH hH P( D) hH
• Repare que não é necessário calcular-se P(D), pois ela é a mesma para todas as
hipóteses (ou seja, independente de h).
33
Informática
Classificação por MAP

• Pela regra de Bayes, a probabilidade a posteriori da classe Ci é:
| |

∑ |
• A classificação MAP (máxima a posteriori) pode ser implementada por
um conjunto de funções discriminantes, gi(x), i = 1,..., K,
correspondentes à , segundo a regra:
escolha Ci se max
• Como p(x) é comum a todas as classes ele pode ser ignorado:
|
• ou na versão logarítmica:
log | log
34
Informática
Teoria da decisão bayesiana

• Para o caso geral em que temos K classes mutuamente exclusivas e exaustivas, Ci,
com i = 1 , ... K, o classificador bayesiano escolhe a classe com a máxima
probabilidade a posteriori (hipótese MAP, hMAP):
escolha Ci se P(Ci| x) = maxk P(Ck | x)
• Em muitos domínios, o risco de se tomar uma decisão é bastante assimétrico, como
em casos de diagnóstico médico ou previsão de catástrofes e ele deve ser levado
em conta no processo de decisão.
• Sendo i a decisão de atribuir a entrada à classe Ci e ik a perda acarretada por
escolher (erroneamente) a ação i, quando a entrada pertence à classe Ck, o risco
esperado pode escolher a ação i é:
x  |
• Neste caso, escolhemos a ação com o risco mínimo:

escolha i se R(i| x) = mink R(k | x)
35
Informática
Classificação por minimização de risco médio

• Podemos formular uma estratégia geral para o classificador bayesiano,
no sentido de minimizar o risco médio acarretado com a tomada de
decisão, i, R(i| x), correspondente a atribuir o vetor x à classe Ci.
• Para o caso de um problema de duas classes, C1, C2, com
probabilidades a priori, P(C1), P(C2), com custos ij de decidir a favor
da classe Ci, quando a classe Cj é verdadeira e com funções de
densidade de probabilidade condicional das classes (verossimilhanças),
| e | , o classificador bayesiano seria corresponde à regra:
Se a condição
| |
for válida, atribua o vetor de observação x à classe C1, caso
contrário, atribua x à classe C2.
36
Informática
Classificação por minimização de risco médio

• A regra correspondente ao classificador bayesiano, pode ser mais
convenientemente transformada em um teste envolvendo duas quantidades
positivas: a razão de verossimilhança, (x), e o limiar do teste, , definidas
como:
|
Λ
|
• Neste caso, podemos reformular o classificador bayesiano como:

Se para um vetor de observação x, a razão de verossimilhança (x) for maior
que o limiar , atribua x à classe C1. Caso contrário, atribua x à classe C2.
• O mesmo teste pode ser aplicado usando o log de (x) e .
37
Informática
Classificação por MAP

• No caso de | ser gaussiana,
1
| exp
2 2
• se torna:
1
log 2 log log
2 2
• No caso de duas classes equiprováveis, de mesma variância, o discriminante se reduz
a:

• Ficando a regra de classificação reduzida a:
escolha Ci se min
• Assim, a fronteira de decisão é o ponto médio entre as duas médias:
→
2
38
Informática
Fronteiras de decisão
Funções de verossimilhança, | , e probabilidades a posteriori , , de duas

classes equiprováveis, com a mesma variância.
39
Informática
Funções de verossimilhança, | ,e
probabilidades a posteriori , , de duas
classes equiprováveis, com a mesma variância.
A superfície de decisão é uma reta.
40
Informática
Funções de verossimilhança, | , e probabilidades a posteriori , , de duas

classes equiprováveis, com variâncias distintas . Neste caso, existem dois limiares de
decisão.
41
Informática
Funções de verossimilhança, | ,e
probabilidades a posteriori , , de duas
classes equiprováveis, com variâncias distintas .
A superfície de decisão é uma circunferência
42
Informática
Funções de verossimilhança, | , e probabilidades a posteriori , , de duas classes

equiprováveis, com variâncias e covariâncias distintas .
43
Informática
Classificador pela hipótese MAP

• Considere um espaço H de hipóteses (classificadores) hi  H, que foram geradas a partir
de um conjunto de treinamento D, e que apresentamos um novo exemplo x, que pode
assumir um valor (rótulo) vj  V, para ser classificado por estas hipóteses.
• Exemplo: H = {h1, h2, h3}; V = {, }
• Suponha que a partir dos dados foram calculadas as seguintes probabilidades:
P(h1 | x) = 0,4; P( | h1) = 1, P( | h1) = 0
P(h2 | x) = 0,3; P( | h2) = 0, P( | h2) = 1
P(h3 | x) = 0,3; P( | h3) = 0, P( | h3) = 1
• A hipótese MAP (máxima a posteriori) é a hipótese mais provável dado os dados de
treinamento: P(h1| x) = 0,4 → h1(x) = 
• Isto significa que, levando em consideração todas as hipóteses, a probabilidade de x ser
positivo é 0,4 e, com isso, a probabilidade de ele ser negativo é 0,6 ( é mais provável).
• Assim, a classificação mais provável é diferente da hipótese mais provável, MAP!
• Isto acontece em sistemas de classificação baseados em múltiplas hipóteses por classe.
44
Informática
Classificador ótimo bayesiano

• A classificação mais provável é dada pelo classificador ótimo bayesiano que
pondera as previsões de todas as hipóteses pelas respectivas probabilidades a
posteriori.
• A probabilidade P(vj | D) que a classificação correta para x seja vj é calculada por:
P (v j | D )   P (v
hi H
j | hi ) P(hi | D)
• A classificação ótima para x é o valor de vj para o qual P(vj | D) é máximo:
v( x)  arg max  P(v j | hi ) P(hi | D)

v j V hi H
45
Informática
Classificador ótimo bayesiano
•No exemplo: H = {h1, h2, h3}; V = {v1 = , v2 = }

P(h1 | x) = 0,4; P( | h1) = 1, P( | h1) = 0
P(h2 | x) = 0,3; P( | h2) = 0, P( | h2) = 1
P(h3 | x) = 0,3; P( | h3) = 0, P( | h3) = 1
•Portanto
P(v1 | D)   P (v
hi H
1 | hi ) P (hi | D)  0,4
P ( v2 | D )   P (v
hi H
2 | hi ) P(hi | D)  0,3  0,3  0,6
v( x)  arg max  P(v j | hi ) P(hi | D) v 2 = 

v j V hi H
46
Informática
Sobre as dependências das evidências

• Repare que, de uma maneira geral e neste exemplo em particular, as evidências são
dependentes entre si, dada a classe, o que implica:
P(E1, E2, ..., En | H) = P(E1 | H) P(E2 | H, E1 )... P(En | H, E1, E2 ,..., En1)
• A noção de independência das variáveis, dada a hipótese, está associada à seguinte
igualdade:
P(En | H, E1, E2 ,..., En1) = P(En | H) , n
• Resultando na seguinte expressão:
P(E1, E2, ..., En | H) = P(E1 | H) P(E2 | H)... P(En | H)
• No caso do exemplo: P(D | A) = 0,375 P(Q | A) = 0,625 P(Q, D | A) = 0,25

P(D | A) P(Q | A) = 0,234  P(Q, D | A) = 0,25
47
Informática
Classificador Bayesiano Ingênuo (Naïve Bayes)

• Aprendizagem da classificação: qual é a probabilidade da classe (evento) dado um
exemplo (valores de atributos observados, ou evidência)?
– Evidência (exemplo) E = (E1, E2, ..., En)
– Evento (hipótese) H = valor da classe para o exemplo
• Suposição do classificador bayesiano ingênuo: evidência pode ser separada em partes
independentes (os valores dos atributos do exemplo).
• Equivale à suposição que as variáveis observáveis são condicionalmente
independentes, dada a classe:
P ( E1 , E 2 ,..., E n | H )  P ( E1 | H ) P ( E 2 | H )... P ( E n | H )
• Com isso, o TB pode ser reescrito como:
P ( E1 | H ) P ( E 2 | H )... P ( E n | H ) P ( H )
P(H | E ) 
P(E )
• A estimação independente das probabilidades das variáveis observáveis exige um
número muito menor de termos. Se cada atributo discreto Ej tiver m valores, a versão
NB exigirá mn probabilidades, enquanto a versão completa terá mn termos.
48
Informática
Classificador Bayesiano Ingênuo (Naïve Bayes)

• Mesmo se a suposição de independência condicional for violada, num grande número
de aplicações, o classificador NB fornece a mesma decisão que o classificador
bayesiano completo, que considere as dependências entre as variáveis observadas.
• Nestes casos, apesar de a probabilidade condicional ser incorreta, o erro incorrido não
altera a decisão por MAP.
• Exercício: verificar a diferença entre a hipótese MAP do classificador bayesiano e do
classificador NB para o exemplo anterior das figuras geométricas.
P (Fo|C ) C P(C)
P (Fu|C )
Fo C=A C=V Fu C=A C=V
P(Fo | C) P(Fu | C)
Fo=Q Fu=D
Fo=R Fu=T
Fo Fu
49
Informática
P (Fo ,Fu|C ) NB
Fo Fu C=A C=V
Q D 0,234 0,24
P(C) Q T 0,391 0,16
C
P (Fo|C ) P (Fu|C ) R D 0,141 0,36
Fo C=A C=V P(Fo | C) P(Fu | C) Fu C=A C=V R T 0,234 0,24
Fo=Q 0,625 0,4 Fu=D 0,375 0,6 Fo Fu P (Fo,Fu ) NB
Fo=R 0,375 0,6 Fu=T 0,625 0,4
Fo Fu Q D 0,236
Q T 0,299
R D 0,229
R T 0,236
P (C |Fo ,Fu ) NB P (C |Fo ,Fu )
Q D 0,595 0,405 Q D 0,556 0,444
Q T 0,785 0,215 Q T 0,865 0,135
R D 0,369 0,631 R D 0,385 0,615
R T 0,595 0,405 R T 0,556 0,444
50
Informática
Probabilidades condicionais considerando dependência das variáveis P(E1, E2, E3, E4 | H) : 33222 = 72
id Tempo Temperatura Umidade Ventoso

Joga Joga Arquivo de treinamento do problema do tempo
sim não
ensolarado quente normal verdadeiro 0 0
ensolarado quente normal falso 0 0 id Tempo Temperatura Umidade Ventoso Joga
2 ensolarado quente alta verdadeiro 0 1/5 1 ensolarado quente alta falso não
1 ensolarado quente alta falso 0 1/5
11 ensolarado amena normal verdadeiro 1/9 0 2 ensolarado quente alta verdadeiro não
ensolarado amena normal falso 0 0 3 nublado quente alta falso sim
ensolarado amena alta verdadeiro 0 0
8 ensolarado amena alta falso 0 1/5 4 chuvoso amena alta falso sim
ensolarado fria normal verdadeiro 0 0 5 chuvoso fria normal falso sim
9 ensolarado fria normal falso 1/9 0
6 chuvoso fria normal verdadeiro não
ensolarado fria alta verdadeiro 0 0
ensolarado fria alta falso 0 0 7 nublado fria normal verdadeiro sim
nublado quente normal verdadeiro 0 0
8 ensolarado amena alta falso não
13 nublado quente normal falso 1/9 0
nublado quente alta verdadeiro 0 0 9 ensolarado fria normal falso sim
3 nublado quente alta falso 1/9 0 10 chuvoso amena normal falso sim
nublado amena normal verdadeiro 0 0
nublado amena normal falso 0 0 11 ensolarado amena normal verdadeiro sim
12 nublado amena alta verdadeiro 1/9 0 12 nublado amena alta verdadeiro sim
nublado amena alta falso 0 0
7 nublado fria normal verdadeiro 1/9 0 13 nublado quente normal falso sim
nublado fria normal falso 0 0 14 chuvoso amena alta verdadeiro não
nublado fria alta verdadeiro 0 0
nublado fria alta falso 0 0
chuvoso quente normal verdadeiro 0 0 A maioria das probabilidades é nula (58 em 72)
chuvoso quente normal falso 0 0
chuvoso quente alta verdadeiro 0 0 para ambas as classes!
chuvoso quente alta falso 0 0 Isto implica que o classificador por MAP não
chuvoso amena normal verdadeiro 0 0
10 chuvoso amena normal falso 1/9 0 conseguirá decidir a classe para as combinações
14 chuvoso amena alta verdadeiro 0 1/5
4 chuvoso amena alta falso 1/9 0
que não estão no arquivo de treinamento.
6 chuvoso fria normal verdadeiro 0 1/5 Ele não consegue generalizar para além dos
5 chuvoso fria normal falso 1/9 0
chuvoso fria alta verdadeiro 0 0 dados de treinamento.
chuvoso fria alta falso 0 0
51
Informática
Classificador NB dados do tempo Tempo Temperatura Umidade Ventoso Joga
ensolarado quente alta falso não
ensolarado quente alta verdadeiro não
Tabela das probabilidades por classe
nublado quente alta falso sim
dos valores individuais: P(Ej | Hi)
chuvoso amena alta falso sim
chuvoso fria normal falso sim
P(ensolarado | sim) = 2/9 chuvoso fria normal verdadeiro não
P(nublado | sim) = 4/9 nublado fria normal verdadeiro sim

ensolarado amena alta falso não
P(chuvoso | sim) = 3/9
ensolarado fria normal falso sim
chuvoso amena normal falso sim
P(ensolarado | não) = 3/5
ensolarado amena normal verdadeiro sim
P(nublado | não) = 0/5 nublado amena alta verdadeiro sim
P(sim) = 9/14
P(chuvoso | não) = 2/5 nublado quente normal falso sim
chuvoso amena alta verdadeiro não
P( não) = 5/14
Tempo Temperatura Umidade Ventoso Joga

sim não sim não sim não sim não sim não
Média de ensolarado 2 3 quente 2 2 alta 3 4 falso 6 2 9 5
contagens
por valor de nublado 4 0 amena 4 2 normal 6 1 verdadeiro 3 3
atributo: 2,8 chuvoso 3 2 fria 3 1
ensolarado 2/9 3/5 quente 2/9 2/5 alta 3/9 4/5 falso 6/9 2/5 9/14 5/14
nublado 4/9 0/5 amena 4/9 2/5 normal 6/9 1/5 verdadeiro 3/9 3/5
chuvoso 3/9 2/5 fria 3/9 1/5
52
Informática
Inferência por NB
• Fazer a previsão se joga ou não, para os dados de um novo dia (generalização):
ensolarado fria alta verdadeiro ?
Evidências:
Tempo = ensolarado, Temperatura = fria, Umidade = alta, Ventoso = verdadeiro
Probabilidade de que, com esta evidências, a classe seja Joga = sim:
P ( ensolarado | sim ) P ( fria | sim ) P ( alta | sim ) P ( verdadeiro | sim ) P ( sim )
P ( sim | E ) 
P(E )
P ( E | sim )
2 3 3 3 9
   
9 9 9 9 14 0,0053
P ( sim | E )    0, 205
P ( E | sim )  P ( E | não ) 0,0053  0,0206
Maior probabilidade
P ( E | não ) 3 1 4 3 5
de ser “não”
   
5 5 5 5 14 0,0206
P ( não | E )    0,795
P ( E | sim )  P ( E | não ) 0,0053  0,0206
53
Informática
O problema da “freqüência zero”

• Se um valor de atributo nunca ocorrer para uma classe (Tempo nublado para “não”)?
– A probabilidade será zero! P(tempo = nublado | não) = 0
– A probabilidade a posteriori será zero, independentemente dos outros valores!
P(não | Ei) = 0
• Solução: Estimador de Laplace  somar 1 à contagem de todas as combinações de
classe e valor de atributo.
• Resultado: as probabilidades nunca serão zero!
• Equivale a acrescentar m = |E| amostras de cada classe aos dados de treinamento
P(xi | yj) = (nc + 1)/(n + m)
n : número de instâncias da classe yj
nc : número de exemplos da classe yj com o valor xi
m : |E|, número de valores do atributo E
54
Informática

Estimador de Laplace ensolarado quente alta falso não
ensolarado quente alta verdadeiro não
Tabela das probabilidades por classe nublado quente alta falso sim
dos valores individuais: P(Ej | Hi) chuvoso amena alta falso sim
chuvoso fria normal falso sim
P(ensolarado | sim) = 3/12 chuvoso fria normal verdadeiro não
P(nublado | sim) = 5/12 nublado fria normal verdadeiro sim

ensolarado amena alta falso não
P(chuvoso | sim) = 4/12
ensolarado fria normal falso sim
chuvoso amena normal falso sim
P(ensolarado | não) = 4/8
ensolarado amena normal verdadeiro sim
P(nublado | não) = 1/8 nublado amena alta verdadeiro sim
P(sim) = 9/14
P(chuvoso | não) = 3/8 nublado quente normal falso sim
chuvoso amena alta verdadeiro não
P( não) = 5/14

ensolarado 3 4 quente 3 3 alta 4 5 falso 7 3 9 5
nublado 5 1 amena 5 3 normal 7 2 verdadeiro 4 4
chuvoso 4 3 fria 4 2
ensolarado 3/12 4/8 quente 3/12 3/8 alta 4/11 5/7 falso 7/11 3/7 9/14 5/14
nublado 5/12 1/8 amena 5/12 3/8 normal 7/11 2/7 verdadeiro 4/11 4/7
chuvoso 4/12 3/8 fria 4/12 2/8
55
Informática
Estimativa m
• O estimador de Laplace acrescenta amostras com distribuição a priori equiprovável em
relação à classe.
• Uma alternativa mais flexível é utilizar a estimativa m que permite definir uma
distribuição (a priori) não-equiprovável para as amostras que são acrescentadas.
• Pode-se também manter a distribuição equiprovável mas dar mais importância a ela.
• Cálculo da probabilidade condicional por estimativa-m
P(xi | yj) = (nc + mp)/(n + m)
n : número de instâncias da classe yj
nc : número de exemplos da classe yj com o valor xi
m : tamanho equivalente da amostra
p : probabilidade a priori estimada do atributo xi na classe yj
Exemplo: n = 5; nens = 3, nnubl = 0 nchuv = 2; m = 3;
P: (ensolarado | não) = 0,5 (nublado | não) = 0,25 (chuvoso | não) = 0,25
P(ensolarado | não) = (3 + 3x 0,5)/8 = 4,5/8; P(nublado | não) = (0 + 3x 0,25)/8 = 0,75/8;
P(chuvoso | não) = (2 + 3x 0,25)/8 = 2,75/8
56
Informática
Valores faltantes
• No treinamento: o exemplo não é incluído na contagem de freqüências para a
combinação de classe-valor de atributo
• Na classificação: atributo será omitido do cálculo
? fria alta verdadeiro ?
P(E | sim) P(sim) =

P(fria | sim) P(alta | sim) P(verdadeiro | sim) P(sim) =
= 3/9 x 3/9 x 3/9 x 9/14 = 0,0238
P(E | não) P(não) =
P(fria | não) P(alta | não) P(verdadeiro | não) P(não) =
=1/5 x 4/5 x 3/5 x 5/14 = 0,0343
Conversão em probabilidade por normalização:
P(sim | E) = 0,0238/(0,0238+ 0,0342) = 0,41
P(não | E) = 0,0343/(0,0238+ 0,0342) = 0,59
57
Informática
Tratamento de atributos numéricos

• Normalmente se assume que os atributos tenham uma distribuição de
probabilidade normal (gaussiana) dada a classe
• A função densidade de probabilidade para a distribuição normal é
definida por dois parâmetros:
1 n
• A média das amostras,  :    xi
n i 1
1 n
• A variância, 2 :  2
 xi   2
n  1 i 1
 x   2
1 
• A função densidade, f(x): f ( x)  e 2 2
2 
58
Informática
Exemplos de distribuições normais (normpdf)
=1
=2
=3
=0
  x   2
1
y e 2 2
 2
59
Informática
Distribuição normal multivariada

• A distribuição normal de um vetor aleatório de D dimensões x = [X1, X2, ..., XD] é denotada por:
x ~ N ( x | μ, Σ )
• onde  é o vetor de médias, com i = E[Xi], e  é a matriz de covariâncias, com ij = cov(Xi, Xj) =
E[(Xi – i) (Xj – j)].
• A função densidade de uma distribuição normal multivariada é dada por:
1  1 
p ( x)  exp (x  μ)T  1 (x  μ)
 2 
D
(2 ) 2
Σ
• No caso bivariado (D = 2):
  12 
   11   11   12 ,  22   22 ,  12   1 2

 12  22 
• onde as variâncias 11, 22 são calculadas a partir dos desvios padrões em cada componente, 1
e 2, e a covariância 12 é dependente do coeficiente de correlação  .
• A distância de Mahalanobis, DM, define um elipsóide formado por pontos de mesma densidade:
DM (x)  (x  μ)T  1 (x  μ)
• No caso bivariado, a elipse correspondente a DM = 1 (2) contém 39,35% (86,47) da distribuição.
60
Informática
Distribuição normal multivariada
61
Informática
Distribuição multivariada com independência de variáveis

• A noção de independência entre variáveis numa distribuição multivariada está ligada à
restrição da matriz de covariâncias ter valores apenas na diagonal principal,
correspondente às variâncias de cada componente. Ou seja, as covariâncias entre as
componentes são nulas.
• Com isso, os elipsóides definidos por DM são orientados em relação às coordenadas .
1 1, 2|1 1, 2 1,  1, 22 0,25

2 1, 2|1 2, 2 0,  0,5, 22 1
62
Informática
Exemplos de distribuições por classe
P(C1) = P(C2) = 0,5 e p(x|Ck) gaussianas com 1 = (0,0; 0,0), 12 = 1,0 e
2 = (3,0; 0,0), 22 = 1,0
63
Informática
Exemplos de distribuições por classe
P(C1) = P(C2) = 0,5 e p(x|Ck) gaussianas com 1 = (0,0; 0,0), 12 = 1,0
e 2 = (3,0; 0,0), 22 = 3,0
64
Informática
Estatísticas para os dados do tempo contínuos

ensolarado 2 3 28 29 86 85 falso 6 2 9 5
nublado 4 0 21 26 96 90 verdadeiro 3 3
chuvoso 3 2 20 18 80 70
17 23 65 95
21 22 70 91
24 80
24 70
23 90
27 75
ensolarado 2/9 3/5 média 22,8 23,6 média 79,1 86,2 falso 6/9 2/5 9/14 5/14
nublado 4/9 0/5 desvio 3,5 4,2 desvio 10,2 9,7 verdadeiro 3/9 3/5
chuvoso 3/9 2/5
• Exemplo de valor de densidade:

19  22 , 8 2
1 
2 3 , 5 2
f (temperatur a  19 | sim )  e  0,0632
2 3,5
65
Informática
Classificação de um novo dia

• Novo dia:
ensolarado 19 90 verdadeiro ?
P(E | sim) P(sim) =

P(ensolarado | sim) P(temper = 19 | sim) P(umid = 90 | sim) P(verdadeiro | sim) P(sim) =
= 2/9 x 0,0632 x 0,0221 x 3/9 x 9/14 = 0,000066
P(E | não) P(não) =
P(ensolarado | não) P(temper = 19 | não) P(umid = 90 | não) P(verdadeiro | não) P(não) =
=3/5 x 0,0521 x 0,0380 x 3/5 x 5/14 = 0,000254
Conversão em probabilidade por normalização:
P(sim | E) = 0,000066 /(0,000066 + 0,000254) = 0,206  20,6%
P(não | E) = 0,000254 /(0,000066 + 0,000254) = 0,794  79,4%
• Valores faltantes durante o treinamento não são incluídos no cálculo da média e do

desvio padrão
66
Informática
Discussão da classificação NB
• NB funciona muito bem, mesmo se a suposição de

independência for violada.
• Por que? Porque a classificação não requer estimativas
precisas de probabilidades contanto que máxima
probabilidade for atribuída à classe correta
• Entretanto: adicionar muitos atributos redundantes causa
problemas (atributos idênticos)
• Também: muitos atributos numéricos não têm distribuição
normal ( estimadores de densidade por núcleo)
67

Bayes PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bayes PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Aprendizagem de Máquina

Prof. Paulo Martins Engel

Estimação por Máxima Verossimilhança (MLE)

Estimação por Máxima Verossimilhança (MLE)

• Se X for uma distribuição normal (gaussiana) com média E[X]   e

MLE de uma densidade normal

Exemplo de distribuição normal

Representação por variáveis aleatórias

Cálculo de probabilidades conjuntas

Fo NFu Cor P(Foi,NFui,Ci)

Cálculo de probabilidades conjuntas

Fo NFu Cor P(Foi,NFui,Ci)

Cálculo de probabilidades conjuntas

R D A 1/18 P(R,D,A) P(R,A) = P(V) =

Cálculo de probabilidades conjuntas

• As probabilidades de valores isolados, P(A) e P(V), são chamadas de probabilidades a

P(Ej|Hi) . P(Hi) P(Ej|Hi) . P(Hi)

Regras das probabilidades

Regras das probabilidades condicionais

• Aplicando o TB e a regra da cadeia, podemos mostrar a regra de atualização sucessiva

P( X  1 | Y  1) P(Y  1)  0,75  0,35  0,2625

P( X  1 | Y  0) P(Y  0)  0,3  0,65  0,195

P( X  1)  P( X  1 | Y  1) P(Y  1)  P( X  1 | Y  0) P(Y  0)  0,2625  0,195  0,4575

• Obtenção das probabilidades condicionais por classe, por contagem (aprendizado):

C P(C) P (Fo ,Fu |C )

Obtenção das probabilidades conjuntas, por inferência no gráfico:

C P(C) P (Fo ,Fu |C ) P (Fo ,Fu ,C )

Probabilidades conjuntas dos pares atributos-valores

C P(C) P (Fo ,Fu |C )

Probabilidades marginais de cada atributo-valor (por marginalização):

C P(C) P (Fo ,Fu |C )

Probabilidades condicionais de cada atributo-valor por classe (por marginalização):

C P(C) P (Fo ,Fu |C ) P (C |Fo ,Fu )

Probabilidades a posteriori pelo Teorema de Bayes:

P (Fo ,Fu |C ) P (Fi |C )

Probabilidades a posteriori pelo Teorema de Bayes:

Características do aprendizado bayesiano

Determinação da hipótese ótima bayesiana

Classificação por MAP

Teoria da decisão bayesiana

• Neste caso, escolhemos a ação com o risco mínimo:

Classificação por minimização de risco médio

Classificação por minimização de risco médio

• Neste caso, podemos reformular o classificador bayesiano como:

Classificação por MAP

Funções de verossimilhança, | , e probabilidades a posteriori , , de duas

Funções de verossimilhança, | , e probabilidades a posteriori , , de duas

Funções de verossimilhança, | , e probabilidades a posteriori , , de duas classes

Classificador pela hipótese MAP

Classificador ótimo bayesiano

• A classificação ótima para x é o valor de vj para o qual P(vj | D) é máximo:

v( x)  arg max  P(v j | hi ) P(hi | D)

Classificador ótimo bayesiano

•No exemplo: H = {h1, h2, h3}; V = {v1 = , v2 = }

v( x)  arg max  P(v j | hi ) P(hi | D) v 2 = 

Sobre as dependências das evidências

• No caso do exemplo: P(D | A) = 0,375 P(Q | A) = 0,625 P(Q, D | A) = 0,25

Classificador Bayesiano Ingênuo (Naïve Bayes)

Classificador Bayesiano Ingênuo (Naïve Bayes)

id Tempo Temperatura Umidade Ventoso

P(nublado | sim) = 4/9 nublado fria normal verdadeiro sim

Tempo Temperatura Umidade Ventoso Joga

ensolarado fria alta verdadeiro ?