Escolar Documentos
Profissional Documentos
Cultura Documentos
Inferência estatística
Classificador bayesiano
Informática
UFRGS Prof. Paulo Martins Engel
Inferência estatística
• Na inferência estatística, toma-se uma decisão usando a informação
contida numa amostra.
• Na abordagem paramétrica, assume-se que a amostra é obtida de
uma distribuição que obedece a um modelo conhecido, p. ex.
gaussiano.
• Neste caso, a especificação do modelo se dá pela estimação dos
valores de um número pequeno de parâmetros, a estatística suficiente
da distribuição (p. ex., média e variância).
• Uma vez que estes parâmetros sejam estimados a partir de uma
amostra, toda a distribuição se torna conhecida.
• A estimação por máxima verossimilhança é o método fundamental
para estimar os parâmetros de uma distribuição.
2
Informática
UFRGS Prof. Paulo Martins Engel
≡
3
Informática
UFRGS Prof. Paulo Martins Engel
≡ log log
1
exp , ∞ ∞
2 2
4
Informática
UFRGS Prof. Paulo Martins Engel
∑
, log 2 log
2 2
2
• As estimativas da média, m, e da variância, s , por MLE, são obtidas
tomando as derivadas parciais de , em relação aos
parâmetros, e igualando a 0, resultando em:
Informática
UFRGS Prof. Paulo Martins Engel
1, 2|1 0, 2 0, 2, 2 2
6
Informática
UFRGS Prof. Paulo Martins Engel
Variáveis Aleatórias
• Considere que E seja uma variável aleatória que representa um evento que pode ou não
ocorrer (E = V ou E = F)
• P(E) probabilidade que o evento E irá ocorrer. Tem um valor entre 0 e 1.
P(E) = 1 : certeza que E vai ocorrer; P(E) = 0 : certeza que E não vai ocorrer.
• Quando um evento (p. ex., jogar um dado ou uma moeda) tem vários resultados
possíveis (as 6 faces de um dado ou as duas faces de uma moeda) associa-se uma
probabilidade a cada resultado possível (probabilidade a priori).
• X : variável aleatória “face” cujas realizações possíveis são x {1, 2, 3, 4, 5, 6}
P(X = 1) = P(X = 2) = P(X = 3) = P(X = 4) = P(X = 5) = P(X = 6) = 1/6
• A soma das probabilidades de todos os resultados possíveis é um.
• Probabilidade objetiva: medida por análise das estatísticas dos eventos.
• Probabilidade subjetiva: estimada através de entrevistas com peritos.
• Em muitos domínios é impossível realizar medições, o que obriga o uso de
probabilidade subjetiva.
• Por outro lado, muitos peritos têm dificuldade em estimar probabilidades.
7
Informática
UFRGS Prof. Paulo Martins Engel
8
Informática
UFRGS Prof. Paulo Martins Engel
Cálculo de probabilidades
• A representação por probabilidades começa pelo cálculo das probabilidades
conjuntas das variáveis (atributos) dos objetos observados no domínio.
• Lembrando que no aprendizado supervisionado, um dos atributos é a classe, o
problema desta abordagem é que ela assume que a probabilidade a priori de cada
classe pode ser obtida da amostra de treinamento, o que nem sempre é verdade.
• Ex.: Objetos definidos por três atributos categóricos, binários, sendo um deles a
classe de interesse (máquinas de fabricação diferentes, de cores azul e vermelho):
Forma (Fo): quadrada (Q), redonda (R)
Número de Furos (NFu): dois (D), três (T)
Cor (Cor): azul (A), vermelho (V)
• Ex.: calcular as probabilidades conjuntas dos (valores dos) atributos que
definem os objetos do domínio, a partir do conjunto de treinamento abaixo:
Informática
UFRGS Prof. Paulo Martins Engel
10
Informática
UFRGS Prof. Paulo Martins Engel
11
Informática
UFRGS Prof. Paulo Martins Engel
12
Informática
UFRGS Prof. Paulo Martins Engel
Informática
UFRGS Prof. Paulo Martins Engel
Probabilidades Condicionais
• A inferência probabilística usa a informação disponível sobre os valores de algumas
variáveis para obter a probabilidade para valores de outras variáveis.
• A probabilidade condicional P(B|A) é a probabilidade de B ocorrer dado que A tenha
ocorrido. Ela é definida a partir da probabilidade conjunta P(A,B) :
P(A,B)
P(B|A) =
P(A)
• P(B|A) é chamada de probabilidade a posteriori de B, no sentido de que a probabilidade
de ocorrência de B é modificada depois que se constata a ocorrência de A, em relação ao
que se sabia a priori, P(B).
• Esta probabilidade pode ser interpretada como um fator de confiança que se pode
inferir a partir dos dados na relação de dependência correspondente à regra: A B
• P(A) e P(B) são as probabilidades marginais de A e B, respectivamente. Elas são
também chamadas de probabilidades a priori destes valores de variáveis.
• A dificuldade do cálculo de P(B|A) está na determinação das probabilidades conjuntas,
que só é possível de ser obtida se as probabilidades a priori estiverem expressas nos
dados.
14
Informática
UFRGS Prof. Paulo Martins Engel
Probabilidades Condicionais
• Uma propriedade importante que resulta da definição das probabilidades condicionais
é a sua simetria em relação à probabilidade conjunta.
• Da definição da probabilidade condicional decorre:
P(A,B) P(A,B)
P(B|A) = P(A|B) =
P(A) P(B)
• Portanto, as probabilidades condicionais estão relacionadas da seguinte forma:
P(A,B) = P(B|A)P(A) = P(A|B)P(B)
• Rearranjando as duas últimas expressões, obtemos a fórmula do teorema de Bayes (TB):
P(A|B) P(B)
P(B|A) =
P(A)
• O cálculo das probabilidades condicionais pelo TB tem a vantagem de não depender
das probabilidades conjuntas.
• Além disso, é possível usar um valor da probabilidade a priori diferente da proporção
em que as classes se apresentam no arquivo de treinamento.
15
Informática
UFRGS Prof. Paulo Martins Engel
O Teorema de Bayes
• O Teorema de Bayes mostra uma maneira prática de se calcular a probabilidade de um
evento em particular, a partir de um conjunto de observações, sem a necessidade de se
conhecer as probabilidades conjuntas.
• O evento pode ser um determinado valor de um atributo especial, que seria o rótulo de
uma classe i, ou hipótese Hi.
• Inicialmente, se determina a probabilidade a priori de cada hipótese Hk, P(Hk) presente
no domínio. (H1, H2, ..., Hi, ..., Hn)
• A seguir, a partir de conjuntos de amostras contendo objetos pertencentes a cada uma
das hipóteses possíveis, se determinam as probabilidades com que ocorrem os
atributos observáveis (E1, E2, ..., Ej, ..., El) em cada classe, ou seja, as P(Ej|Hk).
• O TB afirma que, para um objeto do domínio no qual ocorra p. ex. Ej, a probabilidade
de que este objeto satisfaça a hipótese Hi é dada por P(Hi|Ej):
,
17
Informática
UFRGS Prof. Paulo Martins Engel
Regras das probabilidades condicionais
• Considerando apenas as instâncias em que X = xi, então a fração destas instâncias nas
quais Y = yj, representada por P(Y = yj | X = xi), é denominada probabilidade
condicional de Y = yj dado X = xi, e calculada pela fração;
|
• A partir das definições das probabilidades conjunta, marginais e condicionais, segue a
regra do produto das probabilidades condicionais:
, ∙ ∙
, | ∙
• e a sua variante , | ∙
• A generalização desta regra para um número qualquer de variáveis, A1, ..., An, é
conhecida como a regra da cadeia das probabilidades condicionais e escrita como:
, ⋯ | | , ⋯ | , ⋯
• Quando as variáveis são condicionalmente independentes entre si, podemos escrever:
| , ⋯ , ∀
, ⋯ ⋯
18
Informática
UFRGS Prof. Paulo Martins Engel
, | ∙
Informática
UFRGS Prof. Paulo Martins Engel
Exemplo
• Considere um jogo de futebol entre dois times rivais: Time 0 e Time 1.
• Suponha que, a partir do histórico dos jogos entre eles, o Time 0 tenha ganho 65% das
vezes.
• Entre os jogos ganhos pelo Time 0, apenas 30% foram jogados no campo do
adversário.
• Por outro lado, 75% das vitórias do Time 1 foram obtidas jogando em casa.
• Sabendo-se que o próximo jogo será no campo do Time 1, qual é o time que tem a
maior chance de sair vitorioso?
20
Informática
UFRGS Prof. Paulo Martins Engel
Exemplo
• Considere um jogo de futebol entre dois times rivais: Time 0 e Time 1.
• A partir do histórico dos jogos entre eles, o Time 0 tenha ganho 65% das vezes.
• Entre os jogos ganhos pelo Time 0, apenas 30% foram jogados no campo do adversário.
• Por outro lado, 75% das vitórias do Time 1 foram obtidas jogando em casa.
• Sabendo-se que o próximo jogo será no campo do Time 1, qual é o time que tem a maior chance
de sair vitorioso?
• Representação por variáveis aleatórias:
• X : representa o campo onde acontece o jogo, com as realizações x {0, 1}
• Y : representa o time vencedor de um jogo, com as realizações y {0, 1}
• Representação das informações do problema:
• Probabilidade (a priori) que o Time 0 vença é P(Y = 0) = ?
• Probabilidade (a priori) que o Time 1 vença é P(Y = 1) = ?
• Probabilidade do Time 1 jogar em casa quando ele vence é P(X = 1 | Y = 1) = ?
• Probabilidade do Time 0 jogar fora de casa quando ele vence é P(X = 1 | Y = 0) = ?
• Probabilidade do Time 1 ganhar sabendo-se que o jogo é em casa é P(Y = 1 | X = 1) = ?
• Probabilidade do Time 0 ganhar sabendo-se que o jogo é fora de casa é P(Y = 0 | X = 1) = ?
21
Informática
UFRGS Prof. Paulo Martins Engel
Exemplo
• Considere um jogo de futebol entre dois times rivais: Time 0 e Time 1.
• A partir do histórico dos jogos entre eles, o Time 0 tenha ganho 65% das vezes.
• Entre os jogos ganhos pelo Time 0, apenas 30% foram jogados no campo do adversário.
• Por outro lado, 75% das vitórias do Time 1 foram obtidas jogando em casa.
• Sabendo-se que o próximo jogo será no campo do Time 1, qual é o time que tem a maior chance
de sair vitorioso?
• Representação por variáveis aleatórias:
• X : representa o campo onde acontece o jogo, com as realizações x {0, 1}
• Y : representa o time vencedor de um jogo, com as realizações y {0, 1}
• Representação das informações do problema:
• Probabilidade (a priori) que o Time 0 vença é P(Y = 0) = 0,65
• Probabilidade (a priori) que o Time 1 vença é P(Y = 1) = 1 – P(Y = 0) = 0,35
• Probabilidade do Time 1 jogar em casa quando ele vence é P(X = 1 | Y = 1) = 0,75
• Probabilidade do Time 0 jogar fora de casa quando ele vence é P(X = 1 | Y = 0) = 0,3
• Probabilidade do Time 1 ganhar sabendo-se que o jogo é em casa é P(Y = 1 | X = 1) = ?
• Probabilidade do Time 0 ganhar sabendo-se que o jogo é fora de casa é P(Y = 0 | X = 1) = ?
22
Informática
UFRGS Prof. Paulo Martins Engel
Exemplo
• Probabilidade (a priori) que o Time 0 vença é P(Y = 0) = 0,65
• Probabilidade (a priori) que o Time 1 vença é P(Y = 1) = 1 – P(Y = 0) = 0,35
• Probabilidade do Time 1 jogar em casa quando ele vence é P(X = 1 | Y = 1) = 0,75
• Probabilidade do Time 0 jogar fora de casa quando ele vence é P(X = 1 | Y = 0) = 0,3
• Probabilidade do Time 1 ganhar sabendo-se que o jogo é em casa é P(Y = 1 | X = 1) = ?
• Probabilidade do Time 0 ganhar sabendo-se que o jogo é fora de casa é P(Y = 0 | X = 1) = ?
P( X 1 | Y 1) P(Y 1) 0,2625
P(Y 1 | X 1) 0,574
P( X 1) 0,4575
P( X 1 | Y 0) P(Y 0) 0,195
P(Y 0 | X 1) 0,426
P( X 1) 0,4575
Informática
UFRGS Prof. Paulo Martins Engel
Exercício
• Objetos definidos por três atributos categóricos, binários, sendo um deles a classe de
interesse (máquinas de fabricação diferentes, de cores azul e vermelho):
Forma (Fo): quadrada (Q), redonda (R)
Número de Furos (NFu): dois (D), três (T)
Cor (Cor): azul (A), vermelho (V)
• Sabendo-se que P(A) = 0,6, encontrar a combinação de atributos-valores que
prediz cada classe com a maior probabilidade a posteriori.
24
Informática
UFRGS Prof. Paulo Martins Engel
P (Fo ,Fu |C )
C P(C)
Fo Fu C=A C=V
Q D
P(Fo,Fu | C) Q T
R D
Fo,Fu R T
25
Informática
UFRGS Prof. Paulo Martins Engel
P (Fo ,Fu ,C )
Fo Fu C=A C=V
Q D
Q T
R D
R T
26
Informática
UFRGS Prof. Paulo Martins Engel
27
Informática
UFRGS Prof. Paulo Martins Engel
Fo Fu P (Fo,Fu ) Fi P (Fi )
Q D Fo=Q
Q T Fo=R
R D Fu=D
R T Fu=T
28
Informática
UFRGS Prof. Paulo Martins Engel
P (Fi |C )
Fi C=A C=V
Fo=Q
Fo=R
Fu=D
Fu=T
29
Informática
UFRGS Prof. Paulo Martins Engel
P ( Fo Q, Fu D | C A) P (C A)
P (C A | Fo Q, Fu D)
P ( Fo Q, Fu D | C A) P (C A) P ( Fo Q, Fu D | C V ) P(C V )
P( Fo Q, Fu D | C V ) P(C V )
P(C V | Fo Q, Fu D)
P ( Fo Q, Fu D | C A) P (C A) P( Fo Q, Fu D | C V ) P (C V )
30
Informática
UFRGS Prof. Paulo Martins Engel
P (C |Fi )
Fi C=A C=V
Fo=Q
Fo=R
Fu=D
Fu=T
Informática
UFRGS Prof. Paulo Martins Engel
32
Informática
UFRGS Prof. Paulo Martins Engel
P ( D | h) P ( h)
h MAP arg max P (h | D) arg max arg max P ( D | h) P (h)
hH hH P( D) hH
• Repare que não é necessário calcular-se P(D), pois ela é a mesma para todas as
hipóteses (ou seja, independente de h).
33
Informática
UFRGS Prof. Paulo Martins Engel
34
Informática
UFRGS Prof. Paulo Martins Engel
x |
35
Informática
UFRGS Prof. Paulo Martins Engel
37
Informática
UFRGS Prof. Paulo Martins Engel
Fronteiras de decisão
Informática
UFRGS Prof. Paulo Martins Engel
Fronteiras de decisão
Funções de verossimilhança, | ,e
probabilidades a posteriori , , de duas
classes equiprováveis, com a mesma variância.
A superfície de decisão é uma reta.
40
Informática
UFRGS Prof. Paulo Martins Engel
Fronteiras de decisão
41
Informática
UFRGS Prof. Paulo Martins Engel
Fronteiras de decisão
Funções de verossimilhança, | ,e
probabilidades a posteriori , , de duas
classes equiprováveis, com variâncias distintas .
A superfície de decisão é uma circunferência
42
Informática
UFRGS Prof. Paulo Martins Engel
Fronteiras de decisão
43
Informática
UFRGS Prof. Paulo Martins Engel
P (v j | D ) P (v
hi H
j | hi ) P(hi | D)
45
Informática
UFRGS Prof. Paulo Martins Engel
P(v1 | D) P (v
hi H
1 | hi ) P (hi | D) 0,4
P ( v2 | D ) P (v
hi H
2 | hi ) P(hi | D) 0,3 0,3 0,6
46
Informática
UFRGS Prof. Paulo Martins Engel
Informática
UFRGS Prof. Paulo Martins Engel
P (Fo|C ) C P(C)
P (Fu|C )
Fo C=A C=V Fu C=A C=V
P(Fo | C) P(Fu | C)
Fo=Q Fu=D
Fo=R Fu=T
Fo Fu
49
Informática
UFRGS Prof. Paulo Martins Engel
P (Fo ,Fu|C ) NB
Fo Fu C=A C=V
Q D 0,234 0,24
P(C) Q T 0,391 0,16
C
P (Fo|C ) P (Fu|C ) R D 0,141 0,36
Fo C=A C=V P(Fo | C) P(Fu | C) Fu C=A C=V R T 0,234 0,24
Fo=Q 0,625 0,4 Fu=D 0,375 0,6 Fo Fu P (Fo,Fu ) NB
Fo=R 0,375 0,6 Fu=T 0,625 0,4
Fo Fu Q D 0,236
Q T 0,299
R D 0,229
R T 0,236
P (C |Fo ,Fu ) NB P (C |Fo ,Fu )
Fo Fu C=A C=V Fo Fu C=A C=V
Q D 0,595 0,405 Q D 0,556 0,444
Q T 0,785 0,215 Q T 0,865 0,135
R D 0,369 0,631 R D 0,385 0,615
R T 0,595 0,405 R T 0,556 0,444
50
Informática
UFRGS Prof. Paulo Martins Engel
Probabilidades condicionais considerando dependência das variáveis P(E1, E2, E3, E4 | H) : 33222 = 72
Informática
UFRGS Prof. Paulo Martins Engel
Classificador NB dados do tempo Tempo Temperatura Umidade Ventoso Joga
ensolarado quente alta falso não
ensolarado quente alta verdadeiro não
Tabela das probabilidades por classe
nublado quente alta falso sim
dos valores individuais: P(Ej | Hi)
chuvoso amena alta falso sim
chuvoso fria normal falso sim
P(ensolarado | sim) = 2/9 chuvoso fria normal verdadeiro não
Inferência por NB
• Fazer a previsão se joga ou não, para os dados de um novo dia (generalização):
Tempo Temperatura Umidade Ventoso Joga
Evidências:
Tempo = ensolarado, Temperatura = fria, Umidade = alta, Ventoso = verdadeiro
Probabilidade de que, com esta evidências, a classe seja Joga = sim:
P ( ensolarado | sim ) P ( fria | sim ) P ( alta | sim ) P ( verdadeiro | sim ) P ( sim )
P ( sim | E )
P(E )
P ( E | sim )
2 3 3 3 9
9 9 9 9 14 0,0053
P ( sim | E ) 0, 205
P ( E | sim ) P ( E | não ) 0,0053 0,0206
Maior probabilidade
P ( E | não ) 3 1 4 3 5
de ser “não”
5 5 5 5 14 0,0206
P ( não | E ) 0,795
P ( E | sim ) P ( E | não ) 0,0053 0,0206
53
Informática
UFRGS Prof. Paulo Martins Engel
54
Informática
UFRGS Prof. Paulo Martins Engel
Informática
UFRGS Prof. Paulo Martins Engel
Estimativa m
• O estimador de Laplace acrescenta amostras com distribuição a priori equiprovável em
relação à classe.
• Uma alternativa mais flexível é utilizar a estimativa m que permite definir uma
distribuição (a priori) não-equiprovável para as amostras que são acrescentadas.
• Pode-se também manter a distribuição equiprovável mas dar mais importância a ela.
• Cálculo da probabilidade condicional por estimativa-m
P(xi | yj) = (nc + mp)/(n + m)
n : número de instâncias da classe yj
nc : número de exemplos da classe yj com o valor xi
m : tamanho equivalente da amostra
p : probabilidade a priori estimada do atributo xi na classe yj
Exemplo: n = 5; nens = 3, nnubl = 0 nchuv = 2; m = 3;
P: (ensolarado | não) = 0,5 (nublado | não) = 0,25 (chuvoso | não) = 0,25
P(ensolarado | não) = (3 + 3x 0,5)/8 = 4,5/8; P(nublado | não) = (0 + 3x 0,25)/8 = 0,75/8;
P(chuvoso | não) = (2 + 3x 0,25)/8 = 2,75/8
56
Informática
UFRGS Prof. Paulo Martins Engel
Valores faltantes
• No treinamento: o exemplo não é incluído na contagem de freqüências para a
combinação de classe-valor de atributo
• Na classificação: atributo será omitido do cálculo
Informática
UFRGS Prof. Paulo Martins Engel
1 n
• A média das amostras, : xi
n i 1
1 n
• A variância, 2 : 2
xi 2
n 1 i 1
x 2
1
• A função densidade, f(x): f ( x) e 2 2
2
58
Informática
UFRGS Prof. Paulo Martins Engel
=1
=2
=3
=0
x 2
1
y e 2 2
2
59
Informática
UFRGS Prof. Paulo Martins Engel
• onde as variâncias 11, 22 são calculadas a partir dos desvios padrões em cada componente, 1
e 2, e a covariância 12 é dependente do coeficiente de correlação .
• A distância de Mahalanobis, DM, define um elipsóide formado por pontos de mesma densidade:
DM (x) (x μ)T 1 (x μ)
• No caso bivariado, a elipse correspondente a DM = 1 (2) contém 39,35% (86,47) da distribuição.
60
Informática
UFRGS Prof. Paulo Martins Engel
61
Informática
UFRGS Prof. Paulo Martins Engel
62
Informática
UFRGS Prof. Paulo Martins Engel
P(C1) = P(C2) = 0,5 e p(x|Ck) gaussianas com 1 = (0,0; 0,0), 12 = 1,0 e
2 = (3,0; 0,0), 22 = 1,0
63
Informática
UFRGS Prof. Paulo Martins Engel
P(C1) = P(C2) = 0,5 e p(x|Ck) gaussianas com 1 = (0,0; 0,0), 12 = 1,0
e 2 = (3,0; 0,0), 22 = 3,0
64
Informática
UFRGS Prof. Paulo Martins Engel
ensolarado 2 3 28 29 86 85 falso 6 2 9 5
nublado 4 0 21 26 96 90 verdadeiro 3 3
chuvoso 3 2 20 18 80 70
17 23 65 95
21 22 70 91
24 80
24 70
23 90
27 75
ensolarado 2/9 3/5 média 22,8 23,6 média 79,1 86,2 falso 6/9 2/5 9/14 5/14
nublado 4/9 0/5 desvio 3,5 4,2 desvio 10,2 9,7 verdadeiro 3/9 3/5
Informática
UFRGS Prof. Paulo Martins Engel
66
Informática
UFRGS Prof. Paulo Martins Engel
Discussão da classificação NB
67