Escolar Documentos
Profissional Documentos
Cultura Documentos
Rural de Pernambuco
Aprendizagem de Máquina
Classificação de Texto com Naive Bayes
26 de julho de 2017
1 Introdução
2 Classificação Bayesiana
3 Naive Bayes
4 Classificação de Texto
5 Atributos Numéricos
Regra do produto:
Teorema de Bayes:
P(B|A)P(A)
P(A|B) = .
P(B)
Teorema da probabilidade total: se os eventos A1 , . . . , An são
mutuamente exclusivos com ni=1 P(Ai ) = 1 então
P
n
X
P(B) = P(B|Ai )P(Ai ).
i=1
X1 X2 Y
• Probabilidade a priori da classe: é a
0 6 c1
probabilidade de cada classe 0 6 c1
independente das características 0 7 c2
• X1 e X2 sãos v. a. que representam os 1 6 c2
atributos dos exemplos 1 7 c1
• Y é a v. a. que representa a classe dos
exemplos P(c1 ) = 3/5
P(c2 ) = 2/5
X1 X2 Y
• Regra de decisão cega: atribuir um
0 6 c1
exemplo de classe desconhecida à 0 6 c1
classe com maior probabilidade a priori. 0 7 c2
• Ignora os valores do vetor de atributos. 1 6 c2
• O erro máximo de classificação é 1 7 c1
igual a um menos a maior
probabilidade a priori de cada classe: P(c1 ) = 3/5
P(c2 ) = 2/5
P(erro máximo) = 1 − max (P(ci ))
i=1,...,C
P(erro máx.) = 1 − P(c1 )
em que C é o número de classes. = 1 − 3/5
= 2/5
X1 X2 Y
0 6 c1
• Distribuição das 0 6 c1
características. 0 7 c2
• Distribuição geral (a 1 6 c2
priori), ex. P(X1 ). 1 7 c1
• Distribuição por
classe (a posteriori),
ex. P(X1 |c1 ) e
P(X1 |c2 ).
• Representação por
histograma.
P(x|ci )P(ci ) X1 X2 Y
P(ci |x) =
P(x) 0 6 c1
0 6 c1
• Utilizado para estimar a probabilidade 0 7 c2
do exemplo x pertencer a cada classe. 1 6 c2
1 7 c1
P(A|B) = P(A).
nxk ci + 1
P(xk |ci ) = ,
nci + nX
• Naive Bayes foi uma das primeira técnicas utilizada com sucesso
para classificação de texto e ainda é amplamente utilizada.
• Bag of Words (BoW): extração de características.
• É construído um dicionário com todas as plavras
• Cada palavra do dicionário é um atributo.
• BoW transforma um texto em um vetor binário indicando se o texto
contém ou não determinada palavra.
• Gera vetores muito longos (muitas palavras).
• Outras técnicas simples para classificação de texto: contagem de
palavras, TF, IDF, n − grams, remoção de stop word, etc.
Weka 3.6. IDF – the word frequencies in a document should be transformed into: fij ∗ log(num of Docs/num of Docs with word i) where
fij is the frequency of word i in document (instance) j. TF – Sets whether if the word frequencies should be transformed into: log(1 + fij ),
@data
’Os funcionários são muito atenciosos e prestativos. O ambiente é li
’Atenderam minhas solicitações rapidamente. O ambiente é muito limpo
’Banheiro limpo e funcionários atenciosos.’,pos
’Fui atendido rapidamente e achei o quarto confortável.’,pos
’Limpo e confortável.’,pos
’O banheiro é sujo e não tem toalhas.’,neg
’O quarto estava sujo quando chegamos.’,neg
’O quarto era escuro e não havia janelas.’,neg
’Não gostei do café da manhã. Haviam poucas opções no bufffet.’,neg
’Achei o ambiente sujo e não gostei do café da manhã.’,neg
Class
Attribute pos neg
(0.5) (0.5)
===========================
limpo
0 3.0 6.0
1 4.0 1.0
[total] 7.0 7.0
sujo
0 6.0 3.0
1 1.0 4.0
[total] 7.0 7.0
a b <-- classified as
5 0 | a = pos
2 3 | b = neg
Id3
limpo = 0
| confortável = 0: neg
| confortável = 1: pos
limpo = 1: pos
a b <-- classified as
3 2 | a = pos
1 4 | b = neg
(x − µ)2
!
1
p(x) = √ exp − . (2)
2πσ 2σ2
v
n n
t
1X 1 X
µ= xi , σ= (xi − µ)2 .
n i=1 n − 1 i=1
Fonte: Wikipedia
Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 30 / 46
Desvio padrão
Quanto maior o desvio padrão, mais larga a curva.
A média é o ponto mais alto da curva.
Case C (PCA transformed data)
12 Horizontal Axis distribution
10
1
Vertical Axis (2nd feature)
8 0.5
6 0
−5 0 5 10
4 Vertical Axis distribution
2 1
Class 1
0 Class 2 0.5
−4 −2 0 2 4 6 8
0
Horizontal Axis (1st feature) −5 0 5 10
Fonte: Tiago B. A. de Carvalho et al. (2017) Principal Component Analysis for Supervised Leaning: a Minimum Classification Error
a b <-- classified as
5 0 | a = pos
0 5 | b = neg
!
1 1
p(x) = exp − (x − µ)T Σ−1 (x − µ) , (3)
(2π)d/2 |Σ|1/2 2
n n
1 X 1 X
µd×1 = xi , Σd×d = (xi − µ)(xi − µ)T .
n − 1 i=1 n − 1 i=1
Fonte: <http://www.personal.reading.ac.uk/~sis01xh/teaching/CY2D2/Pattern2.pdf>
• Discretização de variáveis
• Abordagem mais simples.
• Transforma a variável numérica em categórica.
• Define intervalos e dá um rótulo para cada intervalo.
• Calcula a probabilidade para a variável categórica.
• Análogo à construção de histogramas.
• Janela de Parzen
• Centra uma janela em torno do ponto para o qual se quer estimar a
densidade.
• A probabilidade é uma função dos vizinhos.
• Pode considerar todos os pontos no conjunto de treino como vizinhos,
com peso para cada ponto como uma função da distância ao ponto
em questão.
Quando menor h, a
largura da janela,
demanda-se mais
exemplos para uma
estimação precisa.
Quando h é grande
demais pode eliminar
detalhes reais dos
dados.