Modelo de Rescisão de Termo de Compromisso de Estágio

Universidade Federal
Rural de Pernambuco
Aprendizagem de Máquina
Classificação de Texto com Naive Bayes
Prof. Tiago Buarque Assunção de Carvalho
Unidade Acadêmica de Garanhuns – UFRPE

Bacharelado em Ciências da Computação
26 de julho de 2017
Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 1 / 46

Roteiro
1 Introdução
2 Classificação Bayesiana
3 Naive Bayes
4 Classificação de Texto
5 Atributos Numéricos

Classificação
• Um exemplo (ou instância, ou padrão) representa um elemento do

mundo real através de um vetor de característica (ou vetor de
atributos).
• Classificar consiste em atribuir um rótulo a um exemplo.
• O rótulo pertence a um conjunto de possíveis classes.
• O classificador deve ser capaz de generalizar, isto é, classificar
corretamente exemplos nunca vistos.
• O classificaro é construído (ou treinado) a partir de um conjunto de
treino.
• A performance do avaliador é medida em um conjunto de dados para
o qual o classificador não teve acesso, chamado conjunto de teste.
• O classificador não tem acesso aos rótulos do conjunto de teste, um
módulo independente de avaliação compara as saídas do
classificador com a resposta esperada para o conjunto de teste.

Aprendizado Bayesiano
• Classificação baseada em probabilidades.
• Abordagem relevante: o método Naive Bayes pode ter resultados
semelhantes ou “melhores” que árvores de decisão ou redes neurais.
• Pode explicar outros classificadores do ponto de vista
probabilístico, ex.: redes neurais.
• Características:
• flexível, cada exemplo tem uma pequena influência, a rigidez de
regras ou árvores pode levar a overfitting;
• requer conhecimento de probabilidades: pode utilizar
conhecimento prévio, algumas probabilidades podem ser inseridas
diretamente no classificador e outras estimadas;
• pode realizar predições probabilísticas, a probabilidade de um
exemplo pertencer a uma classe; este tipo de classificação permite
rejeitar estimativas pouco confiáveis;
• é possível calcular o ótimo teórico: erro mínimo ou risco mínimo para
um conjunto de dados;
• calcular a classificação pode ter custo computacional elevado, mas
este custo pode ser diminuído com algumas simplificações.
Conceitos
• Variável Aleatória (v. a.): atributo cujo

valor não pode ser definido A 0 0 0 1 1
deterministicamente mas B 6 6 7 6 7
probabilisticamente.
• P(A = a) ou P(a) é a probabilidade a P(A = 0) = 3/5
priori de a variável aleatória A assumir P(A = 1) = 2/5
o valor a. P(B = 6) = 3/5
P(B = 7) = 2/5
• P(A = a|B = b) ou P(a|b) é a
probabilidade condicional de a dado
P(A = 0|B = 6) = 2/3
que b já ocorreu.
P(A = 1|B = 6) = 1/3
• P(A = a, B = b) ou P(a, b) é a P(B = 6|A = 1) = 1/2
probabilidade conjunta de a e b, isto é,
a probabilidade de ambos os eventos P(A = 0, B = 6) = 2/5
ocorrerem ao mesmo tempo. P(A = 1, B = 6) = 1/5
P(A = a, B = b) = P(B = b, A = a)
Fórmulas de probabilidade
Regra da soma (probabilidade de ocorrer qualquer um dos dois eventos):
P(A ou B) = P(A) + P(B) − P(A, B).
Regra do produto:
P(A, B) = P(A|B)P(B) = P(B|A)P(A).
Teorema de Bayes:
P(B|A)P(A)
P(A|B) = .
P(B)
Teorema da probabilidade total: se os eventos A1 , . . . , An são
mutuamente exclusivos com ni=1 P(Ai ) = 1 então
P
n
X
P(B) = P(B|Ai )P(Ai ).
i=1

Probabilidade a priori da classe
X1 X2 Y
• Probabilidade a priori da classe: é a
0 6 c1
probabilidade de cada classe 0 6 c1
independente das características 0 7 c2
• X1 e X2 sãos v. a. que representam os 1 6 c2
atributos dos exemplos 1 7 c1
• Y é a v. a. que representa a classe dos
exemplos P(c1 ) = 3/5
P(c2 ) = 2/5

Erro máximo de classificação
X1 X2 Y
• Regra de decisão cega: atribuir um
0 6 c1
exemplo de classe desconhecida à 0 6 c1
classe com maior probabilidade a priori. 0 7 c2
• Ignora os valores do vetor de atributos. 1 6 c2
• O erro máximo de classificação é 1 7 c1
igual a um menos a maior
probabilidade a priori de cada classe: P(c1 ) = 3/5
P(c2 ) = 2/5
P(erro máximo) = 1 − max (P(ci ))
i=1,...,C
P(erro máx.) = 1 − P(c1 )
em que C é o número de classes. = 1 − 3/5
= 2/5

Distribuição dos dados
X1 X2 Y
0 6 c1
• Distribuição das 0 6 c1
características. 0 7 c2
• Distribuição geral (a 1 6 c2
priori), ex. P(X1 ). 1 7 c1
• Distribuição por
classe (a posteriori),
ex. P(X1 |c1 ) e
P(X1 |c2 ).
• Representação por
histograma.

Classificação Bayesiana
• Algoritmo: calcule a probabilidade de o novo exemplo pertencer a

cada classe, diga que ele pertence a classe para qual ele tem maior
probabilidade de pertencer.
• Regra de decisão Bayesiana: decida pela classe ci se P(ci |x) é
maior que P(cj |x), i , j:
x ∈ ci se P(ci |x) > P(cj |x), i , j,
em que x é o vetor de atributos.

• Note que P(ci |X) significa uma coisa diferente de P(X|ci ).
• Considera o valor do vetor de atributos do exemplo diferente da
classificação cega.

Teorema de Bayes
P(x|ci )P(ci ) X1 X2 Y
P(ci |x) =
P(x) 0 6 c1
0 6 c1
• Utilizado para estimar a probabilidade 0 7 c2
do exemplo x pertencer a cada classe. 1 6 c2
1 7 c1
P(X1 = 0|c1 )P(c1 ) 2

P(c1 |X1 = 0) = = . P(c1 ) = 3/5
P(X1 = 0) 3
P(X1 = 0|c1 ) = 2/3
P([0, 6]|c1 )P(c1 ) P(X1 = 0) = 3/5
P(c1 |[X1 = 0, X2 = 6]) = = 1. P([0, 6]|c1 ) = 2/3
P([0, 6])
P([0, 6]) = 2/5

Função discriminante
• Função discriminante: utilizada para comparação indireta de

P(ci |x), é uma função monotonicamente crescente desta
probabilidade, exemplo:
gi (x) = P(x|ci )P(ci ).
• O termo P(x) é o mesmo independe da classe, embora seja útil para

estimar as probabilidades não é necessário para a comparação
destas.
• Regra de decisão Bayesiana utilizando a função discriminante:
atribua x à classe ci para a qual a função discriminante é máxima.
x ∈ ci se gi (x) > gj (x), i , j.

Classificação com a função discriminante
gi (x) = P(x|ci )P(ci ).

g1 ([0, 6]) = P([0, 6]|c1 )P(c1 ) P(c1 ) = 5/9
g1 ([0, 6]) = 25 59 = 2/9
X1 X2 Y P(c2 ) = 4/9
g2 ([0, 6]) = 0
[0, 6] ∈ c1 (classifique como c1 ) 0 6 c1
0 6 c1 P([0, 6]|c1 ) = 2/5
g1 ([0, 7]) = 1/9 0 7 c1 P([0, 7]|c1 ) = 1/5
g2 ([0, 7]) = 2/9 1 6 c1 P([1, 6]|c1 ) = 2/5
[0, 7] ∈ c2 1 6 c1 P([1, 7]|c1 ) = 0
0 7 c2
g1 ([1, 6]) = 2/9
0 7 c2 P([0, 6]|c2 ) = 0
g2 ([1, 6]) = 2/9
[1, 6] ∈ c1 (regra para empates) 1 6 c2 P([0, 7]|c2 ) = 2/4
1 6 c2 P([1, 6]|c2 ) = 2/4
g1 ([1, 7]) = 0 P([1, 7]|c2 ) = 0
g2 ([1, 7]) = 0
[1, 7] ∈ c1 (regra para empates)

Limitações da classificação Bayesiana
• Qual a classificação para [1,7] ou [1,8]?

• Nem sempre o conjunto de treino contém todas as combinações
possíveis.
• É necessário ter vários exemplos de cada uma das combinações
possíveis.
• Este número pode ser muito grande. Ex.: 4 atributos cada um com 3
valores possíveis = 81 combinações. Vários exemplos de cada
combinação (ex. uma média de 100, teríamos 8.100 exemplos). Para
uma base mais complicada...
• É preciso uma forma mais flexível para estimar a probabilidade.
• O método Naive Bayes assume independência das variáveis. Nem
sempre as variáveis são realmente independentes, mas isto permite
calcular estimar a probabilidade onde antes não era possível.

Independência de variáveis
• Alguns vetores podem não ocorrer no conjunto de treino obtendo

probabilidade zero para toda as classes, ex.P([1, 7]|c1 ) = 0 e
P([1, 7]|c2 ) = 0.
• Se o valor de uma v.a. independe da outra v.a. então é dito que
essas variáveis aleatórias são independentes:
P(A|B) = P(A).
• Na regra do produto obtém-se:
P(A, B) = P(A|B)P(B) = P(A)P(B).
• Para múltiplas variáveis:

n
Y
P(A1 , . . . , An ) = P(A1 ) × . . . × P(An ) = P(Ai ).
i=1

Naive Bayes
• Abordagem do Naive Bayes: assumir independência das dos

atributos.
• Permite estimar a probabilidade por classe resolvendo o problema
do valor nulo na função discriminante para toda as classes:
m
Y
gi (x) = P(ci ) P(xk |ci ),
k=1
em que x = [x1 , . . . , xm ]T é o vetor de atributos de um exemplo.

• Regra de decisão Bayesiana utilizando a função discriminante:
atribua x à classe ci para a qual a função discriminante é máxima.
x ∈ ci se gi (x) > gj (x), i , j.

Exemplo: Weather
Classifique x1 = [sunny, cool, high, strong]

gyes (x1 ) = P(yes)P(sunny|yes)P(cool|yes)P(high|yes)P(strong|yes) = 0, 0053;
gno (x1 ) = P(no)P(sunny|no)P(cool|no)P(high|no)P(strong|no) = 0, 0206;
P(no|x1 ) = 0, 0206/(0, 0206 + 0, 0053) = 79, 5%.

Classificação com Naive Bayes
m
Y
gi (x) = P(ci ) P(xk |ci ).
k=1
g1 ([0, 6]) = P(c1 )P(0|c1 )P(6|c1 ) P(c1 ) = 5/9

g1 ([0, 6]) = 59 35 45 = 0, 27 X1 X2 Y P(c2 ) = 4/9
g2 ([0, 6]) = 0, 11 0 6 c1
[0, 6] ∈ c1 (classifique como c1 ) 0 6 c1 P(X1 = 0|c1 ) = 3/5
0 7 c1 P(X1 = 1|c1 ) = 2/5
g1 ([0, 7]) = 0, 07
1 6 c1 P(X2 = 6|c1 ) = 4/5
g2 ([0, 7]) = 0, 11
[0, 7] ∈ c2 1 6 c1 P(X2 = 7|c1 ) = 1/5
0 7 c2
g1 ([1, 6]) = 0, 18 0 7 c2 P(X1 = 0|c2 ) = 2/4
g2 ([1, 6]) = 0, 11 1 6 c2 P(X1 = 1|c2 ) = 2/4
[1, 6] ∈ c1 (*antes dava empate) 1 6 c2 P(X2 = 6|c2 ) = 2/4
P(X2 = 7|c2 ) = 2/4
g1 ([1, 7]) = 0, 04
g2 ([1, 7]) = 0, 11
[1, 7] ∈ c2 (*antes g1 = g2 = 0)
Estimando probabilidades
Estimação para dados abundantes:

nxk ci
P(xk |ci ) = P(X = xk |C = ci ) = ,
n ci
nxk ci é o número de vezes que ocorre X = xk eC = ci , e nci é o número de

vezes que ocorre C = ci .
Se algum P(xk |ci ) = 0 então gi = 0 no Naive Bayes.
Estimativa para poucos exemplos:
nxk ci + 1
P(xk |ci ) = ,
nci + nX
em que nX é o número de valores distintos para X .

Classificação de texto
• Naive Bayes foi uma das primeira técnicas utilizada com sucesso
para classificação de texto e ainda é amplamente utilizada.
• Bag of Words (BoW): extração de características.
• É construído um dicionário com todas as plavras
• Cada palavra do dicionário é um atributo.
• BoW transforma um texto em um vetor binário indicando se o texto
contém ou não determinada palavra.
• Gera vetores muito longos (muitas palavras).
• Outras técnicas simples para classificação de texto: contagem de
palavras, TF, IDF, n − grams, remoção de stop word, etc.
Weka 3.6. IDF – the word frequencies in a document should be transformed into: fij ∗ log(num of Docs/num of Docs with word i) where
fij is the frequency of word i in document (instance) j. TF – Sets whether if the word frequencies should be transformed into: log(1 + fij ),
where fij is the frequency of word i in document (instance) j.

Classificação de texto
opiniao.arff (arquivo no formato para o Weka)
@relation opiniao
@attribute opinião string

@attribute classe {pos,neg}
@data
’Os funcionários são muito atenciosos e prestativos. O ambiente é li
’Atenderam minhas solicitações rapidamente. O ambiente é muito limpo
’Banheiro limpo e funcionários atenciosos.’,pos
’Fui atendido rapidamente e achei o quarto confortável.’,pos
’Limpo e confortável.’,pos
’O banheiro é sujo e não tem toalhas.’,neg
’O quarto estava sujo quando chegamos.’,neg
’O quarto era escuro e não havia janelas.’,neg
’Não gostei do café da manhã. Haviam poucas opções no bufffet.’,neg
’Achei o ambiente sujo e não gostei do café da manhã.’,neg

Extraindo bag-of-words

Transformando as características numéricas para
categóricas (nominais)

Classificando com weka
Experimento 10-fold cross validation

Parte do modelo treinado
=== Classifier model (full training set) ===
Naive Bayes Classifier
Class
Attribute pos neg
(0.5) (0.5)
===========================
limpo
0 3.0 6.0
1 4.0 1.0
[total] 7.0 7.0
sujo
0 6.0 3.0
1 1.0 4.0
[total] 7.0 7.0

Resultados - Naive Bayes
=== Stratified cross-validation ===

=== Summary ===
Correctly Classified Instances 8 80 %
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure R

1 0.4 0.714 1 0.833
0.6 0 1 0.6 0.75
Weighted Avg. 0.8 0.2 0.857 0.8 0.792
=== Confusion Matrix ===
a b <-- classified as
5 0 | a = pos
2 3 | b = neg

Árvores de Decisão (ID3) treinada
=== Classifier model (full training set) ===
Id3
limpo = 0
| confortável = 0: neg
| confortável = 1: pos
limpo = 1: pos
3 2 | a = pos
1 4 | b = neg

Densidade e massa
• Quando os atributos são categóricos (nominais), suas probabilidade

são definidas em termos de funções de massa de probabilidade.
Esta função define uma probabilidade para cada possível valor de
atributo. (É comum utiliza-se P(X), com P maiúsculo, para definir uma
função de massa)
• Quando os atributos são numéricos, suas probabilidades são
definidas em termos de função densidade de probabilidade (FDP).
A probabilidade é estimada para um determinado intervalo numérica
como a integral da FDP neste intervalo. (É comum utiliza-se p(x),
com p minúsculo, para definir uma densidade.)
Z a+
p(x = a) = p(x)dx. (1)
a−

Densidade Normal
• É uma das funções de densidade mais utilizadas.

• Tem uma forma de sino.
• É definida em função da média µ e do desvio padrão σ.
• N(µ, σ) é a notação padrão.
(x − µ)2
!
1
p(x) = √ exp − . (2)
2πσ 2σ2
v
n n
t
1X 1 X
µ= xi , σ= (xi − µ)2 .
n i=1 n − 1 i=1

Gráfico de uma Densidade Normal univariada
N(µ, σ)
Fonte: Wikipedia
Desvio padrão
Quanto maior o desvio padrão, mais larga a curva.
A média é o ponto mais alto da curva.
Case C (PCA transformed data)
12 Horizontal Axis distribution
10
1
Vertical Axis (2nd feature)
8 0.5
6 0
−5 0 5 10
4 Vertical Axis distribution
2 1
Class 1
0 Class 2 0.5
−4 −2 0 2 4 6 8
0
Horizontal Axis (1st feature) −5 0 5 10
Fonte: Tiago B. A. de Carvalho et al. (2017) Principal Component Analysis for Supervised Leaning: a Minimum Classification Error
Approach. (to appear.)

Classificação de texto com BoW utilizando atributos
numéricos
Attribute pos neg

(0.5) (0.5)
=============================
limpo
As probabilidades são mean 0.2 0
estimadas utilizando std. dev. 0.4 0.1667
densidades normais, weight sum 5 5
precision 1 1
calculando a média e o
desvio padrão a partir dos sujo
dados. Parte do modelo: mean 0 0.6
std. dev. 0.1667 0.4899
weight sum 5 5
precision 1 1

Classificação de texto com BoW utilizando atributos
numéricos
Resultados
=== Stratified cross-validation ===

=== Summary ===

Incorrectly Classified Instances 0 0 %
Total Number of Instances 10
5 0 | a = pos
0 5 | b = neg

Densidade Normal Multivariada
• A densidade multivariada é utilizada para representar variáveis com

múltiplas dimensões (vetores de atributos numéricos)
diferentemente da densidade univariada, que representa uma
variável por vez.
• Não necessita empregar a abordagem do Naive Bayes (assumir que
as variáveis são independentes), pois a dependência das variáveis
é modelada pela matriz de covariância Σ.
!
1 1
p(x) = exp − (x − µ)T Σ−1 (x − µ) , (3)
(2π)d/2 |Σ|1/2 2
n n
1 X 1 X
µd×1 = xi , Σd×d = (xi − µ)(xi − µ)T .
n − 1 i=1 n − 1 i=1

Gráfico de uma Densidade Normal Multivariada
N(µ, Σ)
Fonte: <http://www.personal.reading.ac.uk/~sis01xh/teaching/CY2D2/Pattern2.pdf>

Estimação não-paramétrica de probabilidades
Fonte: <http://research.cs.tamu.edu/prism/lectures/pr/pr_l7.pdf>, <http://psi.cse.tamu.edu/teaching/lecture_notes/>

Estimação não-paramétrica de probabilidades
Duas abordagens comuns:
• Discretização de variáveis
• Abordagem mais simples.
• Transforma a variável numérica em categórica.
• Define intervalos e dá um rótulo para cada intervalo.
• Calcula a probabilidade para a variável categórica.
• Análogo à construção de histogramas.
• Janela de Parzen
• Centra uma janela em torno do ponto para o qual se quer estimar a
densidade.
• A probabilidade é uma função dos vizinhos.
• Pode considerar todos os pontos no conjunto de treino como vizinhos,
com peso para cada ponto como uma função da distância ao ponto
em questão.

Discretização de variáveis
Eixo X: cada exemplo do conjunto de treino.
Eixo Y: o valor da variável.
Gráfico de cima: variável contínua no intervalo [-0.443097; 4.857738].
Gráfico de baixo: variável discretizada para {0, 1, 2}.
x0 = 0, se x ∈ [−1, 1]; x0 = 1, se x ∈ (1, 3]; x0 = 2, se x ∈ (3, 5].

Histograma (Discretização de variáveis)
Para estimar a função de massa de probabilidade. Histogramas com 3 e

com 30 intervalos, respectivamente. Calculado a partir dos pontos
discretizados anteriormente (3 intervalos) e utilizando nova discretização
(30 intervalos).

Janela de Parzen
“Estimação das densidades utilizando histograma, isto é, a função de

probabilidade de massa calculada após a discretização (esquerda), e
janela de Pazend (direita) para o mesmo conjunto de dados. Os kernels
para 6 exemplos (marcas pretas no eixo x) estão pontilhados de vermelho,
a densidade em azul.” Fonte: <https://en.wikipedia.org/wiki/Kernel_density_estimation>
Janela de Parzen
Estimando a densidade, h é análogo a largura da barra (intervalo) no
histograma, φ é a função de kernel, n é o número de exemplos:
 n 
1  1 X xi − x 
p̂(x) =  φ , (4)
h n i=1 h 
Kernel retangular (conta os elementos dentro da janela):
(
1, se|a| ≤ 1/2
φ(a) = (5)
0, caso contrátrio
Kernel gaussiano (suave, atribui um peso maior ao elementos mais próximos):
a2
!
1
φ(a) = √ exp − . (6)
2π 2
Fonte: <http://research.cs.tamu.edu/prism/lectures/pr/pr_l7.pdf>, <http://psi.cse.tamu.edu/teaching/lecture_notes/>

Largura da janela
Quando menor h, a
largura da janela,
demanda-se mais
exemplos para uma
estimação precisa.
Quando h é grande
demais pode eliminar
detalhes reais dos
dados.
Fonte: Duda et al. 2000.

Largura da janela - Kernel Gaussiano
Para os dados usados no exemplo de discretização.

Largura da janela - Kernel Retangular
Para os dados usados no exemplo de discretização.

Resumo
• Probabilidades a partir dos dados.

• Classificação Bayesiana.
• Naive Bayes.
• Massa (atributos categóricos) e Densidade (atributos numéricos)
• Estimação de probabilidades.
• Discretização e Janela de Parzen.
• Classificação de texto.

Referências
• Thomas M. Mitchell. (1997). Machine Learning (1 ed.). McGraw-Hill,

Inc., New York, NY, USA. (Capítulo 6)
• Sergios Theodoridis and Konstantinos Koutroumbas (2008). Pattern
Recognition, Fourth Edition (4th ed.). Academic Press. (Capítulo 2)
• Eibe Frank, Mark A. Hall, and Ian H. Witten (2016). The WEKA
Workbench. Online Appendix for "Data Mining: Practical Machine
Learning Tools and Techniques", Morgan Kaufmann, Fourth Edition.
• Richard O. Duda, Peter E. Hart, David G. Stork (2000). Pattern
Classification, 2nd ed. Wiley.

Modelo de Rescisão de Termo de Compromisso de Estágio

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Modelo de Rescisão de Termo de Compromisso de Estágio

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Federal

Prof. Tiago Buarque Assunção de Carvalho

Unidade Acadêmica de Garanhuns – UFRPE

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 1 / 46

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 2 / 46

• Um exemplo (ou instância, ou padrão) representa um elemento do

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 3 / 46

• Variável Aleatória (v. a.): atributo cujo

P(A ou B) = P(A) + P(B) − P(A, B).

P(A, B) = P(A|B)P(B) = P(B|A)P(A).

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 6 / 46

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 7 / 46

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 8 / 46

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 9 / 46

• Algoritmo: calcule a probabilidade de o novo exemplo pertencer a

x ∈ ci se P(ci |x) > P(cj |x), i , j,

em que x é o vetor de atributos.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 10 / 46

P(X1 = 0|c1 )P(c1 ) 2

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 11 / 46

• Função discriminante: utilizada para comparação indireta de

gi (x) = P(x|ci )P(ci ).

• O termo P(x) é o mesmo independe da classe, embora seja útil para

x ∈ ci se gi (x) > gj (x), i , j.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 12 / 46

gi (x) = P(x|ci )P(ci ).

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 13 / 46

• Qual a classificação para [1,7] ou [1,8]?

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 14 / 46

• Alguns vetores podem não ocorrer no conjunto de treino obtendo

• Na regra do produto obtém-se:

P(A, B) = P(A|B)P(B) = P(A)P(B).

• Para múltiplas variáveis:

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 15 / 46

• Abordagem do Naive Bayes: assumir independência das dos

em que x = [x1 , . . . , xm ]T é o vetor de atributos de um exemplo.

x ∈ ci se gi (x) > gj (x), i , j.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 16 / 46

Classifique x1 = [sunny, cool, high, strong]

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 17 / 46

g1 ([0, 6]) = P(c1 )P(0|c1 )P(6|c1 ) P(c1 ) = 5/9

Estimação para dados abundantes:

nxk ci é o número de vezes que ocorre X = xk eC = ci , e nci é o número de

em que nX é o número de valores distintos para X .

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 19 / 46

where fij is the frequency of word i in document (instance) j.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 20 / 46

@attribute opinião string

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 21 / 46

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 22 / 46

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 23 / 46

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 24 / 46

=== Classifier model (full training set) ===

Naive Bayes Classifier

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 25 / 46

=== Stratified cross-validation ===

Correctly Classified Instances 8 80 %

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure R

=== Confusion Matrix ===

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 26 / 46

=== Classifier model (full training set) ===

=== Confusion Matrix ===

Correctly Classified Instances 7 70 %