Você está na página 1de 46

Universidade Federal

Rural de Pernambuco

Aprendizagem de Máquina
Classificação de Texto com Naive Bayes

Prof. Tiago Buarque Assunção de Carvalho

Unidade Acadêmica de Garanhuns – UFRPE


Bacharelado em Ciências da Computação

26 de julho de 2017

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 1 / 46


Roteiro

1 Introdução

2 Classificação Bayesiana

3 Naive Bayes

4 Classificação de Texto

5 Atributos Numéricos

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 2 / 46


Classificação

• Um exemplo (ou instância, ou padrão) representa um elemento do


mundo real através de um vetor de característica (ou vetor de
atributos).
• Classificar consiste em atribuir um rótulo a um exemplo.
• O rótulo pertence a um conjunto de possíveis classes.
• O classificador deve ser capaz de generalizar, isto é, classificar
corretamente exemplos nunca vistos.
• O classificaro é construído (ou treinado) a partir de um conjunto de
treino.
• A performance do avaliador é medida em um conjunto de dados para
o qual o classificador não teve acesso, chamado conjunto de teste.
• O classificador não tem acesso aos rótulos do conjunto de teste, um
módulo independente de avaliação compara as saídas do
classificador com a resposta esperada para o conjunto de teste.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 3 / 46


Aprendizado Bayesiano
• Classificação baseada em probabilidades.
• Abordagem relevante: o método Naive Bayes pode ter resultados
semelhantes ou “melhores” que árvores de decisão ou redes neurais.
• Pode explicar outros classificadores do ponto de vista
probabilístico, ex.: redes neurais.
• Características:
• flexível, cada exemplo tem uma pequena influência, a rigidez de
regras ou árvores pode levar a overfitting;
• requer conhecimento de probabilidades: pode utilizar
conhecimento prévio, algumas probabilidades podem ser inseridas
diretamente no classificador e outras estimadas;
• pode realizar predições probabilísticas, a probabilidade de um
exemplo pertencer a uma classe; este tipo de classificação permite
rejeitar estimativas pouco confiáveis;
• é possível calcular o ótimo teórico: erro mínimo ou risco mínimo para
um conjunto de dados;
• calcular a classificação pode ter custo computacional elevado, mas
este custo pode ser diminuído com algumas simplificações.
Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 4 / 46
Conceitos

• Variável Aleatória (v. a.): atributo cujo


valor não pode ser definido A 0 0 0 1 1
deterministicamente mas B 6 6 7 6 7
probabilisticamente.
• P(A = a) ou P(a) é a probabilidade a P(A = 0) = 3/5
priori de a variável aleatória A assumir P(A = 1) = 2/5
o valor a. P(B = 6) = 3/5
P(B = 7) = 2/5
• P(A = a|B = b) ou P(a|b) é a
probabilidade condicional de a dado
P(A = 0|B = 6) = 2/3
que b já ocorreu.
P(A = 1|B = 6) = 1/3
• P(A = a, B = b) ou P(a, b) é a P(B = 6|A = 1) = 1/2
probabilidade conjunta de a e b, isto é,
a probabilidade de ambos os eventos P(A = 0, B = 6) = 2/5
ocorrerem ao mesmo tempo. P(A = 1, B = 6) = 1/5
P(A = a, B = b) = P(B = b, A = a)
Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 5 / 46
Fórmulas de probabilidade
Regra da soma (probabilidade de ocorrer qualquer um dos dois eventos):

P(A ou B) = P(A) + P(B) − P(A, B).

Regra do produto:

P(A, B) = P(A|B)P(B) = P(B|A)P(A).

Teorema de Bayes:
P(B|A)P(A)
P(A|B) = .
P(B)
Teorema da probabilidade total: se os eventos A1 , . . . , An são
mutuamente exclusivos com ni=1 P(Ai ) = 1 então
P

n
X
P(B) = P(B|Ai )P(Ai ).
i=1

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 6 / 46


Probabilidade a priori da classe

X1 X2 Y
• Probabilidade a priori da classe: é a
0 6 c1
probabilidade de cada classe 0 6 c1
independente das características 0 7 c2
• X1 e X2 sãos v. a. que representam os 1 6 c2
atributos dos exemplos 1 7 c1
• Y é a v. a. que representa a classe dos
exemplos P(c1 ) = 3/5
P(c2 ) = 2/5

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 7 / 46


Erro máximo de classificação

X1 X2 Y
• Regra de decisão cega: atribuir um
0 6 c1
exemplo de classe desconhecida à 0 6 c1
classe com maior probabilidade a priori. 0 7 c2
• Ignora os valores do vetor de atributos. 1 6 c2
• O erro máximo de classificação é 1 7 c1
igual a um menos a maior
probabilidade a priori de cada classe: P(c1 ) = 3/5
P(c2 ) = 2/5
P(erro máximo) = 1 − max (P(ci ))
i=1,...,C
P(erro máx.) = 1 − P(c1 )
em que C é o número de classes. = 1 − 3/5
= 2/5

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 8 / 46


Distribuição dos dados

X1 X2 Y
0 6 c1
• Distribuição das 0 6 c1
características. 0 7 c2
• Distribuição geral (a 1 6 c2
priori), ex. P(X1 ). 1 7 c1
• Distribuição por
classe (a posteriori),
ex. P(X1 |c1 ) e
P(X1 |c2 ).
• Representação por
histograma.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 9 / 46


Classificação Bayesiana

• Algoritmo: calcule a probabilidade de o novo exemplo pertencer a


cada classe, diga que ele pertence a classe para qual ele tem maior
probabilidade de pertencer.
• Regra de decisão Bayesiana: decida pela classe ci se P(ci |x) é
maior que P(cj |x), i , j:

x ∈ ci se P(ci |x) > P(cj |x), i , j,

em que x é o vetor de atributos.


• Note que P(ci |X) significa uma coisa diferente de P(X|ci ).
• Considera o valor do vetor de atributos do exemplo diferente da
classificação cega.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 10 / 46


Teorema de Bayes

P(x|ci )P(ci ) X1 X2 Y
P(ci |x) =
P(x) 0 6 c1
0 6 c1
• Utilizado para estimar a probabilidade 0 7 c2
do exemplo x pertencer a cada classe. 1 6 c2
1 7 c1

P(X1 = 0|c1 )P(c1 ) 2


P(c1 |X1 = 0) = = . P(c1 ) = 3/5
P(X1 = 0) 3
P(X1 = 0|c1 ) = 2/3
P([0, 6]|c1 )P(c1 ) P(X1 = 0) = 3/5
P(c1 |[X1 = 0, X2 = 6]) = = 1. P([0, 6]|c1 ) = 2/3
P([0, 6])
P([0, 6]) = 2/5

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 11 / 46


Função discriminante

• Função discriminante: utilizada para comparação indireta de


P(ci |x), é uma função monotonicamente crescente desta
probabilidade, exemplo:

gi (x) = P(x|ci )P(ci ).

• O termo P(x) é o mesmo independe da classe, embora seja útil para


estimar as probabilidades não é necessário para a comparação
destas.
• Regra de decisão Bayesiana utilizando a função discriminante:
atribua x à classe ci para a qual a função discriminante é máxima.

x ∈ ci se gi (x) > gj (x), i , j.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 12 / 46


Classificação com a função discriminante

gi (x) = P(x|ci )P(ci ).


g1 ([0, 6]) = P([0, 6]|c1 )P(c1 ) P(c1 ) = 5/9
g1 ([0, 6]) = 25 59 = 2/9
X1 X2 Y P(c2 ) = 4/9
g2 ([0, 6]) = 0
[0, 6] ∈ c1 (classifique como c1 ) 0 6 c1
0 6 c1 P([0, 6]|c1 ) = 2/5
g1 ([0, 7]) = 1/9 0 7 c1 P([0, 7]|c1 ) = 1/5
g2 ([0, 7]) = 2/9 1 6 c1 P([1, 6]|c1 ) = 2/5
[0, 7] ∈ c2 1 6 c1 P([1, 7]|c1 ) = 0
0 7 c2
g1 ([1, 6]) = 2/9
0 7 c2 P([0, 6]|c2 ) = 0
g2 ([1, 6]) = 2/9
[1, 6] ∈ c1 (regra para empates) 1 6 c2 P([0, 7]|c2 ) = 2/4
1 6 c2 P([1, 6]|c2 ) = 2/4
g1 ([1, 7]) = 0 P([1, 7]|c2 ) = 0
g2 ([1, 7]) = 0
[1, 7] ∈ c1 (regra para empates)

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 13 / 46


Limitações da classificação Bayesiana

• Qual a classificação para [1,7] ou [1,8]?


• Nem sempre o conjunto de treino contém todas as combinações
possíveis.
• É necessário ter vários exemplos de cada uma das combinações
possíveis.
• Este número pode ser muito grande. Ex.: 4 atributos cada um com 3
valores possíveis = 81 combinações. Vários exemplos de cada
combinação (ex. uma média de 100, teríamos 8.100 exemplos). Para
uma base mais complicada...
• É preciso uma forma mais flexível para estimar a probabilidade.
• O método Naive Bayes assume independência das variáveis. Nem
sempre as variáveis são realmente independentes, mas isto permite
calcular estimar a probabilidade onde antes não era possível.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 14 / 46


Independência de variáveis

• Alguns vetores podem não ocorrer no conjunto de treino obtendo


probabilidade zero para toda as classes, ex.P([1, 7]|c1 ) = 0 e
P([1, 7]|c2 ) = 0.
• Se o valor de uma v.a. independe da outra v.a. então é dito que
essas variáveis aleatórias são independentes:

P(A|B) = P(A).

• Na regra do produto obtém-se:

P(A, B) = P(A|B)P(B) = P(A)P(B).

• Para múltiplas variáveis:


n
Y
P(A1 , . . . , An ) = P(A1 ) × . . . × P(An ) = P(Ai ).
i=1

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 15 / 46


Naive Bayes

• Abordagem do Naive Bayes: assumir independência das dos


atributos.
• Permite estimar a probabilidade por classe resolvendo o problema
do valor nulo na função discriminante para toda as classes:
m
Y
gi (x) = P(ci ) P(xk |ci ),
k=1

em que x = [x1 , . . . , xm ]T é o vetor de atributos de um exemplo.


• Regra de decisão Bayesiana utilizando a função discriminante:
atribua x à classe ci para a qual a função discriminante é máxima.

x ∈ ci se gi (x) > gj (x), i , j.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 16 / 46


Exemplo: Weather

Classifique x1 = [sunny, cool, high, strong]


gyes (x1 ) = P(yes)P(sunny|yes)P(cool|yes)P(high|yes)P(strong|yes) = 0, 0053;
gno (x1 ) = P(no)P(sunny|no)P(cool|no)P(high|no)P(strong|no) = 0, 0206;
P(no|x1 ) = 0, 0206/(0, 0206 + 0, 0053) = 79, 5%.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 17 / 46


Classificação com Naive Bayes
m
Y
gi (x) = P(ci ) P(xk |ci ).
k=1

g1 ([0, 6]) = P(c1 )P(0|c1 )P(6|c1 ) P(c1 ) = 5/9


g1 ([0, 6]) = 59 35 45 = 0, 27 X1 X2 Y P(c2 ) = 4/9
g2 ([0, 6]) = 0, 11 0 6 c1
[0, 6] ∈ c1 (classifique como c1 ) 0 6 c1 P(X1 = 0|c1 ) = 3/5
0 7 c1 P(X1 = 1|c1 ) = 2/5
g1 ([0, 7]) = 0, 07
1 6 c1 P(X2 = 6|c1 ) = 4/5
g2 ([0, 7]) = 0, 11
[0, 7] ∈ c2 1 6 c1 P(X2 = 7|c1 ) = 1/5
0 7 c2
g1 ([1, 6]) = 0, 18 0 7 c2 P(X1 = 0|c2 ) = 2/4
g2 ([1, 6]) = 0, 11 1 6 c2 P(X1 = 1|c2 ) = 2/4
[1, 6] ∈ c1 (*antes dava empate) 1 6 c2 P(X2 = 6|c2 ) = 2/4
P(X2 = 7|c2 ) = 2/4
g1 ([1, 7]) = 0, 04
g2 ([1, 7]) = 0, 11
[1, 7] ∈ c2 (*antes g1 = g2 = 0)
Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 18 / 46
Estimando probabilidades

Estimação para dados abundantes:


nxk ci
P(xk |ci ) = P(X = xk |C = ci ) = ,
n ci

nxk ci é o número de vezes que ocorre X = xk eC = ci , e nci é o número de


vezes que ocorre C = ci .
Se algum P(xk |ci ) = 0 então gi = 0 no Naive Bayes.
Estimativa para poucos exemplos:

nxk ci + 1
P(xk |ci ) = ,
nci + nX

em que nX é o número de valores distintos para X .

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 19 / 46


Classificação de texto

• Naive Bayes foi uma das primeira técnicas utilizada com sucesso
para classificação de texto e ainda é amplamente utilizada.
• Bag of Words (BoW): extração de características.
• É construído um dicionário com todas as plavras
• Cada palavra do dicionário é um atributo.
• BoW transforma um texto em um vetor binário indicando se o texto
contém ou não determinada palavra.
• Gera vetores muito longos (muitas palavras).
• Outras técnicas simples para classificação de texto: contagem de
palavras, TF, IDF, n − grams, remoção de stop word, etc.
Weka 3.6. IDF – the word frequencies in a document should be transformed into: fij ∗ log(num of Docs/num of Docs with word i) where

fij is the frequency of word i in document (instance) j. TF – Sets whether if the word frequencies should be transformed into: log(1 + fij ),

where fij is the frequency of word i in document (instance) j.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 20 / 46


Classificação de texto
opiniao.arff (arquivo no formato para o Weka)
@relation opiniao

@attribute opinião string


@attribute classe {pos,neg}

@data
’Os funcionários são muito atenciosos e prestativos. O ambiente é li
’Atenderam minhas solicitações rapidamente. O ambiente é muito limpo
’Banheiro limpo e funcionários atenciosos.’,pos
’Fui atendido rapidamente e achei o quarto confortável.’,pos
’Limpo e confortável.’,pos
’O banheiro é sujo e não tem toalhas.’,neg
’O quarto estava sujo quando chegamos.’,neg
’O quarto era escuro e não havia janelas.’,neg
’Não gostei do café da manhã. Haviam poucas opções no bufffet.’,neg
’Achei o ambiente sujo e não gostei do café da manhã.’,neg

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 21 / 46


Extraindo bag-of-words

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 22 / 46


Transformando as características numéricas para
categóricas (nominais)

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 23 / 46


Classificando com weka
Experimento 10-fold cross validation

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 24 / 46


Parte do modelo treinado

=== Classifier model (full training set) ===

Naive Bayes Classifier

Class
Attribute pos neg
(0.5) (0.5)
===========================
limpo
0 3.0 6.0
1 4.0 1.0
[total] 7.0 7.0

sujo
0 6.0 3.0
1 1.0 4.0
[total] 7.0 7.0

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 25 / 46


Resultados - Naive Bayes

=== Stratified cross-validation ===


=== Summary ===

Correctly Classified Instances 8 80 %

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure R


1 0.4 0.714 1 0.833
0.6 0 1 0.6 0.75
Weighted Avg. 0.8 0.2 0.857 0.8 0.792

=== Confusion Matrix ===

a b <-- classified as
5 0 | a = pos
2 3 | b = neg

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 26 / 46


Árvores de Decisão (ID3) treinada

=== Classifier model (full training set) ===

Id3

limpo = 0
| confortável = 0: neg
| confortável = 1: pos
limpo = 1: pos

=== Confusion Matrix ===

a b <-- classified as
3 2 | a = pos
1 4 | b = neg

Correctly Classified Instances 7 70 %

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 27 / 46


Densidade e massa

• Quando os atributos são categóricos (nominais), suas probabilidade


são definidas em termos de funções de massa de probabilidade.
Esta função define uma probabilidade para cada possível valor de
atributo. (É comum utiliza-se P(X), com P maiúsculo, para definir uma
função de massa)
• Quando os atributos são numéricos, suas probabilidades são
definidas em termos de função densidade de probabilidade (FDP).
A probabilidade é estimada para um determinado intervalo numérica
como a integral da FDP neste intervalo. (É comum utiliza-se p(x),
com p minúsculo, para definir uma densidade.)
Z a+
p(x = a) = p(x)dx. (1)
a−

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 28 / 46


Densidade Normal

• É uma das funções de densidade mais utilizadas.


• Tem uma forma de sino.
• É definida em função da média µ e do desvio padrão σ.
• N(µ, σ) é a notação padrão.

(x − µ)2
!
1
p(x) = √ exp − . (2)
2πσ 2σ2

v
n n
t
1X 1 X
µ= xi , σ= (xi − µ)2 .
n i=1 n − 1 i=1

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 29 / 46


Gráfico de uma Densidade Normal univariada
N(µ, σ)

Fonte: Wikipedia
Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 30 / 46
Desvio padrão
Quanto maior o desvio padrão, mais larga a curva.
A média é o ponto mais alto da curva.
Case C (PCA transformed data)
12 Horizontal Axis distribution

10
1
Vertical Axis (2nd feature)

8 0.5

6 0
−5 0 5 10
4 Vertical Axis distribution
2 1
Class 1
0 Class 2 0.5
−4 −2 0 2 4 6 8
0
Horizontal Axis (1st feature) −5 0 5 10

Fonte: Tiago B. A. de Carvalho et al. (2017) Principal Component Analysis for Supervised Leaning: a Minimum Classification Error

Approach. (to appear.)


Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 31 / 46
Classificação de texto com BoW utilizando atributos
numéricos

Attribute pos neg


(0.5) (0.5)
=============================
limpo
As probabilidades são mean 0.2 0
estimadas utilizando std. dev. 0.4 0.1667
densidades normais, weight sum 5 5
precision 1 1
calculando a média e o
desvio padrão a partir dos sujo
dados. Parte do modelo: mean 0 0.6
std. dev. 0.1667 0.4899
weight sum 5 5
precision 1 1

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 32 / 46


Classificação de texto com BoW utilizando atributos
numéricos
Resultados

=== Stratified cross-validation ===


=== Summary ===

Correctly Classified Instances 10 100 %


Incorrectly Classified Instances 0 0 %
Total Number of Instances 10

=== Confusion Matrix ===

a b <-- classified as
5 0 | a = pos
0 5 | b = neg

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 33 / 46


Densidade Normal Multivariada

• A densidade multivariada é utilizada para representar variáveis com


múltiplas dimensões (vetores de atributos numéricos)
diferentemente da densidade univariada, que representa uma
variável por vez.
• Não necessita empregar a abordagem do Naive Bayes (assumir que
as variáveis são independentes), pois a dependência das variáveis
é modelada pela matriz de covariância Σ.

!
1 1
p(x) = exp − (x − µ)T Σ−1 (x − µ) , (3)
(2π)d/2 |Σ|1/2 2

n n
1 X 1 X
µd×1 = xi , Σd×d = (xi − µ)(xi − µ)T .
n − 1 i=1 n − 1 i=1

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 34 / 46


Gráfico de uma Densidade Normal Multivariada
N(µ, Σ)

Fonte: <http://www.personal.reading.ac.uk/~sis01xh/teaching/CY2D2/Pattern2.pdf>

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 35 / 46


Estimação não-paramétrica de probabilidades

Fonte: <http://research.cs.tamu.edu/prism/lectures/pr/pr_l7.pdf>, <http://psi.cse.tamu.edu/teaching/lecture_notes/>

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 36 / 46


Estimação não-paramétrica de probabilidades

Duas abordagens comuns:

• Discretização de variáveis
• Abordagem mais simples.
• Transforma a variável numérica em categórica.
• Define intervalos e dá um rótulo para cada intervalo.
• Calcula a probabilidade para a variável categórica.
• Análogo à construção de histogramas.
• Janela de Parzen
• Centra uma janela em torno do ponto para o qual se quer estimar a
densidade.
• A probabilidade é uma função dos vizinhos.
• Pode considerar todos os pontos no conjunto de treino como vizinhos,
com peso para cada ponto como uma função da distância ao ponto
em questão.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 37 / 46


Discretização de variáveis
Eixo X: cada exemplo do conjunto de treino.
Eixo Y: o valor da variável.
Gráfico de cima: variável contínua no intervalo [-0.443097; 4.857738].
Gráfico de baixo: variável discretizada para {0, 1, 2}.
x0 = 0, se x ∈ [−1, 1]; x0 = 1, se x ∈ (1, 3]; x0 = 2, se x ∈ (3, 5].

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 38 / 46


Histograma (Discretização de variáveis)

Para estimar a função de massa de probabilidade. Histogramas com 3 e


com 30 intervalos, respectivamente. Calculado a partir dos pontos
discretizados anteriormente (3 intervalos) e utilizando nova discretização
(30 intervalos).

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 39 / 46


Janela de Parzen

“Estimação das densidades utilizando histograma, isto é, a função de


probabilidade de massa calculada após a discretização (esquerda), e
janela de Pazend (direita) para o mesmo conjunto de dados. Os kernels
para 6 exemplos (marcas pretas no eixo x) estão pontilhados de vermelho,
a densidade em azul.” Fonte: <https://en.wikipedia.org/wiki/Kernel_density_estimation>
Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 40 / 46
Janela de Parzen
Estimando a densidade, h é análogo a largura da barra (intervalo) no
histograma, φ é a função de kernel, n é o número de exemplos:
 n 
1  1 X  xi − x 
p̂(x) =  φ , (4)
h n i=1 h 
Kernel retangular (conta os elementos dentro da janela):
(
1, se|a| ≤ 1/2
φ(a) = (5)
0, caso contrátrio
Kernel gaussiano (suave, atribui um peso maior ao elementos mais próximos):
a2
!
1
φ(a) = √ exp − . (6)
2π 2

Fonte: <http://research.cs.tamu.edu/prism/lectures/pr/pr_l7.pdf>, <http://psi.cse.tamu.edu/teaching/lecture_notes/>

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 41 / 46


Largura da janela

Quando menor h, a
largura da janela,
demanda-se mais
exemplos para uma
estimação precisa.
Quando h é grande
demais pode eliminar
detalhes reais dos
dados.

Fonte: Duda et al. 2000.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 42 / 46


Largura da janela - Kernel Gaussiano
Para os dados usados no exemplo de discretização.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 43 / 46


Largura da janela - Kernel Retangular
Para os dados usados no exemplo de discretização.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 44 / 46


Resumo

• Probabilidades a partir dos dados.


• Classificação Bayesiana.
• Naive Bayes.
• Massa (atributos categóricos) e Densidade (atributos numéricos)
• Estimação de probabilidades.
• Discretização e Janela de Parzen.
• Classificação de texto.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 45 / 46


Referências

• Thomas M. Mitchell. (1997). Machine Learning (1 ed.). McGraw-Hill,


Inc., New York, NY, USA. (Capítulo 6)
• Sergios Theodoridis and Konstantinos Koutroumbas (2008). Pattern
Recognition, Fourth Edition (4th ed.). Academic Press. (Capítulo 2)
• Eibe Frank, Mark A. Hall, and Ian H. Witten (2016). The WEKA
Workbench. Online Appendix for "Data Mining: Practical Machine
Learning Tools and Techniques", Morgan Kaufmann, Fourth Edition.
• Richard O. Duda, Peter E. Hart, David G. Stork (2000). Pattern
Classification, 2nd ed. Wiley.

Tiago B. A. de Carvalho Aprendizagem de Máquina Naive Bayes 46 / 46

Você também pode gostar