Escolar Documentos
Profissional Documentos
Cultura Documentos
Mineração de Dados
Prof. Renê Veloso
rene.veloso@unimontes.br
Classificação Textual
Qual é o assunto ?
|V| = d = 6
Modelos de Documentos
●
Dado um vocabulário V, contendo |V| tipos de palavras, então o vetor de
características possui dimensão d=|V|
– Multinomial:
Modelo de Bernoulli
● Considere um documento D cuja classe é
dada por C
– Classificamos D com a mais alta probabilidade
a posteriori P(C | D)
Probabilidades a priori:
Contagem de palavras:
Modelo de Bernoulli
● Solução:
Probabilidades estimadas:
Modelo de Bernoulli
● Solução:
Classificamos os dois vetores:
● Vantagens?
– Reduz a dimensão dos dados
– Torna o treinamento mais rápido
– Melhora o desempenho (acurácia) removendo ruídos
● Ruídos aumentam o erro de classificação
– Evita overfitting
● Isto é, melhora a generalização !
Como selecionar os
melhores termos?
● “Feature Selection”
Onde os N's são contagens dos documentos que têm os valores de et e ec indicados pelos
números 0 e 1 em cada um.
Por exemplo, N10 é o número de documentos que contêm t (et = 1) e não estão em c (ec = 0).
N1. = N10 + N11 é o número de documentos que contêm t (et = 1).
N.1 = N01 + N11 é o número de documentos que estão em c (ec = 1).
N é o total de documentos, isto é, N = N00 + N01 + N10 + N11
Como selecionar os
melhores termos?
● Exemplo:
– Considere a classe poultry e a palavra export.
– A contagem do número de documentos com as
4 possíveis combinações de valores são:
Como selecionar os
melhores termos?
● Exemplo:
– Considere a classe poultry e a palavra export.
– Plugando os termos na equação:
Como selecionar os
melhores termos?
● Mutual Information (MI)
– Mede quanta informação um termo contém sobre a classe.
– Se a distribuição de um termo é a mesma na classe e na
coleção como um todo, então I(U;C) = 0
– MI alcança seu valor máximo se o termo é um indicador
perfeito para a classe.
● Isto é: se o termo está presente em um documento se e somente
se o documento está na classe.
– O QUE FAZER?
Trabalho Prático
● Por exemplo, queremos classificar o post: