Você está na página 1de 13

Classificao Texto e Naive Bayes

At agora, este livro tem discutido, principalmente, o processo


de recuperao ad hoc , onde os usurios tm informao transitria precisa
que eles tentam resolver colocando um ou mais consultas para um motor de
busca. No entanto, muitos usurios tm necessidades de informao em
curso. Por exemplo, voc pode precisar para acompanhar a evoluo chips
multicore. Uma maneira de fazer isso a emisso do multicore consulta e
computador e chip contra um ndice de artigos recentes Newswire todas as
manhs. Neste e nos dois captulos seguintes vamos examinar a pergunta:
Como pode esta tarefa repetitiva ser automatizado? Para este fim, o apoio
muitos sistemas consultas permanentes . Uma consulta permanente como
qualquer outra consulta, exceto que ele periodicamente executado em uma
coleo para que novos documentos so adicionados gradualmente ao longo
do tempo.
Se a sua consulta permanente apenas multicore e computador e chip, voc
tender a perder muitos artigos novos relevantes que utilizam outros termos
tais como processadores multicore. Para conseguir uma boa recordao, as
consultas permanentes, assim, tem que ser aperfeioado ao longo do tempo e
podem tornar-se progressivamente bastante complexa. Neste exemplo, usando
um motor de busca booleana com decorrentes, voc pode acabar com uma
consulta como (multicore ou multi-core) e (chip ou processador ou
microprocessador).
Para capturar a generalidade e abrangncia do espao do problema ao qual
pertencem as consultas em p, agora introduzir a noo geral de
uma classificao problema. Dado um conjunto de aulas , buscamos
determinar qual classe (es) de um determinado objeto pertence. No exemplo, a
consulta permanente serve para dividir novos artigos Newswire para as duas
classes: documentos sobre chips de computadores multicore e documentos
no sobre chips de computadores multicore. Ns nos referimos a isso como a
classificao de duas classes . Classificao usando consultas em p tambm
chamadoencaminhamento ou filtragem e ser discutida na
Seo 15.3.1 (pgina ).
A classe no precisa ser to estreitamente focada como a consulta permanente
chips multicore. Muitas vezes, uma classe uma rea mais geral assunto como
China ou caf. Tais classes mais gerais so geralmente referidos
como tpicos , ea tarefa de classificao ento chamado classificao de
textos , categorizao de textos , classificao tpico , ou tpico
manchas . Um exemplo para a China aparece na Figura 13.1 . Consultas em
p e temas diferem em seu grau de especificidade, mas os mtodos de

resoluo de roteamento, filtragem e classificao de texto so essencialmente


os mesmos. Ns, portanto, incluir roteamento e filtragem sob a rubrica de
classificao de textos neste e nos prximos captulos.
A noo de classificao muito geral e tem muitas aplicaes, dentro e fora
de recuperao de informao (IR). Por exemplo, na viso de computador, um
classificador pode ser usado para dividir imagens em classes, tais como
paisagem, retrato, e nenhum dos dois. Ns nos focamos em exemplos de
recuperao de informaes, tais como:
Vrios dos pr-processamento os passos necessrios para a indexao
como discutido no Captulo 2 : deteco de codificao de um
documento (ASCII, Unicode UTF-8 etc; pgina 2.1.1 );segmentao de
palavras ( o espao em branco entre duas letras de uma palavra ou no
a pgina 24?); truecasing (pgina 2.2.3 ); e identificar o idioma de um
documento (pgina 2.5 ).
A deteco automtica de de spam pginas (que no so includos no
ndice motor de busca).
A deteco automtica de contedo sexualmente explcito (que est
includo nos resultados da pesquisa somente se o usurio vira uma
opo como SafeSearch off).

Deteco Sentiment ou a classificao automtica de uma reviso de


filme ou produto como positivo ou negativo. Um exemplo de aplicao
um usurio procurar por comentrios negativos antes de comprar uma
cmera para ter certeza que no tem caractersticas indesejveis ou
problemas de qualidade.

Pessoal triagem de e-mail . Um usurio pode ter pastas como anncios


de entrevistas, notas fiscais eletrnicas, e-mail da famlia e dos amigos,
e assim por diante, e pode querer um classificador para classificar cada
e-mail recebido e automaticamente mov-lo para a pasta apropriada.
mais fcil encontrar mensagens em pastas ordenadas do que em uma
grande caixa de entrada. O caso mais comum desta aplicao
um Spam pasta que contm todas as suspeitas de mensagens de spam.
De tpicos especficos ou verticais de busca. Motores de busca
verticais restringir as pesquisas para um determinado tpico. Por
exemplo, a cincia da computao consulta em um motor de busca
vertical para o tpico China ir retornar uma lista de chineses
departamentos de informtica com maior preciso e recordao do que
a cincia da computao consulta China em um motor de busca de
propsito geral. Isso ocorre porque o motor de busca vertical no inclui

pginas da web em seu ndice que contm a china termo num sentido
diferente (por exemplo, referindo-se a uma cermica branca dura), mas
no inclui pginas relevantes, mesmo que eles no mencionam
explicitamente o termo China .
Por fim, a funo de classificao na recuperao de informao ad hoc
tambm pode ser baseada em um classificador documento como
explicaremos na Seo 15.4 (pgina ).
Esta lista mostra a importncia geral de classificao no IR. A maioria dos
sistemas de recuperao de hoje contm vrios componentes que usam algum
tipo de classificador. A tarefa de classificao, vamos utilizar como exemplo
neste livro a classificao de texto.
Um computador no essencial para a classificao. Muitas tarefas de
classificao tm sido tradicionalmente resolvido manualmente. Livros em
uma biblioteca so atribudos Library of Congress categorias por um
bibliotecrio. Mas classificao manual caro escala. O exemplo chips de
computador multicondutor ilustra uma abordagem alternativa: classificao
pelo uso de consultas permanentes - o que pode ser pensado como regras mais comumente escrito mo. Como em nosso exemplo (multicore ou multicore) e (chip ou processador ou microprocessador), as regras so, por vezes,
equivalente a expresses booleanas.
A regra capta uma certa combinao de palavras-chave que indica uma
classe. Regras de mo-codificado tm boas propriedades de escala, mas a
criao e manuteno ao longo do tempo um trabalho intensivo. Uma pessoa
tecnicamente qualificada (por exemplo, um especialista de domnio que bom
em escrever expresses regulares) pode criar conjuntos de regras que iro
rivalizar ou exceder a preciso dos classificadores gerados automaticamente
vamos discutir em breve; no entanto, pode ser difcil encontrar algum com
esta habilidade especializada.
Alm da classificao manual e regras artesanais, h uma terceira abordagem
da classificao de texto, a classificao de texto ou seja, baseado no
aprendizado de mquina. a abordagem que nos concentramos em nos
prximos captulos. Na aprendizagem de mquina, o conjunto de regras ou,
mais geralmente, o critrio de deciso do classificador de texto, aprendido
automaticamente a partir de dados de treinamento. Esta abordagem tambm
chamada classificao de textos estatstica se o mtodo de aprendizagem
estatstica. Na classificao texto estatstica, necessrio um nmero de bons
exemplos de documentos (ou documentos de treinamento) para cada classe. A
necessidade de classificao manual no eliminada, pois os documentos de
treinamento vem de uma pessoa que tem marcado-los - onde rotulagem referese ao processo de anotar cada documento com a sua classe. Mas rotulagem

sem dvida uma tarefa mais fcil do que escrever regras. Quase qualquer um
pode olhar para um documento e decidir se ou no est relacionada com a
China. s vezes, essa rotulagem j est implicitamente parte de um fluxo de
trabalho existente. Por exemplo, voc pode ir atravs dos artigos de notcias
retornados por uma consulta de p todas as manhs e dar feedback relevante
(cf. Captulo 9 ), movendo os artigos relevantes para uma pasta especial
como multicore-processadores .
Comeamos este captulo com uma introduo geral ao problema de
classificao de texto, incluindo uma definio formal (Seo 13.1 ); Ns,
ento, cobrir Naive Bayes, um mtodo de classificao particularmente
simples e eficaz (Sees 13.2 - 13.4 ). Todos os algoritmos de classificao
que estudam representam documentos em espaos elevados-dimensional. Para
melhorar a eficincia desses algoritmos, geralmente desejvel reduzir a
dimenso destes espaos; para o efeito, uma tcnica conhecida como seleo
de recurso comumente aplicado na classificao texto como discutido na
Seo13.5 . Seo 13,6 abrange avaliao de classificao de textos. Nos
prximos captulos, os captulos 14 15 , olhamos para outras duas famlias de
mtodos de classificao, vetor classificadores espao e mquinas de vetor de
suporte.

Subseces
O problema de classificao de texto
Naive Bayes classificao texto
o Relao com o modelo de linguagem unigram multinomial

O modelo de Bernoulli
Propriedades de Naive Bayes
o A variante do modelo multinomial

Seleo de caractersticas
o A informao mtua

Recurso de seleo selectionChi2 Caracterstica


Avaliar como uma seleo de recursos
methodAssessing qui-quadrado como um mtodo de
seleo de recursos

o Seleo de recursos baseados em Frequncia


o A seleo de caractersticas de vrios classificadores
o Comparao de mtodos de seleo de recurso

Avaliao de classificao texto


Referncias e leituras

Seguinte: O problema de classificao de


texto Up: irbook Anterior: Referncias e leitura mais Contedo ndice
2008 Cambridge University Press
Esta uma pgina gerada automaticamente. Em caso de erros de formatao
que voc pode querer olhar para a edio PDF do livro.
2009-04-07

Propriedades de Naive Bayes


Para obter uma melhor compreenso dos dois modelos e os pressupostos que
fazem, vamos voltar e examinar como ns derivada suas regras de
classificao nos captulos 11 12 . Ns decidir a adeso da classe de um
documento, atribuindo-o classe com a probabilidade (cf. probtheory), que se
calcula como se segue:
(121)
(122)

(123)

em que a regra de Bayes (Equao 59 , pgina 59 ) aplicada em ( 122 ) e


que solte o denominador no ltimo passo, porque
as classes e no afecta o argmax.

a mesma para todas

Podemos interpretar Equao 123 como uma descrio do processo generativo


assumimos na classificao texto Bayesian. Para gerar um documento,
primeiro escolher classe com probabilidade
(ns superiores em
e 13,5 ). Os dois modelos diferem na formalizao do segundo passo, a
gerao do documento dado a classe, que corresponde distribuio
condicional :
(124)
(125)

onde a seqncia de termos como ocorre em (menos os termos que foram


excludas do vocabulrio) e um vetor binrio de dimensionalidade que
indica para cada termo se ele ocorre em ou no.

Agora deve ser mais claro por que ns introduzimos o espao documento na
Equao 112 quando definimos o problema de classificao. Um passo crtico
na resoluo de um problema de classificao de texto escolher a
representao do documento. e duas representaes diferentes de
documentos. No primeiro caso, o conjunto de todas as sequncias de
durao (ou, mais precisamente, as sequncias de smbolos de longa
durao). No segundo caso, .
Ns no podemos usar e 125 para a classificao de texto diretamente. Para o
modelo de Bernoulli, teramos para estimar parmetros diferentes, um para
cada combinao possvel de valores e uma classe. O nmero de parmetros
no caso multinominal tem a mesma ordem de grandeza. Esta sendo uma
quantidade muito grande, estimando-se estes parmetros com fiabilidade
invivel.

Para reduzir o nmero de parmetros, fazemos a Naive Bayes pressuposto de


independncia condicional . Ns assumimos que os valores de atributo so
independentes um do outro tendo em conta a classe:
(126)
(127)

Ns introduziram duas variveis aleatrias aqui para fazer os dois modelos


generativos diferentes explcito.
a varivel aleatria para a posio no
documento e toma como valores termos de vocabulrio. a probabilidade de
que num documento de classe o termo ir ocorrer em posio .
a varivel aleatria para o termo de vocabulrio e toma como valores
0 (ausncia) e 1 (presena). a probabilidade de que, em um documento de
classe o termo ocorrer - em qualquer posio e, possivelmente, vrias
vezes.

Figura 13.4: O modelo NB multinomial.

Figura 13.5: O modelo de Bernoulli NB.

Ns ilustramos a suposio de independncia condicional e 13,5 . A classe


China gera valores para cada um dos cinco atributos prazo (multinominais) ou
seis atributos binrios (Bernoulli) com uma certa probabilidade, independente
dos valores dos outros atributos. O fato de que um documento na classe China
contm o termo no Taipei no torn-lo mais provvel ou menos provvel que
ele tambm contm Pequim.

Na realidade, a suposio de independncia condicional no vlida para os


dados de texto. Termos so condicionalmente dependentes uns dos
outros. Mas, como vamos discutir em breve, modelos NB bom desempenho
apesar da suposio de independncia condicional.
Mesmo quando assumindo independncia condicional, ainda temos muitos
parmetros para o modelo multinomial se assumirmos uma distribuio de
probabilidades diferentes para cada posio no documento. A posio de um
termo em um documento por si s no leva informaes sobre a
classe. Embora haja uma diferena entre China processa Frana e Frana
processa China, a ocorrncia de China na posio 1 versus posio 3 do
documento no til na classificao NB porque olhamos para cada termo
separadamente. A suposio de independncia condicional nos compromete
com esta maneira de processar as provas.
Alm disso, se ns assumimos diferentes distribuies prazo para cada
posio , teramos de estimar um conjunto diferente de parmetros para
cada . A probabilidade de feijo aparecendo como o primeiro termo de um
documento de caf pode ser diferente da que aparece como o segundo termo, e
assim por diante. Este novo causa problemas na estimativa, devido escassez
de dados.
Por estas razes, ns fazemos uma segunda suposio de independncia para o
modelo multinomial, independncia posicional : As probabilidades
condicionais para um termo so o mesmo independente de posio no
documento.
(128)

para todas as posies , termos e classes . Assim, temos uma nica


distribuio de termos que vlido para todas as posies e podemos
usar como seu smbolo. independncia posicional equivalente a adotar
o
saco de palavras do modelo, que foi introduzido no contexto
de recuperao ad hoc no Captulo 6 (pgina 6.2 ).
Com pressupostos independncia condicional e posicionais, s precisamos de
estimar parmetros (modelo multinomial) ou (modelo Bernoulli), um para
cada combinao de classe prazo, em vez de um nmero que , no mnimo,
exponencial , o tamanho do vocabulrio. Os pressupostos independncia

reduzir o nmero de parmetros a ser estimado por vrias ordens de


grandeza.
Para resumir, podemos gerar um documento no modelo multinomial
(Figura 13.4 ), primeiro escolhendo uma classe

com

onde

um aleatrios valores tomada de variveis de como valores.Em seguida,


gerar prazo em posio com para cada uma das posies do
documento. A todos tm a mesma distribuio sobre os termos de um
determinado . No exemplo da figura 13.4 , que mostram a gerao de ,
correspondente ao documento de uma frase Pequim e Taipei juntar OMC.

Para um modelo de gerao de documentos completamente especificado,


tambm teria que definir uma distribuio ao longo do comprimento. Sem ele,
o modelo multinomial um modelo de gerao de token em vez de um
modelo de gerao de documentos.
Geramos um documento no modelo de Bernoulli (Figura 13.5 ), primeiro
escolhendo uma classe

com

e, em seguida, gerar um indicador

binrio para cada termo do vocabulrio ( ). No exemplo da Figura 13.5 ,


mostramos a gerao de , correspondendo, mais uma vez, com o documento
de uma frase Pequim e Taipei aderir OMC, onde assumimos que e uma
palavra stop.

Tabela 13.3: Multinomial contra modelo de Bernoulli.


modelo de
evento
varivel aleatria
(s)
representao do
documento

modelo multinomial

Modelo de Bernoulli

gerao de sinal

gerao de documento

sse ocorre em dado pos

sse ocorre em doc

estimao de
parmetros
regra de deciso:
maximizar
vrias
ocorrncias

tidas em conta

ignorados

comprimento de pode lidar com documentos mais


docs
longos

funciona melhor para docs


curtas

# caractersticas

funciona melhor com


menos

pode lidar com mais

estimativa para o
termo

Ns comparar os dois modelos na Tabela 13.3 , incluindo equaes de


estimao e regras de deciso.
Naive Bayes assim chamado porque os pressupostos de independncia que
acabamos de fazer realmente muito ingnuo para um modelo de linguagem
natural. A suposio de independncia condicional afirma que as
caractersticas so independentes um do outro tendo em conta a classe. Isso
quase nunca verdade para termos em documentos. Em muitos casos, o
oposto verdadeiro. Os pares de hong kong e ou em Londres e ingls na
Figura 13.7 so exemplos de termos altamente dependentes. Alm disso, o
modelo multinominal faz uma suposio de independncia posicional. O
modelo de Bernoulli ignora posies em documentos completamente porque
ele s se preocupa com a ausncia ou presena. Este bag-of-words modelo
descarta todas as informaes que lhe so comunicadas pela ordem das
palavras em frases em linguagem natural. Como pode NB ser um bom texto
classificador quando seu modelo de linguagem natural to simplista?

Tabela 13.4: estimativa correta implica previso exata, mas a previso precisa no
implica estimativa correta.
classe
selecionada
verdadeira probabilidade
(Equao 126 )

0,6

0,4

0,00099 0,00001

0.99

Estimativa NB

0,01

A resposta que, embora as estimativas de probabilidade de NB so de baixa


qualidade, as suas decises de classificao so surpreendentemente
bons. Considere-se um documento
probabilidades

com verdadeiras

como mostrado na

Tabela 13.4 . Suponha que contm muitos termos que so indicadores


positivos para
e muitos termos que so indicadores negativos para
. Assim, quando se utiliza o modelo multinominal na Equao 126 , ser
muito maior do que (0,00099 0,00001 vs. na tabela). Aps a diviso por 0,001
para obter probabilidades bem formados para , vamos acabar com uma
estimativa de que est perto de 1,0 e um que est prximo de 0,0. Isso
comum: A turma vencedora na classificao NB geralmente tem uma
probabilidade muito maior do que as outras classes e as estimativas divergem
de forma muito significativa a partir das verdadeiras probabilidades. Mas a
deciso de classificao baseado em qual classe recebe a maior
pontuao. No importa quo precisas as estimativas so. Apesar das
estimativas ruins, NB estima uma maior probabilidade de e, portanto, atribui
classe correta na Tabela 13.4 . estimativa correta implica previso exata, mas
a previso precisa no implica estimativa correta. classificadores NB estimar
mal, mas muitas vezes classificar bem.

Mesmo que isso no o mtodo com a mais alta preciso para o texto, NB
tem muitas virtudes que o tornam um forte candidato para a classificao de
texto. excelente, se h muitas caractersticas igualmente importantes que
contribuem conjuntamente para a deciso de classificao. tambm um
pouco robusto para caractersticas de rudo (como definido na prxima
seco) e conceito deriva - A mudana gradual ao longo do tempo do conceito
subjacente a uma classe como presidente dos Estados Unidos de Bill Clinton a
George W. Bush (ver seco 13.7 ). Classificadores como kNN KNN pode ser
cuidadosamente ajustada s propriedades idiossincrticas de um determinado
perodo de tempo. Este, ento, prejudic-los quando os documentos no
seguinte perodo de tempo tm propriedades ligeiramente diferentes.
O modelo de Bernoulli particularmente robusta em relao ao conceito de
drift. Vamos ver na Figura 13.8 que pode ter um desempenho decente quando

se utiliza menos de uma dzia termos. Os indicadores mais importantes para


uma classe menos provvel que altere. Assim, um modelo que apenas
depende dessas caractersticas mais susceptvel de manter um certo nvel de
preciso no conceito deriva.
O ponto forte da NB a sua eficincia: Formao e classificao pode ser
realizada com uma passagem sobre os dados. Porque combina eficincia com
boa preciso muitas vezes usado como base na pesquisa classificao
texto. Muitas vezes, o mtodo de escolha, se (i) espremendo para fora de
alguns pontos percentuais extras de preciso no vale a pena em um aplicativo
de classificao de textos, (ii) uma quantidade muito grande de dados de
treinamento est disponvel e no h mais a ganhar de treinamento em um
monte de dados do que usando um classificador melhor em um conjunto de
treinamento menor, ou (iii) se a sua robustez ao conceito de deriva pode ser
explorada.

Tabela 13.5: Um conjunto de documentos para que os pressupostos de independncia


NB so problemticos.
(1)

Ele se mudou de Londres, Ontrio, para Londres, Inglaterra.

(2)

Ele se mudou de Londres, Inglaterra, para Londres, Ontrio.

(3)

Ele se mudou da Inglaterra para Londres, Ontrio.

Neste livro, discutimos NB como um classificador para o texto. As premissas


de independncia no segure para o texto. No entanto, pode-se demonstrar que
a AN uma classificador ideal (No sentido de taxa de erro mnima em novos
dados) para dados onde os pressupostos de independncia se sustentam.

Subseces
A variante do modelo multinomial

Seguinte: Uma variante do Up: classificao Texto e Naive Anterior: Os


Bernoulli modelo ndice ndice
2008 Cambridge University Press
Esta uma pgina gerada automaticamente. Em caso de erros de formatao

que voc pode querer olhar para a edio PDF do livro.


2009-04-07

http://nlp.stanford.edu/IR-book/html/htmledition/properties-of-naive-bayes1.html

Você também pode gostar