Escolar Documentos
Profissional Documentos
Cultura Documentos
pginas da web em seu ndice que contm a china termo num sentido
diferente (por exemplo, referindo-se a uma cermica branca dura), mas
no inclui pginas relevantes, mesmo que eles no mencionam
explicitamente o termo China .
Por fim, a funo de classificao na recuperao de informao ad hoc
tambm pode ser baseada em um classificador documento como
explicaremos na Seo 15.4 (pgina ).
Esta lista mostra a importncia geral de classificao no IR. A maioria dos
sistemas de recuperao de hoje contm vrios componentes que usam algum
tipo de classificador. A tarefa de classificao, vamos utilizar como exemplo
neste livro a classificao de texto.
Um computador no essencial para a classificao. Muitas tarefas de
classificao tm sido tradicionalmente resolvido manualmente. Livros em
uma biblioteca so atribudos Library of Congress categorias por um
bibliotecrio. Mas classificao manual caro escala. O exemplo chips de
computador multicondutor ilustra uma abordagem alternativa: classificao
pelo uso de consultas permanentes - o que pode ser pensado como regras mais comumente escrito mo. Como em nosso exemplo (multicore ou multicore) e (chip ou processador ou microprocessador), as regras so, por vezes,
equivalente a expresses booleanas.
A regra capta uma certa combinao de palavras-chave que indica uma
classe. Regras de mo-codificado tm boas propriedades de escala, mas a
criao e manuteno ao longo do tempo um trabalho intensivo. Uma pessoa
tecnicamente qualificada (por exemplo, um especialista de domnio que bom
em escrever expresses regulares) pode criar conjuntos de regras que iro
rivalizar ou exceder a preciso dos classificadores gerados automaticamente
vamos discutir em breve; no entanto, pode ser difcil encontrar algum com
esta habilidade especializada.
Alm da classificao manual e regras artesanais, h uma terceira abordagem
da classificao de texto, a classificao de texto ou seja, baseado no
aprendizado de mquina. a abordagem que nos concentramos em nos
prximos captulos. Na aprendizagem de mquina, o conjunto de regras ou,
mais geralmente, o critrio de deciso do classificador de texto, aprendido
automaticamente a partir de dados de treinamento. Esta abordagem tambm
chamada classificao de textos estatstica se o mtodo de aprendizagem
estatstica. Na classificao texto estatstica, necessrio um nmero de bons
exemplos de documentos (ou documentos de treinamento) para cada classe. A
necessidade de classificao manual no eliminada, pois os documentos de
treinamento vem de uma pessoa que tem marcado-los - onde rotulagem referese ao processo de anotar cada documento com a sua classe. Mas rotulagem
sem dvida uma tarefa mais fcil do que escrever regras. Quase qualquer um
pode olhar para um documento e decidir se ou no est relacionada com a
China. s vezes, essa rotulagem j est implicitamente parte de um fluxo de
trabalho existente. Por exemplo, voc pode ir atravs dos artigos de notcias
retornados por uma consulta de p todas as manhs e dar feedback relevante
(cf. Captulo 9 ), movendo os artigos relevantes para uma pasta especial
como multicore-processadores .
Comeamos este captulo com uma introduo geral ao problema de
classificao de texto, incluindo uma definio formal (Seo 13.1 ); Ns,
ento, cobrir Naive Bayes, um mtodo de classificao particularmente
simples e eficaz (Sees 13.2 - 13.4 ). Todos os algoritmos de classificao
que estudam representam documentos em espaos elevados-dimensional. Para
melhorar a eficincia desses algoritmos, geralmente desejvel reduzir a
dimenso destes espaos; para o efeito, uma tcnica conhecida como seleo
de recurso comumente aplicado na classificao texto como discutido na
Seo13.5 . Seo 13,6 abrange avaliao de classificao de textos. Nos
prximos captulos, os captulos 14 15 , olhamos para outras duas famlias de
mtodos de classificao, vetor classificadores espao e mquinas de vetor de
suporte.
Subseces
O problema de classificao de texto
Naive Bayes classificao texto
o Relao com o modelo de linguagem unigram multinomial
O modelo de Bernoulli
Propriedades de Naive Bayes
o A variante do modelo multinomial
Seleo de caractersticas
o A informao mtua
(123)
Agora deve ser mais claro por que ns introduzimos o espao documento na
Equao 112 quando definimos o problema de classificao. Um passo crtico
na resoluo de um problema de classificao de texto escolher a
representao do documento. e duas representaes diferentes de
documentos. No primeiro caso, o conjunto de todas as sequncias de
durao (ou, mais precisamente, as sequncias de smbolos de longa
durao). No segundo caso, .
Ns no podemos usar e 125 para a classificao de texto diretamente. Para o
modelo de Bernoulli, teramos para estimar parmetros diferentes, um para
cada combinao possvel de valores e uma classe. O nmero de parmetros
no caso multinominal tem a mesma ordem de grandeza. Esta sendo uma
quantidade muito grande, estimando-se estes parmetros com fiabilidade
invivel.
com
onde
com
modelo multinomial
Modelo de Bernoulli
gerao de sinal
gerao de documento
estimao de
parmetros
regra de deciso:
maximizar
vrias
ocorrncias
tidas em conta
ignorados
# caractersticas
estimativa para o
termo
Tabela 13.4: estimativa correta implica previso exata, mas a previso precisa no
implica estimativa correta.
classe
selecionada
verdadeira probabilidade
(Equao 126 )
0,6
0,4
0,00099 0,00001
0.99
Estimativa NB
0,01
com verdadeiras
como mostrado na
Mesmo que isso no o mtodo com a mais alta preciso para o texto, NB
tem muitas virtudes que o tornam um forte candidato para a classificao de
texto. excelente, se h muitas caractersticas igualmente importantes que
contribuem conjuntamente para a deciso de classificao. tambm um
pouco robusto para caractersticas de rudo (como definido na prxima
seco) e conceito deriva - A mudana gradual ao longo do tempo do conceito
subjacente a uma classe como presidente dos Estados Unidos de Bill Clinton a
George W. Bush (ver seco 13.7 ). Classificadores como kNN KNN pode ser
cuidadosamente ajustada s propriedades idiossincrticas de um determinado
perodo de tempo. Este, ento, prejudic-los quando os documentos no
seguinte perodo de tempo tm propriedades ligeiramente diferentes.
O modelo de Bernoulli particularmente robusta em relao ao conceito de
drift. Vamos ver na Figura 13.8 que pode ter um desempenho decente quando
(2)
(3)
Subseces
A variante do modelo multinomial
http://nlp.stanford.edu/IR-book/html/htmledition/properties-of-naive-bayes1.html