Escolar Documentos
Profissional Documentos
Cultura Documentos
Captulo 23
Agenda
2
Introduo Modelo probabilstico de linguagem Gramtica probabilstica livre de contexto (GPLC) GPLC lexicalizada Recuperao de Informao Problemas de PLN Extrao de Informao Traduo automtica Estado da arte Aplicaes Referncias bibliogrficas
Introduo
3
Processamento probabilstico de linguagem tenta facilitar a localizao de informaes em textos escritos por seres humanos e para seres humanos; Essa abordagem utiliza estatstica e aprendizagem nos dados existentes e gera probabilidades para o uso de sentenas (modelo probabilstico).
Bigramas;
Trigramas.
Unigramas:
Atribui
probabilidade P(w) a cada palavra; A probabilidade de uma cadeia de palavras apenas o produto da probabilidade de cada palavra; logical are as are confusion a may right tries agent goal the was diesel more object then information-gathering search is
Bigramas:
A
probabilidade de cada palavra dada a palavra anterior. P(wi|wi -1) planning purely diagnostic expert systems are very similar computational approach would be represented compactly using tic tac toe a predicate
N-gramas:
Considera
n-1 palavras anteriores; P(wi|wi (n-1) ... wi 1); Trigramas planning and scheduling are integrated the success of naive Bayes model is just a possible prior source by that time.
Suavizao:
Conta
+ 1)/(N + B); N nmero de palavras; B bigramas possveis; c contagem real; (elimina a possibilidade de uma combinao de uma palavras nunca sair).
Suavizao:
Suavizao de interpolao linear Combinao dos modelos Unigramas, Bigramas e Trigramas. P(wi|wi 2 wi 1) = c3 P(wi|wi 2 wi 1)+ c2P(wi|wi -1)+ c1 P(w)
Mtodo de avaliao
Calcular Perplexidade
Quanto
modelo
N
2 ( 2
= Numero de palavras
Underflow: Erro de memoria, valor abaixo do esperado
Utiliza os formalismos gramaticais para gerar uma rvore de probabilidades de palavras; A probabilidade de uma cadeia, P(palavras), apenas a probabilidade de sua rvore; Para percorrer a rvore podemos utilizar:
Algoritmo
GPLC lexicalizadas
12
SV SV SN
cabea do SV (comer) SN cabea do SN (banana)
SV SV
Problemas no GPLC
de expectativas (EM)
14
Recuperao de Informao
a tarefa de encontrar informaes relevantes para as necessidade de informao de um usurio;
Recuperao de Informao
15
Caractersticas:
Uma
coleo de documentos; Uma consulta apresentada em uma linguagem de consulta; Um conjunto de resultados; Uma apresentao do conjunto de resultado;
Recuperao de Informao
16
modelo verdadeiro para a palavra em um documento se ela ocorre e falso se ela no ocorre; Simples; Mas, no apresenta grau de relevncia; Pouca familiaridade de usurios leigos com as excrees; Resultados ruim (muito especifica).
Recuperao de Informao
17
Modelagem de linguagem:
Tenta
P ( r | D, Q ) P(r | D) P ( r | D, Q ) P ( r | D , Q ) P ( r | D )
P ( r | D, Q ) P(r | D) P ( r | D, Q ) P ( r | D , Q ) P ( r | D )
18
r varivel booleana aleatria que indica Relevncia = verdadeiro A relevncia do documento D Documento independente da consulta pode ser dada pela quantidade de links Q Consulta que apontam para ele como (se
for um artigo) o numero de citaes do peridico
P ( r | D, Q ) P(r | D) P ( r | D, Q ) P ( r | D , Q ) P ( r | D )
19
Modelo de saco de palavras Utiliza unigrama para contar o numero de ocorrncias; Documentos com mais ocorrncias individuais so mais relevantes;
P(r | D, Q) jP(Qj | D, r )
Calcula a probabilidade de uma consulta dado um documento relevante multiplicado pela probabilidade das palavras na consulta
Recuperao de Informao
20
Refinamento de RI
Problema
Sistemas
Soluo
Utilizar
Dicionrio
de sinnimos;
Uso
Recuperao de Informao
21
Apresentao resultados:
At
Qual
do
conjunto
de
Realimentao
de agrupamentos de documentos;
Recuperao de Informao
22
Apresentao resultados:
do
conjunto
de
Classificao de documentos Problema de aprendizagem supervisionada Agrupamento de documentos Problema de aprendizagem no-supervisionada Agrupamentos aglomerativo Agrupamentos K-mdia
Recuperao de Informao
23
fazer uma pesquisa eficiente na web onde existem bilhes de documentos? Lxico
Lista
todas as palavras da coleo de documentos; Pode armazenar o nmero de ocorrncias; Utiliza lista de palavras ignorveis (o, de, ou);
ndice
Lista
o lugar em que cada palavra aparece (link); Para a busca de frases ele deve guardar a localizao da palavra no documento.
Recuperao de Informao
24
Como funciona:
Fazemos
uma busca no lxico para obter o endereo da lista de acertos; Em seguida percorremos a lista de acerto de cada documento e verificamos a contagem para cada documento.
Recuperao de Informao
25
Na prtica:
750.000
documentos totalizando 2 GB; Lxico contem 500.00 palavras 7 a 10 MB; Indicie invertido (documento, contagem) ocupa 324MB; O suporte a consulta de frases (e, ou, etc.) eleva o ndice Invertido a 1200 MB; Na Web existem cerca de 3.000 vezes mais documentos; Soluo: segmentao e distribuio de copias.
Problemas do PLN
26
Ambiguidade:
Eitcha Piula, Reiou... uh! Qual a dele??!
Problemas do PLN
27
Ambiguidade
uma palavra;
Ex:
Ambiguidade
Ex:
Ambiguidade
Ambiguidade
Ex:
28
Extrao de Informao
originalmente a tarefa de encontrar informaes a partir de grandes volumes de documentos ou textos;
Extrao de Informao
29
Caractersticas:
EI
de dados;
Sistemas
de Extrao de Informao (SEI) no realizar o entendimento completo do documento; Objetivo: construir sistemas que encontrem e combinem informaes relevantes; EI diferente de RI;
Extrao de Informao
30
Arquitetura:
Definida
2007);
6
Processador
lxico; Reconhecimento de nomes; Analisador sinttico/semntico; Padro de extrao; Analisador de discurso; Templates.
Extrao de Informao
31
Arquitetura:
Processador
Texto
lxico:
de nomes:
Analisador
Receber
sinttico/semntico:
sinttica;
Extrao de Informao
32
Arquitetura:
Extrao
Induo
de padro:
de um conjunto de regras de extrao;
Anlise
de Discurso:
Relacionar
Templates:
Preenchimento
Extrao de Informao
33
Arquitetura:
Extrao de Informao
34
Tipos de textos:
o tipo de texto influncia na escolha da tcnica;
Estruturado:
informaes;
Ex:
formulrio;
Semi-estrurado:
Ex:
No-estruturado:
Ex:
35
Traduo automtica
umas das atividades que mais utiliza o conhecimento de lingustica;
Necessidade de fazer a codificao da lngua fonte (LF) para a lngua alvo (LA);
Traduo automtica
36
Processos de TA:
Traduo
sentena;
Ex:
navegao na web;
Traduo
restrito;
Ex:
Taum-meteo;
Traduo
contedo;
Ex:
manuais de empresas;
Traduo
TA;
Traduo automtica
37
Processos de TA:
Problema:
baseada exclusivamente em conhecimento lingustico (LBMT); Traduo baseada em conhecimento (KBMT); Traduo baseada em exemplo (EBMT);
Traduo automtica
38
Sistemas de TA;
Comercias:
Metodologias
Sistemas
traduo; Sistemas interlngua: representao intermediria entre LF e LA; Sistemas diretos: traduo direta;
Traduo automtica
39
Indireta:
So
para a
representao
Estado da Arte
40
Intelligence
Markup
Baseada em XML; Desenvolvida Richard S. Wallace; Comunidades mundial de software livre; Foi a base pro ChatterBot Alice, Antigamente chamado de Eliza; Interpretada em Phyton, C, C++, Entre outras Linguagens; Padronizada pelo W3C XML;
Estado da Arte
41
WordTree:
Ferramenta
de busca para texto no-estruturado; Analisadores de Texto baseados em palavras; Visualizao de Textos baseados em Concordncia;
Estado da Arte
42
Aplicaes
43
Chatter Bot
ALICE
e Virtual Vision
Referncias bibliogrficas
44
RUSSEL, Stuard J.; NORVIG, Peter. Artificial Intelligence: A Modern Approach. Prentice Hall, New Jersey, 2 edition, 2003. LVARES, Alberto Cceres. Extrao de informao de artigos cientficos: uma abordagem baseada em induo de regras de etiquetagem. 131p. Dissertao (mestrado), Universidade de So Paulo - USP, So Carlos, SP, fevereiro de 2007.