Você está na página 1de 44

PROCESSAMENTO PROBABILSTICO DE LINGUAGEM

Captulo 23

Diego Grosmann e Thiago Reis

Agenda
2

Introduo Modelo probabilstico de linguagem Gramtica probabilstica livre de contexto (GPLC) GPLC lexicalizada Recuperao de Informao Problemas de PLN Extrao de Informao Traduo automtica Estado da arte Aplicaes Referncias bibliogrficas

Introduo
3

Processamento probabilstico de linguagem tenta facilitar a localizao de informaes em textos escritos por seres humanos e para seres humanos; Essa abordagem utiliza estatstica e aprendizagem nos dados existentes e gera probabilidades para o uso de sentenas (modelo probabilstico).

Modelo Probabilstico de Linguagem


4

Define a distribuio da probabilidade sobre um conjunto de cadeias; Modelos:


Unigramas;

Bigramas;
Trigramas.

Modelo Probabilstico de Linguagem


5

Unigramas:
Atribui

probabilidade P(w) a cada palavra; A probabilidade de uma cadeia de palavras apenas o produto da probabilidade de cada palavra; logical are as are confusion a may right tries agent goal the was diesel more object then information-gathering search is

Modelo Probabilstico de Linguagem


6

Bigramas:
A

probabilidade de cada palavra dada a palavra anterior. P(wi|wi -1) planning purely diagnostic expert systems are very similar computational approach would be represented compactly using tic tac toe a predicate

Modelo Probabilstico de Linguagem


7

N-gramas:
Considera

n-1 palavras anteriores; P(wi|wi (n-1) ... wi 1); Trigramas planning and scheduling are integrated the success of naive Bayes model is just a possible prior source by that time.

Modelo Probabilstico de Linguagem


8

Suavizao:
Conta

igual a zero Suavizao soma um


(c

+ 1)/(N + B); N nmero de palavras; B bigramas possveis; c contagem real; (elimina a possibilidade de uma combinao de uma palavras nunca sair).

Modelo Probabilstico de Linguagem


9

Suavizao:

Suavizao de interpolao linear Combinao dos modelos Unigramas, Bigramas e Trigramas. P(wi|wi 2 wi 1) = c3 P(wi|wi 2 wi 1)+ c2P(wi|wi -1)+ c1 P(w)

Mtodo de avaliao

Utilizao de rea de treinamento e rea de testes.


Problemas:

P(Palavras) muito pequena, os nmeros poderiam causar underflow.

Calcular Perplexidade
Quanto

mais baixa a perplexidade melhor o

modelo

N

2 ( 2

= Numero de palavras
Underflow: Erro de memoria, valor abaixo do esperado

Gramtica probabilstica livre de contexto (GPLC)


11

Utiliza os formalismos gramaticais para gerar uma rvore de probabilidades de palavras; A probabilidade de uma cadeia, P(palavras), apenas a probabilidade de sua rvore; Para percorrer a rvore podemos utilizar:
Algoritmo

de Viterbi; A* (busca pelo melhor esforo).

GPLC lexicalizadas
12

Tenta resolver o problema de contexto


P(come

uma banana) e P(come uma bandana) depende de P(banana) vs P(bandana);

SV SV SN
cabea do SV (comer) SN cabea do SN (banana)
SV SV

sintagmas verbais SN sintagmas nominais

Sintagma um segmento lingustico que expressa uma relao de dependncia

Problemas no GPLC

Dificuldade de se construir a GPL Problemas na atribuio de probabilidade Aprendizagem


Com

arvore sinttica utiliza uma regra para a combinao dos filhos


Maximizao

de expectativas (EM)

14

Recuperao de Informao
a tarefa de encontrar informaes relevantes para as necessidade de informao de um usurio;

Recuperao de Informao
15

Caractersticas:
Uma

coleo de documentos; Uma consulta apresentada em uma linguagem de consulta; Um conjunto de resultados; Uma apresentao do conjunto de resultado;

Recuperao de Informao
16

Modelo booleano de palavras chaves:


O

modelo verdadeiro para a palavra em um documento se ela ocorre e falso se ela no ocorre; Simples; Mas, no apresenta grau de relevncia; Pouca familiaridade de usurios leigos com as excrees; Resultados ruim (muito especifica).

Recuperao de Informao
17

Modelagem de linguagem:
Tenta

definir uma regra de ordenao dos resultados

P ( r | D, Q ) P(r | D) P ( r | D, Q ) P ( r | D , Q ) P ( r | D )

r varivel booleana aleatria que indica Relevncia = verdadeiro D Documento Q Consulta

P ( r | D, Q ) P(r | D) P ( r | D, Q ) P ( r | D , Q ) P ( r | D )
18

Divide a quantidade de resultados relevantes no documento pela quantidade de resultados irrelevantes

Probabilidade de r ser verdadeiro dado um documento D e uma consulta Q

Representa as chances independentes da consulta do documento ser relevante

r varivel booleana aleatria que indica Relevncia = verdadeiro A relevncia do documento D Documento independente da consulta pode ser dada pela quantidade de links Q Consulta que apontam para ele como (se
for um artigo) o numero de citaes do peridico

P ( r | D, Q ) P(r | D) P ( r | D, Q ) P ( r | D , Q ) P ( r | D )
19

Modelo de saco de palavras Utiliza unigrama para contar o numero de ocorrncias; Documentos com mais ocorrncias individuais so mais relevantes;

P(r | D, Q) jP(Qj | D, r )

Calcula a probabilidade de uma consulta dado um documento relevante multiplicado pela probabilidade das palavras na consulta

P ( r | D, Q ) P(r | D) jP(Qj | D, r ) P(r | D, Q) P ( r | D )

Recuperao de Informao
20

Refinamento de RI
Problema
Sistemas

unigrama tratam todas as palavras como se fossem independentes;


poltrona, POLTRONA, poltronas, sof, Poltrona.

Soluo
Utilizar

s letras maisculas/minsculas; Procurar pelo radical;


Problema: stocking (meia), Stock (estoque); Soluo: uso de dicionrio;

Dicionrio

de sinnimos;

Problema: Modificao do significado;

Uso

de corretor ortogrfico e metadados.

Recuperao de Informao
21

Apresentao resultados:
At
Qual

do

conjunto

de

o momento s o problema de relevncia foi visto a utilidade no foi avaliada;


a utilidade de dois documentos iguais?

Realimentao

de relevncia: o usurio informa os dados relevantes; Classificao de documentos


Formao

de agrupamentos de documentos;

Recuperao de Informao
22

Apresentao resultados:

do

conjunto

de

Classificao de documentos Problema de aprendizagem supervisionada Agrupamento de documentos Problema de aprendizagem no-supervisionada Agrupamentos aglomerativo Agrupamentos K-mdia

Recuperao de Informao
23

Implementao de sistemas RI:


Como

fazer uma pesquisa eficiente na web onde existem bilhes de documentos? Lxico
Lista

todas as palavras da coleo de documentos; Pode armazenar o nmero de ocorrncias; Utiliza lista de palavras ignorveis (o, de, ou);
ndice
Lista

invertido (lista de acertos)

o lugar em que cada palavra aparece (link); Para a busca de frases ele deve guardar a localizao da palavra no documento.

Recuperao de Informao
24

Como funciona:
Fazemos

uma busca no lxico para obter o endereo da lista de acertos; Em seguida percorremos a lista de acerto de cada documento e verificamos a contagem para cada documento.

Recuperao de Informao
25

Na prtica:
750.000

documentos totalizando 2 GB; Lxico contem 500.00 palavras 7 a 10 MB; Indicie invertido (documento, contagem) ocupa 324MB; O suporte a consulta de frases (e, ou, etc.) eleva o ndice Invertido a 1200 MB; Na Web existem cerca de 3.000 vezes mais documentos; Soluo: segmentao e distribuio de copias.

Problemas do PLN
26

Ambiguidade:
Eitcha Piula, Reiou... uh! Qual a dele??!

Problemas do PLN
27

Ambiguidade

lxica: diferentes interpretao para

uma palavra;
Ex:

Joo procurou um banco;

Ambiguidade
Ex:

sinttica: uma sentena pode ser mapeada de diferentes formas;


O menino viu o homem de binculo;

Ambiguidade

semntica: diferentes significado

para uma frase;


Ex:

Pedro viu Maria passeando;

Ambiguidade
Ex:

anafrica: anfora pronominal relacionada a duas os mais palavras distintas:


o ladro entrou na casa do prefeito e tirou sua

28

Extrao de Informao
originalmente a tarefa de encontrar informaes a partir de grandes volumes de documentos ou textos;

Documentos ou textos: estruturados ou livres;

Extrao de Informao
29

Caractersticas:
EI

visa localizar e extrair de forma automtica informaes relevantes;


Banco

de dados;

Sistemas

de Extrao de Informao (SEI) no realizar o entendimento completo do documento; Objetivo: construir sistemas que encontrem e combinem informaes relevantes; EI diferente de RI;

Extrao de Informao
30

Arquitetura:
Definida

por Grishhan (1997 apud LVARES,

2007);
6

mdulos presentes em SEI;

Processador

lxico; Reconhecimento de nomes; Analisador sinttico/semntico; Padro de extrao; Analisador de discurso; Templates.

Extrao de Informao
31

Arquitetura:
Processador
Texto

lxico:

dividindo em sentenas e termos; Separao dos termos (tokenizao);


Reconhecimento
Identifica

de nomes:

vrios tipos de nomes prprios;

Analisador
Receber

sinttico/semntico:

itens lxicos e tenta construir uma estrutura

sinttica;

Extrao de Informao
32

Arquitetura:
Extrao
Induo

de padro:
de um conjunto de regras de extrao;

Anlise

de Discurso:

Relacionar

diferentes elementos do texto; Incluso de algumas tarefas:


Anlise de frases nominais; Resoluo de recorrncia;

Templates:
Preenchimento

com as informaes relevantes;

Extrao de Informao
33

Arquitetura:

Figura. Arquitetura. Fonte: Grishhan (1997 apud LVARES, 2007)

Extrao de Informao
34

Tipos de textos:
o tipo de texto influncia na escolha da tcnica;
Estruturado:

quando apresenta regularidade das

informaes;
Ex:

formulrio;

Semi-estrurado:
Ex:

alguma regularidade dos dados; no exibe regularidade;

artigo; pginas web;

No-estruturado:
Ex:

35

Traduo automtica
umas das atividades que mais utiliza o conhecimento de lingustica;

Necessidade de fazer a codificao da lngua fonte (LF) para a lngua alvo (LA);

Traduo automtica
36

Processos de TA:
Traduo

bruta: obter um significado de uma

sentena;
Ex:

navegao na web;

Traduo

de origem restrita: contedo dos textos

restrito;
Ex:

Taum-meteo;

Traduo

pr-editada: realiza uma edio prvia do

contedo;
Ex:

manuais de empresas;

Traduo

literria: est alm do estado da arte de

TA;

Traduo automtica
37

Processos de TA:
Problema:

idiomas; A dificuldade encontrar-se no processo de anlise e interpretao do enunciado da LN; Estratgias:


Traduo

baseada exclusivamente em conhecimento lingustico (LBMT); Traduo baseada em conhecimento (KBMT); Traduo baseada em exemplo (EBMT);

Traduo automtica
38

Sistemas de TA;
Comercias:

translator pro, power translator pro; Gratuitos: altavista, google translator;


Sistemas

preliminares; transferenciais: mantm um BD com regras de

Metodologias
Sistemas

traduo; Sistemas interlngua: representao intermediria entre LF e LA; Sistemas diretos: traduo direta;

Traduo automtica
39

Traduo direta e indireta;


Direta:
A prpria

LA considerada um instrumento para a LF;

Indireta:
So

desenvolvidas formas intermediria;

para a

representao

Estado da Arte
40

AIML - Artificial Language


Linguagem

Intelligence

Markup

Baseada em XML; Desenvolvida Richard S. Wallace; Comunidades mundial de software livre; Foi a base pro ChatterBot Alice, Antigamente chamado de Eliza; Interpretada em Phyton, C, C++, Entre outras Linguagens; Padronizada pelo W3C XML;

Estado da Arte
41

WordTree:
Ferramenta

de busca para texto no-estruturado; Analisadores de Texto baseados em palavras; Visualizao de Textos baseados em Concordncia;

Estado da Arte
42

Aplicaes
43

Chatter Bot
ALICE

Sistemas Operacionais que interpretam LN


DOSVOX

e Virtual Vision

Mecanismos de Busca que utilizam PLN


PowerSet

Referncias bibliogrficas
44

RUSSEL, Stuard J.; NORVIG, Peter. Artificial Intelligence: A Modern Approach. Prentice Hall, New Jersey, 2 edition, 2003. LVARES, Alberto Cceres. Extrao de informao de artigos cientficos: uma abordagem baseada em induo de regras de etiquetagem. 131p. Dissertao (mestrado), Universidade de So Paulo - USP, So Carlos, SP, fevereiro de 2007.

Você também pode gostar