Você está na página 1de 38

Extrao de Informao

Ana Carolina do Amaral


Marclio Jos A. Gomes Filho
Rodrigo C. Mendes
Flvia Barros

Roteiro
Introduo
Motivao
Um

pouco de Histria
Processo de Extrao
Conceitos
Wrappers
Aplicaes
Referncias

Motivao
O

volume de informao vem


aumentado consideravelmente,
principalmente com o advento da
internet.
Como conseguir extrair informao
relevante de tantos artefatos digitais?

Motivao
O

Problema:

Documentos

em sua maioria no
estruturados ou semi-estruturados. (Internet
- WEB)
Migrao de dados entre interfaces
diferentes. (WebServices Banco de
Dados)

Motivao
O

que queremos:

responder

a consultas de usurios
gerar resumos do texto original
preencher bancos de dados
preencher bases de conhecimento
minerao de dados
sumarizar textos
...

Processo de Extrao
Trata

o problema da extrao de dados


relevantes a partir de uma coleo de
documentos [Mus99]
Os dados a serem extrados so
previamente definidos em um template
(formulrio)
Template
Sistema p/
EI

Item1:
Item2:
Item3:
Item4:
Item5:

BD

BC

Um pouco de Histria
MUC-Message

Understanding Conference
[final da dcada de 80]
Uso

de tcnicas de PLN (Processamento


de Linguagem Natural)

Internet/Web

[dcada de 90]

Desenvolvimento

de wrappers

Conceitos
Sistemas

baseados em PLN

Processamento

de Linguagem Natural.
Criados para extrair informao a partir de
textos livres (sem estruturao).
Wrappers
Crescimento

da Web a partir dos anos 1990.


Incapacidade dos sistemas anteriores para
extrair informaes de seus textos, motivou a
criao de sistemas especficos para esse
domnio.

Conceitos
Quadro

Comparativo
Wrappers

Sistemas de EI baseados
em PLN

Motivao

Principalmente, extrair informaes


das diversas fontes na Web.

Extrair informaes de
textos em linguagem
natural.

Tipos de texto

Geralmente estruturados e semiestruturados, mas tambm textos


livres, em alguns casos.

Apenas texto livre.

Padres usados
para extrao

Informaes de formatao do
texto, marcadores presentes nos
documentos, freqncia estatstica
das palavras e, em alguns casos,
PLN.

Padres lingsticos
baseados em PLN (uso
intenso de PLN).

Conceitos
Tipos

de Texto

Estruturado

rgido.

- segue um formato predefinido e

Conceitos
Tipos

de Texto

No

estruturado (Livre) - No apresentam


nenhuma estrutura regular e as informaes
apresentam-se como sentenas livres,
escritas em alguma lngua natural.

Conceitos
Tipos

de Texto

Semi-estruturado

- No possuem uma
formatao rgida, permitindo, por exemplo, a
ocorrncia de variaes na ordem dos dados.
Em geral, no respeitam rigidamente a
gramtica da lngua natural, e podem possuir
muitas palavras abreviadas.
M. E. Califf & R. J. Mooney. (1999). Relational learning of
pattern-match rules for information extraction. In Proceedings of
the Sixteenth National Conference on Artificial Intelligence, pp.
328--334 Orlando, FL.

Conceitos
Tipos

de Wrappers

Singleshot

- so aqueles que extraem do


documento de entrada apenas dados
isolados, ou seja, eles no so capazes de
ligar uma instncia de um campo (slot) do
formulrio de sada a uma instncia de outro
campo.
Multishot - so aqueles capazes de extrair do
documento de entrada os dados relacionados
entre si, ou seja eles so capazes de ligar as
instancias de diferentes campos.

Conceitos
Tipos

de Wrappers Exemplo:
C a p ito l H ill 1 b r tw n h m e . F p lc D /W W /D .U n d rg rn d p k g
in c l $ 6 7 5 . 3 B R , u p p e r flr o f tu rn o f c try H O M E . in c l g a r,
g rt N . H ill lo c $ 9 9 5 . (2 0 6 ) 9 9 9 -9 9 9 9 < b r>
< i> < f o n t s iz e = 2 > (T h is a d la s t ra n o n 0 8 /0 3 /9 7 .)
< /f o n t> < /i> < h r>

s is t e m a m u lti- s lo t

s is t e m a s in g le - s lo t

b a ir ro : C a p ito l H ill
q u a rto s : 1
p reo : 6 7 5
b a ir ro : C a p ito l H ill
q u a rto s : 3
p reo : 9 9 5

b a ir ro : C a p ito l H ill
b a ir ro : C a p ito l H ill
q u a rto s: 1
q u a rto s: 3
p reo : 6 7 5
p reo : 9 9 5

F o rm u l rio P re e n c h id o

F o rm u l rio P re e n c h id o

Sistemas baseados em PLN


Precisam

de um pr-processamento
lingstico para a realizao da extrao
Classes

sintticas e semnticas das

palavras
Algumas vezes impossvel fazer este prprocessamento (Informal Domains)
Web!

Wrappers
A princpio

no eram capazes de tratar


textos livres
Recentemente, tornaram-se mais
poderosos

fazem uso das informaes de formatao


e tambm das caractersticas lingsticas

Wrappers
Tcnicas

para extrao de informao

preencherFormulario(documento)

fomularioPreenchido
Determinam as regras de extrao
Autmatos finitos, casamento de padres,
classificadores de texto e modelos de
Markov escondidos

Wrappers Autmatos finitos


Definio

(S, ,T,s0,F)
S um conjunto finito de estados
um alfabeto finito de smbolos de entrada
T a funo de transio (T : S -> S)
s S o estado inicial
0

F S o conjunto de estados finais

Excelentes

em textos estruturados
Podem ser definidos manualmente ou ser
aprendidos automaticamente

Wrappers Autmatos finitos


Tipos
Acceptors:

apenas um estado inicial,


resposta sim ou no
Filtragem

e existncia do dado

Recognizers:

um ou mais estados finais.

Categorizao!

Transducers:

geram um conjunto de
smbolos de sada para a entrada

Wrappers Autmatos finitos


Exemplo
?

ksb
o
xt_
e
n
+
/=
>
,N
U
<
vK
:m
A
ilw
c.u
Y
d
rfX
a
p
h
M
"
R
H
O
x
E
f
P
,
s
T
F
L

I
/
i
S
r
t
m
C
yR
c
y
l

Wrappers Autmatos finitos


Devemos
Os

definir

estados que devero aceitar os


smbolos a serem extrados para preencher
o formulrio de sada
Os estados que iro apenas consumir os
smbolos irrelevantes encontrados no
documento
Os smbolos do documento de entrada que
provocaram a transio de um estado para
outro

Wrappers Casamento de
padres
Padres

podem ser descritos atravs de


expresses regulares ou em uma
linguagem especfica ao sistema de EI
O processo de extrao se d quando
se realiza o casamento dos padres
definidos com o texto de entrada

Wrappers Casamento de
padres
Trata

textos estruturados, semiestruturados e livres


Expresses regulares so mais intuitivas
do que autmatos
Realizam

extrao multi-slot

Wrappers - Classificao
Classifica(fragmentoTexto)

= [escore
campo 1, ..., escore campo n]
Limitaes:
Criao

dos fragmentos
Classificam cada fragmento de forma
independente => tima localmente, mas
nada garante que seja tima tambm
globalmente

Wrappers - Classificao
B . Th o m a s , A n ti- U n ifi c a tio n B a s e d L e a rn in g o f T- W ra p p e rs f o r
In f o rm a tio n E x tra c t io n , In P ro c . A A A I- 9 9 W o rk s h o p o n M a c h in e
L e a rn in g f o r In f o rm a tio n E x t ra c t io n , 1 9 9 9 .

d iv is o e m f ra g m e n to s
B . Th o m a s , A n ti- U n ifi c a tio n B a s e d L e a rn in g o f T- W ra p p e rs f o r
In f o rm a tio n E x tra c t io n , In P ro c . A A A I- 9 9 W o rk s h o p o n M a c h in e
L e a rn in g f o r In f o rm a tio n E x t ra c t io n , 1 9 9 9 .
f ra g m e n to 1

f ra g m e n to 2 f ra g m e n to 3 f ra g m e n to 4

e x tra o d e
c a ra c t e rs t ic a s
f ra g m e n to 1
1
3
0
10

f ra g m e n to 2 f ra g m e n to 3 f ra g m e n to 4
0
4
1
20

1
5
2
13

2
3
2
5

c la s s ifi c a o
a u to r

t tu lo

c o n f e r n c ia

d a ta

Wrappers Modelos de Markov


escondidos
Exploram

a ocorrncia dos padres em


seqncia no texto de entrada para
classific-los de uma s vez
Maximiza

a probabilidade de acerto para


todo o conjunto de padres

Wrappers Modelos de Markov


escondidos
Modelos

de Markov - definio

Conjunto

de estados S
Probabilidade a priori (s) para os estados s
S
Probabilidade de transio Pr[s/s] do
estado s S para o estado s S
S

= {ensolarado, chuvoso, nublado}


(nublado)
Pr[chuvoso/ensolarado]

Wrappers Modelos de Markov


escondidos
Estados

ocultos

possvel observar os smbolos (estados visveis)


emitidos pelos estados escondidos

A cada

estado oculto, associada uma das


classes a serem extradas
Cada estado oculto emite tokens de acordo com
a probabilidade de pertencer classe associada
ao estado
Criado o modelo, pode-se utilizar o algoritmo
Viterbi para decodificar uma entrada e
determinar os estados ocultos associados

Wrappers Modelos de Markov


escondidos
B . Th o m a s , A n t i- U n ifi c a t io n B a s e d L e a rn in g o f T- W ra p p e rs
f o r In fo rm a t io n E x t ra c tio n , In P ro c . A A A I- 9 9 W o rk s h o p o n

0 ,5

0 ,2

B . | T h o m a s | , | A n ti- U n ifi c a tio n | B a s e d | L e a rn in g | o f


| T- W ra p p e rs | fo r | In f o rm a t io n | E x t ra c t io n | , | In |
P ro c . | A A A I- 9 9 | W o rk s h o p | o n | M a c h in e | L e a rn in g |

0 ,5
0 ,5

0 ,5

t t u lo
0 ,5

0 ,8

a u to r

0 ,5

0 ,5
0 ,2

0 ,5

d a ta
0 ,1

0 ,2

HM M
A lg o rit m o V it e rb i

B . = a u to r | Th o m a s = a u t o r| , = o u tro | A n ti- U n ifi c a tio n = ttu lo | B a s e d = ttu lo | L e a rn in g = ttu lo |


o f = t t u lo | T-W ra p p e rs = ttu lo | f o r = ttu lo | In f o rm a t io n = t t u lo | E x tra c tio n = ttu lo | , = o u tro | In
= c o n f e r n c ia | P ro c . = c o n f e r n c ia | A A A I- 9 9 = c o n f e r n c ia | W o rk s h o p = c o n f e r n c ia | o n =
c o n f e r n c ia | M a c h in e = c o n f e r n c ia | L e a rn in g = c o n f e r n c ia | f o r = c o n f e r n c ia | In fo rm a tio n
= c o n f e r n c ia | E x tra c tio n = c o n f e r n c ia | , = o u tro | 1 9 9 9 . = d a ta

o u t ro s

Aplicaes de RI
Extrao

de Informao em
Documentos
Palavras-chave
Indexao
Catalogao

Empresa do Rio de Janeiro com mais de 12 anos de experincia


em Gerenciamento Eletrnico de Documentos.

Aplicaes de RI
Extrao

de Informao em
Documentos
Contedo
Anlise

Estrutural
Anlise Semntica

Empresa portuguesa responsvel por 3,4% do PIB de Portugal.

Aplicaes de RI
Extrao

de Informao em
Documentos
Anlise

do Cdigo Fonte de Aplicaes

Uso

de Padres
Qualidade do Cdigo

Empresa de Curitiba, oferece sistemas de anlise do cdigo fonte


em diversas linguagens.

Aplicaes de RI
Extrao

de Informao na WEB

Filtragem

de Fruns

Controle

do Contedo
Assunto dos Dilogos

Empresa de So Paulo com mais de 20 anos de mercado. Oferece


solues para e-learning.

Aplicaes de RI
Extrao

de Informao na WEB

Monitoramento

da WEB

Busca

por Hackers
Busca por Terroristas
Empresa mundialmente reconhecida, presente no Brasil h 10 anos,
oferecendo solues nas reas de segurana web e redes.

Aplicaes de RI
Extrao

de Informaes Estratgicas

Business

Intelligence

Anlise

de Mercado
Melhoria de Processos

Empresa brasileira que oferece solues na rea de BI.

Aplicaes de RI
Extrao

de Informaes Estratgicas

Anlises

Biolgicas de Dados

Regies

Codificantes (DNA)
Regies Ativas (Protenas)

National Center for Biotechnology Information, criado em 1988, localizado


nos Estados Unidos. a principal fonte de informaes sobre Genmica
na Internet.

Aplicaes de RI
Extrao

de Informaes Estratgicas

Anlises

de Arquivos de LOG

Logs

de Erro
Logs de Acesso
Empresa mundialmente reconhecida, com mais de 25 anos, oferece
solues para a anlise de logs de erro e acesso a bancos de dados.

Aplicaes de RI
Extrao

de Informaes Estratgicas

Anlises

de Imagens

Geologia
Climatologia
Astrologia

Empresa brasileira com 10 anos de mercado, oferece solues para


anlise e classificao de imagens.

Você também pode gostar