Escolar Documentos
Profissional Documentos
Cultura Documentos
Roteiro
Introduo
Motivao
Um
pouco de Histria
Processo de Extrao
Conceitos
Wrappers
Aplicaes
Referncias
Motivao
O
Motivao
O
Problema:
Documentos
em sua maioria no
estruturados ou semi-estruturados. (Internet
- WEB)
Migrao de dados entre interfaces
diferentes. (WebServices Banco de
Dados)
Motivao
O
que queremos:
responder
a consultas de usurios
gerar resumos do texto original
preencher bancos de dados
preencher bases de conhecimento
minerao de dados
sumarizar textos
...
Processo de Extrao
Trata
Item1:
Item2:
Item3:
Item4:
Item5:
BD
BC
Um pouco de Histria
MUC-Message
Understanding Conference
[final da dcada de 80]
Uso
Internet/Web
[dcada de 90]
Desenvolvimento
de wrappers
Conceitos
Sistemas
baseados em PLN
Processamento
de Linguagem Natural.
Criados para extrair informao a partir de
textos livres (sem estruturao).
Wrappers
Crescimento
Conceitos
Quadro
Comparativo
Wrappers
Sistemas de EI baseados
em PLN
Motivao
Extrair informaes de
textos em linguagem
natural.
Tipos de texto
Padres usados
para extrao
Informaes de formatao do
texto, marcadores presentes nos
documentos, freqncia estatstica
das palavras e, em alguns casos,
PLN.
Padres lingsticos
baseados em PLN (uso
intenso de PLN).
Conceitos
Tipos
de Texto
Estruturado
rgido.
Conceitos
Tipos
de Texto
No
Conceitos
Tipos
de Texto
Semi-estruturado
- No possuem uma
formatao rgida, permitindo, por exemplo, a
ocorrncia de variaes na ordem dos dados.
Em geral, no respeitam rigidamente a
gramtica da lngua natural, e podem possuir
muitas palavras abreviadas.
M. E. Califf & R. J. Mooney. (1999). Relational learning of
pattern-match rules for information extraction. In Proceedings of
the Sixteenth National Conference on Artificial Intelligence, pp.
328--334 Orlando, FL.
Conceitos
Tipos
de Wrappers
Singleshot
Conceitos
Tipos
de Wrappers Exemplo:
C a p ito l H ill 1 b r tw n h m e . F p lc D /W W /D .U n d rg rn d p k g
in c l $ 6 7 5 . 3 B R , u p p e r flr o f tu rn o f c try H O M E . in c l g a r,
g rt N . H ill lo c $ 9 9 5 . (2 0 6 ) 9 9 9 -9 9 9 9 < b r>
< i> < f o n t s iz e = 2 > (T h is a d la s t ra n o n 0 8 /0 3 /9 7 .)
< /f o n t> < /i> < h r>
s is t e m a m u lti- s lo t
s is t e m a s in g le - s lo t
b a ir ro : C a p ito l H ill
q u a rto s : 1
p reo : 6 7 5
b a ir ro : C a p ito l H ill
q u a rto s : 3
p reo : 9 9 5
b a ir ro : C a p ito l H ill
b a ir ro : C a p ito l H ill
q u a rto s: 1
q u a rto s: 3
p reo : 6 7 5
p reo : 9 9 5
F o rm u l rio P re e n c h id o
F o rm u l rio P re e n c h id o
de um pr-processamento
lingstico para a realizao da extrao
Classes
palavras
Algumas vezes impossvel fazer este prprocessamento (Informal Domains)
Web!
Wrappers
A princpio
Wrappers
Tcnicas
preencherFormulario(documento)
fomularioPreenchido
Determinam as regras de extrao
Autmatos finitos, casamento de padres,
classificadores de texto e modelos de
Markov escondidos
(S, ,T,s0,F)
S um conjunto finito de estados
um alfabeto finito de smbolos de entrada
T a funo de transio (T : S -> S)
s S o estado inicial
0
Excelentes
em textos estruturados
Podem ser definidos manualmente ou ser
aprendidos automaticamente
e existncia do dado
Recognizers:
Categorizao!
Transducers:
geram um conjunto de
smbolos de sada para a entrada
ksb
o
xt_
e
n
+
/=
>
,N
U
<
vK
:m
A
ilw
c.u
Y
d
rfX
a
p
h
M
"
R
H
O
x
E
f
P
,
s
T
F
L
I
/
i
S
r
t
m
C
yR
c
y
l
definir
Wrappers Casamento de
padres
Padres
Wrappers Casamento de
padres
Trata
extrao multi-slot
Wrappers - Classificao
Classifica(fragmentoTexto)
= [escore
campo 1, ..., escore campo n]
Limitaes:
Criao
dos fragmentos
Classificam cada fragmento de forma
independente => tima localmente, mas
nada garante que seja tima tambm
globalmente
Wrappers - Classificao
B . Th o m a s , A n ti- U n ifi c a tio n B a s e d L e a rn in g o f T- W ra p p e rs f o r
In f o rm a tio n E x tra c t io n , In P ro c . A A A I- 9 9 W o rk s h o p o n M a c h in e
L e a rn in g f o r In f o rm a tio n E x t ra c t io n , 1 9 9 9 .
d iv is o e m f ra g m e n to s
B . Th o m a s , A n ti- U n ifi c a tio n B a s e d L e a rn in g o f T- W ra p p e rs f o r
In f o rm a tio n E x tra c t io n , In P ro c . A A A I- 9 9 W o rk s h o p o n M a c h in e
L e a rn in g f o r In f o rm a tio n E x t ra c t io n , 1 9 9 9 .
f ra g m e n to 1
f ra g m e n to 2 f ra g m e n to 3 f ra g m e n to 4
e x tra o d e
c a ra c t e rs t ic a s
f ra g m e n to 1
1
3
0
10
f ra g m e n to 2 f ra g m e n to 3 f ra g m e n to 4
0
4
1
20
1
5
2
13
2
3
2
5
c la s s ifi c a o
a u to r
t tu lo
c o n f e r n c ia
d a ta
de Markov - definio
Conjunto
de estados S
Probabilidade a priori (s) para os estados s
S
Probabilidade de transio Pr[s/s] do
estado s S para o estado s S
S
ocultos
A cada
0 ,5
0 ,2
0 ,5
0 ,5
0 ,5
t t u lo
0 ,5
0 ,8
a u to r
0 ,5
0 ,5
0 ,2
0 ,5
d a ta
0 ,1
0 ,2
HM M
A lg o rit m o V it e rb i
o u t ro s
Aplicaes de RI
Extrao
de Informao em
Documentos
Palavras-chave
Indexao
Catalogao
Aplicaes de RI
Extrao
de Informao em
Documentos
Contedo
Anlise
Estrutural
Anlise Semntica
Aplicaes de RI
Extrao
de Informao em
Documentos
Anlise
Uso
de Padres
Qualidade do Cdigo
Aplicaes de RI
Extrao
de Informao na WEB
Filtragem
de Fruns
Controle
do Contedo
Assunto dos Dilogos
Aplicaes de RI
Extrao
de Informao na WEB
Monitoramento
da WEB
Busca
por Hackers
Busca por Terroristas
Empresa mundialmente reconhecida, presente no Brasil h 10 anos,
oferecendo solues nas reas de segurana web e redes.
Aplicaes de RI
Extrao
de Informaes Estratgicas
Business
Intelligence
Anlise
de Mercado
Melhoria de Processos
Aplicaes de RI
Extrao
de Informaes Estratgicas
Anlises
Biolgicas de Dados
Regies
Codificantes (DNA)
Regies Ativas (Protenas)
Aplicaes de RI
Extrao
de Informaes Estratgicas
Anlises
de Arquivos de LOG
Logs
de Erro
Logs de Acesso
Empresa mundialmente reconhecida, com mais de 25 anos, oferece
solues para a anlise de logs de erro e acesso a bancos de dados.
Aplicaes de RI
Extrao
de Informaes Estratgicas
Anlises
de Imagens
Geologia
Climatologia
Astrologia