Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Professor na Universidade Estadual de Campinas. e-mail: pablofaria@iel.unicamp.br. O presente
trabalho foi conduzido no mbito do projeto de pesquisa FAPESP 13/18090-6.
2
Professora na Universidade Estadual de Campinas. e-mail: galvesc@unicamp.br. Coordenadora
do projeto temtico FAPESP 12/06078-9, ao qual esto vinculados este estudo e o projeto de pesquisa
mencionado acima.
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
1. Introduo
crescente a utilizao de corpora lingusticos (textos, transcries de fala,
de bate-papos de internet etc.) para estudos sobre a linguagem. Particularmente,
no mbito dos estudos diacrnicos sobre sintaxe das lnguas, vem crescendo o
nmero de bancos de rvores (adaptado do termo em ingls, treebank3), que
so corpora de dados lingusticos transcritos, enriquecidos com anotao de
informaes sintticas e/ou semnticas, na forma de representaes arbreas em
que se indicam as relaes entre elementos no interior de sentenas ou fragmentos
de sentenas. Embora a expresso banco de rvores remeta fortemente, nos
dias atuais, iniciativa de Mitchell Marcus e colegas (Marcus et al, 1993) que
resultou na criao do primeiro banco de rvores em larga escala (i.e., na casa
dos milhes de palavras), o Penn Treebank (Taylor et al., 2003), esse termo tem
um escopo mais amplo.
3
O termo treebank - correspondente a banco de rvore, em analogia a banco de sangue - foi
cunhado nos anos 1980, na Universidade de Lancaster, por pesquisadores que incluam Geoffrey Neil Leech
e Geoffrey Sampson, este ltimo tendo sido o primeiro a construir um banco de rvores (Leech, 2009).
4
Exemplo criado com base no sistema de anotao do Corpus Tycho Brahe (Galves & Faria, 2010).
300
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
302
material anotado manualmente (p.e., 100 mil palavras), pode-se comear a avaliar se
um analisador pode ser eficientemente treinado para que a anotao semiautomtica
possa comear. Para isso, este material acumulado deve ser dividido em duas partes,
uma para treinamento (p.e., 90% do material) e outra para teste, de modo que o
analisador seja treinado com base na poro de treinamento e testado sobre a poro
indita de teste. Uma vez que para a poro teste h uma anotao manual correta
(em princpio) disponvel, o desempenho do analisador pode ser avaliado, quanto
acurcia em relao anotao alvo (por exemplo, usando a medida PARSEVAL, cf.
Black et al, 1991).
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
Cf. http://corpussearch.sourceforge.net/CS-manual/Revise.html
Note-se que a numerao dos ns automaticamente atribuda pela ferramente de busca
totalmente arbitrria, podendo exibir lacunas na sequncia, sem que isso tenha relevncia para os
resultados.
5
304
Cf. http://www.tycho.iel.unicamp.br/tbf/login
305
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
307
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
308
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
Condio
Etiquetas
Descrio
Atual
305
Revisada
275
na seo anterior, e com subetiquetas verbais removidas, visto que por hiptese se
tornam irrelevantes para o analisador aps a mudana nas etiquetas base. Com esta
mudana, o nmero total de rtulos apresentados ao analisador no treinamento foi de
275, ou seja, 30 rtulos a menos do que na condio atual.
Tabela 2. Desempenho mdio do analisador para cada condio experimental,
conforme calculado pelo aplicativo evalb.
Condio
F1
F1
F1
Parnt.
(<=40)
(pond.)
cruzados
Sentenas sem
anlise8
Revisada
76,7856
79,3106
82,25011
1,23
13 (69-197)
Atual
74,5431
77,3538
80,23044
1,43
12 (69-197)
311
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
O mesmo clculo foi feito apenas para as sentenas com comprimento menor ou
igual a 40 tokens, que compem 86,2% do corpus de teste. Por fim, visto que
foi detectada uma correlao moderada significativa10 entre o comprimento das
sentenas e a F1, foi calculado o desempenho ponderado pelo comprimento das
sentenas. possvel que esta medida seja mais realista quanto ao desempenho do
analisador. A duas ltimas colunas informam, respectivamente, o nmero mdio
de parnteses cruzados e o nmero de sentenas que ficaram sem anlise (ver nota)
juntamente com os comprimentos mnimo e mximo de tais sentenas.
4.4. Discusso parcial dos resultados
312
Banco de rvores
WSJ + NANC
(McClosky et al., 2006)
Tba-D/Z
Lngua
F1
Treinamento
Ingls
92,1
Alemo
88,5 (<=40)
25005 sentenas
Portugus
79,31 (<=40)
25732 sentenas
Alemo
77,3 (<=40)
25005 sentenas
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
Vale ressaltar que o princpio acima, bem como quaisquer outras decises
envolvendo o analisador dependem, fundamentalmente, de um conhecimento
adequado de seu funcionamento e de sua configurao. Um analisador mal
configurado ou operando em modo genrico (i.e., sem predisposio para
particularidades da lngua) certamente ter um desempenho bastante limitado,
quando comparado ao estado da arte.
6. Consideraes finais
O estudo apresentado neste artigo tinha por objetivo verificar a hiptese de
que a reviso do subsistema verbal de etiquetas morfolgicas do CTB melhoraria a
desempenho do analisador. Essa melhoria seria consequncia de um sistema mais
informativo e menos redundante de etiquetas. Experimentos com o analisador
foram conduzidos e avaliados para comparar diferentes condies de treinamento,
em particular, comparar o sistema atual ao sistema revisado. Os resultados
mostram um ganho aproximado de dois pontos percentuais, passando de 77,35%
para 79,31% (para sentenas com at 40 tokens), um resultado que justifica adotar
o sistema revisado.
O presente estudo parte de uma iniciativa mais ampla que visa aumentar
a qualidade de bancos de rvores e melhorar a produtividade na sua construo.
Portanto, esto em andamento estudos sobre o impacto de outras intervenes
no sistema de anotao, estudos comparativos para avaliar o desempenho de
diferentes analisadores, e estudos para desenvolvimento de mtodos de deteco
de inconsistncias e erros de anotao em bancos de rvores. Espera-se que,
em conjunto, tais estudos resultem em sugestes concretas de boas prticas
na construo de bancos de rvores, bem como na disponibilizao de mais
ferramentas computacionais para sua construo, manuteno e reviso.
Referncias bibliogrficas
ABNEY, S., S. Flickenger, C. Gdaniec, C. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek,
314
315