Geracao de Features

Gerao de features para resoluo de correferncia:
Pessoa, Local e Organizao

Evandro B. Fonseca1, Renata Vieira1, Aline A. Vanin1
1
Faculdade de Informtica Pontifcia Universidade Catlica do Rio Grande do Sul

(PUCRS)
Porto Alegre RS Brazil
evandro.fonseca@acad.pucrs.br, renata.vieira@pucrs.br, aline.vanin@ymail.com
Abstract. This work aims at resolving coreference in Portuguese, focusing on

categories of named entities Person, Location and Organization. The
proposed method uses supervised learning. To this end, the use of features that
assist in the correct classification of named entities is critical. The
construction and refinement of these features are of great relevance to his
task. The performance of many other tasks depends on the correct output of
coreference resolution systems, in special the extraction of relationships
between named entities.
Resumo. Este trabalho tem por objetivo a resoluo de correferncia em
lngua portuguesa, tendo como foco entidades nomeadas das categorias
Pessoa, Local e Organizao. O mtodo proposto utiliza aprendizado
supervisionado. Para tal, o uso de features que auxiliem na correta
classificao das entidades nomeadas fundamental. A construo e o
refinamento dessas features so de grande relevncia para essa tarefa. O
desempenho de muitas outras tarefas depende da correta sada de sistemas de
resoluo de correferncia, em especial, a extrao de relao entre
entidades nomeadas.
1. Introduo
Este trabalho tem como foco a identificao de entidades nomeadas e suas
cadeias de correferncia. O objetivo principal a resoluo de correferncias em lngua
portuguesa para os domnios Pessoa, Local e Organizao. A resoluo de
correferncias uma tarefa relevante e tambm um grande desafio para a rea de
lingustica computacional. Tratando-se da lngua portuguesa, esse desafio ainda maior.
Isto , a quantidade de recursos para a lngua portuguesa limitada se comparada com a
quantidade de recursos que temos disponveis para outras lnguas, como o ingls.
Collovini et al. (2011) propem a extrao de relao entre entidades nomeadas
presentes em textos da lngua portuguesa. A extrao desse tipo de relao possui um
impacto considervel para a rea de processamento da linguagem natural, dado o fato
que esse tipo de tcnica pode melhorar a performance de muitas tarefas. Nesse contexto,
a tarefa de reconhecimento de entidades nomeadas tem como objetivo identificar,
desambiguar e atribuir uma categoria semntica a essas entidades, como pessoa,
organizao, entre outras. nesse ponto que est a contribuio deste trabalho. Tendo
textos como entrada, pretende-se gerar cadeias de correferncia para categorias
especficas de entidades nomeadas e, com isso, pretende-se contribuir para a extrao de
relaes entre entidades, por meio de inferncia. Gabbard et al. (2011) mostram que a
resoluo de correferncia pode prover ganhos significativos para a extrao de relao
entre entidades nomeadas. Identificando as vrias formas de nos referenciarmos

mesma entidade em um determinado texto, possvel tornar mais eficiente o processo
de extrao de relao entre entidades. Por exemplo, considere a seguinte sentena:
Jos da Silva reside prximo Cidade Baixa, em Porto Alegre. O aluno est no
primeiro ano de seu mestrado na PUC-RS.. Identificando e criando uma relao de
correferncia entre as entidades Jos da Silva e aluno, possvel inferir uma relao
direta entre as entidades Jos da Silva e PUC-RS (Jos da Silva aluno da PUC-RS).
Ao dizermos que Jos da Silva um aluno, pode-se classific-lo como pessoa, assim
como dizer que tem relao com PUC-RS.
2.Trabalhos relacionados
Existem muitos trabalhos na literatura voltados resoluo de correferncia.
Alguns so puramente baseados em regras, outros utilizam uma abordagem mais
dinmica, baseada em aprendizado de mquina. Na CoNLL 2011 (Conference on
Computational Natural Language Learning), Lee et al. (2011) apresentaram seu sistema
puramente baseado em regras para a resoluo de correferncias na lngua inglesa,
ficando em primeiro colocado. O sistema, Stanford's Multi-Pass Sieve Coreference
Resolution System, puramente determinstico, atingiu uma eficincia de 57.79%. Essa
eficincia foi medida pela mdia entre trs mtricas de desempenho (MUC, B-CUBED
e CEAFe), descritas em Pradhan et al. (2011). Em 2012, na CoNLL, Fernandes et al.
(2012) apresentaram um sistema de aprendizado de mquina baseado em um algoritmo
perceptron. O sistema baseou-se em duas tcnicas principais: latent coreference trees
e entropy guided feature induction. Para o portugus, Silva (2011) props um sistema
de resoluo de correferncia baseado em domnios especficos (Pessoa, Local e
Organizao), utilizando um algoritmo de aprendizado no supervisionado. Seu sistema
dividido basicamente em duas fases, sendo elas: identificao das menes (sintagmas
nominais) e caractersticas e identificao das cadeias de correferncia.
Ainda no mbito da lngua portuguesa, Coreixas (2010) prope a resoluo de
correferncias com foco nas categorias de entidades nomeadas. Em seu trabalho, para a
gerao de features, a autora faz uso de um analisador sinttico proprietrio. Esse o
diferencial proposto neste artigo. Um dos objetivos do modelo proposto a utilizao de
apenas recursos livres, tendo como foco um produto final aberto a toda comunidade
cientfica. Da a grande importncia para a implementao das features selecionadas.
Dado o fato de, atualmente, o portugus possuir poucos recursos, limitar a utilizao
desses recursos s licenas open source pode ser considerado um desafio.
3. Aprendizado de Mquina Voltado Resoluo de Correferncias

No contexto de aprendizado de mquina, temos os algoritmos de aprendizado
supervisionado. Esses algoritmos aprendem com base em exemplos, previamente
classificados. A ideia na utilizao desse tipo de algoritmo para o foco deste trabalho
gerar esses exemplos e ento codific-los, de forma que esses algoritmos consigam
aprend-los. onde entram as features. Cada feature responsvel por analisar um par
de sintagmas nominais, visando identificar se esse par possui determinada propriedade,
retornando true ou false para cada uma delas. Por fim, um arquivo gerado,
contendo toda informao proveniente do processamento dessas features. Por meio
dessa sada, o algoritmo consegue analisar os padres e aprender com isso, culminando
em um modelo de classificao de pares correferentes. Esse modelo base do sistema
de resoluo de correferncias.
Neste trabalho so utilizados dois corpora: um deles na construo dos pares

para treino e outro na avaliao do sistema. Para a construo dos pares, utilizou-se o
corpus Summ-it (Collovini (2007)). O Summ-it um corpus composto por cinquenta
textos jornalsticos do caderno de Cincias da Folha de So Paulo. A parte de avaliao
ser realizada utilizando medidas como abrangncia e preciso, sob o corpus do Harem
(Freitas et al. (2010)), pelo fato de esse possuir marcao de diversas categorias de
entidades e de correferncia.
4. Seleo de Features
A seleo de features deu-se com base no estudo das features do atual estado da
arte. Alm disso, Soon et al. (2001) realizaram um experimento com o propsito de
verificar o impacto de determinadas features na correta classificao de pares
correferentes. Como resultado, os autores constataram que as features String_Match,
Alias e Aposto/Appositive apresentam um retorno significativo na correta classificao
dos pares. Por meio dessas premissas, podemos visualizar as features selecionadas na
tabela1.
Tabela 1: Descrio das features
String_Match
Se um SN est contido no outro.
Alias
Se uma das palavras de SN1 sigla de SN2.
Aposto
Se um SN aposto do outro.
M_Gnero
Se os sintagmas concordam em gnero (masculino/feminino).
M_Nmero
Se os sintagmas concordam em nmero (singular/plural).
IJ_Pronome
Se pelo menos um dos sintagmas possui um pronome.
Cat_Semntica
Se as categorias de entidades (Pessoa, Local, Organizao...) so iguais.
A construo dos pares de SNs foi realizada com base nas informaes de
correferncia, contidas no corpus Summ-it. Uma caracterstica levada em
considerao na construo desses pares foi a de que todo par deve possuir pelo
menos um nome prprio. Como o foco so categorias de entidades, todo SN que
se refira a uma pessoa, local ou organizao, obrigatoriamente dever possuir um
nome prprio. Tratando-se das features, alguns cuidados foram tomados na
implementao, de forma a calibrar a preciso e abrangncia de cada uma delas. No
caso da feature String_Match, foram removidos todos os artigos de cada um dos SNs,
verificando se SN1 est contido dentro de SN2, ou se SN2 est contido dentro de SN1.
Por meio de testes realizados, essa foi a forma que melhor surtiu resultados,
minimizando falsos positivos e aumentando sua abrangncia e preciso. Para as features
M_Gnero, M_Nmero e IJ_Pronome as informaes podem ser extradas do LXTagger (2012), um part-of-speech tagger gratuito para o Portugus.
Para a feature Alias, utilizou-se o clculo de similaridade. Para cada palavra
existente em um SN (excluindo stopwords), se a letra inicial for maiscula, essa
selecionada. Como resultado, tem-se uma string com as iniciais do sintagma com e sem
pontos ., como no exemplo: SN1=Instituto Nacional de Pesquisas Espaciais, Inpe e
SN2=INPE. As siglas geradas pela feature sero I.N.P.E.I. e INPEI. Aps esse
passo, as siglas geradas so comparadas com cada palavra do SN2 pelo clculo de
similaridade. Notemos que INPEI no exatamente igual ao SN2 INPE, porm o
clculo de similaridade dar um resultado muito prximo de 1, nos dizendo que as
strings so bastante semelhantes. Com isso, conclui-se que SN2 sigla de SN1.
Na feature Cat_Semntica foram utilizados dois recursos que possuem/geram
informaes referentes categorias de entidades. O Repentino (REPositrio para
reconhecimento de ENtidades Nomeadas) Repentino (2013) e um Sistema de
Reconhecimento de Entidades Nomeadas por meio de Conditional Random Fields para
a Lngua Portuguesa (NERP-CRF) (Amaral (2013)). Existem limitaes em ambos os
recursos utilizados, dentro do contexto de busca utilizado pela feature implementada.
No caso do Repentino, o problema so as ambiguidades. Por exemplo, ao buscarmos
pela entidade Amaznia, o Repentino pode conter tanto a categoria Organizao
quanto Local respectivamente, Banco da Amaznia e Amaznia. J o sistema
NERP-CRF possui uma taxa de acerto de 83,99%. Isto , no classifica todas as
entidades corretamente. Pensando nessas duas limitaes, a ideia foi buscar pelas
entidades presentes nos SNs em ambos os recursos, alinhando seus resultados. Dessa
forma, a sada torna-se mais confivel e precisa. Para os casos em que o Repentino
retorna mais de uma categoria, verifica-se se uma delas combina com a sada do sistema
NERP-CRF e, se for o caso, a categoria fornecida por NERP-CRF atribuda
entidade. Caso no seja encontrada a categoria semntica da entidade no Repentino, so
usadas heursticas para a resoluo da categoria, como listas, contendo sinnimos como:
Instituto, Empresa, Organizao. Essas listas sero construdas por meio de um
dicionrio. A feature Aposto ainda no est implementada, porm sua arquitetura ser
baseada em regras heursticas, como uso de vrgulas ou travesses entre dois SNs, como
em Porto Alegre, antiga Porto dos Casais.
5. Concluso e Trabalhos Futuros

Neste trabalho, foram apresentadas as features propostas para gerar um sistema
de resoluo de correferncias, com foco em categorias de entidades nomeadas. Apesar
de haver muitos trabalhos relacionados, poucos focam em categorias especficas de
entidades. O uso de categorias especficas de entidades nomeadas tem um impacto
positivo na tarefa de resoluo de correferncia, j que cada categoria apresenta
caractersticas distintas e bem definidas (Coreixas ( 2010)). J o motivo pela escolha das
categorias selecionadas deu-se objetivando auxiliar sistemas de extrao de relao
entre entidades nomeadas, como o de Collovini et al. (2011). Como trabalho futuro,
visa-se a construo do modelo e posteriormente do sistema de resoluo de
correferncias.
6. Referncias
Collovini, S., Grando, F., Souza, M., Freitas L. And Vieira, R., Semantic Relations
Extraction in the Organization Domain, IADIS International Conference Applied
Computing, 2011
Gabbard, R., Freedman, M., Weischedel, R. M. Coreference for Learning to Extract
Relations: Yes, Virginia,Coreference Matters. In: Proceedings 49th Annual Meeting
of the Association for Computational Linguistics: shortpapers, pages 288293, Portland,
Oregon, 2011
Lee, H., Peirsman, Y., Chang, A., Chambers, N., Surdeanu, M. and Jurafsky, D.
Stanfords Multi-Pass Sieve Coreference Resolution System at the CoNLL-2011
Shared Task, Conference on computational natural language learning, 2011.
CoNLL2011, Conference on computational natural language learning, Disponivel
em: http://conll.cemantix.org/2011/ Acessado em 05/08/2012.
Pradhan, S., Ramshaw, L., Marcus, M., Palmer, M., Weischedel, R. and N. Xue
Modeling Unrestricted Coreference in OntoNotes, CoNLL Shared Task, 2011.
Fernandes, E., Santos, C. and Milidi, R. Latent Structure Perceptron with Feature
Induction for Unrestricted Coreference Resolution, Conference on computational
natural language learning, 2012.
Silva, J., Resoluo de Correferncia em Mltiplos Documentos Utilizando
Aprendizado No Supervisionado, Dissertao de Mestrado, USP, 2011.
Coreixas, T., Resoluo de Correferncia e Categorias de Entidades Nomeadas,
Dissertao de Mestrado, Pontifcia Universidade Catlica Do Rio Grande Do Sul,
2010.
Soon, W. M., Ng, H. T., Lim, D. C. Y. A Machine Learning Approach to
Coreference Resolution of Noun Phrases. In: Computational Linguistics, pages 521544, 2001
Collovini, S., Carbonel, T., Fuchs, J., Coelho, J., Rino, L. e Vieira, R., Summ-it: Um
corpus anotado com informaes discursivas visando sumarizao automtica.
In: V Workshop em Tecnologia da Informao e da Linguagem Humana TIL.
Proceedings of XXVII Congresso da SBC, Rio de Janeiro, 2007.
Amaral, D., Reconhecimento de entidades nomeadas por meio de conditional
random fields para a lngua portuguesa, Dissertao de mestrado, Pontifcia
Universidade Catlica do Rio Grande do Sul,2013
Repentino, REPositrio para reconhecimento de ENtidades Nomeadas, Disponivel
em: http://labclup.letras.up.pt/repentino/faq.html, Acessado em 10/03/2013.
Freitas, C., Mota, C., Santos, D., Oliveira, H. and Carvalho P., Second HAREM:
Advancing the State of the Art of Named Entity Recognition in Portuguese,
Linguateca, FCCN, 2010.
LX-Tagger, Language Resources and Technology for Portuguese University of
Lisbon, NLX-Natural Language and Speech Group Disponvel em:
http://lxcenter.di.fc.ul.pt/tools/en/LXTaggerEN.html, Acesso em: 05/12/2012

Geracao de Features

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Geracao de Features

Enviado por

Direitos autorais:

Formatos disponíveis

Gerao de features para resoluo de correferncia:

Pessoa, Local e Organizao

Faculdade de Informtica Pontifcia Universidade Catlica do Rio Grande do Sul

Abstract. This work aims at resolving coreference in Portuguese, focusing on

entre entidades nomeadas. Identificando as vrias formas de nos referenciarmos

3. Aprendizado de Mquina Voltado Resoluo de Correferncias

Neste trabalho so utilizados dois corpora: um deles na construo dos pares

Se um SN est contido no outro.

Se uma das palavras de SN1 sigla de SN2.

Se os sintagmas concordam em gnero (masculino/feminino).

Se os sintagmas concordam em nmero (singular/plural).

Se pelo menos um dos sintagmas possui um pronome.

Se as categorias de entidades (Pessoa, Local, Organizao...) so iguais.

5. Concluso e Trabalhos Futuros

Você também pode gostar