Você está na página 1de 5

 

Adaptação de ferramenta de reconhecimento e extração de entidades em


textos para a Web Semântica brasileira

RESUMO: Com o surgimento dos computadores veio a ABSTRACT: With the emergence of computers came the need to
necessidade de se implementar tarefas que envolvam a implement tasks that involve human language, especially through
linguagem humana, principalmente através do processamento word processing. To process the information it is necessary to
de textos. Para processar as informações é necessário fazer o make use of Information Extraction tasks such as Named Entity
uso de tarefas de Extração de Informação como o Recognition (NER). Currently, the Federated Knowledge
Reconhecimento de Entidades Nomeadas (NER). Atualmente, a Extraction Framework (FOX) tool has achieved good results by
ferramenta FOX (Federated Knowledge Extraction Framework) combining, through machine learning techniques, other NER tools
tem conseguido bons resultados ao combinar, através de for the English language. Although there are already works for its
técnicas de aprendizado de máquina, outras ferramentas NER adaptation to other languages, no effort has yet been made to
para a língua inglesa. Embora já existam trabalhos para sua adapt it to Portuguese. The objective of the present work was to
adaptação para outros idiomas, ainda não foi feito um esforço no implement FOX in Portuguese. After analyzing the results
sentido de adaptá-la para o português. O objetivo do presente obtained, with the help of the visualizations developed in python, it
trabalho foi implementar a FOX na língua portuguesa. Após was noticed that in Portuguese it presents good precision
analisar os resultados obtidos, com ajuda das visualizações concerning other tools of the same purpose, but low recall, which
desenvolvidas em python, percebeu-se que no português ela indicates the need to train in more Corpora annotated in
apresenta boa precisão em relação a outras ferramentas de Portuguese. 
mesmo m, mas baixa abrangência, o que indica a necessidade
se treinar em mais Corpora anotados no português.
PALAVRAS-CHAVE: Comitê. Machine Learning. Processamento KEYWORDS: Ensemble Learning. Machine Learning. Natural
de Linguagem Natural. Reconhecimento de Entidades Language Processing. Named Entity Recognition.
Nomeadas.

esforços no sentido de adaptá-la para outros idiomas [3].


1. I​NTRODUÇÃO  Esse trabalho objetivou, portanto, implementar em seu
No contexto de Web Semântica, é de suma importância comitê ferramentas com o suporte ao português,
o conhecimento de técnicas para estruturação da especificamente as das organizações OpenNLP [4],
informação. Uma área bastante estudada nos últimos anos é Stanford [5] e Spotlight [6]. Para isso, apresenta-se a
a de Processamento de Linguagem Natural, através da qual proposta de solução do trabalho na figura 1.
máquinas são capazes de processar a língua humana de Após integração das três ferramentas, utilizou um
forma a permitir maior interoperabilidade. O Portal conjunto de dados para treinamento do comitê, e ainda,
Brasileiro de Dados Abertos encontra-se com 5273 outros conjuntos para avaliação. Tais conjuntos foram
conjuntos de dados, sendo apenas 24 conjuntos estruturados preparados a partir de Corpora já conhecidos, como o
nos formatos adequados a Web Semântica [1]. Tendo em HAREM [7] e o SUMM-IT [8]. Parte desse conjunto teve
vista esse cenário brasileiro, faz-se necessário o de ser convertido para o formato NIF, utilizado pela
desenvolvimento de ferramentas que ofereçam suporte ferramenta de benchmarking GERBIL (General Entity
automatizado à estruturação de dados e operem para o Annotator Benchmark) [9] na qual realizou-se os
português. experimentos de avaliação. Além dos conjuntos de
Uma ferramenta com bons resultados ao realizar o avaliação elaborados manualmente (Segundo HAREM e
Reconhecimento de Entidades Nomeadas (NER) é a FOX SUMM-IT) avaliou-se com os anotados automaticamente
[2] (Federated Knowledge Extraction Framework). Ela advindos da ferramenta BENGAL [10]. Além disso
combina, em sua última versão, outras quatro ferramentas desenvolveu-se uma ferramenta em Python para possibilitar
de NER através de abordagens de aprendizado de máquina, uma melhor visualização dos dados obtidos nos
com o uso de comitês. A FOX, no entanto, não está experimentos a fim de facilitar sua análise e discussão.
disponível para a língua portuguesa, embora existam

1
RMCT VOL. 34 Nº3, 2017
REVISTA MILITAR DE CIÊNCIA E TECNOLOGIA
medida em que permite usá-la como conhecimento básico
em aplicativos orientados a documentos, como faceted
browsing [6].

2.3 Federated Knowledge Extraction Framework 


O projeto FOX foi criado a fim de motivar a
transformação de dados não estruturados. Através de
Fig. 1 – Solução proposta para implementação do idioma
comitê, busca aperfeiçoar o resultado de outras ferramentas
português na ferramenta FOX.
de Reconhecimento de Entidades Nomeadas. Verificou-se
quinze algoritmos diferentes de aprendizado de máquina e
2. F​ERRAMENTAS 
foi atingido uma redução de erros em quarenta por cento ao
Diversas ferramentas reconhecidas na área de utilizar essas técnicas [2]. Em sua última versão na língua
Reconhecimento de Entidades Nomeadas e que possuem inglesa, quatro destes instrumentos estavam integrados a
ampla contribuição científica por serem de código aberto fim de traduzir conteúdos da linguagem natural em
são a FOX, OpenNLP, Stanford CoreNLP e DBPedia informações estruturadas.
Spotlight. Destas, apenas a FOX não possui suporte para a
língua portuguesa. Uma ferramenta de ​benchmarking que 2.4 GERBIL 
se destaca pelos esforços da comunidade científica capaz de
A ferramenta GERBIL é um software para avaliar
avaliar o modelo português gerado é a GERBIL.
anotações de entidades semânticas. Tem por finalidade
permitir de maneira fácil e rápida esse tipo de análise, de
2.1 OpenNLP 
forma detalhada em um âmbito grande de conjuntos de
A iniciativa OpenNLP [4] busca oferecer suporte ao dados. A GERBIL provê resultados que comparam
processamento de linguagem natural através das atividades ferramentas através das métricas de F1, Abrangência e
de tokenização, segmentação de sentenças, etiquetagem Precisão, podendo ser micro ou macro. A métrica micro é
morfossintática (part-of-speech tagging), extração de calculada através da soma de todos os verdadeiros positivos
entidades nomeadas (NER), extração de sintagmas e negativos de todos os documentos, enquanto a métrica
(chunking), análise sintática (parsing), detecção de idioma e macro é a média dela dos documentos individuais. Possui
resolução de referências pronominais. É uma ferramenta configurações nos tipos de experimentos com opções de
baseada em aprendizado de máquina cuja biblioteca está escolha de sistemas de anotação de entidade e conjunto de
escrita em Java e conta com o auxílio da comunidade dados. A saída dos experimentos, assim como as descrições
científica. dos componentes, são todos colocados num banco de dados
sem servidor, para uma rápida implementação.
2.2 Stanford CoreNLP 
O conjunto de ferramentas Stanford CoreNLP é uma 3. C​ONJUNTOS​ D​ E​ ​REFERÊNCIA 
estrutura de anotação baseada em Java e que contém
diversos passos de processamento de linguagem natural. É 3.1 BENGAL 
amplamente utilizada em meios governamentais, Devido aos altos custos de tempo e trabalho envolvidos
comerciais, e principalmente na comunidade científica por na obtenção de um conjunto de dados anotados para
ser um projeto de código aberto [5]. O objetivo desse avaliação de ferramentas de reconhecimento de entidades
projeto nos últimos anos tem sido tornar o uso desta nomeadas, é difícil encontrar conjuntos amplos de
estrutura de anotação mais simples. Quanto mais acessível e benchmarking para este tipo de ferramenta [10]. Nesse
menos código de configuração for necessário, mais fácil é contexto aparece um esforço para desenvolver-se uma
de se utilizá-la como componente de sistemas maiores. forma automática de geração de benchmarking para
soluções de NER e EL: o BENGAL.
2.2 DBPedia Spotlight  A ferramenta BENGAL tem como entrada grafos
A ferramenta desenvolvida pela equipe do projeto formados por triplas RDF e inicia sua abordagem com a
DBPedia também consiste num sistema de anotadores escolha de quais triplas do grafo são relevantes para a
automáticos para documentos de texto. A diferença para informação que se deseja obter por meio de uma consulta
outras ferramentas consiste principalmente no fato de usar SPARQL SELECT. Gera-se então um subgrafo RDF com
URIs da própria DBPedia para seus recursos. Foi os dados obtidos pela consulta, selecionando-se a
desenvolvida com a finalidade de vincular os documentos topografia do subgrafo a ser formado a partir de qual tipo
de texto com a Linked Open Data. Esta ferramenta de informação se deseja extrair. Utiliza-se então um
contribui para o desenvolvimento da Web de Dados na processo de verbalização derivado do SPARQL2NL [11]
que transforma cada tripla em uma sentença. Por fim há

2 REVISTA MILITAR DE CIÊNCIA E TECNOLOGIA RMCT VOL. 34 Nº3, 2017


 
uma etapa de paráfrase visando a gerar um texto de perceptron com multicamadas (MLP). Desta forma, utilizou
benchmarking mais diverso. Isso é feito através de duas este método de comitê para a versão português. A
técnicas: a troca de termos repetidos por sinônimos e a ferramenta FOX recebe como entrada um arquivo e o
alteração de estruturas de sentenças que se repitam com encaminha para as ferramentas implementadas. Cada
frequência. ferramenta então tem como saída o texto anotado. Desta
forma, cada palavra tem um vetor associado a ela com as n
3.1 HAREM  classificações que são encaminhadas para a rede MLP. Em
sua camada de entrada, existe um neurônio para cada
Para avaliação e desenvolvimento de ferramentas de
combinação possível de ferramenta e categoria pré definida
Entidades Nomeadas é necessário fazer uso de Corpora
enquanto na saída da rede MLP são geradas as palavras
capazes de nos auxiliar como referência. O Corpus do
classificadas nas categorias predefinidas na FOX. São as
HAREM é um projeto público da Linguateca cujos esforços
classificações definitivas a serem dadas pela FOX. Desta
estão no processamento computacional para a língua
forma, essa rede perceptron é a responsável por definir as
portuguesa. Já foram publicados dois conjuntos desde 2006
classificações finais a serem dadas e, portanto, precisa ser
com anotações gold, ou seja, anotações manuais revisadas
treinada. Cabe ressaltar que as ferramentas individuais
por profissionais da área. [12]
usadas como anotadores base do comitê não foram
A avaliação conjunta disposta como segundo HAREM
treinadas novamente.
tem a vantagem de possuir meios para detectar o sucesso na
O conjunto de referência a ser usado para treino foram
identificação, classificação tanto de entidades nomeadas
coletados do Corpus Primeiro HAREM. A divisão em
como das relações entre elas. Além disso, permite o
conjunto de treino e conjunto de teste foi realizada
reconhecimento e normalização de entidades temporais [7].
conforme do Amaral et al. (2014), com o Segundo HAREM
Já lançadas em duas versões, o segundo HAREM, de menor
utilizado no processo de avaliação. Na figura 2 estão
tamanho, possui 129 textos sendo 89.241 palavras anotadas
expostas as informações recebidas para o aprendizado da
e distribuídas em categorias de entidades nomeadas
rede, contendo 1258 entidades classificadas como
conforme a figura 2 mostra.
localização, 946 como organização e 1040 como pessoas, o
restante considera-se na categoria nula (Null).
A Matriz de Confusão está disposta de acordo com as
categorias e a rotulação predefinida na ferramenta FOX
(BILOU), sendo a primeira linha composta pelas categorias
em suas rotulações e a primeira coluna como as realmente
classificadas, segundo a ordem de Localização,
Organização, Pessoa para cada rótulo. O campo Null nas
figuras 3 e 4 indicam os tokens sem categoria classificada
dentre as três anteriores. Os valores mostrados na figura 3
portanto são da quantidade de instâncias classificadas de
acordo com esses parâmetros. Na figura 4 são calculadas as
Fig. 2 – Corpus primeiro e segundo HAREM. Fonte [13] métricas baseadas nos resultados da figura 3.

3.1 SUMM-IT 
Além dos Corpora HAREM e BENGAL, o corpus
SUMM-IT quando foi elaborado tinha a intenção de
embasar pesquisas de discurso envolvendo relações
anafóricas e retóricas, e a sumarização automática [8]. Fig. 3 – Matriz de confusão da rede treinada com o Corpus
A sua construção foi anotada com o intuito de fornecer Primeiro HAREM.
contribuições para melhorar a Sumarização Automática,
isso tudo com informações discursivas. A fim de aprimorar
a coerência e o grau de informatividade dos sumários Fig. 4 – Métricas do treinamento da rede com o Corpus
Primeiro HAREM.
automáticos. Constitui-se de 50 textos jornalísticos do
caderno de Ciências da Folha de São Paulo retirados do
corpus PLN-BR. 5. A​VALIAÇÃO 
Através da ferramenta de benchmarking GERBIL foi
4. T​REINAMENTO  possível realizar experimentos com outras ferramentas de
NER que contêm suporte ao português, a fim de se
Dentre os algoritmos avaliados em Speck e Ngomo
comparar os resultados com o modelo obtido da FOX por
(2014), obteve-se melhores resultados com a rede

3
RMCT VOL. 34 Nº3, 2017
REVISTA MILITAR DE CIÊNCIA E TECNOLOGIA
esse trabalho. Foram utilizados os conjuntos de dados de dados testados. Especificamente, no Segundo Harem, ela
padrões Gold na obtenção desses resultados. As tabelas obteve um aumento de 55,44% com relação ao melhor
apresentadas são multidimensionais podendo ser classificador base utilizada em sua composição. Isso mostra
representadas por cubos e para melhor compreensão que entre as entidades reconhecidas pela FOX houve um
construiu-se gráficos com filtros considerados relevantes número baixo de falsos positivos. Por outro lado, a FOX
para as análises. apresentou uma abrangência relativamente baixa em
relação às demais ferramentas, significando que houve uma
6. T​RATAMENTO​ ​DE​ ​DADOS grande quantidade de falsos negativos. Perdeu-se 25,18%
de sua abrangência comparada ao melhor valor. Vê-se então
Além de trabalho envolvendo a tradução da ferramenta que é necessário utilizar de mais conjuntos de treino de
FOX versão português, foi-se criado em paralelo uma forma a melhorar abrangência da ferramenta. Ao observar a
forma de visualizar os resultados de maneira mais clara e medida F1 observa-se que nos conjuntos anotados
objetiva para realizar uma análise mais precisa dos manualmente, a FOX foi capaz de superar as ferramentas
resultados dos experimentos. Utilizou-se a ferramenta em seus resultados individuais assim como outras
Jupyter Notebook 5.1 para escrever os códigos em Python disponíveis no mercado (vantagem de 12,16% no caso da
para com o intuito de automatizar e tornar mais rápido e Babelfy no HAREM). Contudo, obteve resultados
fácil a produção dos gráficos para a posterior análise. inferiores nos conjuntos anotados automaticamente da
A ideia para o desenvolvimento partiu da análise das ferramenta BENGAL. Nestes casos, o uso de MLP como
tabelas geradas pela GERBIL. É possível ver que a tabela comitê para as ferramentas se mostrou não vantajoso com
possuía uma estrutura de um cubo multidimensional e a relação aos resultados obtidos pela ferramenta Spotlight.
tarefa dessa visualização seria gerar cortes, tendo como
índices os Anotadores ou Conjunto de dados, que fossem
capaz de representar as métricas de forma a comparar esses
mesmo índices. Dessa forma, as possibilidades que seriam
mais viáveis seria agrupar esses campos em: anotadores,
conjunto de dados, micro métricas, macro métricas, e diante
disso permitir a geração de uma espécie de gráfico.
Encontra-se na figura 5 um esquema estrela que ilustra
como seria essa visão na forma de diagrama.

Fig. 5 – Comparação entre as ferramentas de NER com


diversos conjuntos de dados.

Observa-se no gráfico que os resultados para precisão


foram parecidos entre os diferentes conjuntos de dados,
  com uma diferença máxima de 9,6% que ocorreu entre o
Fig. 5 – Esquema estrela simplificado da saída dos Bengal Sym e o Segundo HAREM. Para abrangência e
experimentos da GERBIL.  consequentemente para F1 a ferramenta obteve melhor
desempenho nos conjuntos SUMM-IT e Bengal Path. No
6. R​ESULTADOS​ ​E​ ​DISCUSSÕES  entanto, obtém pior desempenho em todas as medidas nos
dados do Bengal Star. Desta forma, entende- se que não é
Em um primeiro momento é feita a comparação da FOX
possível determinar a partir dos experimentos qual tipo de
versão português com ou- tras como: Babelfy, Spotlight,
conjunto de dados (automaticamente ou manualmente
Stanford e OpenNLP. Tendo em vista que a ferramenta
anotados) apresenta melhores resultados com a ferramenta.
Spotlight é o estado da arte com relação à Stanford e a
OpenNLP, os gráficos 6 e 7 gerados para a comparação de
resultados com a FOX versão português considerou apenas
as ferramentas Spotlight e Babelfy [14]. Para as análises
gráficas levou-se em consideração os valores micro. Ainda,
considerou os experimentos com anotação fraca, em que
correspondências parciais, entre as palavras de entidades
que contenham mais de uma, são consideradas corretas.
No gráfico 6 pode-se observar que a precisão da FOX é
superior às demais ferramentas em todos os conjuntos de

4 REVISTA MILITAR DE CIÊNCIA E TECNOLOGIA RMCT VOL. 34 Nº3, 2017


 
R​EFERÊNCIAS 
[1]SECRETARIA DE TECNOLOGIA DA INFORMAÇÃO, MINISTÉRIO DO
PLANEJAMENTO, DESENVOLVIMENTO E GESTÃO. Conjunto de dados -
Portal Brasileiro de Dados Abertos. Disponível em:
<http://dados.gov.br/dataset>. Acesso em: 09 fev. de 2019.
[2] SPECK, R.; NGOMO, A.-C. N. Ensemble learning for named entity recognition.
In:INTERNATIONAL SEMANTIC WEB CONFERENCE, 1., 2014.Anais... [S.l.:
s.n.],2014, p. 519–534.
[3] SPECK, R.; NGOMO, A.-C. N. Ensemble learning of named entity recognition
algorithms using multilayer perceptron for the multilingual web of data. In:
PROCEEDINGS OF THE KNOWLEDGE CAPTURE CONFERENCE, 1.,
2017.Anais... [S.l.: s.n.], 2017,p. 26.
[4] BALDRIDGE, JASON.The opennlp project. Disponível
em:<http://opennlp.apache.org/index.html>. Acesso em: 08 mai. de 2019
[5] MANNING, C.; SURDEANU, M.; BAUER, J.; FINKEL, J.; BETHARD, S. ;
MCCLOSKY, D. The stanford corenlp natural language processing toolkit. In:
PROCEEDINGS OF 52ND ANNUAL MEETING OF THE ASSOCIATION FOR
COMPUTATIONAL LINGUISTICS: SYSTEM DEMONSTRATIONS, 1.,
2014.Anais...[S.l.: s.n.], 2014, p. 55–60.
[6] MENDES, P. N.; JAKOB, M.; GARCÍA-SILVA, A. ; BIZER, C. Dbpedia
spotlight:shedding light on the web of documents. In: PROCEEDINGS OF
Fig. 6 – Comparação entre os resultados da FOX nos
THE 7TH INTERNATIONAL CONFERENCE ON SEMANTIC SYSTEMS, 1.,
conjuntos de dados. 2011.Anais... [S.l.:s.n.], 2011, p. 1–8.
[7] FREITAS, C.; CARVALHO, P.; GONÇALO OLIVEIRA, H.; MOTA, C. ;
7. C​ONCLUSÃO  SANTOS,D. Second harem: advancing the state of the art of named entity
recognition in portuguese. In: QUOT; IN NICOLETTA CALZOLARI; KHALID
Dados brasileiros estão em sua maioria publicados de CHOUKRI;BENTE MAEGAARD; JOSEPH MARIANI; JAN ODIJK; STELIOS
PIPERIDIS;MIKE ROSNER; DANIEL TAPIAS (ED) PROCEEDINGS OF THE
forma não estruturada, dificultando a interoperabilidade do INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND
seu conteúdo. Nesse contexto de estruturar informações, é EVALUATION (LREC2010)(VALLETTA 17-23 MAY DE 2010) EUROPEAN
de suma importância o campo do Processamento de LANGUAGE RESOURCES ASSOCIATION, 1., 2010.Anais... [S.l.: s.n.],
2010, p. 1.
Linguagem Natural. Uma ferramenta de destaque nessa
[8] COLLOVINI, S.; CARBONEL, T. I.; FUCHS, J. T.; COELHO, J. C.; RINO, L. ;
área é a FOX. Visando implementar o idioma português
VI-EIRA, R. Summ-it: Um corpus anotado com informaç oes discursivas
nela, treinou-se sua rede neural através do Corpus Primeiro visando a sumarização automática. In: PROCEEDINGS OF TIL, 27.,
HAREM. Além disso, visando futuros trabalhos de 2007.Anais... [S.l.:s.n.], 2007, p. 1605–1614.
avaliação da ferramenta, converteu-se os conjuntos de [9] USBECK, Ricardo et al. GERBIL: general entity annotator benchmarking
dados HAREM (Primeiro e Segundo) e SUMM-IT para o framework. In: Proceedings of the 24th international conference on World
Wide Web. International World Wide Web Conferences Steering Committee,
formato NIF, utilizado pela ferramenta de benchmarking 2015. p. 1133-1143.
GERBIL. Avaliou-se o modelo da FOX Português na [10] NGOMO, A.-C. N.; RÖDER, M.; MOUSSALLEM, D.; USBECK, R. ; SPECK,
ferramenta GERBIL a fim de se comparar ao estado da arte. R. Ben-gal: An automatic benchmark generator for entity recognition and
Com isso também foi possível realizar comparações entre linking. In: PROCEEDINGS OF THE 11TH INTERNATIONAL CONFERENCE
ON NATURAL LANGUAGE GENERATION, 1., 2018.Anais... [S.l.: s.n.], 2018,
conjuntos de referência anotados manual e p. 339–349.
automaticamente. Os resultados obtidos foram tratados com
[11] NGONGA NGOMO, A.-C.; BÜHMANN, L.; UNGER, C.; LEHMANN, J. ;
a ferramenta Jupyter gerando visualizações mais fáceis de GERBER, D. Sorry, i don’t speak sparql: translating sparql queries into
serem analisadas. Através delas, percebeu-se uma boa natural language. In: PROCEEDINGS OF THE 22ND INTERNATIONAL
CONFERENCE ON WORLD WIDE WEB, 1., 2013. Anais... [S.l.: s.n.], 2013,
precisão da FOX em relação a outras ferramentas, mas p. 977–988.
baixa abrangência, o que indica que a necessidade de se
[12] FONSECA, E. B.; CHIELE, G. C. ; VANIN, A. A. Reconhecimento de
treinar com mais Corpora anotado no português. entidades nomeadas para o português usando o opennlp. Anais do Encontro
Nacional de Inteligência Artificial e Computacional (ENIAC 2015), s. pp, v. 1,
p. 1, 2015.
A​GRADECIMENTOS 
[13] DO AMARAL, D. O.; FONSECA, E.; LOPES, L. ; VIEIRA, R. Comparing
Agradeço a todas as pessoas que nos incentivaram, nerp-crf with publicly available portuguese named entities recognition tools.
In: INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING
apoiaram e possibilitaram esta oportunidade de ampliar OF THE PORTUGUESE LANGUAGE, 1., 2014. Anais... [S.l.: s.n.], 2014, p.
nossos horizontes. Nossos familiares e mestres, 244–249.
especialmente aos nossos orientadores pelo tempo e [14] DAIBER, J.; JAKOB, M.; HOKAMP, C. ; MENDES, P. N. Improving efficiency
dedicação empregados em auxiliar na confecção desse and accuracy in multilingual entity extraction. In: PROCEEDINGS OF THE
9TH INTERNATIONAL CONFERENCE ON SEMANTIC SYSTEMS, 1.,
trabalho. 2013.Anais...[S.l.: s.n.], 2013, p. 121–124.

5
RMCT VOL. 34 Nº3, 2017
REVISTA MILITAR DE CIÊNCIA E TECNOLOGIA

Você também pode gostar