Escolar Documentos
Profissional Documentos
Cultura Documentos
RESUMO: Com o surgimento dos computadores veio a ABSTRACT: With the emergence of computers came the need to
necessidade de se implementar tarefas que envolvam a implement tasks that involve human language, especially through
linguagem humana, principalmente através do processamento word processing. To process the information it is necessary to
de textos. Para processar as informações é necessário fazer o make use of Information Extraction tasks such as Named Entity
uso de tarefas de Extração de Informação como o Recognition (NER). Currently, the Federated Knowledge
Reconhecimento de Entidades Nomeadas (NER). Atualmente, a Extraction Framework (FOX) tool has achieved good results by
ferramenta FOX (Federated Knowledge Extraction Framework) combining, through machine learning techniques, other NER tools
tem conseguido bons resultados ao combinar, através de for the English language. Although there are already works for its
técnicas de aprendizado de máquina, outras ferramentas NER adaptation to other languages, no effort has yet been made to
para a língua inglesa. Embora já existam trabalhos para sua adapt it to Portuguese. The objective of the present work was to
adaptação para outros idiomas, ainda não foi feito um esforço no implement FOX in Portuguese. After analyzing the results
sentido de adaptá-la para o português. O objetivo do presente obtained, with the help of the visualizations developed in python, it
trabalho foi implementar a FOX na língua portuguesa. Após was noticed that in Portuguese it presents good precision
analisar os resultados obtidos, com ajuda das visualizações concerning other tools of the same purpose, but low recall, which
desenvolvidas em python, percebeu-se que no português ela indicates the need to train in more Corpora annotated in
apresenta boa precisão em relação a outras ferramentas de Portuguese.
mesmo m, mas baixa abrangência, o que indica a necessidade
se treinar em mais Corpora anotados no português.
PALAVRAS-CHAVE: Comitê. Machine Learning. Processamento KEYWORDS: Ensemble Learning. Machine Learning. Natural
de Linguagem Natural. Reconhecimento de Entidades Language Processing. Named Entity Recognition.
Nomeadas.
1
RMCT VOL. 34 Nº3, 2017
REVISTA MILITAR DE CIÊNCIA E TECNOLOGIA
medida em que permite usá-la como conhecimento básico
em aplicativos orientados a documentos, como faceted
browsing [6].
3.1 SUMM-IT
Além dos Corpora HAREM e BENGAL, o corpus
SUMM-IT quando foi elaborado tinha a intenção de
embasar pesquisas de discurso envolvendo relações
anafóricas e retóricas, e a sumarização automática [8]. Fig. 3 – Matriz de confusão da rede treinada com o Corpus
A sua construção foi anotada com o intuito de fornecer Primeiro HAREM.
contribuições para melhorar a Sumarização Automática,
isso tudo com informações discursivas. A fim de aprimorar
a coerência e o grau de informatividade dos sumários Fig. 4 – Métricas do treinamento da rede com o Corpus
Primeiro HAREM.
automáticos. Constitui-se de 50 textos jornalísticos do
caderno de Ciências da Folha de São Paulo retirados do
corpus PLN-BR. 5. AVALIAÇÃO
Através da ferramenta de benchmarking GERBIL foi
4. TREINAMENTO possível realizar experimentos com outras ferramentas de
NER que contêm suporte ao português, a fim de se
Dentre os algoritmos avaliados em Speck e Ngomo
comparar os resultados com o modelo obtido da FOX por
(2014), obteve-se melhores resultados com a rede
3
RMCT VOL. 34 Nº3, 2017
REVISTA MILITAR DE CIÊNCIA E TECNOLOGIA
esse trabalho. Foram utilizados os conjuntos de dados de dados testados. Especificamente, no Segundo Harem, ela
padrões Gold na obtenção desses resultados. As tabelas obteve um aumento de 55,44% com relação ao melhor
apresentadas são multidimensionais podendo ser classificador base utilizada em sua composição. Isso mostra
representadas por cubos e para melhor compreensão que entre as entidades reconhecidas pela FOX houve um
construiu-se gráficos com filtros considerados relevantes número baixo de falsos positivos. Por outro lado, a FOX
para as análises. apresentou uma abrangência relativamente baixa em
relação às demais ferramentas, significando que houve uma
6. TRATAMENTO DE DADOS grande quantidade de falsos negativos. Perdeu-se 25,18%
de sua abrangência comparada ao melhor valor. Vê-se então
Além de trabalho envolvendo a tradução da ferramenta que é necessário utilizar de mais conjuntos de treino de
FOX versão português, foi-se criado em paralelo uma forma a melhorar abrangência da ferramenta. Ao observar a
forma de visualizar os resultados de maneira mais clara e medida F1 observa-se que nos conjuntos anotados
objetiva para realizar uma análise mais precisa dos manualmente, a FOX foi capaz de superar as ferramentas
resultados dos experimentos. Utilizou-se a ferramenta em seus resultados individuais assim como outras
Jupyter Notebook 5.1 para escrever os códigos em Python disponíveis no mercado (vantagem de 12,16% no caso da
para com o intuito de automatizar e tornar mais rápido e Babelfy no HAREM). Contudo, obteve resultados
fácil a produção dos gráficos para a posterior análise. inferiores nos conjuntos anotados automaticamente da
A ideia para o desenvolvimento partiu da análise das ferramenta BENGAL. Nestes casos, o uso de MLP como
tabelas geradas pela GERBIL. É possível ver que a tabela comitê para as ferramentas se mostrou não vantajoso com
possuía uma estrutura de um cubo multidimensional e a relação aos resultados obtidos pela ferramenta Spotlight.
tarefa dessa visualização seria gerar cortes, tendo como
índices os Anotadores ou Conjunto de dados, que fossem
capaz de representar as métricas de forma a comparar esses
mesmo índices. Dessa forma, as possibilidades que seriam
mais viáveis seria agrupar esses campos em: anotadores,
conjunto de dados, micro métricas, macro métricas, e diante
disso permitir a geração de uma espécie de gráfico.
Encontra-se na figura 5 um esquema estrela que ilustra
como seria essa visão na forma de diagrama.
5
RMCT VOL. 34 Nº3, 2017
REVISTA MILITAR DE CIÊNCIA E TECNOLOGIA