Escolar Documentos
Profissional Documentos
Cultura Documentos
fabioseyiji@gmail.com
(16)93618-1901
eloize@ifsp.edu.br
(16) 98112-2433
CEP: 01109-010
Telefone: 11-3775-4570
e-mail: prp@ifsp.edu.br
RESUMO
Embora o português esteja entre as seis línguas mais usadas nas mídias
sociais1 e, apesar dos avanços nas pesquisas nessa área nos últimos anos, há
poucos trabalhos voltados para o domínio político, sendo a maior parte deles
focados em analisar o sentimento geral conduzido por um documento (i.e. o
comentário todo) ou uma sentença em particular (por exemplo, vide CARVALHO et
al., 2017; CRISTIANI; CAMARGO, 2020 e CAPELLARO; CASELI., 2021). Contudo,
abordagens que analisam o sentimento geral de um documento/sentença
apresentam limitações, quando um mesmo comentário expressa opiniões sobre
diferentes alvos de opinião. Por exemplo, em outro comentário sobre debate político
presente no corpus de textos utilizado neste estudo (CARVALHO et al., 2011):
“Portas muito bem, Sócrates a patinar.”, o sentimento em relação ao candidato
“Portas” (alvo de opinião) é positivo, enquanto o sentimento em relação ao candidato
“Sócrates”, também alvo de opinião, é negativo.
https://www.forbes.com/sites/bernardmarr/2018/05/21/how-much-data-do-we-create-every-day-the-mind-
blowing-stats-everyone-should-read/?sh=59ed2e8960ba (acessado em 31/08/2023).
DESENVOLVIMENTO (METODOLOGIA E ANÁLISE)
2
Corpus, cujo plural é corpora, é um conjunto de textos que serve como base de análise.
dispõe também de anotações de polaridade variando de -2 (o valor negativo mais
forte) até 2 (o valor positivo mais forte) e de alvos de opinião. Entretanto, nos
experimentos realizados neste estudo a polaridade -2 foi mapeada para -1
(negativa) e a polaridade 2 foi mapeada para 1 (positiva), uma vez que os modelos
de classificação de polaridades investigados lidam com somente três classes
(positiva, negativa e neutra).
3
https://colab.research.google.com (acesso em 29/11/2023).
4
https://www.nltk.org (acesso em 29/11/2023)
5
https://spacy.io/usage#quickstart (acesso em 29/11/2023).
6
Um token é um elemento qualquer de uma sentença como uma palavra, um numeral ou um sinal de
pontuação.
7
O lematizador retorna o lema de uma palavra, isto é, a sua versão na forma canônica, por exemplo,
propõem -> propor.
8
https://pandas.pydata.org (acesso em 29/11/2023).
(SubPROP), uma vez que, segundo , alvos de opinião comuns em textos de política
se referem a entidades como partidos políticos, candidatos, entidades políticas
(ministros, senadores, etc.). A terceira estratégia fez uso do parser sintático de
dependência, disponível na biblioteca SpaCy, para identificar os substantivos
próprios e comuns com papel de sujeitos na sentença, adicionando contexto e
especificidade à identificação de potenciais alvos de opinião
(SubPROP+SubCOM(suj)). A quarta estratégia refinou ainda mais o escopo ao
selecionar somente os substantivos próprios que também exercem o papel de
sujeito na sentença (SubPROP(suj)). Além disso, a quinta estratégia envolveu a
seleção de substantivos (próprios e comuns) que estão associados a alguma palavra
de sentimento via relação de dependência sintática (SubPROP+SubCOM(sent)). Por
fim, a sexta estratégia focou em identificar e trazer à tona as entidades nomeadas
presentes no texto (EntNome).
Para a quinta estratégia foram usados dois léxicos de sentimentos que para
identificar palavras de sentimento na sentença, a saber: o LIWC-PT9 (BALAGE et al.,
2013) e o SentiLex-PT10 (CARVALHO; SILVA, 2015). O LIWC-PT é um léxico geral
do português constituído por 127.149 instâncias organizadas em categorias. As
categorias posemo e negemo indicam emoção (polaridade) positiva e negativa,
respectivamente. Há também categorias para mineração de emoções como afeto,
raiva, tristeza, etc., porém essas não foram exploradas neste estudo. O SentiLex-PT,
por sua vez, foi concebido especificamente para a análise de sentimento e opinião
sobre entidades humanas. Ele é composto por 7.014 lemas e 82.347 formas
flexionadas organizadas em adjetivos, substantivos, verbos e expressões
idiomáticas. Porém, as expressões idiomáticas não foram usadas nesta pesquisa.
9
http://143.107.183.175:21380/portlex/index.php/pt/projetos/liwc (acessado em 27/11/2023).
10
https://github.com/sillasgonzaga/lexiconPT (acessado em 27/11/2023).
manual, comparando cada saída do sistema com a anotação original do corpus, ou
seja, com a anotação de referência.
11
https://ufal.mff.cuni.cz/udpipe/2
Conforme os resultados da Tabela 2, embora a estratégia baseada na
extração de entidades nomeadas tenha apresentado uma piora na precisão ao
usar todo o corpus na avaliação, novamente ela superou todas as demais
estratégias, apresentando um desempenho global melhor do que o obtido pelo
modelo GPT (F1-score). A maior precisão foi obtida usando a estratégia
baseada na extração de substantivos próprios com função de sujeito na
sentença (65.93%), enquanto que a maior cobertura foi obtida com a estratégia
baseada na entidades nomeadas e em substantivos comuns (74,69%).
Esses resultados mostram que, apesar de ser uma estratégia bastante
simples, a extração de alvos de opinião com base apenas em informações de
identidades nomeadas tem um desempenho superior ao do ChatGPT no
domínio investigado (da política).
REFERÊNCIAS BIBLIOGRÁFICAS
Assi, F. M., Candido, G. B., Silva., L. N. S., Silva, D. F., Caseli, H. M. UFSCar’s Team
at ABSAPT 2022: Using Syntax, Semantics and Context for Solving the Tasks. In
Montes-y-Gómez, M. et al. (eds.): Proceedings of the Iberian Languages Evaluation
Forum (IberLEF 2022), ABSAPT shared task.
Balage Filho, P.P.Aluísio, S.M.; Pardo, T.A.S. (2013). An Evaluation of the Brazilian
Portuguese LIWC Dictionary for Sentiment Analysis. In the Proceedings of the 9th
Brazilian Symposium in Information and Human Language Technology – STIL.
October 21-23, Fortaleza, Brasil, p. 215–219.
Carvalho, P., Teixeira, J., Sarmento, L., Silva, M. J. (2011). Liars and Saviors in a
Sentiment Annotated Corpus of Comments to Political Debates. In: 49th Annual
Meeting of The Association for Computational Linguistics, p. 564-568, Portland.
Liu, B. and Zhang, L. (2012). A survey of opinion mining and sentiment analysis.
Mining Text Data, pages 415–463.
Simões, A., Barreiro, A., Santos, D., Sousa-Silva, R., Tagnin, S. E. O. eds. (2015).
Linguística, Informática e Tradução: Mundos que se Cruzam, Oslo Studies in
Language 7(1), p. 425–438, ISSN 1890-9639 (printed)/ ISBN 978-82-91398-12-9
(eletronic).
Taboada, M., Brooke, J., Tofiloski, M., Voll, K., and Stede, M. (2011). Lexicon-based
methods for sentiment analysis. Computational Linguistics, 37:267–307.
Yadollahi, A., Shahraki, A. G., and Zaiane, O. R. (2017). Current state of text
sentiment analysis from opinion to emotion mining. ACM Computing Surveys,
50(2):1–33.
Assinatura do orientador:
Assinatura do bolsista: