Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Universidade Federal do Paraná, rogerio.mainardes@ufpr.br;
2
Universidade Federal do Paraná, lucaspedroso@ufpr.br
3
Universidade Federal do Paraná, rfmassuda@ufpr.br;
4
Universidade Federal do Paraná, daniel.rabitzsch@ufpr.br.
RESUMO: Na busca por entender a forma como o estigma da doença mental está
sendo tratado em nossa sociedade, mais especificamente a esquizofrenia, neste trabalho
foi realizado um estudo sobre o contexto e a frequência do uso desta palavra em notı́cias
jornalı́sticas. Para aumentar o poder de abrangência da análise, foi implementado um
modelo de Deep Learning juntamente com técnicas de Processamento de Linguagem
Natural, que compreendeu o contexto e realizou a classificação das notı́cias de forma
automática. O modelo de Deep Learning consistiu em uma Rede Neural Multicamada
que efetuou a classificação dos textos vetorizados através da técnica Word2Vec. Após
a obtenção de uma acurácia de aproximadamente 93%, foram construı́das análises sob
nuvens de palavras, que destacam como encontra-se o cenário do estigma da esquizofrenia.
1. INTRODUÇÃO
1
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023
2. COLETA DE DADOS
Como já mencionado, a coleta dos dados das notı́cias de forma manual tornaria
o desenvolvimento do projeto muito mais complexo, sendo assim, com o auxı́lio
da linguagem de programação Python da biblioteca BeautifulSoup (RCHARDSON,
2007), a coleta conseguiu ser realizada de forma muito mais rápida e massiva.
Após a escolha dos jornais, sendo estes, Folha de São Paulo, Estadão e Correio
do Povo, foi realizada uma pesquisa inicial para o levantamento dos links das notı́cias
que continuam o uso da palavra “esquizofrenia”.
Foram coletados ao todo:
• Folha de São Paulo: 4664 links;
• Estadão: 2398 links;
• Correio do Povo: 210 links.
Destes links, para a criação de uma base de dados mı́nima para treinamento
do modelo, considerando “não-metafóricos” como contexto médico, literal e “me-
tafóricos” como o uso indevido do termo, foram rotulados manualmente:
• Folha de São Paulo: 1341 links:
– 1032 não-metafóricos;
– 309 metafóricos.
• Estadão: 288 links:
– 86 não-metafóricos;
– 202 metafóricos.
Totalizando então 1629 links de textos para treinamento, teste e validação do
modelo de Deep Learning, com um balanceamento de aproximadamente 70% dos
dados rotulados como não-metafóricos e 30% metafóricos.
Após a coleta dos dados e a rotulagem de dos links de forma manual, o algo-
ritmo para extração, apenas coletava todos os trechos que representavam de fato a
notı́cia (dispensando propagandas e comentários adicionais) e salvava os textos em
tabelas.
Em seguida, era realizado ainda um tratamento, para serem considerados ape-
2
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023
Com os dados armazenados em suas devidas tabelas, para dar seguimento com
a vetorização dos textos era necessário realizar um processamento inicial nos textos,
tornando minúsculas as letras maiúsculas, vı́rgulas e outros possı́veis caracteres es-
peciais que podem surgir. Além disso, ainda é necessária a remoção das chamadas
stopwords, palavras que existem apenas para fazer conexões e não necessariamente
trazem algum significado para o texto, tais como “os’, “as”, “o”, “a” etc.
Para todo este processo inicial foram utilizados apenas alguns métodos de
strings da própria linguagem de programação. Já para o tratamento das stopwords,
optou-se pela utilização da biblioteca de nome spacy (HONNIBAL; MONTANI,
2017), uma biblioteca em Python para Processamento de Linguagem Natural a nı́vel
industrial.
Assim, com o tratamento utilizado, abaixo temos um pequeno exemplo do
resultado de tratamento do texto:
Input: “Sem querer descartar qualquer apoio, Álvaro Dias disse que pode ser
considerado o candidato mais ao centro na disputa deste ano”.
Output: “querer descartar álvaro dias disse considerado candidato centro
disputa ano”.
Como já mencionado, o input para o modelo deve ser de forma numérica, sendo
assim necessário alguma forma de transpor o texto em forma vetorial. Atualmente
existem diversas formas e algoritmos que permitem o desenvolvimento deste processo
tais como TF-IDF ou o atual estado da Arte, o algoritmo da Google de nome Bidi-
rectional Encoder Representations from Transformers (BERT). Porém, a aplicação
deste último pode ter limitações na quantidade de palavras necessárias para veto-
rização. Para este trabalho, como são utilizados parágrafos por completo, em alguns
momentos isso poderia ser um problema. Dado este cenário, optou-se por utilizar
uma abordagem existente anterior ao BERT, a técnica Word2Vec (MIKOLOV et
al., 2013).
Esta técnica consiste, de forma bastante resumida, em transformar uma pala-
vra em um vetor dentro de um espaço vetorial de palavras. Assim, palavras com
3
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023
Finalmente, após tantos processamentos dos dados foi realizada de fato a cons-
trução do modelo de Deep Learning. Como já apontado, o modelo que apresentou
melhor resultados consistiu em uma Rede Neural Multicamada (MLP) (PATTER-
SON; GIBSON, 2017), Figura 2, que foi arquitetada a partir de experimentos.
4
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023
Figura 2. MLP.
Fonte: Medium. Acesso: 10/04/2023.
1
Sigmoide: σ(x) = β ∈ Rn (1)
1 + eβ T x
x
Swish: , β ∈ Rn (2)
1 + eβ T x
Além disso, para o treinamento do modelo, foram utilizados ainda os seguintes
parâmetros:
• Loss: binary crossentropy;
• Otimizador: Gradiente Estocástico Descendente (SGD) (BOTTOU, 2012),
learning rate = 0.001 e passo de Nesterov;
5
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023
6. RESULTADOS
Em suas métricas finais, nos dados de teste, o modelo atingiu 94% de acurácia,
com 93% de precisão nos dados não-metafóricos e 94% de precisão nos dados me-
tafóricos. Obteve-se a matriz de confusão apresentada na Figura 5.
Já nos dados de validação, o modelo atingiu 92% de acurácia, sendo 94% de
precisão nos dados não-metafórico e 89% de precisão nos dados metafóricos. Como
pode ser visto na Figura 5.
Com estes resultados, foi possı́vel utilizar o modelo para classificar o restante
dos dados, sendo então possı́vel criar as nuvens de palavras que representavam os
cenários para cada ano, que podemos observar na Figura 6 e Figura 7.
6
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023
7. CONCLUSÕES
Como trabalho futuro, mais análises ainda serão feitas visando uma melhor
compreensão dos picos do uso do termo esquizofrenia como conotação negativa no
decorrer do tempo.
7
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023
REFERÊNCIAS
Hartmann, N., Fonseca, E., Shulby, C., Treviso, M., Rodrigues, J., & Aluisio, S.
(2017). Portuguese Word Embeddings: Evaluating on Word Analogies
and Natural Language Tasks. doi:10.48550/ARXIV.1708.06025
Mikolov, T., Chen, K., Corrado, G., Dean, J. Efficient estimation of word re-
presentations in vector space. arXiv preprint arXiv:13013781. 2013;