Você está na página 1de 8

XI ERMAC-RS

Encontro Regional de Matemática Aplicada e Computacional do Rio Grande do Sul


Pelotas, 28 a 30 de junho de 2023

ESTIGMA DA ESQUIZOFRENIA - APLICAÇÃO DE


MODELO DE MACHINE LEARNING PARA A
CLASSIFICAÇÃO DO USO DA PALAVRA
“ESQUIZOFRENIA” EM NOTÍCIAS JORNALÍSTICAS

Rogério Silva1 , Lucas Pedroso2 , Rafael Massuda3 , Daniel Stahlke4

1
Universidade Federal do Paraná, rogerio.mainardes@ufpr.br;
2
Universidade Federal do Paraná, lucaspedroso@ufpr.br
3
Universidade Federal do Paraná, rfmassuda@ufpr.br;
4
Universidade Federal do Paraná, daniel.rabitzsch@ufpr.br.

RESUMO: Na busca por entender a forma como o estigma da doença mental está
sendo tratado em nossa sociedade, mais especificamente a esquizofrenia, neste trabalho
foi realizado um estudo sobre o contexto e a frequência do uso desta palavra em notı́cias
jornalı́sticas. Para aumentar o poder de abrangência da análise, foi implementado um
modelo de Deep Learning juntamente com técnicas de Processamento de Linguagem
Natural, que compreendeu o contexto e realizou a classificação das notı́cias de forma
automática. O modelo de Deep Learning consistiu em uma Rede Neural Multicamada
que efetuou a classificação dos textos vetorizados através da técnica Word2Vec. Após
a obtenção de uma acurácia de aproximadamente 93%, foram construı́das análises sob
nuvens de palavras, que destacam como encontra-se o cenário do estigma da esquizofrenia.

Palavras-chave: Estigma; Rede Neural; word2vec; Processamento de Linguagem Na-


tural.

1. INTRODUÇÃO

A esquizofrenia consiste em um transtorno mental do grupo das psicoses, tendo


como principal sintoma da doença os delı́rios e alucinações, geralmente associados
a um prejuı́zo na funcionalidade do portador da doença. O termo “esquizofrênico”,
muitas vezes é erroneamente utilizado para denotar algo de forma depreciativa, com
diversos significados de sentido metafórico.
Visando esta compreensão da forma com que o termo é tratado e, principal-
mente, como é utilizado no ramo jornalı́stico, realizou-se uma busca nos principais
jornais impressos do Brasil que liberam seus textos para assinantes.
Dada a quantidade de dados a serem coletados, uma coleta manual, jornal
a jornal, tornaria o processo impraticável a curto prazo, sendo então necessária a
implementação de algoritmos de raspagem de dados.
Com a conclusão do processo de coleta de dados, muitas notı́cias foram clas-
sificadas manualmente pelos envolvidos no projeto, visando a criação de uma base
de dados minimamente equilibrada para o desenvolvimento do modelo de Deep Le-
arning.
No presente contexto, o modelo de Deep Learning a grosso modo, consiste em
um complexo de composições de funções matemáticas que realizam cálculos para

1
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023

determinar a classificação final do texto, sendo assim, foi necessária a utilização de


um algoritmo que transformasse os textos coletados em vetores e valores numéricos.
Para isso, a técnica aqui utilizada que apresentou melhores resultados foi o Word2Vec
(MIKOLOV et al., 2013), que localiza as palavras em um espaço vetorial textual,
facilitando assim o modelo em Deep Learning a generalizar quais regiões do espaço
de variáveis classificar como o uso metafórico e não-metafórico da palavra “esquizo-
frenia”.

2. COLETA DE DADOS

Como já mencionado, a coleta dos dados das notı́cias de forma manual tornaria
o desenvolvimento do projeto muito mais complexo, sendo assim, com o auxı́lio
da linguagem de programação Python da biblioteca BeautifulSoup (RCHARDSON,
2007), a coleta conseguiu ser realizada de forma muito mais rápida e massiva.
Após a escolha dos jornais, sendo estes, Folha de São Paulo, Estadão e Correio
do Povo, foi realizada uma pesquisa inicial para o levantamento dos links das notı́cias
que continuam o uso da palavra “esquizofrenia”.
Foram coletados ao todo:
• Folha de São Paulo: 4664 links;
• Estadão: 2398 links;
• Correio do Povo: 210 links.
Destes links, para a criação de uma base de dados mı́nima para treinamento
do modelo, considerando “não-metafóricos” como contexto médico, literal e “me-
tafóricos” como o uso indevido do termo, foram rotulados manualmente:
• Folha de São Paulo: 1341 links:
– 1032 não-metafóricos;
– 309 metafóricos.
• Estadão: 288 links:
– 86 não-metafóricos;
– 202 metafóricos.
Totalizando então 1629 links de textos para treinamento, teste e validação do
modelo de Deep Learning, com um balanceamento de aproximadamente 70% dos
dados rotulados como não-metafóricos e 30% metafóricos.
Após a coleta dos dados e a rotulagem de dos links de forma manual, o algo-
ritmo para extração, apenas coletava todos os trechos que representavam de fato a
notı́cia (dispensando propagandas e comentários adicionais) e salvava os textos em
tabelas.
Em seguida, era realizado ainda um tratamento, para serem considerados ape-

2
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023

nas os parágrafos que envolviam a palavra “esquizofrenia”. A utilização da notı́cia


completa no modelo apresentava muitos ruı́dos nas vetorizações, sendo descartada
rapidamente.

3. TRATAMENTO DA BASE DE DADOS

Com os dados armazenados em suas devidas tabelas, para dar seguimento com
a vetorização dos textos era necessário realizar um processamento inicial nos textos,
tornando minúsculas as letras maiúsculas, vı́rgulas e outros possı́veis caracteres es-
peciais que podem surgir. Além disso, ainda é necessária a remoção das chamadas
stopwords, palavras que existem apenas para fazer conexões e não necessariamente
trazem algum significado para o texto, tais como “os’, “as”, “o”, “a” etc.
Para todo este processo inicial foram utilizados apenas alguns métodos de
strings da própria linguagem de programação. Já para o tratamento das stopwords,
optou-se pela utilização da biblioteca de nome spacy (HONNIBAL; MONTANI,
2017), uma biblioteca em Python para Processamento de Linguagem Natural a nı́vel
industrial.
Assim, com o tratamento utilizado, abaixo temos um pequeno exemplo do
resultado de tratamento do texto:
Input: “Sem querer descartar qualquer apoio, Álvaro Dias disse que pode ser
considerado o candidato mais ao centro na disputa deste ano”.
Output: “querer descartar álvaro dias disse considerado candidato centro
disputa ano”.

4. VETORIZAÇÃO DOS TEXTOS

Como já mencionado, o input para o modelo deve ser de forma numérica, sendo
assim necessário alguma forma de transpor o texto em forma vetorial. Atualmente
existem diversas formas e algoritmos que permitem o desenvolvimento deste processo
tais como TF-IDF ou o atual estado da Arte, o algoritmo da Google de nome Bidi-
rectional Encoder Representations from Transformers (BERT). Porém, a aplicação
deste último pode ter limitações na quantidade de palavras necessárias para veto-
rização. Para este trabalho, como são utilizados parágrafos por completo, em alguns
momentos isso poderia ser um problema. Dado este cenário, optou-se por utilizar
uma abordagem existente anterior ao BERT, a técnica Word2Vec (MIKOLOV et
al., 2013).
Esta técnica consiste, de forma bastante resumida, em transformar uma pala-
vra em um vetor dentro de um espaço vetorial de palavras. Assim, palavras com

3
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023

Figura 1. Exemplo do processo de Word2Vec.


Fonte: Medium. Acesso: 10/04/2023.

significados de certo modo semelhantes tendem a permanecer próximos no espaço, já


palavras com significados e contextos muito distintos acabam ficando mais separadas
no espaço. Um exemplo da técnica pode ser visto na Figura 1.
Este tipo de modelo, como comentado, faz necessária criação de um espaço
vetorial de palavras, que por maior que fosse o banco de dados de notı́cia coletado,
ainda não seria o suficiente. Para tal problema, a solução encontrada foi a utilização
de um modelo de linguagem já treinado: O repositório de word embeddings do
Núcleo Interinstitucional de Linguı́stica Computacional (NILC) (HARTMANN et
al., 2017).
O NILC é um repositório para armazenamento e compartilhamento de vetores
de palavras (word embeddings) para a lı́ngua portuguesa. Os modelos encontrados lá
são treinados com bases em várias fontes de dados textuais distintos como Wikipédia,
GoogleNews, Revista Mundo Estranho e muitos outros.
Foram testados os modelos do tipo Continuous Bag Of Words (CBOW) com
100, 300 e 600 dimensões, sendo o último o qual apresentou os melhores desempenhos
sendo então adotado por definitivo.
Com isso, agora o texto recebido após o tratamento anterior, agora passava
pela etapa de vetorização para finalmente entrar como input para o modelo.

5. REDE NEURAL MULTICAMADA

Finalmente, após tantos processamentos dos dados foi realizada de fato a cons-
trução do modelo de Deep Learning. Como já apontado, o modelo que apresentou
melhor resultados consistiu em uma Rede Neural Multicamada (MLP) (PATTER-
SON; GIBSON, 2017), Figura 2, que foi arquitetada a partir de experimentos.

4
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023

Figura 2. MLP.
Fonte: Medium. Acesso: 10/04/2023.

Ainda com a utlização da linguagem Python, a rede foi construı́da com a


biblioteca Tensorflow.keras (CHOLLET, 2015) e possuı́ a arquitetura mostrada na
Tabela 1.
Tabela 1. Arquitetura da Rede Neural utilizada
Camada Parâmetro Ativação
1 512 Neurônios swish
2 20% Dropout
3 256 Neurônios swish
4 20% Dropout
5 128 Neurônios swish
6 20% Dropout
7 64 Neurônios swish
8 1 Neurônios sigmóide
Fonte: do autor.

A rede consiste em uma interpolação de camadas densas e dropouts (que fazem


a desativação de um percentual de neurônios de forma aleatória).
Dentre todos os hiperparâmetros utilizados para a arquitetura da rede, a uti-
lização da função swish nas camadas de entrada e escondidas do modelo trouxe
maior estabilidade e constância no treinamento, se saindo muito melhor que a uti-
lização da função ReLU como é muitas vezes recomendado. Seus gráficos podem
ser vistos na Figura 3.

1
Sigmoide: σ(x) = β ∈ Rn (1)
1 + eβ T x
x
Swish: , β ∈ Rn (2)
1 + eβ T x
Além disso, para o treinamento do modelo, foram utilizados ainda os seguintes
parâmetros:
• Loss: binary crossentropy;
• Otimizador: Gradiente Estocástico Descendente (SGD) (BOTTOU, 2012),
learning rate = 0.001 e passo de Nesterov;

5
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023

Figura 3. Funções de ativação Swish, Sigmoide.


Fonte: do autor.

• Batch de dados de tamanho 10;


• Total de Epochs de 100;
• Função Callback de EarlyStop com patience = 10.

6. RESULTADOS

Do total de dados rotulados, para o treinamento do modelo considerou-se 1228


para treino e 308 para teste (processo de cross-validation), restando então 93 dados
para validação.
Podemos observar o processo de treinamento do modelo com o gráfico da Fi-
gura 4.

Figura 4. Acompanhamento do desempenho de treinamento.


Fonte: do autor.

Em suas métricas finais, nos dados de teste, o modelo atingiu 94% de acurácia,
com 93% de precisão nos dados não-metafóricos e 94% de precisão nos dados me-
tafóricos. Obteve-se a matriz de confusão apresentada na Figura 5.
Já nos dados de validação, o modelo atingiu 92% de acurácia, sendo 94% de
precisão nos dados não-metafórico e 89% de precisão nos dados metafóricos. Como
pode ser visto na Figura 5.
Com estes resultados, foi possı́vel utilizar o modelo para classificar o restante
dos dados, sendo então possı́vel criar as nuvens de palavras que representavam os
cenários para cada ano, que podemos observar na Figura 6 e Figura 7.

6
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023

Figura 5. Matriz de confusão dos dados de teste e de validação.


Fonte: do autor.

Figura 6. Núvem de palavras dos textos não-metafóricos.


Fonte: do autor.

7. CONCLUSÕES

Com as nuvens de palavras obtidas ao final do processo, é possı́vel notar uma


diferenciação clara dos contextos onde a palavra esquizofrenia é utilizada no sentido
metafórico, dando bastante destaque ainda para os termos associados a polı́tica que
aparecem nas nuvens.

O desempenho do modelo se apresentou bastante consistente, trazendo apenas


confusões em contextos bastante especı́fico, tais como atores interpretando persona-
gens esquizofrênicos.

Como trabalho futuro, mais análises ainda serão feitas visando uma melhor
compreensão dos picos do uso do termo esquizofrenia como conotação negativa no
decorrer do tempo.

7
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023

Figura 7. Núvem de palavras dos textos metafóricos.


Fonte: do autor.

REFERÊNCIAS

Bottou, L. Stochastic Gradient Tricks. In Neural Networks, Tricks of the Trade,


Reloaded, G. Montavon, G. B. Orr, e K-R. Müller, Eds., Lecture Notes in Com-
puter Science (LNCS 7700). Springer, 2012, pp. 430-445.

Chollet F., others. Keras. GitHub; 2015. Acessado em 10/04/2023,


https://github.com/fchollet/keras.

Correio do Povo. Online. Acessado em 10/04/2023,


https://www.correiodopovo.com.br.

Estadão — As Últimas Notı́cias do Brasil e do Mundo. Online. Acessado em


10/04/2023, https://www.estadao.com.br.

Folha de S. Paulo: Notı́cias, Vı́deos e Entrevistas. Online. Acessado em 10/04/2023,


https://www.folha.uol.com.br.

Hartmann, N., Fonseca, E., Shulby, C., Treviso, M., Rodrigues, J., & Aluisio, S.
(2017). Portuguese Word Embeddings: Evaluating on Word Analogies
and Natural Language Tasks. doi:10.48550/ARXIV.1708.06025

Honnibal, M., Montani, I. spaCy 2: Natural language understanding with


Bloom embeddings, convolutional neural networks and incremental par-
sing. 2017.

Mikolov, T., Chen, K., Corrado, G., Dean, J. Efficient estimation of word re-
presentations in vector space. arXiv preprint arXiv:13013781. 2013;

Patterson, J., Gigbson, A. Deep Learning: A Practioner’s Approach, Packt


Publishing Ltd., 2017.

Richardson, L. Beautiful soup documentation. Acessado em 10/04/2023,


https://www.crummy.com/software/BeautifulSoup/bs4/doc/.

Você também pode gostar