EstigmaEsquizofrenia ERMAC2023 v4 Identificado

XI ERMAC-RS
Encontro Regional de Matemática Aplicada e Computacional do Rio Grande do Sul

Pelotas, 28 a 30 de junho de 2023
ESTIGMA DA ESQUIZOFRENIA - APLICAÇÃO DE

MODELO DE MACHINE LEARNING PARA A
CLASSIFICAÇÃO DO USO DA PALAVRA
“ESQUIZOFRENIA” EM NOTÍCIAS JORNALÍSTICAS
Rogério Silva1 , Lucas Pedroso2 , Rafael Massuda3 , Daniel Stahlke4
1
Universidade Federal do Paraná, rogerio.mainardes@ufpr.br;
2
Universidade Federal do Paraná, lucaspedroso@ufpr.br
3
Universidade Federal do Paraná, rfmassuda@ufpr.br;
4
Universidade Federal do Paraná, daniel.rabitzsch@ufpr.br.
RESUMO: Na busca por entender a forma como o estigma da doença mental está
sendo tratado em nossa sociedade, mais especificamente a esquizofrenia, neste trabalho
foi realizado um estudo sobre o contexto e a frequência do uso desta palavra em notı́cias
jornalı́sticas. Para aumentar o poder de abrangência da análise, foi implementado um
modelo de Deep Learning juntamente com técnicas de Processamento de Linguagem
Natural, que compreendeu o contexto e realizou a classificação das notı́cias de forma
automática. O modelo de Deep Learning consistiu em uma Rede Neural Multicamada
que efetuou a classificação dos textos vetorizados através da técnica Word2Vec. Após
a obtenção de uma acurácia de aproximadamente 93%, foram construı́das análises sob
nuvens de palavras, que destacam como encontra-se o cenário do estigma da esquizofrenia.
Palavras-chave: Estigma; Rede Neural; word2vec; Processamento de Linguagem Na-

tural.
1. INTRODUÇÃO
A esquizofrenia consiste em um transtorno mental do grupo das psicoses, tendo

como principal sintoma da doença os delı́rios e alucinações, geralmente associados
a um prejuı́zo na funcionalidade do portador da doença. O termo “esquizofrênico”,
muitas vezes é erroneamente utilizado para denotar algo de forma depreciativa, com
diversos significados de sentido metafórico.
Visando esta compreensão da forma com que o termo é tratado e, principal-
mente, como é utilizado no ramo jornalı́stico, realizou-se uma busca nos principais
jornais impressos do Brasil que liberam seus textos para assinantes.
Dada a quantidade de dados a serem coletados, uma coleta manual, jornal
a jornal, tornaria o processo impraticável a curto prazo, sendo então necessária a
implementação de algoritmos de raspagem de dados.
Com a conclusão do processo de coleta de dados, muitas notı́cias foram clas-
sificadas manualmente pelos envolvidos no projeto, visando a criação de uma base
de dados minimamente equilibrada para o desenvolvimento do modelo de Deep Le-
arning.
No presente contexto, o modelo de Deep Learning a grosso modo, consiste em
um complexo de composições de funções matemáticas que realizam cálculos para
1
XI ERMAC–RS, Pelotas - 28 a 30 de junho de 2023
determinar a classificação final do texto, sendo assim, foi necessária a utilização de

um algoritmo que transformasse os textos coletados em vetores e valores numéricos.
Para isso, a técnica aqui utilizada que apresentou melhores resultados foi o Word2Vec
(MIKOLOV et al., 2013), que localiza as palavras em um espaço vetorial textual,
facilitando assim o modelo em Deep Learning a generalizar quais regiões do espaço
de variáveis classificar como o uso metafórico e não-metafórico da palavra “esquizo-
frenia”.
2. COLETA DE DADOS
Como já mencionado, a coleta dos dados das notı́cias de forma manual tornaria
o desenvolvimento do projeto muito mais complexo, sendo assim, com o auxı́lio
da linguagem de programação Python da biblioteca BeautifulSoup (RCHARDSON,
2007), a coleta conseguiu ser realizada de forma muito mais rápida e massiva.
Após a escolha dos jornais, sendo estes, Folha de São Paulo, Estadão e Correio
do Povo, foi realizada uma pesquisa inicial para o levantamento dos links das notı́cias
que continuam o uso da palavra “esquizofrenia”.
Foram coletados ao todo:
• Folha de São Paulo: 4664 links;
• Estadão: 2398 links;
• Correio do Povo: 210 links.
Destes links, para a criação de uma base de dados mı́nima para treinamento
do modelo, considerando “não-metafóricos” como contexto médico, literal e “me-
tafóricos” como o uso indevido do termo, foram rotulados manualmente:
• Folha de São Paulo: 1341 links:
– 1032 não-metafóricos;
– 309 metafóricos.
• Estadão: 288 links:
– 86 não-metafóricos;
– 202 metafóricos.
Totalizando então 1629 links de textos para treinamento, teste e validação do
modelo de Deep Learning, com um balanceamento de aproximadamente 70% dos
dados rotulados como não-metafóricos e 30% metafóricos.
Após a coleta dos dados e a rotulagem de dos links de forma manual, o algo-
ritmo para extração, apenas coletava todos os trechos que representavam de fato a
notı́cia (dispensando propagandas e comentários adicionais) e salvava os textos em
tabelas.
Em seguida, era realizado ainda um tratamento, para serem considerados ape-
2
nas os parágrafos que envolviam a palavra “esquizofrenia”. A utilização da notı́cia

completa no modelo apresentava muitos ruı́dos nas vetorizações, sendo descartada
rapidamente.
3. TRATAMENTO DA BASE DE DADOS
Com os dados armazenados em suas devidas tabelas, para dar seguimento com
a vetorização dos textos era necessário realizar um processamento inicial nos textos,
tornando minúsculas as letras maiúsculas, vı́rgulas e outros possı́veis caracteres es-
peciais que podem surgir. Além disso, ainda é necessária a remoção das chamadas
stopwords, palavras que existem apenas para fazer conexões e não necessariamente
trazem algum significado para o texto, tais como “os’, “as”, “o”, “a” etc.
Para todo este processo inicial foram utilizados apenas alguns métodos de
strings da própria linguagem de programação. Já para o tratamento das stopwords,
optou-se pela utilização da biblioteca de nome spacy (HONNIBAL; MONTANI,
2017), uma biblioteca em Python para Processamento de Linguagem Natural a nı́vel
industrial.
Assim, com o tratamento utilizado, abaixo temos um pequeno exemplo do
resultado de tratamento do texto:
Input: “Sem querer descartar qualquer apoio, Álvaro Dias disse que pode ser
considerado o candidato mais ao centro na disputa deste ano”.
Output: “querer descartar álvaro dias disse considerado candidato centro
disputa ano”.
4. VETORIZAÇÃO DOS TEXTOS
Como já mencionado, o input para o modelo deve ser de forma numérica, sendo
assim necessário alguma forma de transpor o texto em forma vetorial. Atualmente
existem diversas formas e algoritmos que permitem o desenvolvimento deste processo
tais como TF-IDF ou o atual estado da Arte, o algoritmo da Google de nome Bidi-
rectional Encoder Representations from Transformers (BERT). Porém, a aplicação
deste último pode ter limitações na quantidade de palavras necessárias para veto-
rização. Para este trabalho, como são utilizados parágrafos por completo, em alguns
momentos isso poderia ser um problema. Dado este cenário, optou-se por utilizar
uma abordagem existente anterior ao BERT, a técnica Word2Vec (MIKOLOV et
al., 2013).
Esta técnica consiste, de forma bastante resumida, em transformar uma pala-
vra em um vetor dentro de um espaço vetorial de palavras. Assim, palavras com
3
Figura 1. Exemplo do processo de Word2Vec.

Fonte: Medium. Acesso: 10/04/2023.
significados de certo modo semelhantes tendem a permanecer próximos no espaço, já

palavras com significados e contextos muito distintos acabam ficando mais separadas
no espaço. Um exemplo da técnica pode ser visto na Figura 1.
Este tipo de modelo, como comentado, faz necessária criação de um espaço
vetorial de palavras, que por maior que fosse o banco de dados de notı́cia coletado,
ainda não seria o suficiente. Para tal problema, a solução encontrada foi a utilização
de um modelo de linguagem já treinado: O repositório de word embeddings do
Núcleo Interinstitucional de Linguı́stica Computacional (NILC) (HARTMANN et
al., 2017).
O NILC é um repositório para armazenamento e compartilhamento de vetores
de palavras (word embeddings) para a lı́ngua portuguesa. Os modelos encontrados lá
são treinados com bases em várias fontes de dados textuais distintos como Wikipédia,
GoogleNews, Revista Mundo Estranho e muitos outros.
Foram testados os modelos do tipo Continuous Bag Of Words (CBOW) com
100, 300 e 600 dimensões, sendo o último o qual apresentou os melhores desempenhos
sendo então adotado por definitivo.
Com isso, agora o texto recebido após o tratamento anterior, agora passava
pela etapa de vetorização para finalmente entrar como input para o modelo.
5. REDE NEURAL MULTICAMADA
Finalmente, após tantos processamentos dos dados foi realizada de fato a cons-
trução do modelo de Deep Learning. Como já apontado, o modelo que apresentou
melhor resultados consistiu em uma Rede Neural Multicamada (MLP) (PATTER-
SON; GIBSON, 2017), Figura 2, que foi arquitetada a partir de experimentos.
4
Figura 2. MLP.
Fonte: Medium. Acesso: 10/04/2023.
Ainda com a utlização da linguagem Python, a rede foi construı́da com a

biblioteca Tensorflow.keras (CHOLLET, 2015) e possuı́ a arquitetura mostrada na
Tabela 1.
Tabela 1. Arquitetura da Rede Neural utilizada
Camada Parâmetro Ativação
1 512 Neurônios swish
2 20% Dropout
4 20% Dropout
6 20% Dropout
8 1 Neurônios sigmóide
Fonte: do autor.
A rede consiste em uma interpolação de camadas densas e dropouts (que fazem

a desativação de um percentual de neurônios de forma aleatória).
Dentre todos os hiperparâmetros utilizados para a arquitetura da rede, a uti-
lização da função swish nas camadas de entrada e escondidas do modelo trouxe
maior estabilidade e constância no treinamento, se saindo muito melhor que a uti-
lização da função ReLU como é muitas vezes recomendado. Seus gráficos podem
ser vistos na Figura 3.
1
Sigmoide: σ(x) = β ∈ Rn (1)
1 + eβ T x
x
Swish: , β ∈ Rn (2)
1 + eβ T x
Além disso, para o treinamento do modelo, foram utilizados ainda os seguintes
parâmetros:
• Loss: binary crossentropy;
• Otimizador: Gradiente Estocástico Descendente (SGD) (BOTTOU, 2012),
learning rate = 0.001 e passo de Nesterov;
5
Figura 3. Funções de ativação Swish, Sigmoide.

Fonte: do autor.
• Batch de dados de tamanho 10;

• Total de Epochs de 100;
• Função Callback de EarlyStop com patience = 10.
6. RESULTADOS
Do total de dados rotulados, para o treinamento do modelo considerou-se 1228

para treino e 308 para teste (processo de cross-validation), restando então 93 dados
para validação.
Podemos observar o processo de treinamento do modelo com o gráfico da Fi-
gura 4.
Figura 4. Acompanhamento do desempenho de treinamento.

Fonte: do autor.
Em suas métricas finais, nos dados de teste, o modelo atingiu 94% de acurácia,
com 93% de precisão nos dados não-metafóricos e 94% de precisão nos dados me-
tafóricos. Obteve-se a matriz de confusão apresentada na Figura 5.
Já nos dados de validação, o modelo atingiu 92% de acurácia, sendo 94% de
precisão nos dados não-metafórico e 89% de precisão nos dados metafóricos. Como
pode ser visto na Figura 5.
Com estes resultados, foi possı́vel utilizar o modelo para classificar o restante
dos dados, sendo então possı́vel criar as nuvens de palavras que representavam os
cenários para cada ano, que podemos observar na Figura 6 e Figura 7.
6
Figura 5. Matriz de confusão dos dados de teste e de validação.

Fonte: do autor.
Figura 6. Núvem de palavras dos textos não-metafóricos.

Fonte: do autor.
7. CONCLUSÕES
Com as nuvens de palavras obtidas ao final do processo, é possı́vel notar uma

diferenciação clara dos contextos onde a palavra esquizofrenia é utilizada no sentido
metafórico, dando bastante destaque ainda para os termos associados a polı́tica que
aparecem nas nuvens.
O desempenho do modelo se apresentou bastante consistente, trazendo apenas

confusões em contextos bastante especı́fico, tais como atores interpretando persona-
gens esquizofrênicos.
Como trabalho futuro, mais análises ainda serão feitas visando uma melhor
compreensão dos picos do uso do termo esquizofrenia como conotação negativa no
decorrer do tempo.
7
Figura 7. Núvem de palavras dos textos metafóricos.

Fonte: do autor.
REFERÊNCIAS
Bottou, L. Stochastic Gradient Tricks. In Neural Networks, Tricks of the Trade,

Reloaded, G. Montavon, G. B. Orr, e K-R. Müller, Eds., Lecture Notes in Com-
puter Science (LNCS 7700). Springer, 2012, pp. 430-445.
Chollet F., others. Keras. GitHub; 2015. Acessado em 10/04/2023,

https://github.com/fchollet/keras.
Correio do Povo. Online. Acessado em 10/04/2023,

https://www.correiodopovo.com.br.
Estadão — As Últimas Notı́cias do Brasil e do Mundo. Online. Acessado em

10/04/2023, https://www.estadao.com.br.
Folha de S. Paulo: Notı́cias, Vı́deos e Entrevistas. Online. Acessado em 10/04/2023,

https://www.folha.uol.com.br.
Hartmann, N., Fonseca, E., Shulby, C., Treviso, M., Rodrigues, J., & Aluisio, S.
(2017). Portuguese Word Embeddings: Evaluating on Word Analogies
and Natural Language Tasks. doi:10.48550/ARXIV.1708.06025
Honnibal, M., Montani, I. spaCy 2: Natural language understanding with

Bloom embeddings, convolutional neural networks and incremental par-
sing. 2017.
Mikolov, T., Chen, K., Corrado, G., Dean, J. Efficient estimation of word re-
presentations in vector space. arXiv preprint arXiv:13013781. 2013;
Patterson, J., Gigbson, A. Deep Learning: A Practioner’s Approach, Packt

Publishing Ltd., 2017.
Richardson, L. Beautiful soup documentation. Acessado em 10/04/2023,

https://www.crummy.com/software/BeautifulSoup/bs4/doc/.

EstigmaEsquizofrenia ERMAC2023 v4 Identificado

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

EstigmaEsquizofrenia ERMAC2023 v4 Identificado

Enviado por

Direitos autorais:

Formatos disponíveis

XI ERMAC-RS

Encontro Regional de Matemática Aplicada e Computacional do Rio Grande do Sul

ESTIGMA DA ESQUIZOFRENIA - APLICAÇÃO DE

Rogério Silva1 , Lucas Pedroso2 , Rafael Massuda3 , Daniel Stahlke4

Palavras-chave: Estigma; Rede Neural; word2vec; Processamento de Linguagem Na-

A esquizofrenia consiste em um transtorno mental do grupo das psicoses, tendo

determinar a classificação final do texto, sendo assim, foi necessária a utilização de

nas os parágrafos que envolviam a palavra “esquizofrenia”. A utilização da notı́cia

3. TRATAMENTO DA BASE DE DADOS

4. VETORIZAÇÃO DOS TEXTOS

Figura 1. Exemplo do processo de Word2Vec.

significados de certo modo semelhantes tendem a permanecer próximos no espaço, já

5. REDE NEURAL MULTICAMADA

Ainda com a utlização da linguagem Python, a rede foi construı́da com a

A rede consiste em uma interpolação de camadas densas e dropouts (que fazem

Figura 3. Funções de ativação Swish, Sigmoide.

• Batch de dados de tamanho 10;

Do total de dados rotulados, para o treinamento do modelo considerou-se 1228

Figura 4. Acompanhamento do desempenho de treinamento.

Figura 5. Matriz de confusão dos dados de teste e de validação.

Figura 6. Núvem de palavras dos textos não-metafóricos.

Com as nuvens de palavras obtidas ao final do processo, é possı́vel notar uma

O desempenho do modelo se apresentou bastante consistente, trazendo apenas

Figura 7. Núvem de palavras dos textos metafóricos.

Bottou, L. Stochastic Gradient Tricks. In Neural Networks, Tricks of the Trade,

Chollet F., others. Keras. GitHub; 2015. Acessado em 10/04/2023,

Correio do Povo. Online. Acessado em 10/04/2023,

Estadão — As Últimas Notı́cias do Brasil e do Mundo. Online. Acessado em

Folha de S. Paulo: Notı́cias, Vı́deos e Entrevistas. Online. Acessado em 10/04/2023,

Honnibal, M., Montani, I. spaCy 2: Natural language understanding with

Patterson, J., Gigbson, A. Deep Learning: A Practioner’s Approach, Packt

Richardson, L. Beautiful soup documentation. Acessado em 10/04/2023,

Você também pode gostar