Escolar Documentos
Profissional Documentos
Cultura Documentos
RIO PARANAÍBA
2019
SARA GORETTI ELIAS FERREIRA
RIO PARANAÍBA
2019
Resumo
Na esteira do ativismo político entre os jovens e toda a população, todos não estão apenas
ansiosos para compartilhar sua orientação política, mas igualmente curiosos em saber a
posição política do outro. Com o avanço da tecnologia, sabe-se que a necessidade emer-
gente de ativista político pode ser encontrado nas redes sociais, onde qualquer pessoa
tem acesso facilmente. É um fenômeno conhecido que a opinião pública é o maior in-
dicador de sucesso e fracasso dos partidos políticos e é um reflexo direto do reinado do
partido. Esta monograa tem como objetivo apresentar, avaliar e denir quais as melhores
técnicas de aprendizado semissupervisionado para a classificação automática de tweets
relacionados à política. Será abordado o conceito de Aprendizado de Máquina, com enfo-
que no Aprendizado Semissupervisionado, para a identificação de tópicos. Para finalizar,
será abordado também o método de avaliação por validação cruzada, para mensurar a
eficiência do algoritmo.
1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Referencial Teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Tweets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2 Coleta de Tweets/Dados . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.3 Pré-processamento de Tweets . . . . . . . . . . . . . . . . . . . . . 11
2.2 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Aprendizado Não Supervisionado . . . . . . . . . . . . . . . . . . . 12
2.2.2.1 Clusterização . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 Aprendizado Semissupervisionado . . . . . . . . . . . . . . . . . . . 13
2.2.4 Identificação de Tópicos . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4 Metodologia e Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1.1 Coleta de tweets usando o Tweepy . . . . . . . . . . . . . . . . . . . 16
4.1.2 Pré-processamento da base de dados criada . . . . . . . . . . . . . . 17
4.1.3 Implementação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.1.4 Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5 Resultados Esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7
1 Introdução
2 Referencial Teórico
2.1 Twitter
Desde o surgimento da internet, criação dos blogs e dos dispositivos móveis, as
mídias sociais acabaram evoluindo também como um meio de informação, com publi-
cações criadas e compartilhadas pelos usuários. Analisando-se textos, que indicam os
pensamentos e comunicações entre os usuários, consegue-se compreender as preocupações
e necessidades públicas, seja academicamente ou politicamente (YANG; RIM, 2014).
O Twitter é uma mídia social que permite que seus usuários disponibilizem e
obtenham informações úteis sobre problemas e assuntos atualmente discutidos em tempo
real. Yang e Rim (2014) afirma que Twitter e seus 500 milhões de usuários registrados
produzem mais de 340 milhões de tweets, de até 280 caracteres, por dia, permitindo
que eles interajam com celebridades, políticos, formadores de opinião e outros usuários.
Ainda há a opção de um usuário seguir ao outro, para acompanhar seus tweets em ordem
cronológica inversa, onde os tweets mais novos aparecem primeiro. Como os tweets são
criados por um variado número de usuários, é possível que seu teor não seja considerável
para os usuários.
Capítulo 2. Referencial Teórico 10
2.1.1 Tweets
A quantidade de dados gerados pelo Twitter é proporcional à sua comunidade
em expansão. Segundo Yang e Rim (2014), o Twitter Company Facts informou que em
30 de janeiro de 2016 o número de usuários ativos aumentou para 313 milhões, então
a expectativa de coletar dados de diferentes tópicos e opiniões relacionadas a assuntos
políticos é versátil.
Hernandez-Suarez et al. (2017) afirma que uma maneira simples de resolver esse
problema é usar o número de retweets por tweet. O conteúdo que atrai grandes públicos
pode ser facilmente propagado, mesmo que o autor não seja popular. Em outras palavras,
para encontrar tweets que sejam interessantes para um grande número de usuários, é
importante considerar a popularidade do conteúdo em vez da popularidade do autor.
Para tal, é necessário utilizar a análise semântica para pequenos textos, que usualmente
incluem conversações e desorganização nos mesmos.
As atividades políticas incluem uma vasta gama de categorias, uma vez que o
evento social tem um impacto eventual na sociedade, de acordo com Hernandez-Suarez
et al. (2017), a opinião flui no Twitter como uma tendência crescente, envolvendo grande
parte dos usuários globais criando tweets ou compartilhando a opinião direcionada que,
na maior parte, é expressa com hashtags.
Contas politicamente ativas representam uma grande parte dos trending topics do
Twitter, o que classifica a participação política como mecanismo principal de ampliação.
Os retweets são utilizados para mensurar as relações e dimensões afetivas para os políti-
cos, positiva ou negativamente. O ativismo social é um fator chave para a disseminação
de visões políticas, assuntos que não tenham relação com os ideais defendidos ou que os
contradizem, são os principais focos para debates e discussões. Estimar tendências favo-
ráveis pode anunciar posições políticas sobre os candidatos, podendo ser um sinal para
monitorar a tendência social contra os candidatos nos resultados eleitorais. Desconforto
social pode ser abordado como uma questão ética relacionada com discordância social
em decisões políticas, estudos de caso podem provar que, com a coleta desses dados, é
possível prever protestos ou manifestações (HERNANDEZ-SUAREZ et al., 2017).
plataforma de API permite amplo acesso aos dados públicos do Twitter que os próprios
usuários escolheram compartilhar com o mundo.
Uma maneira de fazer o uso dessas APIs é utilizando o Tweepy, que é uma bibli-
oteca que permite amplo acesso a elas. Com o Tweepy, é possível obter qualquer objeto e
usar qualquer método que a API oficial do Twitter ofereça (TWEEPY, 2019).
2.2.2.1 Clusterização
3 Trabalhos Relacionados
Atualmente as pessoas reagem aos partidos políticos por meio das mídias sociais,
algo que não acontecia com tanta frequência há uns anos atrás. Gull et al. (2016) diz
que, devido ao grande número e diversidade de postagens, as reações públicas não são
processadas e, portanto, não são geradas informações úteis que possam ser usadas para
formar uma imagem melhor da voz pública no cenário político. Para preencher a lacuna
de informações entre a opinião pública e fornecer um resumo correto da opinião do país, as
mídias sociais oferecem uma oportunidade única para ajudar tanto um cidadão comum,
quanto indivíduos inseridos no meio da política e até mesmo especialistas que buscam
acesso fácil e consolidado de dados sociais.
Angiani et al. (2016) destacam a importância das técnicas de pré-processamento
e mostram como elas podem melhorar a precisão do sistema da análise de sentimentos.
Primeiramente, foram obtidos os conjuntos de dados de 2015 e 2016(treinamento e teste,
respectivamente) da Análise de Sentimento do Twitter da SemEval. Os conjuntos de trei-
namento foram sujeitos à várias técnicas de pré-processamento. Após o texto de cada
instância de um conjunto ter sido pré-processado, as sentenças resultantes(os tweets lim-
pos) se tornaram as instâncias de um novo conjunto de treinamento. Então, esse conjunto
de dados foi usado para treinar um classificador e o conjunto de teste correspondente foi
classificado pelo Weka. Finalmente, as precisões dos classificadores obtidos em diferen-
tes módulos de pré-processamento são comparadas entre si, para avaliar a eficiência e a
eficácia de cada técnica.
O classificador utilizado por Angiani et al. (2016) foi feito usando o método Naive
Bayes Multinomial (NBM), ou seja, um algoritmo de Aprendizado de Máquina que dá
origem a um classificador probabilístico, que funciona com base no Teorema de Bayes,
com a forte suposição de que os recursos são mutuamente independentes.
Ramteke et al. (2017) também propuseram uma estrutura de dois estágios para
poderem criar dados de treinamento e partir dos dados do Twitter, sem comprometer a
relevância e e recursos textuais. É de conhecimento comum que algoritmos de classificação
de texto populares como Naive Bayes e SVM são algoritmos de aprendizado supervisi-
onado, que requerem um conjunto de dados de treinamento para executar a análise de
sentimento. A precisão desses algoritmos depende da quantidade e da qualidade dos dados
de treinamento rotulados. Como a maioria dos aplicativos sofre com a falta de dados de
treinamento, eles recorreram à análise de sentimento entre domínios, que perde recursos
relevantes para os dados de destino. Isso, por sua vez, afetou a precisão geral da classi-
ficação do texto. No fim, eles ainda porpuseram um modelo de aprendizado de máquina
escalonável, para prever os resultados das eleições usando a própria estrutura de dois
Capítulo 3. Trabalhos Relacionados 15
estágios.
Seguindo a mesma linha de pesquisa, Hernandez-Suarez et al. (2017) propuseram
uma metodologia de análise de humor para prever tendências políticas durante as eleições
presidenciais dos Estados Unidos em 2016. Tal análise é feita através da pré-classificação
de um conjunto de tweets com rótulos positivos e negativos construidos por um classifi-
catório de Naive Bayes. A ponderação dos recursos extraídos é um acréscimo importante
para selecionar as presenças mais significativas de palavras, a fim de aumentar a precisão
da classificação. Quando a classificação foi feita, foram destacados os tweets negativos e
positivos diários como entradas para uma atividade de previsão. O objetivo da previsão é
encontrar uma correlação entre a polaridade de humor dos usuários e uma tendência que
claramente não estabeleça um limite para prever qual candidato vencerá, mas pode ser
útil observar o comportamento on-line em relação a questões políticas. Para um estudo de
caso, foi mostrado que o uso de regressão regularizada pode reduzir recursos redundantes
e estabelecer um coeficiente de correlação adequado entre as pontuações calculadas e as
pesquisas em tempo real.
A estrutura criada por Castro, Kuffó e Vaca (2017) permitiu a aplicação das técni-
cas de análise de redes sociais e aprendizado de máquina não supervisionada para inferir
o alinhamento político em nível estadual durante a eleição parlamentar venezuelana, que
foi realizada em 6 de dezembro de 2015. Tal processo eleitoral ocorreu no meio de uma
polarização política aguda no país, as massas foram organizadas em torno de duas coali-
zões políticas com ideologia oposta: governo e oposição. Para descobrir automaticamente
as correspondentes preferências políticas do estado, foram analisados 60 mil tweets pu-
blicados dentro dos limites geográficos da Venezuela durante uma semana antes do dia
das eleições. Aplicando a própria estrutura criada, eles foram capazes de inferir um dado
alinhamento político do estado a partir das diferenças quantificadas nos padrões de comu-
nicação e nos perfis lingüísticos dos tweets agregados do estado. Foi demonstrado que a
atmosfera política on-line reflete a tendência de inflação na escala estadual, uma vez que
tornou-se capaz de prever a tendência eleitoral nos estados da Venezuela com uma precisão
de 87,5% tratando-se dos resultados das eleições oficiais publicamente disponíveis.
No artigo escrito por Soler, Cuartero e Roblizo (2012) foram usadas as eleições
espanholas para investigar o uso do Twitter, para descobrir se as conversas mantidas ali
poderiam antecipar, de alguma forma, os resultados das eleições. Para tal, foi desenvolvida
uma ferramenta, chamada Taratweet, para definir experimentos e capturar as conversas
definidas, e aplicá-la aos casos de três eleições espanholas durante 2011 e 2012. Os resul-
tados mostraram que o Twitter é usado para discussões políticas, e que as referências aos
diferentes partidos políticos se correlacionam signicativamente com os votos dos eleitores.
Esse é um indicador de que o Twitter pode ser usado por pesquisadores sociais como uma
ferramenta, entre outros, para prever os resultados futuros das eleições, com a devida
cautela, pois os dados medidos correspondem a ações distintas.
16
4 Metodologia e Cronograma
Para ser possível extrair uma opinião, primeiramente todos os dados devem ser
selecionados e extraídos do twitter, em forma de tweets. Depois de selecionado o conjunto
de dados dos tweets, eles serão filtrados e serão excluídos emoticons, sinais de pontuação
desnecessários e elementos indesejáveis. No novo grupo criado, após a filtragem de men-
sagens, todos os tweets serão transformados em letras minúsculas e serão divididos em
diferentes partes de tweets no campo específico. Após o pré-processamento, serão apli-
cados algoritmos semissupervisionados na base, tal aplicação será avaliada por validação
cruzada e o material utilizado para efetuar o experimento será um Macbook Air com
256GB de SSD, Intel Core i5 dual core de 1,8 GHz e memória integrada LPDDR3 de
8 GB com 1600 MHz. Os detalhes sobre as etapas adotadas para a classificação estão
descritos nas próximas subseções.
4.1 Metodologia
Com a intenção de identificar os tweets dos usuários, primeiramente todos os da-
dos serão selecionados e extraídos do twitter na forma de tweets, usando o Tweepy como
principal ferramenta. Depois de selecionar o conjunto de dados, esses tweets serão pré-
processados e deles serão retirados caracteres desnecessários, criando assim um novo con-
junto de teste. Feita a criação do novo conjunto, será dado início à implementação, onde
os dados serão transformados, através da aplicação do algoritmo escolhido, avaliados e
pulicados em repositório. A última etapa consistirá em efetuar a validação cruzada, para
que possa-se fazer a estimativa do quão preciso será o modelo criado.
4.1.3 Implementação
Algoritmos semissupervisionados serão escolhidos a partir de uma revisão da li-
teratura, todos eles serão implementados em Python, aplicados sobre a base de dados
pré-processada, avaliados e publicados em repositório para implantação.
4.1.4 Avaliação
Como método de avaliação, será realizada a validação cruzada. Como mostrado
por Kohavi et al. (1995), a validação cruzada é uma técnica utilizada para avaliação da
capacidade de generalização de um modelo, a partir de um conjunto de dados, comumente
utilizada em predições, estimando o grau de precisão do modelo, quando testado com outra
base de dados.
O enfoque da validação cruzada é o particionamento do conjunto de dados em
subconjuntos mutualmente exclusivos, alguns destes serão posteriormente utilizados para
estimar os parâmetros do modelo(dados de treinamento) e o restante dos subconjun-
tos(dados de validação ou de teste) são empregados na validação do modelo.
Diversas formas de realizar o particionamento dos dados foram citadas por Kohavi
et al. (1995), sendo as três pricipais: holdout, k-fold e leave-one-out. Posteriormente será
decidido qual foma se adequará melhor tendo em vista o objetivo pretendido.
Capítulo 4. Metodologia e Cronograma 18
4.2 Cronograma
A Tabela 1 mostra o cronograma do projeto em meses, de acordo com os tópicos
elucidados na metodologia.
5 Resultados Esperados
Referências
BAO, Y. et al. The role of pre-processing in twitter sentiment analysis. In: SPRINGER.
International Conference on Intelligent Computing. [S.l.], 2014. p. 615–624.
CASTRO, R.; KUFFÓ, L.; VACA, C. Back to #6D: Predicting Venezuelan states
political election results through Twitter. 2017 4th International Conference on
eDemocracy and eGovernment, ICEDEG 2017, p. 148–153, 2017.
GULL, R. et al. Pre processing of twitter’s data for opinion mining in political context.
Procedia Computer Science, Elsevier, v. 96, p. 1560–1570, 2016.
SOLER, J. M.; CUARTERO, F.; ROBLIZO, M. Twitter as a tool for predicting elections
results. Proceedings of the 2012 IEEE/ACM International Conference on
Advances in Social Networks Analysis and Mining, ASONAM 2012, IEEE, p.
1194–1200, 2012.
YANG, M.-C.; RIM, H.-C. Identifying interesting Twitter contents using topical analysis.
Expert Systems with Applications, v. 41, n. 9, p. 4330–4336, 2014.