TCC I Sara PDF

UNIVERSIDADE FEDERAL DE VIÇOSA
CAMPUS DE RIO PARANAÍBA

SISTEMAS DE INFORMAÇÃO
SARA GORETTI ELIAS FERREIRA
AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO

SEMISSUPERVISIONADO PARA CLASSIFICAÇÃO
AUTOMÁTICA DE TWEETS RELACIONADOS À
POLÍTICA
RIO PARANAÍBA
2019
SARA GORETTI ELIAS FERREIRA
AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO

SEMISSUPERVISIONADO PARA CLASSIFICAÇÃO AUTOMÁTICA
DE TWEETS RELACIONADOS À POLÍTICA
Monografia à Universidade Federal de Viçosa

como parte das exigências para a aprova-
ção na disciplina Trabalho de Conclusão de
Curso I
Orientador: Felipe Provezano Coutinho
RIO PARANAÍBA
2019
Resumo
Na esteira do ativismo político entre os jovens e toda a população, todos não estão apenas
ansiosos para compartilhar sua orientação política, mas igualmente curiosos em saber a
posição política do outro. Com o avanço da tecnologia, sabe-se que a necessidade emer-
gente de ativista político pode ser encontrado nas redes sociais, onde qualquer pessoa
tem acesso facilmente. É um fenômeno conhecido que a opinião pública é o maior in-
dicador de sucesso e fracasso dos partidos políticos e é um reflexo direto do reinado do
partido. Esta monograa tem como objetivo apresentar, avaliar e denir quais as melhores
técnicas de aprendizado semissupervisionado para a classificação automática de tweets
relacionados à política. Será abordado o conceito de Aprendizado de Máquina, com enfo-
que no Aprendizado Semissupervisionado, para a identificação de tópicos. Para finalizar,
será abordado também o método de avaliação por validação cruzada, para mensurar a
eficiência do algoritmo.
Palavras-chaves: Identificação de tópicos, política, tweets, validação cruzada, aprendi-

zado semissupervisionado.
Abstract
In the wake of political activism among young people and the whole population, everyone
is not only eager to share their political orientation, but also equally curious to know the
political position of the other. With the advancement of technology, it is known that the
emerging need for political activist can be found in social networks, where anyone has
easy access. It is a known phenomenon that public opinion is the greatest indicator of
success or failure of political parties and this is a direct reflection of the party’s reign. This
paper aims to present, evaluate and define the best semi-supervised learning techniques for
the automatic classification of policy-related tweets. The concept of Machine Learning,
with a focus on Semi-Supervised Learning, for topic identification and the method of
cross-validation evaluation, will be approached to measure the efficiency of the algorithm.
Key-words: topic identification, politics, tweets, cross-validation, semi-supervised learn-

ing.
Lista de tabelas
Tabela 1 – Cronograma do Projeto . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Lista de abreviaturas e siglas
APIs Interfaces de Programação de Aplicativo
TS-LDA Trend Sensitive-Latent Dirichlet Allocation
SSD Unidade de estado sólido
SemEval Semantic Evaluation
NBM Naive Bayes Multinomial
SVM Máquina de vetores de suporte
HTML Linguagem de Marcação de Hipertexto

Sumário
1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Referencial Teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Tweets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2 Coleta de Tweets/Dados . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.3 Pré-processamento de Tweets . . . . . . . . . . . . . . . . . . . . . 11
2.2 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Aprendizado Não Supervisionado . . . . . . . . . . . . . . . . . . . 12
2.2.2.1 Clusterização . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 Aprendizado Semissupervisionado . . . . . . . . . . . . . . . . . . . 13
2.2.4 Identificação de Tópicos . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4 Metodologia e Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1.1 Coleta de tweets usando o Tweepy . . . . . . . . . . . . . . . . . . . 16
4.1.2 Pré-processamento da base de dados criada . . . . . . . . . . . . . . 17
4.1.3 Implementação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.1.4 Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5 Resultados Esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7
1 Introdução
As pessoas expressam suas opiniões de diferentes formas, seja baseada em algo

subjetivo, emotivo, avaliativo, crenças ou em sentimentos e especulações. Com a tecnologia
evoluindo e tornando-se mais forte, sabe-se que a tendência é as pessoas ficarem cada vez
mais conectadas.
De acordo com Gull et al. (2016), o público em geral, hoje em dia, reage e interage
com os partidos políticos por meio das mídias sociais. Devido ao grande número e diver-
sidade de posts, essas importantes reações públicas não são processadas para formular
informações úteis que possam ser usadas para formar uma imagem melhor da voz pú-
blica no cenário político. Nas redes sociais, a linguagem utilizada pelos usuários é muito
informal. Os usuários criam suas próprias linguagens, ortografia, pontuações, erros orto-
gráficos, gírias, novas palavras, URLs, terminologias e abreviaturas específicas do gênero.
Portanto, esse tipo de texto precisa e exige ser corrigido (BAO et al., 2014).
Angiani et al. (2016) afirma que mineração de texto é o processo de procurar ou
extrair as informações úteis dos dados textuais. É uma área de pesquisa empolgante,
pois tenta descobrir conhecimento de textos não estruturados. Também é conhecido como
mineração de dados de texto e descoberta de conhecimento em bancos de dados textuais.
O processo de mineração de texto é o mesmo que mineração de dados, exceto que as
ferramentas de mineração de dados são projetadas para manipular dados estruturados,
enquanto a mineração de texto pode manipular conjuntos de dados não estruturados
ou semi-estruturados, como e-mails, arquivos HTML e documentos de texto completo,
dentre outros. A Mineração de Texto é usada para localizar as informações novas e não
identificadas de diferentes recursos escritos.
Fora dos aplicativos comerciais, o aprendizado de máquina teve uma tremenda
influência na forma como a pesquisa orientada por dados é feita hoje, afirma Müller, Guido
et al. (2016). E, como exemplo, temos o Aprendizado Semissupervisionado, que entende-se
como a combinação de dados rotulados e não rotulados pode alterar o comportamento
de aprendizado e projetar algoritmos que aproveitam essa combinação. O Aprendizado
Semissupervisionado é de grande interesse no aprendizado de máquina e na mineração de
dados, pois ele pode usar dados não rotulados prontamente disponíveis para melhorar as
tarefas de aprendizado supervisionadas quando os dados rotulados são escassos ou caros.
A aprendizagem semissupervisionada também mostra o potencial como uma ferramenta
quantitativa para entender a aprendizagem da categoria humana, onde a maior parte da
contribuição é evidentemente não rotulada (ZHU; GOLDBERG, 2009).
Nesse contexto, percebe-se que a citada área encontra-se em constante pesquisa e
Capítulo 1. Introdução 8
evolução. E o presente trabalho visa estudar e avaliar técnicas de Aprendizado Semissuper-

visionado, para utilizar aquela que teve a maior acurária com a base de dados preparada,
para ser possível a classificação automática de tweets relacionados à política.
1.1 Objetivo Geral

O objetivo deste trabalho consiste em avaliar e explorar técnicas semissupervi-
sionadas para identificação de tweets relacionados à política, para, assim, elaborar uma
ferramenta capaz de rotular automaticamente os tweets de qualquer usuário.
1.2 Objetivos Específicos

Especificamente, pretende-se:
• Revisar a literatura a fim de encontrar técnicas já utilizadas para a exploração

pretendida;
• Definir diferentes técnicas semissupervisionadas que serão utilizadas durante o de-

senvolvimento do trabalho;
• Coletar e pré-processar uma base de dados composta de tweets de pessoas inseridas

no meio político;
• Implementar e aplicar as técnicas semissupervisionadas;
• Avaliar os resultados obtidos através da aplicação;
• Distribuir ferramentas para rotulação automática de tweets.

9
2 Referencial Teórico
O aprendizado de máquina é parte integral de muitas aplicações comerciais e pro-

jetos de pesquisa, em áreas que vão desde diagnóstico e tratamento médico até encontrar
os próprios amigos nas redes sociais. Segundo Müller, Guido et al. (2016) muitos pensam
que a aprendizagem de máquina só pode ser aplicada por grandes empresas com extensas
equipes de pesquisa, porém as aplicações do aprendizado de máquina são infinitas e, com a
quantidade de dados disponível atualmente, são limitadas somente pela nossa imaginação.
Tradicionalmente, existem dois tipos de aprendizado de máquina: o Não Supervi-
sionado e o Supervisionado. O Aprendizado Supervisionado é usado sempre que deseja-se
prever um determinado resultado de uma dada entrada, e existem exemplos de pares de
entrada/saída. O Aprendizado Supervisionado muitas vezes exige esforço humano para
construir o conjunto de treinamento, mas depois automatiza e muitas vezes acelera uma
tarefa laboriosa ou inviável. Já o Aprendizado Não Supervisionado abrange todos os tipos
de aprendizado de máquina onde não há saída conhecida. Na aprendizagem não super-
visionada são mostrados apenas os dados de entrada para o algoritmo de aprendizado e
é solicitado para que ele extraia conhecimento desses dados (MÜLLER; GUIDO et al.,
2016).
2.1 Twitter
Desde o surgimento da internet, criação dos blogs e dos dispositivos móveis, as
mídias sociais acabaram evoluindo também como um meio de informação, com publi-
cações criadas e compartilhadas pelos usuários. Analisando-se textos, que indicam os
pensamentos e comunicações entre os usuários, consegue-se compreender as preocupações
e necessidades públicas, seja academicamente ou politicamente (YANG; RIM, 2014).
O Twitter é uma mídia social que permite que seus usuários disponibilizem e
obtenham informações úteis sobre problemas e assuntos atualmente discutidos em tempo
real. Yang e Rim (2014) afirma que Twitter e seus 500 milhões de usuários registrados
produzem mais de 340 milhões de tweets, de até 280 caracteres, por dia, permitindo
que eles interajam com celebridades, políticos, formadores de opinião e outros usuários.
Ainda há a opção de um usuário seguir ao outro, para acompanhar seus tweets em ordem
cronológica inversa, onde os tweets mais novos aparecem primeiro. Como os tweets são
criados por um variado número de usuários, é possível que seu teor não seja considerável
para os usuários.
Capítulo 2. Referencial Teórico 10
2.1.1 Tweets
A quantidade de dados gerados pelo Twitter é proporcional à sua comunidade
em expansão. Segundo Yang e Rim (2014), o Twitter Company Facts informou que em
30 de janeiro de 2016 o número de usuários ativos aumentou para 313 milhões, então
a expectativa de coletar dados de diferentes tópicos e opiniões relacionadas a assuntos
políticos é versátil.
Hernandez-Suarez et al. (2017) afirma que uma maneira simples de resolver esse
problema é usar o número de retweets por tweet. O conteúdo que atrai grandes públicos
pode ser facilmente propagado, mesmo que o autor não seja popular. Em outras palavras,
para encontrar tweets que sejam interessantes para um grande número de usuários, é
importante considerar a popularidade do conteúdo em vez da popularidade do autor.
Para tal, é necessário utilizar a análise semântica para pequenos textos, que usualmente
incluem conversações e desorganização nos mesmos.
As atividades políticas incluem uma vasta gama de categorias, uma vez que o
evento social tem um impacto eventual na sociedade, de acordo com Hernandez-Suarez
et al. (2017), a opinião flui no Twitter como uma tendência crescente, envolvendo grande
parte dos usuários globais criando tweets ou compartilhando a opinião direcionada que,
na maior parte, é expressa com hashtags.
Contas politicamente ativas representam uma grande parte dos trending topics do
Twitter, o que classifica a participação política como mecanismo principal de ampliação.
Os retweets são utilizados para mensurar as relações e dimensões afetivas para os políti-
cos, positiva ou negativamente. O ativismo social é um fator chave para a disseminação
de visões políticas, assuntos que não tenham relação com os ideais defendidos ou que os
contradizem, são os principais focos para debates e discussões. Estimar tendências favo-
ráveis pode anunciar posições políticas sobre os candidatos, podendo ser um sinal para
monitorar a tendência social contra os candidatos nos resultados eleitorais. Desconforto
social pode ser abordado como uma questão ética relacionada com discordância social
em decisões políticas, estudos de caso podem provar que, com a coleta desses dados, é
possível prever protestos ou manifestações (HERNANDEZ-SUAREZ et al., 2017).
2.1.2 Coleta de Tweets/Dados

De acordo com o Twitter (2019), para compartilhar informações no Twitter da
forma mais ampla possível, o Twitter fornece a empresas, desenvolvedores e usuários,
acesso programático a dados do Twitter com as suas APIs. As APIs são a forma como os
programas de computador estabelecem uma conexão entre si, para trocarem informações.
Isso é feito permitindo-se a um aplicativo de software acessar um dispositivo conhecido
como terminal, ou seja, um endereço que corresponde a um tipo específico de informação
que é fornecida (terminais são, geralmente, únicos, como números de telefone e CPF). A
plataforma de API permite amplo acesso aos dados públicos do Twitter que os próprios
usuários escolheram compartilhar com o mundo.
Uma maneira de fazer o uso dessas APIs é utilizando o Tweepy, que é uma bibli-
oteca que permite amplo acesso a elas. Com o Tweepy, é possível obter qualquer objeto e
usar qualquer método que a API oficial do Twitter ofereça (TWEEPY, 2019).
2.1.3 Pré-processamento de Tweets

O método de pré-processamento é o primeiro passo no processo da mineração de
texto. O pré-processamento envolve uma série de técnicas que deve melhorar as próximas
fases de elaboração do projeto, a fim de obter melhores desempenhos (ANGIANI et al.,
2016).
É uma fase importante em todas as aplicações relevantes da mineração de dados.
Em Análise de Sentimentos, em particular, é citado em praticamente todos os trabalhos
de pesquisa disponíveis, afirma Angiani et al. (2016). No entanto, poucos trabalhos foram
especificamente dedicados a entender o papel de cada uma das técnicas básicas de pré-
processamento, que são frequentemente aplicadas a dados textuais.
Limite de caracteres, assuntos múltiplos, linguagem casual e ricos em símbolos,
todas essas características dos tweets tornam a Análise de Sentimentos do Twitter uma
tarefa desafiadora. O pré-processamento pode melhorar a precisão da classificação, além
de reduzir o espaço do recurso original, segundo Bao et al. (2014).
2.2 Aprendizado de Máquina

Aprendizado de máquina é um campo de pesquisa na interseção entre estatística,
inteligência artificial e ciência da computação e também é conhecido como análise preditiva
ou aprendizado estatístico. Segundo Müller, Guido et al. (2016), a aplicação de métodos
de aprendizado de máquina nos últimos anos tornou-se onipresente na vida cotidiana.
Desde as recomendações automáticas de quais filmes assistir, até que comida pedir ou
quais produtos comprar, até a rádio on-line personalizada e o reconhecimento de seus
amigos em suas fotos, muitos sites e dispositivos modernos têm algoritmos de aprendizado
de máquina em seu núcleo. Quando você olha para um site complexo como Facebook,
Amazon ou Netflix, é muito provável que cada parte do site contenha vários modelos de
aprendizado de máquina.
De acordo com a literatura e com James et al. (2013), o aprendizado de máquina
pode ser dividido em três categorias: Supervisionado, Não Supervisionado e Semissuper-
visionado.
2.2.1 Aprendizado Supervisionado

Em termos gerais, o Aprendizado Supervisionado envolve a construção de um
modelo estatístico para prever ou estimar uma saída com base em um ou mais inputs,
afirma James et al. (2013). Problemas dessa natureza ocorrem em campos diversos como
em negócios, medicina, astrofísica e políticas públicas.
Müller, Guido et al. (2016) afirma que os tipos mais bem-sucedidos de algoritmos
de aprendizado de máquina são aqueles que automatizam os processos de tomada de
decisão, generalizando a partir de exemplos conhecidos. Nessa configuração, conhecida
como Aprendizado Supervisionado, o usuário fornece o algoritmo com pares de entradas e
saídas desejadas, e o algoritmo encontra uma maneira de produzir a saída desejada, dada
uma entrada. Em particular, o algoritmo é capaz de criar uma saída para uma entrada
que nunca viu antes sem qualquer ajuda de um humano.
2.2.2 Aprendizado Não Supervisionado

Segundo James et al. (2013), com o aprendizado não supervisionado existem en-
tradas, mas nenhuma saída de supervisão. No entanto, pode-se aprender relacionamentos
e estruturas a partir desses dados.
A aprendizagem não supervisionada inclui todos os tipos de aprendizado de má-
quina nos quais não há saída conhecida. Na aprendizagem não supervisionada, é apre-
sentado ao algoritmo de aprendizado apenas os dados de entrada e solicitado a extrair
conhecimento desses dados (MÜLLER; GUIDO et al., 2016).
Um grande desafio na aprendizagem não supervisionada é avaliar se o algoritmo
aprendeu algo útil. Algoritmos de aprendizado não supervisionados geralmente são aplica-
dos a dados que não contêm informações sobre rótulos, afirma Müller, Guido et al. (2016),
portanto, não sabe-se qual deve ser a saída correta. Portanto, é muito difícil dizer se um
modelo “saiu-se bem”.
2.2.2.1 Clusterização
Clusterização é a tarefa de particionar o conjunto de dados em grupos, chamados

clusters. O objetivo, segundo Müller, Guido et al. (2016), é dividir os dados de forma que os
pontos em um único cluster sejam muito semelhantes e os pontos em clusters diferentes
sejam diferentes. Da mesma forma que os algoritmos de classificação, os algoritmos de
agrupamento atribuem (ou prevêem) um número a cada ponto de dados, indicando a qual
cluster um determinado ponto pertence. Na aprendizagem não supervisionada, apenas
os dados de entrada são conhecidos e nenhum dado de saída conhecido é fornecido ao
algoritmo.
Os algoritmos não supervisionados são usados com frequência em um ambiente
exploratório, quando um cientista de dados deseja entender melhor os dados, em vez de

fazer parte de um sistema automático maior. Outra aplicação comum para algoritmos não
supervisionados é como uma etapa de pré-processamento para algoritmos supervisionados.
Aprender uma nova representação dos dados pode, às vezes, melhorar a precisão dos
algoritmos supervisionados ou reduzir a memória e o consumo de tempo (MÜLLER;
GUIDO et al., 2016).
2.2.3 Aprendizado Semissupervisionado

Durante os últimos anos, o Aprendizado Semissupervisionado emergiu como uma
nova direção na pesquisa de aprendizado de máquina, afirma Chapelle, Scholkopf e Zien
(2009). Ele está no meio do caminho entre a aprendizagem supervisionada e a não supervi-
sionada. Além dos dados não rotulados, o algoritmo é fornecido com algumas informações
de supervisão - mas não necessariamente para todos os exemplos.
Os dados do conjunto do Aprendizado Semissupervisionado X = (xi )i∈[n] podem
ser divididos em duas partes: os pontos Xl = (x1 , ..., xl ), para os quais os rótulos Yl = (y1 ,
..., yl ) são fornecidos, e os pontos Xu = (xl+1 , ..., xl+u ), cujos rótulos não são conhecidos
(CHAPELLE; SCHOLKOPF; ZIEN, 2009).
O aprendizado Semissupervisionado é atraente porque pode utilizar dados rotula-
dos e não rotulados para obter melhor desempenho do que a aprendizagem supervisionada,
diz Zhu e Goldberg (2009). De uma perspectiva diferente, o aprendizado Semissupervisio-
nado pode atingir o mesmo nível de desempenho que o aprendizado supervisionado, mas
com menos ocorrências rotuladas. Isso reduz o esforço de rotulação dos objetos, o que leva
a um custo reduzido.
2.2.4 Identificação de Tópicos

A quantidade de informações compartilhadas aumenta continuamente em dife-
rentes meios de comunicação e isso motivou muitos pesquisadores a investigar algoritmos
capazes de recuperar e categorizar informações. Atualmente, existem muitos trabalhos em
mineração de texto em diferentes áreas e diferentes linguagens de programação (ABAI-
NIA, 2015).
Um aspecto desafiador na identificação de tópicos é que as palavras mais comuns
que prevalecem em um documento (ou seja, artigos, conjunções, verbos auxiliares, etc.) são
também as menos relevantes para determinar o tópico subjacente, afirma Hazen (2011).
Em vez disso, é o uso esporádico de algumas palavras de conteúdo específicas do conteúdo
que normalmente definem o tópico. Assim, é importante que os sistemas de identificação de
tópicos reduzam efeito de palavras de função sobre as decisões de classificação, reforçando
simultaneamente a contribuição das palavras que realmente dêem alguma informação.
14
3 Trabalhos Relacionados
Atualmente as pessoas reagem aos partidos políticos por meio das mídias sociais,
algo que não acontecia com tanta frequência há uns anos atrás. Gull et al. (2016) diz
que, devido ao grande número e diversidade de postagens, as reações públicas não são
processadas e, portanto, não são geradas informações úteis que possam ser usadas para
formar uma imagem melhor da voz pública no cenário político. Para preencher a lacuna
de informações entre a opinião pública e fornecer um resumo correto da opinião do país, as
mídias sociais oferecem uma oportunidade única para ajudar tanto um cidadão comum,
quanto indivíduos inseridos no meio da política e até mesmo especialistas que buscam
acesso fácil e consolidado de dados sociais.
Angiani et al. (2016) destacam a importância das técnicas de pré-processamento
e mostram como elas podem melhorar a precisão do sistema da análise de sentimentos.
Primeiramente, foram obtidos os conjuntos de dados de 2015 e 2016(treinamento e teste,
respectivamente) da Análise de Sentimento do Twitter da SemEval. Os conjuntos de trei-
namento foram sujeitos à várias técnicas de pré-processamento. Após o texto de cada
instância de um conjunto ter sido pré-processado, as sentenças resultantes(os tweets lim-
pos) se tornaram as instâncias de um novo conjunto de treinamento. Então, esse conjunto
de dados foi usado para treinar um classificador e o conjunto de teste correspondente foi
classificado pelo Weka. Finalmente, as precisões dos classificadores obtidos em diferen-
tes módulos de pré-processamento são comparadas entre si, para avaliar a eficiência e a
eficácia de cada técnica.
O classificador utilizado por Angiani et al. (2016) foi feito usando o método Naive
Bayes Multinomial (NBM), ou seja, um algoritmo de Aprendizado de Máquina que dá
origem a um classificador probabilístico, que funciona com base no Teorema de Bayes,
com a forte suposição de que os recursos são mutuamente independentes.
Ramteke et al. (2017) também propuseram uma estrutura de dois estágios para
poderem criar dados de treinamento e partir dos dados do Twitter, sem comprometer a
relevância e e recursos textuais. É de conhecimento comum que algoritmos de classificação
de texto populares como Naive Bayes e SVM são algoritmos de aprendizado supervisi-
onado, que requerem um conjunto de dados de treinamento para executar a análise de
sentimento. A precisão desses algoritmos depende da quantidade e da qualidade dos dados
de treinamento rotulados. Como a maioria dos aplicativos sofre com a falta de dados de
treinamento, eles recorreram à análise de sentimento entre domínios, que perde recursos
relevantes para os dados de destino. Isso, por sua vez, afetou a precisão geral da classi-
ficação do texto. No fim, eles ainda porpuseram um modelo de aprendizado de máquina
escalonável, para prever os resultados das eleições usando a própria estrutura de dois
Capítulo 3. Trabalhos Relacionados 15
estágios.
Seguindo a mesma linha de pesquisa, Hernandez-Suarez et al. (2017) propuseram
uma metodologia de análise de humor para prever tendências políticas durante as eleições
presidenciais dos Estados Unidos em 2016. Tal análise é feita através da pré-classificação
de um conjunto de tweets com rótulos positivos e negativos construidos por um classifi-
catório de Naive Bayes. A ponderação dos recursos extraídos é um acréscimo importante
para selecionar as presenças mais significativas de palavras, a fim de aumentar a precisão
da classificação. Quando a classificação foi feita, foram destacados os tweets negativos e
positivos diários como entradas para uma atividade de previsão. O objetivo da previsão é
encontrar uma correlação entre a polaridade de humor dos usuários e uma tendência que
claramente não estabeleça um limite para prever qual candidato vencerá, mas pode ser
útil observar o comportamento on-line em relação a questões políticas. Para um estudo de
caso, foi mostrado que o uso de regressão regularizada pode reduzir recursos redundantes
e estabelecer um coeficiente de correlação adequado entre as pontuações calculadas e as
pesquisas em tempo real.
A estrutura criada por Castro, Kuffó e Vaca (2017) permitiu a aplicação das técni-
cas de análise de redes sociais e aprendizado de máquina não supervisionada para inferir
o alinhamento político em nível estadual durante a eleição parlamentar venezuelana, que
foi realizada em 6 de dezembro de 2015. Tal processo eleitoral ocorreu no meio de uma
polarização política aguda no país, as massas foram organizadas em torno de duas coali-
zões políticas com ideologia oposta: governo e oposição. Para descobrir automaticamente
as correspondentes preferências políticas do estado, foram analisados 60 mil tweets pu-
blicados dentro dos limites geográficos da Venezuela durante uma semana antes do dia
das eleições. Aplicando a própria estrutura criada, eles foram capazes de inferir um dado
alinhamento político do estado a partir das diferenças quantificadas nos padrões de comu-
nicação e nos perfis lingüísticos dos tweets agregados do estado. Foi demonstrado que a
atmosfera política on-line reflete a tendência de inflação na escala estadual, uma vez que
tornou-se capaz de prever a tendência eleitoral nos estados da Venezuela com uma precisão
de 87,5% tratando-se dos resultados das eleições oficiais publicamente disponíveis.
No artigo escrito por Soler, Cuartero e Roblizo (2012) foram usadas as eleições
espanholas para investigar o uso do Twitter, para descobrir se as conversas mantidas ali
poderiam antecipar, de alguma forma, os resultados das eleições. Para tal, foi desenvolvida
uma ferramenta, chamada Taratweet, para definir experimentos e capturar as conversas
definidas, e aplicá-la aos casos de três eleições espanholas durante 2011 e 2012. Os resul-
tados mostraram que o Twitter é usado para discussões políticas, e que as referências aos
diferentes partidos políticos se correlacionam signicativamente com os votos dos eleitores.
Esse é um indicador de que o Twitter pode ser usado por pesquisadores sociais como uma
ferramenta, entre outros, para prever os resultados futuros das eleições, com a devida
cautela, pois os dados medidos correspondem a ações distintas.
16
4 Metodologia e Cronograma
Para ser possível extrair uma opinião, primeiramente todos os dados devem ser
selecionados e extraídos do twitter, em forma de tweets. Depois de selecionado o conjunto
de dados dos tweets, eles serão filtrados e serão excluídos emoticons, sinais de pontuação
desnecessários e elementos indesejáveis. No novo grupo criado, após a filtragem de men-
sagens, todos os tweets serão transformados em letras minúsculas e serão divididos em
diferentes partes de tweets no campo específico. Após o pré-processamento, serão apli-
cados algoritmos semissupervisionados na base, tal aplicação será avaliada por validação
cruzada e o material utilizado para efetuar o experimento será um Macbook Air com
256GB de SSD, Intel Core i5 dual core de 1,8 GHz e memória integrada LPDDR3 de
8 GB com 1600 MHz. Os detalhes sobre as etapas adotadas para a classificação estão
descritos nas próximas subseções.
4.1 Metodologia
Com a intenção de identificar os tweets dos usuários, primeiramente todos os da-
dos serão selecionados e extraídos do twitter na forma de tweets, usando o Tweepy como
principal ferramenta. Depois de selecionar o conjunto de dados, esses tweets serão pré-
processados e deles serão retirados caracteres desnecessários, criando assim um novo con-
junto de teste. Feita a criação do novo conjunto, será dado início à implementação, onde
os dados serão transformados, através da aplicação do algoritmo escolhido, avaliados e
pulicados em repositório. A última etapa consistirá em efetuar a validação cruzada, para
que possa-se fazer a estimativa do quão preciso será o modelo criado.
4.1.1 Coleta de tweets usando o Tweepy

A primeira etapa consiste em efetuar a coleta dos tweets de usuários variados, para
que seja possível criar uma base de dados consistente que possua tweets relacionados à
política ou não. Assim como foi feito por Gull et al. (2016), a ferramenta que será utilizada
para a extração dos tweets é o Tweepy, uma biblioteca implementada em Python, que é
eficiente e de fácil utilização. Em suma, a primeira etapa será para criar a base de dados
que, posteriormente, será pré-processada e estudada, tornando possível atingir o objetivo
final, que é identificar tópicos relacionados à política.
Capítulo 4. Metodologia e Cronograma 17
4.1.2 Pré-processamento da base de dados criada

Para dar início ao pré-processamento da base de dados criada, será feito um geren-
ciamento dos tweets, para que sejam retirados elementos indesejados e sem importância,
para que possa dar continuidade na normalização de tweets que contenham erros de orto-
grafia. A metodologia adotada será parecida com a realizada por Gull et al. (2016), que
fez uma varredura e análise dos tweets, antes de começar a utilizá-los.
Ao dar-se início à varredura, todos os tweets serão convertidos para letras minús-
culas, para que todos sigam um padrão de letra. Após, serão subtituídos por um esoaço
em branco os sinais de pontuação e emoticons, pois eles não serão necessários durante a
analise, além dos emoticons assumirem um formato de caixas, ao serem extraídos, per-
dendo sua forma real. Como última etapa da varredura, serão retiradas as URLs, pois
elas não fornecem nenhum tipo de informação durante a análise.
Além disso, de acordo com Angiani et al. (2016) um tweet limpo não deve conter
hashtags(por exemplo, #chateado) e menções a outros usuários(como exemplo, @Michel-
Temer). Portanto, tais elementos também serão retirados dos tweets. As chamadas stop
words, palavras de parada, em tradução livre, também serão filtradas, pois elas podem
levar a uma classificação menos precisa. Saão elas: pronomes, artigos e etc.
4.1.3 Implementação
Algoritmos semissupervisionados serão escolhidos a partir de uma revisão da li-
teratura, todos eles serão implementados em Python, aplicados sobre a base de dados
pré-processada, avaliados e publicados em repositório para implantação.
4.1.4 Avaliação
Como método de avaliação, será realizada a validação cruzada. Como mostrado
por Kohavi et al. (1995), a validação cruzada é uma técnica utilizada para avaliação da
capacidade de generalização de um modelo, a partir de um conjunto de dados, comumente
utilizada em predições, estimando o grau de precisão do modelo, quando testado com outra
base de dados.
O enfoque da validação cruzada é o particionamento do conjunto de dados em
subconjuntos mutualmente exclusivos, alguns destes serão posteriormente utilizados para
estimar os parâmetros do modelo(dados de treinamento) e o restante dos subconjun-
tos(dados de validação ou de teste) são empregados na validação do modelo.
Diversas formas de realizar o particionamento dos dados foram citadas por Kohavi
et al. (1995), sendo as três pricipais: holdout, k-fold e leave-one-out. Posteriormente será
decidido qual foma se adequará melhor tendo em vista o objetivo pretendido.
Capítulo 4. Metodologia e Cronograma 18
4.2 Cronograma
A Tabela 1 mostra o cronograma do projeto em meses, de acordo com os tópicos
elucidados na metodologia.
Tabela 1 – Cronograma do Projeto em Meses
Atividade Junho Julho Agosto Setembro Outubro

Coleta de tweets •
Pré-processamento •
Implementação • • •
Avaliação •
Fonte: Próprio Autor
19
5 Resultados Esperados
Espera-se que, com o desenvolvimento do presente projeto, atinja-se uma boa

classificação e rotulação dos Tweets coletados. Para atingir tal objetivo, serão avaliadas
técnicas de aprendizado de máquina já existentes, para que possa ser escolhida aquela que
trará melhor acurácia na identificação dos tweets relacionados à política.
Posteriormente, com a avaliação dos algoritmos já realizada, pretende-se publicá-
los em repositório.
20
Referências
ABAINIA, K. Topic Identification of Noisy Texts : Statistical Approaches. v. 01, n. 01,

p. 2–8, 2015.
ANGIANI, G. et al. A comparison between preprocessing techniques for sentiment

analysis in twitter. In: KDWeb. [S.l.: s.n.], 2016.
BAO, Y. et al. The role of pre-processing in twitter sentiment analysis. In: SPRINGER.
International Conference on Intelligent Computing. [S.l.], 2014. p. 615–624.
CASTRO, R.; KUFFÓ, L.; VACA, C. Back to #6D: Predicting Venezuelan states
political election results through Twitter. 2017 4th International Conference on
eDemocracy and eGovernment, ICEDEG 2017, p. 148–153, 2017.
CHAPELLE, O.; SCHOLKOPF, B.; ZIEN, A. Semi-supervised learning (chapelle, o.

et al., eds.; 2006)[book reviews]. IEEE Transactions on Neural Networks, IEEE,
v. 20, n. 3, p. 542–542, 2009.
GULL, R. et al. Pre processing of twitter’s data for opinion mining in political context.
Procedia Computer Science, Elsevier, v. 96, p. 1560–1570, 2016.
HAZEN, T. J. MCE Training Techniques for Topic Identification of Spoken Audio

Documents. IEEE Transactions on Audio, Speech and Language Processing,
IEEE, v. 19, n. 8, p. 2451–2460, 2011. ISSN 15587924.
HERNANDEZ-SUAREZ, A. et al. Predicting political mood tendencies based on Twitter

data. Proceedings - 2017 5th International Workshop on Biometrics and
Forensics, IWBF 2017, IEEE, p. 1–6, 2017.
JAMES, G. et al. An introduction to statistical learning. [S.l.]: Springer, 2013.

v. 112.
KOHAVI, R. et al. A study of cross-validation and bootstrap for accuracy estimation

and model selection. In: MONTREAL, CANADA. Ijcai. [S.l.], 1995. v. 14, n. 2, p.
1137–1145.
MÜLLER, A. C.; GUIDO, S. et al. Introduction to machine learning with Python:

a guide for data scientists. [S.l.]: "O’Reilly Media, Inc.", 2016.
RAMTEKE, J. et al. Election result prediction using Twitter sentiment analysis.

Proceedings of the International Conference on Inventive Computation
Technologies, ICICT 2016, IEEE, v. 1, p. 1–5, 2017.
SOLER, J. M.; CUARTERO, F.; ROBLIZO, M. Twitter as a tool for predicting elections
results. Proceedings of the 2012 IEEE/ACM International Conference on
Advances in Social Networks Analysis and Mining, ASONAM 2012, IEEE, p.
1194–1200, 2012.
TWEEPY. Tweepy Documentation. 2019. Disponível em: <https://tweepy.

readthedocs.io/en/latest/>. Acesso em: 25 mai. 2019.
Referências 21
TWITTER. Sobre as APIs do Twitter. 2019. Disponível em: <https://help.twitter.

com/pt/rules-and-policies/twitter-api>. Acesso em: 25 mai. 2019.
YANG, M.-C.; RIM, H.-C. Identifying interesting Twitter contents using topical analysis.
Expert Systems with Applications, v. 41, n. 9, p. 4330–4336, 2014.
ZHU, X.; GOLDBERG, A. B. Introduction to semi-supervised learning. Synthesis

lectures on artificial intelligence and machine learning, Morgan & Claypool
Publishers, v. 3, n. 1, p. 1–130, 2009.

TCC I Sara PDF

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TCC I Sara PDF

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE VIÇOSA

CAMPUS DE RIO PARANAÍBA

SARA GORETTI ELIAS FERREIRA

AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO

AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO

Monografia à Universidade Federal de Viçosa

Palavras-chaves: Identificação de tópicos, política, tweets, validação cruzada, aprendi-

Key-words: topic identification, politics, tweets, cross-validation, semi-supervised learn-

Tabela 1 – Cronograma do Projeto . . . . . . . . . . . . . . . . . . . . . . . . . . 18

APIs Interfaces de Programação de Aplicativo

TS-LDA Trend Sensitive-Latent Dirichlet Allocation

SSD Unidade de estado sólido

SemEval Semantic Evaluation

NBM Naive Bayes Multinomial

SVM Máquina de vetores de suporte

HTML Linguagem de Marcação de Hipertexto

As pessoas expressam suas opiniões de diferentes formas, seja baseada em algo

evolução. E o presente trabalho visa estudar e avaliar técnicas de Aprendizado Semissuper-

1.1 Objetivo Geral

1.2 Objetivos Específicos

• Revisar a literatura a fim de encontrar técnicas já utilizadas para a exploração

• Definir diferentes técnicas semissupervisionadas que serão utilizadas durante o de-

• Coletar e pré-processar uma base de dados composta de tweets de pessoas inseridas

• Implementar e aplicar as técnicas semissupervisionadas;

• Avaliar os resultados obtidos através da aplicação;

• Distribuir ferramentas para rotulação automática de tweets.

O aprendizado de máquina é parte integral de muitas aplicações comerciais e pro-

2.1.2 Coleta de Tweets/Dados

2.1.3 Pré-processamento de Tweets

2.2 Aprendizado de Máquina

2.2.1 Aprendizado Supervisionado

2.2.2 Aprendizado Não Supervisionado

Clusterização é a tarefa de particionar o conjunto de dados em grupos, chamados

exploratório, quando um cientista de dados deseja entender melhor os dados, em vez de

2.2.3 Aprendizado Semissupervisionado

2.2.4 Identificação de Tópicos

4.1.1 Coleta de tweets usando o Tweepy

4.1.2 Pré-processamento da base de dados criada

Tabela 1 – Cronograma do Projeto em Meses

Atividade Junho Julho Agosto Setembro Outubro

Espera-se que, com o desenvolvimento do presente projeto, atinja-se uma boa

ABAINIA, K. Topic Identification of Noisy Texts : Statistical Approaches. v. 01, n. 01,

ANGIANI, G. et al. A comparison between preprocessing techniques for sentiment

CHAPELLE, O.; SCHOLKOPF, B.; ZIEN, A. Semi-supervised learning (chapelle, o.

HAZEN, T. J. MCE Training Techniques for Topic Identification of Spoken Audio

HERNANDEZ-SUAREZ, A. et al. Predicting political mood tendencies based on Twitter

JAMES, G. et al. An introduction to statistical learning. [S.l.]: Springer, 2013.

KOHAVI, R. et al. A study of cross-validation and bootstrap for accuracy estimation

MÜLLER, A. C.; GUIDO, S. et al. Introduction to machine learning with Python:

RAMTEKE, J. et al. Election result prediction using Twitter sentiment analysis.

TWEEPY. Tweepy Documentation. 2019. Disponível em: <https://tweepy.

TWITTER. Sobre as APIs do Twitter. 2019. Disponível em: <https://help.twitter.

ZHU, X.; GOLDBERG, A. B. Introduction to semi-supervised learning. Synthesis

Você também pode gostar