Escolar Documentos
Profissional Documentos
Cultura Documentos
Sumrio
Resumo
Introduo
Metodologia
Anlise dos Resultados
Concluso
Resumo
Anlise do sentimento acerca dos
protestos que ocorreram no Brasil
entre os meses de Junho e Agosto de
2013
A anlise possvel pela aplicao de
tcnicas sobre uma massa de dados
formada por mensagens
disponibilizadas pelas pessoas na
Web.
Resumo
Dessa base foram retiradoos os
rudos, ento analisado.
Observou-se a polaridade (apoio ou
repdio aos protestos)expressa nos
tweets.
Aps anlise foi comprovado que a
maioria das mensagens apoiaram os
protestos.
Introduo
Redes sociais online so redes
formadas a partir da interao entre
pessoas, grupos ou instituies
motivadas por interesses ou
objetivos comuns que se relacionam
atravs de mdias digitais.
Introduo
TWITTER:
Um microblog que permite que as
pessoas divulguem qualquer tipo de
informao quase em tempo real para
todos aqueles ligados sua rede.
Publicaes limitadas a 140 caracteres.
Mais de 200 milhes de usurios que
geram aproximadamente 110 milhes
de tweets por dia.
Introduo
Analisar a polaridade expressa nos tweets relacionados
aos protestos.
Criao de uma base de tweets no perodo de Junho a
Agosto de 2013.
Mais de 300 mil tweets (aproximadamente 1GB de
contedo).
Deseja-se verificar o apoio ou repdio s manifestaes
atravs das opinies presentes nas mensagens coletadas.
Base de dados constituda em sua maior parte por
mensagens escritas em PT-BR
Existem poucos trabalhos que tratam de escritos
em portugus brasileiro.
Introduo
Verificao da polaridade (apoio ou
repdio as manifestaes) das
mensagens realizada utilizando os
algoritmos de aprendizagem
estatstica Naive Bayes.
Um sistema de classificao que
independe de linguagem com bons
resultados na literatura.
Metodologia
Trabalho realizado em duas etapas:
1. A criao de uma base de tweets
relacionados aos protestos e o prprocessamento dos dados coletados.
2. Treinamento do algoritmo e
verificao de sua acurcia atravs de
testes para comparao de
resultados.
2 - Classificao
O modelo Naive Bayes assume que a
probabilidade de presena ou ausncia de
uma caracterstica particular de uma
classe no est relacionada com a
presena ou ausncia de qualquer outro
recurso.
O Naive Bayes utilizado neste trabalho
para realizar a classificao de textos
baseada em sentimentos presente nas
mensagens da base coletada.
2 - Classificao
O clculo da probabilidade realizado da
seguinte forma:
2 - Classificao
O algoritmo Naive Bayes tem sido considerado um
mtodo eficaz de anlise.
Seu uso requer pouco treino durante a fase de
aprendizado.
capaz de calcular a probabilidade de uma mensagem
ser categorizada dentro de uma classe pr-definida
mesmo que os dados de entrada possuam rudos.
Textos so representados como bag of words para
serem classificados com base em um modelo
probabilstico As posies exatas das palavras so
ignoradas, e o classificador montado com base no
teorema de Bayes, assumindo independncia entre as
variveis (palavras)
2 - Classificao
O treino e os testes foram realizados a partir do uso
de uma base composta por 3 humanos construda a
partir de amostras de mensagens da base coletada.
Um conjunto de tweets foi analisado por humanos e
classificados como positivo (apoio aos protestos)
ou negativo (repdio aos protestos).
Esse processo teve como objetivo cruzar os
votos de cada um dos pesquisadores e eleger
qual sentimento classificaria cada tweet.
2 - Classificao
Criao de dois conjuntos com 100 tweets
cada.
1 conjunto: Mensagens positivas.
2 conjunto: Mensagens negativas.
70% da base rotulada por humano foi
utilizada no treino.
30% dessa base foram utilizados para teste
e verificao da acurcia do algoritmo.
Concluso
O trabalho foi baseado no algotitmo
Naive Bayes e analisou tweets em PT-BR.
Tal algoritmo adaptvel a vrios
idiomas e capaz de analisar texto
poludos, como os tweets.
Este trabalho torna-se importante pela
existncia de poucos trabalhos que
estudem anlise de sentimentos em PTBR
Concluso
As coletas foram realizadas
utilizando apenas hashtags que
estivessem diretamente ligadas ao
protesto.
Trabalhos futuros
Criar um conjunto maior de treinos e testes
empregando rotulao de grupos de pessoas a cega.
Ou seja, cada pessoa rotula o tweet e o conjunto de
mensagens rotuladas so comparadas para se chegar a
um consenso.
Aumentar o nmero de mensagens de treino e testes, e
realizar anlises mais detalhadas usando funes de
distribuio acumulativa e teoria da deciso para
verificar a robustez da polaridade das mensagens
realizando possveis ajustes de limiar.
Utilizar outros mtodos de anlise de sentimentos para
comparar os resultados obtidos entre os mtodos.
Dvidas?
Obrigado!