Você está na página 1de 24

Introdução

Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Projeto Orientado em Computação II


Detecção de sentimento em postagens no Twitter

Autor: Luiz Gomes Temponi


Orientador: Prof. Dr. Virgı́lio Augusto Fernandes Almeida
Departamento de Ciência da Computação
Universidade Federal de Minas Gerais

24 de junho de 2010

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos Visão Geral
Experimentos
Resultados
Conclusão

Motivação
Crescimento espantoso da audiência das Redes Sociais na Web;
Público passa a ganhar maior espaço de decisão e transformação de
conteúdo;
Interesse em captar a percepção de usuários sobre determinados
temas, marcas ou produtos.

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Objetivos

Problema
Como captar de forma fácil e eficiente a percepção dos usuários e como
identificar o sentimento por trás das postagens?

Ideia
Aplicar algoritmos de classificação (previsão de classes) a fim de se obter
informação quantitativa e qualitativa dos posts.

Proposta
Estudar, aplicar e comparar algoritmos de classificação de texto buscando
a melhor técnica para detectar o sentimento presente em posts no Twitter.

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
SVM
Metodologia dos Experimentos
Naive Bayes
Experimentos
Resultados
Conclusão

Support Vector Machines

Técnica de aprendizagem computacional que tem mostrado


desempenho superior para algumas tarefas, tais como categorização
de textos, processamento de imagens e bioinformática;
Teoria bem definida, fundamentada em teorias da matemática
complexa.
Usada na obtenção de fronteiras lineares para a separação de dados
pertencentes às classes.

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
SVM
Metodologia dos Experimentos
Naive Bayes
Experimentos
Resultados
Conclusão

Support Vector Machines

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
SVM
Metodologia dos Experimentos
Naive Bayes
Experimentos
Resultados
Conclusão

Support Vector Machines

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
SVM
Metodologia dos Experimentos
Naive Bayes
Experimentos
Resultados
Conclusão

Support Vector Machines

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
SVM
Metodologia dos Experimentos
Naive Bayes
Experimentos
Resultados
Conclusão

Naive Bayes

Um dos classificadores mais utilizados em aprendizagem de máquina;


O classificador é denominado ingênuo (naive) por assumir que os
atributos são condicionalmente independentes;
Calcula probabilidade contando a frequência de valores e combinação
de valores no dado.
As probabilidades condicionais são estimadas a partir do conjunto de
treino.

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
SVM
Metodologia dos Experimentos
Naive Bayes
Experimentos
Resultados
Conclusão

Naive Bayes

P(tokeni |classe)P(classe)
P(classe|documento) = P(tokeni )

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Metodologia

Coleta da base de dados


Classificação manual da base de dados
Implementação dos algoritmos e ferramentas suporte
Preparação de teste/treino
Comparação e análise de resultados

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Coleta e Classificação Manual

API Twitter
Interface de exibição e classificação do conteúdo

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Preparação da base de teste/treino

Implementação dos algoritmos e ferramentas suporte


Criação de testes com diferentes perfis de base de dados
Aplicação da validação cruzada
Balanceamento do treino

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Comparação e análise de resultados

Acurácia
Matriz de Confusão

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Experimentos

Base de dados sobre refrigerantes (Coca-cola, pepsi, guaraná, kuat,


sprite, dolly, redbull, burn... );
Base de dados das marcas Velox e Honda;
Base de dados sobre o vice-presidente José Alencar;
Total: 14827 posts coletados e classificadas manualmente;
Diversos arquivos de treino.

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Velox

Caracterı́sticas
413 postagens
333 negativos, 36 neutros, 44 positivos

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Velox

SVM
Cross-validation: (341/413) 82,6%

a b c
a - neg 330 0 3
b - neu 34 2 0
c - pos 35 0 9

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Velox

Bayes
Cross-validation: (313/413) 75,8%

a b c
a - neg 294 20 19
b - neu 26 3 7
c - pos 25 3 16

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Velox

Considerações:
SVM obteve melhores resultados com validação cruzada
Bayes apresentou resultados superiores ao SVM quando o arquivo de
treino era relativamente grande (40% da base) (Acurácia: 89.1% e
92.2% quando a distribuição no treino era equivalente)
Tanto o Bayes(=54%) quanto o SVM(=44%) obtiveram resultados
inferiores quando o treino foi balanceado.

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Honda

Caracterı́sticas
188 postagens
16 negativos, 164 neutros, 8 positivos

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Honda

SVM
Cross-validation: (163/188) 86,7%

a b c
a - neg 2 14 0
b - neu 2 161 1
c - pos 0 8 0

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Honda

Bayes
Cross-validation: (154/188) 82,3%

a b c
a - neg 6 10 0
b - neu 5 151 5
c - pos 0 7 1

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Honda

Considerações:
SVM obteve melhores resultados com a validação cruzada
Bayes apresentou resultados superiores ao SVM com arquivo de treino
maior (40% da base) (Acurácia: 95.6%)
O Bayes obteve acurácia de 55.1% contra 90.9% do SVM quando o
treino foi feito balanceado.

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Conclusão

SVM não apresentou significativa melhora com diferentes tamanhos


de treino
Bayes apresentou resultados superiores ao SVM com arquivo de treino
maior
O Bayes teve maior perda na qualidade de seus resultados quando a
base era fortemente desbalanceada.
O balanceamento forçado do treino nao é aconselhável ao Bayes
O SVM se mostrou superior na maioria dos casos, exceto quando o
arquivo de treino era relativamente grande.

Projeto Orientado em Computação II


Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão

Projeto Orientado em Computação II

Você também pode gostar