Luiz Temponi pocII

Introdução
Objetivos
Referencial Teórico
Metodologia dos Experimentos
Experimentos
Resultados
Conclusão
Projeto Orientado em Computação II

Detecção de sentimento em postagens no Twitter
Autor: Luiz Gomes Temponi

Orientador: Prof. Dr. Virgı́lio Augusto Fernandes Almeida
Departamento de Ciência da Computação
Universidade Federal de Minas Gerais
24 de junho de 2010

Introdução
Objetivos
Metodologia dos Experimentos Visão Geral
Experimentos
Resultados
Conclusão
Motivação
Crescimento espantoso da audiência das Redes Sociais na Web;
Público passa a ganhar maior espaço de decisão e transformação de
conteúdo;
Interesse em captar a percepção de usuários sobre determinados
temas, marcas ou produtos.

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Objetivos
Problema
Como captar de forma fácil e eficiente a percepção dos usuários e como
identificar o sentimento por trás das postagens?
Ideia
Aplicar algoritmos de classificação (previsão de classes) a fim de se obter
informação quantitativa e qualitativa dos posts.
Proposta
Estudar, aplicar e comparar algoritmos de classificação de texto buscando
a melhor técnica para detectar o sentimento presente em posts no Twitter.

Introdução
Objetivos
SVM
Naive Bayes
Experimentos
Resultados
Conclusão
Support Vector Machines
Técnica de aprendizagem computacional que tem mostrado

desempenho superior para algumas tarefas, tais como categorização
de textos, processamento de imagens e bioinformática;
Teoria bem definida, fundamentada em teorias da matemática
complexa.
Usada na obtenção de fronteiras lineares para a separação de dados
pertencentes às classes.

Introdução
Objetivos
SVM
Naive Bayes
Experimentos
Resultados
Conclusão

Introdução
Objetivos
SVM
Naive Bayes
Experimentos
Resultados
Conclusão

Introdução
Objetivos
SVM
Naive Bayes
Experimentos
Resultados
Conclusão

Introdução
Objetivos
SVM
Naive Bayes
Experimentos
Resultados
Conclusão
Naive Bayes
Um dos classificadores mais utilizados em aprendizagem de máquina;

O classificador é denominado ingênuo (naive) por assumir que os
atributos são condicionalmente independentes;
Calcula probabilidade contando a frequência de valores e combinação
de valores no dado.
As probabilidades condicionais são estimadas a partir do conjunto de
treino.

Introdução
Objetivos
SVM
Naive Bayes
Experimentos
Resultados
Conclusão
Naive Bayes
P(tokeni |classe)P(classe)
P(classe|documento) = P(tokeni )

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Metodologia
Coleta da base de dados

Classificação manual da base de dados
Implementação dos algoritmos e ferramentas suporte
Preparação de teste/treino
Comparação e análise de resultados

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Coleta e Classificação Manual
API Twitter
Interface de exibição e classificação do conteúdo

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Preparação da base de teste/treino
Implementação dos algoritmos e ferramentas suporte

Criação de testes com diferentes perfis de base de dados
Aplicação da validação cruzada
Balanceamento do treino

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Comparação e análise de resultados
Acurácia
Matriz de Confusão

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Experimentos
Base de dados sobre refrigerantes (Coca-cola, pepsi, guaraná, kuat,

sprite, dolly, redbull, burn... );
Base de dados das marcas Velox e Honda;
Base de dados sobre o vice-presidente José Alencar;
Total: 14827 posts coletados e classificadas manualmente;
Diversos arquivos de treino.

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Velox
Caracterı́sticas
413 postagens
333 negativos, 36 neutros, 44 positivos

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Velox
SVM
Cross-validation: (341/413) 82,6%
a b c
a - neg 330 0 3
b - neu 34 2 0
c - pos 35 0 9

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Velox
Bayes
a b c
a - neg 294 20 19
b - neu 26 3 7
c - pos 25 3 16

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Velox
Considerações:
SVM obteve melhores resultados com validação cruzada
Bayes apresentou resultados superiores ao SVM quando o arquivo de
treino era relativamente grande (40% da base) (Acurácia: 89.1% e
92.2% quando a distribuição no treino era equivalente)
Tanto o Bayes(=54%) quanto o SVM(=44%) obtiveram resultados
inferiores quando o treino foi balanceado.

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Honda
Caracterı́sticas
188 postagens
16 negativos, 164 neutros, 8 positivos

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Honda
SVM
a b c
a - neg 2 14 0
b - neu 2 161 1
c - pos 0 8 0

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Honda
Bayes
a b c
a - neg 6 10 0
b - neu 5 151 5
c - pos 0 7 1

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Honda
Considerações:
SVM obteve melhores resultados com a validação cruzada
Bayes apresentou resultados superiores ao SVM com arquivo de treino
maior (40% da base) (Acurácia: 95.6%)
O Bayes obteve acurácia de 55.1% contra 90.9% do SVM quando o
treino foi feito balanceado.

Introdução
Objetivos
Experimentos
Resultados
Conclusão
Conclusão
SVM não apresentou significativa melhora com diferentes tamanhos

de treino
Bayes apresentou resultados superiores ao SVM com arquivo de treino
maior
O Bayes teve maior perda na qualidade de seus resultados quando a
base era fortemente desbalanceada.
O balanceamento forçado do treino nao é aconselhável ao Bayes
O SVM se mostrou superior na maioria dos casos, exceto quando o
arquivo de treino era relativamente grande.

Introdução
Objetivos
Experimentos
Resultados
Conclusão

Luiz Temponi pocII

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Luiz Temponi pocII

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução

Projeto Orientado em Computação II

Autor: Luiz Gomes Temponi

Projeto Orientado em Computação II

Projeto Orientado em Computação II

Projeto Orientado em Computação II

Support Vector Machines

Técnica de aprendizagem computacional que tem mostrado

Projeto Orientado em Computação II

Support Vector Machines

Projeto Orientado em Computação II

Support Vector Machines

Projeto Orientado em Computação II

Support Vector Machines

Projeto Orientado em Computação II

Um dos classificadores mais utilizados em aprendizagem de máquina;

Projeto Orientado em Computação II

Projeto Orientado em Computação II

Coleta da base de dados

Projeto Orientado em Computação II

Coleta e Classificação Manual

Projeto Orientado em Computação II

Preparação da base de teste/treino

Implementação dos algoritmos e ferramentas suporte

Projeto Orientado em Computação II

Comparação e análise de resultados

Projeto Orientado em Computação II

Base de dados sobre refrigerantes (Coca-cola, pepsi, guaraná, kuat,

Projeto Orientado em Computação II

Projeto Orientado em Computação II

Projeto Orientado em Computação II

Projeto Orientado em Computação II

Projeto Orientado em Computação II

Projeto Orientado em Computação II

Projeto Orientado em Computação II

Projeto Orientado em Computação II

Projeto Orientado em Computação II

SVM não apresentou significativa melhora com diferentes tamanhos

Projeto Orientado em Computação II

Projeto Orientado em Computação II

Você também pode gostar