Você está na página 1de 12

Anlise de Sentimentos para Monitoramento de Empresas de Comrcio Eletrnico em Redes Sociais

Thales R. Evangelista, Thereza P. P. Padilha Curso de Cincia da Computao Universidade Federal do Tocantins (UFT) Palmas TO Brasil
thales.t@gmail.com, tpadilha@uft.edu.br

Abstract. This paper shows a system to classify web publications made on social networks such as Facebook and Twitter as positive, negative and neutral. The publications collected to classification are from e-commerce companies, written in Portuguese language. For the classification task, the system uses SentiWordNet lexical approach and Naive Bayes classifier approach. Resumo. Este artigo mostra o desenvolvimento de um sistema web voltado para classificar publicaes postadas em redes sociais, tais como Facebook e Twitter, como positivas, negativas e neutras. As publicaes coletadas para a classificao so de empresas de comrcio eletrnico, escritas na lngua portuguesa. Para a tarefa de classificao, o sistema utiliza a abordagem lxica SentiWordNet e a abordagem do classificador Naive Bayes.

1. Introduo
Atualmente, comum as pessoas acessarem alguma rede social, tal como Twitter e Facebook, para fazer uma reclamao ou um elogio para determinada empresa. Inclusive, os clientes tm percebido que esto obtendo uma resposta mais rpida das empresas atravs deste meio. Assim, estas redes acabaram se tornando um canal bastante efetivo de comunicao para os clientes. Por outro lado, as empresas sabem que a repercusso de um comentrio "ruim" em uma rede social pode atingir uma grande quantidade de clientes rapidamente e, assim, afetar a reputao da empresa no mercado. Mas, se o comentrio for um elogio, este tem o poder at maior do que uma propaganda convencional na televiso. Outro fator importante nas redes sociais que possvel atingir um pblico especfico, sendo muito mais efetivo do que uma propaganda em massa. A Burson-Marsteller fez um estudo sobre o uso de redes sociais nas empresas da Amrica Latina e observou que 88% das empresas brasileiras utilizam pelo menos uma rede social. J na Amrica Latina, este ndice cai para 65% das empresas, mas a mdia global de 87%. O uso das redes sociais ajuda a fortalecer uma marca, alm de divulgar produtos e servios para um pblico especfico. As redes sociais tm um papel fundamental na qualidade dos relacionamentos das marcas com os consumidores e, principalmente, na gesto de sua reputao [Castro 2013]. Hoje a presena da empresa na internet no mais um diferencial, mas sim algo fundamental. Sendo a concorrncia entre as empresas cada vez mais acirrada, a importncia do valor de uma marca forte faz a diferena, sobretudo, em um mundo globalizado, onde todos esto conectados e a troca de informao muito rpida.

As empresas j perceberam isso e hoje muitas j esto com uma atuao forte nas redes sociais, se tornando quase obrigatrio a presena em redes como Facebook, Twitter, entre outras. Devido ao grande volume de informao que se tem na Internet, humanamente impossvel monitorar tudo o que esto comentando sobre uma determinada marca sem um auxlio de ferramentas computacionais. Estas informaes auxiliam as empresas a decidir quais aes devem ser tomadas para melhorar o valor de sua marca perante seus consumidores, descobrir quais so os pontos fortes e fracos de sua empresa e de suas concorrentes, garantindo assim uma vantagem competitiva. A importncia de avaliar o sentimento das mensagens divulgadas nas redes sociais (Twitter e Facebook, por exemplo) j foi identificada em diversos trabalhos, tais como [Kwak et al 2010], [Bollen et al 2009], [Pak and Paroubek 2010]. Diante disso, este artigo tem como objetivo mostrar o desenvolvimento de uma ferramenta para monitoramento da reputao de empresas de comrcio eletrnico em redes sociais. A ferramenta busca as postagens que os usurios fizeram sobre uma determinada companhia nas redes sociais Facebook e Twitter, reconhece padres em comentrios postados na lngua portuguesa e classifica se aquele comentrio positivo, negativo ou neutro. Para isso, a ferramenta utiliza tcnicas de Recuperao de Informao, Minerao de Textos (MT) e Anlise de Sentimentos (AS). Este artigo est organizado da seguinte forma: seo 2 descreve alguns conceitos sobre a rea de minerao de dados textuais e anlise de sentimentos. A seo 3 apresenta o funcionamento dos dois mdulos da ferramenta desenvolvida. Na seo 4 descreve a base de dados utilizada para o treinamento da classificao pela ferramenta. A seo 5 mostra o resultado da classificao de posts pela ferramenta usando o nome de 3 empresas brasileiras de comrcio eletrnico e, na seo 6, so apresentadas as concluses deste trabalho.

2. Minerao de Dados Textuais


Minerao de textos, tambm conhecida como minerao de dados textuais, pode ser vista como uma evoluo da rea de recuperao de informao e uma especializao do processo de minerao de dados ou da descoberta de conhecimento em bases de dados estruturadas [Morais and Ambrsio 2007]. A MT, basicamente, procura por padres em um texto em linguagem natural e extrai informao dele para um determinado propsito. De uma forma geral, envolve trs etapas que so: prprocessamento, anlise dos dados e avaliao de descobertas. A etapa de pr-processamento refere-se limpeza dos dados. Nesta etapa, normalmente, realiza-se a correo ortogrfica, a remoo de stopwords (artigo, rejeio, preposio) e o stemming (remoo de variaes de plural, gerndio e sufixos temporais). A etapa de anlise dos dados refere-se extrao de conhecimento a partir das informaes contidas em documentos textuais utilizando algoritmos de aprendizado. Esses algoritmos podem realizar tarefas como associao, sumarizao, classificao e clusterizao. A avaliao de descobertas a terceira e ltima etapa. Nesta etapa, os conhecimentos criados e extrados so avaliados, podendo ser gerados relatrios a partir das tendncias, padres ou regularidades observadas no documento analisado. MT atua com a aplicao de algoritmos computacionais que processam grandes volumes de textos em linguagem natural no estruturados com o objetivo de extrair informaes relevantes, teis e inovadoras no explcitas atravs da identificao de

regularidades, tendncias e de padres no triviais, que no poderiam ser recuperadas utilizando mtodos habituais de consulta [Aranha and Passos 2006], [Barion and Lago 2008]. Anlise de Sentimentos um ramo da minerao de textos voltado para classificar textos no por tpicos, mas sim pelo sentimento ou opinio contida em determinado documento [Santos 2010]. Neste caso, trata-se do estudo computacional de opinies, sentimentos e emoes expressas em texto com a utilizao de tcnicas para identificar e extrair informaes subjetivas contidas em um dado material, verificando qual sentimento eles representam e decidir se o documento exprime uma opinio positiva, negativa, neutra ou, at mesmo, tentar classificar qual emoo est presente, como raiva, felicidade, tristeza e etc [Liu 2010], [Nascimento et al 2012]. A classificao de sentimentos se assemelha a classificao clssica de texto (por tpicos). A classificao de sentimentos trabalha, principalmente, com palavras contendo teor subjetivo (que carregam consigo um contedo opinativo), que indicam sentimentos (opinies) positivos ou negativos como, por exemplo, timo, excelente, maravilhoso, horrvel e mau [Liu 2010].

3. Mdulos da Ferramenta Desenvolvida


A ferramenta desenvolvida possui basicamente dois mdulos, que so: busca e classificao/visualizao de posts, em que permite ao usurio consultar e realizar o monitoramento de publicaes feitas nas redes sociais que contenha o termo da busca. A ferramenta foi desenvolvida como uma aplicao web utilizando a linguagem Java e o framework JSF (Java Server Faces). 3.1. Mdulo de Busca O mdulo de busca permite ao usurio realizar uma consulta usando as APIs do Facebook e Twitter. A busca nas redes sociais funciona da seguinte forma: primeiramente utilizada a REST API do Twitter at que no se tenha mais resultados retornados. Depois, feito uma busca no Facebook com a Graph API e, por fim, quando no se tem mais resultados retornados pelo Facebook e Twitter, se faz uso da Streaming API do Twitter, que tem um fluxo em tempo real de dados do Tweet. Tanto o Twitter como o Facebook oferecem ao usurio opes para filtrar a busca. Por exemplo, no Twitter, uma busca por calor lang:ptnear:"palmas, procura por tweets que tenham as palavras-chave calor, escritos na lngua portuguesa e feitos por pessoas prximas a cidade de Palmas. J no Facebook, a busca seria diferente. Para isso, h um tratamento interno, em que o parmetro lang no Facebook seria locale, assim a busca pode ser feita normalmente com o padro do Twitter. 3.2. Mdulo de Classificao/Visualizao de Posts Para realizar a abordagem de classificao, este mdulo, inicialmente, realiza algumas atividades da etapa de pr-processamento de textos como eliminao de stopwords, converso de todos os caracteres para minsculo atravs do SnowballStemmer (verso em portugus), reduo de radicais ( stemming) e tratamento para erros ortogrficos, onde se verifica repeties de vogais. Por exemplo, se o usurio fizer uma publicao contendo a palavra gooosto ela ser corrigida para gosto. Para a tarefa da

classificao, foram escolhidos os algoritmos Naive Bayes e SentiWordNet, devido serem estveis e bastante utilizados em trabalhos de pesquisa. Para problemas de classificao textual, o algoritmo de classificao Naive Bayes utiliza a representao de textos do tipo binary bag of words (representao binria de saco de palavras) e suas posies exatas so ignoradas. No modelo binrio, cada documento representado por um vetor de atributos binrios, de modo que cada atributo indica a ocorrncia ou no dele no documento [Oguri 2006]. Neste caso, o Naive Bayes adota o modelo multinomial, sendo mais conhecido como Multinomial Naive Bayes (MNB). Este algoritmo encontrado na ferramenta Weka - Waikato Environment for Knowledge pela representao NaiveBayesMultinomialText. Assumindo que c a classe, e d o documento que se quer classificar, e nwd o nmero de vezes que a palavra w ocorre no documento d, e P(c) sendo a probabilidade a priori da classe c, que estimado pela proporo de documentos de treinamento que pertencem classe, a probabilidade da classe c dado um documento de teste calculado a partir da seguinte frmula [Langley et al 1992]: ( | )= ( ) ( | ) ( )

Neste trabalho, considerando as polaridades da anlise de sentimento, o valor da classe c pode ser positivo, negativo ou neutro, e d um post de um usurio. O objetivo escolher o valor de c para maximizar P(c|d), e assim obter a classe com a maior probabilidade. P(w|c) a probabilidade da caracterstica (a palavra) w aparecer no documento dada classe c. preciso treinar os parmetros P(c) e P(w|c), que calculada a partir dos dados de treinamento, onde se calcula a frequncia relativa de cada palavra na coleo de documentos de treinamento da classe [Bifet and Franck 2010]. O classificador Naive Bayes um mtodo simples e frequentemente utilizado para o aprendizado supervisionado. Essa tcnica fornece uma maneira flexvel para lidar com qualquer nmero de atributos ou classes e pequenas quantidades de dados ruins no atrapalham muito os resultados . O SentiWordNet, por sua vez, um recurso lexical para a minerao de opinio, onde atribui a cada synset da WordNet 3 pontuaes de sentimento (positividade, negatividade e objetividade). SentiWordNet distribudo sob a licena AttributionShareAlike 3.0 Unported e possui 117.374 entradas resultante de anotaes automatizadas em todos os synsets do WordNet 3 com valores de sentimentos. Como SentiWordNet foi projetado para a lngua inglesa, foi necessrio utilizar uma verso do WordNet em portugus. Para isso, foi usado o OpenWordNet-PT. No WordNet cada palavra tem uma identificao. Desse modo, para poder usar o SentiWordNet na lngua portuguesa primeiro se obtm o ID da palavra no OpenWordNet-PT e, depois, com esse ID possvel achar a palavra correspondente inglesa no SentiWordNet. Um synset no WordNet contm um conjunto de sinnimos representando um conceito, uma classe gramatical e um comentrio. No SentiWordNet, cada synset foi associado a 3 valores numricos, Pos (s), Neg (s) e Obj (s) que indicam o quanto positivo, negativo ou objetivo (neutro) o termo contido no synset. Cada um dos 3 valores varia no intervalo [0.0, 1.0] e a soma deles 1.0 para cada synset. Logo, Obj(s)

+ Pos(s) + Neg(s) = 1. Para obter o valor da orientao semntica de uma publicao de um usurio com o SentiWordNet, calculado os valores da orientao semntica de cada palavra, se o resultado for negativo ento o texto analisado considerado negativo, do mesmo modo se o resultado for maior que zero o texto considerado positivo, e se for zero considerado neutro. Por fim, o mdulo de visualizao/classificao dos posts fornece para o usurio um grfico (formato pizza) informando um percentual das classificaes realizadas para cada sentimento, bem como a lista de palavras mais frequentes, exceto stopwords.

4. Base de Treinamento
A base utilizada para treinamento da ferramenta foi construda a partir do site do Buscape por meio de avaliaes de usurios e-bit. Buscape um site de pesquisa de preos, onde se pode comparar o preo do mesmo produto em vrias lojas diferentes. O e-bit atua como um consultor de compras online, onde se tem avaliaes dos clientes que efetivamente realizaram compras na internet [Ebitempresa 2013]. A Figura 1 apresenta uma amostra das avaliaes de clientes que compraram na loja e deram seu feedback via Buscape. As avaliaes e-bit mostradas tm basicamente trs ttulos, Elogio , Reclamao e Sugesto. Para o treinamento do classificador foram utilizadas as avaliaes com o ttulo Elogio (considerada avaliao positiva) e avaliaes com o ttulo Reclamao (considerada avaliao negativa).

Figura 1. Amostra das Avaliaes de Usurios e-bit.

O carregamento das avaliaes de uma certa empresa acontece ao fornecer uma URL a ferramenta. Depois a ferramenta percorre automaticamente as pginas pegando todas as avaliaes que se enquadram como Elogio ou Reclamao sobre essa determinada empresa e guarda cada avaliao em arquivos de texto plano .txt. Para o treinamento do classificador, foram utilizadas 13.199 avaliaes positivas e 3.824 negativas. J para o treinamento da classe neutra foi utilizado a timeline de alguns usurios do Twitter como, por exemplo, ponto, boaspromocoes, guiapromocoes e familiaextra . Ao total, 613 tweets foram capturados e considerados manualmente como neutros. Neste trabalho, uma promoo considerada uma propaganda, portanto a sua orientao semntica considerada neutra.

5. Experimentos Realizados
Nesta seo sero apresentados resultados de trs experimentos realizados. Para esses experimentos, os resultados duplicados no foram considerados como, por exemplo, o RT (ReTweeting), que nada acrescentaram ao texto original. Apesar de que um RT possa significar uma concordncia com a publicao original (assim como um like no Facebook), o interesse desse experimento foi verificar o desempenho dos classificadores. Portanto no tem sentido em classificar o mesmo texto vrias vezes. Para a busca de publicaes nas redes sociais foi utiliza a REST API, no fazendo o uso da API de Streaming, pois apesar da Streaming API do Twitter estar implementada nessa ferramenta, esta (assim como REST API) sofre limitaes impostas na quantidade de resultados retornados, sendo que foi esperado cerca de 1 hora no experimento 1 e nenhum resultado havia sido retornado pela Streaming API. Para cada experimento, mostrado uma tabela com a quantidade de classificaes corretas e incorretas pelos 2 algoritmos e a analisada manualmente. A anlise manual tem como objetivo criar uma classificao real dos posts e, com isso, servir de base para a verificao (conferncia) do desempenho dos classificadores automticos. Na classificao manual, cada post foi analisado por 3 especialistas e, aps cruzar as opinies fornecidas, foi especificado uma polaridade (sentimento). No processo de classificao manual no considerou apenas os significados isolados das palavras utilizadas nos tweets mas tambm as ironias. Por exemplo, se para a polaridade positiva teve 5 classificaes corretas e 2 incorretas, isso significa que de um total de 7 publicaes que foram classificadas como positiva, duas delas foram classificadas de maneira errada (deveria ter sido classificada como negativa ou neutra). Assim, inicialmente, a coleta das mensagens foi realizada atravs da interface de busca oferecida pela ferramenta entre os dias 27 e 28 de setembro de 2013. Com a finalidade de preservar a imagem das empresas investigadas, estas foram nomeadas de X, Y e Z. 5.1 Experimento 1: Empresa X Esta subseo mostra o desempenho da classificao automtica gerada pela ferramenta para a empresa X. A Figura 2 ilustra o relatrio fornecido pelo mdulo classificao/visualizao dos posts para a classificao dos posts sobre a empresa X na rede social Twitter.

Figura 2. Exemplo do Resultado do Mdulo Classificao/Visualizao dos Posts. As siglas a seguir so usadas nas tabelas 1 a 6, que mostram os resultados das classificaes, que so: CCNB representa as classificaes corretas pelo algoritmo Naive Bayes, CINB representa as classificaes incorretas pelo algoritmo Naive Bayes, CCS representa as classificaes corretas pelo algoritmo SentiWordNet, CIS representa as classificaes incorretas pelo algoritmo SentiWordNet e CM representa as classificaes realizadas de forma manual. A Tabela 1 mostra os resultados de classificao fornecidos pela ferramenta para a rede social Twitter.
Tabela 1. Resultados para o experimento 1 - Twitter Polaridade Positivo Negativo Neutro Total CCNB 2 13 5 20 CINB 1 0 0 1 CCS 2 6 4 12 CIS 6 1 2 9 CM 2 14 5 21

Como foi possvel observar na Tabela 1, foram capturados 21 posts na rede social Twitter e o classificador NaiveBayes obteve um desempenho muito bom, cerca de 95% de taxa de acerto, errando somente a classificao de um comentrio negativo como positivo. J o SentiWordNet no teve um bom resultado, apresentando uma certa tendncia a classificar os tweets de maneira positiva, atingindo somente 57% de taxa de acerto. A Tabela 2 mostra os resultados obtidos para os 32 posts capturados da busca empresa X na rede social Facebook.

Tabela 2. Resultados para o experimento 1 - Facebook Polaridade Positivo Negativo Neutro Total CCNB 2 9 6 17 CINB 2 13 0 15 CCS 5 5 7 17 CIS 11 1 3 15 CM 9 9 14 32

Utilizando os comentrios do Facebook, o classificador Naive Bayes apresentou um resultado pior se comparado com os comentrios do Twitter. Neste caso, houve uma taxa de acerto de somente 53%. Nesse experimento, observou-se uma tendncia do Naive Bayes em classificar um post como negativo, sendo que das 15 classificaes incorretas, 13 eram de posts que foram incorretamente classificados como negativo. O SentiWordNet obteve desempenho ao contrrio, tendo uma forte tendncia na classificao positiva, sendo 11 posts classificados incorretamente de maneira positiva. 5.2 Experimento 2: Empresa Y Esta subseo mostra o desempenho da classificao da ferramenta para a empresa Y. A Tabela 3 mostra o nmero de classificaes corretas e incorretas utilizando 13 posts sobre a empresa Y na rede social Twitter.
Tabela 3. Resultados para o experimento 2 - Twitter Polaridade Positivo Negativo Neutro Total CCNB 5 4 1 10 CINB 1 0 2 3 CCS 4 2 1 7 CIS 1 0 5 6 CM 5 7 1 13

Novamente o classificador Naive Bayes se saiu bem no Twitter, com 76% de acerto na classificao. J SentiWordNet continuou com resultados ruins, tendo apenas 53% de acerto, permanecendo sua tendncia em classificar um post de maneira positiva. Na Tabela 4 so apresentados os resultados da classificao dos 17 posts recuperados usando a busca pela empresa Y na rede social Facebook.
Tabela 4. Resultados para o experimento 2 - Facebook Polaridade Positivo Negativo Neutro Total CCNB 5 2 1 8 CINB 4 5 0 9 CCS 4 1 4 9 CIS 5 2 1 8 CM 5 4 8 17

Neste caso, o classificador Naive Bayes apresentou tambm um resultado ruim, inclusive, pior do que o experimento 1, tendo somente 47% de taxa de acerto. No geral, o SentiWordNet obteve 52% de taxa de acerto mas, para a classe positiva, teve um desempenho de 80%, isto , dos 5 posts positivos apresentados, o algoritmo conseguiu

acertar 4. Neste experimento, observou-se que os dois algoritmos tiveram desempenhos ruins, no superior a 52% de taxa de acerto. 5.3 Experimento 3: Empresa Z Esta subseo traz os resultados dos classificadores e dos filtros de busca das APIs do Twitter e Facebook utilizando empresa Z como fonte de pesquisa. A Tabela 5 mostra os resultados da classificao com os 38 posts recuperados no Twitter.
Tabela 5. Resultados para o experimento 3 - Twitter Polaridade Positivo Negativo Neutro Total CCNB 3 12 12 27 CINB 3 5 3 11 CCS 4 4 12 20 CIS 15 2 1 18 CM 5 13 20 38

Neste experimento, o classificador Naive Bayes obteve um resultado aceitvel, cerca de 71% de taxa de acerto das classificaes. Os padres observados nos experimentos 1 e 2 continuam se repetindo nesse experimento, onde apesar de que o Naive Bayes tenha classificado corretamente 12 dos 13 tweets negativos, o maior nmero de classificaes incorretas realizadas ocorreu classificando erradamente uma publicao de forma negativa, continuando sua tendncia a classificar um post como negativo. J o SentiWordNet permaneceu com a mdia dos acertos anteriores, sendo este com 52%. Do mesmo modo, o SentiWordNet continuou com forte tendncia em classificar um post de maneira positiva, com 15 classificaes que foram consideradas positivas de forma errada. A Tabela 6 mostra o resultado da classificao da ferramenta para os 4 posts recuperados na rede social Facebook.
Tabela 6. Resultados para o experimento 3 - Facebook Polaridade Positivo Negativo Neutro Total CCNB 0 0 3 3 CINB 1 0 0 1 CCS 0 0 1 1 CIS 1 2 0 3 CM 0 0 4 4

Como pde-se observar, o nmero de posts recuperado foi significativamente baixo. Na classificao manual, estes foram definidos como neutro porque eram relativos promoo de produtos. Com relao s classificaes automticas, o Naive Bayes teve uma taxa de acerto em 75% contra 25% do SentiWordNet. 5.4 Anlise Comparativa dos Resultados A partir do experimento 1, pde-se observar que os resultados de classificao com os textos do Facebook obtiveram um desempenho pior em comparao aos resultados obtidos com o Twitter, principalmente, com o classificador Naive Bayes. No Twitter se tem mais crticas s empresas, funcionando como um servio de atendimento ao consumidor (SAC) e no Facebook isto no ocorre com tanta frequncia. Os posts feitos

no Facebook, geralmente, tm muitas imagens, e o texto sozinho acaba no fazendo sentido, dificultando a classificao, alm de trazer alguns resultados que no tem relao com a busca feita (como propagandas). Outro fator que tambm pode ter contribudo para que o Facebook possusse um desempenho pior na classificao foi a base de treinamento utilizada para classificar uma publicao como neutra. Outro problema encontrado no Facebook e Twitter que o uso das APIs (REST API e Graph API) bem restrito, como observado nos experimentos, com relao a quantidade de posts recuperados bem pequena. Dentre os trs experimentos realizados, o experimento 3 obteve o resultado pior. Esse resultado j era aguardado para o Naive Bayes, pelo fato de que a empresa Z no uma empresa focada somente em comrcio eletrnico, diferentemente das empresas X e Y. As publicaes dos usurios retornadas pela consulta envolvendo a palavra-chave Z se tratavam do funcionamento dos seus produtos e no de avaliaes de clientes que comparam no comrcio eletrnico. O que se comprova com melhores resultados obtidos com experimentos 1 e 2 utilizando o algoritmo Naive Bayes, onde na rede social Twitter atingiu uma taxa de acerto de 95% (empresa X) e 79% (empresa Y). De modo geral, o SentiWordNet apresentou resultado pior do que o classificador Naive Bayes. A justificativa para este fato est associada a falta de uma desambiguao lexical de sentido e tambm pelo uso doSnowballStemmer, onde j se tem uma margem de erro. Mas o fator determinante para esse desempenho ruim o fato de que nesse trabalho as propagandas foram consideradas neutras, o que fez o resultado da classificao do SentiWordNet piorar bastante. Esse fato pode ser observado no experimento 2, em que 17 tweets foram classificados erradamente como positivos. Ao analisar estes tweets, verificou-se que a maioria eram propagandas (geralmente divulgando promoes) e foram considerados neutros pela classificao manual. Mas como em uma propaganda geralmente tem palavras com orientao semntica positiva, o SentiWordNet acabou classificando essas publicaes como positivas.

6. Concluses
Este trabalho teve como objetivo analisar e classificar publicaes (tweets) de empresas do comrcio eletrnico disponibilizadas nas redes sociais Facebook e Twitter. O estudo props uma classificao automtica dos tweets utilizando o classificador Naive Bayes e a abordagem lxica SentiWordNet e, depois, o resultado obtido foi validado junto classificao manual das mensagens. De acordo com os experimentos realizados, foi possvel observar que as classificaes utilizando os posts da rede social Twitter tiveram melhor resultado, sobretudo, utilizando o algoritmo Naive Bayes. Nos experimentos, a sua taxa de acerto variou de 71% (experimento 3) a 95% (experimento 1). Constatou-se ainda que h uma tendncia muito maior das pessoas postarem reclamaes ao invs de elogios nas redes. A base de dados utilizada para treinamento foi considerada bastante satisfatria para o domnio em questo, pois se tratava de avaliaes de clientes que comparam no comrcio eletrnico, sendo um elogio ou uma reclamao. Esta foi uma valiosa fonte de dados em que h dezenas de milhares de avaliaes de consumidores j rotuladas, visto que uma classificao manual seria demorada e dispendiosa. Acredita-se que os resultados tambm no foram mais satisfatrios devido a uma limitao da quantidade de posts recuperados das APIs (Graph do Facebook e

REST do Twitter). Estas retornam somente uma porcentagem pequena dos resultados possveis, o que dificultou uma anlise de post de usurios em larga escala. Algumas buscas retornaram somente posts do dia e outras de at 2 semanas atrs. Uma soluo para este problema seria a incluso de uma rotina para realizar uma busca exaustiva na captura de posts mais antigos e, assim, ter um monitoramento mais profundo da reputao de uma empresa. No entanto, de acordo com os experimentos realizados, pode-se afirmar que a empresa Y possui uma reputao muito positiva nas redes sociais avaliadas.

Referncias Bibliogrficas
Aranha, C. and Passos, E. (2006) A Tecnologia de Minerao de Textos: Artigo tutorial. RESI - Revista Eletrnica de Sistemas de Informao. n. 2, http://revistas.facecla.com.br/index.php/reinfo/article/view/171, Setembro. Barion, C. N. and Lago, D. (2008). Minerao de Textos. In Revista de Cincias Exatas e Tecnologia, v. 3, n. 3, p. 123-140. Bifet, A. and Frank, E. (2010) Sentiment Knowledge Discovery in Twitter Streaming Data. Proceeding DS'10 Proceedings of the 13th international conference on Discovery science, p. 1-15. Bollen, J., Pepe, A., and Mao, H. (2009). Modeling public mood and emotion: Twitter sentiment and socio-economic phenomena., Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM 2011), 17-21 July 2011, Barcelona, Spain Castro, M. (2013) "Redes sociais foram empresas a responder rpido", http://exame.abril.com.br/rede-de-blogs/midias-sociais/2013/04/02/redes-sociaisforcam-empresas-a-responder-rapido/, Junho. Ebitempresa (2013) O que a e-bit?. http://www.ebitempresa.com.br/quem.asp/, Junho. Kwak, H., Lee, C., Park, H., and Moon, S. (2010). What is Twitter, a social network or a news media?, Proceedings of the 19th International Conference on World Wide Web, (New York, NY, USA: ACM), p. 591600. Langley, P., Iba, W. and Thompson, K. (1992) An analysis of Bayesian classiers. In Proceedings of the Tenth National Conference on Articial Intelligence, p. 399406. Liu, B. (2010) Sentiment Analysis and Subjectivity. In Handbook of Natural Language Processing, Second Edition. CRC Press. Morais, E. A. M. and Ambrsio, A. P. L. (2007), Minerao de texto, Relatrio tcnico, Instituto de Informtica, Universidade Federal de Gois. Nascimento, P., Aguas, R., Lima, D., Kong, X., Osiek, B., Xexeo, G., Souza, J. (2012) Anlise de sentimento de tweets com foco em notcias. In Anais do BraSNAM Brazilian Workshop on Social Network Analysis and Mining, Congresso da Sociedade Brasileira de Computao. Oguri, P. (2006) Aprendizado de Mquina para o Problema de Sentiment Classification. 54 f. Dissertao de Mestrado, Pontifcia Universidade Catlica do Rio de Janeiro, Departamento de Informtica, Rio de Janeiro.

Pak, A., and Paroubek, P. (2010). Twitter as a corpus for sentiment analysis and opinion mining., Proceedings of the 7th Conference on International Language Resources and Evaluation (LREC10).

Você também pode gostar