Você está na página 1de 8

Aplicabilidade do Teorema de Bayes no Monitoramento de Redes Sociais

Resumo
O teorema de Bayes tem se mostrado como uma ferramenta importante no auxilio
tomada de deciso. O site Causa Brasil monitora as questes e reivindicaes nas redes
sociais, um site atualizado a cada hora e calcula os percentuais de cada causa baseado nas
ltimas 24h, contm um histrico de 55 dias. O clipping da Radiobrs divulga as principais
notcias das mdias com maior impacto no Brasil. O teorema de Bayes calcula incertezas,
fazendo previses, baseado na experincia do pesquisador ou no histrico da situao.
Utilizando o site Causa Brasil e relacionando-o com as notcias divulgadas no clipping da
Radiobrs diariamente, criou-se um histrico para verificar se existe alguma relao entre as
notcias da mdia com as causas das redes sociais. O objetivo desse estudo foi criar bases
tcnicas para fazer previses da repercusso de fatos, utilizando o teorema de Bayes, nas
redes sociais com as notcias ou acontecimentos. O teorema de Bayes explicado e
exemplificado ao longo do texto. Os resultados no foram significativos e no se pode chegar
a concluses quanto as possveis probabilidades para o uso do teorema de Bayes. No entanto,
desenvolveu-se uma metodologia para, com mais dados, futuramente utilizar o teorema de
Bayes.
Introduo
As redes sociais esto cada vez mais presentes no cotidiano e tem sido uma importante
ferramenta de comunicao. Elas tem provado ser um meio muito poderoso de difuso e
mobilizao social, visto os recentes acontecimentos na mobilizao dos protestos. O site
Causa Brasil nasceu da ideia de verificar as causas e reivindicaes que esto acontecendo na
internet. Dessa forma, o site tem uma plataforma que monitora o movimento nas redes sociais
detalhando quais manifestaes mais foram feitas na ltimas 24 horas. Assim, o objetivo
deste artigo foi compreender se existe alguma maneira de mensurar, de forma a quantificar ou
prever o impacto de acontecimentos antes de manifestaes nas redes sociais acontecerem. Ao
tratar de previso estatstica, o modelo que mais se encaixa neste tipo de comportamento o
teorema de Bayes. O Teorema de Bayes uma ferramenta que auxilia na anlise de deciso e
tem sido usado na tomada de deciso. (MICHAELI, 2007). Ele trabalha com incertezas,
contudo este teorema ainda pouco usado apesar de ter uma matemtica simples, pois a
insero dos dados no acontece de maneira to trivial. O Teorema de Bayes utiliza incertezas
do ambiente e para fazer a sua correta aplicao necessrio ter experincia no assunto ou ter
dados que ajudem a formular as previses.
Assim, nesse artigo utilizaram-se trs tipos de informao: o fato, a notcia e a
repercusso. Dessa forma, os trs tipos foram caracterizados de acordo com a seguinte regra:
o fato que ocorre quando algo acontece, a notcia quando o fato divulgado pela imprensa e
a repercusso, que o impacto da notcia na sociedade. Entretanto, percebe-se que no Brasil,
as informaes da internet excluem de certa forma uma boa parte da populao, assim como a
utilizao de outros meios de acesso informao.
Fundamentao terica
O teorema de Bayes relaciona informaes, com a probabilidade de ocorrncia, para
gerar uma nova probabilidade quando os fatos acontecem de maneira relacionada ou so
dependentes. Tambm importante ressaltar que essas probabilidades podem e devem ser
revistas medida que so observados novos fatos que podem alterar a probabilidade de cada
um dos acontecimentos envolvidos (SILVER, 2013). O teorema de Bayes utiliza incertezas,
entretanto alimentado por meio de probabilidades que podem ser estimas ou sugeridas.

Assim, o teorema de Bayes trabalha primeiramente com informaes prvias, dessa forma, ao
obter novas informaes aplica-se o teorema e alcanam-se as probabilidades posteriores.
O teorema de Bayes utiliza dois tipos de inferncias estatsticas: as intuitivas e as
experimentais. A primeira adquirida atravs do conhecimento prvio em relao a situaes
passadas, desta maneira pode-se fazer uma conjectura sobre a situao e formular uma
possvel probabilidade. J a outra obtida medida atravs da experimentao, a partir dos
dados so feitos procedimentos estatsticos com os quais se calcula a probabilidade, medida
que novos dados coletados so refeitos os clculos estatsticos e calculadas as novas
probabilidades. Assim, as probabilidades associadas a um evento so definidas previamente e
atualizadas na medida em que se recebem novas informaes. Quando os dados so mais
informativos que as suposies iniciais, ou seja, quando a amostra aumenta, as probabilidades
convergem independentes das distribuies iniciais. (SILVER, 2013)
Nesse sentido, Wheaton (2009), explica que o teorema de Bayes muito til quando
se treina novos profissionais, pois ele auxilia a minimizar a diferena da experincia entre os
profissionais antigos e os novos. Assim, pode-se quantificar quo provvel algo de
acontecer baseado em informaes prvias. No entanto o Teorema de Bayes no usualmente
utilizado por parecer muito complexo ou porque os analistas no o conhecem e no sabem
como us-lo.
O teorema de Bayes utilizado por profissionais de inteligncia. Atualmente
utilizado principalmente em problemas psicolgicos, pois trabalha com incertezas
condicionais computadas explicitamente, no estimadas intuitivamente, porque ao estimar-se
intuitivamente, as crenas podem levar ao erro. (MICHAELI, 2007).
Wheaton (2009) explica que o teorema de Bayes o fundamento da inteligncia
competitiva. Pode ser aplicado na anlise de deciso, assim quando um produto lanado,
necessria a formatao correta e adequada do teorema de Bayes para que este mostre
probabilidades de modo condizente. Em situaes de deciso altamente recomendvel o uso
do teorema de Bayes, pois ele contribui para gerao do cenrio em conjunto com as
probabilidades.
Para Silver (2013), ao se tratar de problemas buscam-se alternativas conhecidas para
solucion-las, porm tambm existe o caso em que as alternativas desconhecidas no so
imaginadas, por isso muitas vezes no so questionadas outras hipteses. Porm, dessa
maneira podem-se estimar probabilidades de maneira errada, pois se descartam hipteses por
simplesmente desconhecer sua existncia.
Silver (2013) complementa que um problema grave que nem sempre so mostradas
as incertezas de um clculo, levando as pessoas a pensarem que o nmero bruto o valor real
e ele acontecer desta maneira. Para Wheaton (2009) o teorema de Bayes algo que exige
treinamento, pois se necessita estipular as probabilidades iniciais e quanto mais familiarizados
com o assunto mais precisam ser esta avaliao. Assim, para melhor compreenso do
Teorema de Bayes preciso compreender como o mesmo calculado.
Definio teorema de Bayes
Apesar das probabilidades P(A|B) e P(B|A) serem parecidas, elas significam algo
diferente cada uma. Sendo P(A|B) a probabilidade de uma loja especializada em uma marca
de pneus prestarem um bom servio dentro da garantia. Ento, P(B|A) a probabilidade de
uma loja de pneus que prestar um bons servios dentro da garantia serem pneus especializada
em uma marca de pneus. No primeiro momento quando lemos muitas vezes no percebemos a
diferena entre as duas afirmaes, porm probabilisticamente so diferentes, pois na primeira
selecionamos uma loja especializada em uma marca de pneus e depois dentre estas as que
prestam bom servio dentro da garantia; na segunda afirmao, selecionamos as lojas que
prestam um bom servio e depois dentre essas, as que so especializadas em uma marca de
2

pneu. A inverso das afirmaes faz a probabilidade estatstica ser completamente diferente,
pois isso devemos cuidar muito bem no momento em que fazemos formulao estatstica.
Definio terica do teorema de Bayes - O teorema de Bayes permite que o evento B
tenha um nmero qualquer de categorias (B1, B2, ..., Bn) sendo este evento mutuamente
excludentes.

P( B | A)
i

P( A | B ) P( B )
P( A | B ) P( B ) P( A | B ) P( B ) ... P( A | B ) P( B )
i

Exemplo simples do teorema de Bayes


Suponha que 60% das mulheres que compram kits de gravidez instantneos esto, de
fato, grvidas. Para um kit de uma marca especfica, se a mulher estiver grvida, o teste
fornecer resultado positivo 96% das vezes e negativo 4% das vezes (um falso negativo"). Se
ela no estiver grvida, o teste resultar positivo em 1% das vezes (um falso positivo) e
negativo 99% das vezes (figura 1). Suponha que um teste resulte positivo. Qual a
probabilidade de que a mulher esteja realmente grvida? (ANDERSON, 2003)

Figura 1. Diagrama de probabilidades do teste de gravidez.


Fonte: (ANDERSON, 2003)
P(B|A) probabilidade de grvida e o teste ter dado positivo
P(A|B) probabilidade de o teste ter dado positivo e estar grvida
P(B) probabilidade de estar grvida

P ( B | A)

P( B) P( A | B)
P( B) P( A | B) P( B' ) P( A | B' )

P( A | I )

0,96 * 0,60
0,96 * 0,60 0,01* 0,40
3

Mtodo
Foram coletados os dados de repercusso na rede social do site Causa Brasil
(www.causabrasil.com.br) durante o perodo de tempo de um ms, entre 16 de junho e 16 de
julho. A coleta era feita diariamente com intervalo de 24 horas, o horrio de referncia era
meia noite. Foram escolhidos alguns tpicos para serem monitorados. No momento da coleta
os valores dos percentuais cada tpico e valores absolutos do dia eram passados para uma
planilha e disponibilizados para anlise.
Os dados referentes ao acontecimento foram retirados do site da Radiobrs que tem
um clipping (clipping.radiobras.gov.br) dedicado as principais notcias dos jornais de maior
impacto no pas, este site de uma empresa estatal do governo federal. Neste site foram
analisadas as notcias diariamente, estas eram separadas de acordo com o termo de interesse e
posteriormente foi dado um peso para cada tipo de notcia de acordo com o termo pesquisado
por relevncia atribuda pelo pesquisador. Tambm foi ponderado com um fator de impacto
da mdia na populao, este fator foi determinado pelo pesquisador. Foram atribudos pesos
de 0 a 10 de acordo com a significncia da notcia e a significncia da mdia.
As notcias ponderadas pela sua relevncia foram combinadas e graficadas
diariamente, resultando claramente em um impacto desse tpico ao longo do perodo
estudado.
A anlise dos dados foi feita comparando diretamente os dados de repercusso
absolutos ou relativos e os dados das notcias ponderadas.
Aplicao o teorema de Bayes
Quando se tem um problema com duas alternativas possveis, primeiro pode-se
ponderar que cada uma tem 50% de chance de acontecer, como se fosse um jogo de cara e
coroa. Porm nem sempre assim que as coisas funcionam, isso porque mesmo duas solues
com 50% de chance de acontecer, podem ter pesos diferentes de acordo com o problema. No
caso de um governo de um pas, restringindo as hipteses das pessoas que aprovam e das
pessoas que no aprovam, podemos ter, por exemplo, 30% e 70%, mas estes dados podem
alterar de acordo com as notcias e acontecimentos no pas. Por isso, importante ressaltar
que as probabilidades devem ser revistas medida que as informaes so alteradas ou
chegam novas informaes. Outro ponto importante que como as informaes circulam de
maneira muito rpida podem ocorrer rudos que podem afetar o correto discernimento sobre o
problema. Neste estudo, o rudo considera as informaes que podem parecer verdadeiras,
porm nada tem haver com o sinal (SILVER, 2013).
O site Causa Brasil acompanha o movimento das informaes nas redes sociais da
internet, relacionando termos a alguns tpicos principais. As causas so identificadas a partir
do contedo de postagens que contenham ao menos uma das principais hashtags ligadas s
manifestaes, segundo o site causabrasil. Esses movimentos so atualizados de hora em hora
a porcentagem de cada causa referente ao nmero acumulado de menes no perodo de 24
horas segundo o site causabrasil. So atribudos percentuais de acordo com a presena dos
termos nas redes sociais. Assim, temo-se uma noo do que est acontecendo nas redes
sociais, mas com retardo de um dia, pois precisam de 24 horas para atualizar a ocorrncia dos
termos nas redes sociais. importante ressaltar que o site mede o fluxo de informaes sobre
determinados termos nas redes sociais, no se preocupando com as notcias, somente com a
repercusso, porm a repercusso acontece por causa das notcias. As causas so
categorizadas por macrotemas: poltico, economia, direitos bsicos do cidado, liberdades
individuais e copa do Brasil (www.causabrasil.com.br). Cada causa tem diversos termos e
hashtags que so combinados a fim de construir o percentual de manifestaes do assunto.. A

coleta de dados feita por meio do software Seekr, no Facebook, Twitter, Instagram,
YouTube e Google.
O site da Radiobrs, por sua vez, coleta as principais notcias dos jornais de maior
impacto no Brasil. Este um site estatal, assim sendo no um site isento, mas um site
confivel.
Para realizao do estudo, utilizou-se o site Causa Brasil juntamente com o clipping da
Radiobrs para conjecturar o teorema de Bayes. Por meio do site causa Brasil pode-se
acompanhar a evoluo de determinados tpicos e assim relacionar com as notcias da
Radiobrs. Esta relao contribui para criar um histrico do comportamento e da relao das
duas informaes, isso muito importante ao utilizar o Teorema de Bayes, pois quanto mais
informaes melhor ser a estimativa.
Resultados e discusses
Os dados so apresentados no site como mostra a figura 2. O tamanho do crculo
proporcional ao percentual da causa naquele momento. Cada assunto expe o percentual, o
total de causas menes monitoradas e os termos monitorados em cada causa (figura 2 e
figura 3).

Figura 2. Site causa Brasil dia 15 de julho 1 hora.


Fonte: www.causabrasil.com.br

Figura 3. Site causa Brasil dia 15 de julho 1 hora- destacada as informaes da causa
Governo Dilma Rousseff.
Fonte: www.causabrasil.com.br
Os dados do site Causa Brasil foram colocados em uma planilha, da qual se preencheu
o tpico, o percentual e o dia ao qual se referia. Aps os dados foram graficados em uma
relao dia x tpico.
Os dados da Radiobrs foram extrados por meio de palavras chaves buscadas no
corpo da notcia diariamente e tambm foram graficados em uma relao dia x palavra chave.
Os grficos dos tpicos do site causa Brasil foram comparados com os grficos das
palavras chaves do site da Radiobrs procurando alguma relao entre eles a fim de criar
embasamento para as previses de possibilidades para serem aplicados no teorema de Bayes.
Usando o tpico Combate a inflao do site causa Brasil e comparando com a palavra chave
inflao no site da Radiobrs no foi encontrada nenhuma relao significante durante o
perodo analisado, porm sugere-se que seja feito o teste de outras maneiras a fim de verificar
se realmente no existe a relao.

4
Srie2

Srie1

0
17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Figura 4. Comparao entre a causa Combate inflao no site CausaBrasil (srie 2)


e o termo Inflao no clipping da Radiobrs (srie 1).
Fonte: Elaborao prpria
Concluso
Comparando os dados do site da Radiobrs com os dados do site da Causa Brasil no
foi possvel obteno de nenhum resultado definitivo fundamentar a aplicao do teorema
de Bayes, pois no se conseguiu uma validao entre os dois. Porm com a verificao
durante um tempo maior, possivelmente, seja mais clara para esta comparao. Tambm
importante verificar que alguns tpicos podem ter maior repercusso social que outros devido
politizao da populao.
importante ressaltar que o teorema de Bayes mais eficaz quando utilizada uma
srie de dados histrica para embasar as previses. Por isso importante continuar fazendo o
acompanhamento e corrigir os possveis erros de estruturao da metodologia aplicada, pois
pequenos erros podem se propagar de maneira se tornarem grandes erros quando aplicamos o
teorema de Bayes.
A comparao direta com o outra forma de obteno de tendncias permite a validao
e compreenso do comportamento do teorema de Bayes, a maneira como foi conduzido este
estudo pode ter influenciado no resultado, pois a ponderao e a generalidade do tema
influenciaram no resultado.
Referncias
ALBRECHT, K. Um Modelo de Inteligncia Organizacional. HSM Management 44 maiojunho 2004.
ANDERSON, D.R.;SWEENEY,D.J., WILLIMAS,T.A. Estatstica Aplicada Administrao
e Economia. So Paulo: Pioneira Thonson Learning, 2003. 642 p.
ARIELY, D. O Fim da Economia Racional. Harward Business Review, Jul. 2009.
BARTON, D., COURT, D. Faa a Analtica Avanada Trbalhar para sua Empresa. Harward
Business Review, Out. 2012.
BLANK, M. , JANISSEK-MUNIZ, R. Inteligncia Estratgica Antecipativa Coletiva e
Crowdfunding: aplicao do mtodo L.E.SCAnning em empresa social de economia P2P.
XXXVI Encontro da ANPAD. Rio de Janeiro,2012.
BRYNJOLFSSON,E.; HITT,L.M.; KIM,H.H. Strength in Numbers: How Does Data-Driven
Decisionmaking Affect Firm Performance? (April 22, 2011). Available at SSRN:
http://ssrn.com/abstract=1819486 or http://dx.doi.org/10.2139/ssrn.1819486
7

BUCHANAN, L e OCONNELL, Uma breve histria da tomada de deciso. IN. Harvard


Business Review. P.: 20-29, Jan. 2006.
CARON-FASAN, Marie-Laurence; JANISSEK-MUNIZ, Raquel. Anlise de informaes de
inteligncia estratgica antecipativa coletiva: proposio de um mtodo, caso aplicado e
experincias. Revista de Administrao, So Paulo, v. 39, n. 3, p. 205-219, jul./ago./set. 2004.
CHARAN R. Guerra contra a indeciso. IN. Harvard Business Review. Pgina: 76-83, Jan.
2006
DAVENPORT, T.H. , PATIL, D.J. Cientista de Dados: O Profissional mais Cobiado do
Sculo. Harward Business Review, Out. 2012.
DOANE, D.P.;SEWARD,L.E. Estatstica Aplicada Administrao e Economia Dados
Eletrnicos.Porto Alegre: AMGH, 2011. 839 p.
DRUCKER, Peter F. Gerenciando a si mesmo. Harvard Business Review, So Paulo, v. 83, n.
1, p. 89-97, jan. 2005.
FACHINELLI, A.C., RECH, J., MATTIA, O.M., ROVEDA, V. Viglia e inteligncia
Estratgica: Ferramentas Metodolgicas para definio de estratgias de Relaes Pblicas.
Conexo Comunicao e Cultira, UCS, Caxias do Sul, v.6, n.11, jan./jun. 2007.
FERNANDES, F.C. Inteligncia e Gesto Estratgica: Uma Relao Sinrgica. Revista
Brasileira de Inteligncia. Braslia:Abin, n.7,jul.2012.
FREUND,J.E.;SIMON,G.A. Estatstica Aplicada Economia, Administrao e Contabilidade.
Porto Alegre: Bookman, 2000. 404 p.
HAMMOND S. J.; KEENEY, R e RAIFFA H. Armadilhas ocultas na tomada de deciso.
Harvard Business Review. P. 84-92, Jan. 2006.
KANTER, R.M. O que Diria Drucker. Harward Business Review, Nov. 2009.
MARCHAND, D., PEPPARD, J. Por que a TI se Atrapalha com a Analtica. Harward
Business Review, Fev. 2013.
McAFEE, A. , BRYNJOLFSSON, E. Big Data: A Revoluo da Gesto. Harward Business
Review, Out. 2012.
MICHAELI,R.;SIMON,L. (2007). An illustration of Bayes theorem and its use as a decisionmaking aid for competitive inteligence and marketing analysts. European Journal of
Marketing. v. 42, n.7/8, p. 804-813, 2008.
OHL, M. Como Tomar Decises Melhores. Revista VoceSA. Mai. 2013.
PETRY, A. O Bero do Big Data. Revista Veja, 15 de maio, 2013.
STAUFFER, David. Bem-vindo ao mundo da inteligncia competitiva. HSM Management
Update, So Paulo, n. 10, p. 5-7, jan.-fev. 2004.
SILVER, NATE. O sinal e o rudo: porque tantas previses falham e outras no. Rio de
Janeiro: Inntrnseca,2013. 544p.
CAUSA BRASIL. Disponvel em < http://www.causabrasil.com.br >. Acesso em: 17/07/2013
CLIPPING RADIOBRAS. Disponvel em: <http:// clipping.radiobras.gov.br>. Acesso em:
17/07/2013
TEIXEIRA. D.R. Inteligncia de Mercado: Transformando as Olimpadas em Negcios.
Revista Inteligncia Competitiva,So Paulo, v.2, n.1, p15-21, jul./set. 2012.
THOLT,C. Decida com Inteligncia. Braslia, thesaurus, ABRAIC, 2006.
VALENTIM,M.L.P. et al. O processo de inteligncia competitiva em organizaes.
DataGramaZero - Revista de Cincia da Informao. v. 3, n. 4, 2002.
WHEATON,K.J.;LEE,J.;DESHMUKH,H.Teaching Bayesian statistics to intelligence
analists: lessons learned. Journal of Strategic Security. v. 2, n.1/3, p. 39-58, 2009.

Você também pode gostar