Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo
O teorema de Bayes tem se mostrado como uma ferramenta importante no auxilio
tomada de deciso. O site Causa Brasil monitora as questes e reivindicaes nas redes
sociais, um site atualizado a cada hora e calcula os percentuais de cada causa baseado nas
ltimas 24h, contm um histrico de 55 dias. O clipping da Radiobrs divulga as principais
notcias das mdias com maior impacto no Brasil. O teorema de Bayes calcula incertezas,
fazendo previses, baseado na experincia do pesquisador ou no histrico da situao.
Utilizando o site Causa Brasil e relacionando-o com as notcias divulgadas no clipping da
Radiobrs diariamente, criou-se um histrico para verificar se existe alguma relao entre as
notcias da mdia com as causas das redes sociais. O objetivo desse estudo foi criar bases
tcnicas para fazer previses da repercusso de fatos, utilizando o teorema de Bayes, nas
redes sociais com as notcias ou acontecimentos. O teorema de Bayes explicado e
exemplificado ao longo do texto. Os resultados no foram significativos e no se pode chegar
a concluses quanto as possveis probabilidades para o uso do teorema de Bayes. No entanto,
desenvolveu-se uma metodologia para, com mais dados, futuramente utilizar o teorema de
Bayes.
Introduo
As redes sociais esto cada vez mais presentes no cotidiano e tem sido uma importante
ferramenta de comunicao. Elas tem provado ser um meio muito poderoso de difuso e
mobilizao social, visto os recentes acontecimentos na mobilizao dos protestos. O site
Causa Brasil nasceu da ideia de verificar as causas e reivindicaes que esto acontecendo na
internet. Dessa forma, o site tem uma plataforma que monitora o movimento nas redes sociais
detalhando quais manifestaes mais foram feitas na ltimas 24 horas. Assim, o objetivo
deste artigo foi compreender se existe alguma maneira de mensurar, de forma a quantificar ou
prever o impacto de acontecimentos antes de manifestaes nas redes sociais acontecerem. Ao
tratar de previso estatstica, o modelo que mais se encaixa neste tipo de comportamento o
teorema de Bayes. O Teorema de Bayes uma ferramenta que auxilia na anlise de deciso e
tem sido usado na tomada de deciso. (MICHAELI, 2007). Ele trabalha com incertezas,
contudo este teorema ainda pouco usado apesar de ter uma matemtica simples, pois a
insero dos dados no acontece de maneira to trivial. O Teorema de Bayes utiliza incertezas
do ambiente e para fazer a sua correta aplicao necessrio ter experincia no assunto ou ter
dados que ajudem a formular as previses.
Assim, nesse artigo utilizaram-se trs tipos de informao: o fato, a notcia e a
repercusso. Dessa forma, os trs tipos foram caracterizados de acordo com a seguinte regra:
o fato que ocorre quando algo acontece, a notcia quando o fato divulgado pela imprensa e
a repercusso, que o impacto da notcia na sociedade. Entretanto, percebe-se que no Brasil,
as informaes da internet excluem de certa forma uma boa parte da populao, assim como a
utilizao de outros meios de acesso informao.
Fundamentao terica
O teorema de Bayes relaciona informaes, com a probabilidade de ocorrncia, para
gerar uma nova probabilidade quando os fatos acontecem de maneira relacionada ou so
dependentes. Tambm importante ressaltar que essas probabilidades podem e devem ser
revistas medida que so observados novos fatos que podem alterar a probabilidade de cada
um dos acontecimentos envolvidos (SILVER, 2013). O teorema de Bayes utiliza incertezas,
entretanto alimentado por meio de probabilidades que podem ser estimas ou sugeridas.
Assim, o teorema de Bayes trabalha primeiramente com informaes prvias, dessa forma, ao
obter novas informaes aplica-se o teorema e alcanam-se as probabilidades posteriores.
O teorema de Bayes utiliza dois tipos de inferncias estatsticas: as intuitivas e as
experimentais. A primeira adquirida atravs do conhecimento prvio em relao a situaes
passadas, desta maneira pode-se fazer uma conjectura sobre a situao e formular uma
possvel probabilidade. J a outra obtida medida atravs da experimentao, a partir dos
dados so feitos procedimentos estatsticos com os quais se calcula a probabilidade, medida
que novos dados coletados so refeitos os clculos estatsticos e calculadas as novas
probabilidades. Assim, as probabilidades associadas a um evento so definidas previamente e
atualizadas na medida em que se recebem novas informaes. Quando os dados so mais
informativos que as suposies iniciais, ou seja, quando a amostra aumenta, as probabilidades
convergem independentes das distribuies iniciais. (SILVER, 2013)
Nesse sentido, Wheaton (2009), explica que o teorema de Bayes muito til quando
se treina novos profissionais, pois ele auxilia a minimizar a diferena da experincia entre os
profissionais antigos e os novos. Assim, pode-se quantificar quo provvel algo de
acontecer baseado em informaes prvias. No entanto o Teorema de Bayes no usualmente
utilizado por parecer muito complexo ou porque os analistas no o conhecem e no sabem
como us-lo.
O teorema de Bayes utilizado por profissionais de inteligncia. Atualmente
utilizado principalmente em problemas psicolgicos, pois trabalha com incertezas
condicionais computadas explicitamente, no estimadas intuitivamente, porque ao estimar-se
intuitivamente, as crenas podem levar ao erro. (MICHAELI, 2007).
Wheaton (2009) explica que o teorema de Bayes o fundamento da inteligncia
competitiva. Pode ser aplicado na anlise de deciso, assim quando um produto lanado,
necessria a formatao correta e adequada do teorema de Bayes para que este mostre
probabilidades de modo condizente. Em situaes de deciso altamente recomendvel o uso
do teorema de Bayes, pois ele contribui para gerao do cenrio em conjunto com as
probabilidades.
Para Silver (2013), ao se tratar de problemas buscam-se alternativas conhecidas para
solucion-las, porm tambm existe o caso em que as alternativas desconhecidas no so
imaginadas, por isso muitas vezes no so questionadas outras hipteses. Porm, dessa
maneira podem-se estimar probabilidades de maneira errada, pois se descartam hipteses por
simplesmente desconhecer sua existncia.
Silver (2013) complementa que um problema grave que nem sempre so mostradas
as incertezas de um clculo, levando as pessoas a pensarem que o nmero bruto o valor real
e ele acontecer desta maneira. Para Wheaton (2009) o teorema de Bayes algo que exige
treinamento, pois se necessita estipular as probabilidades iniciais e quanto mais familiarizados
com o assunto mais precisam ser esta avaliao. Assim, para melhor compreenso do
Teorema de Bayes preciso compreender como o mesmo calculado.
Definio teorema de Bayes
Apesar das probabilidades P(A|B) e P(B|A) serem parecidas, elas significam algo
diferente cada uma. Sendo P(A|B) a probabilidade de uma loja especializada em uma marca
de pneus prestarem um bom servio dentro da garantia. Ento, P(B|A) a probabilidade de
uma loja de pneus que prestar um bons servios dentro da garantia serem pneus especializada
em uma marca de pneus. No primeiro momento quando lemos muitas vezes no percebemos a
diferena entre as duas afirmaes, porm probabilisticamente so diferentes, pois na primeira
selecionamos uma loja especializada em uma marca de pneus e depois dentre estas as que
prestam bom servio dentro da garantia; na segunda afirmao, selecionamos as lojas que
prestam um bom servio e depois dentre essas, as que so especializadas em uma marca de
2
pneu. A inverso das afirmaes faz a probabilidade estatstica ser completamente diferente,
pois isso devemos cuidar muito bem no momento em que fazemos formulao estatstica.
Definio terica do teorema de Bayes - O teorema de Bayes permite que o evento B
tenha um nmero qualquer de categorias (B1, B2, ..., Bn) sendo este evento mutuamente
excludentes.
P( B | A)
i
P( A | B ) P( B )
P( A | B ) P( B ) P( A | B ) P( B ) ... P( A | B ) P( B )
i
P ( B | A)
P( B) P( A | B)
P( B) P( A | B) P( B' ) P( A | B' )
P( A | I )
0,96 * 0,60
0,96 * 0,60 0,01* 0,40
3
Mtodo
Foram coletados os dados de repercusso na rede social do site Causa Brasil
(www.causabrasil.com.br) durante o perodo de tempo de um ms, entre 16 de junho e 16 de
julho. A coleta era feita diariamente com intervalo de 24 horas, o horrio de referncia era
meia noite. Foram escolhidos alguns tpicos para serem monitorados. No momento da coleta
os valores dos percentuais cada tpico e valores absolutos do dia eram passados para uma
planilha e disponibilizados para anlise.
Os dados referentes ao acontecimento foram retirados do site da Radiobrs que tem
um clipping (clipping.radiobras.gov.br) dedicado as principais notcias dos jornais de maior
impacto no pas, este site de uma empresa estatal do governo federal. Neste site foram
analisadas as notcias diariamente, estas eram separadas de acordo com o termo de interesse e
posteriormente foi dado um peso para cada tipo de notcia de acordo com o termo pesquisado
por relevncia atribuda pelo pesquisador. Tambm foi ponderado com um fator de impacto
da mdia na populao, este fator foi determinado pelo pesquisador. Foram atribudos pesos
de 0 a 10 de acordo com a significncia da notcia e a significncia da mdia.
As notcias ponderadas pela sua relevncia foram combinadas e graficadas
diariamente, resultando claramente em um impacto desse tpico ao longo do perodo
estudado.
A anlise dos dados foi feita comparando diretamente os dados de repercusso
absolutos ou relativos e os dados das notcias ponderadas.
Aplicao o teorema de Bayes
Quando se tem um problema com duas alternativas possveis, primeiro pode-se
ponderar que cada uma tem 50% de chance de acontecer, como se fosse um jogo de cara e
coroa. Porm nem sempre assim que as coisas funcionam, isso porque mesmo duas solues
com 50% de chance de acontecer, podem ter pesos diferentes de acordo com o problema. No
caso de um governo de um pas, restringindo as hipteses das pessoas que aprovam e das
pessoas que no aprovam, podemos ter, por exemplo, 30% e 70%, mas estes dados podem
alterar de acordo com as notcias e acontecimentos no pas. Por isso, importante ressaltar
que as probabilidades devem ser revistas medida que as informaes so alteradas ou
chegam novas informaes. Outro ponto importante que como as informaes circulam de
maneira muito rpida podem ocorrer rudos que podem afetar o correto discernimento sobre o
problema. Neste estudo, o rudo considera as informaes que podem parecer verdadeiras,
porm nada tem haver com o sinal (SILVER, 2013).
O site Causa Brasil acompanha o movimento das informaes nas redes sociais da
internet, relacionando termos a alguns tpicos principais. As causas so identificadas a partir
do contedo de postagens que contenham ao menos uma das principais hashtags ligadas s
manifestaes, segundo o site causabrasil. Esses movimentos so atualizados de hora em hora
a porcentagem de cada causa referente ao nmero acumulado de menes no perodo de 24
horas segundo o site causabrasil. So atribudos percentuais de acordo com a presena dos
termos nas redes sociais. Assim, temo-se uma noo do que est acontecendo nas redes
sociais, mas com retardo de um dia, pois precisam de 24 horas para atualizar a ocorrncia dos
termos nas redes sociais. importante ressaltar que o site mede o fluxo de informaes sobre
determinados termos nas redes sociais, no se preocupando com as notcias, somente com a
repercusso, porm a repercusso acontece por causa das notcias. As causas so
categorizadas por macrotemas: poltico, economia, direitos bsicos do cidado, liberdades
individuais e copa do Brasil (www.causabrasil.com.br). Cada causa tem diversos termos e
hashtags que so combinados a fim de construir o percentual de manifestaes do assunto.. A
coleta de dados feita por meio do software Seekr, no Facebook, Twitter, Instagram,
YouTube e Google.
O site da Radiobrs, por sua vez, coleta as principais notcias dos jornais de maior
impacto no Brasil. Este um site estatal, assim sendo no um site isento, mas um site
confivel.
Para realizao do estudo, utilizou-se o site Causa Brasil juntamente com o clipping da
Radiobrs para conjecturar o teorema de Bayes. Por meio do site causa Brasil pode-se
acompanhar a evoluo de determinados tpicos e assim relacionar com as notcias da
Radiobrs. Esta relao contribui para criar um histrico do comportamento e da relao das
duas informaes, isso muito importante ao utilizar o Teorema de Bayes, pois quanto mais
informaes melhor ser a estimativa.
Resultados e discusses
Os dados so apresentados no site como mostra a figura 2. O tamanho do crculo
proporcional ao percentual da causa naquele momento. Cada assunto expe o percentual, o
total de causas menes monitoradas e os termos monitorados em cada causa (figura 2 e
figura 3).
Figura 3. Site causa Brasil dia 15 de julho 1 hora- destacada as informaes da causa
Governo Dilma Rousseff.
Fonte: www.causabrasil.com.br
Os dados do site Causa Brasil foram colocados em uma planilha, da qual se preencheu
o tpico, o percentual e o dia ao qual se referia. Aps os dados foram graficados em uma
relao dia x tpico.
Os dados da Radiobrs foram extrados por meio de palavras chaves buscadas no
corpo da notcia diariamente e tambm foram graficados em uma relao dia x palavra chave.
Os grficos dos tpicos do site causa Brasil foram comparados com os grficos das
palavras chaves do site da Radiobrs procurando alguma relao entre eles a fim de criar
embasamento para as previses de possibilidades para serem aplicados no teorema de Bayes.
Usando o tpico Combate a inflao do site causa Brasil e comparando com a palavra chave
inflao no site da Radiobrs no foi encontrada nenhuma relao significante durante o
perodo analisado, porm sugere-se que seja feito o teste de outras maneiras a fim de verificar
se realmente no existe a relao.
4
Srie2
Srie1
0
17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16