Escolar Documentos
Profissional Documentos
Cultura Documentos
O proco de um vilarejo da Inglaterra do sculo 18, at certo ponto obscuro em seu tempo, festejado e considerado avanado nos meios cientficos atuais tudo por ter escrito um pequeno ensaio sobre probabilidade. O processo de raciocnio idealizado por Thomas Bayes nesse texto, que ele mesmo sequer levou a pblico, tido hoje como uma nova forma de ver o mundo, como a base de uma verdadeira revoluo em diferentes campos do conhecimento, da gentica teologia. Mas o que o raciocnio bayesiano e por que vem ganhando tanto prestgio?
Thomas
ILUSTRAO ALVIM
Srgio Danilo Pena Departamento de Bioqumica e Imunologia, Universidade Federal de Minas Gerais
F I L O S O F I A D A C I N C I A
Bayes: o cara!
Se voc visitar hoje o campus de uma universidade norte-americana, provvel que encontre estudantes usando camisetas com a inscrio Bayes rules! A traduo para o portugus seria algo como Bayes o cara! (em ingls, a frase contm um trocadilho que ser revelado mais adiante). Curioso, voc decide checar quem esse Bayes, e o melhor lugar para isso certamente a internet. Ao digitar o nome Bayes em uma pgina de busca (www.google.com.br, por exemplo) descobre-se que o nome completo dele Thomas Bayes, que h um teorema de Bayes e que esse nome citado (em junho deste ano) em nada menos que 9,3 milhes de pginas de internet! Se usarmos a palavra inglesa bayesian (bayesiano), o total de pginas sobe para 23,2 milhes. Se buscarmos informao em uma rea especfica, como o banco de dados de literatura biomdica Pubmed (www.ncbi.nlm.nih.gov), colocando Bayes na linha de procura, encontramos nada menos que 6.655 artigos! Finalmente, uma consulta, usando o nome Bayes, ao excelente repositrio de sabedoria que a Enciclopdia de Filosofia de Stanford (http:// plato.stanford.edu) faz surgirem muitos verbetes: teorema de Bayes, lgica indutiva, epistemologia bayesiana, milagres, argumento teleolgico para a existncia de Deus, teoria dos jogos, conhecimento comum, interpretaes de probabilidade, filosofia da economia, o problema do mal, teoria formal do aprendizado e atesmo e agnosticismo! Isso j permite admitir que esse tal de Bayes deve ser de fato o cara e certamente nos deixa ainda mais curiosos. Este artigo tenta apresentar quem foi Bayes, o que so o seu teorema e a sua teoria da probabilidade e por que ele importante em tantas reas
julho de 2006 CINCIA HOJE 23
F I L O S O F I A D A C I N C I A
Figura 1. O reverendo Thomas Bayes (1701?-1776), na nica representao que existe dele
na doutrina das probabilidades). Nesse artigo estava a demonstrao do famoso teorema de Bayes. Price acreditava que o artigo fornecia uma prova da existncia de Deus (o texto, na ntegra, est na pgina http://publicacoes.gene.com.br/ciencia_hoje/ Bayes.pdf). Aps sua publicao, o trabalho caiu no esquecimento, do qual s foi resgatado pelo matemtico francs Pierre-Simon de Laplace (1749-1827), que o revelou ao mundo.
O raciocnio de Bayes
O raciocnio bayesiano pode ser explicado com um exemplo mdico, relacionado com a chance de uma mulher ter cncer de mama, usando dados de um artigo do norte-americano Eliezer Yudkowsky, pesquisador da inteligncia artificial. Recomendase que, a partir dos 40 anos, as mulheres faam mamografias anuais. Nessa idade, 1% das mulheres so portadoras de um tumor assintomtico de mama. Sabe-se que a mamografia apresenta resultado positivo em 80% das mulheres com cncer de mama, mas esse mesmo resultado ocorre tambm com 9,6% das mulheres sem o cncer. Imagine agora que voc chega em casa e encontra sua tia aos prantos, desesperada, porque fez uma mamografia de rotina e o resultado foi positivo! Qual a probabilidade de ela ter um cncer de mama? Pense bem e escreva sua resposta em um papel. Vamos agora montar o problema de uma maneira bayesiana. Em primeiro lugar, sua tia tem o cncer de mama (CA) ou no (no-CA). Essas alternativas, mutuamente excludentes, podem ser colocadas em uma tabela, como abaixo. Podemos iniciar o raciocnio pela probabilidade de cada alternativa antes de fazer qualquer teste. a chamada probabilidade a priori ter cncer ou no ter. Como em mdia 1% das mulheres de 40 anos tm um tumor de mama, a probabilidade a priori de sua tia ter um cncer de 1% (0,01) e de no ter de 99% (0,99).
TEM CNCER Prob. a priori 0,01 NO TEM CNCER 0,99
do conhecimento, da medicina teologia. Essa tentativa ser feita da maneira mais simples, intuitiva e informal possvel, sem muitas frmulas ou letras gregas.
Agora vamos incorporar o resultado da mamografia. Se o cncer de mama est presente, a probabilidade condicional de a mamografia ser positiva 0,80 (80%), e se no est presente de 0,096 (9,6%).
TEM CNCER Prob. a priori Prob. condicional 0,01 0,8 NO TEM CNCER 0,99 0,096
F I L O S O F I A D A C I N C I A
Observe que a soma das probabilidades a priori 1, mas isso no acontece com as probabilidades conjuntas. Para fazer com que essa segunda soma se torne 1, preciso usar uma normalizao, dividindo cada probabilidade conjunta pela soma das duas. Chegamos assim chamada probabilidade a posteriori.
TEM CNCER Prob. a priori Prob. condicional Prob. conjunta Normalizao Prob. a posteriori 0,01 0,8 0,01 x 0,8 = 0,008 NO TEM CNCER 0,99 0,096 0,99 x 0,096 = 0,0095
Portanto, o raciocnio bayesiano nos levou, de modo muito simples, a concluir que a probabilidade a posteriori (ou seja, aps o teste) de sua tia no ter um cncer de mama de 0,54 (54%) e voc pode tranqiliz-la de que a situao no inevitvel. Quando esse problema foi apresentado a vrias pessoas, inclusive estudantes de medicina, observou-se uma tendncia a superestimar a probabilidade a posteriori da doena. Isso revela que o raciocnio bayesiano no intuitivo. Parece haver uma tendncia geral a ignorar o fato de que a probabilidade a priori de doena pequena, fenmeno denominado falcia da probabilidade de base pelo psiclogo norte-americano (de origem israelense) Daniel Kahneman, premiado com o Nobel de Economia em 2002 por estudos sobre o comportamento de investidores. Outro modo de expressar isso dizer que em geral as pessoas no so racionais. Em artigo recente, Mike Alder, professor de matemtica e filosofia da cincia na Universidade da Austrlia Ocidental, escreveu que o aprendizado da teoria bayesiana pode tornar qualquer um muito mais inteligente que seus amigos e at transform-lo em um super-humano.
chance de a mulher ter um cncer de mama. Sob esse ponto de vista, um teste mdico funciona como um modificador de opinio, atualizando uma hiptese inicial (probabilidade a priori) para gerar outra (probabilidade a posteriori). Essa ltima engloba tanto a crena anterior (probabilidade a priori) quanto o resultado do teste. A probabilidade a posteriori, bvio, torna-se automaticamente a probabilidade a priori para testes subseqentes. Alguns autores afirmam que o raciocnio diagnstico dos mdicos naturalmente bayesiano. Quando o paciente diz estar com dor no peito, o bom clnico j imagina uma srie de possibilidades diagnsticas (o diagnstico diferencial). Destaque-se aqui que o raciocnio bayesiano aplica-se no apenas a dois estados (no caso, infarto ou noinfarto) mutuamente excludentes, mas a trs, quatro ou mais hipteses. Assim, mtodos bayesianos podem ser usados para decidir entre vrias possibilidades diagnsticas, examinando-se qual a mais consistente com os dados clnicos. medida que prossegue a conversa com o paciente e depois, com o exame fsico, o mdico reajusta constante e automaticamente suas probabilidades iniciais e, para isso, resultados negativos em exames so to importantes quanto os positivos.
F I L O S O F I A D A C I N C I A
bayesiano. As alternativas so mutuamente excludentes: o pai biolgico Sinfrnio ou outro indivduo. Se Sinfrnio o pai, o espermatozide dele que fecundou o vulo da me carregava o alelo 13 lembrando que espermatozides so haplides, ou seja, levam apenas um alelo de cada gene. Como ele tem dois alelos (10 e 13), cada um tem uma probabilidade de 50% (0,5) de ser o escolhido. E se o pai outro, qual a chance de seu espermatozide portar o alelo 13? No existindo um suspeito especfico, a resposta dada pela freqncia do alelo 13 na populao (digamos que seja de 7,5%, ou 0,075). Essas probabilidades de 0,5 e 0,075 so, portanto, as nossas probabilidades condicionais. Entretanto, como no caso do cncer de mama, preciso saber as probabilidades a priori de que Sinfrnio ou outro indivduo qualquer sejam o pai biolgico da criana. Aqui, pode-se agir de maneiras diferentes. Na mais bvia, voc estima a probabilidade a priori subjetivamente, com base no que conhece de Sinfrnio e da esposa. No entanto, quando se lida com muitos casos de determinao de paternidade, invivel estudar os detalhes de cada um para fazer essa estimativa. Adota-se, ento a outra maneira: utilizar na anlise uma mesma probabilidade a priori para todos os casos. Isso no influencia muito a probabilidade final de paternidade tanto que o uso de 0,50 (50%) hoje uma conveno internacional. Agora possvel montar a tabela:
SINFRNIO O PAI Prob. a priori Prob. condicional Prob. conjunta Normalizao 0,50 0,50 0,50 x 0,50 = 0,25 O PAI OUTRO 0,50 0,075 0,50 x 0,075 = 0,0375
possvel pai. Nesse caso, necessrio reconstituir o perfil gentico desse possvel pai a partir de familiares vivos. Dependendo da relao gentica (parentesco) entre as pessoas testadas e o indivduo falecido, o raciocnio bayesiano pode ficar sinuoso, sendo difcil seguir a lgica. A sada usar solues grficas, as chamadas redes bayesianas, diagramas que analisam problemas reais atravs de um mapeamento probabilstico das relaes de causa e efeito entre as variveis (figura 2). A explicao de como funciona uma rede bayesiana em determinao de paternidade est alm dos objetivos deste artigo, mas pode ser encontrada na pgina www.gene-pater.com.
Esse nico resultado j permite comear a tranqilizar o Sinfrnio. No entanto, para que a certeza final seja alta preciso estudar mais locos. Os bons laboratrios rotineiramente examinam ao menos 12 regies genticas em cada determinao de paternidade. Assim, a tabela ter 12 probabilidades condicionais (uma para cada loco) e, desde que os locos usados sejam independentes, todas elas podem ser usadas no clculo da probabilidade a posteriori. No fim, a evidncia laboratorial ser to forte que a probabilidade a priori no afetar o resultado de maneira relevante. Essa facilidade de calcular probabilidades bayesianas parece indicar que no h qualquer segredo na anlise de casos de paternidade. H casos, no entanto, bem mais complexos. Um exemplo a determinao da paternidade aps a morte do
26 CINCIA HOJE vol. 38 n 22 8
F I L O S O F I A D A C I N C I A
Mas em geral no levada em conta a probabilidade a priori de o achado ser verdadeiro. Muitas vezes essa probabilidade inicial to pequena que um nvel de significncia de 5% no nem de longe suficiente para a sua reverso. Imaginemos, em um exerccio mental, a hiptese fantasiosa de que a vitamina C constitui uma cura para o cncer. Para testar isso, estudamos um grupo de 200 indivduos com cncer, distribudos aleatoriamente em dois grupos de 100. Um grupo tratado por trs meses com vitamina C, de modo duplo-cego (paciente e pesquisador no sabem se o que dado ao primeiro contm mesmo a vitamina, o que controlado parte). O outro grupo tratado com um placebo (substncia sem qualquer efeito). Ao final, descobre-se que o cncer no progrediu em 65 dos pacientes que de fato tomaram a vitamina C, e que o mesmo aconteceu a 50 dos que no tomaram a vitamina. Um teste estatstico confirma que essa diferena significativa ao nvel de 5% (porque a chance de que seja fruto do acaso menor que 5%). Com base nisso, possvel escrever um artigo cientfico defendendo a hiptese de que a vitamina C tem ao contra o cncer.
Esse procedimento est correto? Obviamente, no. O problema, nesse caso, que no foi levado em conta o consenso, existente na literatura mdica e baseado em inmeros experimentos semelhantes, de que a vitamina C no cura o cncer. Assim, a probabilidade a priori de que um estudo isolado revele uma verdade oculta e revire os cnones da medicina infinitesimalmente pequena. A no ser que a evidncia experimental seja fabulosamente forte, melhor ficar calado.
Figura 2. Rede bayesiana para anlise de caso de determinao de paternidade em que o possvel pai falecido e seu perfil gentico reconstitudo atravs da tipagem gentica de uma irm, um irmo e uma filha. Nesses casos, a rede bayesiana permite obter resultados de altssima confiabilidade sem risco de erros lgicos (os retngulos em torno dos ns da rede foram colocados apenas para fins de clareza)
julho de 2006 CINCIA HOJE 27
F I L O S O F I A D A C I N C I A
O TEOREMA DE BAYES
Para chegar ao teorema de Bayes, partimos de princpios bsicos. Assim, a probabilidade de que observemos simultaneamente um evento A e um evento B dada por: P(A B) = P(A/B) . P(B) (1) Por outro lado, a probabilidade de que observemos simultaneamente um evento A e um evento B tambm pode ser dada por: P(B A) = P(A B) = P(B/A) . P(A) Combinando (1) e (2), temos: P(A/B) . P(B) = P(B/A) . P(A) Rearranjando, chegamos ao teorema de Bayes: P(A/B) = P(B/A) . P(A) P(B) Como geralmente no conhecemos P(B), precisamos usar uma formulao alternativa, que baseada em: P(B) = P(B A) + P(B Ac)
c
(2) 3) (4)
(5)
Onde A o evento complementar de A, tambm chamado de noA. Usando nosso conhecimento bsico (equao 1 acima) e substituindo, obtemos: P(B) = [P(B/A) . P(A)] + [P(B/Ac) . P(Ac)] Substituindo 6 em 4 obtemos a formulao alternativa: Probabilidades a priori P(A/B) = P(B/A) . P(A) [P(B/A) . P(A)] + Probabilidade a posteriori [P(B/Ac) . P(Ac)] . (6)
Probabilidades condicionais
o aqui para discutir em detalhe cada um desses tpicos, mas vale mencion-los por alto, lembrando sempre que estamos apenas arranhando a superfcie. 1. Em primeiro lugar, o processo de internalizao da experincia emprica e conseqente modificao dos nossos graus de crena tem sido comparado experincia do aprendizado. H, inclusive, uma teoria de aprendizado em inteligncia artificial denominada aprendizado bayesiano. Inmeros programas (softwares) inteligentes baseiam-se em princpios bayesianos. Um exemplo mais corriqueiro est nos programas que filtram mensagens indesejadas em nossos correios eletrnicos. 2. Uma segunda implicao refere-se existncia de uma revoluo bayesiana em curso. Ela se fundamenta no s no fato de que mais e mais cientistas esto usando o mtodo bayesiano, mas no entendimento de que o prprio mtodo cientfico tem lgica e estrutura bayesianas. O processo de elaborar hipteses, test-las experimentalmente e reajustar as crenas iniciais com base na evidncia emprica obtida essencialmente bayesiano. Esse modelo mais poderoso que, por exemplo, o falsificacionismo do cientista social e filsofo austraco Karl Popper (19021994), porque no baseado em tudo-ou-nada. Na realidade da prtica cientfica, nenhum resultado de experimento, por mais contundente que seja, capaz de falsificar uma hiptese, mas apenas de aumentar ou diminuir sua credibilidade. Em outras palavras, um resultado experimental deve ser visto como algo que modifica seu grau de crena em uma hiptese e no como uma maneira de chegar a uma verdade absoluta. 3. O filsofo grego Aristteles (384-322 a.C.) construiu um edifcio lgico que lastreou a racio-
F I L O S O F I A D A C I N C I A
nalidade humana por mais de 2 mil anos. Sua lgica, entretanto, toda baseada na idia de que uma proposio falsa ou verdadeira nenhuma outra alternativa aceitvel. Na vida real, porm, raramente encontramos situaes em que podemos afirmar que esta ou aquela alternativa so verdades ou falsidades absolutas. Na dcada de 1920, o economista ingls John Maynard Keynes (1883-1946) mostrou ser possvel construir uma lgica contnua. Tomando-se uma afirmativa B, podemos estipular um nmero entre 0 e 1 que represente o quanto acreditamos nela ser a credibilidade de B. O valor 0 significa que a afirmativa falsa e o valor 1 que verdadeira, mas h infinitos valores de credibilidade entre 0 e 1. Essa credibilidade de Keynes equivale probabilidade subjetiva de Bayes. Da para o bayesianismo um pequeno salto, pois certamente fatos posteriores relevantes alteraro o valor-verdade (a credibilidade) de B. Assim, Bayes nos leva a uma generalizao da lgica aristoteliana, ponto discutido com especial cuidado no j citado artigo de Mike Alder. 4. Em suma, o bayesianismo nos fornece toda uma viso de mundo. Como podemos ver na pgina anterior, o teorema de Bayes liga a inferncia racional (a probabilidade a posteriori), no lado esquerdo da equao, subjetividade (probabilidade a priori) e experincia emprica (probabilidades condicionais), ambas no lado direito. Como escrito poeticamente por Eliezer Yudkowski, o teorema de Bayes liga a razo humana ao universo fsico. Considerando que Bayes tem importncia to grande em tantas reas, seria de esperar que fosse um super-heri entre os estatsticos. Aparentemente, isso no ocorre, pelo menos para a maioria. Atualmente, a filosofia dominante nessa rea a chamada interpretao freqentista. Bayesianos e freqentistas usam mtodos e linguagens diferentes. Como j vimos, na estatstica bayesiana a probabilidade mede um grau de crena (uma credibilidade) e isso permite que falemos em probabilidade de hipteses e parmetros, o que no possvel no paradigma freqentista. Como em festa de jacu, inhambu no entra, este artigo fica fora dessa controvrsia.
Curiosidade aguada
ILUSTRAO ALVIM
As limitaes de espao fizeram com que essa introduo ao bayesianismo fosse breve e superficial. Entretanto, espero que ela possa aguar a
curiosidade dos leitores e estimul-los a aprofundar seus estudos sobre Bayes, que podem ser iniciados na internet ou em outras fontes. Um ltimo ponto: no primeiro pargrafo foi dito que a expresso Bayes rules!, aqui traduzida como Bayes o cara!, continha um trocadilho em ingls. Qual ? Bem, um sinnimo bastante utilizado para o teorema de Bayes (Bayes theorem) a expresso Bayes rule (regra de Bayes) da vem o trocadilho com a gria rules.