Você está na página 1de 619
CARLOS DANIEL PAULINO - M. ANTONIA AMARAL TURKMAN, BENTO MURTEIRA - GIOVANIL. SILVA ESTATISTICA BAYESIANA 2.4 edigéo revista e ampliada h(@}x) o f(x}6) h(0) \ f0) FUNDACAO CALOUSTE GULBENKIAN Prefacio 4 Segunda Edigao E oportuno e legitimo registar-se que finalmente surge a ha muito aguardada 2* edicao deste livro, dado terem transcorridos 15 anos desde a publicagio da 1* edigao, que rapidamente se esgotou no seio da comunidade cientifica capaz de entender a lingua portuguesa escrita. Deven-se este longo interhidio fundamentalmente aos seguintes motivos. Por um. lado, & nossa recusa em permitir simples reimpress6es numa época em que 0 con- timuado desenvolvimento e expansio do uso da Estatistica Bayesiana jé requeria a preparagio de uma compatfvel 2* edigdio. Por outro, as sucessivas vicissitudes decor- rentes de persistentes ocupages dos autores profissionalmente ativos perante diversas solicitagdes. Mesmo com o alargamento da equipa autoral, s6 agora se considerou terem sido atingidos os propésitos tragados para o aperfeigoamento ¢ ampliagao desta nova edigao, de modo a torné-la mais proveitosa ¢ atrativa para uma mais alargada audiéncia. As mudangas operadas nesta nova edigio sio, para além da introdugao de correcdes de natureza diversa, sistematizaveis em expansio, ampliagio e reorganizagao. O gran de cobertura de tépicos foi significativamente expandido sendo coneretizagées disto 0s topicos de inidentificabilidade e suas implicagGes inferenciais (no novo Capitulo 8), abordagem INLA (no Capitulo 5), avaliagio de modelos (nos novos Capitulos 8 e 10) e métodos de simulagio MCMG (nos novos Capitulos 9 10). O reforgo da componente pratica foi nomeadamente conseguido ampliando subs- tancialmente o mimero de exemplos de ilustragao e problemas de aplicagio ao longo do texto, com destaque para os novos Capitulos 9, 10 e 11. Em particular, este til- timo capitulo esgota-se na deserigao de alguns casos de estudo, oriundos de diversos dominios de aplicagdo, em que algum de nés esteve envolvido. Preocupacées didaticas justificaram a reorganizagéo de material antigo e novo, © que incluiu a deslocagio de material dos anteriores Capitulos 3 ¢ 6 para 0 novo Capitulo 8, 0 rearranjo aqui de tépicos de critica, selegio e comparagéo de modelos € a subdivisio do material expandido de MCMC pelos novos Capitulos 9 e 10. Além disso, optou-se por uma estruturagdo de questdes mais especificas em notas separadas, geralmente remetidas para o fim de capitulos, como forma de propiciar uma leitura mais fluida dos assuntos de interesse de cada leitor em momento préprio. Esta 28 edicdo apresenta ainda outros instrumentos que contribuem para um es- tudo mais eficaz do livro por parte de uma audiéncia interessada, que prevemos bas- tante heterogénea na sua formagiio de base ¢ prossecucio de objetivos. Destaca-se um apéndice sumariando aspetos fundamentais de modelos probabilisticos abordados no corpo do texto, um indice remissivo abreviado mas com entradas suficientes e uma pagina web do livro (vide localizagao abaixo) com bastantes elementos informativos. Esta pégina deveré ser construfda de modo a incluir i) solugdes de exereicios; ii) con~ juntos relativamente extensos de dados, néo exibidos no corpo do texto por motivos de espaco; ili) breve descrigdo de pacotes computacionais bayesianos com exemplos ilustrativos da sua aplicacao. Na impossibilidade real de uma enumeracio sem se cometer injustigas, queremos desde ja deixar expressos 0s nossos agradecimentos a todos os que de algum modo nos ajudaram a concretizar este longo projeto, 0 que inclui naturalmente alguns dos parceiros na atividade de investigagdo de cada um de nés. Desejamos em especial manifestar a nossa gratidao: ~ a Thelma Séfadi (Universidade Federal de Lavras) por criar oportunidades que permitiram a CDP fazer avangar a preparagio desta obra; a Julio Singer (Universidade de Sao Paulo) pela disponibilizagao de conjuntos de dados aqui utilizados; a Nuno Sepiilveda (London School of Hygiene and Tropical Medicine) pela sua colaboragao na andlise de um dos casos de estudo; - A FCT pelo financiamento concedido ao CEAUL, unidade de investigagao em que esto integrados CDP, MAAT e GS, através dos diversos projetos plurianuais ¢ estratégicos, em particular o atual projeto FCT/UI/MAT/00006/2013. Pretendemos, para prevenir incompreensées, deixar explicito que a escrita do texto se pauton pelas normas do Acordo Ortogréfico de 1990. Informamos ainda que os abreviados curricula vitae autorais foram transferidos da contracapa para a parte final do texto do livro. Por fim, reiteramos que os eventuais erros, linguisticos ou cientificos, e outras deficiéncias (como lacunas ¢ falta de clareza), que decerto existirfo no texto, sdo da nossa inteira responsabilidade, deixando antecipadamente expresso 0 nosso obrigado a quem dessas falhas nos der conhecimento. Lisboa, abril de 2018 Os Autores URL: https://www.math.tecnico.ulisboa.pt/~gsilva/EBed2/ vi Prefacio 4 Primeira Edigao Desde meados da década de 80 que se observa no dominio da Estatistica e suas aplicagdes um enorme desenvolvimento da metodologia bayesiana. A este facto nao é decerto alheio o desenvolvimento informitico e o aparecimento de software espectfico, o qual permite resolver muitos e complexos problemas de indole prética usando aquela metodologia. Foi esse cenério que levou alguns de nés, profundamente envolvidos em actividades de investigac&o e ensino na area de Estatistica Bayesiana, a tomar iniciativas coor- denadas que contribuissem para a difusio na comunidade estatistica portuguesa da teoria e prética bayesianas e incremento do seu uso em variados campos de aplicagéo estatistica. A primeira delas consistiu num curso intensivo de Estatistica Bayesiana, organizado no ambito dos Projectos PRAXIS XXI/2/2.1/MAT/429/94 e PRAXIS PCEX/P/MAT/41/96 e ministrado em Fevereiro de 1999 no Departamento de Esta- t{stica e Investigacdo Operacional da Faculdade de Ciéncias de Lisboa (sessées de aulas tedricas) e no Departamento de Matematica do Instituto Superior Técnico (sessbes de aulas prticas com computadores), com o apoio de alguns colegas. Desde a organizagéo da primeira iniciativa que ficou gravada na nossa mente a ideia da. conveniéncia ¢ necessidade de tomar as notas elaboradas para apoio ao curso como uma base para a produgéo de um manual universitério, tendo em especial aten- co a escassez de obras em lingua portuguesa, seja na variante curopeia scja na va- tiante americana, sobre a abordagem bayesiana A Inferéncia Estatistica, de enorme repercussao actual para a Estatistica Aplicada. A este respeito, é de assinalar reco- nhecidamente 0 constante incentivo que recebemos para tal de muitos dos préprios participantes naquele curso. ‘A obra que produzimos ¢ adequada para ser usada como livro de texto em disci- plinas de Estatistica de nivel de fim de licenciatura e de pés-graduagao, cujos alunos tenham previamente adquirido sdlidos conhecimentos de Probabilidade ¢ Inferéncia Estatistica e para quem, naturalmente, o portugués escrito se afigure compreensivel, © que extravasa claramente 0 dominio dos falantes nativos da lingua nas suas diver- sas variantes. Naturalmente que, dada a extensdo do livro, uma disciplina semestral exigird, por parte do respectivo professor uma selecgdo dos capitulos e das partes jul- gadas mais apropriadas para o nivel estabelecido para a disciplina, Nao foi nossa orientacao preparar um livro que se revelasse ajustado para a veiculagdo de ideias e métodos bayesianos em disciplinas introdutérias de Estatistica. ‘Todavia, julgamos que este livro poder ser titil para uma disciplina de Estatistica Bayesiana de nivel introdutério, mediante a intervenciio do professor na triagem e organizacio do ma- terial mais consentéineo com os objectivos programaticos da disciplina. Além disso, cremos que este livro possa satisfazer as necessidades de auto-aprendizagem de quem se integre em varios campos de aplicagio estatistica, como é 0 caso de investigadores ¢ técnicos trabalhando em dominios tio diversos como os da Biologia Computacional, Epidemiologia Espacial, Anélise e Processamento de Imagens ¢ Redes Neuronais e Aprendizagem O presente livro inicia-se com um capitulo que visa descrever as caracteristicas es- senciais da abordagem bayesiana a Inferéncia e Decisao Estatisticas, no plano quer dos métodos que a enformam quer dos princfpios norteadores. Segue-se-lhe um capitulo dedicado As questées inerentes 4 passagem da informagao a priori para a distribuigio Vii J) 1 priori O capitulo 3 d desenvolvidamente as ideias e instrumentos fundamen- is da metodologia bayesiana no tragado de inferéncias, ao qual sucede um primeiro capitulo de aplicagées a problemas analiticamente resoltiveis envolvendo modelos gaus- sianos que incluem triagem, comparac&o de duas médias e varidncias, andlise de vari- Ancia andlise de regressio linear. O capitulo 5 dedica-se entaio a uma descri¢do de métodos assentes em aproximagoes analiticas e numéricas de quantidades a posteriori que so, por sua vez, aplicados no capitulo seguinte a problemas com modelos discretos envolvendo, particularmente, a anilise de tabelas de contingéncia. O capitulo 7 dé inicio & apresentacdo de métodos de simulagio estocdstica para a execugao da anélise bayesiana, confinando-se a métodos de Monte Carlo tradicionais, abrindo terreno para os modernos métodos de Monte Carlo baseados em Cadeias de Markov expostos no capitulo seguinte. O capitulo 9 fecha cientificamente 0 livro com a descrigao de andlises bayesianas de problemas concretos mais complexos, envolvendo a aplicagiio de métodos detalhados em capitulos anteriores. ‘Nao resistimos & tentacdo de expor em apéndice uma versio bayesiana de algumas famosas cancdes do reportério musical internacional, com o intuito de contribuir para 0 evidenciar do espirito de si alegria e irreveréncia que tem sido apandgio das reunides cientificas magnas dos estatisticos bayesianos (0s Valencia Meetings). Os leitores interessados poderao aceder a todo o material do The Bayesian Songbook através da sua webpage, http://www.biostat.umn.edu/~brad/cabaret.html, mantida pelo seu editor, Bradley Carlin. Varias sfio as pessoas ¢ entidades a quem estamos gratos pela sua colaboragio em maior ou menor grau neste empreendimento. Destacamos em primeiro lugar os nossos orientandos e colegas Giovani Silva, Paulo Soares e Patricia Bermudez pelo seu inestimavel apoio nos cursos por nés organizados. Paulo Soares teve ainda um papel determinante na composico do material, e também na sua digitacdo iniciada pelo Rui Paulo e Teresa Ferreira. Os nossos agradecimentos dirigem-se também a quem nos ajudou com os seus comentarios, nomeadamente, Isabel Pereira, Fernando Magalhies, Jtilia Teles e Inés Sequeira, pedindo antecipadamente desculpas a quem foi involuntéria e injustamente omitido. Finalmente, queremos deixar aqui registada fa nossa gratid’io & Fundagdo para a Ciéncia e Tecnologia pelo apoio A investigacao concedido através do Centro de Estatistica e Aplicagées da Universidade de Lisboa e do entio Centro de Matemstica Aplicada do Instituto Superior Técnico e, em especial, & Fundacio Calouste Gulbenkian pelo estimulo concedido promogao da cultura cientffica em Portugal, Fazemos naturalmente questo em referir que os erros de todo o tipo que certa- mente permanecerdo no texto sfio da nossa inteira responsabilidade e em manifestar os nossos antecipados agradecimentos a quem deles nos der conhecimento. Lisboa, Maio de 2003 Os Autores Carlos Daniel Paulino M. Anténia Amaral Turkman Bento Murteira viii Contetido Prefacio 4 Segunda Edigéo Preficio & Primeira Edigao 1 Fundamentos da Inferéncia Bayesiana 1.1 O problema fundamental da Estatistica 1.2 O paradigma cléssico 1.3 O paradigma bayesiano . . 1.4 Principio de coeréncia.. 0... eee 1.5. Inferéncia bayesiana 1.6 Prinefpios de verosimilhanga, suficiéncia ¢ condicionalidade L7 Independéncia e permutabilidade ..........--- 18 Decisfio bayesiana 1.9 O argumento axiomético .... 6... 0 eee ee 1.10 Valor da informagio . . . . 1.11 Exereicios 2 Representagao da Informagao a priori 2.1 Conceitos de probabilidade . 2.2 Distribuigées a priori subjetivas . 2.2.1 Informagao a priori de um especialista sobre um acontecimento 2.2.2 Informacio a priori de um especialista sobre varios aconteci- meno gbco0oda 2.2.3 Método estrutural de eliciagdo 2.2.4 Método preditivo de cliciagao pe 2.3. Distribuigdes a priori conjugadas ..... . « ix vii eee ew 23 26 33, 47 55 56 61 69 70 74 5 79 81 88 88 24 25 2.3.1 Familias conjugadas 2.3.2 Conjugagao e familia exponencial . . Distribuigées a priori nfo-informativas . . . 2.4.1 Método de Bayes-Laplace ....... + oo. 2.4.2 Método de Jeffreys 2. Método de Box-Tiao 2.4.4 Distribuigdes impréprias e suas implicagoes . - 2.4.5 Método de entropia méxima 2.4.6 Método de Berger-Bernardo Exercicios Metodologia Inferencial 3.1 3.2 3.3 34 3.5 3.6 3.7 Introdugio 0.0 Estimagéo pontual Estimagdo por regides .....- « Testes de hipéteses 3.4.1 Conceitos basicos . . . 3.4.2 Testes bilaterais de hipdteses categéricas 3.4.3 O uso de distribuicées impréprias 3.4.4 A presenca de pardmetros perturbadores .... 2.22.20 ess Predigio ..... eee rs Problema de revisio: Inferéncias no modelo Normal com ambos os pardmetros desconhecidos . Beebo geo 3.6.1 Distribuicdes Gama e Qui-quadrado Invertidas e distribuigdes Csuden ee 3.6.2 Distribuicdes a posteriori 3.6.3 Estimagao e testes de hipéteses sobre os pardmetros . . 3.6.4 Predig&o de novas observacées Exerclcios 60-22 e eee eee bo o00 bode Aplicagées a Problemas com Modelos Normais 41 Triagem de populagées baseada em dados Normais 4.1.1 Descrigio do método sob um modelo dicotémico para a vari vel de grupo 4.1.2 Aplicagao a varidveis de triagem Normais . 41.3 Mustragio.... . bee eco oc ocee 2 0cc0e Comparacio de duas populagées Normais . . 4.2.1 Comparagio de médias no caso de varincias iguais . . 4.2.2 Comparacio de médias no caso de varidincias diferentes. 89 7 97 98 99 103 106 - 110 - 6 128 137 137 . 138 142 148, - 148 152 . 168 159 - 165 - 168 169 171 sour} 174 - 175 185 - 185 185 . 186 188 . 189 189 191 4.2.3 Comparagio de variancias 193 4,3. Anélise de modelos lineares.... 26... + : 194 4.3.1 Distribuicdo Student multivariada .. 22... « 22.196 4.3.2 Distribuigdes a posteriori bese cee ee 197 4.3.3 Inferéncias paramétricas ¢ preditivas . . beeen eee + 199 4.4 Aplicagdo & andlise de regresstio linear simples... ... +. - » 202 4.5 Aplicagdes & andlise de variancia com um fator . . . . . 7 203 4.6 Exercicios ....... - 205 Métodos via Aproximagées Analiticas e Numéricas 209 5.1 Introdugio . . . Bee eo +. 209 5.2 Métodos analiticos .... 20-0... eevee eee eee DL 5.2.1 Aproximagio a distribuigao Normal multivariada ........ . 211 5.2.2 Método classico de Laplace ...... oo . 216 5.3 Métodos numéricos..... 2... ++ oe 5.4 Modelos gaussianos latentes : : 2 .5 Abordagem via aproximagdes de Laplace encaixadas e integradas (INLA)227 5.6 Notas de capitulo... . . ea cee +s. 229 5.7 Bxercicios ..... Beco oe - 233 Aplicagdes a Problemas com Modelos Discretos 239 6.1 Anélise conjugada de dados categorizados ..... 2... ++ ce 289 6.1.1 Distribuicdes Multinomial e Dirichlet... ....-..-- 239 6.1.2 Inferéncias paramétricas e preditivas . 2 dd 6.2 Testes de hipéteses em tabelas de contingéncia bidimensionais . . . . . . 249 6.2.1 Testes de simetria... 0.6.2... cee ee 249 Testes exatos ene wee wee DAD Testes assintéticos . . nee nn . 251 6.2.2 Testes de homogeneidade marginal... .. 2.00.5 + +. 253 6.2.3 Testes de independéncia . . 255 Teste exato .. 2... ee Teste assintético. . . . bo ee ween B57 6.2.4 Testes de comparagao de proporgées .... 0. + i) 6.3 Anélise de modelos log-lineares ©... 2... -0-0 05+ (| or 6.3.1 Enquadramento em tabelas bidimensionais . . weve e262 Cendrio Multinomial ... 2... 6.005 7 wee ee 6 262 Cenério Produto de Multinomis . 263 Cenétio poissoniano » 264 6.3.2 Exemplificacio em tabela tridimensional ....... 265 64 Exercicios ....... boots begeoo sees 269 Métodos de Monte Carlo 277 7.1 Monte Carlo simples dau - 278 7.1.1 Probabilidades a posteriori ......-.---- bee 279 7.1.2 Densidades a posteriori marginais ... . . boo 0s 279 7.1.3 Intervalos de credibilidade obo cobs = 281 7.1.4 Quantidades preditivas a: s+ +» 283 7.1.5 Aph 7.2. Monte Carlo com amostragem de importancia, 7.21 Intervalos de credibilidade 7.2.2 Fatores de Bayes ‘agiio: anélise do modelo Multinomial com dados omissos . 285 7.2.8 Densidades a posteriori marginais ...... . 73 dos de simulagio estocés 7.3.1 Métodos de rejeicao . « 7.3.2 Método de rejeigio adaptative . 7.3.3 Métodos da razio de Uniformes....... 7.3.4 Método de inversao aproximado 7.4 Exerefcios Metodologia Inferencial Complementar 313 8.1 Modelos inidentificdveis e implicagées inferenciais ........ + - 313 8.1.1 Ilustracdo com diagnéstico bindrio em uma ou mais populagées 3 8.1.2 Problema de um teste de diagnéstico bindrio com uso de padréo deouro ....--- oo. | +... 317 8.1.3 Problema de dois testes de diagnéstico binério condicionalmente independentes e dependentes em duas populagdes sem padriio deouro .... Boo o soso - see. 818 8.2 Modelos bayesianos hierarquicos.... 6.2... +. 320 8.3. Andlise bayesiana empirica..... 0... --- 5 oe oe 84 Anélise hie Sonne g55050 332 8.5 Critica e adequabilidade de modelos . . . dococg. sees + 887 8.5.1 Valores-P bayesianos ©. 626. ee 337 8.5.2 Outras medidas de diagnéstico/adequabilidade ......... . 339 8.6 Selecdo e comparagiio de modelos ....... - oo 8.6.1 Acurécia preditiva......... gcc0q0 - +. 346 8.6.2 Medidas de desempenho preditivo cose cece B47 xi Critério de informagao AIC ee TY Critério de informacio DIC . . . oo Critério de informagio WAIC .. . . abr Critério de informagio CVC... 20... foo Critério de informagio SIC/BIC 353 8.6.3 Selecdo por comportamento preditivo a posteriori... . . 354 8.6.4 Selecio via Fator de Bayes . wee BBB 8.6.5 Ponderacio bayesiana de modelos - 362 8.7 Simulagio em avaliagdo de modelos . . . . . - 367 8.7.1 Estimagdo de densidades preditivas a posteriori ........ . . 367 8.7.2 Amostragem de distribuigdes preditivas ......... 368 8.7.3 Estimacio do valor esperado de fungdes de avaliagio ..... . . 369 8.7.4 Estimagio da distribuicdo marginal dos dados ......... . . 370 88 Notas de capitulo... ........0.00. on 8.9 Exercicios eee eee cece 376 Métodos de Monte Carlo em Cadeias de Markov - Parte I 381 9.1 NogGes e resultados basicos sobre cadeias de Markov 9.2.1 9.2.2 382 9.2 Algoritmo de Metropolis-Hastings . . 385 NogGes fundamentais .... 02.600 eee eee eee 385 Especializagoes.. 2. 0-0-0 eee eee eee 388 Algoritmo M-H com independéncia .. 2... 0. sees ee 388 Algoritmo M-H com passeio aleatorio . 2... 2.2 ee es 889 Algoritmo M-H por componentes ........-- cee BOL 9.3 9.4 Amostrador de Gibbs . . . 393 9.3.1 Aspetos basicos e variantes 393 Algoritmo Gibbs com pronta atualizagio 0... 0s. e » 894 Algoritmo Gibbs com agrupamento a6 Algoritmo Gibbs com hibridagio . . eee . . 396 9.3.2. Algoritmo Gibbs com ampliagio do alvo . . . - «399 Amostrador em fatias . . eee eee cee 402 9.4.1 Deserigfo ......... bocce ee eee - 403 9.4.2 Generalizagao - 407 Monte Carlo hamiltoniano . - 409 9.5.1 Fundamentagéo a) 9.5.2 As equacdes de Hamilton no contexto bayesiano......... . 410 9.5.3. Algoritmo de Monte Carlo hamiltoniano .. 2.6... 2-0 412 adil 9.6 97 9.8 Aplicagées a andlises de modelos simples 9.6.1 Anélise de dados de radiagao de fundo - modelo de regressdo linear simples... 0-0-0 see eee e neers bene 9.6.2 Anilise de dados de emissdes de diéxido de carbono - modelos de regressio linear com transformagio de varidvei 9.6.3 Comparacdo de ragdes porcinas - modelo ANOVA simples - 9.6.4 Comparacdo de barras laminadas de diferentes materiais - mo- delo ANOVA dupla 9.6.5 Comparagio no teor de Na de cervejas - modelo ANOVA hie rérquico bo ssoe 9.6.6 Associagao entre classificagio final de estudantes ¢ rendimento familiar - modelo log-linear em tabela bidimensional . . 9.6.7 Associagio entre leséo arterial obstrutiva, idade ¢ hipertensao em pacientes do foro cardiolégico - modelos log-lineares em ta- bela tridimensional Notas de capitulo . oot Exercicios . 10 Métodos de Monte Carlo em Cadeias de Markov - Parte IT 10.1 10.2 10.3 10.4 Aspetos inerentes A execucio dos inétodos 10.1.1 Dualidade cadeia ‘nica versus cadeias muiltiplas 10.1.2 Diagnéstico de convergéncia..... 0-6 essere ees Instrumentos de monitorizagao . Métodos formais de avaliagéo 10.1.3 Reparametrizacio Funcionalidade do algoritmo Gibbs 10.2.1 Exemplos motivadores 10.2.2 Especificagio da distribuigéo conjunta através das distribuigoes condicionais .....-- c Gaooo ppc eobdds MCMC em selegao de modelos . « 10.3.1 Métodos adicionais sobre 0 espago paramétrico por modelo . . - . 463 10.3.2 Selecdo de varidveis envolvendo o espago-modelo 10.3.3 Selegdo de modelos sobre o espago modelo-parametro . - Método de Carlin-Chib ‘Método de Carlin-Chib “metropolizado” ‘Método MCMC com saltos reversiveis . Aplicag 10.4.1 Crescimento foliar - modelos de regressio nfo linear Normal 10.4.2 Calibracio de doses de radiagdo - modelos de regressiio Poisson 417 418 419 - 421 422 - 425 426 - 427 430 - 432 441 4a 442 443 aad - 446 - 448, 451 - 452 455 462 462 466 466 468 469 473 473 ATT 10.4.3. Triage de cardiopatia isquémica - andlise discriminante logistica480 xiv 10.4.4 Fatores de risco de doengas vasculares ~ modelos lineares gene- ralizados .. 2... -- 00005 a... 10.4.5 Defeitos de fibras téxteis - modelos Poisson bivariados . 10.4.6 Diagnose de dirofilariose canina,- modelos de classes latentes 10.4.7 Fatores de prognéstico de cancro da mama - modelos de regres- sao Weibull em sobrevivéncia com censura . AO Notas do caput ee a r—<“—i—ts—ts—sOSSCssssi 11 Casos de Estudo 11.1 Medicées de dreas de picos em espetrometria gama - modelos com so- bredispersio.... 2... 7 11.1.1 Modelagio estatistica...... . . eee 11.1.2. Verificagao e comparaciio de modelos 11.2 Dosimetria citogenética em grupos de individuos - modelos bivariados de dose-resposta 2... e eee ese e renee 121 Introdugio 2... eee 11.2.2 Modelagao estatistica . 11.2.3 Selegio de modelos ¢ inferéncias paramétricas .. 2.2... 11.2.4 Comparacao de grupos e predicio inversa . 11.3 Fatores de risco de infegao viral — regressiio Binomial com resposta mal Cases 11.3.1 Descrigfio do problema .............. 7. 11.3.2 Modelagao estatistica . 11.8.3. Método computacional 11.3.4 Anélise dos resultados 11.4 Diversidade do repertério de recetores de células T - modelos de mistura Poisson... 0... ee 11.4.1 Introdugio . . 11.4.2 Modelos estatisticos........ 11.4.3 Anilise dos resultados .............. 11.5 Comparagio de testes de diagné: ‘omissdio ao acaso jac ‘ico - modelo Multinomial com densa. 11.5.1 Modelagao estatistica . 11.5.2 Método computacional . . . . 11.5.3 Anélise de resultados... 0... ...02.55 bee 11.6 Risco de incéndio florestal - modelos espaco-temporais . 11.6.1 Descrigfio dos dados..... 0.0.0... beck e 11.6.2 Modelaciio estatistica. 2... eee xv 483 491 495 - 502 - 506 510 519 519 519 - 520 523 - 523 524 525 528 529 529 - 530 - 532 - 533 - 535 535 - 538, - 539 540 . B41 543, Bad 546 5a7 11.6.3. Selecio de modelos hierarquicos 11.6.4 Conclusées : popooc. : 11.7 Canero do estémago em Portugal - modelos APC. 11.7.1 Descrig&o dos dados 11.7.2. Modelo hierérquico com componente espaco-temporal . - - 11.7.3. Anilise de resultados 11.8 VIH/SIDA no Brasil - modelagéo conjunta de dados Ign sobrevivéncia espacial . eee core 11.8.1 Introdugio 11.8.2 Modelagio estatistica 0626-02 e eres 11.8.3. Andlise de resultados Apéndice Distribuigdes de probabilidade . . . . Bibliografia indice Remissivo xvi ede Capitulo 1 Fundamentos da Inferéncia Bayesiana 1.1 O problema fundamental da Estatistica Antes de abordar os alicerces da inferéncia bayesiana parece conveniente fazer refe- réncia ao problema fundamental da estatistic Para O'Hagan (1994): “The fundamental problem towards which the study of sta- tistics is addressed is that of inference. Some data are observed and we wish to make statements, inferences, about one or more unknown features of the physical system which gave rise to these data.” Pode dizer-se que, depois de proceder eventualmente a uma andlise descritiva dos fenémenos ou observagoes passados, o propdsito de qualquer estatistico é fazer infe- réncias ou predigdes acerca de novos fenémenos ou de novas observagées da mesma natureza [Robert (1994)], atividade em que esté em geral presente uma questdo subs- tantiva [Welsh (1996)]. Para os investigadores, mesmo para aqueles que dao o devido apreco ao aspeto descritivo, o aspeto inferencial ou preditivo é mais importante. Mas convém nao esquecer que em ciéncia ou matematica aplicada a fase formal de elabo- ragio tedrica é em geral precedida de uma fase informal em que a andlise exploratéria de dados representa importante papel, sendo por vezes dificil tragar fronteiras entre © informal e o formal. Ao aprofundar o estudo da estatistica, saindo naturalmente dos procedimentos classicos, depara-se com grande nimero de correntes ou escolas. Sem falar na falta de unidade dos chamados clissicos (Fisher para um lado, Neyman-Pearson para outro'), © desfile 6 extenso: bayesianos (objetivos, subjetivos, ...), estruturalistas, fiducialis- tas, verosimilhancistas, ... A diversidade nao é inesperada! As conclusdes ou informagées retiradas dos dados estatisticos sobre parametros ou modelos enquadram-se, em geral, na légica indutiva e é bem sabido que a justificagdo da indugéo 6 um dos problemas mais controver- $$ da filosofia. Cada escola tem princfpios e procedimentos préprios. Os princfpios Segundo Jaynes (1996), foi a auséncia de um principio de inferéncia unificador ou de um cri aceite por todos 08 considerados “ortodoxos” que perpetuou esta divisio. 2 1. Fundamentos da Inferéncia Bayesiana devem arrastar a validade das inferéncias corretas e nunca implicar a validade de qualquer inferéncia incorreta, A respetiva anélise conduz aos fundamentos da infe- rancia estatistica que Berger (1984) desenvolve nos seguintes termos: “Statistics needs a: foundation’, by which I mean a framework of analysis within which any statist- cal investigation can theoretically be planned, performed, and meaningfully evaluated. ‘The words ‘any’ and ‘theoretically’ are key, in that the framework should apply to any ‘situation but may only theoretically be implementable. Practical difficulties or time limitations may prevent complete (or even partial) utilisation of such framework, but the direction in which ‘truth’ could be found would at least be known. ”. Os fundamentos da inferéncia bayesiana, principal objetivo do presente estudo, sio melhor compreendidos quando introduzidos em confronto com os fundamentos da principal “concorrente”, a inferéncia classica. Justifica-se, portanto, uma répida recapitulagio dos fundamentos da inferéncia clissica. Porém, antes de o fazer im- porta referir, mas sem participar, a acesa controvérsia [veja-se Barnett (1999)] sobre a distingdo ou nao distingio entre inferéncia e deciso, isto é, entre (1) andlise em termos probabilfsticos do conjunto de fenémenos observados de modo a desenvolver © conhecimento cientifico e (ii) a prescrigéo de modos de ago prética no contexto de uma dada situacio através do processamento de informagio adequada. Pedagogicamente parece conveniente — mas deixa-se em aberto a possibilidade de discussio — comecar pela inferéncia bayesiana sem introduzir, pelo menos inici- almente, a economia do problema correspondente & “contabilidade” — em termos de utilidade, de perca ou proveito ou de custo-beneficio — das consequéncias das acces ou decisées. Mais tarde faz-se uma répida passagem pela decisio bayesiana. Mas convém advertir que os modernos tratadistas [sobretudo Bernardo e Smith (1994)] consideram a inferéncia uma forma particular de deciséio ou, mais especificamente, ‘um problema de decisdo em que uma aco corresponde ao relato ou proposta de uma distribuigdo de probabilidade (do tipo subjetivo, como vai ver-se) sobre uma quanti- dade desconhecida considerada de interesse. Esta posigéo — que nao 6, repitase, & aqui adotada — ao considerar a teoria da decisio estatistica numa perspetiva muito ampla dispensa, é claro, a elaboragéo de uma teoria da inferéncia estatistica. 1.2 O paradigma classico ‘A inferéncia classica 6 talvez assim rotulada pelo papel predominante que desempe- nhow na primeira metade deste século sob o impulso dos seus “fundadores”: Karl Pearson, Ronald A. Fisher e Jerzy Neyman. No quadro cléssico o principal obje~ tivo da inferéncia estatistica costuma reformular-se do seguinte modo: determinar que generalizagdes (se algumas sio possiveis) sobre a populagéo podem fazer-se & partir da amostra que da mesma foi recolhida. A designagao de amostra é tomada correntemente como sinénima de observages ou dados estatisticos resultantes de ex- periéncias ou inquéritos repetidos em condigdes constantes ou aproximadamente cons- tantes, enquanto a populagio é a totalidade, isto é, 0 conjunto de todas as observagoes possiveis ou concebfveis feitas em condigdes semelhantes. No que segue os dads es- tatisticos ou amostra vio representar-se simplesmente por « ou em alguns casos por = (01,22,.-.,77,) onde n representa a dimensio da amostra ou da colegio de dados. Resulta imediatamente do contexto se « é um escalar ou win vetor ou se @ expresso em causa se aplica formalmente aos dois casos. O conjunto 4’ de amostras possiveis tal que z € 4 designa-se por espago-amostra. Nos casos mais correntes, 4 ¢ IR ou 1.2. O paradigma clissico 3 4c IR" Um aspeto importante da inferéncia estatistica cléssica consiste em reconhecer @ variabilidade que se verifica de amostra para amostra. Para estabelecer inferéncias, considera indispensdvel ter em mente que os dados observados formam apenas um dos muitos — possivelmente infinitos — conjuntos que poderiam ter sido obtidos nas mesmas circunsténcias. Segundo tal perspetiva a interpretagiio dos dados depende néo apenas do particular conjunto observado mas também das hipéteses adotadas acerca dos possiveis conjuntos alternativos de dados. As consideragées do pardgrafo anterior levam a aceitar os dados como observacio de uma varidvel aleatéria X ou de n varidveis aleatérias X = (X1,X2,...,X,) com fungao de distribuigio Fy que representa a variabilidade ou incerteza na observacio de X. A fungdo de distribuigéo Fy ndo 6, evidentemente, perfeitamente conhecida. No entanto, existe normalmente algum conhecimento inicial sobre a natureza do fenémeno aleatério em estudo ou sobre o processo gerador dos dados que leva a propor ou conjeturar uma familia de distribuigdes? F a que pertence Fy e que se designa por modelo estatistico para X. A proposta de um modelo é conhecida por especificagao e é uma fase essencial no estabelecimento de inferéncias. Se, como 6 prética corrente, as distribuigdes de F sao representadas pelas res- petivas densidades (fungao densidade de probabilidade ou fung&o probabilidade) ¢ estas forem rotuladas por um parémetro @ com dominio num conjunto ©, designado espaco-parametro, o modelo estatistico pode escrever-se F ={f(al0):0 P{T*(a1,2,---,2n) P{T* (1, 225-++5m) 0, Ai Ay = i # J, UiAs = 2. Dado um outro acontecimento B qualquer, com P(B) > 0, € facil de verificar a decomposigéo de B na uniao de conjuntos disjuntos B=u; (Ain B). Stigler (1986) pée em diivida a paternidade de Bayes. SQuando © tem a poténcia do continuo nem todos os seus subconjuntos so probabiliséveis, isto 6, existem subconjuntes algo complexos (que preocupam o$ mateméticos puros mas que em geral nndo aparecem nas aplicagoes) aos quais nio pode atribuir-se uma probabilidade de forma compativel com os axiomas. TBmbora tal ndo seja explicitamente considerado na axiomatica de Kolmogorov, muitos autores sustentam que nio hé probabilidades absolutas ¢ que “em pano de fundo” esta sempre uma certa evidéncia ou hipétese He por isso escrevem P(A|H) Para no sobrecarregar a notagio todos os acontecimentas considerados pertencem & familia A. 10 1. Fundamentos da Inferéncia Bayesiana Consequentemente, atendendo no caso presente & aditividade da fungéo P e & definigao de probabilidade condicionada, tem-se, P(B) = S:P(Ain B) = i P(BIA:)P(Ai)- Finalmente, notando, P(A,n B) = P(BIA:)P(As) = P(AiB)P(B), e resolvendo em ordem a P(A;|B), chega-se ao Teorema de Bayes? _POBIA) P(A) __P(BIA)P(A) POAIB) = ~~ p(B) PUBIAYPCAD Trata-se de uma proposigéo extremamente simples, mas suscetfvel, como jé foi dito, de grandes controvérsias, quer quanto As interpretagées, quer quanto aos “inputs”, sobretudo quando considerando a informagao inicial I, estes nfo sio de natureza, frequencista [Box e Tiao (1973) apresentam um exemplo concreto'” de aplicagao do ‘Teorema de Bayes em que a distribuigao @ priori tem interpretacio frequencistal. (LD) Uma interpretagéo, pouco “ortodoxa”, mas importante, consiste em considerar, relativamente a dada situac&o ou conjuntura, os Aj = 1,2,...,m, como “antecedentes”, “causas”, “hipsteses” ou “estados” a que o investigador atribui graus de credibilidade ou probabilidades @ priori P(A,),i = 1,2,...,m, de natureza subjetiva. Depois da informagao adicional que consiste em saber que 0 acontecimento B se realizou" (0 acontecimento B pode ser a observacio de um conjunto de dados), o investigador revé fas suas probabilidades a priori através da férmula de Bayes ¢ passa a atribuir aos ‘Aj,i=1,2,...,m as probabilidades @ posteriori P(A;|B),é=1,-.-,™. O Teorema de Bayes 6, para muitos, um dos poucos resultados da matemética que se propée caraterizar a aprendizagem com a experiéncia, isto 6, a modificagéo da atitude inicial em relagéio aos “antecedentes”, “causas”, “hipdteses” ou “estados” de- pois!? de ter a informagao adicional de que certo acontecimento ou acontecimentos se realizaram (depois de conhecer os dados da experiéncia ou da observagao). Quando © investigador est na completa ignorancia’? em relag&o aos Aj,i = 1,2,...,™m, & proposta de Laplace, também conhecida por principio da razio insuficiente ou crité- rio de Bayes-Laplace, consiste em atribuir igual probabilidade aos Aj, i = 1,...,m, P(Aj) = 1/m, obtendo ento a expresso (1.2) em vez de (1.1), P(BIA\), Y;P(BIAi) P(AIB) = a2) ‘VSubstituindo Ay,i = 1,2,...,m por hipéteses Hy,i = 1,2,--..m;B, por Dados e considerando a informacdo inicial 1, Jaynes (1996) escreve a fSrmula de Bayes de modo diferente, P(Dados|Hi, 1) P(Hs, 1) P(B\I) P(Dados|Hi, T)P(Hs, 1) P(Hj|Dados, 1) = hr 10pxemplos artificiais com urnas e bolas h muitos! 11a vida quotidiana a informagio que nos chega é sempre o conhecimento de que certos aconte- cimentos se realizaram. 224Depois” nao est necessariamente ligado & ordem temporal. {8Qportunamente é tratado o problema das distribuigdes « priori nao informativas. 1.3. O paradigma bayesiano ul Exemplo 1.1 Num modelo de inspecio industrial [Cox e Hinkley (1974)] dado pro- cesso pode apresentar-se em dois estados: # Ay (bom) > probabilidade de uma peca defeituosa (1; # Az (may) = probabilidade de uma peca defeituosa G2 > ¢.- As probabilidades ¢;, ¢2 so conhecidas. O industrial, baseado na sua longa experién- cia com o processo atribui aos estados as probabilidades a priori, P(A,) = hi, P(Az) = ha, ha the = 1 Suponha-se que uma pega escolhida ao acaso se revelon defeituosa ~ acontecimento B. Tem-se, P(B) = P(B\A1)P(Ax) + P(B\A2)P(Az) = Gai + Caha, donde, pelo Teorema de Bayes, P(Ai|B) = P(BlA1) P(A1)/P(B. P(A2|B) = P(B\A2)P(A2)/P(B. ha /(Cih + Coha), Coha/ (Gia + Coha), Por exemplo, se hy = 0.9,hg = 0.1 € G = 0.05, Cz = 0.50, observado B, a probabi- lidade a posteriori de 0 processo se encontrar em boas condigées é 9/19 = 0.474; se a observagao fosse de um artigo nao defeituoso (acontecimento B contrério de B) a pro- babilidade a posteriori seria 171/181 = 0.945. A conferéncia deste resultado deixa-se como exercicio. . Entendido o Teorema de Bayes pode avangar-se com a caraterizagio do paradigma bayesiano. Os métodos bayesianos passam, em certo sentido, por uma extensao do modelo cléssico, extenséio que tem raiz na seguinte divergéncia fundamental. No modelo classico 0 parametro 0,0 € ©, 6 um escalar ou vetor desconhecido, mas fixo, i.e., igual ao valor particular que indexa a distribuigdo da familia F que descreve “apropriadamente” 0 processo ou sistema fisico que gera as observagoes. No modelo bayesiano o parametro 0,4 € ©, é tomado como um escalar ou vetor aleatério (nio observivel). A filosofia bayesiana 6, neste ponto, a seguinte: que é desconhecido é incerto e toda a incerteza deve ser quantificada em termos de probabilidade. Correlativamente, os bayesianos defendem que a informagao inicial ou a priori — anterior ou externa em relaco & experiéncia mas demasiado importante para ser ignorada ou tratada ad hoc — pode traduzir-se formalmente por uma distribuigéo de probabilidade, geralmente subjetiva, para 0, seja h(0), designada distribuigao a priori [muitos autores, por exemplo Jaynes (1996), escrevern h(6|I) para ter presente que tal distribuigao depende de I =informagéo inicial do individuo, o que tem vantagem sobretudo quando hé alteracao na informagao inicial (ex: T, em vez de Io) ou quando se comparam solugdes propostas por diferentes individuos (ex: rs versus [p)]. Assim, se @ é um pardmetro discreto, designando h(9) a fungéo de probabilidade a priori, tem-se que h(@) exprime o grau de credibilidade que o individuo que procede & andlise atribui ao particular @ considerado; se 6 € um pardmetro continuo, caso 12 1. Fundamentos da Inferéncia Bayesiana mais corrente, designando h(@) a fungio densidade de probabilidade a priori, tem- se que h(8)d6 exprime o grau de credibilidade que 0 mesmo individuo atribui ao intervalo (0,0 + d@). Note-se que a determinagio e a interpretacdo da distribuigio a priori se contam entre os pontos mais melindrosos e controversos da teoria bayesiana constituem um dos principais obstaculos & respetiva implementacao. ‘A familia F também faz parte do modelo bayesiano; quer dizer, a componente ‘amostral ou experimental é comum aos modelos classico e bayesiano, embora para este os elementos f(z) de F em geral sao supostos ter, tal como A(@), uma interpretacdo subjetiva. ‘A discussio das distribuigdes a priori ¢ da sua natureza subjetiva ilustra muito claramente alguns aspetos do confronto entre bayesianos e clissicos. Para os primeiros [Berger (1984)]} a escolha subjetiva do modelo — familia F — traduz muitas vezes uum uso mais dréstico da informagao a priori do que o emprego de uma distribuigko a priori para o parametro @ do modelo. Para os segundos, por exemplo [Lehmann (1983)], h4 uma importante diferenga entre a modelacao de F e a modelagao de h(#) pois enquanto se dispée de um conjunto de observagdes — (x1, 2,.-+ an) — geradas por um membro de F que pode empregar-se para testar a forma da distribuicao, 0 valor de @ é apenas uma observacéo (0 termo observagio vai em itélico para evitar que se considere @ como varidvel observavel) da distribuigao h(). Os bayesianos afirmam que na sua modelagio os cléssicos atendem & informacio a priori quando muito informalmente, atitude que consideram algo limitada por- quanto, para eles, a informagao inicial ou a priori detida por um dado investigador deve traduzir-se formalmente por uma distribuigao de probabilidade para a varidvel aleatéria 8. Para entender o ponto de vista bayesiano repare-se que um classico em todos os problemas que envolvem uma varidvel X com distribuigio Binomial recorre sempre ‘ao mesmo modelo, nomeadamente, & fungdo probabilidade, realp)= (“Jora-or, em que o pardmetro 6 representa a probabilidade de um “sucesso”. Para os bayesianos cada problema é nico e tem um contexto real préprio onde 6 & uma quantidade significativa acerca da qual existem, em geral, graus de conhe- cimento que variam de problema para problema e de investigador para investigador. ‘Assim, para os bayesianos, a distribuigio de probabilidade que capta essa variabili- dade é baseada na informagdo a priori — distribuigo a priori — e é de natureza subjetiva, quer dizer, especifica de um dado problema ¢ de um dado investigador. De facto, sublinham, a informagao a priori inchii juizos ou experiéncias individuais da mais diversa fndole, decorrentes em geral de situagdes néo repetitivas por isso s6 consegue formalizar-se em termos de uma distribuigdo de probabilidade se esta proba- bilidade for interpretada em termos subjetivos ou personalistas, isto é, em termos de graus de credibilidade. No entanto, advertem, a formalizagéo de probabilidades em termos subjetivos ou personalistas' exige que o investigador satisfaca um principio de coeréncia (veja-se Secgiio 1.4) ou de consisténcia que permite o recurso ao calcul T4q interpretagdo subjetiva do conceito de probabilidade, apandgio dos bayesianos, parece mais abrangente que a interpretagio frequencista dos classicos, porquanto qualquer individuo ao atribuir graus de credibilidade a certos eventos pode eventualmente servir-se do conhecimento que tenha das frequéncias relativas desses ou de outros eventos. 1.3. O paradigma bayesiano 13 de probabilidades estabelecido. Consequentemente, diferentes investigadores possum. em regra diferentes distribuigdes a priori para.o mesino parémetro sem deixarem ne- cessariamente de ser coerentes. Suponha-se que se observa X =r. Considerando um qualquer elemento de F, seja f(2|@), e a distribuig&o a priori!® do investigador h(9), 0 Teorema de Bayes para densidades — compare-se com (1.1) — conduz & relagao, f(a)0)h() Seg f (al )h(0) a0" onde h(4)z) é a distribuigio a posteriori de @ depois de saber que saiu X =. Assim, tendo em conta a informagao contida nos dados « a atitude inicial do investigador, ca- raterizada por h(@), é modificada passando a nova atitude a traduzir-se por h(d|x)'® (Oe) = 6€0, (1.3) Oe ecm er) Oe cen ee Se eh adaptando a expresséo (1.3)), 1. faf0)Q(0) (Ble, 2)---5n) = LE AtOMO) gg, 1a 2 Joti Ce.l0yn(Oyd8 oS onde h(4z1,22,...,0) 6 a distribuigéo « posteriori de @ depois de conhecida a par ticular amostra (1,2,...,2n): Como vai ver-se oportunamente, a distribuigSo a posteriori é o elemento funda- mental que serve de base ao desenvolvimento de toda a inferéncia bayesiana. Antes de entrar nessa matéria importa introduzir mais alguns conceitos importantes. Os denominadores de (1.3) e (1.4), se)= f Hloleyn(O)a), (18) $a 22.520) = [TT FCal@yn(oas, (16) sio as distribuigdes marginais ou preditivas a priori de X e de (X1,X2,..-,Xn)s respetivamente. Dizem respeito & observagio de X ou de (X1,X2,-..,Xn), V4. O clculo dos integrais (1.5) ou (1.6) nem sempre é facil havendo muitas vezes necessidade de recorrer ao céleulo numérico. Quando @ é um vetor o trabalho pode naturalmente tornar-se mais pesado. Os aspetos computacionais associados com os métodos bayesianos sio estudados mais adiante. Suponha-se que a informagéo contida nos dados ¢ obtida sequencialmente, e.9., em duas fases « = («',2””) observando-se na primeira fase 2’ e na segunda fase «"”. Por (1.3) ¢ (1.5) tem-se, h(Bl2") = f(a"|#)h(8)/f(c’), depois de observar x’. Considerando a segunda fase (note-se que x” pode nao ser independente de x’), tem-se, 1(6|x', 2") = Fa"8,x'yn(Ole')/ f J (2"8,2' )h(6x")a0, 15 Jaynes (1996) considera arcaicas as designagies a priori e a posteriori. Para ele, a distribuigao a priori é simplesmente “the prior” e a distribuicao a posterior‘ é simplesmente “the posterior”. Haveré termos correspondentes em lingua portuguesa? Y®No caso de 0 espago-pardmetro ser finito, © = {(01,62,...,8m), em vez de (1.3), tem-se, __£Eel05)MO5)— MOE) == Fealo,yn(e,y’ 7 14 1. Fundamentos da Inferéncia Bayesiana mas, fi He"6.2°yn(Ola"ya0 = Fe"), logo, (Ole, 2") = Fa", 2")h(6|x")/f(2"\x") Substituindo h(6|x’) pela respetiva expresso, ver, A(Bla’,2”) = f(w"|8,2°) f(a |AYR(A)/f(2")F(2"la"). Finalmente, notando, L(e"'0,0") F(2"18) = fe!,2"0), F(a") F Ca" ") = F@"2"), tem-se, (Ola! 2") = F(a’, 2"|0)h(0)/F(2',2") Quer dizer, no quadro do Teorema de Bayes, tanto faz considerar de uma ver. s6 os dados x: = (2’, 2”), como fazer duas aplicagdes sucessivas, entrando na primeira com os dados x’ e entrando na segunda com os dados x" tomando como distribuigao a priori a distribuicgéo a posteriori saida da primeira aplicacdo. O resultado generaliza-se sem dificuldade quando a informagao 6 obtida sequencialmente em k fases. Nas paginas seguintes dio-se alguns exemplos do “mecanismo” do Teorema de Bayes sem grandes preocupagées sobre a eliciagéo ou determinagao da distribuicao a priori, assunto de grande importancia tratado com desenvolvimento no Capitulo 2. Exemplo 1.2 Um investigador bayesiano estuda determinada populagio e esté. in~ teressado na verdadeira proporgiio de fumadores, seja 8,0 < @ < 1. Como nao tem qualquer informacdo inicial que Ihe permita distinguir entre os diferentes valores do intervalo [0,1], parece natural (mas nao é incontroverso) tomar uma distribuigao a priori Uniforme, 1 se 0¢ [0,1] n(@) = : (1.7) 0 se @¢[0,1] Colhida uma amostra casual de dimensio n e considerada a varidvel aleatéria X que designa o mimero de fumadores X ¢ {0,1,2,...,n} — 0 modelo experimental 6, correntemente, a distribuicio Binomial, PUK =2/ 0) = f(ale) = ( Jora-oy* 0<0<1, ve {0,1,2,...,n}. mn eo Observando X = 2, x € {0,1,2,...,n}, a expresso (1.3) fornece a distribuigao a posteriori de 0, Cea ae So (01. 8)" Para deduzir a expresso acima recorreu-se & conhecida fungio Beta que, com a, 3 ntimeros reais positivos, 6 definida por, Cie ~,0<6<1. (Ble) = Wo B(e+l,n-a+l) Beaa)= [oma -oPtac, 1.3. O paradigma bayesiano 15 A distribuigao a posteriori traduz a nova atitude do investigador depois de observar X =a. Suponha-se, para concretizagao, que foi observada uma amostra de 10 pessoas € que se registou a presenga de 2 fumadores. Tem-se, 1 B3,9. h(6|x = 2) = #(1-0)8,0<0<1. (1.8) ) Na Figura 1.1 comparam-se as distribuigdes (1.7) e (1.8). A observagdo de 20% de fumadores leva. o investigador a passar da distribuigao Uniforme para uma distribuicéo que atribui credibilidade mais elevada aos valores nao muito afastados de 0.2. 3.5 3.0 @ posteriori 25 2.0 Ls 10 05 a — 0 oot ee ee Comparagio da distribuigdo a priori com a distribuigao a posteriori. @ priori Figura 1. Exemplo 1.3 Em continuagio do exemplo anterior, suponha-se que o investigador tem algumas ideias ou “palpites” sobre a verdadeira proporgo de fumadores — paré- metro @ — que conseguia exprimir atribuindo elevada credibilidade a um valor médio da ordem de 0.4 ¢ a uma variancia da ordem de 0.04. Suponha-se adicionalmente, para facilitar os cAleulos!” e sem discutir as razdes, que o investigador tem uma distribuigéo a priori que é uma Beta, 6741-0), O< <1. Igualando a média e a varifncia da distribuigao acima aos valores conjeturados com base na informagao inicial, tem-se [Murteira (1990a)], E{6} =a/(a+b) = 0.4, V{6} = ab/[(a+b)*(a+b+1)] = 0.04, donde saem a = , b= 3, ficando a distribuigao a priori completamente especificada, 1 — B2,3) 01-0)", O 6|z = 870 ~ N(869.7, 5.64”) TNao se esqueca que a média amostral, X = . Xi/n, 6 uma estatistica suficiente para 6. 1.3. O paradigma bayesiano 19 Assim, depois de observar 50 medigées, as distribuiges a posteriori dos dois fisicos pouco diferem entre si (veja-se a Figura 1.5) porquanto a informagio amostral atenua muito o afastamento inicial entre as distribuigées a priori. . O coneeito de fungao de verosimilhanga estuda-se no quadro da inferéncia classica. mas nao é menos importante no quadro bayesiano. Na respetiva definigiio convém manter a distingao entre os casos discreto e continuo [veja-se Kempthorne e Folks (1971)]. Comecando pelo caso discreto. Se as varidveis aleatérias X;,i = 1,2,....n, sao iid. com fungio probabilidade f(#/@), A = (Xi = 21,X2 = @2,...,Xn = fn) € um acontecimento com probabilidade [], f(ar;|8). Fixando A e fazendo variar @ em @, obtém-se a fungao de verosimilhanga, L(0) = L(6\A) = T] f(ail6). (1.15) com o dominio em © e que para cada @ € © exprime a verosimilhanca ou plausibilidade que lhe é atribuida quando se sabe que 0 acontecimento A se realizou, isto 6, quando observa (Xi = 21, X2 = t2,...,Xn =n). A verosimilhanca nao é uma probabilidade; por exemplo, nao faz sentido adicionar yerosimilhangas. Somente a razao de verosimilhangas tem significado: 0 quociente, L(0)/L(") = T] F(wel0)/T] F@il0"), mede o peso da evidéncia ou plausibilidade de @ contra @* decorrente da observagio de (X1 = 21,X2 = 22,...,Xn =n). Por este facto, a funcdo de verosimilhanca é definida a menos de um fator constante (i.e., independente de 8) positivo, 1(0) = KT] f(ai8), 00. (1.16) No caso continuo, suponha-se que as varidveis aleatérias Xj,i = 1,2,...,n, sio iid. com fungéo densidade de probabilidade (|). Como se tem agora uma densidade de probabilidade e nao uma probabilidade, para preservar a transposigio, probabilidade =verosimilhanca, € necessério determinar um limite aproximado seguindo um raciocinio alids bem co- nhecido. Com efeito, com acréscimos dir; arbitrariamente pequenos, AY = (01 0 para algum 74 das duas uma, ou se tem G > 0,G" > 0 € 0 indivfduo 6 um perdedor sistematico, ou se tem G<0,G* <0 ¢ 0 oponente pode trocar 0 sinal de 74, 0 que vem a dar no mesmo. Mas, GG" <0 > [1- P(A)]P(A) 20>0< P(A) <1. (b) P(@) = 1. O conjunto fundamental ou universal ocorre certamente. Assim, 0 ganho do oponente € necessariamente G = ra[1 - P()] e a tinica maneira de impedir que seja positivo, seja qual for o sinal de mo, é tomar P() = 1. (c) AnB= 9 = P(AUB) = P(A)+P(B). Suponha-se que se no sistema de apostas se consideram dois acontecimentos A e B incompativeis e que se tem C = AUB. Os seguintes acontecimentos e ganhos sao possiveis: Acontecimentos Ganhos AnB G=nall - P(A)]- 75 P(B) + Fell - PC)] AnB G* = -n4P(A) + a[1 - P(B)] + 70[1- P(C)] AoB Gn P(A) - t3P(B) - tcP(C) Note-se que An Bc AUB=C,AnBc AUB=C,AnBcAuB=C€. Assim, quando se realiza ANB ou AnB também se realiza C; quando se realiza AnB nao se realiza C. O principio de coeréncia exige que nao haja valores (m4,78,7C) tais que os ganhos (G,G*,G**) sejam todos positives. Se através do sistema de equagdes lineares do quadro for possivel exprimir os (m14,%p,7) em funcéo dos (G,G*,G**), podem determinar-se valores (7.4,7,7c) conducentes a ga- nhos arbitrariamente grandes. Para evitar essa possibilidade o determinante do sistema tem de ser igual a zero, 1-P(A) -P(B) 1-P(AUB) -P(A) 1-P(B) 1-P(AuB) |=0 -P(A) -P(B) — -P(AUB) donde sai P(Av B) = P(A) + P(B). 26 1. Fundamentos da Inferéncia Bayesiana O problema da operacionalidade do conceito de probabilidade personalista por meio de sistemas de apostas em jogos ou lotarias artificiais levanta alguns problemas. Em particular, é pertinente afirmar que os graus de credibilidade podem depender do montante das apostas. de Finetti ladeia a questdo sugerindo que se considerem apostas de reduzido valor monetério — miniapostas. Modernamente a teoria da probabilidade personalista desenvolve-se axiomaticamente em paralelo com 0 conceito de utilidade que permite ultrapassar o problema do montante das apostas [veja-se Bernardo e Smith (1994)], ao permitir tratar situages em que o “valor” atribufdo por um individuo ao montante de um ganho ou perda é diferente do respetivo valor monetério. Uma importancia de €1000 ou de €100000 pode ter uma utilidade para um individuo A bem diferente da utilidade que tem para um individuo B. Outra perspetiva sobre a operacionalidade, também devida a de Finetti, recorre as chamadas regras de score. Em termos da regra de score quadratica, dado um acontecimento A pede-se ao individuo que indique um ntimero p convencionando que se o acontecimento A se realizar o individuo sofre uma perca L = (1-p)? e se o acontecimento A nao se realizar o individuo sofre uma perca igual a L = p*. O ntimero p escolhido pelo individuo representa o grau de credibilidade que atribui a A*, Repare-se que a perca pode representar-se de forma a abranger os dois casos, L (14-p)? onde I4 é a fungao indicatriz do conjunto A. Com a regra de score consegue- se enunciar de forma clara princfpio de coeréncia. Dada uma colegio exaustiva e exclusiva de acontecimentos Ay, Ag,...,Am (partigio de 9), o individuo tem de especificar os respetivos graus de credibilidade pi,p2,.-.,Pm sujeito & penalizacéi L= (Ia, ~ pi)? + (ag ~ Pa)? +0 + Lag Pm)? Se nao for possivel encontrar uma especificacao alternativa, 1, 42,..-,4m tal que, Da - 4)? < Dap), qualquer que seja 0 acontecimento A; que se realize — caso em que P(Aj) = 1, P(Aj) = 0, j # i — ent&o o individuo é coerente. Se o for, pode também através das regras de score chegar-se & disciplina de céleulo de probabilidades (Bernardo e Smith (1994)]. 1.5 Inferéncia bayesiana Nos procedimentos bayesianos podem distinguir-se dois objetivos, I e II. I ~ Realizar inferéncias sobre o parametro nio observavel 6. Ha, nesta ética, uma certa coincidéncia — pelo menos superficial — entre os objetivos dos cldssicos e dos bayesianos. Na implementago as duas correntes entram em choque, podendo dizer- se de forma algo tfpica que caminham as avessas ... As inferéncias cléssicas so baseadas em probabilidades associadas com as diferentes amostras, x, que poderiam ocorrer para algum valor fixo, mas desconhecido, do parémetro 6. E 0 que sucede quando se fazem inferéncias com base nas distribuigdes por amostragem de certas estatisticas (veja-se o segundo esquema da Figura 1.8 abaixo). ~BiNote-se que a penalidade ou perca esperada, (1- p)®P(A) + p2[1 - P(A)], € minima quando p= P(A) 1.5. Inferéncia bayesiana 7 Figura 1.8: Esquema interpretativo de distribuigdes inferencialmente relevantes. De facto, uma distribuigdo por amostragem “pondera”, com as respetivas probabi- lidades ou densidades de probabilidade, os valores que a varidvel ou a estatistica pode assumir quando se percorre todo o espago-amostra. ‘As inferéncias bayesianas sio baseadas em probabilidades subjetivas ou credibili- dades a posteriori associadas com diferentes valores do parametro 0 e condicionadas pelo particular valor de « observado (veja-se a parte superior da Figura 1.8). O ponto x est fixo e é a variagao de @ que é considerada. Por exemplo, os bayesianos observado « ¢ considerando a hipétese de ser {6 < 0.5}, respondem & questiéo de forma significativa e direta calculando P(é < 0.5|c) a partir de h(6|z), i.e., sem sair do clculo de probabilidades. Em contraste, os clissicos nfo respondem diretamente & questo e ao afirmarem, por exemplo, que a hipétese {0 < 0.5} € rejeitada ao nivel de 5% no querem afirmar que P(@ < 0.5) < 0.05, mas que se a hipétese for verdadeira [i.c., se de facto {0 < 0.5}], entdo a probabilidade de X pertencer a uma dada regio critica W é tal que P(X € W|0 < 0.5) < 0.5, e, se de facto x € W, entdo a hipétese eve ser rejeitada. No dizer de O'Hagan (1994), enquanto os bayesianos podem emitir enunciados probabilisticos sobre os parametros, que consideram como varidveis aleatérias, isso nao € possivel com os clissicos. Consequentemente as probabilidades dos cldssicos dizem respeito aos dados € ndo ao parémetro, embora depois sejam reformuladas para que aparentemente digam respeito ao parémetro. Esta questo tem correspondéncia na diferente atitude em relag&o ao espago- amostra. Para os clissicos o conceito é fundamental pois a amostragem repetida consiste em sucessivas repeticdes do processo de amostragem 0 que, como jé foi dito, consiste em percorrer 0 espago-amostra. Os bayesianos comegam por criticar a ideia de que é pacifico fazer repetigdes com n fixo. Na opiniao de Lindley (1990): *... it often happens that the scientist had arrived at n by a random procedure: some of the plants may have died; time or money have run out. Were the experiment to be repeated — a concept uppermost in the frequentist’s 28 1, Fundamentos da Inferéncia Bayesiana mind — a different n might result. By what reasoning can the statistician justify fixing n to provide the sample space?> Quando se observa uma amostra casual cada particular amostra consiste num ponto x € 2 (espaco-amostra). Para os bayesianos 0 que interessa é 0 resultado obtido, 2, € n&o oO conjunto ou espago-amostra (que consideram poder ser absolutamente arbitrério) a que pertence xz. Esse espago contém, além de x, observacdes que poderiam ter sido obtidas mas que no o foram. Como, por outro lado, a distribuigao a priori & considerada arbitréria pelos frequencistas, Lindley (1990) sugere que se um classico diz a um bayesiano “where did you get that prior? o bayesiano deve retorquir “where did you get that sample space? Retomando a inferéncia paramétrica, considere-se o problema da estimagao. Os clissicos consideram diferentes alternativas ou fungdes dos dados (estimadores) cujas propriedades investigam sob diversas dticas. Para os bayesianos hé apenas um estimador que é precisamente a distribuigo a posteriori h(6|x). Pode, é claro, descrever-se esta distribuigéo”*, por exemplo, através da média, da mediana ou da varidncia, mas isso nada tem a ver com o problema que enfrentam os classicos quando pretendem determinar 0 estimador étimo, problema que para os bayesianos 86 existe no quadro da Teoria da Deciséo, embora haja aspetos da estimacao, como a suficiéncia, que tem o seu lugar no campo bayesiano. Na estimagao por intervalos, aos intervalos de confianga os bayesianos contrapoem, 0s intervalos de credibilidade. Observado « e determinada pelo mecanismo do teorema de Bayes a distribuigao a posteriori, um intervalo de credibilidade para o parametro 6 (suposto aqui um escalar) é formado por um par de valores de © , sejam [8(),4(x)], ou mais simplesmente, (6,0), tais que, Po<0 P(@xl2) = 1- P(@plx) + P(@olz) > ; : ‘A andlise bayesiana passa muitas vezes pela. comparagio do récio das vantagens a posteriori com o das vantagens a priori, _ P@ola)/P(Orle) BO) = Pee IPO) * que se designa por fator Bayes a favor de Ho (ou Qo) ¢ que traduz 0 pendor dos dados « para suportar Ho. Evidentemente, quanto maior for 0 fator Bayes maior & © aumento das vantagens a posteriori em relacdo as vantagens a priori e maior é, portanto, o suporte que os dados dao & hipétese Ho relativamente & alternativa Hy (1.22) Curiosamente o fator Bayes tem algo a ver com a tazao de verosimilhancas quando se trata de uma hipétese simples @p = {09} contra uma alternativa que é também simples ©; = {6)}, © = {00,01}. De facto, pelo teorema de Bayes, (28h) Pde) = Fay) + FelayRCE H(20s)h(0s) POOL) = Fearne) + FAY c ea) = Pelalad/ Pate) _ fib) P()/P(A) — F(#l61) ‘Assim, neste caso particular, observado z, o fator Bayes néo depende da informa- do a priori e é tanto maior quanto maior for a verosimilhanga de J em relagio A verosimilhanca de 0. Recorde-se que os clissicos rejeitam Ho : 0 = 0 quando sai F(2l0:)/F(2I6o) > C com o valor de C' determinado de modo a que a probabilidade de cometer um erro de 12 espécie seja igual a um valor previamente escolhido. No caso geral o fator Bayes depende da distribuicao a priori (veja-se o Capitulo 3), {4 que ele pode ser expresso como um récio de verosimilhangas ponderadas sobre Qo & @1, €, neste sentido, néo pode dizer-se que o fator Bayes seja uma medida de suporte da hipétese Ho relativamente & alternativa Hy baseada apenas nos dados. Jaynes (1996) considera que o problema em que hé apenas duas hipéteses é realista e pode orientar o investigador em situacées mais complexas. Para aprofundar a andlise prefere comecar com as chances a posteriori, P(Gdl2) oO - 7 (le) = BE,ie) que por (1.23) se verifica estarem relacionadas com as chances a priori, _ POO) 20) = Fag. pela expressio, (zl) O(Go|x) = (80) Gl)" (1.24) 1.5, Inferéncia bayesiana 31 Em muitas aplicagdes 6 conveniente operar com logaritmos para, quando necess4- rio, ser mais facil a adigio de termos. Para o efeito Jaynes define a evidéncia sobre 0y fornecida pelos dados sr, e(Golx) = 10 Inio Ol), (1.25) onde a presenga do fator 10 permite medir a evidéncia em decibéis (dB). Em con- sequéncia de (1,24) tem-se que a evidéncia sobre 6) fornecida pelos dados x é igual & soma da evidencia fornecida pela distribuigéo a priori mais o nimero de (4B) decor- rente do logaritmo da razio de verosimilhangas, S (210) ] e(Bo|sr) = e(80) +10 Imio 1.26) Fels) Se © conjunto de dados vai sendo sucessivamente aumentado, passando de # para z,2',2",... © se admite que 2',2",.., siio independentes dado 6 = @ ou @ = 61, 0 ajustamento é imiediato, e(Bolir) = (4) +10 Imo [ $2465} + 10 Imo [HEH] + +10 Ino [E84] + Em certos problemas a varidvel ou vetor observavel pode ter distribuicao f(|6), onde 6 = (7,@), sendo eventualmente 7 e @ vetores. O investigador pode estar apenas interessado em 7 pelo que @ assume a figura de pardmetro perturbador (nuisance parameter). ‘Um caso cléssico bem conhecido sucede quando se trabalha com varidveis aleatérias com distribuigéo N(j1,07) e se est interessado apenas na média j1, sendo entéo um parametro perturbador. Como é sabido o récio de Student permite ultrapassar 0 problema. Nem sempre o tratamento classico permite ladear a presenga de parametros perturbadores. Se tal sucede, parece haver também nesse aspeto manifesta vantagem na abordagem bayesiana. De facto, sendo (Ol) = h(y, dle), © parémetro perturbador ¢ pode eliminar-se por integracdo sobre o respetivo dominio, hla) = f hrehe)a, dando lugar & distribuigéo marginal do pardmetro relevante y com a qual pode avangar-se no trabalho inferencial. Nota-se, porém, que sendo h(a dla) = ACrld, 2) (dle), na integragao acima, hole) = f Marie. )n(ole)d6 , a distribuigdo marginal a posteriori de ¢ atua como factor de ponderagio, razo pela qual h( |) exige atencéo, sobretudo se h(71¢,.r) for muito sensivel a variacdes em > [veja-se Box e Tiao (1973) sobre os cuidados a ter nessa, anélise. 32 1. Fundamentos da Inferéncia Bayesiana Il — Muitos bayesianos consideram que a inferéncia néo tem de se restringir a pro- posigdes sobre parametros no observaveis™®. Afirmam, consequentemente, que as inferéncias paramétricas possuem inconvenientes na medida em que os valores dos pa- rametros poucas vezes sfio conhecidos e portanto as conclusdes a que tais inferéncias conduzem raramente podem ser confrontadas com a realidade. Para tais bayesianos [Lindley (1990)], é mais fundamental o problema de inferéncia estatistica que consiste em partir de um conjunto de observagées (21,t2,--.,n) (ontem) e inferir conclusdes, em termos de probabilidade (subjetiva, claro), sobre o conjunto de varidveis ainda nfo observadas” (2n.1,2n+2)-+-;Tneé) (amanha). Para facilitar aqui a exposigao faz-se M = 1e consideram-se as n+ 1 varidveis aleatérias (X1,X2,...)Xn)Xne1) iid. com fungdo de densidade f(2x|0) ¢ o problema consiste em predizer o comportamento da varidvel aleatéria Xpei depois de observar (X, = £1,X2 = @2,...,Xn =a). Ao tentar predizer a variével Xn+1 ~ f(z|@) encontram-se dois tipos de aleato- riedade: primeiro, 0 que se prende com o facto de a propria varidvel ser aleatéria; segundo, 0 derivado do desconhecimento do valor de 6. Por exemplo: quando se procede a estimagio de 8 e se obtém 6 = 6(z1,22,...,2n) pelo método da maxima verosimilhanga e se escreve, b a, P(a 1/2. Sao contemplados dois processos experimentais; © Ey: langar a moeda 12 vezes; Ep: lancar a moeda até que aparegam 3 “faces”. 1.6. Princfpios de verosimilhanga, suficiéncia e condicionalidade 35 Admita-se que o resultado observado nas duas experiéneias foi « = 9 valor parti- cular da varidvel aleatéria X que designa o mimero de “coroas” (0 niimero de “faces” foi, portanto, igual a 3). Para um classico o nivel critico (ou valor-P ou nivel de significéncia) da hipétese Hp : @ = 1/2 decorrente da observagio (a probabilidade de obter o valor X = 9 ou um valor X > 9 ainda mais desfavordvel para a hipétese) difere nos dois casos. No caso de Ei, X tem distribuicdo binomial — X ~ B(12;4) — donde o nivel exitico 6 PL = P(X 29)0= 4) =('3) (3) + (18) (2) + (YG) +8) GY = .075. No caso, de By, X tem distribuicao binomial negativa — X ~ BN(3,1-8) — pelo que o nivel eritico é Pa = P(x 290= 8)=(8)(3)" + (8) (3) + DG)" + = 0.0325. Logo, se for adotado um limiar de significdncia de 5%, Ho é rejeitada no caso de Ey mas nao 0 é no caso de E}. Segundo o prinefpio de verosimilhanga esta andlise nao é correta, pois as conclusées a tirar nos dois casos sio idénticas visto que em qualquer deles a fungao de verosimilhanga 6 proporcional** a @9(1-6)°. De facto, as fungdes de verosimilhanga sio, respetivamente: © Ey: L1(6|x) = (2) 6*(1- 8)", donde, com n= 12,2 =9, Ly (6}x = 9) = (13) 6°(1 - 0)? = 220 69(1 - 6); © Eo: La(6le) Kort) orca aye, donde, com K = 3, 9, Lo(6|x = 9) = (13) 6°(1 - 0)? = 55 6°(1 - 0). . Da exposigao feita ressalta claramente o desrespeito do principio de verosimilhanga por parte dos métodos classicos, residindo talvez. a tinica excegao na determinagao de estimativas da maxima verosimilhanga. Pelo contrario, todas as propriedades que envolvam integragéo sobre o espaco-amostra (no enviesamento, céleulo da varién- cia de estimadores, etc.) so casos paradigméticos de violagio daquele principio. O mesmo se passa com procedimentos que envolvam integragio sobre subconjuntos do espago-amostra. Por exemplo, quando no ensaio de uma hipétese Ho se utiliza uma estatistica de teste T(X)** e se observa a partir da particular amostra x, T(x) = tons, diz-se que o nivel eritico de Hy 6 P = P[T(X) > toss|Ho], quer dizer, P é a probabi- lidade de obter um valor de T(X) tao desfavordvel ou mais desfavorével em relagéo Como diz O'Hagan (1994): “Two different experiments will generally provide different informa- tion. Yet if the actual results of those experiments are such that the likelihoods are proportional ‘then, for these data ...” as conclusdes a tirar so as mesmas. 55i5m geral escolhe-se T(X) de modo que valores “grandes” estio contra a hipétese. 36 1, Fundamentos da Inferéncia Bayesiana & hipotese do que aquele que foi observado. O cdleulo de P envolve, evidentemente, ‘uma integragio sobre um subconjunto do espago-amostra®® que contém pontos que nao foram observados [s6 foi observado « e, consequentemente, T(x)]. A propésito, a seguinte frase de Jeffreys tornou-se lendéria: “...a hypothesis which may be true may be rejected because it has not predicted observable results which have not occurred.”. Ao invés dos classicos, os bayesianos seguem automaticamente o principio da ve- rosimilhanga sustentando alguns autores que é a tinica via para a implementacdo do mesmo, Se os dados « e 2’ conduzem as mesmas conclusdes bayesianas, A(O\x) = h(6lz’); recordando (1.17), tem-se, imediatamente, S (218) ~ f(2"8), e as fungées de verosimilhanga sio proporcionais. Inversamente, se as fungdes de verosimilhanca so proporcionais obtém-se imediatamente a primeira relagio. Chega- se fatalmente a idéntico resultado recordando que na determinagao de h(@|x) entra exclusivamente a informagao dada pela amostra particular x, veiculada através da fungao de verosimilhanga®”. Ao fim e ao cabo, como dizem Bernardo e Smith (1994), o principio de verosimilhanca 6 uma consequéncia direta do Teorema de Bayes e nao algo que seja imposto ou a que os bayesianos desejem obedecer. ‘A sugestio do prinejpio de verosimilhanga de que os processos de amostragem ¢ as regras de paragem sao irrelevantes nas inferéncias néo pode, como diz Gomes (1981): “-. deivar de chocar qualquer pessoa cuja intuigdo estatistica tenha sido desenvolvida no contexto da teoria de Neyman-Pearson’. Assim, sem no entanto desacreditar se- riamente o principio de verosimilhanga, tém aparecido regularmente contraexemplos além dos chamados paradoxos da regra de paragem [vejam-se Berger e Wolpert (1988) e Welsh (1996)]. Os diversos problemas suscitados pelo prinefpio de verosimilhanga levaram Birn- baum (1962) a procurar obter a sua justificagio légica a partir de dois principios aparentemente mais naturais ¢ intuitivos: (1) principio de suficiéneia; (2) prinefpio de condicionalidade. (1) 0 principio de suficiéncia é bem conhecido. Suponha-se, para analisar 0 caso de maior interesse, que X 6 um vetor, possivelmente n — dimensional. A estatfstica T(X) 6 suficiente para F — ou para @ quando o espaco © esteja bem identificado — quando extrai da amostra toda a informagdo que esta contém sobre 8, ou, o que & equivalente, quando a distribuigéo condicionada de X dado T = t nao depende de 6, F(alt,8) = F(alt). Quer dizer, conhecido T =t, a informagio dada pela observacao da amostra completa X, nada acrescenta sobre 8. Se T(X) é uma estatistica suficiente para @ e se T(x) = T(z’), 0 principio estabelece a identidade das inferéncias feitas a partir dos dados ou dos dados 2’. Por outras palavras, a evidéncia fornecida por T(z) 6 idéntica & fornecida pelos dados . 36gobre o subconjunto {x : T(z) 2 tops}. 37Pode haver conflito entre a posigao bayesiana e o principio de verosimilhanga se a distribuicéo a priori depender dos dados [veja-se, por exemplo, Welsh (1996)] 1.6. Princfpios de verosimilhanga, suficiéncia e condicionalidade 37 Recordando que uma condigéo necesséria e suficiente para a estatistica T(X) ser suficiente para 0 6 verificar-se a decomposicao, f(x\6) = G[T (x), 0) H(x), G2 0,H 20, (1.29) para todo 0 @ € @ e todo x € 4 (exceto quando muito para um conjunto de ¥ com medida & Lebesgue igual a zero), chega-se imediatamente A conclusio que o principio de suficiéncia arrasta o princfpio de verosimilhanga fraco. O principio de suficiéncia, introduzido por Fisher (1922)*8, 6 fundamental para os classicos. A existéncia de estatfsticas suficientes de dimensio fixa, independente da di- mensio da amostra — por exemplo se (X1,X2,...,X,) 6 uma amostra casual de uma populagao N (41,0) sabe-se que para qualquer dimensio n a estatistica bidimensional (X,$?), onde X = 5; X./n, S? = 0j(X;-X)?/n, é suficiente para (1,07) — permite uma apreciavel redugio dos dados sem perda de informacao, e a fecundidade dos mé- todos cléssicos depende nao poucas vezes de tal existéncia que, felizmente, se verifica para uma vasta classe de modelos (por exemplo, modelos da familia exponencial). O principio de suficiéncia tem aceitacéio quase geral [veja-se, no entanto, Berger e Wolpert (1988)]. Os bayesianos nfo fogem A regra. Se T(X) é uma estatistica suficiente para 8, considerando a fatorizagao (1.29), tem-se, 4 A(O\r) = KGLL(2),6]n(0), K = {[etr@,yn(oyao} ; (1.30) com K’ independente de 8. Logo se os dados «, hfe) = h(O|e’) v0 @, (1.31) quer dizer, x,2' conduzem As mesmas inferéncias bayesianas. Equivalentemente, (Ox) = h[|T(z)] Vee, (1.32) porquanto, a verificar-se (1.31), h(6lr) depende de x apenas através de T(x). A rela- ao (1.32) pode empregar-se, alids, para exprimir a suficiéncia bayesiana da estatistica T(X). Assim, se existe uma estatistica suficiente o Teorema de Bayes conduz auto- maticamente a essa estatistica. A condigéo de Fisher (1.29) é uma condigéo muito forte [Jaynes (1996)], necessaria para chegar a estatistica suficiente T(X) indepen- dentemente da distribuigao a priori. No entanto, chegou-se recentemente & conclusio que T(X) pode encontrar-se em condigdes mais fracas que dependem da distribuicio @ priori eliciada, quer dizer, para algumas distribuigdes a priori é possivel ter ‘esta- tisticas suficientes efetivas’ apesar de nao existirem nos termos de Fisher. Por outras palavras ainda [Jaynes (1996)]: “hen the possibility seems open that for different pri- ors, different functions ... of the data may take on the role of sufficient statistics. This means that use of a particular prior may make certain particular aspects of the data irrelevant. Then a different prior may make different aspects of the data irrelevant.” Assim, o coneeito de suficiéncia, que teve origem no campo cléssico, tem hoje um significado mais profundo no campo bayesiano. Apesar de tudo, ao contrério do que acontece na anélise cldssica, a eficdcia da andlise bayesiana nao depende da existéncia S8Segundo Jaynes (1996) é um conceito notével porque introduziu pela primeira vez na estatistica ortodoxa a nogio de informagao. 38 1. Fundamentos da Inferéncia Bayesiana de estatisticas suficientes de pequena dimensio. O motivo é simples: € quase tao f4cil partir de h(6|x) como partir de h[4\T(z)]. Semelhante propriedade resulta de a andlise bayesiana se concentrar na distribuigéo do parametro condicionada por uma amostra concreta. Exemplo 1.8 (adaptado de Box e Tiao (1973)) Observa-se uma amostra casual de 5 observagées {11.4, 7.3, 9.8, 13.7, 10.6} de uma varidvel aleatéria com a distribuigio de Cauchy, X ~ C(), Fal) = 72{1 + (w= 0)2}"*, 00 <8 < +00, -00 << +00. Sabe-se que no caso presente a estatistica suficiente (minima) tem dimensio 5, i.¢., a tinica redugio dos dados que pode fazer-se sem perder informagao é ordené-los de forma crescente (ou decrescente) {7.3,9.8, 10.6, 11.4, 13.7}, 0 que torna problemiticas para n grande as inferéncias ee sobre @. A proposta da mediana (10.6) como estimativa pode ser aceitavel mas envolve perda de infor Para os bayesianos nao ha problemas. Admita-se que a distribuigdo @ priori é também uma Cauchy, 4~C(10). A distribuigio a posteriori é da forma, A(6|L1.4, 7.3, 9.8, 13.7, 10.6) = K {1+ (114-0) * {14 (7.3-0)} {1+ (98-0) x x {1+ (13.7 -0)?}" {1+ (10.6-8)2}* {1+ (@-10)?} * onde, Ke f {1+ (11d -0)}7 (14 (7.3 0)2} 7 (14 (0.8-4)2F* x x{1+(13.7-0)?}! {1+ (10.6-8)2} 7 {1+ (10-0)?} "a8, tem de obter-se por integracaio numérica, por exemplo pela regra de Simpson (ou gra~ ficamente, com a aproximagio desejada, em qualquer folha de célculo). Na Figura 1.9 apresentam-se as distribuig6es a priori e a posteriori 0.7 0.6 05 04 03 02 O1 9 eee 4 6 8 0 2 4 16 Figura 1.9: Elementos do modelo bayesiano Cauchy-Cauchy. a posteriori ‘A partir da distribuigéio a posteriori podem fazer-se inferéncias sem perda de infor- magao. . 1.6. Principios de verosimilhanga, suficiéncia e condicionalidade 39 (2) O principio da condicionalidade diz, respeito a experiéncias, F', definidas como mistura de experiéncias Z,,j = 1,2,...,m, realizadas com o objetivo de obter infor- magio sobre 0, escolhidas com probabilidades conhecidas, pj, jp; = 1 e das quais 86 uma é realizada. Em tais experiéncias, observar «c por intermédio de E compreende duas fases: observar j com probabilidade p; em seguida observar « por intermédio de E;. Segundo tal principio as experiéncias que no se realizaram sio irrevelantes; por outras palavras, as conclusées a tirar da realizagdio de E devem ser as conclusdes a tirar da realizagao da experiéncia B; sorteada. Exemplo 1.9 (adaptado de Berger e Wolpert (1988)) Uma substancia tem de ser analisada ¢ existem para o efeito dois laboratérios, um em Coimbra e outro em Lisboa. Como 08 laboratorios so igualmente bons, resolveu-se fazer uma escolha atirando uma moeda ao ar. Saiu o laboratério de Coimbra que mais tarde relatou os resultados obtidos. Sendo necessdrio chegar a uma conclusao, deve ter-se em consideragéo os resultados que poderiam ter sido obtidos se tivesse saido o laboratério de Lisboa? O prinefpio da condicionalidade diz redondamente que nao. . O exemplo seguinte, discussao do célebre caso de Cox (1958), é bastante mais esclarecedor. Exemplo 1.10 Pretende ensaiar-se a hipétese Ho : @ = 0 contra a alternativa Hy = = 10. Considere-se que E é uma mistura de duas experiéncias, Ey, escolhida com probabilidade p conhecida (0

Ko com®? ®(Ko/10) = a © se sair Hy rejeita Ho quando X’> Ky com ®(Ky) =1-¢, € declara que o seu teste tem dimensio, r= p€+(1-p)C, est4 nitidamente a violar a principio de condicionalidade®. Um investigador, possi- velmente ainda um cléssico, que utiliza o procedimento (a”): « se sair By ignora o que se poderia passar com Ep, rejeita Hy quando X > Ko com ®(Ko/10) = 1-€ ¢ declara que o seu teste tem dimensao €, © se sair By ignora 0 que se poderia passar com Ex, rejeita Ho quando X' > Ky com ®(K1) = 1-¢ declara que o seu teste tem dimensio ¢, j nao esté a violar o princfpio de condicionalidade pelo facto de ignorar a experiéncia E; de selegao do instrumento efetivamente no escolhido*'. Um investigador, j& néo um cléssico, que utiliza 0 procedimento (a**), 89Como habitualmente, #(-) é a fungdo de densidade de probabilidade e ®(-) a funcéo de distri- buigéo da (0,1). 4°Tnclusivamente, est a integrar sobre subconjuntos do espago-amostra {1,2} IR. 41 Ainda que esteja a integrar sobre subconjuntos de (1, IR) ou de (2, IR). 40 1, Fundamentos da Inferéncia Bayesiana sair Ey ignora o que se poderia passar com Ez, observa X = x e diz que s6 interessa a evidéncia dada por « sobre Ho, por exemplo, P(Ho|z), e diz que s6 © se sair Bz ignora o que se poderia passar com E, observa X‘ interessa a evidéncia dada por 2” sobre Ho, por exemplo, P(Ho|2’) esté a observar nfo s6 0 principio de condicionalidade como o condicionamento na sua forma mais extrema. . Considerando os dois princfpios acabados de introduzir pode referir-se 0 resultado conhecido por Teorema de Birnbaum [vejam-se Birnbaum (1962), Birnbaum (1972), Berger e Wolpert (1988) e Robert (1994)]: 0 principio de suficiéncia mais 0 principio de condicionalidade so equivalentes ao principio de verosimilhanca; quer dizer, os dois primeiros implicam o segundo e reciprocamente Esta proposigio foi considerada de grande importdncia. Como o principio de suficiéncia 6 largamente aceite e como se sabe que os frequencistas utilizam alguma forma de condicionalidade, parecia aberto o caminho para persuadir os cléssicos a aderir ao principio de verosimilhanga. No entanto comecaram a aparecer objegées, quer por os raciocinios de Birnbaum se restringirem ao caso discreto, embora mais tarde generalizados por Berger e Wolpert (1988), quer por aspetos mais gerais ~ [veja- se Joshi (1983)] — que se nao fizeram os adeptos do principio de verosimilhanga perder a fé, nem o teorema perder importancia, explicam a nao aceitacao por parte de muitos estatisticos, Independentemente de questdes mais profundas que aqui nao podem abordar-se, uma. coisa é certa: os principios de suficiéncia e condicionalidade séo incompativeis com a doutrina clissica quando tomados conjuntamente. Sendo algo pacffica a acei- tagao do princfpio de suficiéncia, qual é entao a forma de condicionalidade que os frequencistas acolhem e empregam? A resposta exige uma chamada aos conceitos de inferéncia condicionada e de estatistica ancilar (veja-se Murteira (1988)] Uma primeira definigfio diz que C(X) é uma estatistica ancilar ou subsidiria quando tem distribuicio marginal independente do parametro em questo 0. Esta definigiio é demasiado ampla; a seguinte é mais corrente: se (T,C) = [T(X),C(X)] 6 uma estatistica suficiente minima e se a distribuig4o marginal de C(X) é independente do parametro @, entdo C(X) 6 uma estatfstica ancilar. Uma estatistica ancilar ni fornece diretamente qualquer informagao sobre o parametro; a informagao primaria é dada por T(X), dando C(X) apenas informagao suplementar ou subsididria. Designe f(t,cl@) a fungio densidade conjunta de (T,C) e g(c) a distribuigao mar- ginal de C. ‘Tem-se f(t,cl@) = f(tle,@)g(c), expresso que mostra que a informacio sobre 0 est contida no fator f(t\c,@). Assim, T(X) é uma estatistica. condicional- mente suficiente para @ e as inferéncias para os cldssicos devem fazer-se a partir de T depois de condicionar pelo valor observado para C, seja C = c**. Para um bayesi- ano a situacdo nao é muito diferente. Tem-se, f(t,c\@) = f(t\c,8)g(c), como acima, donde, h(6|t,c) & f (tlc, 0)h(8) e assim deve utilizar-se como funcio de verosimilhanga ‘S(t\c,8) em vez de f(t,c)@). Jaynes (1996) mostra uma propriedade curiosa: tanto faz 42No Exemplo 1.10 a escola do instrumento pode considerar-se como a observagio de uma varidvel aleatéria C tal que P(C = 1)=pe P(C =2)=1~p. Consequentemente, C 6 uma estatistica ancilar pois a sua distribuicdo é independente de 0. O investigador que utiliza o procedimento (a*) esta a fazer uma anélise condicionada por C = 1 ou por C = 2 consoante o instrumento sorteado.

Você também pode gostar