Você está na página 1de 17

ANLISE / ANALYSIS

Os Caminhos da Estatstica e suas Incurses pela Epidemiologia


The Paths of Statistics and its Incursions through Epidemiology
Celia L. Szwarcwald1 Euclides A. de Castilho1 SZWARCWALD, C. L & CASTILHO, E. A. de The Paths of Statistics and its Incursions through Epidemiology. Cad. Sade Pbl., Rio de Janeiro, 8 (1): 05-21, jan/mar, 1992. In this paper the development of Statistics is contemplated from its probabilistic fundamentals until the current studies of time and space "dependence". Some applications of the quantitative method in the epidemiologic approach are evaluated. An attempt is made to establish some limits to the current statistical techniques through the discussion of theoretical assumptions and their adequacy to analyse empirical data. The development (or generalization) of new procedures that could possibly help to overcome methodological difficulties that are still found in various analysis of causal inference in Epidemiology is emphasized. Keywords: Statistics; Applied Statistics; History of Statistics; Biostatistics; Statistics/Epidemiology Relationships

O DESENVOLVIMENTO DA ESTATSTICA A Histria da Probabilidade

O homem traz consigo a idia de "chance" desde os mais remotos tempos. Evidncias esto nos jogos de aposta, referenciados em toda a histria da humanidade, e nos "instrumentos da sorte", encontrados em stios arqueolgicos de grande antiguidade. Imagina-se que a noo intuitiva de probabilidade estaria presente no curso dos jogos, influenciando o apostador nas suas estratgias e decises (Davis, 1955). No entanto, at meados do sculo XVI, a grande maioria dos pensadores negava a existncia da "chance" nos fenmenos naturais. Mesmo diante do seu reconhecimento, era excluda como objeto do discurso racional. Aristteles identificava "chance" como "a classe de tudo que indefinido, inescrutvel ao intelecto humano". Na mesma linha de pensamento, sculos mais tarde, o mistrio da "chance" ainda era explicado como uma deficincia de nosso conhecimento, que, limitado
1 Fundao Oswaldo Cruz. Avenida Brasil, 4365, Rio de Janeiro, RJ, 21045, Brasil.

pela inteligncia, era incapaz de apreender todas as causas de ocorrncia dos eventos e suas possveis interaes simultneas (Neuts, 1973). Os primeiros problemas de probabilidade aparecem no perodo da Renascena e relacionam-se apenas aos jogos de azar. As solues da "geometria do dado" so apresentadas por matemticos franceses no sculo XVII, destacando-se particularmente Blaise Pascal e Pierre Fermat (Davis, 1955; Kendall, 1956). Utilizando elementos de anlise combinatria no clculo de probabilidades, Jakob Bernouilli d continuidade a esses estudos. Entre suas contribuies, sobressaem-se a distribuio que leva seu nome e a "lei fraca dos grandes nmeros", mais conhecida como "tentativas independentes de Bernouilli" (Neuts, 1973). O desenvolvimento do pensamento probabilstico moderno est, sem dvida, estreitamente relacionado ascenso do mtodo emprico nas pesquisas cientficas. Revolucionando o pensamento de sua poca, Francis Bacon, ao final do sculo XVn, enfatiza o papel da experincia no processo de gerao do conhecimento e prope a induo como mtodo de investigao (Demo, 1989). A necessidade de expressar o

grau de incerteza na ocorrncia dos experimentos e de explicar o fato de duas experincias iguais poderem ter resultados diferentes leva ao reconhecimento da racionalidade probabilstica em eventos da natureza. A pesquisa em probabilidade no sculo XVIII culmina com o notvel trabalho de Pierre-Simon de Laplace, "Theorie Analitique de Probabilits". luz da concepo do cientificismo, rapidamente amplia-se o domnio de abrangncia do clculo probabilstico. Este torna-se indispensvel para lidar com dados relativos a temas de interesse social e econmico, como administrao das finanas pblicas, sade coletiva, conduta de eleies e seguro de vida. Surgem as primeiras idias do positivismo e Condorcet prope uma "cincia natural da sociedade", isto , uma "matemtica social" baseada no clculo das probabilidades (Lowy, 1991). De Laplace at o incio do sculo XX, pouco se acrescenta teoria das probabilidades. Os raros avanos esto principalmente relacionados ao desenvolvimento de tcnicas estatsticas e anlise de erros experimentais (Neuts, 1973). Durante a primeira metade do sculo XX, a preocupao dominante da pesquisa matemtica com o tratamento abstrato e a axiomatizao de vrios de seus ramos. Aps a descoberta de Komolgorov, em 1903, de que a probabilidade poderia ser considerada uma "medida" (em termos matemticos), os vagos fundamentos tericos so reformulados sob um outro referencial, a "teoria das medidas", bem mais poderoso conceitualmente (Ash, 1972). Destacam-se como contribuies da moderna concepo a "lei forte dos grandes nmeros" e a demonstrao do "teorema do limite central", por J. W. Lindeberg, em 1922 (Feller, 1968). No que diz respeito ao campo aplicativo, pouco a pouco os modelos determinsticos so substitudos pelos probabilsticos e tornam-se habituais no estudo de diferentes fenmenos. Introduzida inicialmente na teoria da dinmica dos gases, a teoria das probabilidades desempenha, hoje, papel importante na fsica quntica e invade os domnios da teoria atmica (Neuts, 1973). Em anos mais recentes, a pesquisa na rea de probabilidades tem se concentrado no estudo da "dependncia". A generalizao dos processos de Poisson e das cadeias de Markov d origem

teoria dos processos estocsticos, cuja amplitude e variedade de aplicaes parecem ser inesgotveis (Narayan Bhat, 1972).
O Objeto da Estatstica Atravs do Tempo

A palavra "estatstica" derivada de status, em latim, e significa, na sua origem, o "estudo do estado". Inicialmente, no sculo XVI, pensada pelos ingleses como uma cincia poltica, destinava-se a descrever caractersticas de um pas, tais como populao, rea, riquezas e recursos naturais (Laurenti et al., 1985; Yule & Kendall, 1950). Deste papel histrico, originase a sua funo de caracterizao numrica de uma srie de informaes populacionais. Com esta abordagem, o termo utilizado no plural, como as "estatsticas de sade", as "estatsticas de mortalidade", as "estatsticas do registro civil", entre outras (Berqu et al., 1984; Yule & Kendall, 1950). Os estudos desenvolvidos por Pierre-Simon de Laplace e Carl Friedrich Gauss, no incio do sculo XIX, transformam a concepo da Estatstica. Com a viso de uma teoria dos erros, passa a ser amplamente aplicada a dados experimentais (Yule & Kendall, 1950). Sistematiza-se a anlise dos desvios em relao mdia em medidas repetidas de uma quantidade. So elaborados conceitos da teoria da estimao, como o mtodo de mnimos quadrados por Gauss, e o primeiro intervalo de confiana , em 1812, em um trabalho de Laplace (Lehmann, 1959) [Apesar de sua deduo correta, o autor considerava o parmetro como uma varivel ao atribuir-lhe a probabilidade de recair no intervalo. A interpretao apropriada data de um sculo mais tarde, devida a E. B. Wilson, em 1927, e H. Hotelling, em 1931 (Lehmann, 1959). Desafortunadamente, at os dias presentes, com muita freqncia, o conceito erradamente aplicado]. Na segunda metade do sculo XIX, a teoria estatstica passa a ser enunciada a partir de generalizaes das propriedades observadas em amostras grandes. So pesquisadas famlias de funes matemticas que se aproximem das distribuies de freqncias empricas (Steel & Torrie, 1981). Na Alemanha, prioriza-se o estudo pelo coletivo, originando-se os princpios da Estatstica Descritiva, ramo da Estatsti-

ca que tem a funo de organizar os dados, resumindo-os numa srie de medidas, grficos e tabelas para enfatizar as caractersticas essenciais do conjunto (Rankin, 1966). Nomes de destaque desta poca so os de Francis Galton e Karl Pearson. O primeiro, por meio de experimentos em Gentica, estuda a distribuio normal bivariada, prope o coeficiente de correlao como medida de associao e descobre algumas caractersticas das distribuies condicionais, como a regresso linear e a homoscedasticidade (Anderson, 1958). Por sua vez, Karl Pearson desenvolve a teoria e a aplicao de diferentes tipos de correlao pesquisa biolgica. Seus estudos concentram-se na procura de distribuies tericas, publicando, em 1900, a famosa estatstica qui-quadrado para o teste de adequao dos dados s distribuies de probabilidades. fundador da revista Biometrika e de uma escola de Estatstica, vindo estimular a produo de novos conhecimentos na rea (Walker, 1958). Um aluno de Karl Pearson, de nome William S. Gosset, dedica-se ao estudo de pequenas amostras e das distribuies do desvio-padro, da razo entre a mdia e o desvio padro e do coeficiente de correlao amostral. Seus resultados so divulgados na Biometrika, em 1908, sob o pseudnimo de Student, porque, por razes contratuais de trabalho, suas publicaes no podiam ser individualizadas (Steel & Torrie, 1981). Por outro lado, problemas conceituais apresentados pelo matemtico alemo Wilhelm Lexis colocam em questionamento, na mesma poca, o interesse apenas pelo coletivo. Ao estudar anualmente a razo de sexo no nascimento, atravs de estatsticas vitais, Lexis mostra, por meio de resultados empricos, a consistncia da suposio de que a determinao do sexo governada por um simples mecanismo de chance, como o procedimento "cara-coroa". Isto renova o esforo procura de mecanismos de chance atuando nos indivduos para produzir as observadas caractersticas coletivas (Rankin, 1966). Nos anos 20, George Poly constri um sistema de mecanismos de chance que pode gerar quase todas as distribuies propostas por Karl Pearson. O objeto da Estatstica move-se do estudo do coletivo

construo dos mecanismos de chance, ou dos modelos estocsticos dos fenmenos. Esta idia explicitamente expressa por mile Borel: "O problema bsico da estatstica matemtica inventar um sistema de simples mecanismos de chance, tais que as probabilidades determinadas por este sistema concordem com as freqncias relativas observadas dos vrios detalhes do fenmeno estudado" (Rankin, 1966). No decorrer do sculo XX, o campo indicado pela definio de Borel cresce em importncia, concomitante produo de considervel literatura em processos estocsticos, constituindo-se, atualmente, em um dos captulos da teoria das probabilidades (Feller, 1968).
Inferncia Estatstica: um Produto do Sculo XX

Enquanto a concepo estatstica dos sistemas de mecanismos de chance caa em processo de desuso, esforo crescente era atribudo aos problemas de estimao e deduo das distribuies de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). So devidas a ele vrias contribuies de uso atual e amplamente divulgadas, entre elas o mtodo da estimao por mximo-verossimilhana e a distribuio da razo entre varincias, denominada posteriormente por G. W. Snedecor distribuio "F", em sua homenagem (Remington & Schork, 1970). Fundamentando-se no princpio da aleatorizao experimentao agrcola, Fisher desenvolve as bases dos "desenhos de experimentos". Problemas de classificao em Botnica o levam proposio da funo discriminate, em 1936. No livro clssico de C. Radhakrishna Rao, h mais de vinte citaes referentes sua autoria de procedimentos de estimao e anlise (Rao, 1973). Simultaneamente aos progressos na teoria da estimao, o pensamento estatstico da primeira metade do sculo XI tem seu interesse voltado soluo dos problemas de testes de hipteses. Referncias vagas "significncia" datam dos sculos XVIII e XIX. Em 1900, Karl Pearson utiliza o conhecido teste qui-quadrado. Porm, somente em 1928 so introduzidos os conceitos de erro de primeira e segunda espcies, por Jerzy Neyman e Egon S. Pearson. Primeiros a

reconhecer que a deciso de um teste deve envolver consideraes no s sobre a hiptese, mas tambm sobre as alternativas, estes dois autores tiveram marcante influncia nos rumos da Estatstica contempornea (Lehmann, 1959). Em meados dos anos 30, no fugindo ao tratamento axiomtico da Matemtica a todos os seus ramos, dada Estatstica nova formulao terica. J. Neyman e E. S. Pearson apresentam a teoria da inferncia estatstica, em 1936, apta a considerar os testes de hipteses com a preciso e o rigor impostos pela Matemtica moderna (Lehmann, 1959). De alta repercusso acadmica, a teoria matemtica de Neyman-Pearson vem a referendar o campo de pesquisa terica, a Estatstica Matemtica, tratada como uma disciplina matemtica na qual a probabilidade a ferramenta bsica (Hoel, 1980). Os testes de hipteses so apreciados, luz da teoria dos jogos, pioneiramente por Abraham Wald, em 1940. Reconhecendo as vantagens do ponto de vista conceitual, estende a abordagem da teoria dos jogos, originalmente proposta para aplicaes em Economia, ao domnio estatstico. Assim generalizada, passa a ser denominada teoria da deciso (Fergunson, 1967). Utilizando a linguagem de jogos, o espao dos parmetros populacionais a serem testados o conjunto dos possveis resultados de um jogo, enquanto as decises estatsticas so as alternativas ou estratgias do jogador. Busca-se a "melhor" opo atravs do conhecimento adquirido com informaes pesquisadas por meio da experimentao. A qualificao de "melhor" tem o sentido de minimizar a probabilidade de erro (a perda) conseqente deciso tomada (Fergunson, 1967). Outro grande legado de A. Wald a chamada anlise seqencial, muito utilizada em problemas que envolvem controle de qualidade (Wolfowitz, 1952).
A Importncia da Amostragem

Em procedimento tipicamente indutivo, chegando-se a concluses sobre uma populao a partir do estudo de uma amostra, a tcnica de amostragem torna-se essencial. Surge o problema de selecionar uma amostra, o mais representativa da populao total, diante das limitaes de custos e das possibilidades de perda de preciso na estimativa dos parmetros. As tcnicas de amostragem esto indispensavelmente vinculadas ao nome de W. G. Cochran, que as sistematizou em 1953 (Cochran, 1953). Embora de freqente emprego em investigaes populacionais, nem sempre o tratamento analtico dos dados adequado ao tipo de procedimento utilizado para a seleo das unidades experimentais, resultando em srios vieses de interpretao. Com esta perspectiva, um seguro objeto de estudo da Estatstica aplicada nos prximos anos ser o desenvolvimento de mtodos de estimao e inferncia compatveis com as diferentes tcnicas de amostragem. Vale insistir que esta questo no vem recebendo a devida considerao e so inmeros os exemplos de inferncias incorretas, conseqentes ao corriqueiro tratamento de que sempre est-se diante de amostras aleatrias simples.
A Estatstica Recente

A influncia da inferncia estatstica extravasa o plano terico. A unio da velha estatstica nova teoria probabilstica amplia sobremaneira a sua aplicao anlise de dados empricos. Agora possvel responder a questionamentos relativos a parmetros populacionais atravs de um pequeno subconjunto, a amostra.
k

A partir dos anos 40, a pesquisa estatstica se volta para solucionar problemas envolvendo variados aspectos da inferncia, cada um tendo a sua aplicao a situaes especficas. Os testes de hipteses para mdias, varincias e propores, a teoria dos testes uniformemente mais poderosos, o processo de incluso (excluso) de variveis nos modelos de regresso so algumas das formas de inferncia de uso consagrado (Rao, 1973). Nesta mesma linha, encontram-se os "mtodos no paramtricos", mais apropriadamente denominados "livres de distribuio". Constituem-se em testes de hipteses cuja aplicao independe dos pressupostos tericos da estatstica paramtrica, inclusive no que diz respeito distribuio da varivel aleatria em estudo. Apesar de apresentarem as vantagens de suposies tericas mais flexveis, os testes no paramticos podem, por vezes, ser pouco sensveis, deixando passar desapercebidas

caractersticas quantitativas importantes das informaes (Rao, 1973; Remington & Schork, 1970). Estimulada pelos seus campos de aplicao, ao lado das facilidades de processamento introduzidas pela informtica, a Estatstica tem enfatizado, ultimamente, o desenvolvimento dos procedimentos multivariados. Classicamente baseados na distribuio multinomial, expandiram-se anos mais tarde tambm funo multinomial (Anderson, 1958; Bishop, Finberg & Holland, 1975). O conceito matemtico de "combinao linear" introduzido para descrever as relaes entre uma varivel resposta e um conjunto de variveis independentes ou explicativas. Entre os modelos mais conhecidos esto os de regresso mltipla, anlise de varincia e covarincia e a funo discriminante. No caso de multiplicidade de respostas, as principais tcnicas so as de correlao cannica, de discriminao de vrios grupos e de anlises de varincia e covarincia multivariadas (Green, 1978; Searl, 1971). Nos anos 70/80, so propostos os modelos log-lineares para a anlise de dados categricos, onde os logaritmos das probabilidades dos estados multinomiais so expressos como combinao linear de efeitos principais e de interao entre os fatores (Bishop, Finberg & Holland, 1975; Haberman, 1978). Capaz de lidar com os dois tipos de variveis independentes, contnuas e discretas, a regresso logstica representa o logito da probabilidade condicional do sucesso de uma resposta binaria como uma funo linear (Cox, 1970). Embora de formas diferentes, todos estes modelos enfocam aspectos de explicao para uma varivel considerada como dependente de outras. J os procedimentos multivariados de anlise fatorial, componentes principais, anlise de correspondncias e anlise de conglomerados tm abordagem diferente. A nfase dada anlise de interdependncia no conjunto total de variveis (Green, 1978). Os trs primeiros so denominados redutores do espao multivariado, pois tm o objetivo de representar as informaes originais por meio de um nmero menor de variveis que o considerado inicialmente. A anlise de conglomerados tambm um procedimento simplificador, porm, neste

caso, a reduo procede-se no nmero de objetos e no nas dimenses do espao (Green, 1978). De maneira bem resumida, o temrio da anlise multivariada pode ser assim subdividido: de mensurao da dependncia entre variveis; de analogia inferncia univariada; de reduo das dimenses do espao; de classificao e agrupamento das unidades experimentais (Anderson, 1958). Tais mtodos se propem a analisar observaes coletadas num corte de tempo. A interpretao corresponde, assim, imagem das observaes num dado momento, sem apreender sua evoluo temporal. Sob a considerao de que a explicao de certos fenmenos envolve o estudo do seu acompanhamento temporal, uma das vertentes da pesquisa estatstica atual objetiva a proposio de modelos que incluam a possibilidade de anlise da "dependncia no tempo". Neste sentido, desenvolvem-se os modelos de sries temporais, com o reconhecimento explcito da importncia da seqncia das observaes no tempo. No caso de uma estrutura probabilstica, isto , as flutuaes irregulares apresentarem propriedades estatsticas de variabilidade, as sries constituem-se em processos estocsticos. As informaes sucessivas so dependentes das anteriores, fazendo-se necessria a introduo de novos conceitos, como o de auto-correlao para medir a dependncia de observaes da mesma varivel em tempos diferentes (Anderson, 1971). Embora haja o reconhecimento geral de sua importncia, as sries temporais ainda possuem domnio restrito de aplicao. Sua utilizao tem sido limitada interpretao de sries econmicas, com propsitos predominantemente preditivos. Os estudos da dependncia no tempo inspiram os adeptos da Geografia Quantitativa s anlises da dependncia no espao. A produo de mtodos acelerada graas constatao que as tcnicas estatsticas convencionais, baseadas na independncia das unidades experimentais, mostram-se imprprias ao tratamento dos dados geogrficos que exibem tipicamente ordenao sistemtica no espao (Hammond & McCullagh, 1978; Johnston, 1978). Dada a similaridade dos problemas de dependncia nos

domnios do tempo e do espao, muitos dos mtodos de inferncia temporal tm sido adaptados para anlise das distribuies espaciais. Entretanto, enquanto a medida de auto-correlao no tempo um problema unidimensional, a interdependncia entre observaes espaciais pode ser multidimensional, resultando em questes bem mais complexas e ainda no de todo resolvidas (Hammond & McCullagh, 1978). Mais recentemente, a articulao do interesse economtrico na dependncia temporal e do geogrfico na dependncia espacial origina a elaborao de sries espaotemporais que incluem parmetros que variam em ambos os domnios (Cliff & Hagget, 1979; Raubertas, 1988; Tango, 1984).
O Paradoxo Estatstico

Embora de uso amplamente estabelecido, a teoria preconizada por J. Neyman e E. S. Pearson at hoje geradora de controvrsias. Muitos estatsticos de renome, desde a elaborao conceitual dos testes de hipteses, questionam a validade do estabelecimento de um nvel de significncia como forma de deciso (Rao, 1973). Os debatedores argumentam que a deciso estatstica tomada sem levar em considerao a probabilidade a priori da hiptese nula (Fisher, 1956; Jeffreys, 1948; Savage, 1954). A contradio entre o procedimento de inferncia e a existncia de uma distribuio a priori da hiptese nula fica evidente no trabalho de Lindley, denominado pelo prprio autor como o "paradoxo estatstico" (Lindley, 1957). Por meio do teste habitual para a mdia de uma distribuio normal, considerando uma amostra aleatria de tamanho "n", Lindley demonstra que um determinado valor de "n" pode ser sempre encontrado tal que: a) O valor da mdia significativamente diferente ao proposto na hiptese nula ao nvel de a %; b) A probabilidade a posteriori de que a hiptese nula verdadeira (100 - a )%. Este o paradoxo. Sendo a pequeno, por exemplo 5%, a interpretao do primeiro resultado decidir que a mdia significativamente diferente do valor especificado na hip-

tese nula, enquanto pelo segundo existem boas razes de se acreditar na igualdade (Lindley, 1957). Indaga-se, ento, o porqu do uso consagrado do nvel de significncia em papel decisrio. A resposta dada tambm por Lindley, que demonstra que para a suposio da probabilidade a priori igual a 50%, o paradoxo s vem a ocorrer para amostras relativamente grandes (Lindley, 1957). O problema trazido compreenso dos usurios da rea de sade muito bem examinado por Browner e Newman (Browner & Newman, 1987). A analogia feita a um teste de diagnstico cujos resultados podem ser positivos ou negativos. A veracidade das hipteses nula e alternativa correspondem ausncia e presena da doena,respectivamente. A probabilidade de rejeio da hiptese nula quando ela verdadeira (o nvel de significncia) relacionada falso-positividade, enquanto o poder do teste, sensibilidade. Como nos testes de diagnstico, os autores apontam as vantagens da anlise bayesiana na interpretao dos resultados, baseados nos seguintes fatos: os valores do nvel de significncia descritivo ("p") podem ser maiores do que 5%, mas produzirem valores preditivos sugestivos de que a hiptese nula falsa; os valores de "p" podem ser menores do que 5%, mas no se mostrarem aptos a estabelecer a veracidade da hiptese alternativa. Desde a avaliao crtica da teoria de Neyman-Pearson, propostas alternativas tm sido elaboradas para o tratamento dos testes de hipteses, constituindo-se nas denominadas escolas de inferncia estatstica (Oakes, 1990). Entre as principais est a fisheriana, cuja argumentao baseada na probabilidade fiducial e que tambm tem sido sujeita a diversas objees (Rao, 1973). O desenvolvimento da escola bayesiana, em poca mais recente, expe novamente ao debate os fundamentos da inferncia estatstica (Phillips, 1973).
As Iluses da Estatstica

As estatsticas h muito ultrapassaram o domnio da cincia. Utilizadas por toda parte, so muitas vezes enganosas, dependendo do propsito com que esto sendo abordadas. Apresentadas pela mdia na inteno de impres-

sionar o espectador, so calculadas freqentemente de maneira inadequada. o caso, por exemplo, da taxa de acidentes de trnsito fatais dada por unidade de tempo e no pelo nmero de habitantes da populao. Muitas vezes, com propsitos de mascarar certos aspectos das informaes, as medidas de tendncia central so escolhidas intencionalmente. So os casos clssicos do emprego da mediana, quando no se deseja levar em considerao os valores extremos das observaes, e da mdia geomtrica, para produzir um indicador de menor magnitude que o aritmeticamente calculado. Um fato que ficou conhecido no Brasil, no governo Figueiredo, em 1983, foi a deciso de que o ndice nacional de preos ao consumidor (INPC) passaria a ser estimado como mdia geomtrica dos seus componentes, produzindo, desta forma, um nmero (ilusoriamente) mais baixo do que aqueles anteriormente usados. Artifcios de representao tambm podem ser realizados atravs de procedimentos grficos. Para enfatizar uma tendncia crescente em um sistema cartesiano, basta comprimir a escala horizontal e ampliar a vertical que a viso de aclive ser muito mais acentuada (Remington & Schork, 1970). A este respeito, Huff apresenta diversas situaes que conduzem a enganos de interpretao (Huff, 1954). Contudo, a estimativa de estatsticas de maneira incorreta nem sempre intencional, ocorrendo, em algumas ocasies, por falhas nas informaes em que so baseadas. Diante do desconhecimento da existncia de subenumerao do nmero de nascidos vivos nos censos decenais, por exemplo, a taxa de natalidade do Brasil seria subestimada se calculada a partir dos dados censitrios publicados pela FIBGE. Vieses de interpretao na investigao cientfica so tambm raramente propositais. Decorrem, geralmente, pelo desenho inapropriado do experimento, inadequao do mtodo de anlise ou pela superficialidade na explicao dos resultados. Vrios peridicos mdicos apresentam artigos de reviso sobre trabalhos publicados que contm aplicao de tcnicas estatsticas a estudos clnicos. Uma ampla pesquisa, por exemplo, foi organizada pelos editores do New England Journal of

Medicine. O estudo teve o objetivo de determinar os mtodos estatsticos utilizados e se estavam sendo apropriada e corretamente aplicados. Em uma anlise de mais de mil artigos publicados na revista, mostrou-se o uso insuficiente das tcnicas multivariadas e da modelagem estatstica; que o poder dos testes de hipteses foi apresentado em somente 2% dos trabalhos analisados; e a necessidade de maior divulgao das tcnicas estatsticas para a seleo mais adequada do mtodo de anlise (Bailar & Mosteller, 1986). No que concerne utilizao da Estatstica para demonstrao de uma hiptese por meio da experimentao, preciso ressaltar que a estatstica no "prova" nada. Atravs de seus procedimentos descritivos, estimadores e inferenciais, ela apenas auxilia o pesquisador a tomar uma deciso. Um dos grandes mitos da Estatstica o nvel de significncia descritivo do teste, o valor de "p". A ele atribui-se tanto o papel de demonstrador matemtico-emprico como o de destruidor de teorias, sem que sejam observados o tamanho da amostra, o poder do teste ou a probabilidade a posteriori da hiptese nula ser verdadeira (Greenland, 1988). Desde que as estatticas de deciso so funo crescente do nmero de observaes, quanto maior o tamanho da amostra, maior a probabilidade de rejeio da hiptese. Sendo assim, as formulaes das hipteses nula e alternativa que devem governar o delineamento da investigao, o tamanho da amostra e o procedimento de coleta das informaes. Esses, por sua vez, conduzem escolha do mtodo adequado de anlise. Todavia, ainda que toda a anlise quantitativa tenha sido procedida corretamente, os resultados devem ser sujeitos contemplao cautelosa. Embora significativos estatisticamente, podem no seguir nenhuma lgica de explicao. A Estatstica no a "beno final" das evidncias encontradas na pesquisa. Pelo contrrio, o maior poder da metodologia estatstica reside em tirar dos dados o seu mximo potencial de informao. Acredita-se que os procedimentos descritivos do comportamento de cada varivel e a compreenso da estrutura de interdependncia, constituindo-se no que se chama "o entrar nos dados", em permanente

referncia natureza do objeto em estudo, so os passos mais importantes na anlise interpretativa dos resultados de um experimento.

A ESTATSTICA NA EPIDEMIOLOGIA
As Estatsticas Demgrafo-Sanitrias

O sistema atual de registro civil resultante de um processo evolutivo que se inicia com a transcrio de dados de batizados, enterros e casamentos pelo clero nos registros paroquiais (Laurenti et al., 1985). Em princpios do sculo XVI, em funo da epidemia da peste, os registros de mortes semanais tornam-se obrigatrios em Londres. Aos poucos, bitos por outras causas tambm so includos e o sistema estendido a todas as parquias da Inglaterra (Pollard et al., 1974). Transformados em sries mais regulares no sculo seguinte, fundamentam os estudos de John Graunt, primeiro a perceber a importncia da anlise quantitativa dos eventos vitais. Na publicao Observations upon the bills of mortality, em 1662, Graunt introduz o princpio da razo de regularidade estatstica, observa uma razo de sexo ao nascimento constante, reconhece padres sazonais e diferenas urbano-rurais no comportamento das taxas brutas de mortalidade e tem o mrito de construir a primeira tbua de vida. William Petty converte seu trabalho nas bases da "aritmtica poltica", que pouco a pouco passa a ser conhecida como Demografia (Laurenti et al, 1985; Pollard et al., 1974). Somente a partir do sculo XIX, quando a responsabilidade do registro dos eventos vitais transfere-se da Igreja para o Estado e estabelece-se, de forma legal, a sua obrigatoriedade em vrios pases, so impulsionados os estudos demogrficos. Surgem tambm as primeiras anlises de morbidade na Inglaterra e nos Estados Unidos, introduzindo-se a abordagem de doenas pelo mtodo quantitativo (Barreto, 1990). Em 1839, William Farr, na funo de compilador do sistema oficial de registros na Inglaterra, estabelece a coleta sistemtica de informaes sobre morbidade e mortalidade (Laurenti et al., 1985). Primeiro estatstico mdico, Farr faz uso do registro civil para o estudo de doenas e prope uma forma de

classific-las com uniformidade internacional (OMS, 1978). Desde Farr at os dias de hoje, vrios indicadores e procedimentos de anlise foram desenvolvidos com o objetivo de traar o perfil nosolgico de uma populao. Atualmente, esta tarefa de competncia da Estatstica Demgrafo-Sanitria, mais conhecida como Estatstica Vital, embora esta ltima denominao no esteja de acordo com a definio das Naes Unidas, que lhe atribui somente o tratamento dos eventos vitais (Laurenti et al., 1985). De certa forma, constitui-se na estatstica descritiva da sade, tendo a funo de construir medidas numricas que caracterizem sries de dados vitais (nascimentos, bitos e perdas fetais) e de informaes relativas a doenas e a servios (Laurenti et al., 1985). A construo dos indicadores de sade a partir de dados secundrios est relacionada qualidade dos sistemas de informaes. Muitas vezes incompletos e descontnuos, no permitem um adequado tratamento estatstico dos dados. Os vnculos com a Demografia permanecem estreitos. Em primeiro plano, manifestam-se pelo interesse mtuo nos aspectos dinmicos das sociedades (fecundidade, mortalidade e migrao) e naqueles relativos composio das populaes segundo sexo, idade, situao de domiclio, entre outros. Em segundo, pela necessidade de desenvolvimento de tcnicas demogrficas, quer seja para estimativas de denominadores das taxas de morbi-mortalidade, quer seja para mensurao indireta de indicadores em populaes com sistemas de registro incompletos. No que diz respeito abordagem conceitual, o interesse atual tem sido na proposio de indicadores mais sensveis percepo da sade de uma populao. Partindo do princpio de que a ausncia de doena no implica necessariamente na presena de sade, alguns pesquisadores dedicam-se a tentativas de definies de sade no sentido positivo (Goldberg, 1990). No tocante metodologia de avaliao das estatsticas demgrafo-sanitrias de uma populao, a sua evoluo num certo perodo de tempo encontra instrumental nos procedimentos de sries temporais, que permitem a determinao dos componentes de tendncia, periodici-

dade e sazonalidade. J a anlise das distribuies espaciais tem tido aproximaes recentes com os modelos utilizados pela Geografia Quantitativa e vem demonstrando interessantes resultados (Breslow & Enstrom, 1974; Cook & Pocock, 1983).
A Epidemiologia e o Mtodo Indutivo Estatstico

O termo Bioestatstica aparece primeiramente em 1923, em substituio expresso "estatsticas vitais" (Berqu et al., 1984). Tem hoje significado mais abrangente e considerada como a disciplina que trata da aplicao dos procedimentos estatsticos, descritivos e inferenciais aos problemas biolgicos (Remington & Schork, 1970). Sua aplicao s cincias mdicas particularmente impulsionada por influncia da publicao de Bradford Hill, Principles of Medical Statistics, em 1937 (Berqu et al., 1984). No que se refere anlise de dados epidemiolgicos, a histria da utilizao do mtodo indutivo quantitativo estreitamente relacionada questo da causalidade e forma com que esta tratada ao longo do tempo. Embora seja atualmente uma das grandes fomentadoras da Bioestatstica, a Epidemiologia s vem a adotla como metodologia analtica em meados do presente sculo, a partir da consagrao da teoria de multicausalidade (Barreto, 1990). A abordagem de associaes entre fatores ambientais e doena aparece desde o sculo XIX. Vrios pesquisadores, naquela poca, alm da caracterizao quantitativa da situao de sade de populaes selecionadas, analisavam comunidades quanto s suas condies de saneamento, moradia, ocupao e nutrio (Susser, 1985). Mas as investigaes em populaes tiveram seu desenvolvimento enfraquecido nas primeiras dcadas do sculo XX. A "teoria do germe" que se imps sobre a "teoria miasmtica" adotou o critrio laboratorial como o nico vlido para a verificao das hipteses de unicausalidade (Barreto, 1990; Susser, 1985). A quantificao adquire novamente papel importante a partir dos progressos obtidos na concepo da multicausalidade para doenas

infecciosas. Surgem os modelos matemticos contemplando o agente causal e os fatores ambientais relacionados sua transmisso (Barreto, 1990). Procurando novos caminhos para ampliar sua capacidade explicativa na determinao das enfermidades, a Epidemiologia encontra na inferncia estatstica o instrumental adequado para o teste de suas hipteses. A teoria da deciso enquadra-se perfeitamente no esprito positivista do raciocnio epidemiolgico da poca, apresentando meios de "provar" empiricamente relaes causais conjecturadas teoricamente (Almeida Filho, 1989). Nos anos 60, os avanos na informtica permitem o processamento de grandes massas de dados, estimulando a realizao de investigaes populacionais. Divulga-se o emprego das tcnicas multivariadas, que embora tivessem sido deduzidas na dcada de 30, s agora podem ser usadas na prtica. Surgem softwares ditos prprios para o tratamento de informaes quantitativas das cincias sociais. Intensifica-se a aplicao dos modelos lineares interpretao das associaes epidemiolgicas. Fortalecem-se os laos interdisciplinares, ocorre a chamada "matematizao da Epidemiologia" (Almeida Filho, 1989). A incapacidade interpretativa dos modelos determinsticos causais na explicao das doenas crnicas, em predomnio nos pases industrializados, conduz os epidemiologistas elaborao de novas propostas conceituais e metodolgicas. luz do conceito de risco, ao invs do determinismo do efeito, passa a ser avaliada a probabilidade de ocorrncia da doena. So formulados desenhos de estudos alternativos que solicitam procedimentos estatsticos especficos (Breslow & Day, 1980; Breslow & Day, 1987). Para cada delineamento experimental, so criadas tcnicas de estimao e anlise, a regresso linear trocada pela logit-linear, a produo de programas para microcomputadores acelerada. Nos pases centrais, proliferam estudos dispendiosos, com amostras enormes para possibilitar o controle de inmeras variveis intervenientes. Em ocasies no raras, entretanto, a estimativa do risco no se diferencia expressivamente da unidade, ao ponto de se

acreditar convictaniente na deciso inferencial de rejeio da hiptese nula. Ao no se conseguir realizar a distino entre os significados estatstico e epidemiolgico da associao, a conduta adotada a de repetio do experimento para, somente evidncia de respostas semelhantes, estabelec-la como verdadeira (Knekt et al., 1988; UK National Case-Control Study Group, 1989). Muito esforo consumido para a produo relativamente pobre de conhecimentos. No decorrer das ltimas dcadas, os paradigmas da pesquisa epidemiolgica tm sido expostos a intensos debates. O estabelecimento da causalidade atravs dos modelos tradicionais vem sendo colocado em questionamento, principalmente no que diz respeito compreenso dos problemas de sade cujos determinantes esto no interior das organizaes sociais (Sabroza, 1990). Esta situao, amplamente discutida por diversos autores da Amrica Latina (Srgio Arouca, Jaime Breilh e Asa Cristina Laurell, entre outros), enfatiza o inadequado tratamento de atributos coletivos como sendo passveis de uma expresso individual (Almeida Filho, 1989; Costa, 1990; Nunes, 1985). curioso que este reducionismo na prtica se faz, na verdade, de modo mais acentuado, pois a quase totalidade dos estudos que se dizem capazes de lidar com a causalidade o fazem com base em procedimentos estatsticos que assumem relaes lineares (ou logit-lineares) entre as variveis.
Os Processos Estocsticos

J em princpios do sculo XX, a Epidemiologia buscava na Matemtica a soluo de seus modelos tericos de multicausalidade de doenas infecciosas. Ignoradas as variaes randmicas e baseando-se na considerao que o processo sade-doena era governado apenas por leis dinmicas, surgem os modelos matemticos determinsticos para representao das epidemias (Bailey, 1964). Anos mais tarde, com a identificao de que os eventos mrbidos so sujeitos chance, paralelamente ao avano na teoria das probabilidades, a modelagem aperfeioada e passam a ser utilizados os processos estocsticos. O uso do adjetivo "estocstico", sinnimo de

probabilstico, tem o propsito de enfatizar o aspecto aleatrio da ocorrncia dos fenmenos, em constraste com as antigas formulaes determinsticas. Estas, contudo, so legtimas no caso de populaes grandes, quando pode-se assumir que as flutuaes estatsticas so suficientemente pequenas para serem ignoradas, alm de considerar-se til a sua abordagem, anterior probabilstica, pela sua capacidade explicativa dinmica do processo (Bartlett, 1960). De maneira formal, um modelo estocstico aquele que especifica a distribuio de probabilidades de uma varivel (vetor) aleatria (o) sobre uma classe de situaes de interesse em cada ponto do tempo. A sucesso de estados ou de mudanas, concebida como contnua no tempo, constitui-se no processo estocstico (losifescu & Tautu, 1973). Dito estacionrio quando a sua estrutura probabilstica constante no tempo, o seu estudo terico constitui-se num dos temas abordados pelos procedimentos de sries temporais, quando estas so geradas por um modelo subdividido em uma tendncia determinstica e uma parte aleatria com a propriedade de invarincia (Anderson, 1971). Em contraposio est o processo evolucionrio, cuja primeira formulao matemtica foi realizada por Francis Galton, no final do sculo XIX, interessado particularmente na probabilidade de extino das famlias de nobre posio na Inglaterra. Em 1924, G, Udny Yule deduz o "modelo puro de nascimentos-mortes" numa populao (losifescu & Tautu, 1973). Desde ento, os processos estocsticos tm sido utilizados para representar a evoluo de vrios fenmenos biolgicos, como o crescimento de populaes, migrao, competio entre espcies, flutuaes na composio gentica de populaes (como mutao e seleo), alm dos sistemas fisiolgicos de mltiplos compartimentos e dos processos epidmicos (losifescu & Tautu, 1973). Estes ltimos tm sido de interesse permanente para a explicao dos mecanismos de transmisso de certas doenas (Bailey, 1964; Bartlett, 1960; Iosifescu & Tautu, 1973). O grau de complexidade dos modelos depende do nmero de categorias que compem a populao epidmica, porm pelo menos dois componentes so sempre necessrios, os infectados

e os suscetveis, cujas relaes determinam a dinmica do processo. A intratabilidade matemtica dos modelos mais sofisticados vem sendo superada por procedimentos de simulao. Ateno tem se dirigido recentemente modelagem de dinmica de doenas como a AIDS (Castillo-Chavez, 1989) e aos processos que objetivam descrever a propagao espacial das epidemias (Cliff & Hagget, 1979).
As Medidas de Associao Estatstica

A Epidemiologia tem na causalidade,como j dito, uma de suas questes fundamentais. O problema que permanentemente se coloca o da mensurao das relaes causais. Afora a questo da possibilidade de se quantificar os determinantes sociais do processo sade-doena, mesmo no mbito da chamada epidemiologia clssica, o seu modo de trabalho com as ditas relaes causais merece algumas reflexes a partir do corpo terico da Estatstica. Desde o conceito de probabilidade condicional, passando pelo coeficiente de correlao e pelo qui-quadrado de Pearson at a dependncia no tempo e no espao dos dias de hoje, a preocupao com a "dependncia" entre dois atributos tem despertado interesse constante. Em termos tericos, duas variveis so independentes se e somente se a distribuio de probabilidades condicional da primeira, dada a segunda, igual distribuio marginal da primeira (Hoel et al., 1971). Esta noo de "dependncia" pode ser visualizada atravs da anlise de uma tabela de contingncia, quando as variveis so consideradas associadas se as distribuies multinomiais forem significativamente diferentes para dois nveis da resposta; pode ser traduzida pelo risco relativo ou pelo odds ratio iguais a1 na situao de independncia; ou, ainda, na construo da teoria de regresso mltipla no caso de multinormalidade, onde a mdia da distribuio condicional um modelo linear das variveis preditoras e a reta constante quando h independncia. Um conceito mais intuitivo de mensurao de "dependncia" o de covarincia. Tem o sentido de examinar o comportamento conjunto em comparao multiplicao dos isolados.

Se h independncia, a covarincia nula (Hoel et al., 1971). As primeiras medidas do grau de dependncia entre duas variveis aleatrias foram propostas atravs do coeficiente de correlao, descrito como a covarincia padronizada pelo produto dos desvios-padro de cada uma. Pela desigualdade de Schwarz, demonstra-se que seu valor absoluto limitado pela unidade. A magnitude da associao , ento, medida dentro de um intervalo de extremo inferior zero (nenhuma associao) at o ponto mximo de um (Hoel et al., 1971). Em 1944, H. E. Daniels d uma interpretao geomtrica da independncia, representando-a pela ortogonalidade de dois vetores no espao euclidiano. Neste contexto, a medida de correlao corresponde ao cosseno do ngulo formado pelos vetores aleatrios em considerao. A associao mxima, quando o cosseno igual a um, referida colinearidade, em oposio perpendicularidade, situao de cosseno zero e ausncia de correlao. Daniels demonstra, ainda, que as medidas de associao tradicionais, como os coeficientes de correlao de Pearson, Spearman e de Kendall, alm do coeficiente de contingncia mdia, podem ser expressos por meio de cossenos de ngulos entre vetores de coordenadas convenientemente escolhidas (Daniels, 1944). Leo A. Goodman outro autor contemporneo que contribui expressivamente ao problema de medir associaes em variveis categricas ordinais. Objetivando captar o efeito da ordenao dos nveis de cada um dos fatores, prope medidas baseadas na "reduo proporcional dos erros" na predio da resposta. Os erros so respectivos a duas situaes, a de ausncia de informaes sobre a varivel preditora, relativamente a uma segunda, diante do conhecimento prvio do valor da varivel independente (Goodman, 1979). Na procura de critrios de escolha de medidas de associao adequadas s anlises quantitativas das pesquisas sociolgicas, Herbert L. Costner, em 1965, prope adotar aquelas que pudessem ser estabelecidas por meio da reduo proporcional no erro de predio (Costner, 1965). possvel demonstrar que a definio geomtrica de Daniels, atribuda correlao (como o cosseno do ngulo formado

pelos vetores aleatrios), tem uma interpretao de "reduo proporcional no erro". Assim, as atuais propostas de estatsticas para medir associaes entre variveis tm sido baseadas na definio de Daniels. Sendo o cosseno de um ngulo em um espao vetorial expresso como razo de um produto interno dos vetores (covarincia) pelo produto das normas (desvios-padro), as formulaes generalizadas tm evoludo em duas direes: convenientes escolhas de funes de coordenadas vetoriais no espao euclidiano e definio de um produto interno adequado em um espao de Hilbert (Ash, 1972), possibilitando a extenso para espaos infinito-dimensionais. Esta ltima aproximao foi considerada por T. W. Anderson no estudo de predio de processos estocsticos estacionrios no tempo (Anderson, 1971). fato por demais conhecido que a significncia da correlao estatstica insuficiente para indicar dependncia no sentido epidemiolgico. Vrios autores tm se preocupado inclusive em estabelecer critrios, de tal modo que na ocorrncia da associao estatstica, seja possvel determinar se ela , de fato, causal (Hill, 1965). Entretanto, os epidemiologistas, perante os problemas de causalidade, tm mostrado atitudes dspares. No s a significncia estatstica tem sido apresentada freqentemente como evidncia de uma relao causal, como tambm inexistncia de correlao estatstica, a hiptese epidemiolgica descartada de imediato. Em divergncia a estas condutas, preciso ressaltar que para determinadas distribuies de probabilidades, as variveis aleatrias podem ser no correlacionadas, mas dependentes (Hoel et al., 1971). Salientase, ainda, que usual considerar as variveis contnuas como normalmente distribudas, acarretando em mensurar a associao entre elas por meio de modelos lineares. Desta maneira, se a regresso for quadrtica, provavelmente ser encontrada uma correlao de baixa magnitude. Na prtica, o que vem ocorrendo o emprego automtico dos modelos multivariados lineares (ou logit-lineares), sem anlise prvia ou qualquer representao grfica das relaes de dependncia no conjunto de informaes. Os testes para correlaes parciais das variveis contnuas ou as estaststicas de mximo-veros-

similhana correspondentes incluso de variveis nos modelos logsticos so os critrios estabelecidos pelos epidemiologistas para o julgamento de suas hipteses. Percorrendo todos os significados das medidas de associao estatstica ao longo do tempo, sua interpretao como reduo proporcional no erro de predio e suas generalizaes, indagase o porqu desta utilizao to restrita em vista do leque de possibilidades existentes.
Os Modelos de Regresso

O objetivo de uma anlise estatstica utilizando a tcnica de construo de modelos , em geral, o de encontrar a melhor adequao (no sentido de minimizar o erro de predio) atravs do menor nmero possvel de variveis (Draper & Smith, 1966). Este propsito, no entanto, est longe de satisfazer os objetivos da Epidemiologia na procura dos determinantes ou dos fatores de risco de um problema de sade. Em primeiro lugar, o princpio da parcimnia, se conveniente ao intuito preditivo na diminuio dos custos e esforos em obter informaes, , pelo contrrio, insatisfatrio para uma interpretao plausvel das relaes entre as variveis. A economia de variveis consiste, na verdade, em minimizar o caminho explicativo de um evento ao outro (Li, 1975). Uma segunda colocao que se impe referese ao fato de que, nos procedimentos de regresso, as variveis explicativas so tratadas com equanimidade, resultando mini modelo em que a resposta determinada pela adio de efeitos, sem a interpretao do fenmeno. As decises de incluso (excluso) de fatores so puramente estatsticas e, como recomendado em procedimentos com comparaes mltiplas, baseadas na diminuio do nvel de significncia. Ao final de todas as etapas, nada se sabe sobre o poder de cada teste de hiptese causal, muito menos pondera-se sobre suas probabilidades a priori. Alm disso, em diversas ocasies, um coeficiente de correlao mltipla baixo considerado como aceitvel, ou seja, grande parte da variabilidade da resposta atribuda ao acaso. O mtodo conhecido como a "anlise de trajetrias" uma forma de regresso estruturada onde um diagrama especifica a natureza da

estrutura proposta. de acordo com este diagrama que a anlise subseqente realizada (Li, 1975). No caso do desconhecimento prvio do delineamento do circuito causal, vrios esquemas podem ser propostos, considerando os possveis papis das variveis como "de confundimento", "intermedirias" ou " modificadoras de efeito" (Breslow & Day, 1980; Morgenstern, 1989). Criado por Sewell Wright, em 1921, para anlise de diagramas genealgicos, teve seu emprego divulgado por O. D. Duncan nas cincias sociais (Li, 1975). Sob o nome de "teoria dos grafos", tem vasto campo de aplicao na Pesquisa Operacional, com o objetivo de otimizao dos fluxos de organizao, como as redes de comunicao e transporte (Berge & Ghouila-Houri, 1962). Apesar de se constituir num procedimento bem mais apropriado para a construo de uma estrutura causal compatvel com os dados observados, tem pouca repercusso ainda entre os epidemiologistas.
A Interpretao Estatstica de Risco

O conceito de risco, fundamental Epidemiologia moderna, definido como "a probabilidade de um indivduo de uma populao vir a desenvolver a doena durante um dado perodo de tempo" (Morgenstern, 1989). A partir desta concepo probabilstica, novas medidas de associao so adotadas, como o "risco relativo" e a "razo dos produtos cruzados" (odds ratio). O grau de dependncia avaliado pelo afastamento destas medidas da unidade (Fleiss, 1973). A resposta determinstica transformada numa probabilstica, o risco (ou uma funo do risco) passa a ser utilizado como varivel dependente dos modelos de regresso, a causa torna-se o "fator de risco". Em virtude de sua fcil interpretao, o modelo logstico tem sido um mtodo de anlise amplamente difundido na pesquisa epidemilgica. No caso de uma s covarivel, o coeficiente angular da reta corresponde razo dos produtos cruzados. Extenso feita ao caso politmico, os parmetros da regresso representam os odds ratio em relao a uma categoria de referncia (Hosmer & Lemeshow, 1989). Estatisticamente, a varivel dependente

tem distribuio Bernouilli (ausncia ou presena da doena) e a sua esperana condicional, igual probabilidade do sucesso, descrita como uma funo logstica das variveis preditoras. Sob a suposio de independncia das unidades experimentais, os erros do modelo seguem uma distribuio binomial (Hosmer & Lemeshow, 1989). Desta forma, este processo de "modelagem" dos dados tipicamente um procedimento de anlise de mecanismos individuais independentes que, somando-se, produzem o efeito coletivo. Assinala-se, portanto, novamente o despropsito de incluir nos modelos variveis mensuradas em grupos (onde as observaes podem ser dependentes), fugindo ao pressuposto de independncia dos erros da regresso. Ressalvese, tambm, que a definio de "grupo de risco" ("grupo populacional em que se encontra um risco relativo de uma dada condio maior do que 1,0") (Almeida Filho, 1989) no tem qualquer suporte na teoria dos modelos estatsticos. Probabilisticamente, "grupo de risco" a unio de indivduos, supostamente independentes, que apresentam um determinado atributo, chamado "fator de risco" pelos epidemiologistas.
Medidas em Grupos de Observaes: a Falcia Ecolgica e o Problema da Unidade de Anlise

Em anlise de correlaes entre variveis relativas a grupos de indivduos, ao invs dos prprios indivduos, falsos juzos podem ocorrer se as inferncias "entre grupos" (ecolgicas) so supostamente vlidas para "dentro dos grupos" (Piantadosi et al., 1988). O problema de interpretao na anlise das associaes ecolgicas foi apontado pioneiramente por W. S. Robinson, que lhe deu o nome de "falcia ecolgica" (Robinson, 1950). Desde ento, esta questo tem sido abordada por diversos autores. Alguns apontam para situaes onde srios erros seriam introduzidos em inferncias sobre indivduos por meio de estudos ecolgicos (Morgenstern, 1982). Outros delineiam circunstncias onde tais inferncias estariam justificadas (Richardson et al., 1987). A relao matemtica entre as correlaes

ecolgica e individual, embora proposta tambm por Robinson, foi demonstrada apenas recentemente (Piantadosi et al., 1988). Consiste em descrever o coeficiente de regresso entre dois fatores como soma ponderada dos coeficientes angulares "dentro" e "entre" grupos. Assim, comprova-se que na ausncia de dados individuais no possvel a estimativa da "verdadeira" associao (a "total") e que apenas na igualdade dos parmetros "dentro" e "entre" a correlao expressa pela chamada correlao ecolgica. Porm, este no o nico problema de uma anlise ecolgica. A questo da modificao do agrupamento de observaes outro ponto para reflexo. Foi identificada por G. U. Yule e M. G. Kendall, em 1950, que assinalaram: "ns no podemos perder de vista que nossos resultados dependem da unidade de anlise" (Yule & Kendall, 1950). Em teoria, existe uma infinidade de maneiras na qual uma rea pode ser dividida, apesar dos dados serem apresentados para um particular conjunto de subdivises. Estas podem ser recombinadas de tal forma a constituir regies numa nova escala. Para cada uma das alternativas, os coeficientes de correlao tomam valores diferentes, acarretando em distintas possibilidades de interpretao. Este o denominado "problema da modificao da unidade de rea", abordado recentemente por S. Openshaw e P. J. Taylor em estudos de distribuies espaciais (Openshaw & Taylor, 1979).
Modelos em Perspectiva

Diante dos problemas metodolgicos encontrados para testar muitas das hipteses de multicausalidade de interesse epidemiolgico atual, resta recorrer ao desenvolvimento de modelos estatsticos mais apropriados. Apesar das limitaes da Estatstica como instrumental analtico dos diversos campos de indagao da Epidemiologia, entende-se que o esforo dever ser dirigido procura de modelos que permitam avaliar os agravos de sade na sua maior complexidade, seja nos mecanismos unitrios que produzem as caractersticas coletivas, seja nos processos coletivos que influenciam o fenmeno que vem a ocorrer no indivduo. Desta forma, vislumbram-se algumas pers-

pectivas, como a anlise em desenhos hierarquizados, onde possa ser considerado o nvel de atuao de cada varivel em estudo. O processo amostral, determinado pela hierarquizao dos fatores, seria realizado, ento, em quantos estgios se fizessem necessrios. Em cada etapa, as unidades experimentais seriam supostamente dependentes, expressando-se a matriz de varincias-covarincias do vetor de observaes como uma matriz no diagonal, cujos elementos que no pertencessem diagonal principal (as covarincias) fossem funes da correlao intra-classe. O progresso da resoluo estatstica estar em formular a partio da correlao total na estrutura especificada. J para os estudos ecolgicos, onde a inteno da anlise resida apenas nas inferncias para as unidades amostradas e no para os indivduos, freqente o interesse pelas representaes espaciais (mapas) das patologias. O coeficiente de correlao, como utilizado tradicionalmente "ponto a ponto", no capita os efeitos de aglomerao ou de propagao dos fenmenos. Releva-se, deste modo, a generalizao dos processos estocsticos no domnio do tempo para o domnio do espao, elaborando mtodos de estimao de medidas de associao entre distribuies espaciais (Clifford et al., 1989). No mesmo contexto, uma outra possibilidade a construo de coeficientes de correlao em espaos de Hubert, conforme j referido, mediante a definio adequada de um produto interno. Neste caso, a extenso da teoria de regresso entre modelos temporais para modelos espaciais seria realizada por meio da escolha de um eixo direcional unidimensional, como, por exemplo, a distncia dos pontos do espao a um determinado ponto considerado como origem. Diante do propsito contnuo de elaborao de modelos que traduzam o real linguagem matemtica, acredita-se que uma outra possvel vertente de pesquisa estatstica ser a procura de modelos que contemplem a compreenso do processo evolutivo a que esto sujeitas as distribuies dos fenmenos. Por outro lado, a abrangncia do comportamento temporal dos mecanismos explicativos

aliados chance gera modelos cada vez mais complexos. Entende-se,portanto, que um dos rumos a ser seguido a procura de instrumental, no interior da prpria Matemtica, que venha a simplificar a resoluo de tais problemas.

REFERNCIAS BIBLIOGRFICAS
ALMEIDA FILHO, N., 1989. Epidemiologia sem Nmeros (Introduo Crtica Cincia Epidemiolgica). Rio de Janeiro: Editora Campus. ANDERSON, T. W., 1958. An Introduction to Multivariate Statistical Analysis. New York: John Wiley & Sons.

AGRADECIMENTOS A autora CLS agradece OPAS, especificamente ao Dr. Moises Goldbaum, por ter concedido a oportunidade de sua participao no curso Advanced Statistical Methods in Cancer Epidemiology-IARC, 1989, que forneceu subsdios para a elaborao de parte deste trabalho, sobretudo nos itens referentes aos modelos estatsticos utilizados atualmente pela Epidemiologia.

, 1971. The Statistical Analysis of Time


Series. New York: John Wiley & Sons. ASH, R. B., 1972. Real Analysis and Probability. New york: Academic Press. BAILAR, J. C. & MOSTELLER, F. (Ed.), 1986. Medical Uses of Statistics. Waltham, Massachussets: NEJM Books. BAILEY, N. T. J., 1964. The Elements of Stochastic Processes with Applications to the Natural Sciences. New York: John Wiley & Sons. BARRETO, M. L., 1990. A Epidemiologia, sua histria e crises: notas para pensar o futuro. In: Epidemiologia Teoria e Objeto (D. C. Costa, org.), pp. 19-38, So Paulo: Hucitec-Abrasco. BARTLETT, M. S., 1960. Stochastic Population Models in Ecology and Epidemiology. London: Methuen. BERGE, C. & GHOUILA-HOURI, A., 1962. Programmes, Jeux et Rseaux de Transport. Paris: Dunod. BERQU, E. S.; SOUZA, J. M. P. & GOTLIEB, S. L. D., 1984. Bioestatstica. So Paulo: E.P.M.. BISHOP, Y.; FINBERG, S. & HOLLAND, P., 1975. Discrete Multivariate Analysis. Cambridge: MIT Press. BRESLOW, N. E. & DAY, N. E., 1980. Statistical Methods in Cancer Research v.1 - The Analysis of Case-Control Studies. IARC scientific publication no 32, Lyon, International Agency for Research on Cancer. , 1987, Statistical Methods in Cancer Research v.2 - The Design and Analysis of Cohort Studies. IARC scientific publication no 82, Lyon, International Agency for Research on Cancer. BRESLOW, N. E. & ENSTROM, J. E., 1974. Geographic correlations between cancer mortality rate and alcohol-tobacco consumption in the United States. Journal of the National Cancer Institute, 53: 631-639. BROWNER, W. S. & NEWMAN, T. B., 1987. Are all significant "p" values created equal? The analogy between diagnostic tests and clinical research. Journal of the American Medical Association, 257: 2459-2463.

RESUMO

SZWARCWALD, C. L. & CASTILHO, E. A. de Os Caminhos da Estatstica e suas Incurses pela Epidemiologia. Cad. Sade Pbl., Rio de Janeiro, 8 (1): 05-21, jan/abr, 1992. Neste trabalho, contempla-se o desenvolvimento da Estatstica, desde suas origens probabilsticas at os atuais modelos de "dependncia" no tempo e no espao. Avalia-se a evoluo do mtodo quantitativo na abordagem epidemiolgica, como tambm procura-se estabelecer limites das tcnicas estatsticas habituais, discutindo-se suas suposies tericas e sua adequao ao tratamento analtico das informaes. Enfatizam-se a importncia do desenvolvimento e/ou generalizao de procedimentos que possam ajudar a superar as dificuldades metodolgicas ainda encontradas em diversos estudos de inferncia causal em Epidemiologia. Palavras-Chave: Estatstica; Estatstica Aplicada; Histria da Estatstica; Bioestatstica; Relaes Estatstica/Epidemiologia

GREEN, P. E., 1978. Analysing Multivariate Data. CASTILLO-CHAVEZ, C. (Ed.), 1989. Mathematical and Statistical Approaches to AIDS EpidemioHinsdale, Illinois: The Dryden Press. logy. Berlin: Springer-Verlag. GREENLAND, S., 1988. On sample-size and power CLIFF, A .D. & HAGGET, P., 1979. Geographical calculations for studies using confidence interaspects of epidemic diffusion in closed commuvals. American Journal of Epidemiology, 128: nities. In: Statistical Applications in the Spatial 231-237. Sciences (N. Wrigley, ed.), pp. 5-44, London: HABERMAN, S. J., 1978. Analysis of Qualitative Pion Limited. Data. New York Academic Press. CLIFFORD, P.; RICHARDSON, S. & HEMON, D., HAMMOND, R. & MC CULLAGH, P. S., 1978. 1989. Assessing the significance of the correlaQuantitative Techniques in Geography: an tion between two spatial processes. Biometrics, Introduction. Oxford: Clarendon Press. 45: 123-134. HILL, A. B., 1965. Principles of Medical Statistics. COCHRAN, W. G., 1953. Sampling Techniques. New York: Oxford University Press. New York: John Wiley & Sons. HOEL, P. G.; PORT, S. C. & STONE, C. J., 1971. COSTA, D. C. (Org.), 1990. Epidemiologia Teoria Introduction to Probability Theory. Boston: e Objeto. So Paulo: Hucitec/Abrasco. Houghton Mifflin Company. COOK, D. G. & POCOCK, S. J., 1983. Multiple HOEL, P. G., 1980. Estatstica Matemtica. Rio de regression in geographic mortality studies with Janeiro: Editora Guanabara Dois. allowance for spatially correlated errors. HOSMER, D. W. & LEMESHOW, S., 1989. Applied Biometrics, 39: 361-371. Logistic Regression. New York: John Wiley & COSTNER, H. L., 1965. Criteria for measures of Sons. association. American Sociological Review, 30: HOTELLING, H., 1951. The impact of R. A. Fisher 341-353. on statistics. Journal of the American Statistics COX, D. R., 1970. Analysis of Binary Data. London: Association, 46: 35-46. Methuen. HUFF, D., 1954. How to Lie with Statistics. New DANIELS, H. E., 1944. The relation between measYork W. W. Norton. ures of correlation in the universe of sample IOSIFESCU, M. & TAUTU, P., 1973. Stochastic permutations. Biometrika, 33: 129-135. Processes and Applications in Biology and MediDAVIS, F. N., 1955. Dicing and Gaming (a note on cine. New York: Springer-Verlag. the history of probability). Biometrika, 42: JEFFREYS, H, 1948. Theory of Probability. 2nd ed., 1-15. Oxford: Clarendon Press. DEMO, P., 1989. Metodologia Cientfica em CinJOHNSTON, R. J., 1978. Multivariate Statistical cias Sociais. So Paulo: Editora Atlas. Analysis in Geography. London: Longman. DRAPER, N. R. & SMITH, H., 1966. Applied KENDALL, M. G., 1956. Studies in the history of Regression Analysis. New York: John Wiley & probability and statistics: II. Biometrika, 43: Sons. 1-14. FELLER, W., 1968. An Introduction to Probability KNEKT, P.; REUNANEN, A.; AROMAA, A.; Theory and Its Applications. 3rd edition, New HELIOVAARA, M. & HAKAMA, M., 1988. York: John Wiley & Sons. Serum cholesterol and risk of cancer in a cohort FERGUNSON, T. S., 1967. Mathematical Statistics of 39,000 men and women. Journal of Clinical (a decision theory approach). New York: AcaEpidemiology, 41: 519-530. demic Press. LAURENTI, R.; JORGE, M. H. P. M.; LEBRO, FISHER, R. A., 1956. Statistical Method and ScienM. L. & GOTLIEB, S. L. D., 1985. Estatsticas tific Inference. Edinburgh: Oliver and Boyd. de Sade. So Paulo: Editora Pedaggica e UniFLEISS, J. L., 1973. Statistical Methods for Rates & versitria Ltda. Proportions. New York: John Wiley & Sons. LEHMANN, E. L., 1959. Testing Statistical HypothGOLDBERG, M., 1990. Este obscuro objeto da Epidemiologia. In: Epidemiologia Teoria e eses. New York: John Wiley & Sons. Objeto (D. C. Costa, org.), pp. 87-136, So LI, C. C., 1975. Path Analysis-a Primer. Pacific Paulo: Hucitec Grove, California: The Boxwood Press. Abrasco LINDLEY, D. V., 1957. A statistical paradox. GOODMAN, L. A., 1979. Simple models for the Biometrika, 44: 187-192. analysis of association in cross-classification LOWY, M., 1991. Ideologias e Cincia Social having ordered categories. Journal of the AmeriElementos para uma Anlise Marxista. So can Statistics Association, 74: 537-552. Paulo: Cortez Editora.

MORGENSTERN, H., 1982. Uses of ecologic analysis in epidemiologic research. American Journal of Public Health, 72: 1336-1344. MORGENSTERN, H., 1989. Epidemiologic Methods, class notes (Mimeo.). NARAYAN BHAT, U., 1972. Elements of Applied Stochastic Processes. New York: John Wiley & Sons. NEUTS, M. F., 1973. Probability. Boston: Allyn and Bacon Inc.. NUNES, E. D. (Org.), 1985. As Cincias Sociais em Sade na Amrica Latina: tendncias e perspectivas. Braslia: OPAS. OAKES, M., 1990. Statistical Inference. Chestnut Hill, MA: Epidemiology Resources Inc. OPENSHAW, S. & TAYLOR, P. J., 1979. A million or so correlation coefficients: three experiments on the modifiable areal unit problem. In: Statistical Applications in the Spatial Sciences (N. Wrigley, ed.), pp. 128-144, London: Pion Limited. ORGANIZAO MUNDIAL DA SADE, 1978. Classificao Internacional de Doenas, Leses e Causas de bitos: 9a reviso. Vol. 1. So Paulo, Centro da OMS para classificao de doenas em Portugus. PIANTADOSI, S.; BYAR, D. P. & GREEN, S. B., 1988. The ecological fallacy. American Journal of Epidemiology, 127: 893-900. PHILLIPS, L. D., 1973. Bayesian Statistics for Social Scientists. London: Nelson. POLLARD, A. H. ; YUSUF, F, & POLLARD, G. N., 1974. Demographic Techniques. Sydney: Pergamon Press. RANKIN, B., 1966. The history of probability and the changing concept of the individual. Journal of the History of Ideas, 27: 483-504. RAO, C. R., 1973. Linear Statistical Inference and Its Applications. New York: John Wiley & Sons. RAUBERTAS, R. F., 1988. Spatial and temporal analysis of disease occurrence for detection of clustering. Biometrics, 44: 1121-1129. REMINGTON, R. D. & SCHORK, M. A., 1970. Statistics with Applications to the Biological and Health Sciences. Englewoods Cliffs, New Jersey: Prentice-Hall. RICHARDSON, S.; STUCKER, I. & HEMON, D., 1987. Comparison of relative risks obtained in ecological and individual studies: some methodological considerations. International Journal of Epidemiology, 16: 111-120. ROBINSON, W. S., 1950. Ecological correlations and the behavior of individuals. American Sociological Review, 15: 351-357.

SABROZA, P. C., 1990. Prefcio. In: Epidemiologia Teoria e Objeto ( D. C. Costa, org.), pp. 7-10, So Paulo: Hucitec/Abrasco. SAVAGE, L. J., 1954. The Foundations of Statistics. London: Routledge and Kegan Paul. SEARL, S. R., 1971. Linear Models. New York: John Wiley & Sons. STEEL, R. G. D. & TORRIE, J. H., 1981. Principles and Procedures of Statistics (a biometrical approach). Singapore: Me Graw-Hill. SUSSER, M., 1985. Epidemiology in the United States after World War II: the evolution of technique. Epidemilogic Reviews, 7: 147-177. TANGO, T., 1984. The detection of disease clustering in time. Biometrics, 40: 15-26. UK NATIONAL CASE-CONTROL STUDY GROUP, 1989. Oral contraceptive use and breast cancer risk in young women. The Lancet, May 6: 973-982. WALKER, H. M., 1958. The contributions of Karl Pearson. Journal of the American Statistics Association, 53: 11-27. WOLFOWITZ, J., 1952. Abraham Wald, 1902-1950. Annals of Mathematical Statistics, 23: 1-13. YULE, G. U. & KENDALL, M. G., 1950. An Introduction to the Theory of Statistics. London: Charles Griffin.

Você também pode gostar