Você está na página 1de 17

ANÁLISE / ANALYSIS

Os Caminhos da Estatística e suas Incursões


pela Epidemiologia
The Paths of Statistics and its Incursions through Epidemiology
Celia L. Szwarcwald1
Euclides A. de Castilho1

SZWARCWALD, C. L & CASTILHO, E. A. de The Paths of Statistics and its Incursions


through Epidemiology. Cad. Saúde Públ., Rio de Janeiro, 8 (1): 05-21, jan/mar, 1992.
In this paper the development of Statistics is contemplated from its probabilistic fundamentals
until the current studies of time and space "dependence". Some applications of the quantitative
method in the epidemiologic approach are evaluated. An attempt is made to establish some
limits to the current statistical techniques through the discussion of theoretical assumptions and
their adequacy to analyse empirical data. The development (or generalization) of new
procedures that could possibly help to overcome methodological difficulties that are still found
in various analysis of causal inference in Epidemiology is emphasized.
Keywords: Statistics; Applied Statistics; History of Statistics; Biostatistics;
Statistics/Epidemiology Relationships

O DESENVOLVIMENTO DA ESTATÍSTICA pela inteligência, era incapaz de apreender


todas as causas de ocorrência dos eventos e
A História da Probabilidade suas possíveis interações simultâneas (Neuts,
1973).
O homem traz consigo a idéia de "chance" Os primeiros problemas de probabilidade
desde os mais remotos tempos. Evidências aparecem no período da Renascença e relacio-
estão nos jogos de aposta, referenciados em nam-se apenas aos jogos de azar. As soluções
toda a história da humanidade, e nos "instru- da "geometria do dado" são apresentadas por
mentos da sorte", encontrados em sítios arqueo- matemáticos franceses no século XVII, desta-
lógicos de grande antiguidade. Imagina-se que cando-se particularmente Blaise Pascal e Pierre
a noção intuitiva de probabilidade estaria Fermat (Davis, 1955; Kendall, 1956). Utilizan-
presente no curso dos jogos, influenciando o do elementos de análise combinatória no cálcu-
apostador nas suas estratégias e decisões lo de probabilidades, Jakob Bernouilli dá
(Davis, 1955). No entanto, até meados do continuidade a esses estudos. Entre suas contri-
século XVI, a grande maioria dos pensadores buições, sobressaem-se a distribuição que leva
negava a existência da "chance" nos fenômenos seu nome e a "lei fraca dos grandes números",
naturais. Mesmo diante do seu reconhecimento, mais conhecida como "tentativas independentes
era excluída como objeto do discurso racional. de Bernouilli" (Neuts, 1973).
Aristóteles identificava "chance" como "a
classe de tudo que é indefinido, inescrutável ao O desenvolvimento do pensamento probabi-
intelecto humano". Na mesma linha de pensa- lístico moderno está, sem dúvida, estreitamente
mento, séculos mais tarde, o mistério da relacionado à ascensão do método empírico nas
"chance" ainda era explicado como uma defi- pesquisas científicas. Revolucionando o pensa-
ciência de nosso conhecimento, que, limitado mento de sua época, Francis Bacon, ao final do
século XVn, enfatiza o papel da experiência
no processo de geração do conhecimento e
1
Fundação Oswaldo Cruz. Avenida Brasil, 4365, Rio de propõe a indução como método de investigação
Janeiro, RJ, 21045, Brasil. (Demo, 1989). A necessidade de expressar o
grau de incerteza na ocorrência dos experimen- à teoria dos processos estocásticos, cuja ampli-
tos e de explicar o fato de duas experiências tude e variedade de aplicações parecem ser
iguais poderem ter resultados diferentes leva ao inesgotáveis (Narayan Bhat, 1972).
reconhecimento da racionalidade probabilística
em eventos da natureza. A pesquisa em proba- O Objeto da Estatística Através do Tempo
bilidade no século XVIII culmina com o notá-
vel trabalho de Pierre-Simon de Laplace, A palavra "estatística" é derivada de status,
"Theorie Analitique de Probabilités". À luz da em latim, e significa, na sua origem, o "estudo
concepção do cientificismo, rapidamente am- do estado". Inicialmente, no século XVI, pensa-
plia-se o domínio de abrangência do cálculo da pelos ingleses como uma ciência política,
probabilístico. Este torna-se indispensável para destinava-se a descrever características de um
lidar com dados relativos a temas de interesse país, tais como população, área, riquezas e
social e econômico, como administração das recursos naturais (Laurenti et al., 1985; Yule &
finanças públicas, saúde coletiva, conduta de Kendall, 1950). Deste papel histórico, origina-
eleições e seguro de vida. Surgem as primeiras se a sua função de caracterização numérica de
idéias do positivismo e Condorcet propõe uma uma série de informações populacionais. Com
"ciência natural da sociedade", isto é, uma esta abordagem, o termo é utilizado no plural,
"matemática social" baseada no cálculo das como as "estatísticas de saúde", as "estatísticas
probabilidades (Lowy, 1991). de mortalidade", as "estatísticas do registro
De Laplace até o início do século XX, pouco civil", entre outras (Berquó et al., 1984; Yule
se acrescenta à teoria das probabilidades. Os & Kendall, 1950).
raros avanços estão principalmente relacionados Os estudos desenvolvidos por Pierre-Simon
ao desenvolvimento de técnicas estatísticas e à de Laplace e Carl Friedrich Gauss, no início do
análise de erros experimentais (Neuts, 1973). século XIX, transformam a concepção da Esta-
Durante a primeira metade do século XX, a tística. Com a visão de uma teoria dos erros,
preocupação dominante da pesquisa matemática passa a ser amplamente aplicada a dados
é com o tratamento abstrato e a axiomatização experimentais (Yule & Kendall, 1950). Siste-
de vários de seus ramos. Após a descoberta de matiza-se a análise dos desvios em relação à
Komolgorov, em 1903, de que a probabilidade média em medidas repetidas de uma quantida-
poderia ser considerada uma "medida" (em de. São elaborados conceitos da teoria da
termos matemáticos), os vagos fundamentos estimação, como o método de mínimos quadra-
teóricos são reformulados sob um outro refe- dos por Gauss, e o primeiro intervalo de con-
rencial, a "teoria das medidas", bem mais fiança , em 1812, em um trabalho de Laplace
poderoso conceitualmente (Ash, 1972). (Lehmann, 1959) [Apesar de sua dedução
Destacam-se como contribuições da moderna correta, o autor considerava o parâmetro como
concepção a "lei forte dos grandes números" e uma variável ao atribuir-lhe a probabilidade de
a demonstração do "teorema do limite central", recair no intervalo. A interpretação apropriada
por J. W. Lindeberg, em 1922 (Feller, 1968). data de um século mais tarde, devida a E. B.
No que diz respeito ao campo aplicativo, Wilson, em 1927, e H. Hotelling, em 1931
pouco a pouco os modelos determinísticos são (Lehmann, 1959). Desafortunadamente, até os
substituídos pelos probabilísticos e tornam-se dias presentes, com muita freqüência, o concei-
habituais no estudo de diferentes fenômenos. to é erradamente aplicado].
Introduzida inicialmente na teoria da dinâmica Na segunda metade do século XIX, a teoria
dos gases, a teoria das probabilidades desempe- estatística passa a ser enunciada a partir de
nha, hoje, papel importante na física quântica generalizações das propriedades observadas em
e invade os domínios da teoria atômica (Neuts, amostras grandes. São pesquisadas famílias de
1973). funções matemáticas que se aproximem das
Em anos mais recentes, a pesquisa na área de distribuições de freqüências empíricas (Steel &
probabilidades tem se concentrado no estudo da Torrie, 1981). Na Alemanha, prioriza-se o
"dependência". A generalização dos processos estudo pelo coletivo, originando-se os princí-
de Poisson e das cadeias de Markov dá origem pios da Estatística Descritiva, ramo da Estatísti-
ca que tem a função de organizar os dados, construção dos mecanismos de chance, ou dos
resumindo-os numa série de medidas, gráficos modelos estocásticos dos fenômenos. Esta idéia
e tabelas para enfatizar as características essen- é explicitamente expressa por Émile Borel: "O
ciais do conjunto (Rankin, 1966). Nomes de problema básico da estatística matemática é
destaque desta época são os de Francis Galton inventar um sistema de simples mecanismos de
e Karl Pearson. O primeiro, por meio de expe- chance, tais que as probabilidades determinadas
rimentos em Genética, estuda a distribuição por este sistema concordem com as freqüências
normal bivariada, propõe o coeficiente de relativas observadas dos vários detalhes do
correlação como medida de associação e desco- fenômeno estudado" (Rankin, 1966). No decor-
bre algumas características das distribuições rer do século XX, o campo indicado pela
condicionais, como a regressão linear e a definição de Borel cresce em importância,
homoscedasticidade (Anderson, 1958). Por sua concomitante à produção de considerável
vez, Karl Pearson desenvolve a teoria e a apli- literatura em processos estocásticos, constituin-
cação de diferentes tipos de correlação à pes- do-se, atualmente, em um dos capítulos da
quisa biológica. Seus estudos concentram-se na teoria das probabilidades (Feller, 1968).
procura de distribuições teóricas, publicando,
em 1900, a famosa estatística qui-quadrado Inferência Estatística: um Produto
para o teste de adequação dos dados às distri- do Século XX
buições de probabilidades. É fundador da
revista Biometrika e de uma escola de Estatísti- Enquanto a concepção estatística dos siste-
ca, vindo estimular a produção de novos conhe- mas de mecanismos de chance caía em proces-
cimentos na área (Walker, 1958). so de desuso, esforço crescente era atribuído
aos problemas de estimação e à dedução das
Um aluno de Karl Pearson, de nome William
distribuições de probabilidades, sobressaindo-se
S. Gosset, dedica-se ao estudo de pequenas
notavelmente a obra de Ronald A. Fisher
amostras e das distribuições do desvio-padrão,
(Hotelling, 1951). São devidas a ele várias
da razão entre a média e o desvio padrão e do
contribuições de uso atual e amplamente divul-
coeficiente de correlação amostral. Seus resul-
gadas, entre elas o método da estimação por
tados são divulgados na Biometrika, em 1908,
máximo-verossimilhança e a distribuição da
sob o pseudônimo de Student, porque, por
razão entre variâncias, denominada posterior-
razões contratuais de trabalho, suas publicações
mente por G. W. Snedecor distribuição "F", em
não podiam ser individualizadas (Steel &
sua homenagem (Remington & Schork, 1970).
Torrie, 1981).
Fundamentando-se no princípio da aleatori-
Por outro lado, problemas conceituais apre- zação à experimentação agrícola, Fisher desen-
sentados pelo matemático alemão Wilhelm volve as bases dos "desenhos de experimentos".
Lexis colocam em questionamento, na mesma Problemas de classificação em Botânica o
época, o interesse apenas pelo coletivo. Ao levam à proposição da função discriminate,
estudar anualmente a razão de sexo no nasci- em 1936. No livro clássico de C. Radhakrishna
mento, através de estatísticas vitais, Lexis Rao, há mais de vinte citações referentes à sua
mostra, por meio de resultados empíricos, a autoria de procedimentos de estimação e análi-
consistência da suposição de que a determi- se (Rao, 1973).
nação do sexo é governada por um simples Simultaneamente aos progressos na teoria da
mecanismo de chance, como o procedimento estimação, o pensamento estatístico da primeira
"cara-coroa". Isto renova o esforço à procura metade do século XI tem seu interesse voltado
de mecanismos de chance atuando nos indiví- à solução dos problemas de testes de hipóteses.
duos para produzir as observadas características Referências vagas à "significância" datam dos
coletivas (Rankin, 1966). Nos anos 20, George séculos XVIII e XIX. Em 1900, Karl Pearson
Polyá constrói um sistema de mecanismos de utiliza o conhecido teste qui-quadrado. Porém,
chance que pode gerar quase todas as distri- somente em 1928 são introduzidos os conceitos
buições propostas por Karl Pearson. O objeto de erro de primeira e segunda espécies, por
da Estatística move-se do estudo do coletivo à Jerzy Neyman e Egon S. Pearson. Primeiros a
reconhecer que a decisão de um teste deve Em procedimento tipicamente indutivo,
envolver considerações não só sobre a hipótese, chegando-se a conclusões sobre uma população
mas também sobre as alternativas, estes dois a partir do estudo de uma amostra, a técnica de
autores tiveram marcante influência nos rumos amostragem torna-se essencial. Surge o proble-
da Estatística contemporânea (Lehmann, 1959). ma de selecionar uma amostra, o mais repre-
Em meados dos anos 30, não fugindo ao sentativa da população total, diante das limi-
tratamento axiomático da Matemática a todos tações de custos e das possibilidades de perda
os seus ramos, é dada à Estatística nova formu- de precisão na estimativa dos parâmetros.
lação teórica. J. Neyman e E. S. Pearson apre- As técnicas de amostragem estão indis-
sentam a teoria da inferência estatística, em pensavelmente vinculadas ao nome de W.
1936, apta a considerar os testes de hipóteses G. Cochran, que as sistematizou em 1953
com a precisão e o rigor impostos pela Mate- (Cochran, 1953). Embora de freqüente emprego
mática moderna (Lehmann, 1959). De alta em investigações populacionais, nem sempre o
repercussão acadêmica, a teoria matemática de tratamento analítico dos dados é adequado ao
Neyman-Pearson vem a referendar o campo de tipo de procedimento utilizado para a seleção
pesquisa teórica, a Estatística Matemática, das unidades experimentais, resultando em
tratada como uma disciplina matemática na sérios vieses de interpretação. Com esta pers-
qual a probabilidade é a ferramenta básica pectiva, um seguro objeto de estudo da Estatís-
(Hoel, 1980). Os testes de hipóteses são apre- tica aplicada nos próximos anos será o desen-
ciados, à luz da teoria dos jogos, pioneiramen- volvimento de métodos de estimação e inferên-
te por Abraham Wald, em 1940. Reconhecendo cia compatíveis com as diferentes técnicas de
as vantagens do ponto de vista conceitual, amostragem. Vale insistir que esta questão não
estende a abordagem da teoria dos jogos, vem recebendo a devida consideração e são
originalmente proposta para aplicações em inúmeros os exemplos de inferências incorretas,
Economia, ao domínio estatístico. Assim gene- conseqüentes ao corriqueiro tratamento de que
ralizada, passa a ser denominada teoria da sempre está-se diante de amostras aleatórias
decisão (Fergunson, 1967). Utilizando a lingua- simples.
gem de jogos, o espaço dos parâmetros popula-
cionais a serem testados é o conjunto dos A Estatística Recente
possíveis resultados de um jogo, enquanto as
decisões estatísticas são as alternativas ou A partir dos anos 40, a pesquisa estatística se
estratégias do jogador. Busca-se a "melhor" volta para solucionar problemas envolvendo
opção através do conhecimento adquirido com variados aspectos da inferência, cada um tendo
informações pesquisadas por meio da experi- a sua aplicação a situações específicas. Os
mentação. A qualificação de "melhor" tem o testes de hipóteses para médias, variâncias e
sentido de minimizar a probabilidade de erro proporções, a teoria dos testes uniformemente
(a perda) conseqüente à decisão tomada mais poderosos, o processo de inclusão (ex-
(Fergunson, 1967). Outro grande legado de A. clusão) de variáveis nos modelos de regressão
Wald é a chamada análise seqüencial, muito são algumas das formas de inferência de uso
utilizada em problemas que envolvem controle consagrado (Rao, 1973).
de qualidade (Wolfowitz, 1952). Nesta mesma linha, encontram-se os "méto-
dos não paramétricos", mais apropriadamente
A Importância da Amostragem denominados "livres de distribuição". Cons-
tituem-se em testes de hipóteses cuja aplicação
A influência da inferência estatística extrava- independe dos pressupostos teóricos da estatís-
sa o plano teórico. A união da velha estatística tica paramétrica, inclusive no que diz respeito
à nova teoria probabilística amplia sobremanei- à distribuição da variável aleatória em estudo.
ra a sua aplicação à análise de dados empíri- Apesar de apresentarem as vantagens de supo-
cos. Agora é possível responder a questiona- sições teóricas mais flexíveis, os testes não
mentos relativos a parâmetros populacionais
k
paraméticos podem, por vezes, ser pouco
através de um pequeno subconjunto, a amostra. sensíveis, deixando passar desapercebidas
características quantitativas importantes das caso, a redução procede-se no número de
informações (Rao, 1973; Remington & Schork, objetos e não nas dimensões do espaço (Green,
1970). 1978).
Estimulada pelos seus campos de aplicação, De maneira bem resumida, o temário da
ao lado das facilidades de processamento análise multivariada pode ser assim subdividi-
introduzidas pela informática, a Estatística tem do: de mensuração da dependência entre variá-
enfatizado, ultimamente, o desenvolvimento veis; de analogia à inferência univariada; de
dos procedimentos multivariados. Classicamen- redução das dimensões do espaço; de classifi-
te baseados na distribuição multinomial, expan- cação e agrupamento das unidades experimen-
diram-se anos mais tarde também à função tais (Anderson, 1958). Tais métodos se pro-
multinomial (Anderson, 1958; Bishop, Finberg põem a analisar observações coletadas num
& Holland, 1975). O conceito matemático de corte de tempo. A interpretação corresponde,
"combinação linear" é introduzido para descre- assim, à imagem das observações num dado
ver as relações entre uma variável resposta e momento, sem apreender sua evolução tempo-
um conjunto de variáveis independentes ou ral.
explicativas. Entre os modelos mais conhecidos Sob a consideração de que a explicação de
estão os de regressão múltipla, análise de certos fenômenos envolve o estudo do seu
variância e covariância e a função discriminan- acompanhamento temporal, uma das vertentes
te. No caso de multiplicidade de respostas, as da pesquisa estatística atual objetiva a propo-
principais técnicas são as de correlação canôni- sição de modelos que incluam a possibilidade
ca, de discriminação de vários grupos e de de análise da "dependência no tempo". Neste
análises de variância e covariância multivaria- sentido, desenvolvem-se os modelos de séries
das (Green, 1978; Searl, 1971). temporais, com o reconhecimento explícito da
Nos anos 70/80, são propostos os modelos importância da seqüência das observações no
log-lineares para a análise de dados categóri- tempo. No caso de uma estrutura probabilística,
cos, onde os logaritmos das probabilidades dos isto é, as flutuações irregulares apresentarem
estados multinomiais são expressos como propriedades estatísticas de variabilidade, as
combinação linear de efeitos principais e de séries constituem-se em processos estocásticos.
interação entre os fatores (Bishop, Finberg & As informações sucessivas são dependentes das
Holland, 1975; Haberman, 1978). Capaz de anteriores, fazendo-se necessária a introdução
lidar com os dois tipos de variáveis indepen- de novos conceitos, como o de auto-correlação
dentes, contínuas e discretas, a regressão logís- para medir a dependência de observações
tica representa o logito da probabilidade condi- da mesma variável em tempos diferentes
cional do sucesso de uma resposta binaria (Anderson, 1971). Embora haja o reconhe-
como uma função linear (Cox, 1970). Embora cimento geral de sua importância, as séries
de formas diferentes, todos estes modelos temporais ainda possuem domínio restrito de
enfocam aspectos de explicação para uma aplicação. Sua utilização tem sido limitada à
variável considerada como dependente de interpretação de séries econômicas, com propó-
outras. Já os procedimentos multivariados de sitos predominantemente preditivos.
análise fatorial, componentes principais, análise Os estudos da dependência no tempo inspi-
de correspondências e análise de conglomera- ram os adeptos da Geografia Quantitativa às
dos têm abordagem diferente. A ênfase é dada análises da dependência no espaço. A produção
à análise de interdependência no conjunto total de métodos é acelerada graças à constatação
de variáveis (Green, 1978). Os três primeiros que as técnicas estatísticas convencionais,
são denominados redutores do espaço multi- baseadas na independência das unidades experi-
variado, pois têm o objetivo de representar as mentais, mostram-se impróprias ao tratamento
informações originais por meio de um número dos dados geográficos que exibem tipicamente
menor de variáveis que o considerado inicial- ordenação sistemática no espaço (Hammond &
mente. A análise de conglomerados também é McCullagh, 1978; Johnston, 1978). Dada a
um procedimento simplificador, porém, neste similaridade dos problemas de dependência nos
domínios do tempo e do espaço, muitos dos tese nula, enquanto pelo segundo existem boas
métodos de inferência temporal têm sido razões de se acreditar na igualdade (Lindley,
adaptados para análise das distribuições espa- 1957). Indaga-se, então, o porquê do uso
ciais. Entretanto, enquanto a medida de consagrado do nível de significância em papel
auto-correlação no tempo é um problema unidi- decisório. A resposta é dada também por
mensional, a interdependência entre obser- Lindley, que demonstra que para a suposição
vações espaciais pode ser multidimensional, da probabilidade a priori igual a 50%, o para-
resultando em questões bem mais complexas e doxo só vem a ocorrer para amostras relativa-
ainda não de todo resolvidas (Hammond & mente grandes (Lindley, 1957). O problema
McCullagh, 1978). Mais recentemente, a articu- trazido à compreensão dos usuários da área de
lação do interesse econométrico na dependência saúde é muito bem examinado por Browner e
temporal e do geográfico na dependência Newman (Browner & Newman, 1987). A
espacial origina a elaboração de séries espaço- analogia é feita a um teste de diagnóstico cujos
temporais que incluem parâmetros que variam resultados podem ser positivos ou negativos. A
em ambos os domínios (Cliff & Hagget, 1979; veracidade das hipóteses nula e alternativa
Raubertas, 1988; Tango, 1984). correspondem à ausência e à presença da
doença,respectivamente. A probabilidade de
O Paradoxo Estatístico rejeição da hipótese nula quando ela é verda-
deira (o nível de significância) é relacionada à
Embora de uso amplamente estabelecido, a falso-positividade, enquanto o poder do teste, à
teoria preconizada por J. Neyman e E. S. sensibilidade. Como nos testes de diagnóstico,
Pearson é até hoje geradora de controvérsias. os autores apontam as vantagens da análise
Muitos estatísticos de renome, desde a elabo- bayesiana na interpretação dos resultados,
ração conceitual dos testes de hipóteses, ques- baseados nos seguintes fatos: os valores do
tionam a validade do estabelecimento de um nível de significância descritivo ("p") podem
nível de significância como forma de decisão ser maiores do que 5%, mas produzirem valo-
(Rao, 1973). Os debatedores argumentam que res preditivos sugestivos de que a hipótese nula
a decisão estatística é tomada sem levar em é falsa; os valores de "p" podem ser menores
consideração a probabilidade a priori da hipó- do que 5%, mas não se mostrarem aptos a
tese nula (Fisher, 1956; Jeffreys, 1948; Savage, estabelecer a veracidade da hipótese alternativa.
1954). Desde a avaliação crítica da teoria de
A contradição entre o procedimento de Neyman-Pearson, propostas alternativas têm
inferência e a existência de uma distribuição a sido elaboradas para o tratamento dos testes de
priori da hipótese nula fica evidente no traba- hipóteses, constituindo-se nas denominadas
lho de Lindley, denominado pelo próprio autor escolas de inferência estatística (Oakes, 1990).
como o "paradoxo estatístico" (Lindley, 1957). Entre as principais está a fisheriana, cuja
Por meio do teste habitual para a média de argumentação é baseada na probabilidade
uma distribuição normal, considerando uma fiducial e que também tem sido sujeita a diver-
amostra aleatória de tamanho "n", Lindley sas objeções (Rao, 1973). O desenvolvimento
demonstra que um determinado valor de "n" da escola bayesiana, em época mais recente,
pode ser sempre encontrado tal que: expõe novamente ao debate os fundamentos da
a) O valor da média é significativamente inferência estatística (Phillips, 1973).
diferente ao proposto na hipótese nula ao nível
de a %; As Ilusões da Estatística
b) A probabilidade a posteriori de que a hipó-
tese nula é verdadeira é (100 - a )%. As estatísticas há muito ultrapassaram o
Este é o paradoxo. Sendo a pequeno, por domínio da ciência. Utilizadas por toda parte,
exemplo 5%, a interpretação do primeiro são muitas vezes enganosas, dependendo do
resultado é decidir que a média é significativa- propósito com que estão sendo abordadas.
mente diferente do valor especificado na hipó- Apresentadas pela mídia na intenção de impres-
sionar o espectador, são calculadas freqüente- Medicine. O estudo teve o objetivo de determi-
mente de maneira inadequada. É o caso, por nar os métodos estatísticos utilizados e se
exemplo, da taxa de acidentes de trânsito fatais estavam sendo apropriada e corretamente
dada por unidade de tempo e não pelo número aplicados. Em uma análise de mais de mil
de habitantes da população. artigos publicados na revista, mostrou-se o uso
Muitas vezes, com propósitos de mascarar insuficiente das técnicas multivariadas e da
certos aspectos das informações, as medidas de modelagem estatística; que o poder dos testes
tendência central são escolhidas intencional- de hipóteses foi apresentado em somente 2%
mente. São os casos clássicos do emprego da dos trabalhos analisados; e a necessidade de
mediana, quando não se deseja levar em consi- maior divulgação das técnicas estatísticas para
deração os valores extremos das observações, a seleção mais adequada do método de análise
e da média geométrica, para produzir um (Bailar & Mosteller, 1986).
indicador de menor magnitude que o aritmeti- No que concerne à utilização da Estatística
camente calculado. Um fato que ficou conheci- para demonstração de uma hipótese por meio
do no Brasil, no governo Figueiredo, em 1983, da experimentação, é preciso ressaltar que a
foi a decisão de que o índice nacional de estatística não "prova" nada. Através de seus
preços ao consumidor (INPC) passaria a ser procedimentos descritivos, estimadores e infe-
estimado como média geométrica dos seus renciais, ela apenas auxilia o pesquisador a
componentes, produzindo, desta forma, um tomar uma decisão. Um dos grandes mitos da
número (ilusoriamente) mais baixo do que Estatística é o nível de significância descritivo
aqueles anteriormente usados. do teste, o valor de "p". A ele atribui-se tanto
Artifícios de representação também podem o papel de demonstrador matemático-empírico
ser realizados através de procedimentos gráfi- como o de destruidor de teorias, sem que sejam
cos. Para enfatizar uma tendência crescente em observados o tamanho da amostra, o poder do
um sistema cartesiano, basta comprimir a teste ou a probabilidade a posteriori da hipóte-
escala horizontal e ampliar a vertical que a se nula ser verdadeira (Greenland, 1988).
visão de aclive será muito mais acentuada Desde que as estatíticas de decisão são função
(Remington & Schork, 1970). A este respeito, crescente do número de observações, quanto
Huff apresenta diversas situações que condu- maior o tamanho da amostra, maior a probabi-
zem a enganos de interpretação (Huff, 1954). lidade de rejeição da hipótese. Sendo assim, as
Contudo, a estimativa de estatísticas de formulações das hipóteses nula e alternativa é
maneira incorreta nem sempre é intencional, que devem governar o delineamento da investi-
ocorrendo, em algumas ocasiões, por falhas nas gação, o tamanho da amostra e o procedimento
informações em que são baseadas. Diante do de coleta das informações. Esses, por sua vez,
desconhecimento da existência de subenume- conduzem à escolha do método adequado de
ração do número de nascidos vivos nos censos análise.
decenais, por exemplo, a taxa de natalidade do Todavia, ainda que toda a análise quantitativa
Brasil seria subestimada se calculada a partir tenha sido procedida corretamente, os resulta-
dos dados censitários publicados pela FIBGE. dos devem ser sujeitos à contemplação cautelo-
Vieses de interpretação na investigação sa. Embora significativos estatisticamente,
científica são também raramente propositais. podem não seguir nenhuma lógica de expli-
Decorrem, geralmente, pelo desenho inapro- cação. A Estatística não é a "benção final" das
priado do experimento, inadequação do método evidências encontradas na pesquisa. Pelo con-
de análise ou pela superficialidade na expli- trário, o maior poder da metodologia estatística
cação dos resultados. Vários periódicos médi- reside em tirar dos dados o seu máximo poten-
cos apresentam artigos de revisão sobre traba- cial de informação. Acredita-se que os procedi-
lhos publicados que contêm aplicação de mentos descritivos do comportamento de cada
técnicas estatísticas a estudos clínicos. Uma variável e a compreensão da estrutura de
ampla pesquisa, por exemplo, foi organizada interdependência, constituindo-se no que se
pelos editores do New England Journal of chama "o entrar nos dados", em permanente
referência à natureza do objeto em estudo, são classificá-las com uniformidade internacional
os passos mais importantes na análise interpre- (OMS, 1978).
tativa dos resultados de um experimento. Desde Farr até os dias de hoje, vários indica-
dores e procedimentos de análise foram desen-
volvidos com o objetivo de traçar o perfil
A ESTATÍSTICA NA EPIDEMIOLOGIA nosológico de uma população. Atualmente, esta
tarefa é de competência da Estatística Demó-
As Estatísticas Demógrafo-Sanitárias grafo-Sanitária, mais conhecida como Estatísti-
ca Vital, embora esta última denominação não
O sistema atual de registro civil é resultante esteja de acordo com a definição das Nações
de um processo evolutivo que se inicia com a Unidas, que lhe atribui somente o tratamento
transcrição de dados de batizados, enterros e dos eventos vitais (Laurenti et al., 1985). De
casamentos pelo clero nos registros paroquiais certa forma, constitui-se na estatística descritiva
(Laurenti et al., 1985). Em princípios do século da saúde, tendo a função de construir medidas
XVI, em função da epidemia da peste, os numéricas que caracterizem séries de dados
registros de mortes semanais tornam-se obriga- vitais (nascimentos, óbitos e perdas fetais) e de
tórios em Londres. Aos poucos, óbitos por informações relativas a doenças e a serviços
outras causas também são incluídos e o sistema (Laurenti et al., 1985). A construção dos indi-
é estendido a todas as paróquias da Inglaterra cadores de saúde a partir de dados secundários
(Pollard et al., 1974). Transformados em séries está relacionada à qualidade dos sistemas de
mais regulares no século seguinte, fundamen- informações. Muitas vezes incompletos e
tam os estudos de John Graunt, primeiro a descontínuos, não permitem um adequado
perceber a importância da análise quantitativa tratamento estatístico dos dados.
dos eventos vitais. Na publicação Observations Os vínculos com a Demografia permanecem
upon the bills of mortality, em 1662, Graunt estreitos. Em primeiro plano, manifestam-se
introduz o princípio da razão de regularidade pelo interesse mútuo nos aspectos dinâmicos
estatística, observa uma razão de sexo ao das sociedades (fecundidade, mortalidade e
nascimento constante, reconhece padrões sazo- migração) e naqueles relativos à composição
nais e diferenças urbano-rurais no comporta- das populações segundo sexo, idade, situação
mento das taxas brutas de mortalidade e tem o de domicílio, entre outros. Em segundo, pela
mérito de construir a primeira tábua de vida. necessidade de desenvolvimento de técnicas
William Petty converte seu trabalho nas bases demográficas, quer seja para estimativas de
da "aritmética política", que pouco a pouco denominadores das taxas de morbi-mortalidade,
passa a ser conhecida como Demografia quer seja para mensuração indireta de indicado-
(Laurenti et al, 1985; Pollard et al., 1974). res em populações com sistemas de registro
Somente a partir do século XIX, quando a incompletos.
responsabilidade do registro dos eventos vitais No que diz respeito à abordagem conceitual,
transfere-se da Igreja para o Estado e estabele- o interesse atual tem sido na proposição de
ce-se, de forma legal, a sua obrigatoriedade em indicadores mais sensíveis à percepção da
vários países, são impulsionados os estudos saúde de uma população. Partindo do princípio
demográficos. Surgem também as primeiras de que a ausência de doença não implica
análises de morbidade na Inglaterra e nos necessariamente na presença de saúde, alguns
Estados Unidos, introduzindo-se a abordagem pesquisadores dedicam-se a tentativas de defi-
de doenças pelo método quantitativo (Barreto, nições de saúde no sentido positivo (Goldberg,
1990). Em 1839, William Farr, na função de 1990).
compilador do sistema oficial de registros na No tocante à metodologia de avaliação das
Inglaterra, estabelece a coleta sistemática de estatísticas demógrafo-sanitárias de uma popu-
informações sobre morbidade e mortalidade lação, a sua evolução num certo período de
(Laurenti et al., 1985). Primeiro estatístico tempo encontra instrumental nos procedimentos
médico, Farr faz uso do registro civil para o de séries temporais, que permitem a determi-
estudo de doenças e propõe uma forma de nação dos componentes de tendência, periodici-
dade e sazonalidade. Já a análise das distri- infecciosas. Surgem os modelos matemáticos
buições espaciais tem tido aproximações recen- contemplando o agente causal e os fatores
tes com os modelos utilizados pela Geografia ambientais relacionados à sua transmissão
Quantitativa e vem demonstrando interessantes (Barreto, 1990).
resultados (Breslow & Enstrom, 1974; Cook & Procurando novos caminhos para ampliar sua
Pocock, 1983). capacidade explicativa na determinação das
enfermidades, a Epidemiologia encontra na
A Epidemiologia e o Método inferência estatística o instrumental adequado
Indutivo Estatístico para o teste de suas hipóteses. A teoria da
decisão enquadra-se perfeitamente no espírito
O termo Bioestatística aparece primeiramente positivista do raciocínio epidemiológico da
em 1923, em substituição à expressão "estatísti- época, apresentando meios de "provar" empiri-
cas vitais" (Berquó et al., 1984). Tem hoje camente relações causais conjecturadas teorica-
significado mais abrangente e é considerada mente (Almeida Filho, 1989).
como a disciplina que trata da aplicação dos Nos anos 60, os avanços na informática
procedimentos estatísticos, descritivos e infe- permitem o processamento de grandes massas
renciais aos problemas biológicos (Remington de dados, estimulando a realização de inves-
& Schork, 1970). Sua aplicação às ciências tigações populacionais. Divulga-se o emprego
médicas é particularmente impulsionada por das técnicas multivariadas, que embora tives-
influência da publicação de Bradford Hill, sem sido deduzidas na década de 30, só agora
Principles of Medical Statistics, em 1937 podem ser usadas na prática. Surgem softwares
(Berquó et al., 1984). ditos próprios para o tratamento de informações
No que se refere à análise de dados epide- quantitativas das ciências sociais. Intensifica-se
miológicos, a história da utilização do método a aplicação dos modelos lineares à interpre-
indutivo quantitativo é estreitamente relaciona- tação das associações epidemiológicas. Fortale-
da à questão da causalidade e à forma com que cem-se os laços interdisciplinares, ocorre a
esta é tratada ao longo do tempo. Embora seja chamada "matematização da Epidemiologia"
atualmente uma das grandes fomentadoras da (Almeida Filho, 1989).
Bioestatística, a Epidemiologia só vem a adotá- A incapacidade interpretativa dos modelos
la como metodologia analítica em meados do determinísticos causais na explicação das
presente século, a partir da consagração da doenças crônicas, em predomínio nos países
teoria de multicausalidade (Barreto, 1990). industrializados, conduz os epidemiologistas à
A abordagem de associações entre fatores elaboração de novas propostas conceituais e
ambientais e doença aparece desde o século metodológicas. À luz do conceito de risco, ao
XIX. Vários pesquisadores, naquela época, invés do determinismo do efeito, passa a ser
além da caracterização quantitativa da situação avaliada a probabilidade de ocorrência da
de saúde de populações selecionadas, analisa- doença. São formulados desenhos de estudos
vam comunidades quanto às suas condições de alternativos que solicitam procedimentos esta-
saneamento, moradia, ocupação e nutrição tísticos específicos (Breslow & Day, 1980;
(Susser, 1985). Breslow & Day, 1987). Para cada delineamento
Mas as investigações em populações tiveram experimental, são criadas técnicas de estimação
seu desenvolvimento enfraquecido nas primei- e análise, a regressão linear é trocada pela
ras décadas do século XX. A "teoria do germe" logit-linear, a produção de programas para
que se impôs sobre a "teoria miasmática" microcomputadores é acelerada.
adotou o critério laboratorial como o único Nos países centrais, proliferam estudos
válido para a verificação das hipóteses de dispendiosos, com amostras enormes para
unicausalidade (Barreto, 1990; Susser, 1985). A possibilitar o controle de inúmeras variáveis
quantificação adquire novamente papel impor- intervenientes. Em ocasiões não raras, entretan-
tante a partir dos progressos obtidos na con- to, a estimativa do risco não se diferencia
cepção da multicausalidade para doenças expressivamente da unidade, ao ponto de se
acreditar convictaniente na decisão inferencial probabilístico, tem o propósito de enfatizar o
de rejeição da hipótese nula. Ao não se conse- aspecto aleatório da ocorrência dos fenômenos,
guir realizar a distinção entre os significados em constraste com as antigas formulações
estatístico e epidemiológico da associação, a determinísticas. Estas, contudo, são legítimas
conduta adotada é a de repetição do experimen- no caso de populações grandes, quando pode-se
to para, somente à evidência de respostas assumir que as flutuações estatísticas são
semelhantes, estabelecê-la como verdadeira suficientemente pequenas para serem ignoradas,
(Knekt et al., 1988; UK National Case-Control além de considerar-se útil a sua abordagem,
Study Group, 1989). Muito esforço é consumi- anterior à probabilística, pela sua capacidade
do para a produção relativamente pobre de explicativa à dinâmica do processo (Bartlett,
conhecimentos. 1960).
No decorrer das últimas décadas, os paradig- De maneira formal, um modelo estocástico é
mas da pesquisa epidemiológica têm sido aquele que especifica a distribuição de probabi-
expostos a intensos debates. O estabelecimento lidades de uma variável (vetor) aleatória (o)
da causalidade através dos modelos tradicionais sobre uma classe de situações de interesse em
vem sendo colocado em questionamento, cada ponto do tempo. A sucessão de estados ou
principalmente no que diz respeito à compre- de mudanças, concebida como contínua no
ensão dos problemas de saúde cujos determi- tempo, constitui-se no processo estocástico
nantes estão no interior das organizações (losifescu & Tautu, 1973). Dito estacionário
sociais (Sabroza, 1990). Esta situação, ampla- quando a sua estrutura probabilística é constan-
mente discutida por diversos autores da Améri- te no tempo, o seu estudo teórico constitui-se
ca Latina (Sérgio Arouca, Jaime Breilh e Asa num dos temas abordados pelos procedimentos
Cristina Laurell, entre outros), enfatiza o inade- de séries temporais, quando estas são geradas
quado tratamento de atributos coletivos como por um modelo subdividido em uma tendência
sendo passíveis de uma expressão individual determinística e uma parte aleatória com a
(Almeida Filho, 1989; Costa, 1990; Nunes, propriedade de invariância (Anderson, 1971).
1985). É curioso que este reducionismo na Em contraposição está o processo evolucioná-
prática se faz, na verdade, de modo mais rio, cuja primeira formulação matemática foi
acentuado, pois a quase totalidade dos estudos realizada por Francis Galton, no final do século
que se dizem capazes de lidar com a causalida- XIX, interessado particularmente na probabili-
de o fazem com base em procedimentos estatís- dade de extinção das famílias de nobre posição
ticos que assumem relações lineares (ou logit- na Inglaterra. Em 1924, G, Udny Yule deduz o
-lineares) entre as variáveis. "modelo puro de nascimentos-mortes" numa
população (losifescu & Tautu, 1973).
Os Processos Estocásticos Desde então, os processos estocásticos têm
sido utilizados para representar a evolução de
Já em princípios do século XX, a Epidemio- vários fenômenos biológicos, como o cresci-
logia buscava na Matemática a solução de seus mento de populações, migração, competição
modelos teóricos de multicausalidade de doen- entre espécies, flutuações na composição gené-
ças infecciosas. Ignoradas as variações randô- tica de populações (como mutação e seleção),
micas e baseando-se na consideração que o além dos sistemas fisiológicos de múltiplos
processo saúde-doença era governado apenas compartimentos e dos processos epidêmicos
por leis dinâmicas, surgem os modelos mate- (losifescu & Tautu, 1973).
máticos determinísticos para representação das Estes últimos têm sido de interesse perma-
epidemias (Bailey, 1964). nente para a explicação dos mecanismos de
Anos mais tarde, com a identificação de que transmissão de certas doenças (Bailey, 1964;
os eventos mórbidos são sujeitos à chance, Bartlett, 1960; Iosifescu & Tautu, 1973). O
paralelamente ao avanço na teoria das probabi- grau de complexidade dos modelos depende do
lidades, a modelagem é aperfeiçoada e passam número de categorias que compõem a popu-
a ser utilizados os processos estocásticos. O lação epidêmica, porém pelo menos dois com-
uso do adjetivo "estocástico", sinônimo de ponentes são sempre necessários, os infectados
e os suscetíveis, cujas relações determinam a Se há independência, a covariância é nula
dinâmica do processo. A intratabilidade mate- (Hoel et al., 1971). As primeiras medidas do
mática dos modelos mais sofisticados vem grau de dependência entre duas variáveis
sendo superada por procedimentos de simu- aleatórias foram propostas através do coeficien-
lação. te de correlação, descrito como a covariância
Atenção tem se dirigido recentemente à padronizada pelo produto dos desvios-padrão
modelagem de dinâmica de doenças como a de cada uma. Pela desigualdade de Schwarz,
AIDS (Castillo-Chavez, 1989) e aos processos demonstra-se que seu valor absoluto é limitado
que objetivam descrever a propagação espacial pela unidade. A magnitude da associação é,
das epidemias (Cliff & Hagget, 1979). então, medida dentro de um intervalo de extre-
mo inferior zero (nenhuma associação) até o
As Medidas de Associação Estatística ponto máximo de um (Hoel et al., 1971).
Em 1944, H. E. Daniels dá uma interpretação
A Epidemiologia tem na causalidade,como já geométrica da independência, representando-a
dito, uma de suas questões fundamentais. O pela ortogonalidade de dois vetores no espaço
problema que permanentemente se coloca é o euclidiano. Neste contexto, a medida de corre-
da mensuração das relações causais. Afora a lação corresponde ao cosseno do ângulo forma-
questão da possibilidade de se quantificar os do pelos vetores aleatórios em consideração. A
determinantes sociais do processo saúde-doen- associação máxima, quando o cosseno é igual
ça, mesmo no âmbito da chamada epidemiolo- a um, é referida à colinearidade, em oposição
gia clássica, o seu modo de trabalho com as à perpendicularidade, situação de cosseno zero
ditas relações causais merece algumas reflexões e ausência de correlação. Daniels demonstra,
a partir do corpo teórico da Estatística. Desde ainda, que as medidas de associação tradicio-
o conceito de probabilidade condicional, pas- nais, como os coeficientes de correlação de
sando pelo coeficiente de correlação e pelo qui- Pearson, Spearman e de Kendall, além do
-quadrado de Pearson até a dependência no coeficiente de contingência média, podem ser
tempo e no espaço dos dias de hoje, a preocu- expressos por meio de cossenos de ângulos
pação com a "dependência" entre dois atributos entre vetores de coordenadas convenientemente
tem despertado interesse constante. escolhidas (Daniels, 1944).
Em termos teóricos, duas variáveis são Leo A. Goodman é outro autor contemporâ-
independentes se e somente se a distribuição de neo que contribui expressivamente ao problema
probabilidades condicional da primeira, dada a de medir associações em variáveis categóricas
segunda, é igual à distribuição marginal da ordinais. Objetivando captar o efeito da orde-
primeira (Hoel et al., 1971). Esta noção de nação dos níveis de cada um dos fatores,
"dependência" pode ser visualizada através da propõe medidas baseadas na "redução propor-
análise de uma tabela de contingência, quando cional dos erros" na predição da resposta. Os
as variáveis são consideradas associadas se as erros são respectivos a duas situações, a de
distribuições multinomiais forem significativa- ausência de informações sobre a variável
mente diferentes para dois níveis da resposta; preditora, relativamente a uma segunda, diante
pode ser traduzida pelo risco relativo ou pelo do conhecimento prévio do valor da variável
odds ratio iguais a1 na situação de indepen- independente (Goodman, 1979).
dência; ou, ainda, na construção da teoria de Na procura de critérios de escolha de medi-
regressão múltipla no caso de multinormalida- das de associação adequadas às análises quanti-
de, onde a média da distribuição condicional é tativas das pesquisas sociológicas, Herbert L.
um modelo linear das variáveis preditoras e a Costner, em 1965, propõe adotar aquelas que
reta é constante quando há independência. pudessem ser estabelecidas por meio da re-
Um conceito mais intuitivo de mensuração de dução proporcional no erro de predição
"dependência" é o de covariância. Tem o (Costner, 1965). É possível demonstrar que a
sentido de examinar o comportamento conjunto definição geométrica de Daniels, atribuída à
em comparação à multiplicação dos isolados. correlação (como o cosseno do ângulo formado
pelos vetores aleatórios), tem uma interpretação similhança correspondentes à inclusão de
de "redução proporcional no erro". variáveis nos modelos logísticos são os crité-
Assim, as atuais propostas de estatísticas para rios estabelecidos pelos epidemiologistas para
medir associações entre variáveis têm sido o julgamento de suas hipóteses. Percorrendo
baseadas na definição de Daniels. Sendo o todos os significados das medidas de asso-
cosseno de um ângulo em um espaço vetorial ciação estatística ao longo do tempo, sua
expresso como razão de um produto interno interpretação como redução proporcional no
dos vetores (covariância) pelo produto das erro de predição e suas generalizações, indaga-
normas (desvios-padrão), as formulações gene- se o porquê desta utilização tão restrita em
ralizadas têm evoluído em duas direções: vista do leque de possibilidades existentes.
convenientes escolhas de funções de coordena-
das vetoriais no espaço euclidiano e definição Os Modelos de Regressão
de um produto interno adequado em um espaço
de Hilbert (Ash, 1972), possibilitando a ex- O objetivo de uma análise estatística utilizan-
tensão para espaços infinito-dimensionais. Esta do a técnica de construção de modelos é, em
última aproximação foi considerada por T. W. geral, o de encontrar a melhor adequação (no
Anderson no estudo de predição de processos sentido de minimizar o erro de predição)
estocásticos estacionários no tempo (Anderson, através do menor número possível de variáveis
1971). É fato por demais conhecido que a (Draper & Smith, 1966). Este propósito, no
significância da correlação estatística é insufi- entanto, está longe de satisfazer os objetivos da
ciente para indicar dependência no sentido Epidemiologia na procura dos determinantes ou
epidemiológico. Vários autores têm se preocu- dos fatores de risco de um problema de saúde.
pado inclusive em estabelecer critérios, de tal Em primeiro lugar, o princípio da parcimônia,
modo que na ocorrência da associação estatísti- se é conveniente ao intuito preditivo na dimi-
ca, seja possível determinar se ela é, de fato, nuição dos custos e esforços em obter infor-
causal (Hill, 1965). Entretanto, os epidemiolo- mações, é, pelo contrário, insatisfatório para
gistas, perante os problemas de causalidade, uma interpretação plausível das relações entre
têm mostrado atitudes díspares. Não só a as variáveis. A economia de variáveis consiste,
significância estatística tem sido apresentada na verdade, em minimizar o caminho explicati-
freqüentemente como evidência de uma relação vo de um evento ao outro (Li, 1975).
causal, como também à inexistência de corre- Uma segunda colocação que se impõe refere-
lação estatística, a hipótese epidemiológica é se ao fato de que, nos procedimentos de re-
descartada de imediato. Em divergência a estas gressão, as variáveis explicativas são tratadas
condutas, é preciso ressaltar que para determi- com equanimidade, resultando mini modelo em
nadas distribuições de probabilidades, as variá- que a resposta é determinada pela adição de
veis aleatórias podem ser não correlacionadas, efeitos, sem a interpretação do fenômeno. As
mas dependentes (Hoel et al., 1971). Salienta- decisões de inclusão (exclusão) de fatores são
se, ainda, que é usual considerar as variáveis puramente estatísticas e, como recomendado
contínuas como normalmente distribuídas, em procedimentos com comparações múltiplas,
acarretando em mensurar a associação entre baseadas na diminuição do nível de significân-
elas por meio de modelos lineares. Desta cia. Ao final de todas as etapas, nada se sabe
maneira, se a regressão for quadrática, prova- sobre o poder de cada teste de hipótese causal,
velmente será encontrada uma correlação de muito menos pondera-se sobre suas probabili-
baixa magnitude. dades a priori. Além disso, em diversas oca-
Na prática, o que vem ocorrendo é o empre- siões, um coeficiente de correlação múltipla
go automático dos modelos multivariados baixo é considerado como aceitável, ou seja,
lineares (ou logit-lineares), sem análise prévia grande parte da variabilidade da resposta é
ou qualquer representação gráfica das relações atribuída ao acaso.
de dependência no conjunto de informações. O método conhecido como a "análise de
Os testes para correlações parciais das variáveis trajetórias" é uma forma de regressão estrutura-
contínuas ou as estastísticas de máximo-veros- da onde um diagrama especifica a natureza da
estrutura proposta. É de acordo com este dia- tem distribuição Bernouilli (ausência ou presen-
grama que a análise subseqüente é realizada ça da doença) e a sua esperança condicional,
(Li, 1975). No caso do desconhecimento prévio igual à probabilidade do sucesso, é descrita
do delineamento do circuito causal, vários como uma função logística das variáveis predi-
esquemas podem ser propostos, considerando toras. Sob a suposição de independência das
os possíveis papéis das variáveis como "de unidades experimentais, os erros do modelo
confundimento", "intermediárias" ou " modifi- seguem uma distribuição binomial (Hosmer &
cadoras de efeito" (Breslow & Day, 1980; Lemeshow, 1989).
Morgenstern, 1989). Criado por Sewell Wright, Desta forma, este processo de "modelagem"
em 1921, para análise de diagramas genealógi- dos dados é tipicamente um procedimento de
cos, teve seu emprego divulgado por O. D. análise de mecanismos individuais independen-
Duncan nas ciências sociais (Li, 1975). Sob o tes que, somando-se, produzem o efeito coleti-
nome de "teoria dos grafos", tem vasto campo vo. Assinala-se, portanto, novamente o despro-
de aplicação na Pesquisa Operacional, com o pósito de incluir nos modelos variáveis mensu-
objetivo de otimização dos fluxos de organi- radas em grupos (onde as observações podem
zação, como as redes de comunicação e trans- ser dependentes), fugindo ao pressuposto de
porte (Berge & Ghouila-Houri, 1962). Apesar independência dos erros da regressão. Ressalve-
de se constituir num procedimento bem mais se, também, que a definição de "grupo de
apropriado para a construção de uma estrutura risco" ("grupo populacional em que se encontra
causal compatível com os dados observados, um risco relativo de uma dada condição maior
tem pouca repercussão ainda entre os epide- do que 1,0") (Almeida Filho, 1989) não tem
miologistas. qualquer suporte na teoria dos modelos estatís-
ticos. Probabilisticamente, "grupo de risco" é a
A Interpretação Estatística de Risco união de indivíduos, supostamente independen-
tes, que apresentam um determinado atributo,
O conceito de risco, fundamental à Epide- chamado "fator de risco" pelos epidemiologis-
miologia moderna, é definido como "a probabi- tas.
lidade de um indivíduo de uma população vir
a desenvolver a doença durante um dado Medidas em Grupos de Observações:
período de tempo" (Morgenstern, 1989). A a Falácia Ecológica e o Problema
partir desta concepção probabilística, novas da Unidade de Análise
medidas de associação são adotadas, como o
"risco relativo" e a "razão dos produtos cruza- Em análise de correlações entre variáveis
dos" (odds ratio). O grau de dependência é relativas a grupos de indivíduos, ao invés dos
avaliado pelo afastamento destas medidas da próprios indivíduos, falsos juízos podem ocor-
unidade (Fleiss, 1973). A resposta determinísti- rer se as inferências "entre grupos" (ecológicas)
ca é transformada numa probabilística, o risco são supostamente válidas para "dentro dos
(ou uma função do risco) passa a ser utilizado grupos" (Piantadosi et al., 1988). O problema
como variável dependente dos modelos de de interpretação na análise das associações
regressão, a causa torna-se o "fator de risco". ecológicas foi apontado pioneiramente por W.
Em virtude de sua fácil interpretação, o S. Robinson, que lhe deu o nome de "falácia
modelo logístico tem sido um método de ecológica" (Robinson, 1950). Desde então, esta
análise amplamente difundido na pesquisa questão tem sido abordada por diversos autores.
epidemilógica. No caso de uma só covariável, Alguns apontam para situações onde sérios
o coeficiente angular da reta corresponde à erros seriam introduzidos em inferências sobre
razão dos produtos cruzados. Extensão feita ao indivíduos por meio de estudos ecológicos
caso politômico, os parâmetros da regressão (Morgenstern, 1982). Outros delineiam circuns-
representam os odds ratio em relação a uma tâncias onde tais inferências estariam justifica-
categoria de referência (Hosmer & Lemeshow, das (Richardson et al., 1987).
1989). Estatisticamente, a variável dependente A relação matemática entre as correlações
ecológica e individual, embora proposta tam- pectivas, como a análise em desenhos hierar-
bém por Robinson, foi demonstrada apenas quizados, onde possa ser considerado o nível
recentemente (Piantadosi et al., 1988). Consiste de atuação de cada variável em estudo. O
em descrever o coeficiente de regressão entre processo amostral, determinado pela hierarqui-
dois fatores como soma ponderada dos coefi- zação dos fatores, seria realizado, então, em
cientes angulares "dentro" e "entre" grupos. quantos estágios se fizessem necessários. Em
Assim, comprova-se que na ausência de dados cada etapa, as unidades experimentais seriam
individuais não é possível a estimativa da supostamente dependentes, expressando-se a
"verdadeira" associação (a "total") e que apenas matriz de variâncias-covariâncias do vetor de
na igualdade dos parâmetros "dentro" e "entre" observações como uma matriz não diagonal,
a correlação é expressa pela chamada corre- cujos elementos que não pertencessem à diago-
lação ecológica. nal principal (as covariâncias) fossem funções
Porém, este não é o único problema de uma da correlação intra-classe. O progresso da
análise ecológica. A questão da modificação do resolução estatística estará em formular a
agrupamento de observações é outro ponto para partição da correlação total na estrutura especi-
reflexão. Foi identificada por G. U. Yule e M. ficada.
G. Kendall, em 1950, que assinalaram: "nós Já para os estudos ecológicos, onde a in-
não podemos perder de vista que nossos resul- tenção da análise resida apenas nas inferências
tados dependem da unidade de análise" (Yule para as unidades amostradas e não para os
& Kendall, 1950). Em teoria, existe uma infini- indivíduos, é freqüente o interesse pelas repre-
dade de maneiras na qual uma área pode ser sentações espaciais (mapas) das patologias. O
dividida, apesar dos dados serem apresentados coeficiente de correlação, como utilizado
para um particular conjunto de subdivisões. tradicionalmente "ponto a ponto", não capita os
Estas podem ser recombinadas de tal forma a efeitos de aglomeração ou de propagação dos
constituir regiões numa nova escala. Para cada fenômenos. Releva-se, deste modo, a generali-
uma das alternativas, os coeficientes de corre- zação dos processos estocásticos no domínio do
lação tomam valores diferentes, acarretando em tempo para o domínio do espaço, elaborando
distintas possibilidades de interpretação. Este é métodos de estimação de medidas de asso-
o denominado "problema da modificação da ciação entre distribuições espaciais (Clifford et
unidade de área", abordado recentemente por S. al., 1989).
Openshaw e P. J. Taylor em estudos de distri- No mesmo contexto, uma outra possibilidade
buições espaciais (Openshaw & Taylor, 1979). é a construção de coeficientes de correlação em
espaços de Hubert, conforme já referido,
Modelos em Perspectiva mediante a definição adequada de um produto
interno. Neste caso, a extensão da teoria de
Diante dos problemas metodológicos encon- regressão entre modelos temporais para mode-
trados para testar muitas das hipóteses de los espaciais seria realizada por meio da esco-
multicausalidade de interesse epidemiológico lha de um eixo direcional unidimensional,
atual, resta recorrer ao desenvolvimento de como, por exemplo, a distância dos pontos do
modelos estatísticos mais apropriados. Apesar espaço a um determinado ponto considerado
das limitações da Estatística como instrumental como origem.
analítico dos diversos campos de indagação da Diante do propósito contínuo de elaboração
Epidemiologia, entende-se que o esforço deverá de modelos que traduzam o real à linguagem
ser dirigido à procura de modelos que permi- matemática, acredita-se que uma outra possível
tam avaliar os agravos de saúde na sua maior vertente de pesquisa estatística será a procura
complexidade, seja nos mecanismos unitários de modelos que contemplem a compreensão do
que produzem as características coletivas, seja processo evolutivo a que estão sujeitas as
nos processos coletivos que influenciam o distribuições dos fenômenos.
fenômeno que vem a ocorrer no indivíduo. Por outro lado, a abrangência do comporta-
Desta forma, vislumbram-se algumas pers- mento temporal dos mecanismos explicativos
aliados à chance gera modelos cada vez mais REFERÊNCIAS BIBLIOGRÁFICAS
complexos. Entende-se,portanto, que um dos
rumos a ser seguido é a procura de instrumen- ALMEIDA FILHO, N., 1989. Epidemiologia sem
tal, no interior da própria Matemática, que Números (Introdução Crítica à Ciência
venha a simplificar a resolução de tais proble- Epidemiológica). Rio de Janeiro: Editora Cam-
pus.
mas.
ANDERSON, T. W., 1958. An Introduction to
Multivariate Statistical Analysis. New York:
John Wiley & Sons.
AGRADECIMENTOS , 1971. The Statistical Analysis of Time
Series. New York: John Wiley & Sons.
A autora CLS agradece à OPAS, especifica- ASH, R. B., 1972. Real Analysis and Probability.
mente ao Dr. Moises Goldbaum, por ter conce- New york: Academic Press.
dido a oportunidade de sua participação no BAILAR, J. C. & MOSTELLER, F. (Ed.), 1986.
curso Advanced Statistical Methods in Cancer Medical Uses of Statistics. Waltham, Massa-
Epidemiology-IARC, 1989, que forneceu subsí- chussets: NEJM Books.
dios para a elaboração de parte deste trabalho, BAILEY, N. T. J., 1964. The Elements of Stochastic
Processes with Applications to the Natural
sobretudo nos itens referentes aos modelos
Sciences. New York: John Wiley & Sons.
estatísticos utilizados atualmente pela Epide- BARRETO, M. L., 1990. A Epidemiologia, sua
miologia. história e crises: notas para pensar o futuro. In:
Epidemiologia Teoria e Objeto (D. C. Costa,
org.), pp. 19-38, São Paulo: Hucitec-Abrasco.
RESUMO BARTLETT, M. S., 1960. Stochastic Population
Models in Ecology and Epidemiology. London:
SZWARCWALD, C. L. & CASTILHO, E. Methuen.
A. de Os Caminhos da Estatística e suas BERGE, C. & GHOUILA-HOURI, A., 1962. Pro-
Incursões pela Epidemiologia. Cad. Saúde grammes, Jeux et Réseaux de Transport. Paris:
Públ., Rio de Janeiro, 8 (1): 05-21, jan/abr, Dunod.
BERQUÓ, E. S.; SOUZA, J. M. P. & GOTLIEB, S.
1992.
L. D., 1984. Bioestatística. São Paulo: E.P.M..
Neste trabalho, contempla-se o BISHOP, Y.; FINBERG, S. & HOLLAND, P.,
desenvolvimento da Estatística, desde suas 1975. Discrete Multivariate Analysis. Cam-
origens probabilísticas até os atuais modelos bridge: MIT Press.
de "dependência" no tempo e no espaço. BRESLOW, N. E. & DAY, N. E., 1980. Statistical
Avalia-se a evolução do método quantitativo Methods in Cancer Research v.1 - The Analysis
na abordagem epidemiológica, como também of Case-Control Studies. IARC scientific
procura-se estabelecer limites das técnicas publication no 32, Lyon, International Agency for
estatísticas habituais, discutindo-se suas Research on Cancer.
, 1987, Statistical Methods in Cancer
suposições teóricas e sua adequação ao
Research v.2 - The Design and Analysis of
tratamento analítico das informações.
Cohort Studies. IARC scientific publication no
Enfatizam-se a importância do 82, Lyon, International Agency for Research on
desenvolvimento e/ou generalização de Cancer.
procedimentos que possam ajudar a superar BRESLOW, N. E. & ENSTROM, J. E., 1974.
as dificuldades metodológicas ainda Geographic correlations between cancer mor-
encontradas em diversos estudos de inferência tality rate and alcohol-tobacco consumption in
causal em Epidemiologia. the United States. Journal of the National
Palavras-Chave: Estatística; Estatística Cancer Institute, 53: 631-639.
BROWNER, W. S. & NEWMAN, T. B., 1987. Are
Aplicada; História da Estatística;
all significant "p" values created equal? The
Bioestatística; Relações analogy between diagnostic tests and clinical
Estatística/Epidemiologia research. Journal of the American Medical Asso-
ciation, 257: 2459-2463.
CASTILLO-CHAVEZ, C. (Ed.), 1989. Mathematical GREEN, P. E., 1978. Analysing Multivariate Data.
and Statistical Approaches to AIDS Epidemio- Hinsdale, Illinois: The Dryden Press.
logy. Berlin: Springer-Verlag. GREENLAND, S., 1988. On sample-size and power
CLIFF, A .D. & HAGGET, P., 1979. Geographical calculations for studies using confidence inter-
aspects of epidemic diffusion in closed commu- vals. American Journal of Epidemiology, 128:
nities. In: Statistical Applications in the Spatial 231-237.
Sciences (N. Wrigley, ed.), pp. 5-44, London: HABERMAN, S. J., 1978. Analysis of Qualitative
Pion Limited. Data. New York Academic Press.
CLIFFORD, P.; RICHARDSON, S. & HEMON, D., HAMMOND, R. & MC CULLAGH, P. S., 1978.
1989. Assessing the significance of the correla- Quantitative Techniques in Geography: an
tion between two spatial processes. Biometrics, Introduction. Oxford: Clarendon Press.
45: 123-134. HILL, A. B., 1965. Principles of Medical Statistics.
COCHRAN, W. G., 1953. Sampling Techniques. New York: Oxford University Press.
New York: John Wiley & Sons. HOEL, P. G.; PORT, S. C. & STONE, C. J., 1971.
COSTA, D. C. (Org.), 1990. Epidemiologia Teoria Introduction to Probability Theory. Boston:
e Objeto. São Paulo: Hucitec/Abrasco. Houghton Mifflin Company.
COOK, D. G. & POCOCK, S. J., 1983. Multiple HOEL, P. G., 1980. Estatística Matemática. Rio de
regression in geographic mortality studies with Janeiro: Editora Guanabara Dois.
allowance for spatially correlated errors. HOSMER, D. W. & LEMESHOW, S., 1989. Applied
Biometrics, 39: 361-371.
Logistic Regression. New York: John Wiley &
COSTNER, H. L., 1965. Criteria for measures of
Sons.
association. American Sociological Review, 30:
HOTELLING, H., 1951. The impact of R. A. Fisher
341-353.
on statistics. Journal of the American Statistics
COX, D. R., 1970. Analysis of Binary Data. London:
Association, 46: 35-46.
Methuen.
HUFF, D., 1954. How to Lie with Statistics. New
DANIELS, H. E., 1944. The relation between meas-
York W. W. Norton.
ures of correlation in the universe of sample
IOSIFESCU, M. & TAUTU, P., 1973. Stochastic
permutations. Biometrika, 33: 129-135.
Processes and Applications in Biology and Medi-
DAVIS, F. N., 1955. Dicing and Gaming (a note on
the history of probability). Biometrika, 42: cine. New York: Springer-Verlag.
1-15. JEFFREYS, H, 1948. Theory of Probability. 2nd ed.,
DEMO, P., 1989. Metodologia Científica em Ciên- Oxford: Clarendon Press.
cias Sociais. São Paulo: Editora Atlas. JOHNSTON, R. J., 1978. Multivariate Statistical
DRAPER, N. R. & SMITH, H., 1966. Applied Analysis in Geography. London: Longman.
Regression Analysis. New York: John Wiley & KENDALL, M. G., 1956. Studies in the history of
Sons. probability and statistics: II. Biometrika, 43:
FELLER, W., 1968. An Introduction to Probability 1-14.
Theory and Its Applications. 3rd edition, New KNEKT, P.; REUNANEN, A.; AROMAA, A.;
York: John Wiley & Sons. HELIOVAARA, M. & HAKAMA, M., 1988.
FERGUNSON, T. S., 1967. Mathematical Statistics Serum cholesterol and risk of cancer in a cohort
(a decision theory approach). New York: Aca- of 39,000 men and women. Journal of Clinical
demic Press. Epidemiology, 41: 519-530.
FISHER, R. A., 1956. Statistical Method and Scien- LAURENTI, R.; JORGE, M. H. P. M.; LEBRÃO,
tific Inference. Edinburgh: Oliver and Boyd. M. L. & GOTLIEB, S. L. D., 1985. Estatísticas
FLEISS, J. L., 1973. Statistical Methods for Rates & de Saúde. São Paulo: Editora Pedagógica e Uni-
Proportions. New York: John Wiley & Sons. versitária Ltda.
GOLDBERG, M., 1990. Este obscuro objeto da LEHMANN, E. L., 1959. Testing Statistical Hypoth-
Epidemiologia. In: Epidemiologia Teoria e eses. New York: John Wiley & Sons.
Objeto (D. C. Costa, org.), pp. 87-136, São LI, C. C., 1975. Path Analysis-a Primer. Pacific
Paulo: Hucitec Grove, California: The Boxwood Press.
Abrasco LINDLEY, D. V., 1957. A statistical paradox.
GOODMAN, L. A., 1979. Simple models for the Biometrika, 44: 187-192.
analysis of association in cross-classification LOWY, M., 1991. Ideologias e Ciência Social -
having ordered categories. Journal of the Ameri- Elementos para uma Análise Marxista. São
can Statistics Association, 74: 537-552. Paulo: Cortez Editora.
MORGENSTERN, H., 1982. Uses of ecologic SABROZA, P. C., 1990. Prefácio. In: Epidemiologia
analysis in epidemiologic research. American Teoria e Objeto ( D. C. Costa, org.), pp. 7-10,
Journal of Public Health, 72: 1336-1344. São Paulo: Hucitec/Abrasco.
MORGENSTERN, H., 1989. Epidemiologic Meth- SAVAGE, L. J., 1954. The Foundations of Statistics.
ods, class notes (Mimeo.). London: Routledge and Kegan Paul.
NARAYAN BHAT, U., 1972. Elements of Applied SEARL, S. R., 1971. Linear Models. New York:
Stochastic Processes. New York: John Wiley & John Wiley & Sons.
Sons. STEEL, R. G. D. & TORRIE, J. H., 1981. Principles
NEUTS, M. F., 1973. Probability. Boston: Allyn and and Procedures of Statistics (a biometrical
Bacon Inc.. approach). Singapore: Me Graw-Hill.
NUNES, E. D. (Org.), 1985. As Ciências Sociais em SUSSER, M., 1985. Epidemiology in the United
Saúde na América Latina: tendências e perspec- States after World War II: the evolution of tech-
tivas. Brasília: OPAS. nique. Epidemilogic Reviews, 7: 147-177.
OAKES, M., 1990. Statistical Inference. Chestnut TANGO, T., 1984. The detection of disease clus-
Hill, MA: Epidemiology Resources Inc. tering in time. Biometrics, 40: 15-26.
OPENSHAW, S. & TAYLOR, P. J., 1979. A million UK NATIONAL CASE-CONTROL STUDY
or so correlation coefficients: three experiments GROUP, 1989. Oral contraceptive use and breast
on the modifiable areal unit problem. In: cancer risk in young women. The Lancet, May
Statistical Applications in the Spatial Sciences 6: 973-982.
(N. Wrigley, ed.), pp. 128-144, London: Pion WALKER, H. M., 1958. The contributions of Karl
Limited. Pearson. Journal of the American Statistics Asso-
ORGANIZAÇÃO MUNDIAL DA SAÚDE, 1978. ciation, 53: 11-27.
Classificação Internacional de Doenças, Lesões WOLFOWITZ, J., 1952. Abraham Wald, 1902-1950.
e Causas de Óbitos: 9a revisão. Vol. 1. São Annals of Mathematical Statistics, 23: 1-13.
Paulo, Centro da OMS para classificação de YULE, G. U. & KENDALL, M. G., 1950. An
doenças em Português. Introduction to the Theory of Statistics. London:
PIANTADOSI, S.; BYAR, D. P. & GREEN, S. B., Charles Griffin.
1988. The ecological fallacy. American Journal
of Epidemiology, 127: 893-900.
PHILLIPS, L. D., 1973. Bayesian Statistics for
Social Scientists. London: Nelson.
POLLARD, A. H. ; YUSUF, F, & POLLARD, G.
N., 1974. Demographic Techniques. Sydney:
Pergamon Press.
RANKIN, B., 1966. The history of probability and
the changing concept of the individual. Journal
of the History of Ideas, 27: 483-504.
RAO, C. R., 1973. Linear Statistical Inference and
Its Applications. New York: John Wiley & Sons.
RAUBERTAS, R. F., 1988. Spatial and temporal
analysis of disease occurrence for detection of
clustering. Biometrics, 44: 1121-1129.
REMINGTON, R. D. & SCHORK, M. A., 1970.
Statistics with Applications to the Biological and
Health Sciences. Englewoods Cliffs, New Jersey:
Prentice-Hall.
RICHARDSON, S.; STUCKER, I. & HEMON, D.,
1987. Comparison of relative risks obtained in
ecological and individual studies: some methodo-
logical considerations. International Journal of
Epidemiology, 16: 111-120.
ROBINSON, W. S., 1950. Ecological correlations
and the behavior of individuals. American Socio-
logical Review, 15: 351-357.