Bioestatistica Apostila2

Curso de Especialização em saúde do Trabalho – Bioestatística 13
João Bosco Strozzi
Modelos de Causação de Doenças
A primeira e mais importante dicotomia do pensamento científico

surge com a tentativa, ainda hoje infrutífera, sobre a origem do
universo. Seríamos nós o resultado de uma explosão aleatória (modelo
probabilístico), ou realmente fomos criados (modelo determinístico)?
Determinismo: dentro do modelo determinístico, a causação é

explicada pela conexão constante, exclusiva e perfeita entre dois
eventos X e Y, de forma que, dentro de um sistema completamente
estável, qualquer alteração em X provoca uma alteração subsequente
em Y. Em epidemiologia nos interessa saber se existe ou não associação
entre um fator de exposição X e a doença, ou condição mórbida Y.
Assumindo o modelo determinístico, existem 4 tipos de indivíduos em
relação às suas capacidades de responder frente à presença ou ausência
do fator de exposição.
T i p o d e I n d i v í d u o E x p o s t o N ã o E x p o s t o
1 . S e m e f e i t o ( " f a d a d o " ) C a s o C a s o
2 . E f e i t o c a u s a t i v o C a s o N ã o - c a s o
3 . E f e i t o p r e v e n t i v o N ã o - c a s o C a s o
4 . S e m e f e i t o ( " i m u n e " ) N ã o - c a s o N ã o - c a s o
Isto mostra que, por este modelo, o fato de alguém ficar doente
não quer dizer necessariamente que a causação se deu por exposição.
Existe a necessidade de que joguemos com todas as possibilidades para
criar o contraste entre os vários tipos de indivíduos, para que então
tenhamos uma estimativa do efeito causativo do expositor, uma vez que
os vários tipos de indivíduos podem existir porém não são observáveis.
A validade do estudo se dará pela assunção de que, entre os expostos e
não expostos, a distribuição entre os 4 tipos seja similar.
O ideal em estudos epidemiológicos vem da teoria de Rothman,
que exprime que os indivíduos deveriam ser comparados com eles
mesmos numa situação hipotética em que eles tivessem vivido na
ausência do expositor.
João Bosco Strozzi
Determinismo Puro: de acordo com o modelo determinístico, X (o

expositor) é a causa de Y (a doença) se X é necessário e/ou suficiente
para a ocorrência da doença. Considerando a distribuição conjunta de X
e Y podemos avaliar que:
C a s o N ã o C a s o
E x p o s t o a b N 1
N ã o E x p o s t o c d N o
M 1 M o N
1. O expositor é causa necessária se todos os casos foram

induzidos por ele. Neste caso, a célula C é zero. Isto quer dizer que não
há nenhum tipo 1 ou tipo 3 na população.
2. O expositor é causa suficiente se todos os indivíduos expostos
se tornam casos. Neste caso, a célula B é zero. Não há nenhum
indivíduo tipo 3 ou tipo 4 na população.
3. O expositor é causa necessária e suficiente se ambas as células
B e C forem zero. Toda a população é composta por indivíduos tipo 2.
Determinismo Modificado: na moderna concepção do

determinismo puro, considera-se que X não é um fator singular, mas
uma constelação de fatores que interagem entre si para a ocorrência da
doença.
Em cada um dos conjuntos que formam as causas suficientes I, II

e III existem fatores que interagem. O fator A é considerado como uma
causa necessária, porque está presente em todos os conjuntos. Cada
fator presente em pelo menos uma das causas suficientes é considerado
com o fator contributório. Se tivéssemos conhecimento de todos os
fatores que contribuem nos diversos conjuntos que causam uma
doença, provavelmente definiríamos uma doença para cada conjunto.
O problema com o modelo determinístico é que não leva em
consideração que o nosso conhecimento sobre as doenças é limitado, ou
seja, se nós não conhecemos todas as possíveis causas de uma
João Bosco Strozzi
determinada doença, então não poderemos identificar conjuntos de

fatores que a determinam. Para contornar nossa ignorância, lançamos
mão do modelo probabilístico.
Modelo probabilístico: como complemento do modelo

determinístico, e não como seu opositor, o modelo probabilístico, ao
invés de demonstrar causação, faz inferências causais sobre relações
hipotéticas entre um determinado fator de exposição e a doença.
Usando a teoria probabilística e as técnicas estatísticas pertinentes,
podemos observar possíveis associações empíricas entre fatores
considerados hipoteticamente como causais e a doença.
Dentro do modelo probabilístico, estimamos parâmetros causais
para populações em lugar de parâmetros determinísticos para
indivíduos. Estes parâmetros causais populacionais refletem uma média
do efeito do fator de exposição, entre todos os indivíduos da população.
Vale a pena salientar que o modelo probabilístico não nega o
modelo determinístico, pelo contrário, dentro do modelo se admite a
existência de fatores causais que determinam a ocorrência da doença. O
modelo probabilístico é utilizado tão somente para exprimir nossa falta
de conhecimento, e não para admitir que as doenças ocorrem dentro de
uma situação randômica.
Dentro deste modelo nós somos capazes de predizer o número de
ocorrência da doença, mas não poderemos predizer exatamente quais
os indivíduos da população que irão contraí-la. Por causa desta falta de
certeza é que a epidemiologia operacionaliza o conceito teórico de
causação através de outro conceito empiricamente definido como Fator
de Risco.
Existem dois tipos de fatores que afetam a historia natural da
doença: o fator de risco e o fator de prognóstico. Os fatores de risco
influenciam a ocorrência da doença, e os fatores de prognóstico
influenciam o curso da doença após sua ocorrência.
João Bosco Strozzi
Critérios para Intervenção
1. Magnitude: diz respeito à prevalência da doença. Devemos priorizar

aquelas doenças que são mais freqüentes no nosso meio. É um processo
cíclico, pois na medida em que uma doença é combatida e controlada,
uma outra doença toma-lhe o lugar, pois a freqüência é um processo
comparativo, como se fosse uma roldana, onde baixa um lado e sobe
outro (mesmo que com menor intensidade, que é o ideal).
2. Vulnerabilidade: quanto mais vulnerável for a doença ao

tratamento, melhor. Não resolve muito fazer um programa de controle
de uma doença, como por exemplo a esclerose múltipla, pois teremos
muito custo para pouco benefício.
3. Transcendência: é o impacto que a doença traz para a comunidade.

Muitas vezes uma doença tem pouca magnitude ou vulnerabilidade,
porém traz um grande impacto para a sociedade. São principalmente as
doenças mais letais. Um exemplo disto é a própria AIDS que é bem
menos freqüente do que as diarréias, porém causa maior impacto, pela
sua crueldade e letalidade.
Amostragem
Uma amostra funciona como um exame de sangue. Ao retirarmos uma

gota do sangue, nós a examinamos e tudo o que encontrarmos naquela
amostra, iremos inferir que é o mesmo que está acontecendo com todo
o sangue circulante do indivíduo sendo testado.
E, achamos isto um processo muito natural e aceitamos o resultado.
Isto porque acreditamos que a diluição do sangue ocorre de forma
homogênea.
Em estatística, nós retiramos amostras de populações. Existem várias

maneiras de se obter uma amostra a partir de uma ou mais populações.
A amostragem se subdivide, basicamente, em dois tipos:
1-Não-probabilística
2-Probabilística
João Bosco Strozzi
As amostras não probabilísticas são aquelas com maior possibilidade de

erro, pois elas dependem da escolha do investigador. Muitas vezes, este
é o único jeito de se conseguir uma amostra. Nestes casos, é importante
que saibamos a extensão do erro que teremos que enfrentar, para
corrigir.
Por definição, a amostra não probabilística é aquela obtida através da

escolha determinada pelo investigador.
Exemplo: Um investigador, médico, tem um conjunto de 70 pacientes

com uma determinada doença. Ele quer investigar quais seriam os
determinantes desta doença nos seus pacientes. Para isto, ele procura
um conjunto de 70 pessoas que não tenham esta doença, para então
comparar a prevalência de certos fatores determinantes da doença com
estes mesmos fatores nos seus pacientes. Porém, ele escolhe estes
“controles” de forma a ficarem parecidos com os seus pacientes. Se ele
tem 20 mulheres e 50 homens, então os controles serão também de 20
mulheres e 50 homens. Se tem 30 com menos de 40 anos e 40 com 40
ou mais anos, ele também irá escolher os controles da mesma forma.
Em outras palavras, ele terá que encontrar “cotas” de controles que
possam ser pareados individual ou coletivamente com os seus
pacientes. Por outro lado, estes pacientes terão particularidades
desconhecidas do investigador e, portanto, para estas variáveis ele não
terá como parear. Isto, porém, talvez não seja um grande problema,
dependendo do desenho do estudo.
A amostra probabilística usa do conceito de probabilidade para a escolha

das unidades amostrais. As unidades amostrais são escolhidas pelo
acaso, como em um sorteio. No sorteio, as unidades ficam
representativas da população de onde são originárias. Existem alguns
tipos de amostras aleatórias.
João Bosco Strozzi
a - Amostra aleatória simples: é a melhor de todas, porque é a que

melhor representa a população de origem. É como se toda a população
fosse marcada com um número e nós sorteássemos um subconjunto
delas. Pela lei da probabilidade, quando se tem uma grande população,
de onde se tira uma pequena amostra, admite-se que o sorteio funciona
como se fosse com reposição. Isto porque a diferença de probabilidade
entre um e outro número sorteado é tão pequena, que se considera
irrisório. Por exemplo: se fôssemos tirar uma amostra de 100 pessoas,
de um conjunto de 10.000 pessoas, o primeiro número teria 1/10.000
de probabilidade de ser sorteado, e o último teria a chance de 1/9.899
de chance. Ora, estas duas probabilidades são praticamente iguais!
O jogo de bingo é um exemplo de amostra aleatória simples sem

reposição. Se o jogador colocasse todas as bolinhas que são sorteadas
novamente na gaiola, então todas as bolinhas teriam sempre as
mesmas chances de serem sorteadas, ocasionando repetições por ser
um número pequeno de bolinhas.
João Bosco Strozzi
b- Amostra Aleatória Estratificada: é muito parecida com a amostra

por cotas, porém, para cada estrato, existe a seleção aleatória de
unidades amostrais. Por exemplo: ao escolher controles para um grupo
de casos, pode-se definir estratos por idade, ou sexo, ou outro tributo
qualquer; e sortear pessoas para completarem os estratos.
Os sorteios são realizados após a subdivisão em estratos. Há que se ter

um bom conhecimento prévio sobre a população alvo.
João Bosco Strozzi
c- Amostra Sistemática: esta modalidade de amostragem é baseada

na existência de uma listagem da população de onde a amostra será
selecionada. Por exemplo: você tem uma listagem de 100.000 consultas
médicas, cada uma com o diagnóstico e tratamento da patologia. Você
quer tirar uma amostra de 1.000 destas consultas, para determinar
quais as patologias mais freqüentes. Você, primeiramente, irá definir, ao
acaso um número para dar a largada. Digamos que você sorteou o
número 88. Então, na sua listagem, você irá escolher o número 88.
Depois você irá dividir o número restante da sua lista (100.000 - 88 =
99.912) por 999 que é o número restante a ser sorteado. O resultado
(99.912/88) é 1.135. A partir de então, você irá escolher uma consulta
a cada 1.135 consultas da listagem para entrar na sua amostra.
Após um início aleatório, os registros são coletados sistematicamente.

Se for uma grande matriz, pode-se certificar fazendo novos inícios
aleatórios a cada 10% de tamanho amostral coletado.
João Bosco Strozzi
d- Amostra por Conglomerado: este tipo de amostragem é aquele

usado pelos institutos de pesquisa que fazem levantamentos de
marketing ou de candidatos a cargos eletivos. Exemplo: você tem uma
cidade, que é subdividida em bairros. Você primeiramente faz um
sorteio entre os bairros, com um peso específico para cada bairro
(dependendo da população). Depois, entre os bairros selecionados,
sorteia-se algumas das quadras do bairro. Nestas quadras sorteadas,
faz-se uma amostra sistemática entre as casas. Em cada casa, escolhe-
se uma pessoa para ser o entrevistado(a). Normalmente, escolhe-se
aquela pessoa cujo dia e mês de aniversário é o mais perto da data da
entrevista.
Este tipo de amostra tem um inconveniente, que é a forma de
análise. Como você irá ter a amostra total oriunda de um conjunto de
pequenas amostras (de cada bairro), você terá que estudar as
diferenças entre estas amostras, em relação às diferenças entre as
unidades amostrais. O que se estuda é a relação do efeito inter-classe
em relação ao efeito intra-classe. O resultado disto é o que se chama de
efeito de desenho. O efeito de desenho é um número que irá servir de
multiplicador no cálculo de precisão dos resultados do estudo.
João Bosco Strozzi
Normal, Não-normal e Anormal
Você é interpelado por algum parente que porta

o resultado de um exame complementar, e que
lhe pergunta: - “Isto é normal?”
Para melhor entender como se define normal, não-normal e anormal, é

preciso entender como é construída a Curva Normal ou Curva de Gauss.
Porém, temos que dar alguns passos antes.
Imagine que em uma clínica são cadastradas 20 consultas de

cardiologia, de pacientes com as seguintes idades:
35,78,51,32,66,61,55,48,67,81,75,76,65,43,49,56,59,60,64,83.
A Média das idades é: 60,2 anos.
O Desvio Padrão é: 14,1 anos
Os pacientes de cardiologia tinham 60,2 anos, ± 14,1 anos.
Distribuição de Freqüências: para dar uma melhor noção da

distribuição dos dados, usa-se o seu agrupamento em faixas.
No exemplo dos cardíacos do primeiro exemplo, veja a distribuição em

faixas etárias de 10 anos.
Faixas Freqüência
30-39 2
40-49 3
50-59 4
60-69 6
70-79 3
80-89 2
Total 20
Desta forma, você pode observar em que faixas etárias estão

concentradas as consultas mais freqüentes.
A distribuição de freqüência é mais importante quando se tem muitos

dados.
Porém, se tivermos realmente uma grande quantidade de dados e

também uma grande quantidade de faixas de dados a serem
examinadas, fica mais fácil de visualizá-los através de gráficos.
João Bosco Strozzi
Gráficos: são uma forma de apresentação de dados, de maneira

pictórica, ou seja, dando uma quantificação espacial às suas
freqüências.
A representação gráfica pode assumir vários formatos. Os formatos mais
comuns são:
- colunas: quando se quer descrever dados em um determinado
tempo e espaço, com comparação entre categorias ou não.
- linhas: quando se pretende apresentar a distribuição dos dados
no tempo.
- pizza: quando se pretende apresentar as proporções dos dados
agrupados, em relação ao total.
No caso dos cardíacos, um gráfico de colunas seria como a seguir:
0
30-39 40-49 50-59 60-69 70-79 80-89
Onde, no eixo dos x, estão as faixas etárias; e no eixo dos y, as

freqüências das consultas de cardiologia.
João Bosco Strozzi
Histograma: é um tipo especial de gráficos de coluna, com a diferença

de que as colunas são todas justapostas.
Note que, desta forma, as colunas formam uma só área. Esta área
corresponde a 100% de todos os dados. Assim, pode-se ter uma noção
de proporções.
Note que há uma linha que une todos os pontos médios das faixas
etárias. Com alguma imaginação, você poderá ver que esta linha forma
uma espécie de sino.
Se, ao invés de termos apenas 20 consultas, nós tivéssemos, digamos,

200 consultas, esta linha iria ficar mais parecida ainda com um sino.
Toda a inferência estatística é baseada na possibilidade dos dados se

distribuírem no formato de um sino.
Os dados estatísticos, com raríssimas exceções, se distribuem desta
forma. Por exemplo, se você coletar dados sobre altura, de um conjunto
aleatório de 1000 adultos que encontrar na rua, você verá que a maioria
terá uma altura mediana, muito poucos terão menos do que 1,5 m e
muito poucos terão mais do que 2,0 m. Esta distribuição em forma de
sino é tão óbvia, que é denominada de curva normal, ou curva de
Gauss.
João Bosco Strozzi
Curva Normal: construída a partir de um andaime, que é o histograma,

a curva normal tem algumas propriedades:
1- sua área é de 100%;

2- suas linhas irão se tornar paralelas em relação ao eixo dos x;
3- a média, a mediana e a moda terão o mesmo valor;
4- o intervalo entre -1 e +1 corresponderá a aproximadamente
68%; e entre -2 e +2 a aproximadamente 95% da área da
curva.
X é a média.
Então, se nós sabemos que entre -2 e +2 desvio padrão temos 95% das
medidas, nos sobram: 2,5% abaixo de -2; e 2,5% acima de +2.
Por convenção, dizemos que tudo o que está entre -2 e +2 é normal, e

que tudo o que estiver fora desta faixa é não normal, isto é, necessita
um estudo melhor sobre o assunto.
Exemplo: um indivíduo muito baixo não é necessariamente um anão,

porém, por estar fora da curva de normalidade deverá ser melhor
estudado para descartar a possibilidade de ser um anão, ou de ter
alguma doença endócrina do crescimento. O mesmo para os muito
altos, fora de curva. Depois de examinados, aqueles não-normais
poderão ser considerados anormais ou não.
Note que o termo não-normal é usado em estatística e se refere a

aqueles dados que são fora de curva. O termo anormal é a constatação
de que os fora de curva têm alguma patologia associada ao seu desvio
do padrão normal.
João Bosco Strozzi
Os resultados dos exames complementares, que vocês estão

acostumados a observar, seguem a mesma lógica. Note que os
resultados sempre aparecem com os valores normais delimitados por
uma faixa. A faixa da glicose no sangue, por exemplo, é de 80-
120mg/dl.
Teste de Hipóteses
Uma hipótese é uma premissa de que um determinado fator pode vir a

ser causador de uma doença. Embora os seres humanos tenham a base
de seu conhecimento no empirismo, através da heurística, a ciência se
desenvolveu com base na lógica platônica.
Podemos classificar a lógica platônica em duas visões: a lógica dedutiva
e a lógica indutiva. Embora a composição das duas lógicas sejam
semelhantes, podemos enfatizar seu uso. A lógica dedutiva é utilizada
para a testagem de hipóteses que vão do geral para o particular,
enquanto que a lógica indutiva testa hipóteses que vão do particular
para o geral. Em outras palavras, as premissas da lógica dedutiva
praticam a inferência de que os eventos que acontecem a nível
populacional também podem acontecer a nível individual. A lógica
indutiva parte do princípio de que eventos que acontecem em um
pequeno grupo de indivíduos podem ser generalizados para um grande
contingente de pessoas.
Estudos realizados em populações, como por exemplo a mortalidade de
um estado ou país, têm tendência dedutiva, pois é a partir da
constatação do que acontece com toda a população que tomamos
medidas preventivas individuais. Por outro lado, ao realizarmos uma
amostragem, queremos que os resultados encontrados na amostra
sejam representativos para toda a população de onde as unidades
amostrais foram coletadas, o que é um exemplo de indução lógica.
Filosofia Popperiana: "Teorias não podem ser provadas, o único avanço

do conhecimento científico é a falsificação sistemática de hipóteses e
não a sua confirmação". Popper dizia que a indução não é lógica e,
portanto, é dispensável para o inquérito científico. Ele afirmava que nós
geramos hipóteses, usando a criatividade e imaginação, que são então
refutadas (pela dedução) e daí usadas para gerar novas hipóteses.
João Bosco Strozzi
Uma hipótese nova pode tomar lugar de uma hipótese antiga se:
1. Explica mais adequadamente resultados encontrados

previamente do que explicava a hipótese antiga;
2. Unifica e conecta fenômenos que eram descorrelatos pela
hipótese anterior;
3. Gera predições novas e mais precisas que podem vir a ser
testadas (pela falsificação).
Dentro da filosofia Popperiana é que chegamos à conclusão de

que, em ciência, devemos sempre ter uma hipótese nula a qual
devemos falsificar e substituir por uma hipótese alternativa.
Hipóteses e protocolo:
1. Hipótese conceitual: ou simplesmente hipótese, no contexto de

filosofia da ciência, é aquela que exprime uma idéia proposta pelo
investigador, para explicar ou entender a ocorrência de um evento ou
problema em termos de outros eventos específicos, processos,
condições, características, comportamentos ou exposições.
Exemplo: O consumo excessivo de café aumenta a probabilidade
de um indivíduo desenvolver arteriosclerose coronariana, ou seja,
consumo excessivo de café é um fator de risco para arteriosclerose
coronariana.
2. Hipótese operacional: é a predição mensurável ou expectativa

empírica que é derivada da hipótese conceitual. Se a hipótese conceitual
é verdadeira, então admite-se que a hipótese operacional também o
seja. Repare que a hipótese nula é um tipo especial de hipótese
operacional que reflete a ausência de associação estatística.
Exemplo: Uma amostra aleatória de residentes de Curitiba, com
idades variando de 40 a 59 anos, que atualmente relatam consumo
diário médio de no mínimo 3 xícaras de café com cafeína, têm maior
probabilidade de contrair arteriosclerose coronariana nos próximos 10
anos do que um grupo comparável de indivíduos adultos, que relatam a
não ingestão de café no ano que passou.
Protocolo de estudo é o desenho do estudo específico de

condução, que permite ao investigador traduzir hipóteses conceituais
em hipóteses operacionais. A especificidade do estudo depende do que
se pretende investigar.
João Bosco Strozzi
Provar e falsificar hipóteses
Considerando o seguinte argumento:

Premissas:
1- Se a hipótese conceitual é verdadeira, então a hipótese
operacional também
é verdadeira; e...
2- (há evidência de que) A hipótese operacional não é verdadeira,
então...
Conclusão: A hipótese conceitual não é verdadeira.
Este argumento é dedutivamente válido porque, se as premissas

são verdadeiras, sua conclusão também deve ser verdadeira. É claro
que a segunda premissa pode ser baseada em resultados inacurados,
mas isto não é problema em lógica.
Agora considerando o argumento seguinte:

Premissas:
1- Se a hipótese conceitual é verdadeira, então a hipótese operacional
também
é verdadeira; e...
2- (há evidência de que) A hipótese operacional é verdadeira,
então...
Conclusão: A hipótese conceitual é verdadeira.
Este argumento é inválido porque sua conclusão pode ser falsa, mesmo
que suas premissas sejam verdadeiras. Isto acontece porque o fato da
hipótese operacional ser verdadeira não quer dizer que a hipótese
conceitual tenha que ser verdadeira. Este erro do raciocínio lógico é
denominado "Falácia da Afirmação da Conseqüência", e demonstra que
as hipóteses não podem ser provadas ou confirmadas puramente
através do teste empírico, mas, outrossim, podem ser falsificadas ou
refutadas, como no primeiro exemplo.
O problema de não se poder confirmar uma hipótese conceitual provém

da nossa inabilidade de traduzi-la perfeitamente em hipótese
operacional. A hipótese conceitual sempre contém informações que
diferem ou que não estão contidas nas hipóteses operacionais. Deste
modo, podemos dizer que todos os protocolos de estudo contém viéses.
Por isso, é importante a elaboração de atributos chave no desenho do
estudo, para que possamos entender as limitações da pesquisa
empírica, principalmente em estudos observacionais.
João Bosco Strozzi
A hipótese nula pode, então, ser rejeitada ou aceita. Existem dois

possíveis erros em testes de hipóteses:
1- Erro tipo I (): é cometido se nós rejeitarmos a hipótese nula

quando, na verdade ela é verdadeira.
2- Erro tipo II (): é cometido se nós aceitarmos a hipótese nula
quando, na verdade, ela é falsa e a hipótese alternativa é verdadeira.
As relações entre os erros tipo I e II podem ser melhor visualizadas na

Tabela de contingência, a seguir.
Relações entre  e .
Hipótese Nula
Decisão Verdadeira Falsa
Rejeita Ho Erro tipo I Correto
alfa 1-beta
Aceita Ho Correto Erro tipo II
1-alfa beta
Tanto o Erro tipo I quanto o Erro tipo II são definidos pelo investigador
no momento em que há a definição do tamanho amostral.
Normalmente,  é predeterminado em 5% e  em 20%. Isto vem a ser:
- com o  determinado em 5%, nós assumimos que aquela amostra que

tiramos da população tem uma margem de erro de 5%. Assim, 1- nos
diz que em 95% das vezes iremos aceitar a relação entre nossas
variáveis de estudo como sendo ao acaso, e em apenas 5% iremos
assumir que as variáveis têm uma associação verdadeira.
Se nós determinarmos  em menos de 5%, teremos uma maior

precisão, e vice-versa. Em estudos de laboratório, costuma-se usar
=1%.
- com o  determinado em 20%, dizemos que o nosso poder de rejeitar

uma hipótese nula falsa é da ordem de 80%. Este valor é considerado
como ideal, pois é o  que mais interfere no tamanho da amostra. Se
nós reduzirmos um pouco do , iremos ter que aumentar em muito o
tamanho da amostra, aumentando muito os custos por um pequeno
aumento de poder de rejeição da hipótese nula. Se você determinar o 
em 20%, dificilmente estará fora da faixa de poder ideal.
João Bosco Strozzi
O tamanho da amostra é, então, determinado por uma negociação entre

 e , assim como o tipo de estudo, o tamanho da população e o grau
de contraste entre as variáveis de estudo. Existem softwares que fazem
este cálculo, mediante parâmetros pré-determinados. Um exemplo de
software é o EpiInfo, que é fornecido pela OMS, gratuitamente.
Vocês, provavelmente, estão familiarizados com um p minúsculo, que

aparece nos estudos científicos. Normalmente o p aparece assim:
p<0,05; ou p<0,01; ou p=0,09; ou no lugar do p as letras NS.
Este p é o resultado dos testes de hipóteses. Digamos que você quer

saber se o valor médio de glicemia associado com exercícios físicos
regulares encontrada na sua amostra difere com o valor médio de
glicemia da população de onde os indivíduos foram selecionados. Você
encontra 86 mg/dl e faz um teste de hipótese. Se, neste teste, você
encontrar um p=0,04, isto quer dizer que a diferença entre o valor
médio de glicemia associado com exercícios físicos regulares tem apenas
4% de chance de ser devido ao acaso. Você começa a acreditar que
exercícios físicos regulares podem diminuir a glicemia. Neste caso, você
rejeita a hipótese nula e aceita a hipótese alternativa.
Veja o exemplo abaixo:
A curva da população mostra uma distribuição com média 110 e uma

variação que é nitidamente diferente do que a curva da amostra. Note
que a amostra foi feita apenas com pessoas que faziam exercícios físicos
regulares, enquanto que na população estão agrupadas as pessoas que
fazem exercício e as que não fazem exercício.
Note também que a curva da amostra representa apenas uma amostra

dentre as infinitas amostras que podem ser tiradas de uma mesma
população.
João Bosco Strozzi
Se, a curva da amostra fosse superposta à da população, então

diríamos que o exercício físico não altera a glicemia. Aceitaríamos a
hipótese nula.
Para =5%: p<0,05 ---> estatisticamente significativo

p<0,01 ---> altamente significativo
p>0,05 ---> Não Significativo (NS)
Como encontrar o valor de p
Existem várias maneiras de encontrar o valor de p. Isto irá depender do

teste de hipóteses a ser aplicado.
Regra geral, os testes podem ser subdividido em dois tipos:
1- Paramétricos: são aqueles em que a análise de médias faz sentido.

Usam-se as variáveis intervalares e/ou as razões.
Exemplos: variável intervalar: idade, peso, altura, etc.
razões: batimentos por minuto, respiração por minuto, etc.
2- Não Paramétricos: são aqueles em que a análise é feita sobre

contagens. Médias não fazem sentido. Usam-se variáveis nominais e/ou
ordinais.
Exemplos: variável nominal: sexo, estado civil, cor, etc.
variável ordinal: estadio de câncer, escala de dor, etc.
I- No primeiro caso, de testes paramétricos, podemos exemplificar o

teste do z-score e o teste t-student. A diferença entre ambos é que o z-
score serve apenas para amostras grandes, enquanto que o t-student
serve para testar diferenças entre médias de duas ou mais amostras e
pode ser feito em amostras menores. Um bom número para diferenciar
amostras grandes de amostras pequenas é 100. (chamado de número
mágico, aliás existem vários números mágicos em estatística)
João Bosco Strozzi
z-score:
Para encontrar o z-score em uma tabela z, é necessário que

transformemos o desvio padrão da amostra em unidades padrão (UP).
As UP nada mais são do que o número (ou a fração) do desvio padrão.
Digamos que você tem uma distribuição onde a média é de 45 e o
desvio padrão é de 8. Uma observação de valor 25 estará distribuída a
quantos desvios padrão da média? Simples: 45-25=20. 20 é a
diferença entre a média e a observação. Em termos de desvio padrão,
esta diferença (ou distância) da média será de 20/8= 2,5. Ou seja, a
observação estará a -2,5 unidades padrão da média (o z é negativo
porque 25 é menor do que 45).
Este valor, em unidades padrão, é o valor de z que iremos buscar na

tabela do z-score, a seguir:
João Bosco Strozzi
z % área z % área z % área z % área z % área z % área z % área

0,00 50,00 0,50 69,15 1,00 84,13 1,50 93,32 2,00 97,72 2,50 99,38 3,00 99,87
0,01 50,40 0,51 69,50 1,01 84,38 1,51 93,45 2,01 97,78 2,51 99,40 3,01 99,87
0,02 50,80 0,52 69,85 1,02 84,61 1,52 93,57 2,02 97,83 2,52 99,41 3,02 99,87
0,03 51,20 0,53 70,19 1,03 84,85 1,53 93,70 2,03 97,88 2,53 99,43 3,03 99,88
0,04 51,60 0,54 70,54 1,04 85,08 1,54 93,82 2,04 97,93 2,54 99,45 3,04 99,88
0,05 51,99 0,55 70,88 1,05 85,31 1,55 93,94 2,05 97,98 2,55 99,46 3,05 99,89
0,06 52,39 0,56 71,23 1,06 85,54 1,56 94,06 2,06 98,03 2,56 99,48 3,06 99,89
0,07 52,79 0,57 71,57 1,07 85,77 1,57 94,18 2,07 98,08 2,57 99,49 3,07 99,89
0,08 53,19 0,58 71,90 1,08 85,99 1,58 94,29 2,08 98,12 2,58 99,51 3,08 99,90
0,09 53,59 0,59 72,24 1,09 86,21 1,59 94,41 2,09 98,17 2,59 99,52 3,09 99,90
0,10 53,98 0,60 72,57 1,10 86,43 1,60 94,52 2,10 98,21 2,60 99,53 3,10 99,90
0,11 54,38 0,61 72,91 1,11 86,65 1,61 94,63 2,11 98,26 2,61 99,55 3,11 99,91
0,12 54,78 0,62 73,24 1,12 86,86 1,62 94,74 2,12 98,30 2,62 99,56 3,12 99,91
0,13 55,17 0,63 73,57 1,13 87,08 1,63 94,84 2,13 98,34 2,63 99,57 3,13 99,91
0,14 55,57 0,64 73,89 1,14 87,29 1,64 94,95 2,14 98,38 2,64 99,59 3,14 99,92
0,15 55,96 0,65 74,22 1,15 87,49 1,65 95,05 2,15 98,42 2,65 99,60 3,15 99,92
0,16 56,36 0,66 74,54 1,16 87,70 1,66 95,15 2,16 98,46 2,66 99,61 3,16 99,92
0,17 56,75 0,67 74,86 1,17 87,90 1,67 95,25 2,17 98,50 2,67 99,62 3,17 99,92
0,18 57,14 0,68 75,17 1,18 88,10 1,68 95,35 2,18 98,54 2,68 99,63 3,18 99,93
0,19 57,53 0,69 75,49 1,19 88,30 1,69 95,45 2,19 98,57 2,69 99,64 3,19 99,93
0,20 57,93 0,70 75,80 1,20 88,49 1,70 95,54 2,20 98,61 2,70 99,65 3,20 99,93
0,21 58,32 0,71 76,11 1,21 88,69 1,71 95,64 2,21 98,64 2,71 99,66 3,21 99,93
0,22 58,71 0,72 76,42 1,22 88,88 1,72 95,73 2,22 98,68 2,72 99,67 3,22 99,94
0,23 59,10 0,73 76,73 1,23 89,07 1,73 95,82 2,23 98,71 2,73 99,68 3,23 99,94
0,24 59,48 0,74 77,04 1,24 89,25 1,74 95,91 2,24 98,75 2,74 99,69 3,24 99,94
0,25 59,87 0,75 77,34 1,25 89,44 1,75 95,99 2,25 98,78 2,75 99,70 3,25 99,94
0,26 60,26 0,76 77,64 1,26 89,62 1,76 96,08 2,26 98,81 2,76 99,71 3,26 99,94
0,27 60,64 0,77 77,94 1,27 89,80 1,77 96,16 2,27 98,84 2,77 99,72 3,27 99,95
0,28 61,03 0,78 78,23 1,28 89,97 1,78 96,25 2,28 98,87 2,78 99,73 3,28 99,95
0,29 61,41 0,79 78,52 1,29 90,15 1,79 96,33 2,29 98,90 2,79 99,74 3,29 99,95
0,30 61,79 0,80 78,81 1,30 90,32 1,80 96,41 2,30 98,93 2,80 99,74 3,30 99,95
0,31 62,17 0,81 79,10 1,31 90,49 1,81 96,49 2,31 98,96 2,81 99,75 3,31 99,95
0,32 62,55 0,82 79,39 1,32 90,66 1,82 96,56 2,32 98,98 2,82 99,76 3,32 99,95
0,33 62,93 0,83 79,67 1,33 90,82 1,83 96,64 2,33 99,01 2,83 99,77 3,33 99,96
0,34 63,31 0,84 79,95 1,34 90,99 1,84 96,71 2,34 99,04 2,84 99,77 3,34 99,96
0,35 63,68 0,85 80,23 1,35 91,15 1,85 96,78 2,35 99,06 2,85 99,78 3,35 99,96
0,36 64,06 0,86 80,51 1,36 91,31 1,86 96,86 2,36 99,09 2,86 99,79 3,36 99,96
0,37 64,43 0,87 80,78 1,37 91,47 1,87 96,93 2,37 99,11 2,87 99,79 3,37 99,96
0,38 64,80 0,88 81,06 1,38 91,62 1,88 96,99 2,38 99,13 2,88 99,80 3,38 99,96
0,39 65,17 0,89 81,33 1,39 91,77 1,89 97,06 2,39 99,16 2,89 99,81 3,39 99,97
0,40 65,54 0,90 81,59 1,40 91,92 1,90 97,13 2,40 99,18 2,90 99,81 3,40 99,97
0,41 65,91 0,91 81,86 1,41 92,07 1,91 97,19 2,41 99,20 2,91 99,82 3,41 99,97
0,42 66,28 0,92 82,12 1,42 92,22 1,92 97,26 2,42 99,22 2,92 99,82 3,42 99,97
0,43 66,64 0,93 82,38 1,43 92,36 1,93 97,32 2,43 99,25 2,93 99,83 3,43 99,97
0,44 67,00 0,94 82,64 1,44 92,51 1,94 97,38 2,44 99,27 2,94 99,84 3,44 99,97
0,45 67,36 0,95 82,89 1,45 92,65 1,95 97,44 2,45 99,29 2,95 99,84 3,45 99,97
0,46 67,72 0,96 83,15 1,46 92,79 1,96 97,50 2,46 99,31 2,96 99,85 3,46 99,97
0,47 68,08 0,97 83,40 1,47 92,92 1,97 97,56 2,47 99,32 2,97 99,85 3,47 99,97
0,48 68,44 0,98 83,65 1,48 93,06 1,98 97,61 2,48 99,34 2,98 99,86 3,48 99,97
0,49 68,79 0,99 83,89 1,49 93,19 1,99 97,67 2,49 99,36 2,99 99,86 3,49 99,98
João Bosco Strozzi
t-student:
O teste de t-student é normalmente utilizado quando queremos testar a

diferença entre duas ou mais médias. Neste caso, nós usaremos a
tabela do t-student, que tem uma variável a mais, que é o chamado
Grau de Liberdade (GL).
Grau de Liberdade é um termo cunhado para explicar até onde vai a

probabilidade. Por exemplo, se você tem em um saco 3 bolinhas brancas
e 3 bolinhas pretas. Você vai tirando as bolinhas, sem reposição.
Quantas bolinhas você precisa retirar para acertar todo o conteúdo? A
resposta é 5, pois ao tirar 5 bolas, aquela restante, por exclusão já é
conhecida mesmo sem ter que tirá-la do saco.
A tabela do t-student é montada já levando em consideração esta

possibilidade, ou seja, exclui-se tudo aquilo que não é probabilidade.
Para encontrar o valor do t-student, em amostras independentes (a

maioria), você aplica a fórmula:
(X1  X 2 )
t
1 1 onde:
Sp 
n1 n 2
X1 = média da primeira amostra

X2 = média da segunda amostra
Sp = a média ponderada entre os desvios padrões das duas amostras.
n1 = tamanho da primeira amostra
n2 = tamanho da segunda amostra
O Sp é calculado assim:
(n1  1) 1 2  (n2  1) 2 2

Sp 
n1  n2  2
DF= n1 + n2 - 2
Depois de achado o valor de t, você vai até a tabela t-student, e procura

o valor de p, seguindo o número de graus de liberdade (GL).
João Bosco Strozzi
Note que as fórmulas acima seguem uma hipótese nula de que X 1 é

igual a X2. Você pode ter uma hipótese nula de que X 1 - X2 seja maior do
que zero, então a fórmula fica um pouco diferente.
II- No segundo caso, de testes paramétricos, o teste mais aplicado é o

teste do qui-quadrado, ou simplesmente 2 .
Vamos assumir a tabela abaixo:
Doença
S i m N ã o T o t a l
S i m 1 4 3 0 4 4
Fator de
N ã o 6 5 0 5 6
Exposição
T o t a l 2 0 8 0 1 0 0
Você quer saber se a associação entre o fator de exposição e a doença é

significativa ou não.
Em primeiro lugar, você assume que a distribuição do fator de exposição

e da doença são fixos, ou seja, as margens são fixas. Note que você
quer testar apenas a associação entre as variáveis e não a prevalência
delas na população.
Baseado nesta premissa, você irá, então, estimar como seria esta
tabela, dentro da hipótese nula, de que as variáveis não estivessem
associadas. Você faz assim:
João Bosco Strozzi
Veja a tabela com apenas símbolos:
Doença
S i m N ã o T o t a l
Fator de
S i m a b n 1
Exposição
N ã o c d n o
T o t a l m 1 m o N
Estime cada célula assim:
a = (m1*n1)/N
b = (mo*n1)/N
c = (m1*no)/N
d = (mo*no)/N
No nosso exemplo:
a = (20*44)/100 = 8,8
b = (80*44)/100 = 35,2
c = (20*56)/100 = 11,2
d = (80*56)/100 = 44.8
Agora, que você já tem os valores observados (constantes na tabela

acima) e os valores estimados, você calcula o 2 através da fórmula:
 (O  E ) 2 
 2    onde
 E 
O = valor observado
E = valor estimado
No nosso caso:
 (14  8,8) 2   (30  35,2 ) 2   (6  11,2 ) 2   (50  44 ,8) 2 

2       11,2  =
 8,8   35,2     44 ,8 
2 = 3,07+0,77+2,15+0.60 = 6.59
João Bosco Strozzi
Em tabelas, os graus de liberdade são dados por:
GL = (NC - 1)(NL - 1)
Onde: NC = número de colunas

NL = número de linhas
O 2 tem uma tabela padrão, que é acessada através de graus de

liberdade, pois estamos comparando mais de um atributo, como se
fossem duas amostras distintas (doentes e expostos).
Nesta tabela, para 1 GL, qualquer valor acima de 3,84 é significativo, e

o p será <0,05.
O 2 tem as suas limitações. Não é aconselhável que se faça o teste do

2 se em alguma célula tivermos valor abaixo de 5. No caso de tabelas
com células abaixo do valor 5, aconselha-se o teste exato de Fischer,
que não tem uma fórmula, pois depende de um processo iterativo,
realizado por computador. Você poderá realizá-lo no EpiInfo.
Coeficiente de Correlação de Pearson [r]
O coeficiente de correlação “r” é uma medida de associação. É bom

lembrar que associação não é a mesma coisa que “causação”. Duas
variáveis podem estar associadas, sem que uma tenha nada a ver com a
outra. Veja o caso da associação entre consumo de coca-cola e o
número de casos de poliomielite. A associação existia porque ambas o
aumento das duas variáveis ocorria no verão, e era o calor do clima que
provocava o aumento tanto de uma como da outra variável, dando a
impressão de que a ocorrência de uma causava a ocorrência da outra.
O “r” pode variar de -1 a +1.
Sendo que quando o “r” for -1, existe uma correlação perfeita e inversa
(ou negativa) entre as duas variáveis em estudo. Se o “r” for igual a +1,
então a correlação é perfeita e direta (ou positiva). Se o “r” for igual a
zero, então podemos afirmar que não existe correlação entre as
variáveis.
O “número mágico” que utilizamos, ou seja o ponto de corte para uma

associação é o valor 0,50, tanto positivo quanto negativo. A partir de
-0,50 dizemos que existe associação inversa entre as variáveis, e esta
João Bosco Strozzi
associação cresce em força à medida que o “r” se aproxima de -1. A

partir de +0,50 dizemos que existe associação direta entre as variáveis,
e esta associação cresce em força à medida que o “r” se aproxima de
+1.
Um valor de “r” de +0,95 nos indica que há uma associação forte e

positiva. E se for de
-0,95 a associação é forte e negativa.
Diagrama de dispersão
Quando queremos demonstrar pictoricamente a associação entre duas

variáveis, utilizamos o diagrama de dispersão.
Veja os exemplos de relações entre duas variáveis quaisquer:
No gráfico A, existe uma correlação positiva, com um “r” aproximado de

+0,85. No gráfico B o “r” é de aproximadamente -0,85 e no gráfico C, o
valor de “r” está em torno de zero (não há correlação).
Existe uma reta que funciona de forma parecida como a média

aritmética em relação às observações de uma distribuição. Assim como
a média representa todas as observações, a reta dos desvios padrão
representa todos os pontos que são o encontro entre os valores da
variável do eixo dos y com a variável do eixo dos x. Esta reta é formada
por dois pontos, o encontro das médias (y e x) e o encontro dos das
“médias + desvio padrão” (y e x).
É importante saber sobre esta reta, pois se tivermos a sua equação,

poderemos estimar uma observação qualquer do eixo dos x, a partir do
conhecimento de uma variável do eixo dos y.
João Bosco Strozzi
O cálculo do “r”
Para saber o valor de “r”, primeiramente teremos que saber a média e o

desvio padrão da variável do eixo dos y, e a média e desvio padrão da
variável do eixo dos x. Uma vez descobertas estas medidas, nós
deveremos encontrar os desvios que cada observação representa em
relação à média, isto para cada variável. Achados estes desvios, nós
iremos transformá-los em uma unidade única, que é chamada de
unidade padrão. Para fazer isto, nós iremos dividir cada um dos desvios
encontrados pelo desvio padrão da distribuição (tanto para a variável do
y como do x). Note que até aqui, nós trabalhamos com ambas as
variáveis isoladamente.
Depois de achadas as unidades padrão de y e x, nós iremos multiplicá-

las entre si. É neste momento que estamos procurando a relação entre
elas. Os produtos destas multiplicações será então somado, e depois
divido pelo número de observações (que é o mesmo tanto para y como
para x, pois estamos estudando observações pareadas (cada uma nos y
corresponde a uma nos x). Com isto, nós teremos uma média dos
produtos das unidades padrão.
Veja o exemplo:
Altura Desvios Unidades Produto das Unidades Desvios Altura

No das mães (y) da Média (y) Padrão (y) Unid. Padrão Padrão (x) da Média (x) das filhas (x)
Xi (Xi-Xy) (Xi-X)/DPy (UPy)(UPx) (Xi-X)/DPx (Xi-Xx) Xi
1 165 3,2 0,44 0,13 0,30 1,5 168
2 164 2,2 0,30 0,21 0,71 3,5 170
3 168 6,2 0,86 1,13 1,32 6,5 173
4 158 -3,8 -0,53 0,81 -1,52 -7,5 159
5 149 -12,8 -1,78 0,54 -0,30 -1,5 165
6 167 5,2 0,72 -0,36 -0,51 -2,5 164
Xy = 161,8 Soma= 2,47 Xx = 166,5
DPy= 7,2 Média= 2,47/6 = 0,41 DPx= 4,9
r = 0,41
O coeficiente de correlação “r” é +0,41 indicando que há uma correlação

fraca e positiva entre altura das mães e altura das filhas.
Neste caso em particular, embora 5 entre os 6 pares de dados nós

tivéssemos filhas maiores do que as mães, a correlação não foi mais
forte (r<0,50) porque o desvio padrão entre as alturas das mães foi
muito maior do que entre as alturas das filhas. Ou seja, uma variável
era mais heterogênea do que a outra.
João Bosco Strozzi
Vale a pena frisar que uma grande associação não implica em que uma
variável seja responsável pela ocorrência da outra. No exemplo anterior,
nós observamos que a altura da mãe era associada com a altura da
filha. Mesmo que a associação tivesse um “r” de +1,0, ainda assim não
poderíamos afirma que o simples fato de ser nascida de mãe alta irá
garantir um grande altura para a filha. Existem outros fatores que
intervêm, como por exemplo a altura do pai, as condições de
alimentação, inexistência de algum defeito dos hormônios do
crescimento e etc. Para buscarmos a associação causativa de uma
variável sobre outra, devemos observar alguns critérios.
Medicina Baseada em Evidências (MBE).
Atualmente, vem ganhando força um termo que talvez possa substituir

a palavra epidemiologia, que é a Medicina Baseada em Evidências
(MBE).
A Medicina Baseada em Evidências nada mais é do que a epidemiologia

moderna, que é considerada hoje como parte da solução ao processo
falimentar dos sistemas de saúde vigentes no planeta.
A MBE, juntamente com um processo americano denominado Manage

Care, são considerados os salvadores de um sistema que vem sendo
montado no mundo todo que funciona, dependendo do modelo, em duas
formas:
1. Medicina baseada na demanda: é a mais convencional das

formas de atendimento médico, em que o médico atende às pessoas
doentes, as examina, solicita exames complementares e prescreve
medicação. Esta modalidade, é um processo que depende da doença, ou
seja, se não houver doença instalada, o processo não se desenvolve.
2. Medicina baseada em oferta: é a mais cruel forma de medicina,

que foi instalada mais recentemente, com o advento da alta tecnologia.
É uma medicina que prioriza os exames complementares. Na verdade,
os exames deixam de ser complementares para serem os principais
protagonistas do processo de diagnose. Esta modalidade de medicina
surgiu nos Estados Unidos e é movida principalmente por conta dos
inúmeros processos que são instaurados por má prática médica, que faz
com que os médicos exagerem em exames para a garantia de um bom
diagnóstico. As terapias mecanizadas também são priorizadas.
João Bosco Strozzi
A falência de tanto um como o outro tipo de sistema é baseada nas altas

taxas de internação hospitalar e nas altas taxas de solicitações de
exames complementares, muito deles de alto custo.
Para combater a escalada de custos médicos, a própria tecnologia vem

dando um certo apoio, como no caso das cirurgias de consultório ou as
cirurgias com reduzido tempo de internação hospitalar. Isto, porém é
apenas um paliativo, pois estes procedimentos ainda são caros. Espera-
se que, com sua popularização, possam se tornar mais baratos.
O grande salto qualitativo para a redução dos custos médicos, no

entanto, é baseado em dois pontos:
1. Controle rigoroso das solicitações de exames e de internações

hospitalares: é o chamado manage care. Nesta modalidade, o trabalho
médico fica sendo auditado a todo o instante, tanto no pré-
procedimento, como no pós-procedimento.
2. Análise constante e rigorosa dos procedimentos: esta análise

visa a maior eficiência nos atendimentos médicos, tanto ambulatorial
como hospitalar. É a MBE. Deste modo, procura-se sempre o ponto de
equilíbrio entre a necessidade e o exagero. Por exemplo: qual a idade
ideal para uma mulher começar a fazer o exame de esfregaço de cérvix
uterina (Papanicolau)? Qual a periodicidade ideal? Qual o valor preditivo
positivo do teste de Papanicolau? ou então - Qual a real vantagem da
tomografia computadorizada em relação ao exame físico?
Estas duas modalidades de atuação não são mutuamente exclusivas,

pelo contrário, são sinérgicas. É partir de uma minuciosa análise dos
benefícios e dos malefícios dos exames e terapias que pode-se fazer o
controle destes procedimentos.
Alguém pode argumentar que, por esta forma de atuação, muitas

pessoas irão ficar em desvantagem, pois serão aqueles que fogem da
estatística, os chamados “outliers”. Para entender melhor o que são os
outliers, é preciso que se entenda como o processo funciona.
Em primeiro lugar é importante que tenhamos consciência de que não

dominamos a medicina e muito menos o processo de saúde e doença.
Nós temos apenas um domínio parcial, daquilo que é mais ou menos
óbvio. Se nós tivéssemos o domínio total de como o processo funciona,
então doenças como a Hanseníase (lepra), que talvez seja a doença
conhecida mais antiga, já deveria ter sido eliminada. A luta contra o
João Bosco Strozzi
câncer, contra a AIDS, contra a diabete, continuam sendo lutas ainda

não ganhas, assim como muitas outras lutas.
O segundo ponto importante é o custo. Por mais que se considere que a

saúde é um investimento e que não deveríamos nos preocupar com seus
custos, infelizmente, os custos são importantes pois sem um rígido
controle sobre eles, teremos a falência do sistema como um todo e
perderemos a condição de tratar e cuidar das pessoas.
Na questão da prioridade, deixa-se de lado algumas pessoas. São

aquelas que não se localizam na curva normal, ou “outliers”. Por
exemplo, digamos que, após dos 35 anos de idade, 97.5% das mulheres
irão se beneficiar com o Papanicolau. Existirá, no entanto, 2.5% de
mulheres que irão se beneficiar do teste antes de completar 35 anos. Se
nós concentrarmos esforços nas mulheres acima de 35 anos,
deixaremos 2.5% de mulheres descobertas, que terão seu diagnóstico
de câncer feito tardiamente. Por outro lado, devemos levar em
consideração que não teremos condições físicas e financeiras de testar
todas as mulheres em todas as idades. Abaixo de 35 anos, teremos um
custo muito alto, para atender apenas a um contingente de 2.5% de
mulheres que poderão ou não ser diagnosticadas. É uma negociação que
deve ser feita. Este é o propósito da MBE.
Medicina Baseada Em Evidências - MBE
O termo também está sendo usado como Saúde Baseada em Evidências.
Introdução
- Problema mundial: sistemas de saúde condenados à falência;
- Custos da tecnologia médica são mais demorados a cair, com a

popularização (Fax vs ECG);
- Custos dos serviços médicos também são mais resistentes a cair;
- Medicina baseada na oferta, e não na demanda;
- O que vem a ser “exame complementar”? ;
- Maior carreamento de recursos de saúde para as “super-

especialidades”.
João Bosco Strozzi
MBE
- É uma ferramenta de trabalho, hoje muito utilizada no que os

americanos denominam de manage care.
- Esta ferramenta tem por finalidade o uso dos métodos e princípios

epidemiológicos, para a busca da eficiência e conseqüente realocação e
readequação de recursos financeiros, em diagnose e terapia.
- É, por natureza, observacional, mas também pode-se utilizar de

experimentos;
Diagnose
- Mental: recolhimento de informações sobre sinais e sintomas,

comparado com o acúmulo de conhecimento;
- MBE: transformação do processo mental em processo probabilístico,

visível e passível de tomadas de decisão padronizadas e mais eficientes.
- Tanto o processo mental (transparente) como a MBE (visível) se

utilizam do teorema de Bayes. Uma composição de probabilidades
condicionais, que resultam no diagnóstico mais provável.
Funcionamento:
- O teste diagnóstico (que pode ser tanto clínico como laboratorial) é

uma comparação entre as evidências encontradas no paciente, com as
evidências constantes na descrição das patologias pertinentes àquelas
evidências que, para terem sido descritas, necessitaram de inúmeros
estudos descritivos e analíticos.
- Todo diagnóstico tem uma seqüência lógica, bem definida e aceita:
- a história clínica
- o exame clínico
- o exame complementar
- o exame patológico (biópsia ou autópsia)
- A alteração visual do órgão afetado é aceita como a mais fidedigna

evidência diagnostica.
João Bosco Strozzi
- O embasamento da MBE é elaborado no acúmulo probabilístico de

diagnose entre as fases citadas na seqüência lógica do diagnóstico.
- Cada patologia tem características próprias, e podem ser

diagnosticadas em momentos diferentes da seqüência lógica de
diagnose.
- Tanto sintomas como sinais são evidências sobre o diagnóstico.

Algumas evidências são mais claras do que outras. A prevalência da
doença na população, por exemplo, é um tipo de evidência.
- Se estivermos em um franco surto de gripe, uma pessoa que chegue

ao consultório médico com um quadro de coriza, espirros freqüentes,
febrícula ocasional, lacrimejamento; há uma forte evidência de que isto
seja gripe. Porém, se na região não se relata a existência de gripe em
anos, então o mesmo quadro deve ser investigado mais
detalhadamente.
- Uma outra evidência importante é a especificidade do sintoma ou

sinal. Se não aparecerem em outras patologias do que nesta que
estamos suspeitando, então fica maior a probabilidade do diagnóstico
estar correto.
Forma de cálculo probabilístico:
- A tabela 2 x 2:
"Gold Standard"
Doença
Sim Não
Teste Positivo A B A+B
(Clínico ou Negativo C D C+D

Laboratorial) A+C B+D A+B+C+D
- Sensibilidade:
A
Se  - probabilidade de apontar positivos verdadeiros.
( A  C)
- Especificidade:
João Bosco Strozzi
D
Sp  - probabilidade de apontar negativos
(B  D)
verdadeiros.
- Valor Preditivo Positivo:

A
Vpp  - probabilidade de predizer o diagnóstico.
( A  B)
Prevalência:
Pr= (A+C)/(A+B+C+D) -probabilidade de ocorrência da doença.
O Teorema de Bayes
1- Tem-se a probabilidade do sintoma ser positivo em presença da

doença. Esta informação é parte integrante da descrição da doença.
- Esta é uma probabilidade condicional, ou seja, é a probabilidade do
sintoma, dado que o indivíduo é portador da doença.
- Sua descrição: P(S|D)
2- Tem-se (ou deverá ter-se) a prevalência da doença no grupo

populacional em estudo.
-É a probabilidade de encontrarmos alguém do grupo populacional em
estudo, que seja portador da doença.
- Sua descrição: P(D)
O teorema de Bayes, tem a seguinte fórmula:
P ( S | D) P ( D)
P ( D| S ) 
P ( S | D) P ( D)  P ( S | nD) P ( nD)
ou seja, busca-se a probabilidade do diagnóstico da doença, vinculada

ao sintoma.
Por outro lado, note que:
P(S|D) é o mesmo que a sensibilidade (Se)

P(D) é o mesmo que a prevalência (Pr)
P(S|nD) é a proporção de falso-positivos no estudo. Isto é o mesmo que
1-Sp, a unidade menos a especificidade.
João Bosco Strozzi
P(nD) é a proporção de pessoas que não apresentam a doença na

população, ou seja, é o mesmo que 1-Pr ou 1-P(D).
P(D|S) é o valor preditivo positivo
Substituindo os termos, temos que:
( Se)(Pr)
Vpp 
( Se)(Pr)  (1  Sp)(1  Pr)
Note que, para um Vpp1, é necessário que a Sp (especificidade) seja

alta, e que a Pr (prevalência) também seja alta, pois assim numerador e
denominador serão próximos da igualdade.
Exemplo:
Um paciente da raça negra chega ao consultório com tosse há mais de 1
mês. Sabendo que:
- a probabilidade de tosse há mais de um mês em tuberculosos
pulmonares é de 80%;
- que a prevalência de tuberculose entre membros da raça negra,
na região estudada é de 14%;
- que a prevalência de tosse crônica em membros da raça negra
que não sejam tuberculosos, na região é de 8%;
Podemos aplicar o teorema de Bayes, assim:
( 0.8)( 0.14)
P ( Tb| Tosse) 
[( 0.8)( 0.14)]  [( 0.08)( 0.86)]
cujo resultado é = 0.619 ou 61.9%

Isto quer dizer que o sintoma simples de tosse há mais de 1 mês, nesta
comunidade de raça negra tem um valor diagnóstico de 61.9%.
João Bosco Strozzi
Interpretação:
- Criou-se, arbitrariamente, zonas de decisão, da seguinte forma:
- P(D|S) entre 0 e 20% - não testar, não tratar.

- P(D|S) entre 20 e 80% - testar (mais especificamente)
- P(D|S) entre 80 e 100% - Tratar
- Com as informações dadas, o paciente da raça negra, oriundo daquela

região, deveria fazer exames mais específicos (escarro e/ou RX),
independentemente de qualquer outro sintoma.
- Note que o “S” da fórmula pode tanto ser um sintoma, como o
resultado de um teste de Papanicolau, ou mesmo combinações de
sintomas, sinais ou exames complementares.
- Note que o médico já faz, intuitivamente, este cálculo mental, porém
com muita probabilidade de erro.
- A função primordial da MBE é corrigir os erros mentais, e funcionar
como ferramenta (local) de formação de protocolos de diagnose e
tratamento.
BIBLIOGRAFIA:
Estatística:
1- Statistics Freedman D; Pisani R; Purves R W.W. Norton &

Company New York-London- 1980
2- An Introduction to Statistical Methods Ott L PWS-Kent Publishing

Company, Boston 1988
3- Statistical Methods in Câncer Research Breslow N E; Day N E

International Agency for Research on Câncer, Lyon 1987
Epidemiologia
1- Modern Epidemiology Rothman K J Little, Brown and Company,

Boston-Toronto 1986
2- Epidemiologia & Saúde Rouquayrol M Z Editora Médica e Científica

Ltda 1993
3- Epidemiologic Research Kleinbaum D G; Kupper L L; Morgenstern H

Van Nostrand Reinhold, New York 1982
João Bosco Strozzi
4- SUS Pense - Uma reflexão epidemiológica sobre o SUS e outras

aplicações acadêmicas
Strozzi J B Editora Cebes, Londrina, 1997
5- Epidemiologia Clínica: Elementos Essenciais Fletcher & Fletcher

Artes Médicas Porto Alegre, 3a Edição, 1996
Filosofia
1- Philosophy of Natural Science Hempel C G Prentice-Hall, Inc,

Englewood Cliffs, NJ 1966

Bioestatistica Apostila2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bioestatistica Apostila2

Enviado por

Direitos autorais:

Formatos disponíveis

Curso de Especialização em saúde do Trabalho – Bioestatística 13

João Bosco Strozzi

Modelos de Causação de Doenças

A primeira e mais importante dicotomia do pensamento científico

Determinismo: dentro do modelo determinístico, a causação é

Determinismo Puro: de acordo com o modelo determinístico, X (o

1. O expositor é causa necessária se todos os casos foram

Determinismo Modificado: na moderna concepção do

Em cada um dos conjuntos que formam as causas suficientes I, II

determinada doença, então não poderemos identificar conjuntos de

Modelo probabilístico: como complemento do modelo

Critérios para Intervenção

1. Magnitude: diz respeito à prevalência da doença. Devemos priorizar

2. Vulnerabilidade: quanto mais vulnerável for a doença ao

3. Transcendência: é o impacto que a doença traz para a comunidade.

Uma amostra funciona como um exame de sangue. Ao retirarmos uma

Em estatística, nós retiramos amostras de populações. Existem várias

As amostras não probabilísticas são aquelas com maior possibilidade de

Por definição, a amostra não probabilística é aquela obtida através da

Exemplo: Um investigador, médico, tem um conjunto de 70 pacientes

A amostra probabilística usa do conceito de probabilidade para a escolha

a - Amostra aleatória simples: é a melhor de todas, porque é a que

O jogo de bingo é um exemplo de amostra aleatória simples sem

b- Amostra Aleatória Estratificada: é muito parecida com a amostra

Os sorteios são realizados após a subdivisão em estratos. Há que se ter

c- Amostra Sistemática: esta modalidade de amostragem é baseada

Após um início aleatório, os registros são coletados sistematicamente.

d- Amostra por Conglomerado: este tipo de amostragem é aquele

Normal, Não-normal e Anormal

Você é interpelado por algum parente que porta

Para melhor entender como se define normal, não-normal e anormal, é

Imagine que em uma clínica são cadastradas 20 consultas de

A Média das idades é: 60,2 anos.

O Desvio Padrão é: 14,1 anos

Os pacientes de cardiologia tinham 60,2 anos, ± 14,1 anos.

Distribuição de Freqüências: para dar uma melhor noção da

No exemplo dos cardíacos do primeiro exemplo, veja a distribuição em

Desta forma, você pode observar em que faixas etárias estão

A distribuição de freqüência é mais importante quando se tem muitos

Porém, se tivermos realmente uma grande quantidade de dados e

Gráficos: são uma forma de apresentação de dados, de maneira

No caso dos cardíacos, um gráfico de colunas seria como a seguir:

Onde, no eixo dos x, estão as faixas etárias; e no eixo dos y, as

Histograma: é um tipo especial de gráficos de coluna, com a diferença

Se, ao invés de termos apenas 20 consultas, nós tivéssemos, digamos,

Toda a inferência estatística é baseada na possibilidade dos dados se

Curva Normal: construída a partir de um andaime, que é o histograma,

1- sua área é de 100%;

Por convenção, dizemos que tudo o que está entre -2 e +2 é normal, e

Exemplo: um indivíduo muito baixo não é necessariamente um anão,

Note que o termo não-normal é usado em estatística e se refere a

Os resultados dos exames complementares, que vocês estão

Uma hipótese é uma premissa de que um determinado fator pode vir a

Filosofia Popperiana: "Teorias não podem ser provadas, o único avanço

1. Explica mais adequadamente resultados encontrados

Dentro da filosofia Popperiana é que chegamos à conclusão de

1. Hipótese conceitual: ou simplesmente hipótese, no contexto de

2. Hipótese operacional: é a predição mensurável ou expectativa

Protocolo de estudo é o desenho do estudo específico de

Provar e falsificar hipóteses

Considerando o seguinte argumento:

Este argumento é dedutivamente válido porque, se as premissas

Agora considerando o argumento seguinte: