A Metodologia Básica de Investigação

Investigao e Estatstica
com o EpiInfo
PARTE 1
A metodologia bsica de investigao
Antnio Paula Brito de Pina - 2005
com o EpiInfo
A metodologia bsica de investigao

Ao contrrio do que muitos julgam, no basta saber Estatstica para fazer Investigao,
atendendo que:
1- A Estatstica nunca d certezas, d apenas probabilidades baseadas em pressupostos
fictcios ..., tal como explicaremos na Parte 2 desta brochura.
2- Os resultados estatisticamente significativos podem no ter relevncia...,
nomeadamente quando a amostra muito grande, porque possvel obter resultados
estatisticamente significativos nas pequenas diferenas encontradas entre dois subgrupos da
amostra, mesmo quando estas diferenas, alm de pequenas, so pouco importantes.
3- Os resultados da Estatstica podero dar-nos uma ideia sobre a eventual associao
entre variveis, mas nunca nos revela a relao de causalidade... Por exemplo, a Estatstica
poder demonstrar que determinados perfis psicopatolgicos podero estar associados
toxicodependncia mas, saber se esta psicopatologia que leva toxicodependncia, ou viceversa, s pode ser respondido tendo em conta o desenho do estudo, nomeadamente um desenho
que permita saber o que que acontece primeiro (as perturbaes psicopatolgicas ou a
toxicodependncia).
4- Se os dados que introduzimos no computador para fazer os clculos estatsticos no
forem os correctos, a interpretao dos resultados poder ser impossvel ou levar a concluses
totalmente erradas... Por exemplo, se quisermos comparar o peso de dois grupos, e utilizarmos
uma balana diferente para os dois grupos poderemos obter resultados enganadores... Este
problema inclui-se nos denominados vieses de informao!
5- Se o enquadramento terico do estudo no for o correcto, fcil chegar a concluses
erradas porque os resultados estatsticos so esprios... Um exemplo de uma de uma associao
espria a associao estatisticamente significativa entre o nmero de telemveis existentes num
pas e o nmero de doenas cardacas. Um aprendiz a investigador poderia concluir erradamente
que a influncia das ondas dos telemveis poderia provocar um aumento das doenas
com o EpiInfo
cardiolgicas. Sucede no entanto que os pases onde h mais telemveis so tambm os mais
ricos e, devido sobre-alimentao, tm com maior frequncia doenas cardacas. Assim, h
aqui uma terceira varivel escondida, que pode provocar uma associao estatisticamente
significativa mas totalmente espria. Esta terceira varivel denomina-se de confundimento
porque produz um vis de confundimento.
Outro exemplo dum vis de confundimento em investigao o que aconteceu num
estudo efectuado h alguns anos, sobre os efeitos de deixar de fumar. Verificou-se ento que a
maioria dos fumadores que largavam o mau hbito, morriam mais frequentemente no primeiro
ano que os que continuavam a fumar. A concluso lgica seria que qualquer fumador deveria
manter o seu hbito ... Sucede que, infelizmente, muito dos fumadores que deixam de fumar,
fazem-no porque j se sentem doentes, o que aumenta a probabilidade de morrerem no ano
seguinte, enquanto os outros ainda se sentem saudveis e em muitos casos ainda o esto...
O que se passou neste estudo que no se controlou o efeito de uma varivel de
confundimento fundamental: o fumador j estava doente ou no, quando deixou de fumar? Estas
questes tm a ver fundamentalmente com o desenho do estudo e no com a Estatstica.
Assim, para iniciar um trabalho de investigao necessrio seguir vrias regras para
evitar escorregadelas. A primeira regra de ouro que antes de avanar para o trabalho de campo
fundamental sempre elaborar um protocolo que nos guie no futuro. Para isto teremos que
seguir uma sequncia de passos que nos pouparo muitos problemas e dissabores...
A sequncia que vou expor pode ser parcialmente modificada, nomeadamente as fases
posteriores podero obrigar a reconsiderar as fases iniciais, mas genericamente sempre a
sequncia a utilizar.
1- Identifique o assunto a investigar

a) Quais so as perguntas que o investigador prope?
Clarifique estas perguntas que quer ver respondidas pelo estudo. No seja vago. Formule
poucas perguntas e restrinja o mais possvel os objectivos do seu estudo, caso contrrio arrisca-se
a sentir-se completamente perdido quando comear o seu trabalho de campo. Quanto menos
objectivos um estudo tiver, maiores sero as suas probabilidades de xito.
com o EpiInfo
Por outro lado, um outro bice importante em estudos com muitos objectivos que
podero ser necessrios desenhos diferentes de estudo e amostras com dimenses diferentes para
os diferentes objectivos, o que complica muito a sua conduo.
b) Qual a investigabilidade do problema?
necessrio verificar se existem tabus ou outros obstculos culturais ou polticos que
impossibilitem a investigao. Existem ainda questes ticas relativamente possibilidade de
colher alguns dados privados. Alguns estudos experimentais como por exemplo, os ensaios
teraputicos, tm tambm de seguir normas ticas muito estritas, atendendo perigosidade para a
sade dos indivduos que neles participam.
c) pertinente gastar recursos para tentar conseguir respostas a tais perguntas?
evidente que devemos ter imediatamente o pragmatismo necessrio para identificar as
perguntas que esto muito para alm das nossas possibilidades e recursos. Por outro lado, h aqui
tambm uma questo tica. Mesmo que hajam recursos para investigar um problema, caso este
seja menos pertinente que outros problemas existentes, no ser tico gastar os recursos nesta
investigao, pois isto ir anular a oportunidade de investigar o assunto realmente pertinente. Isto
uma considerao tica importante quando se tem dinheiro para investigar um assunto
particular...
d) O que que j se sabe ou foi publicado sobre o assunto?
Trata-se de fazer o enquadramento terico ou definio conceptual do problema, ou seja,
definir o que se sabe de universal sobre o assunto. Repare que aqui necessrio fazer uma
reviso bibliogrfica sobre o tema, onde poderemos descobrir que outros j encontraram resposta
para algumas das nossas perguntas. Na reviso bibliogrfica poderemos tambm encontrar ideias
novas sobre como conduzir o nosso estudo (Anexo 1- A reviso bibliogrfica).
Esta definio conceptual do problema permite tambm identificar as variveis que
deveremos controlar para no confundirem as nossas concluses.
e) Quais so as hipteses a comprovar?
A enunciao de hipteses s poder acontecer se ns tivermos j uma descrio das
caractersticas do problema. Por exemplo, se estiver descrito que a frequncia de uma
com o EpiInfo
determinada doena diferente em duas populaes, poderemos formular a hiptese de que essa
diferena est associada a uma diferena de um determinado factor de risco entre as duas
populaes.
Quando falamos em hipteses estamos a falar de perguntas sobre a relao entre
variveis, para as quais ns vamos tentar encontrar respostas concretas, atravs da observao
planeada dos factos (no caso anterior, a pergunta poderia ser formulada da seguinte forma: est a
varivel "doena" associada varivel "factor de risco"?)
Repare-se que as hipteses so apenas fundamentais em estudos analticos ou
experimentais. Um estudo descritivo no necessita de hipteses: basta-lhe descrever as
caractersticas do fenmeno.
2- Identifique as variveis a estudar

a) Quais so as variveis?
As variveis descrevem as caractersticas do atributo a medir.
Num estudo descritivo bastar fazer a anlise de forma isolada para cada varivel: a
anlise univariada.
Num estudo analtico as variveis j esto enunciadas nas hipteses e tentar-se- verificar
a associao ou no destas: a anlise bi ou multivariada.
importante definir quais sero as nossas variveis. A primeira definio conceptual.
Por exemplo, se quisermos saber quantos toxicodependentes existem numa populao, temos
primeiro que definir conceptualmente o que , para o nosso estudo, ser "toxicodependente". Ser
fumador toxicodependente? Ou apenas os consumidores de drogas ilcitas o so?
Tambm aqui, quanto menor for o nmero de variveis a estudar, maior a probabilidade
de atingir os objectivos. Para um principiante, mais de 15 variveis perigoso...
b) Classifique cada varivel segundo a sua escala de medio.
Agora passamos definio operacional. Vamos supor que considermos que um
fumador era um toxicodependente. H que ainda definir se consideramos que algum que fuma
um cigarro por semana tambm ser considerado fumador, como outro que fuma um mao por
com o EpiInfo
dia. Ou seja, h que definir agora a escala de medio: por exemplo, vamos contar o nmero de
cigarros por dia, ou apenas criamos dois grupos - fumadores/no fumadores?
Sumariamente, tendo em conta a escala de medio, poderemos classificar as variveis da
seguinte forma:
1- Variveis qualitativas nominais, cujos valores no tem uma relao de ordem entre
eles, por ex., o "Sexo" e "Raa". Para este tipo de variveis, poder-se- fazer o estudo das
propores e aplicar-se o Qui-quadrado.
2- Variveis qualitativas ordinais, cujos valores no so mtricos mas incluem relaes de
ordem. o caso da varivel "Peso" medida em 3 nveis (pouco pesados, pesados, muito
pesados). Para este tipo de variveis poder-se- fazer tudo quanto possvel fazer-se para as
variveis nominais, mas tambm adicionalmente possvel estudar as medianas, quartis, modas,
e aplicar o Kruskal-Wallis, a regresso logstica e outros testes no paramtricos.
3- Variveis quantitativas, cujos valores so medidos numa escala mtrica, como por ex.,
a "Idade", ou o "Peso" medido em gramas. Para este tipo de variveis poder-se- fazer tudo
quanto possvel fazer-se para as variveis nominais e ordinais, mas tambm adicionalmente
possvel estudar as mdias, desvios-padro, e aplicar o ANOVA, a correlao e regresso linear,
etc.
Assim, fundamental planearmos que tipo de variveis queremos ter, para sabermos de
antemo quais as provas estatsticas que poderemos aplicar. evidente que as variveis
quantitativas so melhores que as meramente ordinais, e estas so melhores que as nominais,
porque incluem mais informao e so susceptveis de lhes serem aplicadas provas estatsticas
mais potentes.
c) Como vamos proceder medio da varivel?
No caso da varivel peso, ser numa balana? Ser sempre na mesma balana? Faremos 2
ou 3 pesagens e confiaremos na mdia? Ser sem roupa ou com roupa? Confiaremos apenas no
peso que o prprio nos refere? Colhemos o dado da ficha clnica? No caso da varivel "Fumar",
ser atravs de um questionrio, ou atravs de anlise saliva, etc.? E quem que vai colher os
dados - o prprio investigador ou outros indivduos? Se for com um questionrio, como que as
perguntas esto dispostas e em que condies vai ser aplicado o questionrio?
com o EpiInfo
Estas definies so extremamente importantes porque tm a ver com a qualidade da

medio. Aqui pem-se problemas relacionados com a preciso ou repetibilidade e a validade ou
exactido do nosso mtodo. Todos estes problemas podem traduzir-se em vieses de informao.
d) Posicione cada varivel no desenho do estudo.
Quando se querem testar hipteses, o que s possvel em estudos experimentais ou
analticos, til dividir as variveis, segundo as nossas hipteses de estudo, em:
variveis explicativas, ou de exposio, independentes ou preditoras
variveis resposta, ou resultado, ou dependentes
variveis interferentes
muito importante fazer um desenho que clarifique a relao destas variveis, por
exemplo:
V.
Exposio
V.
resultado
V. interferentes
Suponhamos que vamos fazer um estudo em que uma hiptese : o "tempo prvio de
consumo de cannabis" est associado ao "tempo de consumo de herona". Neste caso, o "tempo
de consumo de cannabis" ser uma varivel de exposio e o "tempo de consumo de herona" a
varivel resultado. As variveis interferentes podero ser a idade e o sexo, o nvel educacional,
social, etc. Ou seja, em muitos casos, h variveis que podem interferir e alterar a relao entre
outras duas. possvel que um determinado subgrupo etrio ou apenas um sexo tenha uma
associao positiva entre a varivel de exposio e a do resultado, enquanto o outro subgrupo
tem uma associao negativa! Este um dos problemas mais complexos da investigao, que
vicia frequentemente as concluses e que s se resolve cabalmente com a implementao de um
desenho de estudo experimental.
com o EpiInfo
Apesar de tudo, nos outros estudos possvel controlar razoavelmente o efeito das
variveis interferentes atravs da anlise estratificada (uma anlise independente para cada
estrato da varivel interferente, verificando seguidamente se h alterao dos resultados de um
estrato para outro) e outras tcnicas mais sofisticadas que o EpiInfo disponibiliza (Anexo 2 Controlo das variveis interferentes).
3- Identifique a populao e a amostra a estudar

a) Qual a unidade de observao?
uma pessoa, ou uma famlia, ou outro grupo?
b) A populao vai ser toda estudada?
Enquanto o Universo do nosso estudo poder ser um conjunto de unidades de observao
para as quais no temos uma listagem (p.ex., os toxicodependentes no nosso Pas), a Populao
j um conjunto destas unidades para as quais temos uma listagem (p.ex., os toxicodependentes
existentes no ficheiro dos servios de sade) e, por isso, da qual poderemos extrair uma amostra
de forma aleatria.
Caso a populao seja muito extensa, torna-se impossvel ou muito dispendioso incluir
todas as suas unidades de observao no estudo, pelo que se faz a seleco da amostra.
Claro que a nica forma de termos alguma confiana na representatividade desta amostra
ser fazermos a sua seleco de forma aleatria, para que cada elemento da amostra tenha
exactamente a mesma probabilidade de ser seleccionado. Tambm ser importante calcularmos a
dimenso da amostra, de forma a dar a preciso que queremos s nossas estimativas, o que pode
ser ajudado pelo EpiInfo na seco STATCALC (Anexo 3 - Clculo da dimenso de uma
amostra).
Existem vrios mtodos de seleco aleatria:
1. Seleco aleatria simples: necessrio ter uma listagem de toda a populao, por
exemplo, de todos utentes dum servio de sade, aos quais se atribui um nmero de 1
a x. Posteriormente, ao acaso, seleccionam-se alguns elementos de toda a lista,
geralmente com a ajuda de uma tabela de nmeros aleatrios.
com o EpiInfo
2. Seleco aleatria sistemtica: necessrio tambm ter uma listagem de toda a

populao. Depois seleccionam-se elementos de x em x intervalos, por exemplo,
selecciona-se 1 elemento de 10 em 10 da listagem.
3. Seleco aleatria por conglomerados: necessrio uma listagem dos conglomerados,
por exemplo, uma listagem de escolas da regio. Aps se seleccionar aleatoriamente
um pequeno nmero de escolas desta listagem, estudam-se todos os alunos (ou uma
amostra) de cada escola seleccionada. Repare-se que aqui a primeira seleco
aleatria feita sobre uma listagem de unidades - os conglomerados - que no so as
verdadeiras unidades de observao que interessam. S numa segunda fase, depois de
escolher os conglomerados, se poder fazer uma seleco aleatria a partir de uma
listagem que inclua as verdadeiras unidades de observao - os cidados includos em
cada conglomerado, por exemplo.
4. Seleco aleatria estratificada: necessrio ter uma listagem de toda a populao
com alguma informao adicional (eventualmente socio-demogrfica) da mesma.
Posteriormente definem-se vrios estratos da populao, de acordo com a informao
adicional que j se tinha e, a partir da listagem de elementos de cada estrato, faz-se
uma seleco aleatria de uma amostra em cada estrato.
Os mtodos de seleco no aleatria podero ser utilizados em estudos preliminares,
mas nunca garantem minimamente a representatividade, pelo que os seus resultados devero
sempre ser confirmados com outros estudos.
Por outro lado, mesmo sendo a amostra representativa da populao, no obrigatrio
que a populao seja representativa do universo no atributo a medir. Por exemplo, a populao
de toxicodependentes dos servios de sade quase certamente no so representativos de todos
os toxicodependentes (incluindo aqui os que no tm contacto com os servios de sade).
Todos os erros cometidos na fase da amostragem incluem-se na categoria dos vieses de
seleco.
4- Defina o desenho do seu estudo
com o EpiInfo
Seguidamente tentaremos classificar os vrios tipos de estudos de investigao existentes.

Como costume, os melhores desenhos so tambm os que requerem mais recursos, sendo
geralmente impossveis de executar...
A- Estudos experimentais: so estudos caracterizados por aleatoriamente distribuirmos
uma populao em dois grupos e posteriormente manipularmos as variveis explicativas num
grupo, de forma a estudar o seu efeito nas variveis resultado. O outro grupo serve como termo
de comparao e chama-se o grupo-controlo ou testemunha.
Estes estudos so os mais sofisticados e so os nicos que podero fazer um controlo
eficaz das confuses provocadas pelas variveis de confundimento que desconhecemos,
revelando assim relaes de causalidade. Isto porque ao distribuirmos aleatoriamente os
indivduos pelos dois grupos, temos a garantia de no haver grandes diferenas significativas
entre os grupos, relativamente s ditas variveis de confundimento desconhecidas.
B- Estudos de observao analticos
a) Estudos de coorte
Se pudermos fazer duas ou mais medies ao longo do tempo numa determinada
populao, poderemos saber quais os efeitos que a exposio a um factor ter no final,
comparando os que desde o incio estiveram expostos com aqueles que nunca estiveram expostos
ao factor. Embora possamos ver algumas semelhanas destes estudos com os estudos
experimentais, repare-se que o investigador no faz a diferenciao dos dois grupos de forma
aleatria como acontece nos estudos experimentais, sendo apenas o destino que separa o grupo
exposto do no exposto. Da mesma forma, neste caso, o investigador tambm no tem qualquer
poder de manipulao da varivel de exposio, limitando-se a observar...
Um exemplo prtico estudar numa populao de heroinodependentes qual a forma de
consumo com maior risco de mortalidade ao fim de um ano. Bastaria dividir a populao
segundo a forma de consumo (ex.: injectvel ou no) no incio do ano, e depois, no final do ano,
verificar quantos morreram num grupo e no outro. Estes estudos possibilitam o clculo de taxas
de incidncia e prevalncia, assim como do risco relativo (o EpiInfo efectua estes clculos
automaticamente).
b) Estudos de caso-controlo
10
com o EpiInfo
Podero ser confundidos com os estudos de coorte porque tambm se baseiam em

medies ao longo do tempo, mas aqui os 2 grupos dividem-se tendo em conta os efeitos e no a
exposio. Ou seja, utilizando o exemplo anterior, caso no pudssemos de antemo saber
quantos estiveram expostos ou no, seria sempre fcil diferenciar o grupo entre os que morreram
ou no no final do ano. Se soubermos, atravs de informao colhida num ficheiro, qual a forma
de consumo utilizada no passado, possvel estimar tambm algo aproximado ao risco relativo
que, neste caso, denominado Odds Ratio.
c) Estudos transversais analticos
Os estudos transversais analticos so "fotografias" mas que tambm podero incluir
alguma anlise quando as variveis de exposio e de resultado so persistentes ao longo do
tempo. Por exemplo, possvel estudar a associao entre a varivel sexo (obviamente, quase
imutvel...) e uma determinada doena crnica, numa populao.
C - Estudos descritivos
Um estudo descritivo aquele que ambiciona apenas estimar parmetros de uma
populao, nomeadamente propores, mdias, etc. No necessita de elaborao de hipteses de
estudo pois trata-se apenas de uma "fotografia" da situao. Tais estudos tm a importncia
fundamental de serem sempre o primeiro passo da investigao. Deles nascem as hipteses que
podero ser estudadas em estudos mais sofisticados.
Todos os investigadores e toda a investigao dever comear por aqui.
5- Planeie a recolha e a anlise dos dados

Decida quais sero os suportes de informao que vai utilizar, ou seja, desenhe a ficha ou
a tabela onde vai pr os dados para posteriormente passar para o computador.
Claro que s dever ser utilizado o computador se estiver previsto que vo ser efectuadas
vrias anlises aos mesmos dados (ex.: pedir cumulativamente frequncias, mdias e outros
testes estatsticos). Se estiver previsto apenas saber uma mdia e algumas frequncias,
provavelmente no ser importante utilizar o computador, atendendo que o tempo que levamos a
11
com o EpiInfo
introduzir os dados no compensa os benefcios da sua utilizao. Neste caso, bastar utilizar
uma mquina calculadora!
Finalmente, tendo em conta as hipteses do estudo e a escala de medio das variveis,
decida quais sero os testes estatsticos a aplicar.
A anlise dos dados, depois de colhidos, genericamente efectuada segundo 4 fases:
1- Verificar e corrigir os erros de preenchimento que sempre se cometem na introduo
dos dados (para isto conveniente ver a base de dados em matriz, ou seja, listando
todos os valores de uma ou mais variveis numa tabela; no EpiInfo um bom mtodo
ser clicar em LIST na seco ANALYSIS e seleccionar "update" para fazer as
correces).
Os erros na colheita e transcrio dos dados para as fichas e o computador traduzemse em vieses de informao.
2- Efectuar a anlise univariada: cada varivel estudada isoladamente e de forma
descritiva (frequncias, medianas, mdias, etc.).
3- Efectuar a anlise bivariada: estuda-se a possibilidade de existir algum tipo de relao
entre uma varivel de exposio e uma varivel resposta (Qui-quadrado, Kruskall-Wallis,
ANOVA, etc.).
4- Efectuar a anlise multivariada: estuda-se o efeito das variveis interferentes na
relao entre as variveis de exposio e as de resultado (anlise estratificada, emparelhamento
das amostras, regresso linear ou logstica multivariada, etc.).
6- Interprete os resultados para elaborar um relatrio

J referimos que no bastar aplicar os testes estatsticos para tirar concluses sobre os
nossos dados porque eles podero estar errados ou porque o desenho do estudo pode no ser o
correcto. Assim, fundamental, na hora de concluir o que quer que seja, pensar sempre em todas
as possibilidades de erro nos procedimentos metodolgicos escolhidos. tambm fundamental
revelar todos estes problemas de forma transparente no captulo "Discusso" do relatrio final,
sem tentar camuflar ou esconder estes erros, pois tal comportamento extremamente grave para
quem suposto estar procura da "Verdade". Fica-nos a consolao que todos os estudos
12
com o EpiInfo
cometem erros e tm limitaes, pelo que se o nosso os no cometeu, ser muito de desconfiar, a
no ser que tenhamos sido orientados por alguma entidade divina.
Na hora de interpretar os resultados, poderemos classificar todas as possibilidades de erro
da seguinte forma:
1- Os erros aleatrios relacionados com o processo de seleco aleatria de
amostragem e que as provas estatsticas medem quando nos informam da
probabilidade de os nossos resultados representarem o que sucede realmente na
populao. Para diminuir estes erros ser necessrio aumentar a dimenso da amostra
at um limite razovel, de acordo com os nossos recursos. No Anexo 3 explica-se
uma forma fcil de calcular a dimenso da amostra, tendo em conta o mximo erro
aleatrio admissvel.
2- Os erros sistemticos ou vieses que podero ser classificados da seguinte forma:
Vieses de seleco.
Tm a ver com o facto de seleccionarmos uma amostra atravs de um mtodo
que no garante a sua representatividade:
a) vieses de admisso, p.ex., quando a nossa amostra seleccionada a partir
de uma populao especial, no representativa da realidade. o caso se
fizermos um estudo baseado na populao de toxicodependentes que vo
aos servios de sade: evidentemente as concluses tiradas de um estudo
como este no podem ser generalizadas para todos os toxicodependentes,
por no incluirem aqueles que no vo aos servios de sade. Relacionado
com esta problemtica est caracterizado o chamado vis de Berkson, que
tem a ver com o facto de quando se estuda uma populao de doentes de
um servio de urgncia hospitalar, encontram-se frequentemente
associaes estatsticas entre doenas que no se encontram associadas,
nem na populao em geral, nem patogenicamente (p.ex., gota e bronquite,
atendendo serem ambas doenas com o denominador comum de
implicarem contactos frequentes com os servios de urgncia).
13
com o EpiInfo
b) vieses de amostragem, p.ex., quando aplicamos um questionrio a uma

amostra de convenincia que "apanhamos" na rua, esta poder ser
constituda s pelos cidados mais simpticos e que mais saiem rua, o
que poder ser muito diferente dos cidados em geral! A nica forma de
evitar este vis fazer sempre a seleco de forma aleatria.
c) vieses de no participao, p.ex., quando muitos elementos da amostra se
recusam a responder ao questionrio.
d) vieses de ausncia de respostas, p.ex., quando no se consegue contactar
todos os elementos da amostra.
e) vieses relacionados com o desaparecimento de elementos da amostra em
estudos longitudinais.
Nos casos referidos nas alneas c), d) e e), importante comparar o grupo da
amostra que no respondeu com o grupo que respondeu relativamente a outras
variveis conhecidas (geralmente scio-demogrficas). Se no h diferenas
estatisticamente significativas entre os dois grupos aumenta a probabilidade de
as no-respostas no terem significado.
Vieses de informao.
Tm a ver com os erros de classificao dos elementos da amostra, erros na
medio das variveis, ou na codificao e recolha da informao. Geralmente
classificam-se segundo dois tipos:
a) vieses do observador (ou de classificao)
14
com o EpiInfo
b) vieses de resposta: o caso de um questionrio que por ser mal feito poder
induzir a maioria dos elementos da amostra a responderem num determinado
sentido...
Estes erros podero ser minorados se houver rigor humano e tcnico, utilizando
instrumentos de medio mais vlidos, etc.
Vieses de confundimento.
Falmos j que importa em estudos analticos classificar as nossas
variveis em trs categorias: variveis de exposio, de resposta e interferentes.
H dois tipos de variveis interferentes: as de confundimento e as
modificadoras de efeito.
O confundimento pode surgir quando uma varivel interferente, neste caso
denominada de confundimento, distorce ficticiamente a associao entre a
varivel de exposio e de resposta, alterando-lhe a fora ou mesmo o sentido.
Um exemplo muito prtico quando o investigador quer saber se h
associao entre o estado civil e o cancro. Possivelmente, encontrar-se- uma
associao positiva entre o facto de se estar casado e ter cancro, pelo que se
poderia tirar a concluso errada que o casamento constitui um risco cancergeno!
A verdade que existe aqui uma varivel de confundimento - a idade - que
distorce a associao! Efectivamente, a idade (v. de confundimento) est
associada tanto ao estado civil (v. de exposio), porque os casados tendem a ser
mais velhos, como ao cancro (v. resposta) porque os doentes de cancro tambm
tendem a ser mais velhos.
Em todos os casos de confundimento necessrio que a v. de
confundimento esteja associada tanto exposio como resposta. Outra forma
de dizer a mesma coisa referir que alm de a v. de confundimento estar
associada resposta, necessrio tambm que os diversos grupos classificados
segundo a v. de exposio (no exemplo atrs apontado: dois grupos casados/solteiros) estarem desajustados quanto v. de confundimento
(efectivamente, a proporo de velhos era diferente entre os casados e solteiros).
Repare-se que isto significa que, de alguma maneira, um confundimento um erro
15
com o EpiInfo
no desenho do estudo, porque no se deve comparar dois grupos desajustados (no

Anexo 2 do-se mais informaes sobre como controlar o efeito destas variveis)!
Finalmente, para decidirmos que uma determinada varivel de exposio poder ter uma
relao de causalidade com uma varivel resposta, deveremos pensar se se cumprem vrios
critrios de causalidade. Existem trs critrios essenciais de "causalidade":
a temporalidade: efectivamente, impossvel um efeito ser anterior sua causa... no entanto,
possvel uma varivel ser anterior a outra e no haver qualquer relao de causalidade...
a associao estatstica: as variveis de exposio tero de estar associadas s variveis efeito
de forma estatisticamente significativa, ou seja, a associao no dever ser fortuita (devida
ao acaso). No entanto, possvel haver associaes causais entre variveis que, em virtude da
pequena dimenso da amostra, no do resultados estatisticamente significativos!
a ausncia de espuriedade, ou seja, ausncia de associaes "artificiais" entre variveis, que
no tm significado prprio (por ex.: a associao entre o estado civil e o cancro, ou nmero
de telemveis e as doenas cardacas ...) provocadas pela interferncia de terceiras variveis
escondidas. Estamos aqui a falar novamente do problema do confundimento em investigao.
Os estudos experimentais so os que melhor podem controlar as confuses que todas estas
variveis interferentes podem provocar. Nos outros estudos, tenta-se controlar estas
interferncias atravs do emparelhamento, da padronizao, ou da anlise estratificada e
multivariada (Anexo 2 - Controlo das variveis interferentes).
Outros critrios de causalidade menos importantes so:
a fora da associao: quanto maior a diferena entre duas populaes quanto frequncia da
doena e do factor de risco, mais provvel ser haver uma associao entre a doena e o
referido factor de risco. A fora da associao mede-se em termos epidemiolgicos pelo risco
relativo (ou odds ratio), risco absoluto, coeficiente de determinao na correlao linear, etc.
No entanto, possvel pensarmos existir uma verdadeira associao causal, embora fraca,
16
com o EpiInfo
quando os resultados, apesar de revelarem pouca fora de associao, so estatisticamente

significativos...
o gradiente biolgico da associao refere-se existncia de uma curva dose-resposta entre a
varivel "causal" e a varivel efeito. No entanto, este gradiente pode existir mesmo sem
relao de causalidade se existirem variveis de confundimento a modificar a associao...
a consistncia: quando a associao se repete em populaes diferentes e em circunstncias
diferentes.
a especificidade: quando a causa leva sempre a um s efeito nico mais fcil estabelecer a
relao de causalidade, no entanto, a maioria das causas de doena ou sade tm efeitos
mltiplos...
a coerncia com as teorias e conhecimentos vigentes, no entanto, se tivessemos que ser
sempre coerentes com o passado nunca evoluiramos...
7 - Comentrios finais
importante escrever o protocolo no computador pois ser seguramente necessrio fazer
muitas modificaes e correces at a forma final! Por outro lado, muito do que se escreve para
o protocolo poder ser utilizado para o relatrio ou artigo a publicar, especialmente para os
captulos de introduo e mtodos.
Faa sempre ainda um cronograma com as suas actividades. mais uma forma de autodisciplina que nos ajuda a levar a bom termo o nosso processo de investigao.
O rigor no cumprimento dos passos do protocolo muito importante mas evidente que
no h estudos perfeitos que nos possam revelar a "Verdade". Assim, depois da elaborao do
protocolo, resta-nos segui-lo com o rigor possvel mas, tambm, com a conscincia das
imperfeies do mesmo. A paixo pela perfeio no nos deve bloquear e, sobre este assunto,
algum disse que em investigao, assim como no amor, uma exagerada concentrao na
tcnica, levar provavelmente impotncia...
17
com o EpiInfo
Atendendo aos erros que todos os estudos incluem, as concluses tm de ser geralmente
cuidadosas e prudentes.
Um remate final: a investigao dever sempre que possvel resultar num

trabalho publicado, pois s aquilo que publicado tem existncia real...
PARTE 2
Noes de estatstica
18
com o EpiInfo
Noes de Estatstica
1. A Estatstica descritiva.
Quando queremos investigar, o primeiro objectivo descrever o fenmeno. Por isso, a
primeira fase de tratamento dos dados a anlise univariada, atravs da verificao das
frequncias e o clculo das medidas de localizao central e de disperso para cada varivel
isoladamente.
Geralmente, no se calculam mais que as seguintes medidas:
as frequncias absolutas (nmeros absolutos de cada valor) e as frequncias relativas
(as propores em percentagens ou permilagens, etc.).
a mdia e desvio-padro
a mediana e desvio-quartil
a moda.
No entanto, as medidas atrs referidas no podero ser calculadas para qualquer tipo de
varivel. Tudo depende da escala de valores de cada varivel, pelo que aqui ser importante fazer
um pequeno parntesis para classificarmos as variveis quanto sua escala. Compreender esta
classificao de importncia crucial para utilizarmos de forma adequada a estatstica.
Sumariamente, poderemos classificar as variveis da seguinte forma:
19
com o EpiInfo
1- Variveis qualitativas nominais: so variveis cujos valores no tem uma relao de

ordem entre eles, por ex., o Sexo e Raa.
Para este tipo de variveis poder-se- fazer o estudo das frequncias absolutas e relativas (no EpiInfo
escolhemos o Comando FREQUENCIES).
2- Variveis qualitativas ordinais, cujos valores no so mtricos mas incluem relaes de

ordem. o caso da varivel "Peso" medida em 3 nveis (pouco pesados, pesados, muito
pesados).
Para este tipo de variveis poder-se- fazer tudo quanto possvel fazer-se para as variveis nominais, mas
tambm adicionalmente possvel estudar as medianas, quartis, modas (Comando MEANS no EpiInfo);
3- Variveis quantitativas, cujos valores so medidos numa escala mtrica, como por ex.,
a "Idade", ou o "Peso" medido em gramas.
Para este tipo de variveis poder-se- fazer tudo quanto possvel fazer-se para as variveis nominais e
ordinais, mas tambm adicionalmente possvel estudar as mdias e desvios-padro (Comando MEANS no
EpiInfo).
Se quiser utilizar o EpiInfo (disponvel gratuitamente em www.cdc.gov/epiinfo), aconselho a

criar uma pequena base de dados, (recomenda-se estudar o "Manual" existente em
http://www.saudepublica.web.pt/EpiInfo/Software/apresentao_epiinfo_2000.htm ),
e que poderemos nomear
"Experincia":
Nome
Joo
Maria
Manuel
Lus
Ana
Data de Nascimento
13-12-1973
10-07-1961
20-11-1980
11-05-1950
15-08-1985
Data Actual
15-12-2000
15-12-2000
15-12-2000
15-12-2000
15-12-2000
Peso
60
55
80
75
50
Sexo
homem
mulher
homem
homem
mulher
Com esta base de dados criada ser mais fcil compreender as provas estatsticas.
1.1.
Interpretar as frequncias absolutas e relativas.
No caso de variveis nominais como o sexo ou a raa, s podero ser calculadas as

frequncias. totalmente impossvel calcular a mdia ou a mediana do sexo porque a escala
20
com o EpiInfo
destas variveis no tem sequer uma relao de ordem. Repare-se que por vezes codificam-se as
variveis com nmeros para introduo no computador, o que torna possvel pedir erradamente
mdias para variveis nominais, embora tais resultados, evidentemente, no tenham significado
nenhum!
No caso de variveis ordinais ou quantitativas, claro que tambm possvel calcular as
frequncias. Por exemplo, suponhamos que sabemos o Peso medido em Kg de 1000 pessoas.
Ser possvel calcular as frequncias de quem tem 40 Kg, 41 Kg, 42 Kg, ..., etc., mas atendendo
ao elevado nmero de pessoas, ser prefervel agrup-las em grupos com o mesmo intervalo, por
exemplo, grupo A (40-45 Kg), grupo B (46-49 Kg), etc., de forma a calcular as frequncias para
cada grupo.
Convm que o intervalo de amplitude dos diferentes grupos seja sempre o mesmo, caso
contrrio, os resultados podero confundir-nos, pois tenderemos a comparar grupos que no so
comparveis! 1
1.2.
Interpretar as mdias, desvios-padro, medianas, etc.
Para alm das frequncias absolutas e relativas j referidas, existem outras medidas
geralmente calculadas para variveis ordinais ou quantitativas, tal como se encontra no Quadro
seguinte:
Escala da varivel
Ordinal ou Quantitativa
Quantitativa
Qualquer escala
Medidas de localizao central

Mediana
Medidas de disperso
Amplitude interquartil / Desvio
Mdia
Moda
interquartil
Varincia / Desvio-padro
-
A Mdia aritmtica assim como o Desvio-padro que lhe est associado, so conceitos
que geralmente oferecem poucas dvidas. So calculados apenas em variveis com a escala
quantitativa. Por exemplo, no tem significado calcular a mdia para o Sexo (varivel nominal)
ou para o Peso medido em escala ordinal.
1
Apesar de tudo, existe a possibilidade de comparar graficamente classes de diferentes amplitudes atravs dos
histogramas que, so grficos em que a rea das colunas representam o nmero de indivduos (ao invs da altura das
colunas). No entanto, apesar deste tipo de grficos ser muito falado nos cursos de estatstica, raramente se vm em
artigos ...
21
com o EpiInfo
O conceito de Mediana, no entanto, gera muitas confuses: a Mediana simplesmente o

valor que se situa a meio da fila ordenada de valores, desde o mais baixo ao mais alto. Assim,
tem que haver uma relao de ordem nos valores, pelo que a Mediana pode ser calculada tanto
para as variveis ordinais como para as quantitativas puras. A partir do exemplo relacionado com
a base de dados "Experincia" criada no EpiInfo, poderemos criar uma nova varivel idade a
partir da data de nascimento e data actual, tal como se explica no Manual sobre o EpiInfo, e
executar o comando MEANS para a idade, obtendo todas estas medidas. Neste exemplo, temos
cinco pessoas com as seguintes idades j ordenadas:
15
20
27
39
50
O nmero 27 representa o valor que est a meio, ou seja, a Mediana. Isto significa que
50% das pessoas tm uma idade igual ou maior que 27 e, evidentemente, os outros 50% tm uma
idade igual ou menor que 27.
O nmero 20 representa o valor que est a meio da primeira metade, ou seja, o primeiro
Quartil ou Percentil 25. Isto significa que 75% das pessoas tm uma idade igual ou maior que 20
e, evidentemente, os outros 25% tm uma idade igual ou menor que 20.
O nmero 39 representa o valor que est a meio da segunda metade, ou seja, o terceiro
Quartil ou Percentil 75. Isto significa que 75% das pessoas tm uma idade igual ou menor que 39
e, evidentemente, os outros 25% tm uma idade igual ou maior que 39.
Claro que a mediana tambm o segundo Quartil e o Percentil 50. No caso deste
exemplo, com um nmero mpar de valores ordenados (cinco), a mediana o valor que est a
meio, mas no caso de um nmero par de valores ordenados, a mediana ter ser calculado
fazendo-se a mdia entre os dois valores que esto a meio.
A Moda o valor mais frequente (ou seja, o que "est na moda"...). Neste caso, como no
existe nenhum valor mais frequente, o EpiInfo d-nos o menor valor (atravs do comando
MEANS), o que no tem significado absolutamente nenhum, podendo mesmo induzir-nos em
erro. O que se passa que quando existem vrias Modas, o EpiInfo apresenta sempre a menor:
ou seja, se numa amostra existem 10 pessoas com 20 anos e 10 pessoas com 30 anos, sendo
todas as outras idades menos frequentes, sucede que existem duas Modas, mas o EpiInfo vai
22
com o EpiInfo
referir apenas a que apresenta o menor valor ou seja, dir que 20 anos o valor mais frequente.
Por isto, se nos interessa referir a Moda, convm verificar se no h outro valor to frequente na
nossa amostra. Para isto basta executar o comando FREQUENCIES, que nos d as frequncias
de todos os valores.
Qual a diferena de interpretao entre a Mediana e a Mdia?
Em primeiro lugar a Mediana pode ser utilizada tanto em variveis quantitativas como em
variveis qualitativas ordinais, enquanto a Mdia s pode ser utilizada em variveis
quantitativas.
Em segundo lugar, no caso das variveis quantitativas, embora a Mdia seja um valor
mais fcil de entender, tem o defeito de nos induzir em erro se a nossa amostra tiver valores
muito extremos. Por exemplo, na distribuio de idades da nossa amostra a Mdia de 30,2 e a
Mediana de 27. Imagine que o indivduo mais velho tinha no 50 anos de idade mas sim 100
anos. Isto faria com que a Mdia saltasse para 40,2, ou seja, seria superior a quase todos os
valores individuais, mas a Mediana continuaria a ser 27. Se olharmos para todos os 5 valores
individuais da nossa amostra, verificamos que o nmero 27 melhor representante da
distribuio global da idade na nossa amostra que o errneo nmero 40,2.
Assim, no caso das variveis quantitativas, quando o valor da Mediana muito diferente
da Mdia, aconselhvel considerar sempre a Mediana como valor de referncia mais
importante.
Alm das medidas de localizao central (mdia, mediana, moda) existem as medidas de
disperso que nos do a ideia da variao dos dados.
Quando se calcula a mdia dever-se- sempre calcular o desvio-padro, apresentando-se a
sua frmula apenas para ficar-se com uma ideia do que representa:
Desvio-padro =
( Xi Mdia )
em que
Xi = Cada valor individual
N = Nmero de todos os valores
Ou seja, para calcular o Desvio-padro necessrio primeiro calcular a Mdia e depois
calcular todas as diferenas entre cada valor individual e a mdia. um erro dizer que o desviopadro a mdia de todas as diferenas, mas podemos senti-lo como algo aproximado.
23
com o EpiInfo
Por vezes, queremos comparar duas variveis quantitativas quanto ao seu grau de
disperso, por exemplo, o Peso (em Kg) e a Idade (em Anos). Esta comparao no poder ser
feita comparando simplesmente os Desvios-padro respectivos, porque estes esto expressos em
unidades de medida diferentes, i.e., no se pode comparar a disperso de Kg com a de Anos! No
entanto, possvel fazer esta comparao em termos relativos, se calcularmos o coeficiente de
variao, da seguinte forma:
Coeficiente de variao =
Desvio padro
X 100%
Mdia
convencionando alguns autores que um coeficiente variao maior que 10% significa que
a disperso forte.
Nas variveis ordinais, como no possvel calcular mdias ou desvios-padro, para
avaliar o grau de disperso, poder-se- calcular a Amplitude interquartil e o Desvio-quartil.
A Amplitude interquartil simplesmente a diferena entre o 3 e o 1 Quartil, ou seja, no
exemplo anterior, 39-20= 19. Repare-se que nesta Amplitude inter-quartil situam-se os 50%
centrais dos valores.
O Desvio interquartil sempre metade da Amplitude interquartil, ou seja, 19/2=9,5.
Tambm possvel, calcular a o coeficiente de variao quartil da seguinte forma:
Amplitude int erquartil
Coeficiente de variao quartil= 3 Quartil 1 Quartil X 100%

Claro que estes clculos tambm podem ser efectuados para as variveis quantitativas.
2. A Estatstica Dedutiva
Para alm da simples descrio dos dados que temos, a Estatstica pretende ajudar-nos a
inferir at que ponto os nossos resultados podero ser representativos da populao que est por
trs da nossa amostra.
Ou seja, suponhamos que retiramos de forma aleatria uma amostra de 100 doentes de
um ficheiro clnico com 1000 doentes. Aps verificarmos que na nossa amostra temos 10% de
mulheres, poderemos perguntar-nos at que ponto, na populao, tambm existe 10% de
mulheres.
24
com o EpiInfo
De facto, devido ao acaso, ao seleccionar aleatoriamente uma amostra, podemos sempre

ter o azar de encontrar 100 sujeitos que so muito diferentes da populao.
intuitivo que quanto maior for a diferena entre a amostra e a populao de origem,
menor ser a probabilidade de isso acontecer. Por outras palavras, a probabilidade de termos uma
amostra semelhante sua populao elevada, mas existe sempre uma possibilidade de a
amostra ser diferente, sendo a probabilidade de isto acontecer tanto menor quanto maior for esta
diferena. Mas, como medir esta probabilidade?
Aqui entram as Provas estatsticas e os seus resultados em termos de probabilidades "p"
de significncia estatstica.
importante referir que existem 3 formas de aplicar os testes estatsticos:
1 - Provas de conformidade, ou seja, para verificar se h diferenas entre uma amostra e
uma populao ( o exemplo atrs referido em que pretendemos saber qual a probabilidade de a
percentagem de mulheres na nossa amostra ser semelhante h que existe na populao de
origem). Por outras palavras, at que ponto a minha amostra representativa da populao?.
2 - Provas de homogeneidade, ou seja, para verificar se as diferenas encontradas entre
dois grupos da amostra sero representativas de diferenas reais na populao de origem. Por
exemplo, atravs do comando MEANS no EpiInfo, podemos ver se as mulheres so diferentes
dos homens quanto varivel idade na nossa amostra. Tambm aqui h a possibilidade de haver
diferenas entre a idade dos dois grupos, mas isto poder ser devido apenas ao acaso e no a
verdadeiras diferenas na populao. As provas estatsticas medem sempre a probabilidade de as
diferenas encontradas serem devidas ao acaso, partindo do pressuposto que na verdade no
existem diferenas na populao. Se a probabilidade encontrada for pequena, teremos mais
confiana em afirmar que as mulheres e os homens tm idades diferentes na populao.
3- Provas de independncia, ou seja, verificar se duas variveis simtricas so
independentes (ex.: se a cor dos olhos independente ou est associada `a raa e at que ponto
isso tambm existe na populao de origem).
Repare-se que o "p" de significncia estatstica, resultante destas provas, d-nos sempre a
a probabilidade de os nossos resultados serem semelhantes ao que existe na populao de origem
(partindo do pressuposto que na populao de origem no h diferenas entre grupos, nem
associaes entre variveis). Geralmente, em cincias da sade, quando estas probabilidades so
25
com o EpiInfo
inferiores a 5%, ou seja, h menos de 5 possibilidade em 100 de suceder um determinado

resultado, ns consideramos que so estatisticamente significativas.
Como este "p" tem a ver apenas com a probabilidade de os nossos resultados se
assemelharem ao que existe na populao, tm uma grande limitao: no nos dizem se as
diferenas encontradas ou a associao entre as variveis so fortes ou importantes! De facto,
nem sempre aquilo que estatisticamente significativo importante! Repare-se: suponhamos que
queremos saber se as mulheres so diferentes dos homens quanto idade. Se aplicarmos um teste
estatstico os seus resultados so tanto mais estatisticamente significativos quando maiores forem
as diferenas entre os dois grupos, e tambm, quanto maior for a dimenso da amostra estudada.
Isto significa que por vezes, pequenssimas diferenas entre os dois grupos podem ser
estatisticamente significativas se a amostra tiver grandes dimenses. Mas a questo que aqui se
pe : so estas pequenssimas diferenas importantes do ponto de vista clnico, social, etc.?
Neste caso particular, o aprendiz de estatstica tender a valorizar um qualquer resultado
estatisticamente significativo, mesmo que este no tenha interesse absolutamente nenhum,
atendendo ter a ver com pequenssimas diferenas...
Em concluso, existem duas dimenses na anlise dos resultados: uma em que a
Estatstica nos diz at que ponto o que vemos na nossa amostra o que existe na populao, ou
seja, at que ponto estatisticamente significativo; outra em que procuramos verificar at que
ponto os nossos resultados implicam associaes entre variveis ou diferenas importantes e
fortes, calculadas atravs de simples subtraces (Diferenas de Riscos) ou quocientes (Risco
Relativo, Odds Ratio, etc). possvel haver uma associao forte nos resultados da nossa
amostra que, no entanto, no sendo estatisticamente significativos, tm pouco interesse porque
no temos garantias de existirem na populao real. Por outro lado, tal como j referimos,
possvel haver uma associao estatisticamente significativa mas que, por ser to fraca, no tem
importncia nenhuma.
Posto isto vamos agora partir para a compreenso dos testes estatsticos no EpiInfo.
2.1- Os intervalos de confiana

Quando solicitamos o comando "FREQUENCIES" para uma varivel como o sexo, por
ex., o EpiInfo d-nos os valores das percentagens de cada sexo e o Intervalo de Confiana de
95% para as mesmas percentagens.
26
com o EpiInfo
Este intervalo de confiana s tem interesse se as percentagens em causa so de uma

amostra seleccionada aleatoriamente de uma populao mais vasta.
Por exemplo, suponhamos que a nossa base de dados "Experincia" (5 elementos em que
3 so homens e 2 so mulheres) representa uma amostra de todos os utentes dum servio de
sade. Nesta amostra poderemos dizer que existem 60% (3/5=0,6) de homens e 40% (2/5=0,4)
de mulheres. Mas ser que as percentagens de cada sexo, em toda a populao de utentes, so
tambm estas? Nunca o saberemos ao certo com estes dados. No entanto, aplicando a prova que
o EpiInfo aplica, poderemos acreditar com uma confiana de 95% que a percentagem de homens
na populao estar algures entre 14,7% e 94,7% e a percentagem de mulheres entre 5,3% e
85,3%2.
Repare-se que neste caso os intervalos de confiana so muitssimos dilatados, atendendo
que a amostra em causa conta com apenas 5 elementos, pelo que o erro de amostragem enorme.
evidente que quanto maior for a nossa amostra, mais pequeno ser o intervalo de
confiana e por isso, mais provvel ser obtermos extrapolaes precisas das verdadeiras
percentagens da populao.
Mas ateno: mesmo este intervalo no uma certeza pois tem uma confiana de 95%,
ou seja, h sempre uma probabilidade de 5% de a verdadeira percentagem estar fora destes
limites...
claro que, se as percentagens em causa forem calculadas tendo por base no uma
amostra mas toda a populao, os intervalos de confiana que o EpiInfo automaticamente vomita
no tm significado absolutamente nenhum, pelo que devem ser ignorados. Um exemplo
quando um mdico introduz os dados de todo o seu ficheiro clnico e depois quer saber a
percentagem de cada sexo para o seu ficheiro. Se o resultado for 35% de mulheres, mesmo
35% sem qualquer dvida ou intervalo de confiana, pois ele quis saber a percentagem de
mulheres do seu ficheiro que, neste caso, est totalmente informatizado.
Finalmente, tenha-se em ateno que se a amostra no aleatria, tambm no ser
legtimo falar-se em intervalos de confiana para a populao, porque aqui a amostra no ser
representativa de nenhuma populao conhecida.
Novamente, segundo os Estatsticos, a interpretao dever ser feita com uma pequena nuance: um Intervalo de
confiana de 95% significar que se seleccionarmos um nmero infinito de amostras sempre da mesma forma
aleatria, em 95% delas, estaro incluidos os valores "verdadeiros" no intervalo de confiana resultante.
27
com o EpiInfo
2.2.- Provas para verificar a associao entre duas variveis qualitativas - o

Qui-quadrado e a Prova de Fisher.
Suponhamos que temos uma amostra de 5 pessoas, para as quais sabemos o sexo e a
idade. O sexo uma varivel nominal, enquanto a idade poder ser quantitativa, caso faamos a
sua medio em "anos". No entanto, neste caso vamos transform-la numa varivel tambm
nominal, criando duas classes - a classe dos adultos e a dos jovens.
Nestes casos, assim como em qualquer caso onde tenhamos duas variveis qualitativas
em jogo, poderemos expor os dados segundo uma tabela de dupla entrada. Tendo em conta o
exemplo j criado no EpiInfo, poderemos criar esta tabela atravs da execuo do comando
TABLES, em que pomos Sexo como varivel de exposio e Grupos etrios (ex.: Jovens com
menos de 18 anos e Adultos) como varivel resposta:
Homem
Varivel
de Mulher
Total
exposio (Sexo)
Varivel "output" (Grupos)

Adultos
Jovens
3
0
1
1
4
1
Total
3
2
5
Tambm na seco STATCALC possvel construir tabelas mas, neste caso, directamente
do teclado, e no a partir de uma base de dados j existente.
Seja como for, face aos dados da tabela exemplificada em cima, pode-se perguntar se o
grupo de "Adultos" diferente do grupo de "Jovens" quanto ao sexo.
Vamos supor que na verdade no existe uma diferena entre os dois grupos quanto ao
sexo na populao de onde vem esta amostra. Novamente, mesmo que seja esta a verdade,
tambm possvel que quando colhemos uma amostra o resultado possa apresentar uma diferena
por questes ligadas ao acaso.
claro que quanto maior for a dimenso da amostra, mais fcil ser identificar diferenas
verdadeiras entre os dois grupos. Tambm, quanto maior for a diferena no gnero sexual entre
os dois grupos, mais provvel ser a existncia desta diferena verdadeira entre os dois grupos.
O Qui-quadrado mede a probabilidade de as diferenas encontradas nos dois grupos da
nossa amostra serem devidas ao acaso, partindo do pressuposto que, na verdade, no h
diferenas entre os dois grupos na populao donde provm. Se a probabilidade for alta
28
com o EpiInfo
poderemos concluir que no h diferenas estatisticamente significativas. Se a probabilidade for

baixa (particularmente menor que 5%) poderemos concluir que o grupo de "Adultos" diferente
do grupo de "Jovens" quanto ao sexo, e de forma estatisticamente significativa.
No entanto, o Qui-quadrado tem limitaes, nomeadamente, dever ser substitudo pela
Prova exacta de Fisher quando os valores esperados nas clulas da tabela so inferiores a 5.
Assim, eu recomendo que se verifique sempre se somos avisados - "Warning: the
expected value of a cell is < 5. Fisher Exact Test should be used". Nestes casos, evidentemente
utilizaremos o "p" unilateral de Fisher ("1-tailed P-value"). Quando no recebemos este aviso
poderemos utilizar o valor "p" do Qui-quadrado no corrigido.
No caso do nosso exemplo o valor "p" do Qui-quadrado seria 0,17 mas o valor a utilizar
deveria ser o de Fisher, ou seja 0,40 (o que significaria que as eventuais diferenas no seriam
estatisticamente significativas).
Quando a tabela tem mais de duas filas e/ou colunas o Qui-quadrado continua a ser
aplicvel, mas a Prova de Fisher no (s o para tabelas de 2x2), pelo que o seu resultado nunca
aparece. O comando TABLES produz a tabela e calcula o Qui-quadrado mas, quando a tabela
superior a 2x2, no nos avisa quando os valores esperados nas clulas so inferiores a 5.
S a seco STATCALC nos d tais avisos pelo que eu recomendo sempre reproduzir
estas tabelas, com mais de duas filas ou colunas, nesta seco. Dever ser aceite o valor de "p"
proposto excepto quando somos avisados que o valor esperado de uma clula inferior a 5.
Nestes casos, como j no podemos utilizar a Prova de Fisher, resta-nos agregar a tabela de
forma a conter menos colunas ou filas, e voltar a aplicar o Qui-quadrado.
Tambm na seco STATCALC existe a possibilidade muito interessante de se fazer a
prova da tendncia linear do Qui-quadrado.
Suponhamos que temos uma tabela do gnero:
1 (no fuma)
Doenas cardacas
(Varivel resultado)
Sim
No
(casos)
(controlos)
5
85
29
com o EpiInfo
Varivel
de 2
(1-15
exposio
cigarros/dia)
(Consumo de 3
(>15
tabaco)
cigarros/dia)
54
41
Fonte:Massons, J.M.D. - Mtodos estadsticos en ciencias de la salud, UD 10 - Barcelona, 11 Ed, ISBN:

84-8049-189-2, 1999.
Neste caso, temos uma varivel de exposio ordenada e uma varivel resultado
dicotmica. Se, fizermos o Qui-quadrado obteremos o seguinte resultado: p=0,0629 .
Este resultado diz-nos que no h diferenas estatisticamente significativas (para um
nvel de significncia convencionado de 0,05) entre os doentes e no doentes quanto ao seu
consumo de tabaco, mas no tem em conta o efeito crescente da varivel exposio.
Se entrarmos em conta com este efeito, no s tornamos mais potente o teste como
poderemos verificar existir uma relao linear entre as duas variveis. o que faz a Prova da
tendncia linear do Qui-quadrado cujo p, neste caso, igual a 0,0206. Ou seja, h uma relao
linear estatisticamente significativa entre o nvel de consumo de tabaco e a existncia de doena
cardaca.
Esta Prova da tendncia linear s poder ser aplicada quando a varivel resposta seja
dicotmica e a varivel exposio seja quantitativa ou ordinal (varivel de categorias ordenadas
em trs ou mais nveis).
Tambm s poder ser aplicada depois de verificarmos que no h valores esperados nas
clulas inferiores a 5. Isto no automaticamente verificado pelo EpiInfo enquanto se faz a
prova da tendncia linear: ter-se- sempre que aplicar o Qui-quadrado convencional na seco
STATCALC, da forma j referida.
2.3.- Provas para verificar a associao entre uma varivel qualitativa e uma
varivel quantitativa - o t de Student / ANOVA e o U de Mann-Whitney / KruskalWallis.
Agora execute o comando MEANS da varivel Idade segundo o Sexo ("crosstabulated by
value of ...").
Alm das Mdias, Desvios-padro, Medianas, Quartis, etc. das idades para os dois sexos,
aqui temos ainda os resultados dos tpicos testes de homogeneidade nos quais a pergunta
"haver diferenas entre os dois grupos (masculino/feminino) quanto idade?".
30
com o EpiInfo
O EpiInfo vomita os resultados do teste ANOVA (correspondem ao teste t de Student

quando aplicado apenas para duas subamostras) e do teste de Kruskal-Wallis (que
correspondem ao teste U de Mann-Whitney/Wilcoxon quando tambm aplicado apenas para
duas subamostras).
O teste ANOVA exige muitos pressupostos pelo que perigoso ser utilizado por
principiantes, especialmente em amostras de pequena dimenso. Em alternativa, recomendo
utilizar sempre os resultados do teste de Kruskal-Wallis porque robusto, muito conservador e
no exige nenhum pressuposto. O Kruskal-Wallis pode ser utilizado para variveis quantitativas
e qualitativas ordinais, tal como a Mediana.
No entanto, caso haja interesse em utilizar o ANOVA, atendendo que quando se cumprem
os seus pressupostos, este teste de facto um pouco mais potente que o Kruskal-Wallis,
recomenda-se faz-lo s nestas circunstncias:
1- A varivel a testar ter de ser quantitativa.
2- Quando os grupos tm dimenses diferentes, dever existir homogeneidade nas
varincias, ou seja, o "p" do teste de Bartlett, efectuado automaticamente pelo EpiInfo deve ser
superior a 0,05. No caso do nosso exemplo 0,9385 pelo que se conclui estar cumprido este
pressuposto.
3- Quando pelo menos um dos grupos tem menos de 30 elementos, devero os diversos
grupos ter uma distribuio Normal. Infelizmente, o EpiInfo no executa qualquer teste para
confirmar esta Normalidade, pelo que se aconselha a nunca aplicar o ANOVA nestes casos.
No caso do nosso exemplo, o grupo de mulheres tem apenas 2 elementos e o grupo de
homens apenas 3 elementos, pelo que nunca se deveria utilizar o ANOVA. Apenas o teste de
Kruskal-Wallis poderia ser aplicado, no sendo as diferenas estatisticamente significativas
(p=0,5637).
3- A fora da associao.
J referimos que existe duas dimenses quando estudamos uma associao entre
variveis: uma em que a Estatstica nos diz at que ponto o que vemos na nossa amostra poder
ser o que existe na populao, ou seja, at que ponto estatisticamente significativo; outra em
31
com o EpiInfo
que procuramos verificar at que ponto os nossos resultados implicam associaes fortes entre
variveis, calculadas atravs de simples subtraces (Diferena de Riscos ou Risco Atribuvel)
ou quocientes (Risco Relativo, Odds Ratio, etc). possvel haver uma associao forte nos
resultados da nossa amostra que, no entanto, no sendo estatisticamente significativos, tm
pouco interesse porque no temos garantias de existirem na populao real. Por outro lado, tal
como j referimos, possvel haver uma associao estatisticamente significativa mas que, por
ser to fraca, no tem importncia nenhuma.
Vamos agora falar de duas importantes medidas da fora da associao - o Risco Relativo
e o Odds Ratio.
Estas medidas s podero ser calculadas em tipos particulares de estudos de observao
analtica - os estudos de coorte e de caso-controlo.
3.1. Estudos de coorte

Se pudermos fazer duas ou mais medies ao longo do tempo numa determinada
populao, poderemos saber quais os efeitos que a exposio a um factor ter no final,
comparando os que desde o incio estiveram expostos com aqueles que nunca estiveram expostos
ao factor.
Um exemplo prtico estudar numa amostra de heroinodependentes qual a forma de
consumo com maior risco de mortalidade ao fim de um ano. Bastaria separar a amostras em dois
estratos segundo a forma de consumo (ex.: injectvel ou no) no incio do ano, e depois, no final
do ano, verificar quantos morreram num grupo e no outro. Estes estudos possibilitam o clculo
de taxas de incidncia e prevalncia, assim como do risco relativo.
Vamos a um exemplo com nmeros.
Suponhamos que definimos que existe um problema de maior mortalidade entre os
toxicodependentes e que seria pertinente estud-lo. Assim, queremos estudar ou identificar
aqueles toxicodependentes que esto em maior risco de morrer. Aps a reviso bibliogrfica e o
conhecimento que j tnhamos do assunto, pomos a hiptese de existir uma associao entre a
forma de administrao da droga e a mortalidade, ou seja, "acreditamos" que o consumo
injectvel poder incluir um maior risco de mortalidade que os outros consumos.
32
com o EpiInfo
Aps termos seguido durante um ano uma amostra de 2000 toxicodependentes, j

caracterizados quanto aos seus consumos, vamos no final caracteriz-los quanto ao seu estado
vital no fim do perodo e dispor os dados numa tabela de 2x2:
Casos de doena ou de outro tipo de evento

Exposio no
incio do
perodo em
estudo
SIM
NO
TOTAL
(bitos durante o ano em estudo?)

SIM
NO
TOTAL
A (200)
B (800)
A+B (1000)
C (50)
D (950)
C+D (1000)
A+C (250)
B+D (1750)
A+C+B+D
(2000)
(Consumos
injectveis?)
Risco Absoluto ou Incidncia Cumulada nos Expostos = A/A+B=200/1000=20%
Risco Absoluto ou Incidncia Cumulada nos No Expostos = C/C+D=50/1000=5%
Diferena Absoluta ou Risco Atribuvel (RA)=Inc. C. nos expostos - Inc. C. nos no expostos =20%5%=15%
Diferena relativa ou Fraco Etiolgica do Risco (FER)= RA/Inc. C. nos expostos= 15/20=75%
Risco Relativo (RR) = Inc. C. nos expostos / Inc. C. nos no expostos =20/5=4
Com estes dados, poderemos calcular o risco absoluto de morrer quando se injecta a
droga (A/A+B=20%) e o risco absoluto de morrer sem este comportamento (C/C+D=5%). A
medio da fora da associao entre as duas variveis poder ser calculada ou atravs da
diferena (20%-5%=15%) ou do quociente entre estes dois riscos (20/5=4). A Diferena de
Riscos frequentemente denominada como Risco Atribuvel (RA) e o quociente entre os dois
riscos corresponde ao denominado Risco Relativo (RR).
33
com o EpiInfo
Repare-se que a fora de associao nula quando o RA for aproximadamente zero, ou

quando o RR for aproximadamente igual a um.
Qual a diferena de interpretao entre o RA e o RR?
Genericamente o RA uma medida importante para avaliar o impacto duma interveno
que diminua a exposio ao factor de risco na comunidade. Assim, no exemplo anterior
poderamos pensar que se consegussemos eliminar os hbitos de consumo endovenosos,
poderamos eliminar os bitos em 15% dos toxicodependentes com consumos injectveis. O RA
a quantidade de risco que pode ser atribuda ao factor em causa: se retirarmos este factor,
continuar a haver bitos, embora devido a outros factores. O RA s tem sentido se tivermos
informao sobre as duas incidncias cumuladas. De facto, se as duas incidncias forem 95% e
80%, o significado de um RA=15% diferente de uma outra situao em que as duas incidncias
so de 20% e 5%. A Fraco Etiolgica do Risco (FER) j relativiza esta informao de acordo
com a incidncia nos expostos, sendo que para estas duas situaes daria resultados diferentes:
15/95=0,16 e 15/20=0,75. Isto significaria que, caso pudssemos erradicar o factor de risco, na
primeira situao haveria uma diminuio de 16% da mortalidade e, na segunda situao, de
75%.
J o RR uma medida mais utilizada em investigao porque d uma ideia mais apurada
da potncia de uma associao causal. Neste caso o RR 4, ou seja o risco de morrer 4 vezes
superior nos expostos que nos no expostos.
Tal como possvel calcular os intervalos de confiana para as frequncias, tambm
possvel calcular intervalos de confiana para o RA, o RR.
O EpiInfo efectua estes clculos quer atravs do comando TABLES (quando j existe
uma base de dados criada) quer atravs da seco STATCALC (nesta seco apenas calcula os
intervalos de confiana do RR e Odds Ratio, de que falaremos a propsito dos estudos de casocontrolo).
Chama-se a ateno que o clculo dos intervalos de confiana de 95% destas medies,
substitui com vantagem qualquer outra prova de significncia estatstica. Repare-se que, se no
intervalo de confiana do RA no estiver includo o "0", ou no do RR no estiver includo o "1",
poderemos afirmar com uma confiana de 95% que existe uma diferena entre o grupo exposto e
no exposto. Por outras palavras, poderemos concluir que existe uma diferena estatisticamente
significativa (para um nvel de significncia de 5%). Por exemplo, segundo o EpiInfo o intervalo
de confiana do Risco Relativo do exemplo mencionado seria 2,97-5,38 o que, atendendo no
34
com o EpiInfo
incluir o 1, significaria haver uma associao estatisticamente significativa entre a forma de

consumo e a mortalidade.
3.2. Estudos de caso-controlo

Podero ser confundidos com os estudos de coorte porque tambm se baseiam em
medies ao longo do tempo, mas aqui os dois grupos dividem-se tendo em conta os efeitos e
no a exposio. Vamos a um exemplo com nmeros.
Suponhamos que queramos estudar exactamente a mesma associao j referido entre a
forma de administrao da droga e a mortalidade. No entanto, ao contrrio do estudo anterior,
no tnhamos disponibilidade de recursos ou tempo para seguirmos durante um ano uma amostra
de toxicodependentes como no exemplo anterior de estudo de coorte. Por outro lado, previsvel
haver poucos bitos (poucos efeitos) no final de um ano pelo que, para implementarmos um
estudo de coorte, teramos que certamente vigiar milhares de pessoas. Isto torna, evidentemente,
um estudo de coorte totalmente impraticvel para a maioria das situaes onde o efeito a medir
pouco frequente (ex: doenas raras, etc). Felizmente, tnhamos a possibilidade de saber nos
ficheiros dos servios de sade quem tinha morrido no ltimo ano. Assim, desenhmos um
estudo de caso-controlo, formado por um grupo de toxicodependentes que morreram e um outro
grupo de sobreviventes. Aos dois grupos verificmos os hbitos de consumo (eventualmente,
atravs da consulta das fichas clnicas) e dispusemos os dados numa tabela de 2x2:
Casos de doena ou de outro tipo de evento

SIM
NO
SIM
A (200)
C (50)
(bitos durante o ano em estudo?)

NO
TOTAL
B (800)
A+B (1000)
D (950)
C+D (1000)
35
com o EpiInfo
Exposio no
incio do
perodo em
estudo
TOTAL
A+C (250)
B+D (1750)
A+C+B+D
(2000)
(Consumos
injectveis?)
Repare-se que esta tabela igual anterior mas os clculos efectuados anteriormente no
tm significado epidemiolgico e so incorrectos. Efectivamente, no poderemos calcular os
riscos absolutos porque no sabemos qual a populao exposta que deu origem a todos os
bitos. Consequentemente, tambm no poderemos calcular o RA e o RR. No entanto,
demonstra-se que, quando o efeito raro (neste caso, os bitos) possvel estimar
aproximadamente o RR num estudo de caso-controlo, dando-lhe neste caso a denominao de
Odds Ratio (OR), da seguinte forma:
OR
A/C
200 / 50
4,75
B / D 800 / 950
O Odds Ratio (OR), que poder traduzir-se como "razo de possibilidades", uma
aproximao estimada do RR, pelo que s tem interesse em estudos onde este no poder ser
calculado, nomeadamente nos estudos de caso-controlo.
O OR e o seu intervalo de confiana interpretam-se da mesma forma que para o RR,
sendo tambm calculados automaticamente pelo EpiInfo (neste caso, o intervalo de confiana de
95% 3,4-6,7 sendo este resultado tambm estatisticamente significativo porque no inclui o
"1").
Bibliografia
Abramson, J.H. Survey methods in community medicine - an introduccion to epidemiological
and evaluative studies. 2 ed. New York: Churchill Livingstone, 1979.
Dean, A.G.; et al. Epi Info 2000, a database and statistics program for public health
professionals for use on Windows 95, 98, NT, and 2000 computers. Atlanta (USA): Centers
for Disease Control and Prevention, 2000.
36
com o EpiInfo
Domnech Massons, Jos M. Mtodos Estadsticos en Ciencias de la Salud. Barcelona

(Espanha): Universitat Autnoma de Barcelona, 1999.
Gerstman,
Burt.
Data
Analysis
With
Epi
Info.
http://www.sjsu.edu/faculty/gerstman/EpiInfo/, Novembro 2000.

Jimnez Villa, J. Como iniciar un trabajo de investigacin. Atencin Primaria, Vol. 5, N 2,
Espanha, 1988.
Serrano, Pedro. Redaco e Apresentao de Trabalhos Cientficos. Lisboa: Relgio D'gua,
1996.
37

A Metodologia Básica de Investigação

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

A Metodologia Básica de Investigação

Enviado por

Direitos autorais:

Formatos disponíveis

Investigao e Estatstica

Antnio Paula Brito de Pina - 2005

A metodologia bsica de investigao

Antnio Paula Brito de Pina - 2005

1- Identifique o assunto a investigar

Antnio Paula Brito de Pina - 2005

Antnio Paula Brito de Pina - 2005

2- Identifique as variveis a estudar

Antnio Paula Brito de Pina - 2005

Antnio Paula Brito de Pina - 2005

Estas definies so extremamente importantes porque tm a ver com a qualidade da

Antnio Paula Brito de Pina - 2005

3- Identifique a populao e a amostra a estudar

Antnio Paula Brito de Pina - 2005

2. Seleco aleatria sistemtica: necessrio tambm ter uma listagem de toda a

4- Defina o desenho do seu estudo

Antnio Paula Brito de Pina - 2005

Seguidamente tentaremos classificar os vrios tipos de estudos de investigao existentes.

Antnio Paula Brito de Pina - 2005

Podero ser confundidos com os estudos de coorte porque tambm se baseiam em

5- Planeie a recolha e a anlise dos dados

Antnio Paula Brito de Pina - 2005

6- Interprete os resultados para elaborar um relatrio

Antnio Paula Brito de Pina - 2005

Antnio Paula Brito de Pina - 2005

b) vieses de amostragem, p.ex., quando aplicamos um questionrio a uma

Antnio Paula Brito de Pina - 2005

Antnio Paula Brito de Pina - 2005

no desenho do estudo, porque no se deve comparar dois grupos desajustados (no

Antnio Paula Brito de Pina - 2005

quando os resultados, apesar de revelarem pouca fora de associao, so estatisticamente

Antnio Paula Brito de Pina - 2005

Um remate final: a investigao dever sempre que possvel resultar num

Antnio Paula Brito de Pina - 2005

Antnio Paula Brito de Pina - 2005

1- Variveis qualitativas nominais: so variveis cujos valores no tem uma relao de

2- Variveis qualitativas ordinais, cujos valores no so mtricos mas incluem relaes de

Se quiser utilizar o EpiInfo (disponvel gratuitamente em www.cdc.gov/epiinfo), aconselho a

e que poderemos nomear

Interpretar as frequncias absolutas e relativas.

No caso de variveis nominais como o sexo ou a raa, s podero ser calculadas as

Antnio Paula Brito de Pina - 2005

Interpretar as mdias, desvios-padro, medianas, etc.

Medidas de localizao central

Antnio Paula Brito de Pina - 2005

O conceito de Mediana, no entanto, gera muitas confuses: a Mediana simplesmente o

Antnio Paula Brito de Pina - 2005

Antnio Paula Brito de Pina - 2005

Coeficiente de variao quartil= 3 Quartil 1 Quartil X 100%

Antnio Paula Brito de Pina - 2005

De facto, devido ao acaso, ao seleccionar aleatoriamente uma amostra, podemos sempre

Antnio Paula Brito de Pina - 2005

inferiores a 5%, ou seja, h menos de 5 possibilidade em 100 de suceder um determinado

2.1- Os intervalos de confiana

Antnio Paula Brito de Pina - 2005

Este intervalo de confiana s tem interesse se as percentagens em causa so de uma

Antnio Paula Brito de Pina - 2005

2.2.- Provas para verificar a associao entre duas variveis qualitativas - o

Varivel "output" (Grupos)

Antnio Paula Brito de Pina - 2005

poderemos concluir que no h diferenas estatisticamente significativas. Se a probabilidade for

Antnio Paula Brito de Pina - 2005

Fonte:Massons, J.M.D. - Mtodos estadsticos en ciencias de la salud, UD 10 - Barcelona, 11 Ed, ISBN: