Tema - Indicadores de Saúde

Epidemiologia
Indicadores de Saúde
Profa. Dra. Ivana Maria Saes Busato

Olá! O vídeo a seguir mostra os conteúdos que serão estudados nesta
aula. Venha conferir!
Introdução
A estatística é uma ferramenta imprescindível a qualquer pesquisador ou

pessoa que necessite tomar decisões. Como disciplina científica, inicialmente
foi utilizada como estratégia mercantil e política, destinada a dimensionar as
doenças e seus efeitos para a Epidemiologia.
Com isso, iniciaremos esta aula com os conceitos básicos da Estatística

aplicada à Epidemiologia, o que dará a base para a compreensão das análises
exploratórias de dados (univariada, bivariada e multivariada).
Conceitos Básicos em Estatística
Ao emitir uma hipótese, o cientista tenta explicar os fatos já conhecidos.
Hipótese é uma suposição que se faz a respeito de alguma coisa, deve estar
fundamentada em uma boa questão de pesquisa, a priori, e deve ser
simples e específica.
Para testar a significância estatística, a hipótese de pesquisa deve ser

formulada de modo que categorize a diferença esperada entre grupos de
estudo.
2 Epidemiologia | Indicadores de Saúde

A hipótese pode ser, ainda:
Variável
Para analisar uma hipótese, é necessário coletar uma variável – uma
característica de interesse que pode ser medida; as variáveis poder ser
independentes e dependentes.
Variáveis independentes são aquelas manipuladas, enquanto as variáveis

dependentes são apenas medidas ou registradas.
As variáveis que assumem valores numéricos são denominadas

quantitativas, e as não numéricas, qualitativas. Uma variável é qualitativa
quando seus valores são atributos ou qualidades (sexo, raça, classe social). Se
tais variáveis possuem uma ordenação natural, indicando intensidades
crescentes de realização, são classificadas de qualitativas ordinais (classe
social baixa, média ou alta). Se não for possível estabelecer uma ordem natural
entre seus valores, são classificadas como qualitativas nominais (sexo
masculino ou feminino).
Epidemiologia | Indicadores de Saúde 3

Já as variáveis quantitativas podem ser classificadas em discretas ou
contínuas. As variáveis discretas são resultantes de contagens e assumem, em
geral, valores inteiros (número de filhos), enquanto as variáveis contínuas
podem assumir qualquer valor dentro de um intervalo especificado e são,
geralmente, resultado de uma mensuração (peso, em kg; altura, em metros).
A validade de um estudo depende da capacidade que as variáveis têm

de representar os fenômenos de interesse. Para isso, devemos considerar:
 Precisão – está na capacidade de reprodução, quando maior for a precisão,

maior o poder estatístico que um determinado tamanho da amostra tem para
estimar os valores médios e para testar a hipótese, ou seja, a questão de
pesquisa. Enfim, uma variável tem valores semelhantes quando medida
várias vezes. A precisão é afetada pelo erro aleatório (acaso) e pode ser
causada pelo observador, sujeito ou instrumento;
 Acurácia – é a capacidade de representar realmente o que deveria

representar, tem influência na validade interna e externa do estudo. Melhor
forma de avaliar a acurácia está na comparação com um padrão de
referência é ameaçada pelo erro sistemático (viés) causado pelo observador,
sujeito ou instrumento.
Os estudos de diferentes variáveis com muita frequência fazem uso de

intervalo de confiança, como em estudos descritivos de prevalência ou
incidência. Se nossos estudos avaliassem toda a população-alvo do estudo,
teríamos plena confiança nos resultados. Contudo, já vimos que isso não é
realizado e, portanto, utilizamos amostras em vez da população.
Ao estudar uma parte da população (amostra), podemos encontrar o acaso, ou

seja, um resultado que difere da realidade. Devemos estimar, portanto, a precisão
estatística do resultado.

Podemos realizar 100 estudos da mesma população, o que traria
diversos resultados. É a variabilidade entre esses resultados que chamamos de
intervalo de confiança. O intervalo de confiança no nível 95% (95% IC)
significa que o resultado está dentro de um intervalo e faz-se a leitura correta
do intervalo de confiança afirmando que, em 95 de 100 amostras hipotéticas, o
resultado está dentro desse intervalo.
Quanto mais estreito o intervalo de confiança, mais precisa é a

estimativa e é exatamente essa a definição estatística para precisão − a
capacidade de um resultado se repetir em diferentes medidas da mesma
realidade. Se a medida em questão possuir um valor que representa a hipótese
nula, podemos usar o intervalo de confiança para obter a significância
estatística.
Não é necessário fazer 100 estudos para calcular o intervalo de

confiança, podemos obtê-lo com apenas um estudo realizado e o fazemos
estudando apenas uma amostra e utilizando fórmulas estatísticas que levam
em consideração o tamanho amostral, a variabilidade de uma variável
contínua ou a frequência do desfecho quando a variável é categórica. Essas
fórmulas nos fornecem o erro-padrão − a medida de incerteza do estudo.
Plano amostral
A inferência estatística é um processo de raciocínio indutivo em que se
procura tirar conclusões partindo do particular para o geral, estudando apenas
alguns elementos dessa população, ou seja, uma amostra, que, a partir das
propriedades verificadas, infere propriedades para a população, utilizando a
probabilidade como instrumento.
Um experimento aleatório tem que satisfazer algumas condições:
1. Poder ser repetido indefinidamente;
2. Ser capaz de descrever todos os possíveis resultados do experimento,

mas não predizer com certeza qual ocorrerá;
3. Obedecer à regularidade estatística.

Métodos aleatórios ou probabilísticos acontecem quando cada elemento
da população tem uma probabilidade conhecida de fazer parte da amostra.
Esses métodos possibilitam a determinação da distribuição de probabilidade e
permitem quantificar o erro de amostragem decorrente da utilização de apenas
uma parte da população.
A probabilidade é um número entre 0 e 1 e mostra o grau de certeza da

ocorrência de um evento associado a um experimento aleatório. A distribuição
de probabilidades associa uma probabilidade a cada resultado numérico de um
experimento.
Por exemplo: no lançamento de um dado, cada face tem a mesma

probabilidade de ocorrência, que é 1/6. Como os valores das distribuições
de probabilidades são apenas probabilidades e como as variáveis aleatórias
devem tomar um de seus valores, temos duas regras, que se aplicam a
qualquer distribuição de probabilidades:
- a somatória das ocorrências possíveis é igual a 1.
(1/6 + 1/6 + 1/6 + 1/6 + 1/6 + 1/6 = 1)
- a probabilidade da ocorrência de um evento está entre 0 a 1.
As distribuições de probabilidade podem ser: discreta ou contínua.

Contudo, vamos abordar somente a distribuição de probabilidade contínua
normal, por ser a mais importante para a Epidemiologia, pois representa as
distribuições de frequência observadas nos fenômenos naturais e físicos.
A distribuição normal acontece quando uma variável aleatória contínua é

normalmente distribuída e seu aspecto gráfico tem a forma de um sino. A curva
representativa dessa distribuição é denominada curva normal ou curva de
Gauss.

Os dados se concentram em torno de uma média e se dispersam
simetricamente a partir desse ponto central. É importante saber que tipo de
distribuição ocorre com os dados, pois isso poderá determinar os testes
estatísticos.
Curva de Gauss
Fonte: <http://www.portalaction.com.br/content/62-distribui%C3%A7%C3%A3o-normal>
Como obter uma amostra?
Chamamos o processo de seleção de uma amostra de amostragem.
Amostra é um subconjunto de elementos pertencentes a uma população.

Para que os resultados retirados da amostra possibilitem inferências válidas,
ela deve ser representativa da população.
Os métodos de amostragem são:
 Não aleatórios – são realizados com a construção da amostra a partir da

informação sobre a população estudada, tentando fazer com que a amostra
seja um espelho fiel dessa população. Esses métodos não permitem calcular
a precisão das estimativas obtidas a partir da amostra; os mais conhecidos

são a amostragem orientada, a amostragem por conveniência e a
amostragem por quotas;
 Aleatórios – podem ser realizados de diversas formas, como colocar, um a

um, todos os números que serão submetidos ao sorteio, retirando alguns às
cegas; ou ainda, usar os números de loteria sorteados nos últimos anos ou
uma tabela de números aleatórios, ou programas de computador para
selecionar aleatoriamente todos os componentes da amostra. Podem ser
realizados de algumas formas de amostragem: aleatória simples, aleatória-
-estratificada, sistemática e por conglomerados.
Assista ao vídeo a seguir, em que vamos complementar os conceitos

sobre amostragem para a Epidemiologia.
Erro amostral
Não há dúvida de que uma amostra não representa perfeitamente uma
população. O importante é que todas as decisões que tomamos – questão de
pesquisa, plano de estudo, população a ser pesquisada – têm inerente um
determinado erro, que pode ser quantificado em termos probabilísticos. Ou
seja, quando utilizamos uma amostra, devemos aceitar uma margem de erro –
que denominamos erro amostral. Esse erro é a diferença entre um resultado
amostral e o verdadeiro resultado populacional. Quando isso ocorre, os
resultados da amostra não refletem a realidade da população, levando a
inferências errôneas.
Acompanhe os tipos de erros:
I. Erro tipo I (falso positivo) – ocorre quando rejeita uma hipótese nula
que é verdadeira na população;

II. Erro tipo II (falso negativo) – ocorre quando se deixa rejeitar (aceita-
-se) uma hipótese nula que não é verdadeira na população.
O tamanho da amostra pode evitar erros tipo I e II. Os resultados “falso negativo”
e “falso positivo” também podem ocorrer em função do viés. Esses erros são mais
difíceis de detectar e exigem conhecimentos avançados de estatística.
Antes de realizar o estudo, o pesquisador determina a probabilidade

máxima tolerada para os erros tipo I e II. A probabilidade de um erro tipo I
(rejeitar a hipótese nula quando ela é verdadeira) é denominado α (alfa),
também chamada de nível de significância estatística.
A probabilidade de um erro tipo II (não rejeitar uma hipótese nula quando

ela for falsa) é denominado β (beta). O valor 1 - beta é chamado de poder do
teste e representa a probabilidade de se rejeitar a hipótese nula na amostra
quando o efeito real na população se iguala à magnitude estimada de efeito.
Muitos estudos estabelecem α como 0,05 e β como 0,20 – o poder de 0,80
representa esperar que 80% de probabilidade de encontrar uma associação
dessa magnitude quando encontrar associação.
α varia de 0,01 a 0,10. Usar alfa baixo quando a questão de pesquisa torna
importante evitar falso positivo (erro tipo I); ex: eficácia de um medicamento ou
tratamento.
β varia de 0,05 a 0,20. Usar beta baixo quando quer evitar o falso negativo (erro
tipo II); ex: opinião pública quanto a realizar ou não um tratamento novo muito
invasivo.
Os erros amostrais resultam de flutuações amostrais aleatórias. Não

temos a capacidade de evitar a ocorrência do erro amostral, contudo podemos
limitar seu valor por meio da escolha de uma amostra de tamanho adequado.

Assim, podemos deduzir que o erro amostral e o tamanho da amostra seguem
sentidos contrários: quanto maior o tamanho da amostra, menor o erro
cometido e vice-versa.
Podemos calcular a amostra usando a média populacional, a partir de

uma fórmula matemática, visando determinar a amostra com base em
informações sobre o grau de confiança desejado (valor crítico = Zα/2), o
desvio-padrão populacional da variável estudada, a margem de erro (ou erro
máximo de estimativa), que identifica a diferença máxima entre a média
amostral e a verdadeira média populacional.
Conheça os valores críticos mais utilizados na amostra, associados ao

grau de confiança:
Grau de Confiança α Valor Crítico Z α /2
90% 0,10 1,645
95% 0,05 1,96
99% 0,01 2,575
Podemos determinar o tamanho de uma amostra com base na

estimativa da proporção populacional, a qual é utilizada quando há
necessidade de determinar a proporção de pessoas de uma população e que
também faz uso de uma fórmula matemática para seu cálculo, aplicada à
proporção já conhecida e à população-alvo para estimar a amostra.
Por exemplo: 10% da população geral com diabetes mellitus; então, para
calcularmos amostra na população da equipe de saúde da família composta
por 4000hab, usamos os mesmos 10% (quando não conhecemos essa
proporcionalidade, usamos 50% como proporção).
Em populações finitas, há a necessidade de outros cálculos. As fórmulas

anteriores partem do princípio que a população de onde se retirava a amostra é

tão grande que podemos considerá-la infinita. Na maioria dos estudos, as
populações não são tão grande em comparação com as amostras e, caso a
amostra tenha um tamanho maior ou igual a 5% do tamanho da população,
considera-se que a população seja finita. Assim, para calcular a amostra para
populações finitas, há a necessidade de se aplicar um fator de correção aos
cálculos que vimos anteriormente.
Análise Exploratória de Dados
A coleta e a organização dos dados faz parte do planejamento do

estudo, o qual inclui, por sua vez, a elaboração do instrumento de coleta dos
dados, com a devida organização das questões de análise em variáveis que
possam ser quantificadas e que serão passíveis de análise exploratória dos
dados.
Quando terminada a etapa da coleta dos dados, estes devem ser

arranjados em forma de tabela, para a maior eficiência na análise. Essa
disposição deve permitir sua análise na maioria dos programas estatísticos
disponíveis. Usando uma planilha do Excel, podemos empregar cada coluna
representando uma variável (ex: sexo, idade, tamanho, salários mínimos, taxa
de mortalidade) e cada linha representa cada unidade de observada (ex:
indivíduos, dentes, casas).
A análise exploratória dos dados tem início com uma primeira

abordagem do conjunto de dados e com a análise do perfil de cada variável
separadamente − chamada de análise univariada. Para explicar algumas
hipóteses (quando incluem duas variáveis), há a necessidade de realizar a
análise bivariada e, quando as análises ficam ainda mais complexas
(introdução de mais variáveis), usa-se a análise multivariada.

Quantas variáveis são
analisadas
simultaneamente?
Uma Duas Mais de

duas
Análise Análise Análise

univariada bivariada multivariada
Fonte: Corrar et al., 2007
Análise univariada
A análise univariada inclui todos os métodos de estatística que permitem
a análise de cada variável separadamente, com métodos de estatística para
cada uma.
A análise univariada é muito utilizada na Epidemiologia porque descreve uma

doença ou um agravo de saúde para compor um perfil epidemiológico.
Após a coleta e a digitação de dados em um banco de dados apropriado,

o próximo passo é a análise exploratória univariada, etapa fundamental, pois
uma análise detalhada permite ao pesquisador familiarizar-se com os dados,
organizá-los e sintetizá-los de forma a obter as informações necessárias do
conjunto de dados para responder as questões que estão sendo investigadas.
Nessa etapa, produzem-se tabelas, gráficos, mapas ou ainda resumos em
medidas numéricas ou estatísticas.
É importante conhecer e saber construir os principais tipos de tabelas e

gráficos e calcular as medidas de resumo para realizar uma boa análise
descritiva dos dados.

Vamos tentar entender como os dados se distribuem, onde estão
centrados, quais observações são mais frequentes, como é a variabilidade etc.,
tendo em vista responder as principais questões do estudo. Cada ferramenta
fornece um tipo de informação e o seu uso depende, em geral, do tipo de
variável que está sendo investigada.
As tabelas de frequência são elaboradas com os valores da variável e

suas respectivas contagens, as quais são denominadas frequências
absolutas ou simplesmente frequências. No caso de variáveis qualitativas ou
quantitativas discretas, a tabela de frequência consiste em listar os valores
possíveis da variável e fazer a contagem na tabela de dados brutos do número
de suas ocorrências. Temos a frequência do valor, a frequência total, a
frequência relativa e, para variáveis qualitativas ordinais e quantitativas em
geral, temos ainda as frequências acumuladas obtidas pela soma das
frequências de todos os valores da variável, menores ou iguais ao valor
considerado.
No caso de variáveis quantitativas contínuas, que podem assumir infinitos, temos

que dividir em classes, calculadas por intervalos de classe.
Medidas de resumo
As medidas estatísticas de resumo são formas complementares da
análise univariada, que podem ser medidas e que informam o “centro dos
dados” e a variabilidade dos mesmos em relação ao “centro”.
Apresentaremos os dois tipos fundamentais: medidas de posição, ou

tendência central, e as medidas de dispersão, ou de variabilidade.

Medidas de posição
Visam localizar o centro de um conjunto de dados, ou seja, identificar um

valor em torno do qual os dados tendem a se agrupar. As mais utilizadas são:
média aritmética, mediana e moda. É possível calcular direto usando as
funções de estatística do Excel.
A média aritmética é a soma de todas as observações dividida pelo

número de observações. Sua fórmula considera cada observação (x 1, x 2, x 3,
...... xn) e o total de observações (n).
Média aritmética = Σ . x / n
Suponha o número de moradores por residência da quadra A da Rua das

Flores (4, 5, 3, 2, 7, 3, 4, 1, 5, 2, 3, 3); calculemos a média aritmética para
descobrir o número de moradores por residência:
4+5+3+2+7+3+4+1+5+2+3+4 /12 = 42/12 = 3,5
A moda é o valor mais frequente no conjunto de dados. Continuando

com o mesmo exemplo anterior, nesse caso, a moda é 3 – o valor que mais se
repete; ou seja, o número de residências por casa que aparece com maior
frequência é 3.
Mediana é o valor que ocupa a posição central dos dados ordenados,

deixando metade dos dados abaixo e metade acima dele. Se o número de
observações for ímpar, a mediana é igual à média aritmética; se for par, será a
média aritmética dos dois valores centrais. Sua fórmula considera as
observações (x 1, x 2, x 3, ...... xn), sendo que n = total de observações.
Mediana = média aritmética para n impar e para n

par = n + ½ que indica a posição da mediana.

No mesmo exemplo anterior, calculando a mediana, devemos colocar em
ordem crescente 1, 2, 2, 3, 3, 3, 3, 4, 4, 5, 5, 7. Como é par, usamos:
12+1/2 = 6,5
As posições seis e sete:
3+3/2 = 3
A mediana de 3 mostra que 50% das residências têm mais do que 3

moradores e 50% têm menos do que 3 moradores.
Além das medidas de posição que estudamos, há outras que não são
medidas de tendência central, mas estão ligadas à sua característica de
separar a série em duas partes que apresentam o mesmo número de valores.
Vamos estudar os quantis, o quartis, o decis e os percentis – medidas que
são, juntamente com a mediana, conhecidas pelo nome genérico de
separatrizes.
Quartis
Denominamos quartis os valores de uma série dividida em quatro partes

iguais. Precisamos, portanto, de 3 quartis (Q1, Q2 e Q3) para dividir a série em
quatro partes iguais. O primeiro quartil é o valor que deixa um quarto (25%) dos
valores abaixo e três quartos (75%) acima dele. O terceiro quartil é o valor que
deixa três quartos (75%) dos dados abaixo e um quarto (25%) acima dele. O
segundo quartil (Q2) é a mediana (50%).
O primeiro e o terceiro quartis fazem o mesmo que a mediana

para as duas metades demarcadas pela mediana.
Decis
A definição dos decis obedece ao mesmo princípio dos quartis, com a

modificação da porcentagem de valores que ficam aquém e além do decil que
se pretende calcular. Indicamos os decis (D1, D2, ..., D9), desse modo,
precisamos de 9 decis para dividirmos uma série em 10 partes iguais.

O mais interessante é o quinto decil, que divide o conjunto em duas partes
iguais. Assim sendo, o quinto decil é igual ao segundo quartil, que, por sua
vez, é igual à mediana.
Percentis
Denominamos percentis ou centis os 99 valores que separam uma série

em 100 partes iguais. Indicamos (P1, P2, ..., P99). É evidente que:
P50 = Mediana − P25 = Q1 − P75 = Q3
O cálculo de um centil segue a mesma técnica do cálculo da mediana,

do quartil e do decil:
Mediana = Q2 = D5 = P50
As medidas de posição fornecem informações valiosas, mas, em geral, não são

suficientes para descrever os diferentes conjuntos de dados. As medidas de
dispersão ou variabilidade permitem visualizar a maneira como os dados se
espalham (ou se concentram) em torno do valor central.
Para mensurarmos essa variabilidade, podemos utilizar as seguintes

estatísticas: amplitude total, variância e desvio padrão; estas podem ser
calculadas direto do Excel. Existem outras medidas de dispersão que não nos
interessam agora; essas são suficientes para a compreensão e a utilização na
Epidemiologia.
Amplitude total
É a diferença entre o maior e o menor valor do conjunto de dados.
Pegando o mesmo exemplo dos moradores por residência da quadra A da Rua

das Flores (4, 5, 3, 2, 7, 3, 4, 1, 5, 2, 3, 3), em que o maior valor é 7 e o menor
é 1, a amplitude total será: 7-1 = 6.
Variância
É uma medida que expressa um desvio quadrático médio do conjunto de
dados e sua unidade é o quadrado da unidade dos dados – representada por
S2.
S2 = Σ (x1 – x)2 /n-1 X = média
Pegando o mesmo exemplo dos moradores por residência da quadra A da

Rua das Flores (4, 5, 3, 2, 7, 3, 4, 1, 5, 2, 3, 3), então:
X = 3,7
S2 = (4-3,7) 2 + (5-3,7) 2 + (3-3,7) 2 + (2-3,7) 2 + (7-3,7) 2 + (3-3,7) 2 + (4-3,7) 2

+ (1-3,7) 2 + (5-3,7) 2 + (2-3,7) 2 + (3-3,7) 2 + (3-3,7) 2 / 12 - 1 = 2,6
Desvio-padrão
É raiz quadrada da variância e sua unidade de medida é a mesma que a
do conjunto de dados. Sua fórmula é: S= raiz quadrada de S2. No mesmo
exemplo anterior, S2 = 2,6; então S = raiz quadrada de 2,6 = 1,6.
Convém organizar o conjunto de dados de maneira prática e racional, e uma das

formas de representação desse conjunto se faz por meio da apresentação gráfica.
Existem várias representações gráficas: gráfico de barras, diagrama

circular ou gráfico de pizza, histograma, gráfico de linha ou sequência e o
boxplot. Para facilitar o conhecimento e a utilização dos gráficos e das tabelas,

separamos por tipo de variável as principais possibilidades de análise
univariada:
Variável qualitativa* Variável quantitativa
Tabela de frequências Tabela de frequências
Gráfico de barras Histograma, boxplot
Diagrama circular (pizza) Gráfico de linha ou sequência
Polígono de frequências
Medidas de resumo
*Essa abordagem também pode ser interessante para as variáveis quantitativas discretas.
A análise univariada como ponto inicial na exploração de dados é

importante para a Epidemiologia. Por isso, aprofunde seu conhecimento,
assistindo ao vídeo a seguir. Confira!
Análise bivariada
A estatística bivariada inclui métodos de análise de duas variáveis,
podendo ser ou não estabelecida uma relação de causa/efeito entre elas.
Lembrando que o principal objetivo da pesquisa em saúde é o estabelecimento
de uma relação de causa e efeito entre duas variáveis, procuramos identificar
uma associação estatisticamente significativa.
Os testes estatísticos visam descartar o acaso nessa associação. Por

isso, devem ser realizados visando avaliar a validade de qualquer associação
estatística (acaso, viés, confundimento) e julgar se a associação encontrada
representa uma relação de causa/efeito.

Todo teste estatístico tem como resultado um número representando a
probabilidade desse acaso, chamado de p-valor (ou valor-p). Há a
necessidade de uma hipótese nula bem-definida para a interpretação da
probabilidade fornecida pelo p-valor. Quando o valor-p é pequeno, indica a
pouca probabilidade da associação ter ocorrido por acaso; assim, podemos
rejeitar a hipótese nula. A associação observada pode ser devida ao acaso ou
não, e essa é a única resposta que obtemos ao se estudar a associação entre
variáveis por meio de um teste estatístico adequado, gerando um p-valor.
Muitos testes estatísticos são elaborados com a premissa de que os

valores seguem uma distribuição normal e são chamados de testes
paramétricos, pois se baseiam nos parâmetros da distribuição normal, a
média e o desvio-padrão. Contudo, quando não podemos perceber ou garantir
que os valores tenham uma distribuição normal, devemos usar os testes não
paramétricos. Mesmo se, na ocorrência de distribuição normal, aplicarmos o
teste não paramétrico, isso não causará erro, somente pode-se perder o poder
do teste em relação ao teste paramétrico.
Assim, torna-se imprescindível, antes da escolha do teste estatístico

para dados contínuos, examinar a distribuição dos dados. Se dados contínuos
apresentam uma distribuição anormal, é necessário escolher um teste não
paramétrico ou transformá-los em uma distribuição normal, aplicando, como
exemplo, uma transformação logarítmica. Existem diversos métodos para a
verificação da condição de “normalidade” nos dados sob análise:
 Gráfico de probabilidade normal;
 Método dos momentos;
 Aplicação do teste “W” − Shapiro-Wilk;
 Aplicação do teste Kolmogorov-Smirnov ou teste de aderência X².
As amostras podem ser classificadas como pareadas ou não pareadas.

Um desenho de estudo comum, usando amostras pareadas, pode ser

constatado quando um grupo de indivíduos é examinado antes e depois de um
determinado tratamento. Amostras independentes são constituídas por
diferentes indivíduos compondo cada grupo.
Quando queremos fazer controle entre os grupos, podemos usar o pareamento,

considerando que dado pareado é constituído por pareamento, garantindo, assim,
uma composição rigorosamente equivalente entre os grupos em termos de
algumas variáveis selecionadas.
Vamos diferenciar dados pareados e não pareados, o que é bastante

importante para a aplicação dos testes estatísticos:
Característica Pareado Não pareado
Distribuição Normal Qualquer uma
Variância assumida Homogênea Qualquer uma
Relação entre dados Interdependentes Qualquer uma
Medidas de localização Média Mediana

central normalmente
usada
Os procedimentos estatísticos clássicos no estudo da associação

bivariada (duas variáveis) seguem o tipo de amostra das variáveis e da
dependência das observações. No quadro a seguir, mostramos os
procedimentos estatísticos apropriados:
Escala de Procedimento Estatístico

mensuração das
Para dados não Para dados pareados
duas variáveis

envolvidas na pareados
associação
Duas dicotômicas Teste X2 (qui-quadrado) Teste X2 de McNemar
Teste Exato de Fisher
Coeficiente φ Coeficiente Kappa

(+IC95%)
RR – risco relativo
(+IC95%) OR pareado – razão de
chance (+IC95%)
OR – razão de chance
(+IC95%)
Duas nominais (2x3, Teste X2 (qui-quadrado) Apenas em matrizes

3x3, 4x2 etc.) quadráticas (3x3, 4x4 etc.)
Coeficiente Kappa
(+IC95%)
Teste X2 de Start-Maxweel
Uma ordinal e outra Teste de Mann-Whitney Teste de Wilcoxon

dicotômica
Uma ordinal e outra Teste de Krusskall-Wallis Teste de Fridman

nominal
Análise Ridit
Duas ordinais Coeficiente de Correlação Apenas em matrizes

de Spearman quadráticas (3x3, 4x4 etc.)
Kappa ponderado
Uma numérica e outra Teste t de Students Teste t pareado

dicotômica
Teste X2 para tendência

Uma numérica e outra ANOVA ANOVA para dados
nominal repetidos
Uma numérica e outra Nenhum procedimento Nenhum procedimento

ordinal simples simples
Duas numéricas Coeficiente de Correlação Correlação Interclasse

de Pearson
Regressão Linear Simples
Fonte: LUIZ et al., 2005
Para aprofundar o conhecimento sobre os testes estatísticos e suas fórmulas,

consulte o capítulo 15 do livro “Epidemiologia e Bioestatística na pesquisa
odontológica”, presente nas referências.
Confira, no vídeo a seguir, a análise bivariada e a definição de alguns

testes estatísticos mais usados em Epidemiologia. Não deixe de assistir!
Regressão linear simples
É um dos modelos causais mais conhecidos e utilizados e consiste em

uma variável dependente relacionada a uma variável independente por uma
equação linear. Busca-se a correlação entre as variáveis quando uma está
relacionada a outra; enfim, quando a variação de valor da variável
independente provoca uma mudança no valor da variável dependente.

Essa correlação é apresentada graficamente pelo diagrama de
dispersão, o qual mostra a relação entre duas variáveis quantitativas. Os
valores de uma variável estão no eixo x (horizontal) para a variável
independente, enquanto da outra estão no eixo y (vertical), para a variável
dependente; cada ponto representa uma unidade medida. Assim, devemos
analisar o diagrama observando a direção (crescente ou decrescente), a forma
(linear, não linear e aglomerados) e os pontos discrepantes.
Quanto maior for a correlação, mais próximo de 45° (crescente)

ou 135° (decrescente) será a distribuição.
Análise multivariada
A análise multivariada se refere a um conjunto de métodos estatísticos
que permite a análise simultânea de múltiplas variáveis para cada unidade
estudada. Inclui, ainda, as diversas abordagens analíticas que consideram o
comportamento de muitas variáveis analisadas em um mesmo momento.
Apenas os métodos de análise multivariada permitem que se explore o

desempenho conjunto das variáveis e que se determine a influência ou a
importância de cada uma, estando as restantes presentes.
Temos diversas opções de técnicas na análise multivariada.

Destacamos as mais discutidas e usadas na literatura científica: regressão
linear múltipla, regressão logística, análise fatorial e análise de conglomerados.
Contudo, nesta aula, vamos abordar apenas a regressão linear múltipla e a
regressão logística.
Regressão linear múltipla
Técnica estatística que analisa a dependência de uma variável

quantitativa em relação a duas ou mais variáveis independentes (quantitativas
ou qualitativas) ou explicativas. Descreve, por meio de um modelo matemático,

a relação entre uma variável dependente quantitativa e duas ou mais variáveis
independentes qualitativas e quantitativas.
Seu ponto principal é a dependência estatística de uma variável em

relação a duas ou mais variáveis. Tem como objetivos encontrar a relação
causal entre as variáveis e estimar os valores da variável dependente a partir
dos valores conhecidos ou fixados das variáveis independentes.
Regressão logística
Técnica de análise multivariada, que permite estimar a probabilidade

associada à ocorrência de determinado evento em face de um conjunto de
variáveis.
No modelo logístico, usamos os valores de uma série de variáveis

independentes para predizer a ocorrência da doença (variável dependente). Na
regressão logística, a variável dependente tem uma variável qualitativa
binominal, sendo 0 (ausência) ou 1 (presença). Assim, todas as variáveis
consideradas no modelo estão controladas entre si.
Essa técnica deve ser usada quando a variável dependente é

dicotômica (qualitativa) e as variáveis independentes forem
quantitativas ou qualitativas.
Para aprofundar o conhecimento da análise multivariada, consulte o livro “Análise

multivariada”, de Corrar et al., presente nas referências.

Assista ao vídeo a seguir para saber mais sobre os tópicos avançados
em Estatística. Confira!
SPSS – Statistical Package for Social Sciences
Existem vários pacotes estatísticos gratuitos e pagos que possibilitam a

realização dos procedimentos estatísticos. O SPSS (Statistical Package for
Social Sciences) é uma dessas opções.
O pacote estatístico SPSS é uma ferramenta para análise de dados que

utiliza técnicas estatísticas básicas e avançadas.
O SPSS é um software de estatística de fácil manuseio,

internacionalmente utilizado há muitas décadas. Para iniciar a análise de
dados, é necessário a construção da base de dados, que é um conjunto de
dados registrados em uma planilha, em forma de matriz, com “n” linhas,
correspondentes aos casos em estudo, e “p” colunas, correspondentes às
variáveis em estudo ou itens de um questionário. O número de casos (número
de linhas da matriz) é, em geral, maior do que o número de variáveis em
estudo (número de colunas).
O SPSS aceita a colagem da planilha do Excel já elaborada, com a

coluna representando as variáveis estudadas e cada linha representando cada
unidade observada; depois cabe ao pesquisador nominar as colunas,
classificando o tipo de variável, o que facilita a análise dos dados.

Para aprofundar o conhecimento sobre o SPSS, consulte o site com o tutorial do
pacote estatístico, na apostila elaborada pela Universidade Federal do Rio Grande
do Sul, de autoria de Mundstock et al., presente nas referências.
<http://www.mat.ufrgs.br/~camey/SPSS/Introdu%E7%E3o%20%E0%20An%E1lis
e%20Estat%EDstica%20utilizando%20o%20SPSS%2013_0.pdf>
Síntese
Assista ao vídeo a seguir, no qual apresentaremos uma síntese dos

assuntos que foram estudados nesta aula. Confira!

1. Sobre a classificação das variáveis, podemos afirmar que:
a. Variável quantitativa contínua – pressão arterial de idosos do

ambulatório de geriatria do hospital Y.
b. Variável quantitativa ordinal – número de bactérias por litro de leite.
c. Variável qualitativa discreta – taxa de mortalidade infantil.
d. Variável qualitativa nominal – divisão dos estágios da doença

tuberculose em inicial, controle e final.
2. Calcule a média (MEDA), a moda (MO), a mediana (MED), o desvio-padrão

(DP), a amplitude (AM) e a variância (VAR) do conjunto de dados e assinale
a alternativa correta:
Dados: taxa de mortalidade infantil do distrito YY (13,4 - 11,7 - 17,1 -

15,8 - 22,9 - 11,7).
a. MEDA= 14,5; MO= 17,1; MED= 12,5; DP= 3,4; AM= 2,5 e VAR= 11,2
b. MEDA= 15,4; MO= 11,7; MED= 14,6; DP= 4,3; AM= 11,2 e VAR= 18,1
c. MEDA= 15,4; MO= 17,1; MED= 11,7, DP= 4,3; AM= 12,1 e VAR= 12,5
d. MEDA= 14,1; MO= 11,7; MED= 14,6, DP= 3,4; AM= 11,2 e VAR= 11,2

Referências
ALMEIDA FILHO N; ROUQUAYROL M. Z. Introdução à Epidemiologia. 4.

ed., rev. e ampliada. Rio de Janeiro: Guanabara Koogan, 2013.
ALMEIDA FILHO, N; BARRETO, M. L.. Epidemiologia & Saúde: fundamentos,

métodos, aplicações. [Reimpr.]. Rio de Janeiro: Guanabara Koogan, 2012.
BONITA, R. Epidemiologia básica. 2.ed. São Paulo: Santos, 2010.
CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. (coord). Análise multivarada:

para os cursos de Administração, Ciências Contábeis e Economia. São Paulo:
Atlas, 2007.
CZERESNIA, D.; ALBUQUERQUE, M. de F. M. de. Modelos de inferência

causal: análise crítica da utilização da estatística na Epidemiologia. Revista
Saúde Pública, São Paulo, v. 29, n. 5, out. 1995. Disponível em:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-89101995
000500012&lng=en&nrm=iso>. Acesso em: 30 jun.2013.
HULLEY, S. B. et al.. Delineando a pesquisa clínica: uma abordagem

epidemiológica. 2. ed. Porto Alegre: Artmed, 2003
LUIZ, R. R., COSTA, A. J. L., NADANOVSKY, P. Epidemiologia e

Bioestatística na pesquisa odontológica. São Paulo: Atheneu, 2005.
LUIZ, R. R., STRUCHINER, C. J. Inferência causal em epidemiologia: o

modelo de respostas potenciais. Rio de Janeiro: Fiocruz, 2002. 112 p.
Disponível em SciELO Books <http://books.scielo.org>. Acesso em: 29 jun.
2013.
MEDRONHO, R. A. et al.. Epidemiologia. São Paulo: Atheneu, 2009.
MUNDSTOCK, E. et al.. Introdução à análise estatística: utilizando o SPSS

13.0. Instituto de Matemática. Universidade Federal do Rio Grande do Sul,
Porto Alegre. Cadernos de Matemática e Estatística, série B, n. XX, trabalho de
apoio didático, maio 2006. Disponível em: <http://www.mat.ufrgs.br/~camey/

SPSS/Introdu%E7%E3o%20%E0%20An%E1lise%20Estat%EDstica%20utiliza
ndo%20o%20SPSS%2013_0.pdf>. Acesso em: 29 jun. 2013.

Tema - Indicadores de Saúde

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Tema - Indicadores de Saúde

Enviado por

Direitos autorais:

Formatos disponíveis

Epidemiologia

Profa. Dra. Ivana Maria Saes Busato

A estatística é uma ferramenta imprescindível a qualquer pesquisador ou

Com isso, iniciaremos esta aula com os conceitos básicos da Estatística

Conceitos Básicos em Estatística

Ao emitir uma hipótese, o cientista tenta explicar os fatos já conhecidos.

Para testar a significância estatística, a hipótese de pesquisa deve ser

2 Epidemiologia | Indicadores de Saúde

Variáveis independentes são aquelas manipuladas, enquanto as variáveis

As variáveis que assumem valores numéricos são denominadas

Epidemiologia | Indicadores de Saúde 3

A validade de um estudo depende da capacidade que as variáveis têm

 Precisão – está na capacidade de reprodução, quando maior for a precisão,

 Acurácia – é a capacidade de representar realmente o que deveria

Os estudos de diferentes variáveis com muita frequência fazem uso de

Ao estudar uma parte da população (amostra), podemos encontrar o acaso, ou

4 Epidemiologia | Indicadores de Saúde

Quanto mais estreito o intervalo de confiança, mais precisa é a

Não é necessário fazer 100 estudos para calcular o intervalo de

Um experimento aleatório tem que satisfazer algumas condições:

1. Poder ser repetido indefinidamente;

2. Ser capaz de descrever todos os possíveis resultados do experimento,

3. Obedecer à regularidade estatística.

Epidemiologia | Indicadores de Saúde 5

A probabilidade é um número entre 0 e 1 e mostra o grau de certeza da

Por exemplo: no lançamento de um dado, cada face tem a mesma

- a somatória das ocorrências possíveis é igual a 1.

(1/6 + 1/6 + 1/6 + 1/6 + 1/6 + 1/6 = 1)

- a probabilidade da ocorrência de um evento está entre 0 a 1.

As distribuições de probabilidade podem ser: discreta ou contínua.

A distribuição normal acontece quando uma variável aleatória contínua é

6 Epidemiologia | Indicadores de Saúde

Como obter uma amostra?

Chamamos o processo de seleção de uma amostra de amostragem.

Amostra é um subconjunto de elementos pertencentes a uma população.

Os métodos de amostragem são:

 Não aleatórios – são realizados com a construção da amostra a partir da

Epidemiologia | Indicadores de Saúde 7

 Aleatórios – podem ser realizados de diversas formas, como colocar, um a

Assista ao vídeo a seguir, em que vamos complementar os conceitos

Acompanhe os tipos de erros:

8 Epidemiologia | Indicadores de Saúde

Antes de realizar o estudo, o pesquisador determina a probabilidade

A probabilidade de um erro tipo II (não rejeitar uma hipótese nula quando

Os erros amostrais resultam de flutuações amostrais aleatórias. Não

Epidemiologia | Indicadores de Saúde 9

Podemos calcular a amostra usando a média populacional, a partir de

Conheça os valores críticos mais utilizados na amostra, associados ao

Grau de Confiança α Valor Crítico Z α /2

90% 0,10 1,645

95% 0,05 1,96

99% 0,01 2,575

Podemos determinar o tamanho de uma amostra com base na

Em populações finitas, há a necessidade de outros cálculos. As fórmulas

10 Epidemiologia | Indicadores de Saúde

Análise Exploratória de Dados

A coleta e a organização dos dados faz parte do planejamento do

Quando terminada a etapa da coleta dos dados, estes devem ser

A análise exploratória dos dados tem início com uma primeira

Epidemiologia | Indicadores de Saúde 11

Uma Duas Mais de

Análise Análise Análise

Fonte: Corrar et al., 2007

A análise univariada é muito utilizada na Epidemiologia porque descreve uma