Você está na página 1de 29

Epidemiologia

Indicadores de Saúde

Profa. Dra. Ivana Maria Saes Busato


Olá! O vídeo a seguir mostra os conteúdos que serão estudados nesta
aula. Venha conferir!

Introdução

A estatística é uma ferramenta imprescindível a qualquer pesquisador ou


pessoa que necessite tomar decisões. Como disciplina científica, inicialmente
foi utilizada como estratégia mercantil e política, destinada a dimensionar as
doenças e seus efeitos para a Epidemiologia.

Com isso, iniciaremos esta aula com os conceitos básicos da Estatística


aplicada à Epidemiologia, o que dará a base para a compreensão das análises
exploratórias de dados (univariada, bivariada e multivariada).

Conceitos Básicos em Estatística

Ao emitir uma hipótese, o cientista tenta explicar os fatos já conhecidos.

Hipótese é uma suposição que se faz a respeito de alguma coisa, deve estar
fundamentada em uma boa questão de pesquisa, a priori, e deve ser
simples e específica.

Para testar a significância estatística, a hipótese de pesquisa deve ser


formulada de modo que categorize a diferença esperada entre grupos de
estudo.

2 Epidemiologia | Indicadores de Saúde


A hipótese pode ser, ainda:

Variável
Para analisar uma hipótese, é necessário coletar uma variável – uma
característica de interesse que pode ser medida; as variáveis poder ser
independentes e dependentes.

Variáveis independentes são aquelas manipuladas, enquanto as variáveis


dependentes são apenas medidas ou registradas.

As variáveis que assumem valores numéricos são denominadas


quantitativas, e as não numéricas, qualitativas. Uma variável é qualitativa
quando seus valores são atributos ou qualidades (sexo, raça, classe social). Se
tais variáveis possuem uma ordenação natural, indicando intensidades
crescentes de realização, são classificadas de qualitativas ordinais (classe
social baixa, média ou alta). Se não for possível estabelecer uma ordem natural
entre seus valores, são classificadas como qualitativas nominais (sexo
masculino ou feminino).

Epidemiologia | Indicadores de Saúde 3


Já as variáveis quantitativas podem ser classificadas em discretas ou
contínuas. As variáveis discretas são resultantes de contagens e assumem, em
geral, valores inteiros (número de filhos), enquanto as variáveis contínuas
podem assumir qualquer valor dentro de um intervalo especificado e são,
geralmente, resultado de uma mensuração (peso, em kg; altura, em metros).

A validade de um estudo depende da capacidade que as variáveis têm


de representar os fenômenos de interesse. Para isso, devemos considerar:

 Precisão – está na capacidade de reprodução, quando maior for a precisão,


maior o poder estatístico que um determinado tamanho da amostra tem para
estimar os valores médios e para testar a hipótese, ou seja, a questão de
pesquisa. Enfim, uma variável tem valores semelhantes quando medida
várias vezes. A precisão é afetada pelo erro aleatório (acaso) e pode ser
causada pelo observador, sujeito ou instrumento;

 Acurácia – é a capacidade de representar realmente o que deveria


representar, tem influência na validade interna e externa do estudo. Melhor
forma de avaliar a acurácia está na comparação com um padrão de
referência é ameaçada pelo erro sistemático (viés) causado pelo observador,
sujeito ou instrumento.

Os estudos de diferentes variáveis com muita frequência fazem uso de


intervalo de confiança, como em estudos descritivos de prevalência ou
incidência. Se nossos estudos avaliassem toda a população-alvo do estudo,
teríamos plena confiança nos resultados. Contudo, já vimos que isso não é
realizado e, portanto, utilizamos amostras em vez da população.

Ao estudar uma parte da população (amostra), podemos encontrar o acaso, ou


seja, um resultado que difere da realidade. Devemos estimar, portanto, a precisão
estatística do resultado.

4 Epidemiologia | Indicadores de Saúde


Podemos realizar 100 estudos da mesma população, o que traria
diversos resultados. É a variabilidade entre esses resultados que chamamos de
intervalo de confiança. O intervalo de confiança no nível 95% (95% IC)
significa que o resultado está dentro de um intervalo e faz-se a leitura correta
do intervalo de confiança afirmando que, em 95 de 100 amostras hipotéticas, o
resultado está dentro desse intervalo.

Quanto mais estreito o intervalo de confiança, mais precisa é a


estimativa e é exatamente essa a definição estatística para precisão − a
capacidade de um resultado se repetir em diferentes medidas da mesma
realidade. Se a medida em questão possuir um valor que representa a hipótese
nula, podemos usar o intervalo de confiança para obter a significância
estatística.

Não é necessário fazer 100 estudos para calcular o intervalo de


confiança, podemos obtê-lo com apenas um estudo realizado e o fazemos
estudando apenas uma amostra e utilizando fórmulas estatísticas que levam
em consideração o tamanho amostral, a variabilidade de uma variável
contínua ou a frequência do desfecho quando a variável é categórica. Essas
fórmulas nos fornecem o erro-padrão − a medida de incerteza do estudo.

Plano amostral
A inferência estatística é um processo de raciocínio indutivo em que se
procura tirar conclusões partindo do particular para o geral, estudando apenas
alguns elementos dessa população, ou seja, uma amostra, que, a partir das
propriedades verificadas, infere propriedades para a população, utilizando a
probabilidade como instrumento.

Um experimento aleatório tem que satisfazer algumas condições:

1. Poder ser repetido indefinidamente;

2. Ser capaz de descrever todos os possíveis resultados do experimento,


mas não predizer com certeza qual ocorrerá;

3. Obedecer à regularidade estatística.

Epidemiologia | Indicadores de Saúde 5


Métodos aleatórios ou probabilísticos acontecem quando cada elemento
da população tem uma probabilidade conhecida de fazer parte da amostra.
Esses métodos possibilitam a determinação da distribuição de probabilidade e
permitem quantificar o erro de amostragem decorrente da utilização de apenas
uma parte da população.

A probabilidade é um número entre 0 e 1 e mostra o grau de certeza da


ocorrência de um evento associado a um experimento aleatório. A distribuição
de probabilidades associa uma probabilidade a cada resultado numérico de um
experimento.

Por exemplo: no lançamento de um dado, cada face tem a mesma


probabilidade de ocorrência, que é 1/6. Como os valores das distribuições
de probabilidades são apenas probabilidades e como as variáveis aleatórias
devem tomar um de seus valores, temos duas regras, que se aplicam a
qualquer distribuição de probabilidades:

- a somatória das ocorrências possíveis é igual a 1.

(1/6 + 1/6 + 1/6 + 1/6 + 1/6 + 1/6 = 1)

- a probabilidade da ocorrência de um evento está entre 0 a 1.

As distribuições de probabilidade podem ser: discreta ou contínua.


Contudo, vamos abordar somente a distribuição de probabilidade contínua
normal, por ser a mais importante para a Epidemiologia, pois representa as
distribuições de frequência observadas nos fenômenos naturais e físicos.

A distribuição normal acontece quando uma variável aleatória contínua é


normalmente distribuída e seu aspecto gráfico tem a forma de um sino. A curva
representativa dessa distribuição é denominada curva normal ou curva de
Gauss.

6 Epidemiologia | Indicadores de Saúde


Os dados se concentram em torno de uma média e se dispersam
simetricamente a partir desse ponto central. É importante saber que tipo de
distribuição ocorre com os dados, pois isso poderá determinar os testes
estatísticos.

Curva de Gauss

Fonte: <http://www.portalaction.com.br/content/62-distribui%C3%A7%C3%A3o-normal>

Como obter uma amostra?

Chamamos o processo de seleção de uma amostra de amostragem.

Amostra é um subconjunto de elementos pertencentes a uma população.


Para que os resultados retirados da amostra possibilitem inferências válidas,
ela deve ser representativa da população.

Os métodos de amostragem são:

 Não aleatórios – são realizados com a construção da amostra a partir da


informação sobre a população estudada, tentando fazer com que a amostra
seja um espelho fiel dessa população. Esses métodos não permitem calcular
a precisão das estimativas obtidas a partir da amostra; os mais conhecidos

Epidemiologia | Indicadores de Saúde 7


são a amostragem orientada, a amostragem por conveniência e a
amostragem por quotas;

 Aleatórios – podem ser realizados de diversas formas, como colocar, um a


um, todos os números que serão submetidos ao sorteio, retirando alguns às
cegas; ou ainda, usar os números de loteria sorteados nos últimos anos ou
uma tabela de números aleatórios, ou programas de computador para
selecionar aleatoriamente todos os componentes da amostra. Podem ser
realizados de algumas formas de amostragem: aleatória simples, aleatória-
-estratificada, sistemática e por conglomerados.

Assista ao vídeo a seguir, em que vamos complementar os conceitos


sobre amostragem para a Epidemiologia.

Erro amostral
Não há dúvida de que uma amostra não representa perfeitamente uma
população. O importante é que todas as decisões que tomamos – questão de
pesquisa, plano de estudo, população a ser pesquisada – têm inerente um
determinado erro, que pode ser quantificado em termos probabilísticos. Ou
seja, quando utilizamos uma amostra, devemos aceitar uma margem de erro –
que denominamos erro amostral. Esse erro é a diferença entre um resultado
amostral e o verdadeiro resultado populacional. Quando isso ocorre, os
resultados da amostra não refletem a realidade da população, levando a
inferências errôneas.

Acompanhe os tipos de erros:

I. Erro tipo I (falso positivo) – ocorre quando rejeita uma hipótese nula
que é verdadeira na população;

8 Epidemiologia | Indicadores de Saúde


II. Erro tipo II (falso negativo) – ocorre quando se deixa rejeitar (aceita-
-se) uma hipótese nula que não é verdadeira na população.

O tamanho da amostra pode evitar erros tipo I e II. Os resultados “falso negativo”
e “falso positivo” também podem ocorrer em função do viés. Esses erros são mais
difíceis de detectar e exigem conhecimentos avançados de estatística.

Antes de realizar o estudo, o pesquisador determina a probabilidade


máxima tolerada para os erros tipo I e II. A probabilidade de um erro tipo I
(rejeitar a hipótese nula quando ela é verdadeira) é denominado α (alfa),
também chamada de nível de significância estatística.

A probabilidade de um erro tipo II (não rejeitar uma hipótese nula quando


ela for falsa) é denominado β (beta). O valor 1 - beta é chamado de poder do
teste e representa a probabilidade de se rejeitar a hipótese nula na amostra
quando o efeito real na população se iguala à magnitude estimada de efeito.
Muitos estudos estabelecem α como 0,05 e β como 0,20 – o poder de 0,80
representa esperar que 80% de probabilidade de encontrar uma associação
dessa magnitude quando encontrar associação.

α varia de 0,01 a 0,10. Usar alfa baixo quando a questão de pesquisa torna
importante evitar falso positivo (erro tipo I); ex: eficácia de um medicamento ou
tratamento.

β varia de 0,05 a 0,20. Usar beta baixo quando quer evitar o falso negativo (erro
tipo II); ex: opinião pública quanto a realizar ou não um tratamento novo muito
invasivo.

Os erros amostrais resultam de flutuações amostrais aleatórias. Não


temos a capacidade de evitar a ocorrência do erro amostral, contudo podemos
limitar seu valor por meio da escolha de uma amostra de tamanho adequado.

Epidemiologia | Indicadores de Saúde 9


Assim, podemos deduzir que o erro amostral e o tamanho da amostra seguem
sentidos contrários: quanto maior o tamanho da amostra, menor o erro
cometido e vice-versa.

Podemos calcular a amostra usando a média populacional, a partir de


uma fórmula matemática, visando determinar a amostra com base em
informações sobre o grau de confiança desejado (valor crítico = Zα/2), o
desvio-padrão populacional da variável estudada, a margem de erro (ou erro
máximo de estimativa), que identifica a diferença máxima entre a média
amostral e a verdadeira média populacional.

Conheça os valores críticos mais utilizados na amostra, associados ao


grau de confiança:

Grau de Confiança α Valor Crítico Z α /2

90% 0,10 1,645

95% 0,05 1,96

99% 0,01 2,575

Podemos determinar o tamanho de uma amostra com base na


estimativa da proporção populacional, a qual é utilizada quando há
necessidade de determinar a proporção de pessoas de uma população e que
também faz uso de uma fórmula matemática para seu cálculo, aplicada à
proporção já conhecida e à população-alvo para estimar a amostra.

Por exemplo: 10% da população geral com diabetes mellitus; então, para
calcularmos amostra na população da equipe de saúde da família composta
por 4000hab, usamos os mesmos 10% (quando não conhecemos essa
proporcionalidade, usamos 50% como proporção).

Em populações finitas, há a necessidade de outros cálculos. As fórmulas


anteriores partem do princípio que a população de onde se retirava a amostra é

10 Epidemiologia | Indicadores de Saúde


tão grande que podemos considerá-la infinita. Na maioria dos estudos, as
populações não são tão grande em comparação com as amostras e, caso a
amostra tenha um tamanho maior ou igual a 5% do tamanho da população,
considera-se que a população seja finita. Assim, para calcular a amostra para
populações finitas, há a necessidade de se aplicar um fator de correção aos
cálculos que vimos anteriormente.

Análise Exploratória de Dados

A coleta e a organização dos dados faz parte do planejamento do


estudo, o qual inclui, por sua vez, a elaboração do instrumento de coleta dos
dados, com a devida organização das questões de análise em variáveis que
possam ser quantificadas e que serão passíveis de análise exploratória dos
dados.

Quando terminada a etapa da coleta dos dados, estes devem ser


arranjados em forma de tabela, para a maior eficiência na análise. Essa
disposição deve permitir sua análise na maioria dos programas estatísticos
disponíveis. Usando uma planilha do Excel, podemos empregar cada coluna
representando uma variável (ex: sexo, idade, tamanho, salários mínimos, taxa
de mortalidade) e cada linha representa cada unidade de observada (ex:
indivíduos, dentes, casas).

A análise exploratória dos dados tem início com uma primeira


abordagem do conjunto de dados e com a análise do perfil de cada variável
separadamente − chamada de análise univariada. Para explicar algumas
hipóteses (quando incluem duas variáveis), há a necessidade de realizar a
análise bivariada e, quando as análises ficam ainda mais complexas
(introdução de mais variáveis), usa-se a análise multivariada.

Epidemiologia | Indicadores de Saúde 11


Quantas variáveis são
analisadas
simultaneamente?

Uma Duas Mais de


duas

Análise Análise Análise


univariada bivariada multivariada

Fonte: Corrar et al., 2007

Análise univariada
A análise univariada inclui todos os métodos de estatística que permitem
a análise de cada variável separadamente, com métodos de estatística para
cada uma.

A análise univariada é muito utilizada na Epidemiologia porque descreve uma


doença ou um agravo de saúde para compor um perfil epidemiológico.

Após a coleta e a digitação de dados em um banco de dados apropriado,


o próximo passo é a análise exploratória univariada, etapa fundamental, pois
uma análise detalhada permite ao pesquisador familiarizar-se com os dados,
organizá-los e sintetizá-los de forma a obter as informações necessárias do
conjunto de dados para responder as questões que estão sendo investigadas.
Nessa etapa, produzem-se tabelas, gráficos, mapas ou ainda resumos em
medidas numéricas ou estatísticas.

É importante conhecer e saber construir os principais tipos de tabelas e


gráficos e calcular as medidas de resumo para realizar uma boa análise
descritiva dos dados.

12 Epidemiologia | Indicadores de Saúde


Vamos tentar entender como os dados se distribuem, onde estão
centrados, quais observações são mais frequentes, como é a variabilidade etc.,
tendo em vista responder as principais questões do estudo. Cada ferramenta
fornece um tipo de informação e o seu uso depende, em geral, do tipo de
variável que está sendo investigada.

As tabelas de frequência são elaboradas com os valores da variável e


suas respectivas contagens, as quais são denominadas frequências
absolutas ou simplesmente frequências. No caso de variáveis qualitativas ou
quantitativas discretas, a tabela de frequência consiste em listar os valores
possíveis da variável e fazer a contagem na tabela de dados brutos do número
de suas ocorrências. Temos a frequência do valor, a frequência total, a
frequência relativa e, para variáveis qualitativas ordinais e quantitativas em
geral, temos ainda as frequências acumuladas obtidas pela soma das
frequências de todos os valores da variável, menores ou iguais ao valor
considerado.

No caso de variáveis quantitativas contínuas, que podem assumir infinitos, temos


que dividir em classes, calculadas por intervalos de classe.

Medidas de resumo
As medidas estatísticas de resumo são formas complementares da
análise univariada, que podem ser medidas e que informam o “centro dos
dados” e a variabilidade dos mesmos em relação ao “centro”.

Apresentaremos os dois tipos fundamentais: medidas de posição, ou


tendência central, e as medidas de dispersão, ou de variabilidade.

Epidemiologia | Indicadores de Saúde 13


Medidas de posição

Visam localizar o centro de um conjunto de dados, ou seja, identificar um


valor em torno do qual os dados tendem a se agrupar. As mais utilizadas são:
média aritmética, mediana e moda. É possível calcular direto usando as
funções de estatística do Excel.

A média aritmética é a soma de todas as observações dividida pelo


número de observações. Sua fórmula considera cada observação (x 1, x 2, x 3,

...... xn) e o total de observações (n).

Média aritmética = Σ . x / n

Suponha o número de moradores por residência da quadra A da Rua das


Flores (4, 5, 3, 2, 7, 3, 4, 1, 5, 2, 3, 3); calculemos a média aritmética para
descobrir o número de moradores por residência:

4+5+3+2+7+3+4+1+5+2+3+4 /12 = 42/12 = 3,5

A moda é o valor mais frequente no conjunto de dados. Continuando


com o mesmo exemplo anterior, nesse caso, a moda é 3 – o valor que mais se
repete; ou seja, o número de residências por casa que aparece com maior
frequência é 3.

Mediana é o valor que ocupa a posição central dos dados ordenados,


deixando metade dos dados abaixo e metade acima dele. Se o número de
observações for ímpar, a mediana é igual à média aritmética; se for par, será a
média aritmética dos dois valores centrais. Sua fórmula considera as
observações (x 1, x 2, x 3, ...... xn), sendo que n = total de observações.

Mediana = média aritmética para n impar e para n


par = n + ½ que indica a posição da mediana.

14 Epidemiologia | Indicadores de Saúde


No mesmo exemplo anterior, calculando a mediana, devemos colocar em
ordem crescente 1, 2, 2, 3, 3, 3, 3, 4, 4, 5, 5, 7. Como é par, usamos:

12+1/2 = 6,5

As posições seis e sete:

3+3/2 = 3

A mediana de 3 mostra que 50% das residências têm mais do que 3


moradores e 50% têm menos do que 3 moradores.

Além das medidas de posição que estudamos, há outras que não são
medidas de tendência central, mas estão ligadas à sua característica de
separar a série em duas partes que apresentam o mesmo número de valores.
Vamos estudar os quantis, o quartis, o decis e os percentis – medidas que
são, juntamente com a mediana, conhecidas pelo nome genérico de
separatrizes.

Quartis

Denominamos quartis os valores de uma série dividida em quatro partes


iguais. Precisamos, portanto, de 3 quartis (Q1, Q2 e Q3) para dividir a série em
quatro partes iguais. O primeiro quartil é o valor que deixa um quarto (25%) dos
valores abaixo e três quartos (75%) acima dele. O terceiro quartil é o valor que
deixa três quartos (75%) dos dados abaixo e um quarto (25%) acima dele. O
segundo quartil (Q2) é a mediana (50%).

O primeiro e o terceiro quartis fazem o mesmo que a mediana


para as duas metades demarcadas pela mediana.

Decis

A definição dos decis obedece ao mesmo princípio dos quartis, com a


modificação da porcentagem de valores que ficam aquém e além do decil que
se pretende calcular. Indicamos os decis (D1, D2, ..., D9), desse modo,
precisamos de 9 decis para dividirmos uma série em 10 partes iguais.

Epidemiologia | Indicadores de Saúde 15


O mais interessante é o quinto decil, que divide o conjunto em duas partes
iguais. Assim sendo, o quinto decil é igual ao segundo quartil, que, por sua
vez, é igual à mediana.

Percentis

Denominamos percentis ou centis os 99 valores que separam uma série


em 100 partes iguais. Indicamos (P1, P2, ..., P99). É evidente que:

P50 = Mediana − P25 = Q1 − P75 = Q3

O cálculo de um centil segue a mesma técnica do cálculo da mediana,


do quartil e do decil:

Mediana = Q2 = D5 = P50

As medidas de posição fornecem informações valiosas, mas, em geral, não são


suficientes para descrever os diferentes conjuntos de dados. As medidas de
dispersão ou variabilidade permitem visualizar a maneira como os dados se
espalham (ou se concentram) em torno do valor central.

Para mensurarmos essa variabilidade, podemos utilizar as seguintes


estatísticas: amplitude total, variância e desvio padrão; estas podem ser
calculadas direto do Excel. Existem outras medidas de dispersão que não nos
interessam agora; essas são suficientes para a compreensão e a utilização na
Epidemiologia.

Amplitude total
É a diferença entre o maior e o menor valor do conjunto de dados.
Pegando o mesmo exemplo dos moradores por residência da quadra A da Rua

16 Epidemiologia | Indicadores de Saúde


das Flores (4, 5, 3, 2, 7, 3, 4, 1, 5, 2, 3, 3), em que o maior valor é 7 e o menor
é 1, a amplitude total será: 7-1 = 6.

Variância
É uma medida que expressa um desvio quadrático médio do conjunto de
dados e sua unidade é o quadrado da unidade dos dados – representada por
S2.

S2 = Σ (x1 – x)2 /n-1 X = média

Pegando o mesmo exemplo dos moradores por residência da quadra A da


Rua das Flores (4, 5, 3, 2, 7, 3, 4, 1, 5, 2, 3, 3), então:

X = 3,7

S2 = (4-3,7) 2 + (5-3,7) 2 + (3-3,7) 2 + (2-3,7) 2 + (7-3,7) 2 + (3-3,7) 2 + (4-3,7) 2


+ (1-3,7) 2 + (5-3,7) 2 + (2-3,7) 2 + (3-3,7) 2 + (3-3,7) 2 / 12 - 1 = 2,6

Desvio-padrão
É raiz quadrada da variância e sua unidade de medida é a mesma que a
do conjunto de dados. Sua fórmula é: S= raiz quadrada de S2. No mesmo
exemplo anterior, S2 = 2,6; então S = raiz quadrada de 2,6 = 1,6.

Convém organizar o conjunto de dados de maneira prática e racional, e uma das


formas de representação desse conjunto se faz por meio da apresentação gráfica.

Existem várias representações gráficas: gráfico de barras, diagrama


circular ou gráfico de pizza, histograma, gráfico de linha ou sequência e o
boxplot. Para facilitar o conhecimento e a utilização dos gráficos e das tabelas,

Epidemiologia | Indicadores de Saúde 17


separamos por tipo de variável as principais possibilidades de análise
univariada:

Variável qualitativa* Variável quantitativa

Tabela de frequências Tabela de frequências

Gráfico de barras Histograma, boxplot

Diagrama circular (pizza) Gráfico de linha ou sequência

Polígono de frequências

Medidas de resumo

*Essa abordagem também pode ser interessante para as variáveis quantitativas discretas.

A análise univariada como ponto inicial na exploração de dados é


importante para a Epidemiologia. Por isso, aprofunde seu conhecimento,
assistindo ao vídeo a seguir. Confira!

Análise bivariada
A estatística bivariada inclui métodos de análise de duas variáveis,
podendo ser ou não estabelecida uma relação de causa/efeito entre elas.
Lembrando que o principal objetivo da pesquisa em saúde é o estabelecimento
de uma relação de causa e efeito entre duas variáveis, procuramos identificar
uma associação estatisticamente significativa.

Os testes estatísticos visam descartar o acaso nessa associação. Por


isso, devem ser realizados visando avaliar a validade de qualquer associação
estatística (acaso, viés, confundimento) e julgar se a associação encontrada
representa uma relação de causa/efeito.

18 Epidemiologia | Indicadores de Saúde


Todo teste estatístico tem como resultado um número representando a
probabilidade desse acaso, chamado de p-valor (ou valor-p). Há a
necessidade de uma hipótese nula bem-definida para a interpretação da
probabilidade fornecida pelo p-valor. Quando o valor-p é pequeno, indica a
pouca probabilidade da associação ter ocorrido por acaso; assim, podemos
rejeitar a hipótese nula. A associação observada pode ser devida ao acaso ou
não, e essa é a única resposta que obtemos ao se estudar a associação entre
variáveis por meio de um teste estatístico adequado, gerando um p-valor.

Muitos testes estatísticos são elaborados com a premissa de que os


valores seguem uma distribuição normal e são chamados de testes
paramétricos, pois se baseiam nos parâmetros da distribuição normal, a
média e o desvio-padrão. Contudo, quando não podemos perceber ou garantir
que os valores tenham uma distribuição normal, devemos usar os testes não
paramétricos. Mesmo se, na ocorrência de distribuição normal, aplicarmos o
teste não paramétrico, isso não causará erro, somente pode-se perder o poder
do teste em relação ao teste paramétrico.

Assim, torna-se imprescindível, antes da escolha do teste estatístico


para dados contínuos, examinar a distribuição dos dados. Se dados contínuos
apresentam uma distribuição anormal, é necessário escolher um teste não
paramétrico ou transformá-los em uma distribuição normal, aplicando, como
exemplo, uma transformação logarítmica. Existem diversos métodos para a
verificação da condição de “normalidade” nos dados sob análise:

 Gráfico de probabilidade normal;

 Método dos momentos;

 Aplicação do teste “W” − Shapiro-Wilk;

 Aplicação do teste Kolmogorov-Smirnov ou teste de aderência X².

As amostras podem ser classificadas como pareadas ou não pareadas.


Um desenho de estudo comum, usando amostras pareadas, pode ser

Epidemiologia | Indicadores de Saúde 19


constatado quando um grupo de indivíduos é examinado antes e depois de um
determinado tratamento. Amostras independentes são constituídas por
diferentes indivíduos compondo cada grupo.

Quando queremos fazer controle entre os grupos, podemos usar o pareamento,


considerando que dado pareado é constituído por pareamento, garantindo, assim,
uma composição rigorosamente equivalente entre os grupos em termos de
algumas variáveis selecionadas.

Vamos diferenciar dados pareados e não pareados, o que é bastante


importante para a aplicação dos testes estatísticos:

Característica Pareado Não pareado

Distribuição Normal Qualquer uma

Variância assumida Homogênea Qualquer uma

Relação entre dados Interdependentes Qualquer uma

Medidas de localização Média Mediana


central normalmente
usada

Os procedimentos estatísticos clássicos no estudo da associação


bivariada (duas variáveis) seguem o tipo de amostra das variáveis e da
dependência das observações. No quadro a seguir, mostramos os
procedimentos estatísticos apropriados:

Escala de Procedimento Estatístico


mensuração das
Para dados não Para dados pareados
duas variáveis

20 Epidemiologia | Indicadores de Saúde


envolvidas na pareados
associação

Duas dicotômicas Teste X2 (qui-quadrado) Teste X2 de McNemar

Teste Exato de Fisher

Coeficiente φ Coeficiente Kappa


(+IC95%)
RR – risco relativo
(+IC95%) OR pareado – razão de
chance (+IC95%)
OR – razão de chance
(+IC95%)

Duas nominais (2x3, Teste X2 (qui-quadrado) Apenas em matrizes


3x3, 4x2 etc.) quadráticas (3x3, 4x4 etc.)

Coeficiente Kappa
(+IC95%)

Teste X2 de Start-Maxweel

Uma ordinal e outra Teste de Mann-Whitney Teste de Wilcoxon


dicotômica

Uma ordinal e outra Teste de Krusskall-Wallis Teste de Fridman


nominal
Análise Ridit

Duas ordinais Coeficiente de Correlação Apenas em matrizes


de Spearman quadráticas (3x3, 4x4 etc.)

Kappa ponderado

Uma numérica e outra Teste t de Students Teste t pareado


dicotômica
Teste X2 para tendência

Epidemiologia | Indicadores de Saúde 21


Uma numérica e outra ANOVA ANOVA para dados
nominal repetidos

Uma numérica e outra Nenhum procedimento Nenhum procedimento


ordinal simples simples

Duas numéricas Coeficiente de Correlação Correlação Interclasse


de Pearson

Regressão Linear Simples

Fonte: LUIZ et al., 2005

Para aprofundar o conhecimento sobre os testes estatísticos e suas fórmulas,


consulte o capítulo 15 do livro “Epidemiologia e Bioestatística na pesquisa
odontológica”, presente nas referências.

Confira, no vídeo a seguir, a análise bivariada e a definição de alguns


testes estatísticos mais usados em Epidemiologia. Não deixe de assistir!

Regressão linear simples

É um dos modelos causais mais conhecidos e utilizados e consiste em


uma variável dependente relacionada a uma variável independente por uma
equação linear. Busca-se a correlação entre as variáveis quando uma está
relacionada a outra; enfim, quando a variação de valor da variável
independente provoca uma mudança no valor da variável dependente.

22 Epidemiologia | Indicadores de Saúde


Essa correlação é apresentada graficamente pelo diagrama de
dispersão, o qual mostra a relação entre duas variáveis quantitativas. Os
valores de uma variável estão no eixo x (horizontal) para a variável
independente, enquanto da outra estão no eixo y (vertical), para a variável
dependente; cada ponto representa uma unidade medida. Assim, devemos
analisar o diagrama observando a direção (crescente ou decrescente), a forma
(linear, não linear e aglomerados) e os pontos discrepantes.

Quanto maior for a correlação, mais próximo de 45° (crescente)


ou 135° (decrescente) será a distribuição.

Análise multivariada
A análise multivariada se refere a um conjunto de métodos estatísticos
que permite a análise simultânea de múltiplas variáveis para cada unidade
estudada. Inclui, ainda, as diversas abordagens analíticas que consideram o
comportamento de muitas variáveis analisadas em um mesmo momento.

Apenas os métodos de análise multivariada permitem que se explore o


desempenho conjunto das variáveis e que se determine a influência ou a
importância de cada uma, estando as restantes presentes.

Temos diversas opções de técnicas na análise multivariada.


Destacamos as mais discutidas e usadas na literatura científica: regressão
linear múltipla, regressão logística, análise fatorial e análise de conglomerados.
Contudo, nesta aula, vamos abordar apenas a regressão linear múltipla e a
regressão logística.

Regressão linear múltipla

Técnica estatística que analisa a dependência de uma variável


quantitativa em relação a duas ou mais variáveis independentes (quantitativas
ou qualitativas) ou explicativas. Descreve, por meio de um modelo matemático,

Epidemiologia | Indicadores de Saúde 23


a relação entre uma variável dependente quantitativa e duas ou mais variáveis
independentes qualitativas e quantitativas.

Seu ponto principal é a dependência estatística de uma variável em


relação a duas ou mais variáveis. Tem como objetivos encontrar a relação
causal entre as variáveis e estimar os valores da variável dependente a partir
dos valores conhecidos ou fixados das variáveis independentes.

Regressão logística

Técnica de análise multivariada, que permite estimar a probabilidade


associada à ocorrência de determinado evento em face de um conjunto de
variáveis.

No modelo logístico, usamos os valores de uma série de variáveis


independentes para predizer a ocorrência da doença (variável dependente). Na
regressão logística, a variável dependente tem uma variável qualitativa
binominal, sendo 0 (ausência) ou 1 (presença). Assim, todas as variáveis
consideradas no modelo estão controladas entre si.

Essa técnica deve ser usada quando a variável dependente é


dicotômica (qualitativa) e as variáveis independentes forem
quantitativas ou qualitativas.

Para aprofundar o conhecimento da análise multivariada, consulte o livro “Análise


multivariada”, de Corrar et al., presente nas referências.

24 Epidemiologia | Indicadores de Saúde


Assista ao vídeo a seguir para saber mais sobre os tópicos avançados
em Estatística. Confira!

SPSS – Statistical Package for Social Sciences

Existem vários pacotes estatísticos gratuitos e pagos que possibilitam a


realização dos procedimentos estatísticos. O SPSS (Statistical Package for
Social Sciences) é uma dessas opções.

O pacote estatístico SPSS é uma ferramenta para análise de dados que


utiliza técnicas estatísticas básicas e avançadas.

O SPSS é um software de estatística de fácil manuseio,


internacionalmente utilizado há muitas décadas. Para iniciar a análise de
dados, é necessário a construção da base de dados, que é um conjunto de
dados registrados em uma planilha, em forma de matriz, com “n” linhas,
correspondentes aos casos em estudo, e “p” colunas, correspondentes às
variáveis em estudo ou itens de um questionário. O número de casos (número
de linhas da matriz) é, em geral, maior do que o número de variáveis em
estudo (número de colunas).

O SPSS aceita a colagem da planilha do Excel já elaborada, com a


coluna representando as variáveis estudadas e cada linha representando cada
unidade observada; depois cabe ao pesquisador nominar as colunas,
classificando o tipo de variável, o que facilita a análise dos dados.

Epidemiologia | Indicadores de Saúde 25


Para aprofundar o conhecimento sobre o SPSS, consulte o site com o tutorial do
pacote estatístico, na apostila elaborada pela Universidade Federal do Rio Grande
do Sul, de autoria de Mundstock et al., presente nas referências.

<http://www.mat.ufrgs.br/~camey/SPSS/Introdu%E7%E3o%20%E0%20An%E1lis
e%20Estat%EDstica%20utilizando%20o%20SPSS%2013_0.pdf>

Síntese

Assista ao vídeo a seguir, no qual apresentaremos uma síntese dos


assuntos que foram estudados nesta aula. Confira!

26 Epidemiologia | Indicadores de Saúde


1. Sobre a classificação das variáveis, podemos afirmar que:

a. Variável quantitativa contínua – pressão arterial de idosos do


ambulatório de geriatria do hospital Y.

b. Variável quantitativa ordinal – número de bactérias por litro de leite.

c. Variável qualitativa discreta – taxa de mortalidade infantil.

d. Variável qualitativa nominal – divisão dos estágios da doença


tuberculose em inicial, controle e final.

2. Calcule a média (MEDA), a moda (MO), a mediana (MED), o desvio-padrão


(DP), a amplitude (AM) e a variância (VAR) do conjunto de dados e assinale
a alternativa correta:

Dados: taxa de mortalidade infantil do distrito YY (13,4 - 11,7 - 17,1 -


15,8 - 22,9 - 11,7).

a. MEDA= 14,5; MO= 17,1; MED= 12,5; DP= 3,4; AM= 2,5 e VAR= 11,2

b. MEDA= 15,4; MO= 11,7; MED= 14,6; DP= 4,3; AM= 11,2 e VAR= 18,1

c. MEDA= 15,4; MO= 17,1; MED= 11,7, DP= 4,3; AM= 12,1 e VAR= 12,5

d. MEDA= 14,1; MO= 11,7; MED= 14,6, DP= 3,4; AM= 11,2 e VAR= 11,2

Epidemiologia | Indicadores de Saúde 27


Referências

ALMEIDA FILHO N; ROUQUAYROL M. Z. Introdução à Epidemiologia. 4.


ed., rev. e ampliada. Rio de Janeiro: Guanabara Koogan, 2013.

ALMEIDA FILHO, N; BARRETO, M. L.. Epidemiologia & Saúde: fundamentos,


métodos, aplicações. [Reimpr.]. Rio de Janeiro: Guanabara Koogan, 2012.

BONITA, R. Epidemiologia básica. 2.ed. São Paulo: Santos, 2010.

CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. (coord). Análise multivarada:


para os cursos de Administração, Ciências Contábeis e Economia. São Paulo:
Atlas, 2007.

CZERESNIA, D.; ALBUQUERQUE, M. de F. M. de. Modelos de inferência


causal: análise crítica da utilização da estatística na Epidemiologia. Revista
Saúde Pública, São Paulo, v. 29, n. 5, out. 1995. Disponível em:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-89101995
000500012&lng=en&nrm=iso>. Acesso em: 30 jun.2013.

HULLEY, S. B. et al.. Delineando a pesquisa clínica: uma abordagem


epidemiológica. 2. ed. Porto Alegre: Artmed, 2003

LUIZ, R. R., COSTA, A. J. L., NADANOVSKY, P. Epidemiologia e


Bioestatística na pesquisa odontológica. São Paulo: Atheneu, 2005.

LUIZ, R. R., STRUCHINER, C. J. Inferência causal em epidemiologia: o


modelo de respostas potenciais. Rio de Janeiro: Fiocruz, 2002. 112 p.
Disponível em SciELO Books <http://books.scielo.org>. Acesso em: 29 jun.
2013.

MEDRONHO, R. A. et al.. Epidemiologia. São Paulo: Atheneu, 2009.

MUNDSTOCK, E. et al.. Introdução à análise estatística: utilizando o SPSS


13.0. Instituto de Matemática. Universidade Federal do Rio Grande do Sul,
Porto Alegre. Cadernos de Matemática e Estatística, série B, n. XX, trabalho de
apoio didático, maio 2006. Disponível em: <http://www.mat.ufrgs.br/~camey/

28 Epidemiologia | Indicadores de Saúde


SPSS/Introdu%E7%E3o%20%E0%20An%E1lise%20Estat%EDstica%20utiliza
ndo%20o%20SPSS%2013_0.pdf>. Acesso em: 29 jun. 2013.

Epidemiologia | Indicadores de Saúde 29

Você também pode gostar