Você está na página 1de 5

Medidas de disperso: os valores ...

NOTAS DE EPIDEMIOLOGIA E ESTATSTICA

Bastos JLD, Duquia RP

Medidas de disperso: os
valores esto prximos entre si
ou variam muito?
Measures of dispersion: are all values
close to each other or do they vary a lot?
JOO LUIZ DORNELLES BASTOS1
RODRIGO PEREIRA DUQUIA2

DESCRITORES:
MEDIDAS
EM
EPIDEMIOLOGIA;
EPIDEMIOLOGIA E BIOESTATSTICA; ANLISE DE DADOS;
FATORES EPIDEMIOLGICOS.

KEY WORDS: EPIDEMIOLOGIC MEASUREMENTS;


EPIDEMIOLOGY AND BIESTATISTICS; DATA ANALYSIS;
EPIDEMIOLOGIC FACTORS.

As informaes e os conhecimentos adquiridos com a leitura da segunda Nota de Epidemiologia e Bioestatstica, cujo ttulo Medidas de
tendncia central: onde a maior parte dos indivduos se encontra? impe algumas novas necessidades. Para alm de expressar atravs de um
nico valor em torno do qual tende a se concentrar um conjunto de dados numricos, importa
saber como estas observaes esto distribudas
em nossa populao de estudo so elas bastante prximas entre si ou variam muito?1
Isto ocorre porque duas distribuies podem
apresentar mdias aritmticas idnticas e, ao
mesmo tempo, possuir valores que se distribuem de maneiras completamente diferentes em
relao a ela. Para ilustrar, considere a Tabela 1,
que apresenta a situao hipottica de duas distribuies das pontuaes obtidas por um grupo
de alunos de ensino mdio nas disciplinas de

Biologia e Matemtica. As mdias nas duas disciplinas so iguais e equivalem a 5 (cinco). No


entanto, ao examinar a tabela mencionada e as
Figuras 1 e 2, percebe-se que as distribuies so
diferentes entre si. Enquanto na disciplina de Biologia a maior parte dos indivduos tendeu a uma
nota prxima de 5, em Matemtica houve maior
disperso das pontuaes, isto , as notas variaram mais entre os alunos.
A partir desta constatao, coloca-se a seguinte pergunta: Existe alguma medida capaz de expressar a forma como as observaes se distribuem em um conjunto de dados? A resposta a
este questionamento remete o(a) leitor(a) s chamadas medidas de disperso, que nada mais so
do que medidas que indicam como as observaes esto dispostas em uma dada distribuio
(se esto dispersas ou prximas entre si na amostra estudada).

1
2

Odontlogo. Mestre em Epidemiologia pela Universidade Federal de Pelotas.


Dermatologista do Hospital Santa Casa de Porto Alegre. Mestre em Epidemiologia pela Universidade Federal de Pelotas.

40

Scientia Medica, Porto Alegre, v. 17, n. 1, p. 40-44, jan./mar. 2007

Medidas de disperso: os valores ...

Bastos JLD, Duquia RP

TABELA 1 Pontuaes obtidas por alunos do ensino mdio conforme as disciplinas cursadas (dados
hipotticos).
Aluno

Biologia

Matemtica

Ana

Carla

Csar

Joo Paulo

Jos Nilton

Luiz Roberto

Marcelo

10

Maria

10

Mariana

Pmela

Pedro

Roberta

Mdia aritmtica ( X )

1 AMPLITUDE DE VARIAO

Distribuio da pontuao

.1

Percentual
.2
.3

.4

.5

Disciplina de Biologia

4
5
6
Pontuao obtida

A variabilidade (ou disperso) de um conjunto de dados pode ser quantificada atravs da amplitude de variao, da varincia, do desvio-padro e do coeficiente de variao, entre outras.1-4
Nas sees que seguem, so apresentadas as frmulas e exemplos do clculo de cada uma das
quatro medidas, bem como suas vantagens e desvantagens para utilizao na anlise de dados e
leitura crtica de trabalhos cientficos.

10

Figura 1 Distribuio da pontuao de alunos do ensino


mdio na disciplina de Biologia (dados hipotticos).

A amplitude de variao pode ser obtida facilmente atravs da diferena entre o maior e o
menor valor de uma distribuio de dados.3
Aproveitando o exemplo das notas nas disciplinas de Biologia e Matemtica, a amplitude de
variao em cada um dos casos foi de 4 (7 [maior
pontuao] 3 [menor pontuao] = 4) e de 8 (10
[maior pontuao] 2 [menor pontuao] = 8),
respectivamente. A maior amplitude de variao
nas notas de Matemtica est de acordo com o
que foi observado na Figura 2, ou seja, em uma
distribuio com maior disperso dos dados, a
amplitude de variao tende a ser maior. Entretanto, cabe salientar que o clculo da medida em
questo no leva em considerao os valores intermedirios da distribuio, de forma que estes
no influenciam seu resultado final.2 Esta poderia ser considerada uma desvantagem, uma vez
que as medidas de disperso deveriam levar em
conta todas as observaes e no somente os limites do conjunto de dados, isto , seus valores
mximo e mnimo.

2 VARINCIA (s 2)
Ao contrrio da medida supracitada, a
varincia consiste em uma medida de disperso
que leva em conta todos os valores de uma distribuio para seu clculo.2 Ela estimada a partir do somatrio do quadrado da distncia de
cada valor em relao mdia, dividido pelo
total de observaes menos um, tal como na
frmula:2
(x X)2 ,
2

Distribuio da pontuao

Percentual
.2

.3

.4

Disciplina de Matemtica

.1

s =

5
6
Pontuao obtida

10

Figura 2 Distribuio da pontuao de alunos do ensino


mdio na disciplina de Matemtica (dados hipotticos).
Scientia Medica, Porto Alegre, v. 17, n. 1, p. 40-44, jan./mar. 2007

(n 1)

onde s 2 corresponde varincia, ao somatrio,


x aos valores observados, X mdia da distribuio e n ao tamanho da amostra estudada.
A aplicao desta frmula pode ser ilustrada
com as pontuaes obtidas nas disciplinas des41

Medidas de disperso: os valores ...

Bastos JLD, Duquia RP

tacadas na Tabela 1. Em Biologia, a varincia poderia ser calculada pela frmula:


s2 =

(5 - 5) 2 + (6 - 5) 2 + (5 - 5) 2 + (4 - 5) 2 + (5 - 5) 2 + (5 - 5) 2 + (5 - 5) 2 + (6 - 5) 2 + (4 - 5) 2 + (7 - 5) 2 + (3 - 5) 2 + (5 - 5) 2
= 1,09
(12 - 1)

Realizando o mesmo clculo para Matemtica,


chega-se ao valor de varincia de 8,54. A maior
varincia na distribuio das notas desta ltima conseqente maior disperso dos dados
nesta disciplina, quando comparada com a Biologia. Perceba que esta maior disperso nas notas de Matemtica j havia sido acusada na Figura 2, o que significa que a disperso de um conjunto de dados tambm pode ser verificada
visualmente, atravs de grficos do tipo histograma, por exemplo.
Uma desvantagem considervel desta medida de variabilidade reside no fato de que seu resultado oferecido na unidade de medida dos
dados elevada ao quadrado.2 Exemplificando, a
varincia da altura em metros de indivduos includos em um estudo ser expressa em metros
quadrados. Isto confere maior complexidade de
interpretao medida e, como forma de contornar o problema, calcula-se sua raiz quadrada. A
raiz quadrada da varincia denominada desvio-padro, que receber maior ateno na seo
abaixo.

3 DESVIO-PADRO (s)
O desvio-padro amplamente utilizado na
literatura cientfica como medida de disperso
dos dados. Ele estima o quanto, em mdia, cada
valor se distancia da prpria mdia aritmtica de
uma distribuio com a vantagem de preservar a
unidade de mensurao original das observaes, algo que no ocorre com a varincia. Para
calcul-lo, basta extrair a raiz quadrada da frmula da varincia:2,3
s=

(x X)2 ,
(n 1)

onde s equivale ao desvio-padro, ao somatrio, x aos valores observados, X mdia da distri-

item 2) e 2,92 (8,54 = 2,92, onde 8,54 corresponde


varincia calculada no item 2), respectivamente. primeira vista, utilizar o desvio padro
como medida de disperso no ofereceria qualquer vantagem em relao ao uso da varincia, a
no ser pelo fato de conservar a unidade original
de medida das observaes.
A maior vantagem desta medida de disperso que, em distribuies Normais ou
Gaussianas, 68% das observaes encontram-se
distanciadas em at um desvio-padro em relao mdia, para mais e para menos.1 De modo
anlogo, 95% e 100% das observaes de uma
distribuio Gaussiana encontram-se entre mais
e menos dois e mais e menos trs desvios-padro
da mdia.1 A Figura 4 mostra que 68%, 95% e
100%* dos valores esto contidos entre um, dois
e trs desvios-padro da mdia aritmtica em
distribuies Normais. Esta informao importante quando do clculo de intervalos de confiana e do estabelecimento de inferncias, assuntos a serem tratados em notas futuras.
Alm disso, conhecendo-se o valor do desviopadro e da mdia aritmtica de uma distribuio possvel saber se esta tende a uma forma
simtrica, tambm dita Normal, ou assimtrica.
Nos casos em que a distribuio dos dados for
assimtrica, o desvio padro ser maior do que a
metade da mdia aritmtica (em distribuies
assimtricas s > X/2, onde s o desvio padro e
X a mdia aritmtica).1 importante levar em
considerao este fato, pois boa parte dos testes
utilizados nas anlises estatsticas tem como pressuposto que a distribuio dos dados seja, pelo
menos, prxima Normal. O teste t de Student,
por exemplo, largamente utilizado na comparao de mdias entre dois grupos, tem como um
de seus requisitos (pressupostos) que a distribuio da varivel em questo seja Normal. Na ausncia de informaes grficas sobre como se distribui uma varivel, mas tendo-se disposio

buio e n ao tamanho da amostra estudada.

Retomando o exemplo das disciplinas de Biologia e Matemtica, o desvio padro em ambas


distribuies de notas seria 1,04 (1,09 = 1,04,
onde 1,09 equivale varincia calculada no
42

* A rea sob a curva Normal compreendida entre um, dois e trs


desvios-padro para mais e para menos da mdia aritmtica
de 68,3%, 95,4% e 99,7%, respectivamente. Por motivos de
simplificao, estamos arredondando estes valores ao longo do
presente texto.
Scientia Medica, Porto Alegre, v. 17, n. 1, p. 40-44, jan./mar. 2007

Medidas de disperso: os valores ...

Bastos JLD, Duquia RP

Figura 3 rea sob a curva da distribuio Normal (Gaussiana) e sua relao com os desvios padro.

os valores de mdia e desvio-padro, pode-se julgar adequado ou no o uso de um teste estatstico em uma publicao cientfica.5 Se, em uma
publicao, tiver sido adotado o teste t para comparar a mdia de algum atributo entre dois grupos e o desvio-padro for maior do que metade
da mdia aritmtica, pode-se considerar inadequado seu uso e colocar sob suspeita o resultado
apresentado.

4 COEFICIENTE DE VARIAO (cv)


O coeficiente de variao, por sua vez, refere-se diviso entre o desvio padro e a mdia
de uma distribuio:2,3
cv =

s
X

onde cv o coeficiente de variao, s o desvio padro e


X a mdia aritmtica.

Coeficientes de variao menores do que 0,2


sugerem pouca disperso nos dados, enquanto
coeficientes maiores que 1 indicam disperso bastante elevada.3 Especificamente, coeficientes maiores que 0,5 tambm sugerem que a distribuio
analisada tende a uma forma assimtrica ou noNormal.
Esta medida consiste em uma forma simples
de avaliar a disperso de uma varivel, uma vez
Scientia Medica, Porto Alegre, v. 17, n. 1, p. 40-44, jan./mar. 2007

que no possui unidade de medida. Assim, possvel comparar a disperso entre duas variveis,
mesmo que tenham sido mensuradas em escalas
de medida diferentes e possuam mdias diferentes. Por exemplo, atravs do coeficiente de variao pode-se comparar, diretamente e sem o recurso de transformaes, a variabilidade existente em uma distribuio de alturas medidas em
metros com outra de alturas medidas em milmetros. Mesmo com estas vantagens, o coeficiente de variao pouco utilizado e cede lugar
na maioria das vezes ao desvio-padro e varincia nas anlises estatsticas e nas publicaes
cientficas.

5 CONSIDERAES FINAIS
Os conhecimentos introduzidos no presente
artigo, somados queles da nota anterior, fornecem informaes bsicas e necessrias para se conhecer as principais caractersticas de uma distribuio, tais como sua forma e disperso. Quando a distribuio dos dados no se aproxima de
uma forma Normal, muitos testes estatsticos so
contra-indicados e o uso deles pode produzir resultados invlidos. Nestes casos, pode-se transformar os dados (calculando-se o logaritmo dos
valores, por exemplo) para que a distribuio assuma uma forma mais prxima da Normal ou
43

Medidas de disperso: os valores ...

utilizar mtodos estatsticos que no tenham


como pressuposto que a distribuio seja simtrica.
Alm destas aplicaes prticas, os conceitos
de distribuio Normal e de desvio-padro esto intimamente relacionados com o clculo de
intervalos de confiana e com o estabelecimento
de inferncias. Estes intervalos so estimativas de
preciso de um determinado valor e recebero
destaque em notas futuras.

REFERNCIAS
1. Altman DG. Practical statistics for medical research.
London: Chapman & Hall; 1997.

44

Bastos JLD, Duquia RP

2. Kirkwood BR, Sterne JAC. Essential medical statistics.


Oxford: Blackwell Science; 2003.
3. Peres KG. Apresentao de dados epidemiolgicos. In:
Antunes JLF, Peres MA, editores. Fundamentos de
odontologia: epidemiologia da sade bucal. Rio de Janeiro: Guanabara Koogan; 2006. p.409-21.
4. Peres MA, Antunes JLF, Frazo P. Crie dentria. In:
Antunes JLF, Peres MA, editores. Fundamentos de
odontologia: epidemiologia da sade bucal. Rio de Janeiro: Guanabara Koogan; 2006. p.49-67.
5. Altman DG, Bland JM. Statistics notes: detecting
skewness from summary information. BMJ. 1996;
313:1200.
Endereo para correspondncia:
JOO LUIZ DORNELLES BASTOS
Avenida do Anto, 353 - Morro da Cruz
CEP 88025-150, Florianpolis, SC, Brasil
Fone: (0xx48) 3028-1345
E-mail: joao@pilotis.com.br

Scientia Medica, Porto Alegre, v. 17, n. 1, p. 40-44, jan./mar. 2007