Você está na página 1de 24

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/335988720

Estatística Descritiva

Method · September 2019


DOI: 10.13140/RG.2.2.15977.44649

CITATIONS READS

0 4,899

2 authors:

Luisa Zanolli Moreno André Moreno Morcillo


University of São Paulo University of Campinas
103 PUBLICATIONS   777 CITATIONS    190 PUBLICATIONS   1,472 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Leptospirose View project

Human pathogens decay and recolonization in soils amended with sewage sludge and cultivated with eucalyptus View project

All content following this page was uploaded by André Moreno Morcillo on 23 September 2019.

The user has requested enhancement of the downloaded file.


Estatística Descritiva
LUISA ZANOLLI MORENO

Médica Veterinária, PhD em Epidemiologia Experimental Aplicada à Zoonoses


pela Universidade de São Paulo

ANDRÉ MORENO MORCILLO

Professor Associado do Departamento de Pediatria da Faculdade de Ciências


Médicas da Universidade Estadual de Campinas
Pesquisador do CIPED – Centro de Investigação em Pediatria da Universidade
Estadual de Campinas

Estatística Descritiva

Campinas – São Paulo – Brasil


[2019]
A divulgação de dados de pesquisa requer o uso de técnicas internacionalmente
reconhecidas, de tal forma, que os artigos e relatórios possam ser avaliados por
pesquisadores em diferentes cidades ou países.
Esta parte da estatística, cujo objetivo é sintetizar, tornar clara e organizada a
apresentação de dados, recebe o nome de “Estatística Descritiva”. Entre outras
técnicas, podem ser utilizadas as medidas de tendência central, de dispersão e de
posição, além de tabelas, gráficos, etc.

Uma situação concreta ...

Okuro et al. (2011)1 com o objetivo de avaliar a tolerância ao exercício submáximo


e a força muscular respiratória em relação à anteriorização da cabeça e ao tipo
respiratório em crianças com respiração bucal (RB) ou nasal (RN), avaliaram 30
crianças com respiração bucal comparando-as com 62 controles com respiração
nasal. A seguir, apresentamos parte de seus resultados com os dados de Pressão
Inspiratória Máxima (PImáx) e Pressão Expiratória Máxima (PEmáx).

“As Tabelas 1 e 2 mostram que, no grupo RB, não houve diferenças entre as
médias de PImáx e PEmáx nos subgrupos com alteração (grave e moderada) e
sem alteração. No entanto, no grupo RN, as médias de PImáx e PEmáx foram
maiores no subgrupo com alteração postural (70,8 ± 19,1 cmH2O vs. 54,7 ± 21,7
cmH2O; p = 0,003; e 67,7 ± 22,1 cmH2O vs. 50,5 ± 19,5 cmH2O; p = 0,004,
respectivamente).”

1
Okuro RT et al. Respiração bucal e anteriorização da cabeça: efeitos na biomecânica respiratória e na
capacidade de exercício em crianças. J. Bras. Pneumol. 2011; 37(4):471-479.

1
Trabalhando com informações ou “dados”2

Os resultados de uma pesquisa são traduzidos em informações ou “dados”, que


podem expressar uma quantidade ou uma qualidade. Os “dados” que expressam
uma “quantidade” são chamados “dados” ou variáveis quantitativas, enquanto que
aqueles que expressam uma “qualidade” são chamados de dados ou variáveis
qualitativas ou categóricas.
O peso, a altura, o índice de massa corporal, o valor da hemoglobina são exemplos
de dados quantitativos.
A classificação quanto ao sexo (masculino/feminino), renda familiar (renda
baixa/renda média/renda alta), escolaridade (baixa/média/alta) são exemplos de
dados qualitativos ou categóricos.
Temos dois tipos de dados categóricos: os nominais e os ordinais.
No tipo categórico nominal, todas as categorias têm o mesmo valor, a mesma
importância. Como exemplo, podemos citar o sexo, onde masculino e feminino são
categorias com o mesmo grau de importância.

2
Dados - elemento ou quantidade conhecida que é resultado de uma pesquisa e que serve de base para
resolução de um problema.
2
Por outro lado, no tipo categórico ordinal as categorias têm diferentes graus de
importância. Por exemplo, quando falamos em renda alta, sabemos que se trata de
famílias com renda superior às das famílias com renda média e baixa. Sabemos ainda
que renda baixa significa renda inferior à dos grupos de renda média e alta.
Saber identificar os tipos de dados ou variáveis é fundamental, pois as técnicas de
estatística descritiva e de análise de dados são específicas para cada tipo de variável.

ESTATÍSTICA DESCRITIVA DE DADOS QUANTITATIVOS

Quando o conjunto dos dados é pequeno, basta apresentá-lo de forma simples. Não
há necessidade de se usar técnicas ou recursos sofisticados. Abaixo apresentamos as
idades (anos) de 8 crianças.

7 6 4 7 7 8 7 12

Uma maneira simples para descrevê-las seria: a mais nova tem 4 anos, enquanto a
mais velha tem 12 anos. A idade mais frequente é 7 anos.

Tente repetir o mesmo processo com um grupo um pouco maior. Abaixo


apresentamos as idades (anos) de 60 pacientes.
20 48 30 44 97 76
89 60 33 53 64 5
8 76 65 7 33 37
1 60 89 63 22 58
3 34 27 2 66 66
91 98 58 43 63 96
48 20 20 68 10 84
92 81 82 67 44 72
24 48 31 70 33 4
24 54 35 45 43 7

As técnicas que serão apresentadas a seguir foram desenvolvidas para facilitar a


apresentação de grandes conjuntos de dados, possibilitando a sua leitura e
interpretação de forma sistemática e rápida.
Para a apresentação de dados quantitativos são utilizados alguns métodos
numéricos, com o objetivo de descrever o que ocorre no centro da distribuição e a
forma como os dados estão dispersos. Estes métodos conhecidos por medidas
resumo, podem ser divididos em:

3
 Medidas de tendência central de importância na área das ciências biológicas:
média aritmética, média geométrica, mediana e moda.
 Medidas de dispersão: amplitude máxima, variância, desvio padrão, coeficiente
de variação e amplitude interquartil.

 Medidas de posição: quartis e escores z

Medidas de tendência central

1. Média Aritmética

A média aritmética ( x ) é uma das medidas mais usadas para descrever a tendência
central. Seu cálculo é muito fácil: somamos os valores medidos e, a seguir, dividimos
pelo número de casos avaliados. Indicamos a média de uma população por  e a de
uma amostra ou grupo por x.

 X
N
X é a soma dos valores da população e N é o número de casos da população

x
x
n
x é a soma dos valores da amostra ou grupo e n é o número de elementos da amostra ou grupo

Exemplo: dado o conjunto dos números [99, 100; 101; 102; 105], sua média será:

x
99  100  101  102  105  101,4
5

A média aritmética tem uma grande desvantagem: sofre grande influência de valores
extremos (muito grandes ou muito pequenos) em relação ao conjunto dos dados.
No exemplo acima, se trocarmos o valor 100 por 60 a média passa a ser:

x
60  99  101  102  105  93,4
5

A troca de um único elemento causou uma diminuição de 8 unidades na média do


grupo. Assim, a média aritmética só é um bom parâmetro de tendência central
quando os dados têm distribuição simétrica.

4
2. Média Geométrica

A média geométrica (Mg) é um bom parâmetro de tendência central de dados


maiores que zero, que apresentam grande assimetria à direita, tal como ocorre com
os resultados de títulos de anticorpos, peso, índice de massa corporal, etc.
Seu cálculo é dado pelas fórmulas:

𝑀 = (𝑥 . 𝑥 . 𝑥 … 𝑥 ) (1)

ou

𝑀 = (𝑥 . 𝑥 . 𝑥 … 𝑥 ) (2)

Também pode ser calculada de forma bem mais prática. Para tal trabalharmos com
os logaritmos3 (logs) dos dados. Determinamos a média aritmética dos logaritmos e,
a seguir, calculamos o antilogaritmo da média aritmética dos logs. O antilogaritmo
da média dos logs é igual à média geométrica.
Vejamos um exemplo simples: considere os cinco valores apresentados a seguir: [10,
100, 1.000, 10.000, 100.000]

Determinando a média geométrica pela fórmula (1):

𝑀 = (𝑥 . 𝑥 . 𝑥 … 𝑥 )
𝑀 = (10 × 100 × 1.000 × 10.000 × 100.000) .

Determinando a média geométrica pela fórmula (2):

𝑀 = (𝑥 . 𝑥 . 𝑥 … 𝑥 )
𝑀 = (10 × 100 × 1.000 × 10.000 × 100.000) = 1.000

Determinando a Mg pelo método dos logaritmos:

Inicialmente calculamos a média dos logaritmos (𝑥̅ )


𝐿𝑜𝑔(10) + 𝐿𝑜𝑔(100) + 𝐿𝑜𝑔(1.000) + 𝐿𝑜𝑔(10.000)
𝑥̅ = =3
5

A seguir, determinamos o antilogaritmo da média dos logaritmos (𝑥̅ )


̅
𝐴𝑛𝑡𝑖𝐿𝑜𝑔 𝑥̅ = 10 = 10 = 1.000

3
Neste texto usamos logaritmos na base 10 (𝑥̅ )
5
3. Mediana

Se ordenarmos os dados em ordem crescente, a mediana (Md) é o valor da variável


observado no elemento que ocupa o centro da distribuição. A mediana divide os
dados em dois grupos que têm o mesmo número de casos. Metade dos casos tem
valores menores e a outra metade tem valores maiores que a mediana. A mediana é
equivalente ao percentil 50º e ao 2º quartil.
Para a sua determinação, inicialmente deve-se ordenar a amostra (ordem crescente)
e, a seguir, procura-se o elemento que ocupa a posição central. O valor da variável
deste elemento é a mediana.
No exemplo anterior - dado um conjunto de números [99, 100; 101; 102; 105]:

Ordem 1º 2º 3º 4º 5º

Valor 99 100 101 102 105

O centro da distribuição é ocupado pelo 3º elemento cujo valor é 101. A mediana


deste grupo é 101 (Md=101).
Observe que dois elementos da distribuição são menores que a mediana (99 e 100)
e dois elementos são maiores que a mediana (102 e 105).
A etapa mais trabalhosa na determinação da mediana é a identificação do elemento
que ocupa o centro da distribuição ordenada dos dados. Não há muita dificuldade
quando o número de casos é pequeno, porém, quando trabalhamos com grandes
grupos as dificuldades são enormes.
O Excel tem uma rotina que faz automaticamente a ordenação dos dados, o que
simplifica sobremaneira o trabalho. No entanto, a identificação do elemento central
ainda é um problema quando queremos fazer a determinação manual da mediana.
Para facilitar o trabalho podemos empregar os seguintes procedimentos:

a) Quando o número de casos é ímpar

Quando o número de casos é impar, sempre há um elemento que ocupa o centro da


distribuição, cuja posição é dada por:
N 1
Posição do Elemento Central 
2
N = número de casos

6
b) Quando o número de casos é par

Nesta circunstância dois elementos ocupam o centro da distribuição, cujas posições


podem ser determinadas por:

N
Posição do Primeiro Elemento 
2
N
Posição do Segundo Elemento   1
2
N = número de casos

A mediana será a “média aritmética” dos valores destes dois elementos centrais.

Por exemplo, considere os 10 valores apresentados a seguir: 2, 4, 6, 8, 10, 12, 14,


16, 18, 20
Aplicando-se as fórmulas acima teremos (N=10):
N 10
Posição do Primeiro Elemento   5
2 2
N   10 
Posição do Segundo Elemento    1    1  6
2   2 

Posição 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º

Número 2 4 6 8 10 12 14 16 18 20

A mediana será a média aritmética dos valores do 5º e 6º elementos.

Md 
10  12  11
2
Observe que o valor 11 não pertence aos dados originais. Ele foi estimado por
interpolação, a partir dos valores dos dois elementos que ocupam o centro da
distribuição.

Neste outro exemplo com 6 elementos [100;105;101;98;99;103]

Inicialmente ordenamos os dados: 98; 99; 100; 101; 103; 105

A seguir, determinamos os elementos centrais:

7
N 6
Posição do Primeiro Elemento   3
2 2

N  6 
Posição do Segundo Elemento    1    1  4
2  2 

Posição 1º 2º 3º 4º 5º 6º

Valor 98 99 100 101 103 105

Agora, podemos calcular a mediana:

Md 
100  101  100,5
2
Diferentemente da média aritmética, a mediana não sofre a influência de elementos
extremos. No exemplo acima, se o sexto elemento fosse 105.000 a mediana da
distribuição seria a mesma.

Posição 1º 2º 3º 4º 5º 6º

Valor 98 99 100 101 103 105.000

Md 
100  101  100,5
2

4. Moda

A moda (Mo) expressa os valores que têm maior frequência no grupo de estudo.
Podemos ter distribuições de dados sem moda (amodais), com uma moda
(unimodais), com duas (bimodais) ou mais de duas modas (multimodais).
No exemplo anterior todos os valores ocorrem uma única vez, portanto, a distribuição
não apresenta moda (amodal).
Ao tomarmos um grupo de 15 crianças de uma escola, obtemos as seguintes idades
(anos):
4; 5; 6; 7; 7; 7; 7; 7; 7; 7; 7; 7; 8; 8; 9

8
A idade que aparece com maior frequência é 7 anos; portanto, a moda desta
distribuição é 7 anos.
Esta medida de tendência central não é utilizada na prática.

Medidas de dispersão

1. Amplitude Máxima

A amplitude máxima4 (AM) é a diferença existente entre o maior (máximo) e o menor


(mínimo) valor observado. Por ser uma medida de dispersão calculada a partir de
somente dois elementos, ignorando os demais, expressa de forma limitada a
dispersão do conjunto dos dados.
Exemplo: considerando as idades (anos) de um grupo de 10 crianças:
4; 5; 5; 6; 6; 6; 7; 7; 8; 8

Menor valor observado = 4 anos


Maior valor observado = 8 anos

AM  8  4  4

2. Variância

A variância é uma medida de dispersão que leva em consideração todos os elementos


do grupo. Indicamos a variância de uma população por “2” e de uma amostra ou
grupo por “s2”.
Para determinar a variância calculamos a diferença (desvio) de cada elemento em
relação à média aritmética do grupo [  X    ]. A seguir, estas diferenças são elevadas
2
ao quadrado [  X    ] e, finalmente, dividimos a soma dos quadrados destas

 X   
2
diferenças [ ] pelo número de casos (N).

∑(𝑋 − 𝜇)
𝜎 =
𝑁
Quando trabalhamos com amostras, temos o interesse de que a variância (s2) seja
representativa da variância da população (σ2). Levando-se em conta este fato,
dividimos o numerador por (n-1) e não por n. A variância é calculada pela fórmula:

4
“Range” em Inglês e “Rango” em Espanhol
9
∑(𝑥 − 𝑥̅ )
𝑠 =
𝑛−1
Exemplo: considerando as idades (anos) de um grupo de 10 crianças:
7; 5; 6; 7; 8; 6; 6; 8; 5; 4
Inicialmente calculamos a média

x
7  5  6  7  8  6  6  8  5  4  6,2
10
A seguir, criamos uma tabela com três colunas para facilitar os cálculos. Na primeira
coluna colocamos as idades. Na segunda, as diferenças entre cada idade e a média

aritmética do grupo x  x  e, na terceira, os valores da segunda coluna elevados ao


quadrado x  x  .
2

Idades x  x  x  x  2

7 0,8 0,64
5 -1,2 1,44
6 -0,2 0,04
7 0,8 0,64
8 1,8 3,24
6 -0,2 0,04
6 -0,2 0,04
8 1,8 3,24
5 -1,2 1,44
4 -2,2 4,84
Total 15,6

A seguir, calculamos a variância.

∑( ̅) ,
𝑠 = = = 1,7 𝑎𝑛𝑜𝑠

Com um pouco de paciência e empregando algumas transformações algébricas

 x x 
2
simples, podemos desenvolver o numerador da fórmula da variância ( ),

chegando a uma expressão equivalente, que apresenta a vantagem de não usar a


média.
(∑ 𝑥)
(𝑥 − 𝑥̅ ) = 𝑥 −
𝑛
Assim, passamos a contar com uma maneira prática de calcular a variância:
(∑ 𝑥)
∑𝑥 −
𝑠 = 𝑛
𝑛−1
10
Retomando o exemplo anterior e aplicando esta nova fórmula temos:

Idades X X2
7 7 49
5 5 25
6 6 36
7 7 49
8 8 64
6 6 36
6 6 36
8 8 64
5 5 25
4 4 16
Total 62 400

(∑ )

𝑠 = = = 1,7 𝑎𝑛𝑜𝑠

3. Desvio Padrão
A variância é uma excelente medida de dispersão, no entanto, pouco usada nas
publicações. Como elevamos os desvios ao quadrado, também elevamos ao quadrado
2
as unidades de medida. Assim, a unidade da variância do peso será kg , da altura

2 𝑘𝑔
será cm , e a do índice de massa corporal será 𝑚 . A interpretação destas
unidades de dispersão torna-se muito confusa para o leitor.
Considerando estes fatos, passou-se a usar o desvio padrão, que é a raiz quadrada
da variância. Indicamos o desvio padrão de uma população por “” e de uma amostra
ou grupo por “s”.
𝜎 = √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 ou 𝑠 = √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎
O desvio padrão do exemplo anterior é:
𝑠= 1,7 = 1,3 𝑎𝑛𝑜𝑠
Pelo fato de que o desvio padrão é a raiz quadrada da variância, ele tem a unidade
original em que os dados foram medidos. No exemplo anterior a unidade da variância
da idade era “anos2“e a do desvio padrão é “anos”.
O desvio padrão representa quanto, aproximadamente, em média, cada observação
está distante da média aritmética do grupo. Quanto mais próximos da média
estiverem os valores, menor será o desvio padrão e, quanto mais distantes estiverem
da média, maior ele será.
11
A seguir apresentamos um novo grupo de 10 crianças, para calcularmos o desvio
padrão da idade e o compararmos com o do exemplo anterior.
4; 8; 9; 5; 12; 13; 14; 6; 5; 5
A média aritmética da idade deste grupo é: 𝑥̅ = = 8,1 𝑎𝑛𝑜𝑠

O desvio padrão é:

(∑ )

𝑎𝑛𝑜𝑠

Observe que no exemplo anterior tínhamos uma média igual a 6,2 anos e o desvio
padrão igual a 1,3 anos. Neste último, a média é 8,1 anos e o desvio padrão 3,7
anos.

4. Coeficiente de Variação

O coeficiente de variação (CV) é a razão entre o desvio padrão e a média do grupo.


O coeficiente de variação, expresso em porcentagem, é uma medida usada para
comparar as dispersões de dois ou mais grupos.
𝑠
𝐶𝑉(%) = . 100
𝑥̅
Considerando os dois exemplos anteriores temos:
,
No primeiro grupo de crianças x =6,2 e s = 1,3 → 𝐶𝑉 = . 100 = 21,0%
,
,
No segundo grupo de crianças é x =8,1 e s = 3,7 → 𝐶𝑉 = . 100 = 45,7%
,

A dispersão do segundo grupo é 2,2 vezes maior que a do primeiro.

Medidas de posição

1. Quartis

Chamamos de quartil a qualquer um dos três valores que divide o conjunto ordenado
de dados em quatro grupos, cada um contendo 25% dos casos.
O 1º quartil separa o grupo formado por 25% dos casos com os menores valores. O
2º quartil também divide o grupo em dois subgrupos com igual número de casos,
sendo que metade dos casos tem valores menores e a outra metade, valores maiores
que o 2º quartil. O 3º quartil separa o grupo com os maiores valores, também com
25% dos casos, dos demais 75% que têm valores menores.

12
O 1º quartil é equivalente ao percentil 25, o segundo é equivalente ao percentil 50 e
à mediana, enquanto o 3º quartil é equivalente ao percentil 75.

25% 25% 25% 25%

Mínimo 1º Quartil 2º Quartil 3º Quartil Máximo

Chamamos de amplitude interquartil (AIQ) à diferença entre o 3º e o 1º quartil.


Ela expressa a dispersão dos casos que ocupam o centro da distribuição, excluídos
os 25% menores e os 25% maiores.

AIQ  3º Quartil  1º Quartil

Como determinar os quartis?


Inicialmente ordenamos os dados e, a seguir, identificamos os três valores que
dividem o grupo todo em quatro subgrupos, cada qual com igual número de casos.
Para determinar a posição do elemento que corresponde 1º Quartil (PQ1), utilizamos
a seguinte fórmula:

Posição do 1º Quartil 
N  1
4
Para encontrar a posição do elemento do 2º Quartil (PQ2) usamos a fórmula:

2  N  1
Posição do 2º Quartil 
4
Para o 3º Quartil (PQ3) usamos a fórmula:

3  N  1
Posição do 3º Quartil 
4

Quando a posição (P) de um determinado quartil é um número inteiro, o elemento


faz parte dos dados do pesquisador. Portanto, basta localizá-lo e verificar o valor da
variável em estudo. O seu valor é o quartil. Nem sempre temos essa situação.
Quando a posição (P) de um determinado quartil é um número decimal, o elemento
que se procura não faz parte do conjunto dos dados. Neste caso, assim como fizemos
anteriormente com a mediana, o valor do quartil será obtido por interpolação. Esta
interpolação é uma média ponderada, que pode ser obtida pela fórmula:

𝑄𝑢𝑎𝑟𝑡𝑖𝑙 = 𝑥 + 𝑓𝑟𝑎çã𝑜 𝑑𝑒𝑐𝑖𝑚𝑎𝑙. 𝑥 −𝑥

13
Onde, 𝑥 −𝑥 é a diferença entre os valores dos elementos que delimitam
o intervalo que contém o quartil e “fração decimal” é a parte decimal da posição (P)
do quartil.
Por exemplo, quando a posição (P) de um determinado quartil é 38, basta procurar
na série ordenada dos dados o elemento que ocupa a posição 38. O valor da variável
observada nesse caso é o quartil desejado
Outras vezes a posição (P) é um número decimal, por exemplo, P=40,8. Sabemos
que o quartil desejado está entre os elementos 40º e 41º. Portanto, temos que
estimá-lo a partir dos valores dos casos 40º e 41º. O 40º antecede a posição do
quartil e será chamado de “Anterior” e o 41º sucede a posição do quartil e será
chamado de “Posterior”. A “fração decimal” neste caso é 0,8 que é a parte decimal
de P.
Vamos tomar um exemplo mais concreto. Na tabela abaixo os valores de altura já
ordenados. Queremos determinar um determinado quartil e obtivemos P=40,8.
Como proceder?

Posição ... 38º 39º 40º 41º 42º 43º ...

Altura ... 123 134 135 138 141 142 ...

Neste caso temos:


𝑥 = 135 e 𝑥 = 138 e a fração decimal = 0,8

𝑄𝑢𝑎𝑟𝑡𝑖𝑙 = 𝑥 + 𝑓𝑟𝑎çã𝑜 𝑑𝑒𝑐𝑖𝑚𝑎𝑙. 𝑥 −𝑥


𝑄𝑢𝑎𝑟𝑡𝑖𝑙 = 135 + 0,8. (138 − 135) = 137,4

Neste caso, valor do quartil foi obtido por interpolação e seu valor é 137,4cm.

2. Escores Z

O escore z (z-score) representa a posição relativa dos elementos de um grupo em


relação à sua média aritmética. O escore z expressa, em unidades de desvio padrão,
a distância que um determinado dado está em relação à média aritmética.
Para o cálculo do escore z temos que conhecer a média e o desvio padrão do grupo
em estudo. A partir destes dados, utilizamos a fórmula:
14
(𝑥 − 𝑥̅ )
𝑒𝑠𝑐𝑜𝑟𝑒 𝑧 =
𝑠
onde “x” é o valor da variável; x é a média e “s” o desvio padrão do grupo.

Por exemplo, dado o conjunto de números [100; 101; 105,2; 99,2; 100,5].

Inicialmente calculamos a média e o desvio padrão do grupo:𝑥̅ = 101,18 e s=2,34.


Para determinar o escore z de 105,2 fazemos:
(𝑥 − 𝑥̅ ) (105,2 − 101,18)
𝑒𝑠𝑐𝑜𝑟𝑒 𝑧 = = = 1,71
𝑠 2,34
O escore z de 105,2 é +1,71, o que significa que 105,2 está situado 1,71 unidades
de desvio padrão acima da média.

Para determinar o escore z de 100 fazemos:


(𝑥 − 𝑥̅ ) (100,0 − 101,18)
𝑒𝑠𝑐𝑜𝑟𝑒 𝑧 = = = −0,50
𝑠 2,34
O escore z de 100 é -0,50, o que significa que 100 está situado 0,5 unidades de
desvio padrão abaixo da média.

Para determinar o escore z de 101,18 fazemos:


(𝑥 − 𝑥̅ ) (101,18 − 101,18)
𝑒𝑠𝑐𝑜𝑟𝑒 𝑧 = = =0
𝑠 2,34
O escore z de 101,18 é 0, o que significa que 101,18 é igual à média do grupo.

ANÁLISE EXPLORATÓRIA DE DADOS

Chamamos de “análise exploratória de dados” à avaliação criteriosa5,6 dos dados e


que deve preceder a análise final, cujo resultado é o conjunto das informações que
serão publicadas. Para esta avaliação utilizamos todas as técnicas discutidas neste
texto, entretanto, ressaltamos que o mais importante é a experiência da pessoa que
vai fazer a análise. É fundamental que se conheça a natureza e a forma de
distribuição de cada uma das variáveis em estudo, assim como se deve avaliar a
“qualidade” dos dados que serão analisados.

5
“Exploratory data analysis is detective work – numerical detective work or counting detective work or
graphical detective work”. Tukey (1977) p. 1.
6
“Unless exploratory data analysis uncovers indications, usually quantitative ones, there is likely to be
nothing for confirmatory data analysis to consider” Tukey (1977) p. 3.
15
Quando falamos em “qualidade” estamos nos referindo ao rigor metodológico usado
no momento das medições, na qualidade da digitação, na depuração de erros de
medida e dos erros de digitação, etc.
A partir dessa análise preliminar, após avaliar a forma de distribuição dos dados e a
qual modelo se ajustam, inicia-se o planejamento da análise descritiva e aplicação
de testes estatísticos.
Os chamados “dados atípicos” ou “pontos fora da curva” ou “outliers” devem receber
cuidados especiais. Estes dados atípicos são aqueles que estão muito distantes do
centro da distribuição, e que até podem ser informações corretas. No entanto, podem
ser decorrentes de erro de medida, erro de anotação ou mesmo de digitação.
São considerados outliers os pontos que são maiores que 3º quartil+1,5.AIQ ou
menores que 1º quartil-1,5.AIQ, onde AIQ é a amplitude interquartil.
Por exemplo, em um estudo sobre altura de crianças em idade escolar, encontramos
casos com valor 220cm e 240cm. O mais provável é que tenha ocorrido erro no
momento do exame antropométrico, na anotação ou mesmo por ocasião da digitação,
pois é impossível que haja crianças em idade escolar com estas alturas. Se estes
casos não forem retirados do grupo, haverá séria distorção na média e no desvio
padrão, comprometendo os resultados que serão publicados.
O gráfico de box-plot é uma ferramenta muito útil para se fazer essa análise
preliminar de dados quantitativos. Este gráfico é construído a partir de cinco pontos
fundamentais: o mínimo, o 1º quartil, o 2º quartil, o 3º quartil e o máximo.
Iniciamos marcando o mínimo e o máximo. A seguir, desenhamos um retângulo que
passa pelo 1º quartil e pelo 3º quartil. Posteriormente, marcamos a mediana no
interior do retângulo. Desenhamos dois segmentos de reta com comprimento igual a
1,5 vezes a AIQ. O primeiro, acima do bordo superior do retângulo e o outro, abaixo

do bordo inferior.
Os casos cujos valores não estão incluídos entre os dois extremos dos segmentos de
reta são considerados outliers e devem ser reavaliados antes de se prosseguir na
análise dos dados. Na figura abaixo apresentamos um Box-Plot com quatro outliers.

16
500

450 Máximo

400

350
(ml)

300 3º Quartil

Mediana

250 1º Quartil

200

Mínimo
150

100

Pico de Fluxo Expiratório

ESTATÍSTICA DESCRITIVA DE DADOS CATEGÓRICOS OU QUALITATIVOS

Para a apresentação de dados qualitativos determinamos as distribuições de


frequências e as apresentamos em tabelas e gráficos.

1. Distribuição de frequências simples

Para obtermos uma distribuição de frequência de dados categóricos, basta contarmos


quantos casos há em cada categoria.
As frequências das categorias podem ser expressas por seu número absoluto ou pela
porcentagem em relação ao total.
Avaliação nutricional pelo critério de Gomez de 521 crianças de pré-escolas
da cidade de Paulínia – São Paulo (Zanolli,1992)7.

(N) (%)
Eutrofia 412 79,1
Desnutrição Leve 104 20,0
Desnutrição Moderada 5 1,0
Desnutrição Grave 0 0
Total 521 100,0

7 Zanolli ML – Avaliação do estado nutricional de pré-escolares matriculados nas escolas municipais de educação infantil de Paulínia

– SP. Campinas, 1992. Tese (Mestrado em Saúde Coletiva), Faculdade de Ciências Médicas, UNICAMP.
17
O cálculo da porcentagem de uma determinada categoria é muito simples: divide-se
a frequência absoluta pelo total e multiplica-se por 100. No exemplo anterior, para o
grupo dos eutróficos seria:
Eutrófico (%) = 412 / 521 x 100 = 79,07869
Geralmente fazemos a aproximação para uma casa decimal que, no exemplo acima,
resulta 79,1%.
A interpretação destes dados é muito simples. Ao lermos a tabela verificamos que
412 crianças entre as 512 eram nutridas, o que corresponde a 79,1% do total.
Em algumas circunstâncias pode interessar ao pesquisador apresentar também a
frequência acumulada.
Avaliação nutricional pelo critério de Gomez de 521 crianças de pré-escolas da cidade de
Paulínia – São Paulo (Zanolli, 1992)8
(N) (%) (%) Acumulada
Eutrofia 412 79,1 79,1
Desnutrição Leve 104 20,0 99,1
Desnutrição Moderada 5 1,0 100,1
Desnutrição Grave 0 0 0
Total 521 100,1 100,1

Quando trabalhamos com variáveis numéricas torna-se necessário agrupar os dados


em categorias para poder apresentá-los na forma de distribuição de frequências. Os
dados são agrupados em intervalos de classes, cujo número não deve ser pequeno
ou muito grande, recomendando-se que varie de 5 a 20. Há algumas fórmulas para
determinar o número de classes, mas a lógica e o bom senso parecem ser mais úteis.
É necessário ter em mente que os intervalos de classes devem ser estabelecidos de
tal forma que todos os dados possam ser incluídos em somente uma das classes.
Abaixo temos uma distribuição de frequências de uma variável quantitativa (idade
em meses) agrupada em intervalos de classe.
Distribuição da idade(anos) de 521 crianças de pré-escolas da cidade de
Paulínia – São Paulo (Zanolli, 1992)9.

Idade (meses) (N) (%)


36,0 –| 48,0 35 6,7
48,0 –| 60,0 70 13,4
60,0 –| 72,0 168 32,2
72,0 –| 83,9 204 39,2
84,0 –| 96,0 44 8,4
Total 521 99,9

8 Id.
9 Ibid.
18
2. Distribuição de frequências em relação a duas variáveis qualitativas – tabelas de
contingência

Neste caso o objetivo é construir uma tabela contendo informações sobre o


comportamento de uma população ou grupo com relação a duas ou mais variáveis
qualitativas.
Distribuição de 521 crianças de pré-escolas da cidade de Paulínia – São Paulo em relação
ao sexo e à idade (Zanolli,1992)10.

Idade Feminino Masculino Total


(meses) N (%) N (%) N (%)

36,0 – 47,9 15 (42,9) 20 (57,1) 35 (100,0)


48,0 – 59,9 41 (58,6) 29 (41,4) 70 (100,0)
60,0 – 71,9 81 (48,2) 87 (51,8) 168 (100,0)
72,0 – 83,9 99 (48,5) 105 (51,5) 204 (100,0)
84,0 – 95,9 24 (54,5) 20 (45,5) 44 (100,0)
Total 260 (49,9) 261 (50,1) 521 (100,0)

Avaliação nutricional pelo critério de Gomez em relação sexo de 567 crianças matriculadas
nas 14 creches do município de Paulínia – SP, 1995 (Antonio,1995)11.

Sexo Eutrofia D. Leve D. Moderada Total


Masculino 221 (81,0) 49 (17,9) 3 (1,1) 273
Feminino 227 (77,2) 66 (22,4) 1 (0,3) 294
Total 448 (79,0) 115 (20,3) 4 (0,7) 567
D. Leve – desnutrição de Iº grau; D. Moderada – Desnutrição de IIº; N (%)

No primeiro caso as variáveis são sexo e grupo etário e no segundo, sexo e


classificação nutricional.

3. Apresentação gráfica

Gráficos setoriais
Os gráficos setoriais (pie chart, pizza) são indicados para apresentar a distribuições
de frequências. A área do círculo atribuída a cada categoria é proporcional à sua
frequência. A maneira mais prática para determiná-la, sabendo-se que o total
(100%) corresponde a um ângulo de 360º, é:

Ângulo desejado = (% x 360)/100

Por exemplo, para uma frequência de 45% devemos tomar um ângulo de 162º:

10
. Ibid.
11Antonio MARGM - Avaliação do estado nutricional e do perfil de crescimento de 568 crianças matriculadas nas 14 creches
municipais de Paulínia – SP. Campinas, 1995. Tese (Mestrado em Pediatria), Faculdade de Ciências Médicas, UNICAMP
19
Ângulo desejado = (45 x 360)/100 = 162º

A seguir apresentamos um exemplo de gráfico setorial

etnia
caucasiano
pardo
negro
10,28%

57,01%

32,71%

Gráficos de Barra
Da mesma forma que o anterior, este tipo de gráfico é indicado para apresentar
distribuições de frequências. Neste caso a frequência está relacionada à altura da
barra, sendo que as barras devem ter a mesma largura.
A seguir apresentamos um gráfico de barras expressando a distribuição de
frequências em relação à etnia.

60

40
(N)

20

0
caucasiano pardo negro
etnia

Na figura abaixo o gráfico de barras expressa a frequência em relação à etnia e sexo.

sexo
sexo masculino
sexo feminino

60,0%

40,0%
(%)

20,0%

0,0%
caucasiano pardo negro
etnia

20
View publication stats

Bibliografia

Agresti A, Finlay B. Métodos estatísticos para as ciências sociais. Porto Alegre, Penso, 2012.
Altman DG. Practical statistics for medical research. 1st edition. London: Chapman & Hall,
1991.
Anderson DR, Sweeney DJ, Williams TA. Estatística aplicada à administração e economia. 2ª
ed. São Paulo: Pioneira, 2002.
Berquó ES, Souza JMP, Gotlieb SLD. Bioestatística. 1ª ed. São Paulo: EPU, 1981.
Bland M. An introduction to medical statistics. 2nd edition. New York: Oxford University Press,
1995.
Bunchaft G. Estatística sem mistérios. 4ª ed. Petrópolis, RJ: Vozes, 1997.
Bussab WO, Morettin PA. Estatística básica. 5ª ed. São Paulo: Saraiva, 2003.
Callegari-Jacques SM. Bioestatística: princípios e aplicações. 1ª ed. Porto Alegre: Artmed,
2003.
Daniel WW. Biostatistics – A foundation for analysis in the health sciences. 6th. Edition. New
York: John Wiley & Sons, Inc., 1995.
Devore, JL. Probabilidade e estatística para Engenharia e ciências. São Paulo: Cengage
Learning, 2016.
Guimarães RC, Cabral JAS. Estatística. Lisboa: McGraw-Hill, 1997.
Levin J. Estatística aplicada às Ciências Humanas. São Paulo: Harper & Row do Brasil, 1987.
Martins GA. Estatística geral e aplicada. São Paulo: Atlas, 2001.
Pagano M, Gauvreau K. Princípios de bioestatística. São Paulo: Pioneira Thomson Learning,
2004.
Pereira JCR. Bioestatística em outras palavras. São Paulo: Edusp, 2010.
Spiegel MR, Schiller J, Srinivasan A. Probabilidade e Estatística. Porto Alegre: Bookman,
2013.
Schork MA, Remington RD. Statistics with applications to the biological and health sciences.
Upper Saddle River: Prentice-Hall, Inc., 2000.
Triola MF. Introdução à estatística. 7ª ed., Rio de Janeiro: LTC – Livros Técnicos e Científicos
Editora Ltda, 1999.
Tukey JW. Exploratory data analysis. London: Addison-Wesley Publishing Company, 1977.
Vieira S. Introdução à bioestatística. 3ª ed., Rio de Janeiro: Editora Campus, 1980.
Zar J. Biostatistical analysis. 2nd edition. Englewood Cliffs: Prentice-Hall Inc., 1984.

21

Você também pode gostar