Escolar Documentos
Profissional Documentos
Cultura Documentos
net/publication/335988720
Estatística Descritiva
CITATIONS READS
0 4,899
2 authors:
Some of the authors of this publication are also working on these related projects:
Human pathogens decay and recolonization in soils amended with sewage sludge and cultivated with eucalyptus View project
All content following this page was uploaded by André Moreno Morcillo on 23 September 2019.
Estatística Descritiva
“As Tabelas 1 e 2 mostram que, no grupo RB, não houve diferenças entre as
médias de PImáx e PEmáx nos subgrupos com alteração (grave e moderada) e
sem alteração. No entanto, no grupo RN, as médias de PImáx e PEmáx foram
maiores no subgrupo com alteração postural (70,8 ± 19,1 cmH2O vs. 54,7 ± 21,7
cmH2O; p = 0,003; e 67,7 ± 22,1 cmH2O vs. 50,5 ± 19,5 cmH2O; p = 0,004,
respectivamente).”
1
Okuro RT et al. Respiração bucal e anteriorização da cabeça: efeitos na biomecânica respiratória e na
capacidade de exercício em crianças. J. Bras. Pneumol. 2011; 37(4):471-479.
1
Trabalhando com informações ou “dados”2
2
Dados - elemento ou quantidade conhecida que é resultado de uma pesquisa e que serve de base para
resolução de um problema.
2
Por outro lado, no tipo categórico ordinal as categorias têm diferentes graus de
importância. Por exemplo, quando falamos em renda alta, sabemos que se trata de
famílias com renda superior às das famílias com renda média e baixa. Sabemos ainda
que renda baixa significa renda inferior à dos grupos de renda média e alta.
Saber identificar os tipos de dados ou variáveis é fundamental, pois as técnicas de
estatística descritiva e de análise de dados são específicas para cada tipo de variável.
Quando o conjunto dos dados é pequeno, basta apresentá-lo de forma simples. Não
há necessidade de se usar técnicas ou recursos sofisticados. Abaixo apresentamos as
idades (anos) de 8 crianças.
7 6 4 7 7 8 7 12
Uma maneira simples para descrevê-las seria: a mais nova tem 4 anos, enquanto a
mais velha tem 12 anos. A idade mais frequente é 7 anos.
3
Medidas de tendência central de importância na área das ciências biológicas:
média aritmética, média geométrica, mediana e moda.
Medidas de dispersão: amplitude máxima, variância, desvio padrão, coeficiente
de variação e amplitude interquartil.
1. Média Aritmética
A média aritmética ( x ) é uma das medidas mais usadas para descrever a tendência
central. Seu cálculo é muito fácil: somamos os valores medidos e, a seguir, dividimos
pelo número de casos avaliados. Indicamos a média de uma população por e a de
uma amostra ou grupo por x.
X
N
X é a soma dos valores da população e N é o número de casos da população
x
x
n
x é a soma dos valores da amostra ou grupo e n é o número de elementos da amostra ou grupo
Exemplo: dado o conjunto dos números [99, 100; 101; 102; 105], sua média será:
x
99 100 101 102 105 101,4
5
A média aritmética tem uma grande desvantagem: sofre grande influência de valores
extremos (muito grandes ou muito pequenos) em relação ao conjunto dos dados.
No exemplo acima, se trocarmos o valor 100 por 60 a média passa a ser:
x
60 99 101 102 105 93,4
5
4
2. Média Geométrica
𝑀 = (𝑥 . 𝑥 . 𝑥 … 𝑥 ) (1)
ou
𝑀 = (𝑥 . 𝑥 . 𝑥 … 𝑥 ) (2)
Também pode ser calculada de forma bem mais prática. Para tal trabalharmos com
os logaritmos3 (logs) dos dados. Determinamos a média aritmética dos logaritmos e,
a seguir, calculamos o antilogaritmo da média aritmética dos logs. O antilogaritmo
da média dos logs é igual à média geométrica.
Vejamos um exemplo simples: considere os cinco valores apresentados a seguir: [10,
100, 1.000, 10.000, 100.000]
𝑀 = (𝑥 . 𝑥 . 𝑥 … 𝑥 )
𝑀 = (10 × 100 × 1.000 × 10.000 × 100.000) .
𝑀 = (𝑥 . 𝑥 . 𝑥 … 𝑥 )
𝑀 = (10 × 100 × 1.000 × 10.000 × 100.000) = 1.000
3
Neste texto usamos logaritmos na base 10 (𝑥̅ )
5
3. Mediana
Ordem 1º 2º 3º 4º 5º
6
b) Quando o número de casos é par
N
Posição do Primeiro Elemento
2
N
Posição do Segundo Elemento 1
2
N = número de casos
A mediana será a “média aritmética” dos valores destes dois elementos centrais.
Posição 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
Número 2 4 6 8 10 12 14 16 18 20
Md
10 12 11
2
Observe que o valor 11 não pertence aos dados originais. Ele foi estimado por
interpolação, a partir dos valores dos dois elementos que ocupam o centro da
distribuição.
7
N 6
Posição do Primeiro Elemento 3
2 2
N 6
Posição do Segundo Elemento 1 1 4
2 2
Posição 1º 2º 3º 4º 5º 6º
Md
100 101 100,5
2
Diferentemente da média aritmética, a mediana não sofre a influência de elementos
extremos. No exemplo acima, se o sexto elemento fosse 105.000 a mediana da
distribuição seria a mesma.
Posição 1º 2º 3º 4º 5º 6º
Md
100 101 100,5
2
4. Moda
A moda (Mo) expressa os valores que têm maior frequência no grupo de estudo.
Podemos ter distribuições de dados sem moda (amodais), com uma moda
(unimodais), com duas (bimodais) ou mais de duas modas (multimodais).
No exemplo anterior todos os valores ocorrem uma única vez, portanto, a distribuição
não apresenta moda (amodal).
Ao tomarmos um grupo de 15 crianças de uma escola, obtemos as seguintes idades
(anos):
4; 5; 6; 7; 7; 7; 7; 7; 7; 7; 7; 7; 8; 8; 9
8
A idade que aparece com maior frequência é 7 anos; portanto, a moda desta
distribuição é 7 anos.
Esta medida de tendência central não é utilizada na prática.
Medidas de dispersão
1. Amplitude Máxima
AM 8 4 4
2. Variância
X
2
diferenças [ ] pelo número de casos (N).
∑(𝑋 − 𝜇)
𝜎 =
𝑁
Quando trabalhamos com amostras, temos o interesse de que a variância (s2) seja
representativa da variância da população (σ2). Levando-se em conta este fato,
dividimos o numerador por (n-1) e não por n. A variância é calculada pela fórmula:
4
“Range” em Inglês e “Rango” em Espanhol
9
∑(𝑥 − 𝑥̅ )
𝑠 =
𝑛−1
Exemplo: considerando as idades (anos) de um grupo de 10 crianças:
7; 5; 6; 7; 8; 6; 6; 8; 5; 4
Inicialmente calculamos a média
x
7 5 6 7 8 6 6 8 5 4 6,2
10
A seguir, criamos uma tabela com três colunas para facilitar os cálculos. Na primeira
coluna colocamos as idades. Na segunda, as diferenças entre cada idade e a média
Idades x x x x 2
7 0,8 0,64
5 -1,2 1,44
6 -0,2 0,04
7 0,8 0,64
8 1,8 3,24
6 -0,2 0,04
6 -0,2 0,04
8 1,8 3,24
5 -1,2 1,44
4 -2,2 4,84
Total 15,6
∑( ̅) ,
𝑠 = = = 1,7 𝑎𝑛𝑜𝑠
x x
2
simples, podemos desenvolver o numerador da fórmula da variância ( ),
Idades X X2
7 7 49
5 5 25
6 6 36
7 7 49
8 8 64
6 6 36
6 6 36
8 8 64
5 5 25
4 4 16
Total 62 400
(∑ )
∑
𝑠 = = = 1,7 𝑎𝑛𝑜𝑠
3. Desvio Padrão
A variância é uma excelente medida de dispersão, no entanto, pouco usada nas
publicações. Como elevamos os desvios ao quadrado, também elevamos ao quadrado
2
as unidades de medida. Assim, a unidade da variância do peso será kg , da altura
2 𝑘𝑔
será cm , e a do índice de massa corporal será 𝑚 . A interpretação destas
unidades de dispersão torna-se muito confusa para o leitor.
Considerando estes fatos, passou-se a usar o desvio padrão, que é a raiz quadrada
da variância. Indicamos o desvio padrão de uma população por “” e de uma amostra
ou grupo por “s”.
𝜎 = √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 ou 𝑠 = √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎
O desvio padrão do exemplo anterior é:
𝑠= 1,7 = 1,3 𝑎𝑛𝑜𝑠
Pelo fato de que o desvio padrão é a raiz quadrada da variância, ele tem a unidade
original em que os dados foram medidos. No exemplo anterior a unidade da variância
da idade era “anos2“e a do desvio padrão é “anos”.
O desvio padrão representa quanto, aproximadamente, em média, cada observação
está distante da média aritmética do grupo. Quanto mais próximos da média
estiverem os valores, menor será o desvio padrão e, quanto mais distantes estiverem
da média, maior ele será.
11
A seguir apresentamos um novo grupo de 10 crianças, para calcularmos o desvio
padrão da idade e o compararmos com o do exemplo anterior.
4; 8; 9; 5; 12; 13; 14; 6; 5; 5
A média aritmética da idade deste grupo é: 𝑥̅ = = 8,1 𝑎𝑛𝑜𝑠
O desvio padrão é:
(∑ )
∑
𝑎𝑛𝑜𝑠
Observe que no exemplo anterior tínhamos uma média igual a 6,2 anos e o desvio
padrão igual a 1,3 anos. Neste último, a média é 8,1 anos e o desvio padrão 3,7
anos.
4. Coeficiente de Variação
Medidas de posição
1. Quartis
Chamamos de quartil a qualquer um dos três valores que divide o conjunto ordenado
de dados em quatro grupos, cada um contendo 25% dos casos.
O 1º quartil separa o grupo formado por 25% dos casos com os menores valores. O
2º quartil também divide o grupo em dois subgrupos com igual número de casos,
sendo que metade dos casos tem valores menores e a outra metade, valores maiores
que o 2º quartil. O 3º quartil separa o grupo com os maiores valores, também com
25% dos casos, dos demais 75% que têm valores menores.
12
O 1º quartil é equivalente ao percentil 25, o segundo é equivalente ao percentil 50 e
à mediana, enquanto o 3º quartil é equivalente ao percentil 75.
Posição do 1º Quartil
N 1
4
Para encontrar a posição do elemento do 2º Quartil (PQ2) usamos a fórmula:
2 N 1
Posição do 2º Quartil
4
Para o 3º Quartil (PQ3) usamos a fórmula:
3 N 1
Posição do 3º Quartil
4
13
Onde, 𝑥 −𝑥 é a diferença entre os valores dos elementos que delimitam
o intervalo que contém o quartil e “fração decimal” é a parte decimal da posição (P)
do quartil.
Por exemplo, quando a posição (P) de um determinado quartil é 38, basta procurar
na série ordenada dos dados o elemento que ocupa a posição 38. O valor da variável
observada nesse caso é o quartil desejado
Outras vezes a posição (P) é um número decimal, por exemplo, P=40,8. Sabemos
que o quartil desejado está entre os elementos 40º e 41º. Portanto, temos que
estimá-lo a partir dos valores dos casos 40º e 41º. O 40º antecede a posição do
quartil e será chamado de “Anterior” e o 41º sucede a posição do quartil e será
chamado de “Posterior”. A “fração decimal” neste caso é 0,8 que é a parte decimal
de P.
Vamos tomar um exemplo mais concreto. Na tabela abaixo os valores de altura já
ordenados. Queremos determinar um determinado quartil e obtivemos P=40,8.
Como proceder?
Neste caso, valor do quartil foi obtido por interpolação e seu valor é 137,4cm.
2. Escores Z
Por exemplo, dado o conjunto de números [100; 101; 105,2; 99,2; 100,5].
5
“Exploratory data analysis is detective work – numerical detective work or counting detective work or
graphical detective work”. Tukey (1977) p. 1.
6
“Unless exploratory data analysis uncovers indications, usually quantitative ones, there is likely to be
nothing for confirmatory data analysis to consider” Tukey (1977) p. 3.
15
Quando falamos em “qualidade” estamos nos referindo ao rigor metodológico usado
no momento das medições, na qualidade da digitação, na depuração de erros de
medida e dos erros de digitação, etc.
A partir dessa análise preliminar, após avaliar a forma de distribuição dos dados e a
qual modelo se ajustam, inicia-se o planejamento da análise descritiva e aplicação
de testes estatísticos.
Os chamados “dados atípicos” ou “pontos fora da curva” ou “outliers” devem receber
cuidados especiais. Estes dados atípicos são aqueles que estão muito distantes do
centro da distribuição, e que até podem ser informações corretas. No entanto, podem
ser decorrentes de erro de medida, erro de anotação ou mesmo de digitação.
São considerados outliers os pontos que são maiores que 3º quartil+1,5.AIQ ou
menores que 1º quartil-1,5.AIQ, onde AIQ é a amplitude interquartil.
Por exemplo, em um estudo sobre altura de crianças em idade escolar, encontramos
casos com valor 220cm e 240cm. O mais provável é que tenha ocorrido erro no
momento do exame antropométrico, na anotação ou mesmo por ocasião da digitação,
pois é impossível que haja crianças em idade escolar com estas alturas. Se estes
casos não forem retirados do grupo, haverá séria distorção na média e no desvio
padrão, comprometendo os resultados que serão publicados.
O gráfico de box-plot é uma ferramenta muito útil para se fazer essa análise
preliminar de dados quantitativos. Este gráfico é construído a partir de cinco pontos
fundamentais: o mínimo, o 1º quartil, o 2º quartil, o 3º quartil e o máximo.
Iniciamos marcando o mínimo e o máximo. A seguir, desenhamos um retângulo que
passa pelo 1º quartil e pelo 3º quartil. Posteriormente, marcamos a mediana no
interior do retângulo. Desenhamos dois segmentos de reta com comprimento igual a
1,5 vezes a AIQ. O primeiro, acima do bordo superior do retângulo e o outro, abaixo
do bordo inferior.
Os casos cujos valores não estão incluídos entre os dois extremos dos segmentos de
reta são considerados outliers e devem ser reavaliados antes de se prosseguir na
análise dos dados. Na figura abaixo apresentamos um Box-Plot com quatro outliers.
16
500
450 Máximo
400
350
(ml)
300 3º Quartil
Mediana
250 1º Quartil
200
Mínimo
150
100
(N) (%)
Eutrofia 412 79,1
Desnutrição Leve 104 20,0
Desnutrição Moderada 5 1,0
Desnutrição Grave 0 0
Total 521 100,0
7 Zanolli ML – Avaliação do estado nutricional de pré-escolares matriculados nas escolas municipais de educação infantil de Paulínia
– SP. Campinas, 1992. Tese (Mestrado em Saúde Coletiva), Faculdade de Ciências Médicas, UNICAMP.
17
O cálculo da porcentagem de uma determinada categoria é muito simples: divide-se
a frequência absoluta pelo total e multiplica-se por 100. No exemplo anterior, para o
grupo dos eutróficos seria:
Eutrófico (%) = 412 / 521 x 100 = 79,07869
Geralmente fazemos a aproximação para uma casa decimal que, no exemplo acima,
resulta 79,1%.
A interpretação destes dados é muito simples. Ao lermos a tabela verificamos que
412 crianças entre as 512 eram nutridas, o que corresponde a 79,1% do total.
Em algumas circunstâncias pode interessar ao pesquisador apresentar também a
frequência acumulada.
Avaliação nutricional pelo critério de Gomez de 521 crianças de pré-escolas da cidade de
Paulínia – São Paulo (Zanolli, 1992)8
(N) (%) (%) Acumulada
Eutrofia 412 79,1 79,1
Desnutrição Leve 104 20,0 99,1
Desnutrição Moderada 5 1,0 100,1
Desnutrição Grave 0 0 0
Total 521 100,1 100,1
8 Id.
9 Ibid.
18
2. Distribuição de frequências em relação a duas variáveis qualitativas – tabelas de
contingência
Avaliação nutricional pelo critério de Gomez em relação sexo de 567 crianças matriculadas
nas 14 creches do município de Paulínia – SP, 1995 (Antonio,1995)11.
3. Apresentação gráfica
Gráficos setoriais
Os gráficos setoriais (pie chart, pizza) são indicados para apresentar a distribuições
de frequências. A área do círculo atribuída a cada categoria é proporcional à sua
frequência. A maneira mais prática para determiná-la, sabendo-se que o total
(100%) corresponde a um ângulo de 360º, é:
Por exemplo, para uma frequência de 45% devemos tomar um ângulo de 162º:
10
. Ibid.
11Antonio MARGM - Avaliação do estado nutricional e do perfil de crescimento de 568 crianças matriculadas nas 14 creches
municipais de Paulínia – SP. Campinas, 1995. Tese (Mestrado em Pediatria), Faculdade de Ciências Médicas, UNICAMP
19
Ângulo desejado = (45 x 360)/100 = 162º
etnia
caucasiano
pardo
negro
10,28%
57,01%
32,71%
Gráficos de Barra
Da mesma forma que o anterior, este tipo de gráfico é indicado para apresentar
distribuições de frequências. Neste caso a frequência está relacionada à altura da
barra, sendo que as barras devem ter a mesma largura.
A seguir apresentamos um gráfico de barras expressando a distribuição de
frequências em relação à etnia.
60
40
(N)
20
0
caucasiano pardo negro
etnia
sexo
sexo masculino
sexo feminino
60,0%
40,0%
(%)
20,0%
0,0%
caucasiano pardo negro
etnia
20
View publication stats
Bibliografia
Agresti A, Finlay B. Métodos estatísticos para as ciências sociais. Porto Alegre, Penso, 2012.
Altman DG. Practical statistics for medical research. 1st edition. London: Chapman & Hall,
1991.
Anderson DR, Sweeney DJ, Williams TA. Estatística aplicada à administração e economia. 2ª
ed. São Paulo: Pioneira, 2002.
Berquó ES, Souza JMP, Gotlieb SLD. Bioestatística. 1ª ed. São Paulo: EPU, 1981.
Bland M. An introduction to medical statistics. 2nd edition. New York: Oxford University Press,
1995.
Bunchaft G. Estatística sem mistérios. 4ª ed. Petrópolis, RJ: Vozes, 1997.
Bussab WO, Morettin PA. Estatística básica. 5ª ed. São Paulo: Saraiva, 2003.
Callegari-Jacques SM. Bioestatística: princípios e aplicações. 1ª ed. Porto Alegre: Artmed,
2003.
Daniel WW. Biostatistics – A foundation for analysis in the health sciences. 6th. Edition. New
York: John Wiley & Sons, Inc., 1995.
Devore, JL. Probabilidade e estatística para Engenharia e ciências. São Paulo: Cengage
Learning, 2016.
Guimarães RC, Cabral JAS. Estatística. Lisboa: McGraw-Hill, 1997.
Levin J. Estatística aplicada às Ciências Humanas. São Paulo: Harper & Row do Brasil, 1987.
Martins GA. Estatística geral e aplicada. São Paulo: Atlas, 2001.
Pagano M, Gauvreau K. Princípios de bioestatística. São Paulo: Pioneira Thomson Learning,
2004.
Pereira JCR. Bioestatística em outras palavras. São Paulo: Edusp, 2010.
Spiegel MR, Schiller J, Srinivasan A. Probabilidade e Estatística. Porto Alegre: Bookman,
2013.
Schork MA, Remington RD. Statistics with applications to the biological and health sciences.
Upper Saddle River: Prentice-Hall, Inc., 2000.
Triola MF. Introdução à estatística. 7ª ed., Rio de Janeiro: LTC – Livros Técnicos e Científicos
Editora Ltda, 1999.
Tukey JW. Exploratory data analysis. London: Addison-Wesley Publishing Company, 1977.
Vieira S. Introdução à bioestatística. 3ª ed., Rio de Janeiro: Editora Campus, 1980.
Zar J. Biostatistical analysis. 2nd edition. Englewood Cliffs: Prentice-Hall Inc., 1984.
21