Escolar Documentos
Profissional Documentos
Cultura Documentos
2011
SUMÁRIO
1 Estatística Descritiva 3
1.1 Tipo de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Variáveis Quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Propriedades da média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.4 Comparação entre Média, Mediana e Moda . . . . . . . . . . . . . . . . . . . 14
1.4.5 Simetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.6 Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Percentis ou Centis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.7 Medidas de posição para dados agrupados . . . . . . . . . . . . . . . . . . . 16
Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Quartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Percentil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5 Boxplot ou desenho esquemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6 Medidas de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6.1 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6.2 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Propriedades da Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Propriedades do Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.6.3 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.6.4 Erro Padrão da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.7 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.7.1 Dados Agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Estatística Descritiva
1
A estatística descritiva é parte da estatística que lida com a organização, resumo e apresen-
tação de dados. Esta é feita por meio de:
• Tabelas;
• Grácos;
• Variáveis Quantitativas - são as características que podem ser medidas em uma escala
quantitativa, ou seja, apresentam valores numéricos
Variáveis discretas: são aquelas variáveis que pode assumir somente valores inteiros
num conjunto de valores. É gerada pelo processo de contagem
Exemplos: número de lhos, número de empregados, número de processos.
Variáveis contínuas: são aquelas variáveis que podem assumir um valor dentro de um
intervalo de valores. É gerada pelo processo de medição
Exemplos: pressão arterial, idade, salário, atraso de transmissão de bytes por uma
rede de internet.
Estatística Descritiva 4
Para resumir dados qualitativos, utiliza-se contagens, proporções, porcentagens, taxas por
1000, taxas por 1.000.000, etc, dependendo da escala apropriada. Por exemplo, se encontrar-
mos que 7 empresas com faturamento mensal acima de R$20.000,00 em uma amostra de 500
propriedades, poderíamos expressar isto como uma proporção (0,014) ou percentual (1,4%).
Freqüentemente o primeiro passo da descrição de dados é criar uma tabela de freqüências.
Antes de montar a tabela de distribuição de freqüências temos algumas denições:
• Freqüência - medida que quantica a ocorrência dos valores de uma variável a um dado
conjunto de dados. As freqüências podem ser:
Absoluta (fa) - contagem das observações de uma variável;
Relativa (fr) - divisão da freqüência absoluta pelo total de observações
fa
fr =
n
Exemplo: Para adequar os produtos às preferências dos clientes, um provedor fez uma pes-
quisa sobre os provedores a qualidade dos serviços prestados utilizando uma amostra de 20
clientes, obtendo as seguintes variáveis:
Para resumir separadamente cada variável podemos utilizar a tabelas simples, que são na
maioria das vezes sucientes para descrever dados qualitativos especialmente quando existem
poucas categorias.
Para a variável sexo, podemos utilizar as freqüências apresentadas na tabela 1.2:
Para a variável qualidade no atendimento, além das freqüências utilizadas para a variável
sexo, podemos utilizar mais duas freqüências:
• Freqüência Acumulada (FA)- obtida pelo soma das freqüências absolutas;
Estatística Descritiva 5
• Freqüência Percentual Acumulada (FP) - obtida pela soma das freqüências percentuais.
Dados qualitativos são usualmente bem ilustrados num simples gráco de barras onde a altura
da barra é igual à freqüência. O gráco na Figura 1.1 apresenta as freqüências percentuais da
Tabela 1.2.
Em alguns casos podemos estar interessados em resumir duas variáveis qualitativas ao mesmo
tempo, neste caso vamos estudar a relação entre duas variáveis qualitativas que pode ser repre-
sentada em uma tabulação cruzada. Nesta tabela conta-se quantos valores correspondem a cada
par de possíveis resultados, para as duas variáveis. O resultado pode ser apresentado como
freqüência absoluta ou relativa, em relação as colunas ou as linhas (nunca ambas).
O gráco de barras, com barras justapostas de acordo com categorias diferentes, pode ser
Estatística Descritiva 6
Da mesma forma que as variáveis qualitativas, podemos resumir dados quantitativos por
meio de tabelas de freqüências, entretanto a distinção entre as variáveis quantitativas discretas
e contínuas na forma de preparação destas tabelas.
A tabela de distribuição de freqüências de uma variável discreta é, em geral bastante seme-
lhante à das variáveis qualitativas ordinais, pois os valores inteiros que a variável assume podem
ser considerados como "categorias", ou "classes naturais".
Exemplo: Sejam dados referentes a um levantamento onde observou-se o numero de peças
defeituosas em 25 maquinas de uma empresas.
Observa-se que a disposição da variável número de de peças defeituosas é semelhante a de
uma variável qualitativa ordinal com 8 categorias e sua distribuição de freqüência pode ser vista
na tabela 1.6. A representação gráca pode ser feita por meio de um gráco de barras conforme
gura 1.4.
A construção de tabelas de distribuição de freqüências para variáveis quantitativas contínuas
é feita agrupando os dados em classes e obtendo as freqüências observadas em cada classe. É
Estatística Descritiva 7
importante notar que ao resumir dados referentes a uma variável contínua sempre se perde alguma
informação já que não temos idéia de como se distribuem as observações dentro de cada classe.
Para isso temos duas denições:
• Amplitude (A) - corresponde a diferença enter o maior valor e o menor valor de um conjunto
de dados;
Estatística Descritiva 8
• Amplitude da classe (c) - consiste na diferença entre o limite superior e o limite inferior de
uma classe em uma distribuição de freqüência.
O procedimento para construir tabelas de distribuição freqüências para variáveis quantitativas
contínuas envolve os seguintes passos (algoritmo):
• Decidir sobre o numero de classes k , entre 5 e 20. Para que a decisão não seja totalmente
arbitrária√pode-se usar a raiz quadrada do total de valores como o número de classes, ou
seja, k ∼
= n
• Determinar a amplitude dos dados: A = Max - Min.
• Determinar a amplitude de classe c:
A
c=
k−1
• Determinar o limite inferior da primeira classe LI1 :
c
LI1 = M in −
2
• Determinar o limite superior da primeira classe LS1 :
LS1 = LI1 + c
sendo que o limite inferior da segunda classe LI2 é igual ao LS1 , e assim
LS2 = LI2 + c
e assim, sucessivamente todas as classes vão sendo construídas.
• Após a construção das classes, são contados quantos dados estão contidos em cada classe
e se obtem as freqüências.
Tabela 1.7: Dados ordenados, relativos ao tempo em segundos para carga de um aplicativo num
sistema compartilhado (30 observações).
6,94 7,27 7,46 7,97 8,03 8,37
8,56 8,66 8,88 8,95 9,30 9,33
9,55 9,76 9,80 9,82 9,98 9,99
10,14 10,19 10,42 10,44 10,66 10,88
10,88 11,16 11,80 11,88 12,25 12,34
√
k = 30 = 5, 47 ≈ 5
A = M ax − M in = 12, 34 − 6, 94 = 5, 40
A 5, 40
c = = = 1, 35
k−1 4
c 1, 35
LI1 = M in − = 6, 94 − = 6, 94 − 0, 67 = 6, 27
2 2
Uma forma de representar gracamente à distribuição de freqüência das variáveis contínuas
é por meio do histograma e do polígono de freqüência . Para elaboração deste gráco é comum
utilizar a chamada densidade de freqüência absoluta (dfa)
fr
df a =
c
Estatística Descritiva 9
Figura 1.4: Histograma e Polígono de freqüências do relativa ao tempo em segundos para carga
de um aplicativo num sistema compartilhado
Figura 1.5: Ogiva para o tempo em segundos para carga de um aplicativo num sistema compar-
tilhado
Estatística Descritiva 11
Propriedades da média
A média aritmética de uma amostra apresenta um conjunto vasto de propriedades, todas
elas, sem dúvida, de grande utilidade no cálculo do seu valor.
1. Adição ou Subtração por uma constante. Seja (X1 , X2 , X3 , ..., Xn ) uma amostra aleatória
de tamanho n, z uma constante e X a média da amostra. Se somarmos ou subtrairmos
todos os valores de uma variável X pela constante z , o valor de X MÉDIA ca acrescentado
ou diminuido pela constante z
Estatística Descritiva 12
n
X
(Xi + z)
∗ i=1
X =
n
n
X n
X
Xi + z
i=1 i=1
=
n
n
X n
X
Xi z
i=1 i=1
= +
n n
nz
= X+
n
= X +z
Se subtrairmos cada valor da variável X pelar média obtemos os desvios. A soma algébrica
dos desvios é igual a zero
n
X n
X n
X
Xi − X Xi − X
i=1 i=1 i=1
=
n n
n
X n
X
Xi X
i=1 i=1
= −
n n
nX
= X−
n
= X −X =0
No exemplo da lampâda, temos:
Tabela 1.9: Média e desvio dos tempos de vida util das lâmpadas incandescentes
Tempo (horas) Média Desvio
Xi X (Xi − X̄)
612 789,5 -177,5
983 789,5 193,5
623 789,5 -166,5
883 789,5 93,5
666 789,5 -123,5
970 789,5 180,5
n
Soma dos desvios = 0
X
Xi − X
i=1
1.4.2 Mediana
Num conjunto de dados ordenados, a mediana (Md ) é o valor que deixa metade da freqüência
abaixo dele. A mediana, como a média, possui a mesma unidade de cada observação.
A mediana pode ser obtida por meio da expressão:
se n for ímpar
X n+1
2
Md =
X n2 +X n+2
se n for par
2
2
Logo a Mediana é igual ao elemento que está na quarta posição do conjunto de dados, assim
Md = 9
Exemplo: Considere o conjunto de dados: 1, 3, 8, 6, 2, 4.
Primeiro é necessário ordenar os dados: 1, 2, 3, 4, 6, 8. Como se de uma conjunto com n = 6
(par), então
X n2 + X n+2 X 6 + X 6+2 X3 + X4
2 2 2
Md = = =
2 2 2
Estatística Descritiva 14
Logo para obter a mediana é necessário obter os elementos que estão na terceira e quarta
posição do conjunto de dados, assim:
3+4
Md = = 3, 5
2
1.4.3 Moda
A moda Mo de um conjunto de dados é o valor mais freqüente e também tem a mesma
unidade dos dados. Para obter a moda basta observar qual o dado que mais se repete.
Exemplo: No conjunto de dados 7 , 8 , 9 , 10 , 10 , 10 , 11 , 12 a moda é igual a 10, pois é
único que se repete.
Exemplo: No conjunto de dados 3 , 5 , 8 , 10 , 12 não apresenta moda. O conjunto é amodal
Exemplo: No conjunto de dados 2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9 temos duas modas:
4 e 7. O conjunto é bimodal.
1.4.5 Simetria
A determinação das medidas de posição permite discutir sobre a simetria da distribuição dos
dados.
• Distribuição simétrica - X = Md = Mo
1.4.6 Separatrizes
Além das medidas de posição que estudamos, há outras que, consideradas individualmente,
não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua carac-
terística de separar a série em duas partes que apresentam o mesmo número de valores. Essas
medidas - os quartis, os decis e os percentis - são, juntamente com a mediana, conhecidas pelo
nome genérico de separatrizes.
Quartis
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais.
• n = número de observações;
Percentis ou Centis
São as medidas que dividem a amostra em 100 partes iguais. Assim:
O elemento que denirá a ordem do percentil será encontrado pelo emprego da expressão:
in
EP i =
100
em que:
• i = número identicador do percentil;
• P50 = Q2 = M d
• P75 = Q3
em que
Estatística Descritiva 17
• f ai é o frequência absoluta de xi
A média calculada dos dados originais e dados agrupados podem ser diferentes, devido ao
erro de agrupamento. O erro de agrupamento é obtido fazendo a diferença entre o valor obtido
pelos dados originais e o valor obtido pelos dados agrupados.
Mediana
Para calcular a mediana em dados agrupados é necessário observar a frequência absoluta
acumulada (FA) para denir a classe mediana.
A posição da mediana EMd é denida da seguinte forma
se n for ímpar
n+1
2
EMd =
n
se n for par
2
Moda
A moda Mo de um conjunto de dados é o valor mais frequente e também tem a mesma
unidade dos dados.
Para dados agrupados de variáveis contínuas a moda se localiza na classe de maior frequência
absoluta (classe modal).
Logo, precisamos dos seguintes cálculos:
• LIi é o limite inferior da classe modal;
Quartil
Para calcular o quartil em dados agrupados é necessário observar a freqüência acumulada
para denir a classe quartílica.
A posição da mediana EQi é denida da seguinte forma
in
EQi =
4
Denida a classe quartílica utiliza-se a expressão abaixo para obter o quartil
n1
Qi = LIi + c
n2
em que:
• LIi é o limite inferior da classe quartílica
• c é a amplitude da classe quartílica
• n1 é a diferença entre a Posição do quartil e a freqüência acumulada da classe anterior a
classe quartílica
• n2 é a freqüência absoluta da classe quartílica
Percentil
Para calcular o percentil em dados agrupados é necessário observar a freqüência acumulada
para denir a classe percentílica.
A posição da mediana EPi é denida da seguinte forma
in
EPi =
100
Denida a classe percentílica utiliza-se a expressão abaixo para obter o percentil
n1
Pi = LIi + c
n2
em que:
• LIi é o limite inferior da classe percentílica
• c é a amplitude da classe percentílica
• n1 é a diferença entre a Posição do percentílica e a freqüência acumulada da classe anterior
a classe percentílica
• n2 é a freqüência absoluta da classe percentílica
Exemplo
Continuamos com os dados dos pesos de cães de uma determinada raça.
Tabela 1.10: Dados ordenados, relativos aos pesos de cães de uma determinada raça (30 obser-
vações).
6,94 7,27 7,46 7,97 8,03 8,37
8,56 8,66 8,88 8,95 9,30 9,33
9,55 9,76 9,80 9,82 9,98 9,99
10,14 10,19 10,42 10,44 10,66 10,88
10,88 11,16 11,80 11,88 12,25 12,34
Estatística Descritiva 19
Tabela 1.11: Distribuição de frequências dos pesos de cães de uma determinada raça.
Classes xi Frequencia f a × xi Frequencia
Absoluta Acumulada
(fa) (FA)
6,27 ` 7,62 6,94 3 20,82 3
7,62 ` 8,97 8,29 7 58,03 10
8,97 ` 10,32 9,64 10 96,4 20
10,32 ` 11,67 10,99 6 65,94 26
11,67 ` 13,02 12,34 4 49,36 30
Total 30 290,55
Assim,
k
X
f ai xi
290, 55
X= i=1
k
= = 9, 685 ∼
= 9, 68
X 30
f ai
i=1
• c=1,35
• n1 = 15 − 10 = 5
• n2 = 10
• c = 1, 35;
• ∆1 = 10 − 7 = 3;
• ∆2 = 10 − 6 = 4
∆1 3
Mo = LIi + c = 8, 97 + 1, 35 = 8, 97 + 0, 58 = 9, 55
∆1 + ∆ 2 3+4
Estatística Descritiva 20
O gráco Boxplot é uma análise gráca que oferece a ideia da posição, dispersão, assimetria,
caudas e dados discrepantes. Para construí-lo, desenhamos uma "caixa"com o nível superior
dado pelo terceiro quartil (Q3 ) e o nível inferior pelo primeiro quartil (Q1 ). A mediana (Q2 ) é
representada por um traço no interior da caixa e segmentos de reta são colocados da caixa até
dos limites inferior (LI) e superior (LS), dados por
LI = Q1 − 1.5dq
LS = Q3 + 1.5dq
em que dq = Q3 − Q1 denominando diferença quartílica.
Para traçarmos o boxplot utilizamos as seguintes etapas:
• Contruir um retângulo de tal maneira que suas bases têm alturas correspondentes aos
primeiro e terceiro quartis da distribuição.
• Cortar o retângulo por um segmento paralelo às bases, na altura correspondente à mediana;
• Traçar um segmento paralelo ao eixo, partindo do ponto médio da base superior do retân-
gulo até o maior valor observado que NÃO supere LS;
• Traçar um segmento paralelo ao eixo, partindo do ponto médio da base inferior do retân-
gulo, até o menor valor que NÃO é menor LI;
• Case tenha valores que superior a LS ou inferior a LI, marcar os pontos, este valores são
considerados observações discrepantes.
• Podemos opcionalmente marca o valor da média;
Para um conjunto de dados suponha os seguintes os resultados:
M d = 9, 81
Q1 = 8, 71
Q3 = 10, 61
dq = 10, 61 − 8, 71 = 1, 9
LI = 8, 71 − 1, 5 × 1, 9 = 5, 86
LS = 10, 61 + 1, 5 × 1, 9 = 13, 46
Figura 1.6: Boxplot para os pesos dos cães de uma determinada raça.
Estatística Descritiva 21
As medidas de posição são importantes para caracterizar um conjunto de dados, mas não
são sucientes para caracterizar completamente a distribuição dos dados. Para isso é necessário
obter as medidas de dispersão, que medem a variabilidade dos dados.
Por exemplo: Considere as amostras referentes a altura, em cm, de dois grupos de pessoas.
Grupo A: 185 185 185
Grupo B: 187 183 185
A média para os dois grupos é a mesma X A = 185 e X B = 185.
Os 2 conjuntos não diferem entre si e consideramos somente a média, pois se basearmos
somente por essa medida os dois grupos são considerados como de mesma altura. Entretanto o
grupo A tem todas as observações iguais a média. Já no grupo B ocorre uma certa dispersão nos
dados.
As medidas de variabilidade ou dispersão possibilitam que façamos distinção entre os con-
juntos quanto à sua homogeneidade, isto é, o grau de concentração em torno de uma medida de
tendência central.
A = M ax − M in
Para dados agrupados a amplitude total é a diferença entre o ponto médio da última e da
primeira classe.
Para expressar variabilidade a amplitude total não é muito usada, pois baseia-se em apenas
dois dados.
O desvio padrão é a raíz quadrada positiva da variância. Esta medida é expressa na mesma
unidade dos dados.
• Para a população o desvio padrão é representada por
√
σ = σ2
• É importante notar que, se os dados representarem uma amostra e não toda a população,
a expressão matemática da variância deve ter (n − 1) no denominador em substituição ao
fator n, esta mudança é chamada de fator de correção de Bessel ou conforme os estatísticos,
número de graus de liberdade. Dessa forma temos a variância da amostra.
Propriedades da Variância
A variância apresenta um conjunto vasto de propriedades, todas elas, sem dúvida, de grande
utilidade no cálculo do seu valor.
Estatística Descritiva 24
Xi∗ = Xi + k
∗
X = X +k
n
∗ 2
X
Xi∗ − X
∗ i=1
S2 =
n−1
n
X 2
Xi + k − (X + k)
i=1
=
n−1
n
X 2
Xi + k − X − k
i=1
=
n−1
n
X 2
Xi − X
i=1
=
n−1
2
= S
Estatística Descritiva 25
3. Multiplicando-se todos os dados por uma constante k, a variância ca multiplicada por k2 .
Xi∗ = kXi
∗
X = kX
n
∗ 2
X
Xi∗ − X
∗ i=1
S2 =
n−1
n
X 2
kXi − kX
i=1
=
n−1
n
X 2
k Xi − X
i=1
=
n−1
n
X 2
k 2 Xi − X
i=1
=
n−1
= k2 S 2
2. Multiplicando-se todos os dados por uma constante k, a variância ca multiplicada por k2 .
Xi∗ = kXi
∗
S2 = k2 S 2
√
S = k 2 S 2 = kS
1.7 Exemplos
A amplitude total
A = M ax − M in = 8 − 1 = 7
Temos que a média é X = 4 e como se trata de uma amostra temos:
n
X 2
xi − X
(1 − 4)2 + (2 − 4)2 + ... + (8 − 4)2
2
S = i=1
= = 3, 041666667 ∼
= 3, 04
n−1 25 − 1
O desvio padrão √
3, 04 = 1, 7435595 ∼
p
S= S2 = =2
O coeciente de variação
S 2
CV = 100 = 100 = 50%
X 4
O erro padrão da médio
S 2
S(X) = √ = √ = 0, 4
n 25
Tabela 1.13: Resumo da distribuição de freqüências, aos pesos de cães de uma determinada raça
(30 observações).
Classes xi Frequência xi − X (xi − X)f ai
Absoluta
(fa)
6,27 ` 7,62 6,94 3 7,5076 22,5228
7,62 ` 8,97 8,29 7 1,9321 13,5247
8,97 ` 10,32 9,64 10 0,0016 0,016
10,32 ` 11,67 10,99 6 1,7161 10,2966
11,67 ` 13,02 12,34 4 7,0756 28,3024
Total 30 74,6625
O desvio padrão √
2, 5746 = 1, 604556 ∼
p
S= S2 = = 1, 60
O coeciente de variação
S 1, 60
CV = 100 = 100 = 16, 53%
X 9, 68
O erro padrão da média
S 1, 60
S(X) = √ = √ = 0, 29
n 30