Apostila de Estatística

Universidade Federal de Mato Grosso
Instituto de Ciências Exatas e da Terra

Departamento de Estatística
Notas de aula de Probabilidade e Estatística
Anderson Castro Soares de Oliveira
2011
SUMÁRIO
1 Estatística Descritiva 3
1.1 Tipo de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Variáveis Quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Propriedades da média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.4 Comparação entre Média, Mediana e Moda . . . . . . . . . . . . . . . . . . . 14
1.4.5 Simetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.6 Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Percentis ou Centis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.7 Medidas de posição para dados agrupados . . . . . . . . . . . . . . . . . . . 16
Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Quartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Percentil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5 Boxplot ou desenho esquemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6 Medidas de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6.1 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6.2 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Propriedades da Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Propriedades do Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.6.3 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.6.4 Erro Padrão da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.7 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.7.1 Dados Agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Estatística Descritiva
1
A estatística descritiva é parte da estatística que lida com a organização, resumo e apresen-
tação de dados. Esta é feita por meio de:
• Tabelas;
• Grácos;
• Medidas Descritivas (média, variância, entre outras).
1.1 Tipo de Variáveis
As variáveis podem ter valores numéricos ou não numéricos.

• Variáveis Qualitativas (ou categóricas) - são as características que não possuem valores
quantitativos, mas, ao contrário, são denidas por várias categorias, ou seja, representam
uma classicação dos indivíduos
Variáveis nominais: não existe ordenação dentre as categorias.
Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.
Variáveis ordinais: existe uma ordenação entre as categorias.
Exemplos: escolaridade (1o , 2o , 3o graus), estágio da doença (inicial, intermediário,
terminal), mês de observação (janeiro, fevereiro,..., dezembro).
• Variáveis Quantitativas - são as características que podem ser medidas em uma escala
quantitativa, ou seja, apresentam valores numéricos
Variáveis discretas: são aquelas variáveis que pode assumir somente valores inteiros
num conjunto de valores. É gerada pelo processo de contagem
Exemplos: número de lhos, número de empregados, número de processos.
Variáveis contínuas: são aquelas variáveis que podem assumir um valor dentro de um
intervalo de valores. É gerada pelo processo de medição
Exemplos: pressão arterial, idade, salário, atraso de transmissão de bytes por uma
rede de internet.
Estatística Descritiva 4
1.2 Variáveis Qualitativas
Para resumir dados qualitativos, utiliza-se contagens, proporções, porcentagens, taxas por
1000, taxas por 1.000.000, etc, dependendo da escala apropriada. Por exemplo, se encontrar-
mos que 7 empresas com faturamento mensal acima de R$20.000,00 em uma amostra de 500
propriedades, poderíamos expressar isto como uma proporção (0,014) ou percentual (1,4%).
Freqüentemente o primeiro passo da descrição de dados é criar uma tabela de freqüências.
Antes de montar a tabela de distribuição de freqüências temos algumas denições:
• Freqüência - medida que quantica a ocorrência dos valores de uma variável a um dado
conjunto de dados. As freqüências podem ser:
Absoluta (fa) - contagem das observações de uma variável;
Relativa (fr) - divisão da freqüência absoluta pelo total de observações
fa
fr =
n
Percentual (fp) - é a freqüência relativa multiplicada por 100

f p = 100 × f r
Exemplo: Para adequar os produtos às preferências dos clientes, um provedor fez uma pes-
quisa sobre os provedores a qualidade dos serviços prestados utilizando uma amostra de 20
clientes, obtendo as seguintes variáveis:
Tabela 1.1: Variáveis observadas de 20 clientes de um provedor.

Amostra Sexo Qualidade Amostra Sexo Qualidade
1 feminino Boa 11 feminino Ruim
2 feminino Boa 12 feminino Ruim
3 feminino Boa 13 masculino Boa
4 feminino Boa 14 masculino Boa
5 feminino Boa 15 masculino Ótimo
6 feminino Ótimo 16 masculino Regular
7 feminino Ótimo 17 masculino Regular
8 feminino Regular 18 masculino Ruim
9 feminino Regular 19 masculino Ruim
10 feminino Ruim 20 masculino Ruim
Neste é apresentado duas variáveis qualitativas sendo:

• Sexo - variável qualitativa nominal;
• Qualidade - variável qualitativa ordinal;
Para resumir separadamente cada variável podemos utilizar a tabelas simples, que são na
maioria das vezes sucientes para descrever dados qualitativos especialmente quando existem
poucas categorias.
Para a variável sexo, podemos utilizar as freqüências apresentadas na tabela 1.2:
Para a variável qualidade no atendimento, além das freqüências utilizadas para a variável
sexo, podemos utilizar mais duas freqüências:
• Freqüência Acumulada (FA)- obtida pelo soma das freqüências absolutas;
Tabela 1.2: Distribuição de freqüência do sexo de 20 clientes de um provedor.

Sexo Freqüência Freqüência Freqüência
Absoluta Relativa Percentual
(fa) (fr) (fp)
feminino 12 0,60 60%
masculino 8 0,40 40%
20 1,00 100%
Tabela 1.3: Distribuição de freqüência qualidade no atendimento de um provedor de acordo com

20 clientes
Qualidade no Freqüência Freqüência Freqüência Freqüência Freqüência
Atendimento Absoluta Relativa Percentual Acumulada Percentual
(fa) (fr) (fp) (FA) Acumulada
(FP)
Ótima 3 0,15 15% 3 15%
Boa 7 0,35 35% 10 50%
Regular 4 0,20 20% 14 70%
Ruim 6 0,30 30% 20 100%
Total 20 1,00 100% - -
• Freqüência Percentual Acumulada (FP) - obtida pela soma das freqüências percentuais.
Dados qualitativos são usualmente bem ilustrados num simples gráco de barras onde a altura
da barra é igual à freqüência. O gráco na Figura 1.1 apresenta as freqüências percentuais da
Tabela 1.2.
Figura 1.1: Qualidade no atendimento de um provedor de acordo com 20 clientes
Em alguns casos podemos estar interessados em resumir duas variáveis qualitativas ao mesmo
tempo, neste caso vamos estudar a relação entre duas variáveis qualitativas que pode ser repre-
sentada em uma tabulação cruzada. Nesta tabela conta-se quantos valores correspondem a cada
par de possíveis resultados, para as duas variáveis. O resultado pode ser apresentado como
freqüência absoluta ou relativa, em relação as colunas ou as linhas (nunca ambas).
O gráco de barras, com barras justapostas de acordo com categorias diferentes, pode ser
Tabela 1.4: Distribuição de freqüência absoluta de 20 clientes de um provador de acordo com a

qualidade de atendimento e o sexo
Qualidade Sexo Total
Feminino Masculino
Boa 5 2 7
Ótimo 2 1 3
Regular 2 2 4
Ruim 3 3 6
Total 12 8 20
usado para apresentar a relação entre duas variáveis qualitativas.
Figura 1.2: Distribuição de freqüência absoluta de 20 clientes de um provador de acordo com a

qualidade de atendimento e o sexo
1.3 Variáveis Quantitativas
Da mesma forma que as variáveis qualitativas, podemos resumir dados quantitativos por
meio de tabelas de freqüências, entretanto a distinção entre as variáveis quantitativas discretas
e contínuas na forma de preparação destas tabelas.
A tabela de distribuição de freqüências de uma variável discreta é, em geral bastante seme-
lhante à das variáveis qualitativas ordinais, pois os valores inteiros que a variável assume podem
ser considerados como "categorias", ou "classes naturais".
Exemplo: Sejam dados referentes a um levantamento onde observou-se o numero de peças
defeituosas em 25 maquinas de uma empresas.
Observa-se que a disposição da variável número de de peças defeituosas é semelhante a de
uma variável qualitativa ordinal com 8 categorias e sua distribuição de freqüência pode ser vista
na tabela 1.6. A representação gráca pode ser feita por meio de um gráco de barras conforme
gura 1.4.
A construção de tabelas de distribuição de freqüências para variáveis quantitativas contínuas
é feita agrupando os dados em classes e obtendo as freqüências observadas em cada classe. É
Tabela 1.5: Número de peças defeituosas em 25 maquinas de uma empresa

3 5 7 1 3
6 5 5 5 3
8 5 2 6 2
4 4 4 3 5
6 2 2 4 5
Tabela 1.6: Distribuição de freqüências do número de peças defeituosas de 25 maquinas de uma

empresa
Número de Freqüência Freqüência Freqüência Freqüência Freqüência
Minerais Absoluta Relativa Percentual Acumulada Percentual
(FP)
1 1 0,04 4% 1 4%
2 4 0,16 16% 5 20%
3 4 0,16 16% 9 36%
4 4 0,16 16% 13 52%
5 7 0,28 28% 20 80%
6 3 0,12 12% 23 92%
7 1 0,04 4% 24 96%
8 1 0,04 4% 25 100%
Total 25 1 100%
Figura 1.3: Número número de peças defeituosas de 25 maquinas de uma empresa
importante notar que ao resumir dados referentes a uma variável contínua sempre se perde alguma
informação já que não temos idéia de como se distribuem as observações dentro de cada classe.
Para isso temos duas denições:
• Amplitude (A) - corresponde a diferença enter o maior valor e o menor valor de um conjunto
de dados;
• Amplitude da classe (c) - consiste na diferença entre o limite superior e o limite inferior de
uma classe em uma distribuição de freqüência.
O procedimento para construir tabelas de distribuição freqüências para variáveis quantitativas
contínuas envolve os seguintes passos (algoritmo):
• Decidir sobre o numero de classes k , entre 5 e 20. Para que a decisão não seja totalmente
arbitrária√pode-se usar a raiz quadrada do total de valores como o número de classes, ou
seja, k ∼
= n
• Determinar a amplitude dos dados: A = Max - Min.
• Determinar a amplitude de classe c:
A
c=
k−1
• Determinar o limite inferior da primeira classe LI1 :
c
LI1 = M in −
2
• Determinar o limite superior da primeira classe LS1 :
LS1 = LI1 + c
sendo que o limite inferior da segunda classe LI2 é igual ao LS1 , e assim
LS2 = LI2 + c
e assim, sucessivamente todas as classes vão sendo construídas.
• Após a construção das classes, são contados quantos dados estão contidos em cada classe
e se obtem as freqüências.
Tabela 1.7: Dados ordenados, relativos ao tempo em segundos para carga de um aplicativo num
sistema compartilhado (30 observações).
6,94 7,27 7,46 7,97 8,03 8,37
8,56 8,66 8,88 8,95 9,30 9,33
9,55 9,76 9,80 9,82 9,98 9,99
10,14 10,19 10,42 10,44 10,66 10,88
10,88 11,16 11,80 11,88 12,25 12,34
√
k = 30 = 5, 47 ≈ 5
A = M ax − M in = 12, 34 − 6, 94 = 5, 40
A 5, 40
c = = = 1, 35
k−1 4
c 1, 35
LI1 = M in − = 6, 94 − = 6, 94 − 0, 67 = 6, 27
2 2
Uma forma de representar gracamente à distribuição de freqüência das variáveis contínuas
é por meio do histograma e do polígono de freqüência . Para elaboração deste gráco é comum
utilizar a chamada densidade de freqüência absoluta (dfa)
fr
df a =
c
Tabela 1.8: Distribuição de freqüências, relativa ao ao tempo em segundos para carga de um

aplicativo num sistema compartilhado.
Classes Freqüência Freqüência Freqüência Freqüência Freqüência
Absoluta Relativa Percentual Acumulada Percentual
(FP)
6,27 ` 7,62 3 0,10 10% 3 10%
7,62 ` 8,97 7 0,23 23% 10 33%
8,97 ` 10,32 10 0,33 33% 20 67%
10,32 ` 11,67 6 0,20 20% 26 87%
11,67 ` 13,02 4 0,13 13% 30 100%
30 1,00 100%
O histograma é semelhante ao gráco de barras verticais, no eixo vertical pode-se utilizar as

freqüências ou densidades de freqüências e no eixo horizontal as classes. O polígono de freqüências
é um gráco de linhas em que no eixo vertical pode-se utilizar as freqüências ou densidades de
freqüências e no eixo horizontal o ponto médio de cada classe.
Figura 1.4: Histograma e Polígono de freqüências do relativa ao tempo em segundos para carga
de um aplicativo num sistema compartilhado
Muitas vezes, a análise da distribuição de freqüências acumuladas é mais interessante do que

a de freqüências simples, representada pelo histograma. O gráco usado na representação gráca
da distribuição de freqüências acumuladas de uma variável contínua é a ogiva, apresentada na
Figura 1.5. Para a construção da ogiva, são usadas as freqüências acumuladas (absolutas ou
percentuais) no eixo vertical e os limites superiores de classe no eixo horizontal.
O primeiro ponto da ogiva é formado pelo limite inferior da primeira classe e o valor zero,
indicando que abaixo do limite inferior da primeira classe não existem observações. Daí por
diante, são usados os limites superiores das classes e suas respectivas freqüências acumuladas,
até a última classe, que acumula todas as observações. Assim, uma ogiva deve começar no valor
zero e, se for construída com as freqüências relativas acumuladas, terminar com o valor 100.
Figura 1.5: Ogiva para o tempo em segundos para carga de um aplicativo num sistema compar-
tilhado
1.4 Medidas de Posição
Medidas de Posição - São medidas de tendência central, ou seja, representativas do valor

central, ao redor do qual se agrupam a maioria dos valores.
Observação Apresentamos primeiramente as medidas de posição para dados não agrupados
e devemos ordenar os dados de forma crescente.
1.4.1 Média Aritmética

A média de uma população ou amostra é a soma de todos os elementos da população (amostra)
dividida pelo número de elementos. Esta medida apresenta a mesma unidade dos dados.
• Para a população a média é representada por
N
X
xi
i=1
µ=
N
em que N é o tamanho da população
• Para a amostra a média é representada por
n
X
xi
i=1
X=
n
em que n é o tamanho da amostra.
A média calculada dos dados originais e dados agrupados podem ser diferentes, devido ao
erro de agrupamento. O erro de agrupamento é obtido fazendo a diferença entre o valor obtido
pelos dados originais e o valor obtido pelos dados agrupados.
Exemplo: O tempo de vida útil (em horas) de uma amostra de 6 lâmpadas incadescentes é:
612, 983, 623, 883, 666 , 970. A média amostral do tempo de vida é dado por:
n
X
xi
i=1 612 + 983 + 623 + 883 + 666 + 970 4737
X= = = = 789, 5
n 6 6
Propriedades da média
A média aritmética de uma amostra apresenta um conjunto vasto de propriedades, todas
elas, sem dúvida, de grande utilidade no cálculo do seu valor.
1. Adição ou Subtração por uma constante. Seja (X1 , X2 , X3 , ..., Xn ) uma amostra aleatória
de tamanho n, z uma constante e X a média da amostra. Se somarmos ou subtrairmos
todos os valores de uma variável X pela constante z , o valor de X MÉDIA ca acrescentado
ou diminuido pela constante z
n
X
(Xi + z)
∗ i=1
X =
n
n
X n
X
Xi + z
i=1 i=1
=
n
n
X n
X
Xi z
i=1 i=1
= +
n n
nz
= X+
n
= X +z
Se no exemplo das lâmpadas somarmos a constante z = 2 a cada um dos valores da variável

temos 614, 985, 625, 885, 667,972
∗ 614 + 985 + 625 + 885 + 668 + 972 4749
X = = = 791, 5
6 6
Utilizando a propriedade,
∗
X = X + k = 789, 5 + 2 = 791, 5
2. Multiplicação ou divisão por uma constante

Seja (X1 , X2 , X3 , ..., Xn ) uma amostra aleatória de tamanho n, z uma constante e X a
média da amostra. Se multiplicarmos ou dividirmos todos os valores de uma variável X
pela constante z , o valor de X MÉDIA ca multiplicada ou dividida pela constante z .
n
X
zxi
∗ i=1
X =
n
n
X
xi
i=1
= k
n
= kX
Se no exemplo das lâmpadas multiplicarmos a constante 2 a cada um dos valores da variável

temos 1224, 1966, 1246, 1766, 1332, 1940.
∗ 1224 + 1966 + 1246 + 1766 + 1332 + 1940 9474
X = = = 1579
6 6
Utilizando a propriedade,
∗
X = kX = 2 × 789, 5 = 1579
3. Soma dos desvios

Seja (X1 , X2 , X3 , ..., Xn ) uma amostra aleatória de tamanho n e X a média da amostra.
Se subtrairmos cada valor da variável X pelar média obtemos os desvios. A soma algébrica
dos desvios é igual a zero
n
X n
X n
X

Xi − X Xi − X
i=1 i=1 i=1
=
n n
n
X n
X
Xi X
i=1 i=1
= −
n n
nX
= X−
n
= X −X =0
No exemplo da lampâda, temos:
Tabela 1.9: Média e desvio dos tempos de vida util das lâmpadas incandescentes
Tempo (horas) Média Desvio
Xi X (Xi − X̄)
612 789,5 -177,5
983 789,5 193,5
623 789,5 -166,5
883 789,5 93,5
666 789,5 -123,5
970 789,5 180,5
n
Soma dos desvios = 0
X
Xi − X
i=1
1.4.2 Mediana
Num conjunto de dados ordenados, a mediana (Md ) é o valor que deixa metade da freqüência
abaixo dele. A mediana, como a média, possui a mesma unidade de cada observação.
A mediana pode ser obtida por meio da expressão:
se n for ímpar

 X n+1
 2
Md =
 X n2 +X n+2
se n for par

2
2
Exemplo: Considere o conjunto de dados: 5, 2, 6, 13, 9, 15, 10.

Primeiro é necessário ordenar os dados: 2, 5, 6, 9, 10, 13, 15. Como se de um conjunto com
n = 7 (ímpar), então:
M d = X n+1 = X 7+1 = X4
2 2
Logo a Mediana é igual ao elemento que está na quarta posição do conjunto de dados, assim
Md = 9
Exemplo: Considere o conjunto de dados: 1, 3, 8, 6, 2, 4.
Primeiro é necessário ordenar os dados: 1, 2, 3, 4, 6, 8. Como se de uma conjunto com n = 6
(par), então
X n2 + X n+2 X 6 + X 6+2 X3 + X4
2 2 2
Md = = =
2 2 2
Logo para obter a mediana é necessário obter os elementos que estão na terceira e quarta
posição do conjunto de dados, assim:
3+4
Md = = 3, 5
2
1.4.3 Moda
A moda Mo de um conjunto de dados é o valor mais freqüente e também tem a mesma
unidade dos dados. Para obter a moda basta observar qual o dado que mais se repete.
Exemplo: No conjunto de dados 7 , 8 , 9 , 10 , 10 , 10 , 11 , 12 a moda é igual a 10, pois é
único que se repete.
Exemplo: No conjunto de dados 3 , 5 , 8 , 10 , 12 não apresenta moda. O conjunto é amodal
Exemplo: No conjunto de dados 2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9 temos duas modas:
4 e 7. O conjunto é bimodal.
1.4.4 Comparação entre Média, Mediana e Moda

• Média
Denição: Soma de todos os valores dividido pelo total de elementos do conjunto.

Vantagens: Reete cada valor;Possui propriedades matemáticas atraentes.
Limitações: É inuenciada porvalores externos.
Quando usar:
1. Deseja-se obter a medida de posição que possui a maior estabilidade;
2. Houver necessidade de um tratamento algébrico posterior.
• Mediana
Denição: Valor que divide o conjunto em duas partes iguais.

Vantagens: Menos sensível a valores extremos que a média.
Limitações: Difícil de determinar para grande quantidade de dados
Quando usar:
1. Deseja-se obter o ponto que divide o conjunto em partes iguais;
2. Há valores extremos que afetam de maneira acentuada a média;
• Moda
Denição: Valor mais freqüente.

Vantagens: Valor "típico"; Maior quantidade de valores concentrados neste ponto
Limitações: Não se presta a análise matemática; Pode não haver moda para certos
conjuntos de dados
Quando usar:
1. Deseja-se obter uma medida rápida e aproximada da posição;
2. A medida de posição deve ser o valor mais típico da distribuição.
1.4.5 Simetria
A determinação das medidas de posição permite discutir sobre a simetria da distribuição dos
dados.
• Distribuição simétrica - X = Md = Mo
• Distribuição assimétrica - ocorrem diferenças entre os valores da média, mediana e moda.

A assimetria pode ser:
à direita - X > Md > Mo
à esquerda - X < Md < Mo
1.4.6 Separatrizes
Além das medidas de posição que estudamos, há outras que, consideradas individualmente,
não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua carac-
terística de separar a série em duas partes que apresentam o mesmo número de valores. Essas
medidas - os quartis, os decis e os percentis - são, juntamente com a mediana, conhecidas pelo
nome genérico de separatrizes.
Quartis
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais.
Q1: 1o quartil. Deixa 25% dos elementos antes do seu valor;

Q2: 2o quartil. Deixa 50% dos elementos antes do seu valor. Coincide com a mediana;
Q3: 3o quartil. Deixa 75% dos elementos antes do seu valor. (Consequentemente, 25% dos
elementos acima do seu valor.)
Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a
seguinte expressão:
in
EQi =
4
em que
• i = número do quartil a ser calculado;
• n = número de observações;
Exemplo Calcule os quartis do conjunto de dados 5, 2, 6, 9, 10, 13, 15

O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: 2, 5,
6, 9, 10, 13, 15. Note que n = 7 é ímpar o arredondamento deve ser feito para cima da posição
encontrada.
1o quartil
1×7
EQ1 = = 1, 75 ≈ 2
4
procuramos a posição 2, temos o quartil 1 Q1 = 5.
2o quartil
2×7
EQ2 = = 3, 5 ≈ 4
4

3o quartil
3×7
EQ3 = = 5, 25 ≈ 6
4
Exemplo Quando n for par, devemos fazer a media do valor encontrado e o subsequente.
Calcule 1o quartil nos dados das lâmpadas incandescentes.
n=6
1o quartil
1×6
EQ1 = = 1, 5
4
Logo o quartil 1 está entre o 1o e o 2o elemento (1o antecede 1,5o e 2o é posterior a ele.). Assim,
o 1o quartil será dado pela média entre os 1o e o 2o elemento.
612 + 623
Q1 = = 617, 5
2
Percentis ou Centis
São as medidas que dividem a amostra em 100 partes iguais. Assim:
O elemento que denirá a ordem do percentil será encontrado pelo emprego da expressão:
in
EP i =
100
em que:
• i = número identicador do percentil;
• n = número total de observações;

Relação entre percentil, quuartil e mediana
• P25 = Q1
• P50 = Q2 = M d
• P75 = Q3
1.4.7 Medidas de posição para dados agrupados

Média
Quando os dados são agrupados (Distribuição de frequência) a média é representada por
k
X
f ai xi
i=1
X= k
X
f ai
i=1
em que
• para variáveis contínuas xi é o ponto médio da classe
• f ai é o frequência absoluta de xi
A média calculada dos dados originais e dados agrupados podem ser diferentes, devido ao
erro de agrupamento. O erro de agrupamento é obtido fazendo a diferença entre o valor obtido
pelos dados originais e o valor obtido pelos dados agrupados.
Mediana
Para calcular a mediana em dados agrupados é necessário observar a frequência absoluta
acumulada (FA) para denir a classe mediana.
A posição da mediana EMd é denida da seguinte forma
se n for ímpar
 n+1
 2
EMd =
n
se n for par

2
Precisamos dos seguintes cálculos:

• LIi é o limite inferior da classe mediana.
• c é a amplitude da classe mediana.
• n1 é a diferença entre a Posição da mediana (EMd) e a frequência acumulada da classe

anterior a classe mediana.
• n2 é a frequência absoluta da classe mediana.
A mediana é dada por

n1
Md = LIi + c
n2
Moda
A moda Mo de um conjunto de dados é o valor mais frequente e também tem a mesma
unidade dos dados.
Para dados agrupados de variáveis contínuas a moda se localiza na classe de maior frequência
absoluta (classe modal).
Logo, precisamos dos seguintes cálculos:
• LIi é o limite inferior da classe modal;
• c é a amplitude da classe modal;
• ∆1 é a diferença da frequência da classe modal e a frequência da classe imediatamente

anterior;
• ∆2 é a diferença da frequência da classe modal e a frequência da classe imediatamente
posterior.
A moda para dados agrupados é dada por
∆1
Mo = LIi + c
∆1 + ∆2
Quartil
Para calcular o quartil em dados agrupados é necessário observar a freqüência acumulada
para denir a classe quartílica.
A posição da mediana EQi é denida da seguinte forma
in
EQi =
4
Denida a classe quartílica utiliza-se a expressão abaixo para obter o quartil
n1
Qi = LIi + c
n2
em que:
• LIi é o limite inferior da classe quartílica
• c é a amplitude da classe quartílica
• n1 é a diferença entre a Posição do quartil e a freqüência acumulada da classe anterior a
classe quartílica
• n2 é a freqüência absoluta da classe quartílica
Percentil
Para calcular o percentil em dados agrupados é necessário observar a freqüência acumulada
para denir a classe percentílica.
A posição da mediana EPi é denida da seguinte forma
in
EPi =
100
Denida a classe percentílica utiliza-se a expressão abaixo para obter o percentil
n1
Pi = LIi + c
n2
em que:
• LIi é o limite inferior da classe percentílica
• c é a amplitude da classe percentílica
• n1 é a diferença entre a Posição do percentílica e a freqüência acumulada da classe anterior
a classe percentílica
• n2 é a freqüência absoluta da classe percentílica
Exemplo
Continuamos com os dados dos pesos de cães de uma determinada raça.
Tabela 1.10: Dados ordenados, relativos aos pesos de cães de uma determinada raça (30 obser-
vações).
6,94 7,27 7,46 7,97 8,03 8,37
8,56 8,66 8,88 8,95 9,30 9,33
9,55 9,76 9,80 9,82 9,98 9,99
10,14 10,19 10,42 10,44 10,66 10,88
10,88 11,16 11,80 11,88 12,25 12,34
Tabela 1.11: Distribuição de frequências dos pesos de cães de uma determinada raça.
Classes xi Frequencia f a × xi Frequencia
Absoluta Acumulada
(fa) (FA)
6,27 ` 7,62 6,94 3 20,82 3
7,62 ` 8,97 8,29 7 58,03 10
8,97 ` 10,32 9,64 10 96,4 20
10,32 ` 11,67 10,99 6 65,94 26
11,67 ` 13,02 12,34 4 49,36 30
Total 30 290,55
Assim,
k
X
f ai xi
290, 55
X= i=1
k
= = 9, 685 ∼
= 9, 68
X 30
f ai
i=1
Para dados agrupados, primeiro vamos obter a classe mediana

n 30
= = 15
2 2
Assim a classe mediana é a que contém a frequência acumulada 15, ou seja é a classe 8, 97 ` 10, 32.
Então temos:
• LIi = 8, 97
• c=1,35
• n1 = 15 − 10 = 5
• n2 = 10
Substituindo nas formula, temos

n1 5
Md = LIi + c = 8, 97 + 1, 35 = 8, 97 + 0, 67 = 9, 64
n2 10
Para obter a moda, primeiro vamos obter a classe modal.
A maior freqüência absoluta é 10, assim a classe modal é 8, 97 ` 10, 32. Assim, temos
∆1
Mo = LIi + c
∆1 + ∆2
• LIi = 8, 97;
• c = 1, 35;
• ∆1 = 10 − 7 = 3;
• ∆2 = 10 − 6 = 4
∆1 3
Mo = LIi + c = 8, 97 + 1, 35 = 8, 97 + 0, 58 = 9, 55
∆1 + ∆ 2 3+4
1.5 Boxplot ou desenho esquemático
O gráco Boxplot é uma análise gráca que oferece a ideia da posição, dispersão, assimetria,
caudas e dados discrepantes. Para construí-lo, desenhamos uma "caixa"com o nível superior
dado pelo terceiro quartil (Q3 ) e o nível inferior pelo primeiro quartil (Q1 ). A mediana (Q2 ) é
representada por um traço no interior da caixa e segmentos de reta são colocados da caixa até
dos limites inferior (LI) e superior (LS), dados por
LI = Q1 − 1.5dq
LS = Q3 + 1.5dq
em que dq = Q3 − Q1 denominando diferença quartílica.
Para traçarmos o boxplot utilizamos as seguintes etapas:
• Contruir um retângulo de tal maneira que suas bases têm alturas correspondentes aos
primeiro e terceiro quartis da distribuição.
• Cortar o retângulo por um segmento paralelo às bases, na altura correspondente à mediana;
• Traçar um segmento paralelo ao eixo, partindo do ponto médio da base superior do retân-
gulo até o maior valor observado que NÃO supere LS;
• Traçar um segmento paralelo ao eixo, partindo do ponto médio da base inferior do retân-
gulo, até o menor valor que NÃO é menor LI;
• Case tenha valores que superior a LS ou inferior a LI, marcar os pontos, este valores são
considerados observações discrepantes.
• Podemos opcionalmente marca o valor da média;
Para um conjunto de dados suponha os seguintes os resultados:
M d = 9, 81
Q1 = 8, 71
Q3 = 10, 61
dq = 10, 61 − 8, 71 = 1, 9
LI = 8, 71 − 1, 5 × 1, 9 = 5, 86
LS = 10, 61 + 1, 5 × 1, 9 = 13, 46
Apresentamos a gura do Boxplot para estas medidas.
Figura 1.6: Boxplot para os pesos dos cães de uma determinada raça.
(exercício: fazer o Boxplot para os dados dos pesos de cães.)

1.6 Medidas de dispersão
As medidas de posição são importantes para caracterizar um conjunto de dados, mas não
são sucientes para caracterizar completamente a distribuição dos dados. Para isso é necessário
obter as medidas de dispersão, que medem a variabilidade dos dados.
Por exemplo: Considere as amostras referentes a altura, em cm, de dois grupos de pessoas.
Grupo A: 185 185 185
Grupo B: 187 183 185
A média para os dois grupos é a mesma X A = 185 e X B = 185.
Os 2 conjuntos não diferem entre si e consideramos somente a média, pois se basearmos
somente por essa medida os dois grupos são considerados como de mesma altura. Entretanto o
grupo A tem todas as observações iguais a média. Já no grupo B ocorre uma certa dispersão nos
dados.
As medidas de variabilidade ou dispersão possibilitam que façamos distinção entre os con-
juntos quanto à sua homogeneidade, isto é, o grau de concentração em torno de uma medida de
tendência central.
1.6.1 Amplitude Total

Amplitude Total (A) é a diferença entre o maior e o menor valor da amostra. Essa medida é
bastante simples, e obtida pela expressão:
A = M ax − M in
Para dados agrupados a amplitude total é a diferença entre o ponto médio da última e da
primeira classe.
Para expressar variabilidade a amplitude total não é muito usada, pois baseia-se em apenas
dois dados.
1.6.2 Variância e Desvio Padrão

A variância é baseada pela quadrado dos desvios dos dados em relação à média. Esta medida
é expressa na unidade dos dados ao quadrado.
• Para a população a variância é representada por
N
X
(xi − µ)2
i=1
σ2 =
N
em que N é o tamanho da população
• Para a amostra a variância é representada por
n
X 2
xi − X
i=1
S2 =
n−1
em que n é o tamanho da população
Para dados agrupados, a variância é obtida por meio da expressão:

• Para a população a variância é representada por
k
X
(xi − µ)2 f ai
i=1
σ2 = k
X
f ai
i=1
• Para a amostra a variância é representada por

n
X 2
xi − X f ai
2 i=1
S = k
X
( f ai ) − 1
i=1
O desvio padrão é a raíz quadrada positiva da variância. Esta medida é expressa na mesma
unidade dos dados.
• Para a população o desvio padrão é representada por
√
σ = σ2
• Para a amostra o desvio padrão é representada por

√
S = S2
em que n é o tamanho da população

Nota:
• O desvio padrão e a variância são medidas de dispersão ou variabilidade, a opção do uso
de um ou outro, depende da nalidade da informação.
• A variância tem pouca utilidade na estatística descritiva, porém é muito importante na
inferência estatística e em combinações de amostras.
• O desvio padrão é muito usado na estatística descritiva.
• É importante notar que, se os dados representarem uma amostra e não toda a população,
a expressão matemática da variância deve ter (n − 1) no denominador em substituição ao
fator n, esta mudança é chamada de fator de correção de Bessel ou conforme os estatísticos,
número de graus de liberdade. Dessa forma temos a variância da amostra.
Propriedades da Variância
A variância apresenta um conjunto vasto de propriedades, todas elas, sem dúvida, de grande
utilidade no cálculo do seu valor.
1. A variância de uma constante k é nula;

n
X 2
k−X
∗ i=1
S2 =
n−1
n
X
(k − k)2
i=1
=
n−1
n
X
(0)2
i=1
=
n−1
= 0
2. Somando-se ou subtraindo-se uma constante k a todos os dados a variância não se altera.
Xi∗ = Xi + k
∗
X = X +k
n
∗ 2
X
Xi∗ − X
∗ i=1
S2 =
n−1
n
X 2
Xi + k − (X + k)
i=1
=
n−1
n
X 2
Xi + k − X − k
i=1
=
n−1
n
X 2
Xi − X
i=1
=
n−1
2
= S
3. Multiplicando-se todos os dados por uma constante k, a variância ca multiplicada por k2 .
Xi∗ = kXi
∗
X = kX
n
∗ 2
X
Xi∗ − X
∗ i=1
S2 =
n−1
n
X 2
kXi − kX
i=1
=
n−1
n
X 2
k Xi − X
i=1
=
n−1
n
X 2
k 2 Xi − X
i=1
=
n−1
= k2 S 2
Propriedades do Desvio Padrão

1. Somando-se ou subtraindo-se uma constante k a todos os dados o desvio padrão não se
altera.
Xi∗ = Xi + k
∗
S2 = S2
√
S = S2
2. Multiplicando-se todos os dados por uma constante k, a variância ca multiplicada por k2 .
Xi∗ = kXi
∗
S2 = k2 S 2
√
S = k 2 S 2 = kS
1.6.3 Coeciente de Variação

O coeciente de variação (CV ) é uma medida de dispersão que expressa o desvio padrão em
termos da média de forma percentual
S
CV = 100
X
Se as amostras tiverem unidade diferentes ou médias diferentes o CV pode ser utilizado para
comparar a variabilidade entre duas amostras.
1.6.4 Erro Padrão da Média

O erro padrão da média é uma medida de dispersão que dá a precisão com que a média
populacional está sendo estimada. É obtido pela fórmula
S
S(X) = √
n
em que:
• S é o desvio padrão da amostra;

• n é o tamanho da amostra.
1.7 Exemplos
Sejam dados referentes a um levantamento onde observou-se o numero de peças defeituosas

em 25 maquinas de uma empresas.
Tabela 1.12: Número de peças defeituosas em 25 maquinas de uma empresa

1 3 4 5 6
2 3 4 5 6
2 3 4 5 6
2 3 5 5 7
2 4 5 5 8
A amplitude total
A = M ax − M in = 8 − 1 = 7
Temos que a média é X = 4 e como se trata de uma amostra temos:
n
X 2
xi − X
(1 − 4)2 + (2 − 4)2 + ... + (8 − 4)2

2
S = i=1
= = 3, 041666667 ∼
= 3, 04
n−1 25 − 1
O desvio padrão √
3, 04 = 1, 7435595 ∼
p
S= S2 = =2
O coeciente de variação
S 2
CV = 100 = 100 = 50%
X 4
O erro padrão da médio
S 2
S(X) = √ = √ = 0, 4
n 25
1.7.1 Dados Agrupados
Tabela 1.13: Resumo da distribuição de freqüências, aos pesos de cães de uma determinada raça
(30 observações).
Classes xi Frequência xi − X (xi − X)f ai
Absoluta
(fa)
6,27 ` 7,62 6,94 3 7,5076 22,5228
7,62 ` 8,97 8,29 7 1,9321 13,5247
8,97 ` 10,32 9,64 10 0,0016 0,016
10,32 ` 11,67 10,99 6 1,7161 10,2966
11,67 ` 13,02 12,34 4 7,0756 28,3024
Total 30 74,6625
Assim, Amplitude total

A = M ax − M in = 12, 34 − 6, 94 = 5, 40
Temos que a média é X = 9, 68 e como se trata de uma amostra temos:

n
X 2
xi − X f ai
2 i=1
S = k
X
( f ai ) − 1
i=1
74, 6625
=
29
= 2, 5745689 ∼
= 2, 5746
O desvio padrão √
2, 5746 = 1, 604556 ∼
p
S= S2 = = 1, 60
O coeciente de variação
S 1, 60
CV = 100 = 100 = 16, 53%
X 9, 68
O erro padrão da média
S 1, 60
S(X) = √ = √ = 0, 29
n 30

Apostila de Estatística

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila de Estatística

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Federal de Mato Grosso

Instituto de Ciências Exatas e da Terra

Notas de aula de Probabilidade e Estatística

Anderson Castro Soares de Oliveira

• Medidas Descritivas (média, variância, entre outras).

1.1 Tipo de Variáveis

As variáveis podem ter valores numéricos ou não numéricos.

1.2 Variáveis Qualitativas

 Percentual (fp) - é a freqüência relativa multiplicada por 100

Tabela 1.1: Variáveis observadas de 20 clientes de um provedor.

Neste é apresentado duas variáveis qualitativas sendo:

• Qualidade - variável qualitativa ordinal;

Tabela 1.2: Distribuição de freqüência do sexo de 20 clientes de um provedor.

Tabela 1.3: Distribuição de freqüência qualidade no atendimento de um provedor de acordo com

Figura 1.1: Qualidade no atendimento de um provedor de acordo com 20 clientes

Tabela 1.4: Distribuição de freqüência absoluta de 20 clientes de um provador de acordo com a

usado para apresentar a relação entre duas variáveis qualitativas.

Figura 1.2: Distribuição de freqüência absoluta de 20 clientes de um provador de acordo com a

1.3 Variáveis Quantitativas

Tabela 1.5: Número de peças defeituosas em 25 maquinas de uma empresa

Tabela 1.6: Distribuição de freqüências do número de peças defeituosas de 25 maquinas de uma

Figura 1.3: Número número de peças defeituosas de 25 maquinas de uma empresa

Tabela 1.8: Distribuição de freqüências, relativa ao ao tempo em segundos para carga de um

O histograma é semelhante ao gráco de barras verticais, no eixo vertical pode-se utilizar as

Muitas vezes, a análise da distribuição de freqüências acumuladas é mais interessante do que

1.4 Medidas de Posição

Medidas de Posição - São medidas de tendência central, ou seja, representativas do valor

1.4.1 Média Aritmética

Se no exemplo das lâmpadas somarmos a constante z = 2 a cada um dos valores da variável

2. Multiplicação ou divisão por uma constante

Se no exemplo das lâmpadas multiplicarmos a constante 2 a cada um dos valores da variável

3. Soma dos desvios

Exemplo: Considere o conjunto de dados: 5, 2, 6, 13, 9, 15, 10.

1.4.4 Comparação entre Média, Mediana e Moda

 Denição: Soma de todos os valores dividido pelo total de elementos do conjunto.

 Denição: Valor que divide o conjunto em duas partes iguais.

 Denição: Valor mais freqüente.

• Distribuição assimétrica - ocorrem diferenças entre os valores da média, mediana e moda.

Q1: 1o quartil. Deixa 25% dos elementos antes do seu valor;

Exemplo Calcule os quartis do conjunto de dados 5, 2, 6, 9, 10, 13, 15

procuramos a posição 4, temos o quartil 2 Q2 = 9.

• n = número total de observações;

1.4.7 Medidas de posição para dados agrupados

• para variáveis contínuas xi é o ponto médio da classe

Precisamos dos seguintes cálculos:

• c é a amplitude da classe mediana.

• n1 é a diferença entre a Posição da mediana (EMd) e a frequência acumulada da classe

A mediana é dada por

• c é a amplitude da classe modal;

• ∆1 é a diferença da frequência da classe modal e a frequência da classe imediatamente

Para dados agrupados, primeiro vamos obter a classe mediana

Substituindo nas formula, temos

1.5 Boxplot ou desenho esquemático

Apresentamos a gura do Boxplot para estas medidas.

(exercício: fazer o Boxplot para os dados dos pesos de cães.)

1.6 Medidas de dispersão

1.6.1 Amplitude Total

1.6.2 Variância e Desvio Padrão

Para dados agrupados, a variância é obtida por meio da expressão:

• Para a amostra a variância é representada por

• Para a amostra o desvio padrão é representada por

em que n é o tamanho da população

1. A variância de uma constante k é nula;

2. Somando-se ou subtraindo-se uma constante k a todos os dados a variância não se altera.

Percentual (fp) - é a freqüência relativa multiplicada por 100

O histograma é semelhante ao gráco de barras verticais, no eixo vertical pode-se utilizar as

Denição: Soma de todos os valores dividido pelo total de elementos do conjunto.

Denição: Valor que divide o conjunto em duas partes iguais.

Denição: Valor mais freqüente.

Apresentamos a gura do Boxplot para estas medidas.

1.6.3 Coeciente de Variação