Você está na página 1de 109

UNIVERSIDADE FEDERAL DO CEARÁ

CENTRO DE TECNOLOGIA

Estatística Descritiva

Amostragem e Descrição de Dados

Disciplina: Probabilidade e Estatística


Prof. Carlos Estêvão R. Fernandes
Estatística Descritiva
1. Introdução
2. Medidas de Descrição Numérica de Dados
3. Distribuições de Frequências e Histogramas
4. Métodos Gráficos de Descrição de Dados
1. Diagrama de Caule-e-Folha
2. Diagrama de Caixa (box-plot)
3. Gráficos de Probabilidade

Por onde estudar?


– Montgomery: Capítulo 6 (exceto seção 6.5)
Introdução à Estatística Descritiva
Introdução à Estatística Descritiva
– População X Amostra – Parâmetro X
Estatística

• Medidas de descrição dos dados:


– Medidas de Localização Amostral
– Medidas de dispersão Amostral
Introdução à Estatística Descritiva
• Objetivos:
– Calcular medidas numéricas de localização (média, mediana) e
dispersão (desvio-padrão, amplitude, quartis, percentis) de uma
amostra de dados
– Interpretar os resultados das medidas calculadas em problemas de
descrição de dados
– Determinar e interpretar a distribuição de frequências de um
conjunto de dados
– Construir, interpretar gráficos de descrição de dados
– Comparar conjuntos de dados com base e ferramentas gráficas
– Determinar se a distribuição de uma população está próxima de
ser Normal com base em um conjunto de dados amostrados
Descrição Numérica de Dados
(Localização)
Descrição Numérica de Dados
(Localização)
X POPULAÇÃO:
Representada pela variável aleatória
X com função densidade de
probabilidade fX(x)

x1 x2 x3 ... xn
Descrição Numérica de Dados
(Localização)
X POPULAÇÃO:
Representada pela variável aleatória
X com função densidade de
probabilidade fX(x)

AMOSTRA
x1 x2 x3 ... xn OBSERVADA
Descrição Numérica de Dados
(Localização)
X POPULAÇÃO:
Representada pela variável aleatória
X com função densidade de
probabilidade fX(x)

AMOSTRA
x1 x2 x3 ... xn OBSERVADA

DADOS
Descrição Numérica de Dados
(Localização)
X POPULAÇÃO:
Representada pela variável aleatória
X com função densidade de
probabilidade fX(x)

AMOSTRA
x1 x2 x3 ... xn OBSERVADA

• Medidas Amostrais de Localização: DADOS


– MÉDIA DA AMOSTRA (média aritmética)

x1  x2    xn 1 n
x   xi
n n i 1
Descrição Numérica de Dados
(Localização)
X POPULAÇÃO:
Representada pela variável aleatória
X com função densidade de
probabilidade fX(x)

AMOSTRA
x1 x2 x3 ... xn OBSERVADA

• Medidas Amostrais de Localização: DADOS


– MÉDIA DA AMOSTRA (média aritmética)

x1  x2    xn 1 n n
x   xi x i nx
n n i 1 i 1
Descrição Numérica de Dados
(Localização)
X POPULAÇÃO:
Representada pela variável aleatória
X com função densidade de
probabilidade fX(x)

AMOSTRA
x1 x2 x3 ... xn OBSERVADA

• Medidas Amostrais de Localização: DADOS


– MÉDIA DA AMOSTRA (média aritmética)

x1  x2    xn 1 n n
x   xi x i nx
n n i 1 i 1

Sensível a valores extremos!


Descrição Numérica de Dados
(Localização)
– Exemplo: dados da vida útil de uma lâmpada
Dados Diagrama de Dispersão
x1= 8.138,2
x2 = 8.815,7
x3 = 7.885,8
x4 = 7.958,3
x5 = 8.755,1
x6 = 9.863,5
x7 = 8.205,8
x8 = 9.027,4
x9 = 8.597,6
x10=9.564,5
10
86.811,9
 xi  86.811,9
i 1
x
10
 8.681,19 horas

81.926,1
Note que: se tivéssemos x3=4.000 teríamos x   8.192,61 horas
10
Descrição Numérica de Dados
(Localização)
– MEDIANA DA AMOSTRA x
~
É o ponto que divide a amostra em duas partes iguais.

Ou seja, tomando os dados em ordem crescente:


x1  x2    xn
~
Metade das n amostras está abaixo dex
~
x
Metade das n amostras está acima de
Descrição Numérica de Dados
(Localização)
– Exemplo: dados da vida útil de uma lâmpada
Dados (ordem
crescente)
Diagrama de Dispersão
x1= 2.623,7
x2 = 2.817,9
x3 = 3.522,6 ~ 4.543,5  7221,1
x  5.882,3 horas
x4 = 4.097,8 2
x5 = 4.543,5
x6 = 7.221,1
x7 = 9.305,4
x8 = 9.659,1
x9 = 14.286,8
10 x10= 31.131,4
89.209,3
 xi  89.209,3
i 1
x
10
 8.920,93 horas
73.077,9
Note que: se tivéssemos x10=15.000 teríamos x   7.307,79 horas
~ 10
Mas x continuaria inalterado
Descrição Numérica de Dados
(Dispersão)
Descrição Numérica de Dados
(Dispersão)
– AMPLITUDE: distância entre o maior e o menor valor observado
A  xmax  xmin

Diagrama de Dispersão
A  713,5

A  2374,8
Descrição Numérica de Dados
(Dispersão)
– VARIÂNCIA (s2) E DESVIO PADRÃO (s)

Diagrama de Dispersão

x  8.844,0

Qual o valor médio do


desvio (erro) em relação
à média?
Descrição Numérica de Dados
(Dispersão)
– VARIÂNCIA (s2) E DESVIO PADRÃO (s)
DESVIO MÉDIO (PADRÃO):
Diagrama de Dispersão
Dividindo a soma dos desvios ao quadrado por n
354.944,91
s A2 
5
s A2  70.988,98 h 2  s A  266,44 h x  8.844,0

3.421.735,16
s B2 
5
s B2  684.347,03 h 2  s B  827,25 h

Dividindo a soma dos desvios ao quadrado por n-1


354.944,91 3.421.735,16
s 
2 sB2 
A
4 4
s A2  88.736,23 h 2  s A  297,89 h sB2  855.433,79 h 2  s B  924,90 h
Descrição Numérica de Dados
(Dispersão)
– VARIÂNCIA (s2) E DESVIO PADRÃO (s)

Em suma:

 Dividindo a soma dos desvios ao quadrado por n


1 n
s   ( xi  x ) 2
2
Estimativa do desvio-padrão
n i 1 populacional
(Estimativa TENDENCIOSA da variância populacional)

s  s2
 Dividindo a soma dos desvios ao quadrado por n-1

1 n
s 
2
 i
n  1 i 1
( x  x ) 2

Para um grande número de repetições, a


(Estimativa NÃO TENDENCIOSA da variância populacional) média destas estimativas s corresponde ao
verdadeiro desvio-padrão s da população
Distribuição de Frequências
Distribuição de Frequências
 A distribuição de frequências está para a amostra assim como a distribuição de
probabilidades está para a população
 É uma forma de quantificar a frequência de ocorrência das amostras em
determinadas faixas de valores

EXEMPLO: Construindo a distribuição de frequências (n=16)

x1 xn
Distribuição de Frequências
 A distribuição de frequências está para a amostra assim como a distribuição de
probabilidades está para a população
 É uma forma de quantificar a frequência de ocorrência das amostras em
determinadas faixas de valores

EXEMPLO: Construindo a distribuição de frequências (n=16)

x1 xn

A
– Intervalos de classe: divide-se a amplitude da amostra (ou um intervalo
maior) em um certo número K de classes
Sugere-se K  n (inteiro)
Distribuição de Frequências
 A distribuição de frequências está para a amostra assim como a distribuição de
probabilidades está para a população
 É uma forma de quantificar a frequência de ocorrência das amostras em
determinadas faixas de valores

EXEMPLO: Construindo a distribuição de frequências (n=16)


x1 xn

A
– Intervalos de classe: divide-se a amplitude da amostra (ou um intervalo
maior) em um certo número K de classes
A
Sugere-se K  n (inteiro) Largura D de cada classe:  
K
Δ Δ Δ Δ

x1 xn
Distribuição de Frequências
 A distribuição de frequências está para a amostra assim como a distribuição de
probabilidades está para a população
 É uma forma de quantificar a frequência de ocorrência das amostras em
determinadas faixas de valores

EXEMPLO: Construindo a distribuição de frequências (n=16)

x1 xn

A
– Intervalos de classe: divide-se a amplitude da amostra (ou um intervalo
maior) em um certo número K de classes
A
Sugere-se K  n (inteiro) Largura D de cada classe:  
Limites dos K
intervalos Δ Δ Δ Δ

x1 xn
Distribuição de Frequências

Frequência (nk): Conta-se o número de amostras dentro de cada intervalo

Frequência Relativa (fk): Determina-se a porcentagem de amostras dentro
de cada intervalo (dividindo a frequência pelo tamanho n da amostra)

Frequência Acumulada (Fk): Somam-se as frequências relativas de todas
as classes anteriores a atual (incluindo-se a atual)

x1 xn
5
Distribuição de Frequências

Frequência (nk): Conta-se o número de amostras dentro de cada intervalo

Frequência Relativa (fk): Determina-se a porcentagem de amostras dentro
de cada intervalo (dividindo a frequência pelo tamanho n da amostra)

Frequência Acumulada (Fk): Somam-se as frequências relativas de todas
as classes anteriores a atual (incluindo-se a atual)

x1 xn
5
n1 =3 n2 =7 n3 =4 n4=2
Distribuição de Frequências

Frequência (nk): Conta-se o número de amostras dentro de cada intervalo

Frequência Relativa (fk): Determina-se a porcentagem de amostras dentro
de cada intervalo (dividindo a frequência pelo tamanho n da amostra)

Frequência Acumulada (Fk): Somam-se as frequências relativas de todas
as classes anteriores a atual (incluindo-se a atual)

n=n1 +n2 +…+n K


x1 xn
5
n1 =3 n2 =7 n3 =4 n4=2
Distribuição de Frequências

Frequência (nk): Conta-se o número de amostras dentro de cada intervalo

Frequência Relativa (fk): Determina-se a porcentagem de amostras dentro
de cada intervalo (dividindo a frequência pelo tamanho n da amostra)

Frequência Acumulada (Fk): Somam-se as frequências relativas de todas
as classes anteriores a atual (incluindo-se a atual)

nk
f k=
n

x1 xn
5
Distribuição de Frequências

Frequência (nk): Conta-se o número de amostras dentro de cada intervalo

Frequência Relativa (fk): Determina-se a porcentagem de amostras dentro
de cada intervalo (dividindo a frequência pelo tamanho n da amostra)

Frequência Acumulada (Fk): Somam-se as frequências relativas de todas
as classes anteriores a atual (incluindo-se a atual)

nk
f k=
n

x1 xn
5
3 7 4 2
f 1= =0,1875 f 2= =0,4375 f 3= =0,25 f 4 = =0,125
16 16 16 16
Distribuição de Frequências

Frequência (nk): Conta-se o número de amostras dentro de cada intervalo

Frequência Relativa (fk): Determina-se a porcentagem de amostras dentro
de cada intervalo (dividindo a frequência pelo tamanho n da amostra)

Frequência Acumulada (Fk): Somam-se as frequências relativas de todas
as classes anteriores a atual (incluindo-se a atual)

nk
f k=
n

f 1+…+f K =1
x1 xn
5
3 7 4 2
f 1= =0,1875 f 2= =0,4375 f 3= =0,25 f 4 = =0,125
16 16 16 16
Distribuição de Frequências

Frequência (nk): Conta-se o número de amostras dentro de cada intervalo

Frequência Relativa (fk): Determina-se a porcentagem de amostras dentro
de cada intervalo (dividindo a frequência pelo tamanho n da amostra)

Frequência Acumulada (Fk): Somam-se as frequências relativas de todas
as classes anteriores a atual (incluindo-se a atual)

k
F k =∑ f j
j=1

x1 xn
5
Distribuição de Frequências

Frequência (nk): Conta-se o número de amostras dentro de cada intervalo

Frequência Relativa (fk): Determina-se a porcentagem de amostras dentro
de cada intervalo (dividindo a frequência pelo tamanho n da amostra)

Frequência Acumulada (Fk): Somam-se as frequências relativas de todas
as classes anteriores a atual (incluindo-se a atual)

k
F k =∑ f j
j=1

x1 xn
5
F1 =18,75 %
Distribuição de Frequências

Frequência (nk): Conta-se o número de amostras dentro de cada intervalo

Frequência Relativa (fk): Determina-se a porcentagem de amostras dentro
de cada intervalo (dividindo a frequência pelo tamanho n da amostra)

Frequência Acumulada (Fk): Somam-se as frequências relativas de todas
as classes anteriores a atual (incluindo-se a atual)

k
F k =∑ f j
j=1

x1 xn
5
F 2=62,5 %
Distribuição de Frequências

Frequência (nk): Conta-se o número de amostras dentro de cada intervalo

Frequência Relativa (fk): Determina-se a porcentagem de amostras dentro
de cada intervalo (dividindo a frequência pelo tamanho n da amostra)

Frequência Acumulada (Fk): Somam-se as frequências relativas de todas
as classes anteriores a atual (incluindo-se a atual)

k
F k =∑ f j
j=1

x1 xn
5
F 3=87,5 %
Distribuição de Frequências

Frequência (nk): Conta-se o número de amostras dentro de cada intervalo

Frequência Relativa (fk): Determina-se a porcentagem de amostras dentro
de cada intervalo (dividindo a frequência pelo tamanho n da amostra)

Frequência Acumulada (Fk): Somam-se as frequências relativas de todas
as classes anteriores a atual (incluindo-se a atual)

k
F k =∑ f j
j=1

x1 xn
5
F 4=100 %
Distribuição de Frequências

EXEMPLO
Vamos construir a tabela de distribuição de frequências
dos dados obtidos a partir de ensaios de laboratório para
medição da força de compressão em 80 barras de
alumínio (corpos de prova)
Distribuição de Frequências

EXEMPLO
Vamos construir a tabela de distribuição de frequências
dos dados obtidos a partir de ensaios de laboratório para
medição da força de compressão em 80 barras de
alumínio (corpos de prova)
n=80
Tamanho da amostra
Distribuição de Frequências
EXEMPLO: força de compressão medida em 80 barras de alumínio (em psi)
Distribuição de Frequências
EXEMPLO: força de compressão medida em 80 barras de alumínio (em psi)

x min x max
A=x max − x min
Distribuição de Frequências
EXEMPLO: força de compressão medida em 80 barras de alumínio (em psi)

x max

x min

x min x max
A=x max − x min =245 −76=169
Distribuição de Frequências
EXEMPLO: força de compressão medida em 80 barras de alumínio (em psi)

x min =76 x max =245


A=169 (amplitude)
Distribuição de Frequências
EXEMPLO: força de compressão medida em 80 barras de alumínio (em psi)

x min =76 x max =245


A=169 (amplitude)

Quantas classes (intervalos)?


Distribuição de Frequências
EXEMPLO: força de compressão medida em 80 barras de alumínio (em psi)

x min =76 x max =245


A=169 (amplitude)

Quantas classes (intervalos)?


n=80⇒ K= √80≈ 9
Distribuição de Frequências
EXEMPLO: força de compressão medida em 80 barras de alumínio (em psi)

x min =76 x max =245


A=169 (amplitude)

Quantas classes (intervalos)?


n=80⇒ K= √80≈ 9
Largura das classes (intervalos)?
Distribuição de Frequências
EXEMPLO: força de compressão medida em 80 barras de alumínio (em psi)

x min =76 x max =245


A=169 (amplitude)

Quantas classes (intervalos)?


n=80⇒ K= √80≈ 9
Largura das classes (intervalos)?
A 169
Δ= = =18,78
K 9
Distribuição de Frequências
EXEMPLO: força de compressão medida em 80 barras de alumínio (em psi)

x min =76 x max =245


A=169 (amplitude)

Quantas classes (intervalos)?


n=80⇒ K= √80≈ 9
Largura das classes (intervalos)? Para simplificar,

A 169 ajustaremos o valor de D


Δ=19
Δ= = =18,78
K 9
Distribuição de Frequências
Limites dos intervalos Distribuição de Frequências

l1  76 Classes Frequência Frequência Frequência


nk Relativa fk Acumulada Fk
l2  76  19  95 76 ≤ x < 95
l3  95  19  114 95 ≤ x < 114

l4  114  19  133 114 ≤ x < 133


133 ≤ x < 152
l5  133  19  152
152 ≤ x < 171
l6  171  19  190 171 ≤ x < 190
l7  190  19  209 190 ≤ x < 209
209 ≤ x < 228
l8  209  19  228
228 ≤ x < 247
l9  228  19  247
Distribuição de Frequências
Limites dos intervalos Distribuição de Frequências

l1  76 Classes Frequência Frequência Frequência


nk Relativa fk Acumulada Fk
l2  76  19  95 76 ≤ x < 95 2
l3  95  19  114 95 ≤ x < 114 4

l4  114  19  133 114 ≤ x < 133 6


133 ≤ x < 152 16
l5  133  19  152
152 ≤ x < 171 20
l6  171  19  190 171 ≤ x < 190 16
l7  190  19  209 190 ≤ x < 209 10
209 ≤ x < 228 2
l8  209  19  228
228 ≤ x < 247 4
l9  228  19  247
Soma: 80
K

∑ nk =n
k=1
Distribuição de Frequências
Limites dos intervalos Distribuição de Frequências

l1  76 Classes Frequência Frequência Frequência


nk Relativa fk Acumulada Fk
l2  76  19  95 76 ≤ x < 95 2 2,5%
l3  95  19  114 95 ≤ x < 114 4 5,0%

l4  114  19  133 114 ≤ x < 133 6 7,5%


133 ≤ x < 152 16 20,0%
l5  133  19  152
152 ≤ x < 171 20 25,0%
l6  171  19  190 171 ≤ x < 190 16 20,0%
l7  190  19  209 190 ≤ x < 209 10 12,5%
209 ≤ x < 228 2 2,5%
l8  209  19  228
228 ≤ x < 247 4 5,0%
l9  228  19  247
Soma: 80 100%
K K

∑ nk =n ∑ f k =1 ou 100%
k=1 k=1
Distribuição de Frequências
Limites dos intervalos Distribuição de Frequências

l1  76 Classes Frequência Frequência Frequência


nk Relativa fk Acumulada Fk
l2  76  19  95 76 ≤ x < 95 2 2,5% 2,5%
l3  95  19  114 95 ≤ x < 114 4 5,0% 7,5%

l4  114  19  133 114 ≤ x < 133 6 7,5% 15,0%


133 ≤ x < 152 16 20,0% 35,0%
l5  133  19  152
152 ≤ x < 171 20 25,0% 60,0%
l6  171  19  190 171 ≤ x < 190 16 20,0% 80,0%
l7  190  19  209 190 ≤ x < 209 10 12,5% 92,5%
209 ≤ x < 228 2 2,5% 95,0%
l8  209  19  228
228 ≤ x < 247 4 5,0% 100,0%
l9  228  19  247
Soma: 80 100%
K K

∑ nk =n ∑ f k =1 ou 100%
k=1 k=1
Histogramas
Histogramas
São gráficos de colunas que representam as informações da tabela de distribuição de
frequência

O eixo horizontal é dividido de acordo com os intervalos de classe (representa a grandeza


observada)

A altura das colunas correspondem às frequências, frequências relativas ou frequências


acumuladas

5
Histogramas
São gráficos de colunas que representam as informações da tabela de
distribuição de frequência

O eixo horizontal é dividido de acordo com os intervalos de classe


(representa a grandeza observada)
A altura das colunas correspondem às frequências, frequências relativas ou
frequências acumuladas

5
Histogramas
São gráficos de colunas que representam as informações da tabela de
distribuição de frequência

O eixo horizontal é dividido de acordo com os intervalos de classe


(representa a grandeza observada)
A altura das colunas correspondem às frequências, frequências relativas ou
frequências acumuladas

5
Histogramas
São gráficos de colunas que representam as informações da tabela de
distribuição de frequência

O eixo horizontal é dividido de acordo com os intervalos de classe


(representa a grandeza observada)
A altura das colunas correspondem às frequências, frequências relativas ou
frequências acumuladas

5
Histogramas
São gráficos de colunas que representam as informações da tabela de
distribuição de frequência

O eixo horizontal é dividido de acordo com os intervalos de classe


(representa a grandeza observada)
A altura das colunas correspondem às frequências, frequências relativas ou
frequências acumuladas

5
Histograma de Frequência

Voltando ao exemplo das barras de alumínio

Tente fazer os histogramas da frequência, frequência relativa e


frequência acumulada
Histograma de Frequência
No exemplo das barras de alumínio, temos:

Histograma (Frequência Absoluta)


25

20

15
Frequência

10

0
76 – 95 95 – 114 114 – 133 133 – 152 152 – 171 171 – 190 190 – 209 209 – 228 228 – 247

Força de compressão (psi)


Histograma de Frequência Relativa
No exemplo das barras de alumínio, temos:

Histograma (Frequência Relativa)


30,0%

25,0%

20,0%
Frequência relativa (%)

15,0%

10,0%

5,0%

0,0%
76 – 95 95 – 114 114 – 133 133 – 152 152 – 171 171 – 190 190 – 209 209 – 228 228 – 247

Força de compressão (psi)


Histograma de Frequência Acumulada
No exemplo das barras de alumínio, temos:

Histograma (Frequência Acumulada)


120,0%

100,0%

80,0%
Frequência cumulativa (%)

60,0%

40,0%

20,0%

0,0%
76 – 95 95 – 114 114 – 133 133 – 152 152 – 171 171 – 190 190 – 209 209 – 228 228 – 247

Força de compressão (psi)


Caso Discreto
Caso em que os dados são números Inteiros ou Naturais
(com pouca ou relativamente pouca variação)
Caso Discreto
Quando os dados são números Inteiros ou Naturais, com pouca
ou relativamente pouca variação podemos usar os próprios
valores da variável observada como CLASSES (não há a
noção de intervalos)

Observe as duas amostras a seguir e reflita sobre o que estes


dados podem representar
Caso Discreto
AMOSTRA 1:

AMOSTRA 2:
Caso Discreto
Muitos resultados distintos
AMOSTRA 1:

AMOSTRA 2:
Caso Discreto
Muitos resultados distintos
AMOSTRA 1:

Poucos resultados
AMOSTRA 2:
distintos (apenas 5 opções)
Caso Discreto
Muitos resultados distintos
AMOSTRA 1:

Poucos resultados
AMOSTRA 2:
distintos (apenas 5 opções)

Note que ambos os conjuntos de dados têm 50 amostras n=50


Caso Discreto

Distribuição de frequência


No caso da AMOSTRA 1

Faz sentido usar INTERVALOS como CLASSES da distribuição
de frequência (e do histograma)


No caso da AMOSTRA 2

Faz sentido usar os PRÓPRIOS VALORES DAS AMOSTRAS
como CLASSES da distribuição de frequência (e do histograma)
Caso Discreto

Distribuição de frequência


No caso da AMOSTRA 1

Faz sentido usar INTERVALOS como CLASSES da distribuição
de frequência (e do histograma)


No caso da AMOSTRA 2

Faz sentido usar os PRÓPRIOS VALORES DAS AMOSTRAS
como CLASSES da distribuição de frequência (e do histograma)
Caso Discreto

Distribuição de frequência

AMOSTRA 2
Caso Discreto

Distribuição de frequência

AMOSTRA 2
Caso Discreto

Distribuição de frequência

AMOSTRA 2
Caso Discreto

Distribuição de frequência

AMOSTRA 2
Caso Discreto

Histogramas da Amostra 2
16 35%
14 30%

Frequência Relativa (%)


12 25%
10
Frequência

20%
8
15%
6
4 10%

2 5%
0 0%
0 1 2 3 4 0 1 2 3 4
120%

100%
Frequência Acumulada

80%

60%

40%

20%

0%
0 1 2 3 4
Aproximação do valor médio e da
variância usando a distribuição de
frequência ou o histograma
No exemplo anterior (barras de alumínio), calcule o valor
médio e o desvio padrão dos dados amostrais apresentados
no primeiro slide do exemplo (pode usar calculadora ou
computador)
No exemplo anterior (barras de alumínio), calcule o valor
médio e o desvio padrão dos dados amostrais apresentados
no primeiro slide do exemplo (pode usar calculadora ou
computador)

Se você fez as contas direito, deve ter encontrado os valores


a seguir: x̄=162,6625 Valor médio amostral
s=33,7732 Desvio padrão amostral
No exemplo anterior (barras de alumínio), calcule o valor
médio e o desvio padrão dos dados amostrais apresentados
no primeiro slide do exemplo (pode usar calculadora ou
computador)

Se você fez as contas direito, deve ter encontrado os valores


a seguir: x̄=162,6625 Valor médio amostral
s=33,7732 Desvio padrão amostral

Mas, e se os dados não estivesse disponíveis?


E se a única informação disponível fosse o histograma (ou a
tabela de distribuição de frequência)

Você ainda seria capaz de achar (aproximadamente) o valor


médio e o desvio padrão?
Valor Médio Aproximado
Classes Centro da Frequência Total aproximado
classe fk na classe
Ck Ck x fk
76 ≤ x < 95 85,5 2
95 ≤ x < 114 104,5 4
114 ≤ x < 133 123,5 6
133 ≤ x < 152 142,5 16
152 ≤ x < 171 161,5 20
171 ≤ x < 190 180,5 16
190 ≤ x < 209 199,5 10
209 ≤ x < 228 218,5 2
228 ≤ x < 247 237,5 4
Valor Médio Aproximado
Classes Centro da Frequência Total aproximado
classe fk na classe
Ck Ck x fk
76 ≤ x < 95 85,5 2 171
95 ≤ x < 114 104,5 4 418
114 ≤ x < 133 123,5 6 741
133 ≤ x < 152 142,5 16 2280
152 ≤ x < 171 161,5 20 3230
171 ≤ x < 190 180,5 16 2888
190 ≤ x < 209 199,5 10 1995
209 ≤ x < 228 218,5 2 437
228 ≤ x < 247 237,5 4 950
Valor Médio Aproximado
Classes Centro da Frequência Total aproximado
classe fk na classe
Ck Ck x fk
76 ≤ x < 95 85,5 2 171
95 ≤ x < 114 104,5 4 418
114 ≤ x < 133 123,5 6 741
133 ≤ x < 152 142,5 16 2280
152 ≤ x < 171 161,5 20 3230
171 ≤ x < 190 180,5 16 2888
190 ≤ x < 209 199,5 10 1995
209 ≤ x < 228 218,5 2 437
228 ≤ x < 247 237,5 4 950
Soma (aproximada) dos dados: 13110
Valor Médio Aproximado
Classes Centro da Frequência Total aproximado
classe fk na classe
Ck Ck x fk
76 ≤ x < 95 85,5 2 171
95 ≤ x < 114 104,5 4 418
114 ≤ x < 133 123,5 6 741
133 ≤ x < 152 142,5 16 2280
152 ≤ x < 171 161,5 20 3230
171 ≤ x < 190 180,5 16 2888
190 ≤ x < 209 199,5 10 1995
209 ≤ x < 228 218,5 2 437
228 ≤ x < 247 237,5 4 950
Soma (aproximada) dos dados: 13110
Média (aproximada): 13110/80 = 163,875
Valor Médio Aproximado
Classes Centro da Frequência Total aproximado
classe fk na classe
Ck Ck x fk
76 ≤ x < 95 85,5 2 171
95 ≤ x < 114 104,5 4 418
114 ≤ x < 133 123,5 6 741
133 ≤ x < 152 142,5 16 2280
152 ≤ x < 171 161,5 20 3230
171 ≤ x < 190 180,5 16 2888
190 ≤ x < 209 199,5 10 1995
209 ≤ x < 228 218,5 2 437
228 ≤ x < 247 237,5 4 950
Soma (aproximada) dos dados: 13110
Média (aproximada): 13110/80 = 163,875
A soma real dos dados é 13013 e a média real é 162,6625 !!!
Valor Médio Aproximado
25

20
20
16 16
15
Frequência

10
10
6
5 4 4
2 2
0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5
Valor Médio Aproximado
25

20
20

16 16
15
Frequência

10
10

6
5 4 4
2 2

0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5
85,5 x 2

171
Valor Médio Aproximado
25

20
20

16 16
15
Frequência

10
10

6
5 4 4
2 2

0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5
104,5 x 4

171 418
Valor Médio Aproximado
25

20
20

16 16
15
Frequência

10
10

6
5 4 4
2 2

0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5
123,5 x 6

171 418 741


Valor Médio Aproximado
25

20
20

16 16
15
Frequência

10
10

6
5 4 4
2 2

0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5
142,5 x 16

171 418 741 2280


Valor Médio Aproximado
25

20
20

16 16
15
Frequência

10
10

6
5 4 4
2 2

0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5
161,5 x 20

171 418 741 2280 3230


Valor Médio Aproximado
25

20
20

16 16
15
Frequência

10
10

6
5 4 4
2 2

0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5
180,5 x 16

171 418 741 2280 3230 2888


Valor Médio Aproximado
25

20
20

16 16
15
Frequência

10
10

6
5 4 4
2 2

0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5
199,5 x 10

171 418 741 2280 3230 2888 1995


Valor Médio Aproximado
25

20
20

16 16
15
Frequência

10
10

6
5 4 4
2 2

0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5
218,5 x 2

171 418 741 2280 3230 2888 1995 437


Valor Médio Aproximado
25

20
20

16 16
15
Frequência

10
10

6
5 4 4
2 2

0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5
237,5 x 4

171 418 741 2280 3230 2888 1995 437 950


Valor Médio Aproximado
25

20
20

16 16
15
Frequência

10
10

6
5 4 4
2 2

0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5

171 + 418 + 741 + 2280 + 3230 + 2888 + 1995 + 437 + 950 = 13110
Valor Médio Aproximado
25

20
20

16 16
15
Frequência

10
10

6
5 4 4
2 2

0
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5

13110
x̄ ≈ =163,875
80
171 + 418 + 741 + 2280 + 3230 + 2888 + 1995 + 437 + 950 = 13110
Valor Médio Aproximado
Para encontrar o valor médio aproximado a partir da
distribuição de frequência, substitua o somatório das
amostras pela média ponderada dos centros das classes
(com os pesos dados por suas respectivas frequências)
n K
1 1
x̄= ∑ xi x̄≈ ∑ C k n k
n i=1 n k=1

Lembrando que a frequência relativa é definida


Onde: como a frequência dividida pelo tamanho da
K é o número de classes amostra: K
nk
Ck é o centro da classe k f k=
n
Logo x̄≈ ∑ C k f k
nk é a frequência da classe k k=1
fk é a frequência relativa da classe k
Valor Médio Aproximado
30%

0,25
25%
Frequência relativa (%)

0,2 0,2
20%

15%
0,125

10%
0,075
0,05 0,05
5%
0,025 0,025

0%
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5
Valor Médio Aproximado
30%

0,25
25%
Frequência relativa (%)

0,2 0,2
20%

15%
0,125

10%
0,075
0,05 0,05
5%
0,025 0,025

0%
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5

2,1375 5,225 9,2625 28,5 40,375 36,1 24,9375 5,4625 11,875


Valor Médio Aproximado
30%

0,25
25%
Frequência relativa (%)

0,2 0,2
20%

15%
0,125

10%
0,075
0,05 0,05
5%
0,025 0,025

0%
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5

2,1375 + 5,225 + 9,2625 + 28,5 + 40,375 + 36,1 + 24,9375 + 5,4625 + 11,875 = 163,875
Valor Médio Aproximado
30%

0,25
25%
Frequência relativa (%)

0,2 0,2
20%

15%
0,125

10%
0,075
0,05 0,05
5%
0,025 0,025

0%
85,5 104,5 123,5 142,5 161,5 180,5 199,5 218,5 237,5

x̄ ≈163,875

2,1375 + 5,225 + 9,2625 + 28,5 + 40,375 + 36,1 + 24,9375 + 5,4625 + 11,875 = 163,875
Métodos Gráficos de Descrição de Dados
– Diagrama de Caule-e-Folha (ainda o exemplo das barras de alumínio)
Caules Folhas Frequência
 Esse diagrama apresenta todos
os valores observados
explicitamente

 Pode ajudar a determinar a


mediana (e os quartis)

Caules: Dezenas e Centenas(psi)


Folhas: Unidades (psi)
Métodos Gráficos de Descrição de Dados

Quartis e Parcentis

 Os quartis dividem as observações em quatro partes com (aproximadamente) igual


número de amostras em cada cada parte

 Os percentis dividem as observações em cem partes com (aproximadamente) igual


número de amostras em cada cada parte

Determinando os Quartis:
Primeiro quartil (q1): ¼ das amostras estão abaixo de q1 (¾ acima)
Segunda quartil (q2): ½ das amostras estão abaixo de q2 (corresponde

à mediana)
Terceiro quartil (q3): ¾ das amostras estão abaixo de q3 (¼ acima)  xi , se f  0
 3x  x
 n 1  i i 1
, se f  0,25

p  k  i f qk  xi  f  ( xi 1  xi )  4
x  xi 1
 4   i , se f  0,5
 2
k é o número do Parte fracionária  xi  3 xi 1
 , se f  0,75
quartil (1,2,3) Parte inteira 4
Métodos Gráficos de Descrição de Dados

Quartis e Parcentis

 Exemplo: Tempo (em segundos) de ignição para partida a frio

Caso 01: n=7 carros


n 1 7 1 8 i  2
Primeiro quartil (q1): p    2,0  
x1= 1.75 4 4 4 f 0
x2= 1.91
x3= 1.92 q1  x2  0  ( x3  x2 )  x2 q1  x2  1,91
x4= 2.35 n 1 i  4
x5= 2.53 Segundo quartil (q2): p  2  2  2,0  4,0  
4 f 0
x6= 2.62
x7= 3.09
q2  x4  2,35
n 1 i  6
Terceiro quartil (q3): p  3  3  2,0  6,0  
4 f 0
q3  x6  2,62
Métodos Gráficos de Descrição de
Dados
Quartis e Parcentis

 Exemplo: Tempo (em segundos) de ignição para partida a frio

Caso 02: n=8 carros


n 1 8 1 9 i  2
Primeiro quartil (q1): p    2,25  
x1= 1.75 4 4 4  f  0,25
x2= 1.91 3 x2  x3 3  1,91  1,92
x3= 1.92 q1  x2  0,25  ( x3  x2 )  q1   1,9125
4 4
x4= 2.35 n 1 i  4
x5= 2.53 Segundo quartil (q2): p  2  2  2,25  4,5  
4  f  0,5
x6= 2.62 x4  x5 2,35  2,53
x7= 3.09 q2  x4  0,5  ( x5  x4 )  q2   2,44
2 2
x8= 3.15 n 1 i  6
Terceiro quartil (q3): p  3   3  2, 25  6 , 75  
4  f  0,75
x  3 x7 2,62  3  3,09
q3  x6  0,75  ( x7  x6 )  6 q3   2,9725
4 4
Métodos Gráficos de Descrição de Dados

Quartis e Parcentis

 Exemplo: Tempo (em segundos) de ignição para partida a frio

Caso 03: n=9 carros


n  1 9  1 10 i  2
Primeiro quartil (q1): p    2,5  
x1= 1.75 4 4 4  f  0,5
x2= 1.91 x2  x3 1,91  1,92
x3= 1.92 q1  x2  0,5  ( x3  x2 )  q1   1,915
2 2
x4= 2.35 n 1 i  5
x5= 2.53 Segundo quartil (q2): p  2  2  2,5  5,0  
4 f 0
x6= 2.62
x7= 3.09 q2  x5  0  ( x6  x5 )  x5 q2  2,53
x8= 3.15 n 1 i  7
Terceiro quartil (q3): p  3  3  2,5  7 ,5  
x9= 3.17 4  f  0,5
x x 3,09  3,15
q3  x7  0,5  ( x8  x7 )  7 8 q3   3,12
2 2
Métodos Gráficos de Descrição de Dados

Quartis e Parcentis

 Exemplo: Tempo (em segundos) de ignição para partida a frio

Caso 04: n=10 carros


n  1 10  1 11 i  2
Primeiro quartil (q1): p    2,75  
x1= 1.75 4 4 4  f  0,75
x2= 1.91 x2  3  x3 1,91  3  1,92
x3= 1.92 q1  x2  0,75  ( x3  x2 )  q1   1,9175
4 4
x4= 2.35 n 1 i  5
Segundo quartil (q2): p  2   2  2 ,75  5 ,5  
x5= 2.53 4  f  0,5
x6= 2.62 x x 2,53  2,62
x7= 3.09 q2  x5  0,5  ( x6  x5 )  5 6 q2   2,575
2 2
x8= 3.15 n 1 i  8
Terceiro quartil (q3): p  3   3  2,75  8, 25  
x9= 3.17 4  f  0,25
x10= 5.1 3  x8  x9 3  3,15  3,17
q3  x8  0,25  ( x9  x8 )  q3   3,155
4 4
Métodos Gráficos de Descrição de Dados
– Gráficos de Caixa (Box Plot)

Neste gráfico podemos visualizar diagramaticamente as seguintes informações


estatísticas sobre a amostra:
xmax , xmin
 Valores máximo e mínimo:
q1 , q2 , q3 ( ~
x  q2 )
 Quartis (e mediana):
Aiq  q3  q1
 Amplitude interquartil:
 Pontos discrepantes (‘outliers’):
valores que se distanciam mais de 1,5Aiq abaixo de q1 ou acima de q3
Filamento se estende até a Filamento se estende até a
menor amostra acima do limiar maior amostra abaixo do limiar

 inf  q1  1,5 Aiq  sup  q3  1,5 Aiq


q1 q2 q3

1,5 Aiq 1,5 Aiq Aiq 1,5 Aiq 1,5 Aiq


Métodos Gráficos de Descrição de Dados
– Gráficos de Probabilidade Normal
Este gráfico fornece indícios para decidirmos se a população de onde a amostra foi
retirada é Normal ou não.
 Organize as amostras em ordem crescente: x1  x2    xn
 Para cada amostra, calcule a frequência relativa acumulada: (i  0,5) / n
 Trace o ponto na curva usando um “papel de probabilidade” apropriado:
xi (i  0,5) / n
Eixo-x: Eixo-y:

Se os pontos formarem uma Calculando a frequência acumulada


linha (aproximadamente) reta,
a hipótese de que a população é Normal será aceita

Gráfico de probabilidade Normal


Métodos Gráficos de Descrição de Dados
– Gráficos de Probabilidade
Normal Equivalente

Trace o gráfico de probabilidade para o exemplo


dos carros (tempo de ignição) usando a folha de
probabilidade Normal fornecida

Você também pode gostar