Você está na página 1de 18

29/08/2016

Estatística
Aula: 7
Professor: Emerson Rodrigues Andrade
E-mail: emerson.andrade@unifemm.edu.br

Plano de Ensino:

Unidade II - Descrição, Exploração


e Comparação de Dados

Conteúdo: Medidas de Dispersão e


Medidas de Posição.

1
29/08/2016

Medidas de Dispersão
As medidas de tendência central pouco ou nada informam a respeito
da dispersão dos dados. Veja este exemplo:

Exemplo 1: Conjunto de dados A: 6, 6, 9, 10, 11, 14, 14


Média 10; Mediana 10 e Bimodal (6, 14)
Conjunto de dados B: 5, 6, 7, 10, 13, 14, 15
Média 10; Mediana 10 e sem Moda
Conjunto de dados C: 2, 4, 6, 10, 14, 16, 18
Média 10; Mediana 10 e sem Moda

Podemos observar no exemplo acima que dois conjuntos de dados podem


ter a mesma medida de centro, porém com uma dispersão diferente.

Necessitamos desta forma, além das medidas de tendência central, de uma


medida que nos diga como estes dados estão dispersos. Precisamos de uma
medida do grau de dispersão (variabilidade) dos dados em torno de um 3

determinado valor. Prof. Emerson R. Andrade

As medidas de variação quantificam esse grau de dispersão.

Medidas de Dispersão
Necessitamos desta forma, além das medidas de tendência central,
de uma medida que nos diga como estes dados estão dispersos.
Precisamos de uma medida do grau de dispersão (variabilidade) dos dados em
torno de um determinado valor.

As medidas de variação quantificam esse grau de dispersão.

Prof. Emerson R. Andrade

2
29/08/2016

Amplitude
A amplitude de um conjunto de valores de dados é a diferença entre
o maior valor e o menor valor. Para encontrar a amplitude, os dados
devem ser quantitativos.

Amplitude = (Entrada máxima de dados) – (Entrada mínima de dados)


http://3.bp.blogspot.com/-MphnzuJUcbs/Tpm0Op1bdZI/AAAAAAAABPA/HF3QzjlnSUc/s1600/400_F_14426746_3DK3K5jwDvp83zpeXua456rSgJS1N0lG.jpg

A amplitude usa apenas os valores de dados máximo e mínimo, portanto


é muito sensível a valores extremos.
É muito utilizada em controle estatístico de processo.
Regra de Arredondamento para as Medidas de Variação

Ao arredondar o valor de uma medida de dispersão, use uma casa


decimal a mais do que é apresentado no conjunto de original de dados.
5

Prof. Emerson R. Andrade

Exemplo 2: Medições do peso de uma esfera de 1000 g em duas balanças


(A e B).
Balança A: Balança B:
Min = 945 g Min =895 g
Max = 1040 g Max = 1095 g
Amplitude = 1040 – 945 = 95 g Amplitude = 1095 – 895 = 200g

A variabilidade das medições de peso da balança B é maior que a variabilidade das


medições de peso da balança A (apesar do valor médio ser igual).

Desvio
O desvio de uma entrada 𝑥 em uma população é a diferença entre a entrada e a
média 𝜇 do conjunto de dados.

Desvio de 𝑥 = 𝑥 − 𝜇 6

Prof. Emerson R. Andrade

3
29/08/2016

Exemplo 3: Duas corporações contrataram 10 formandos cada. O salário inicial


para cada formando é mostrado a seguir.
Salários iniciais para a Empresa A (milhares de dólares)
Salários 41 38 39 45 47 41 44 41 37 42

Encontre o desvio de cada salário inicial para a empresa A.

Solução:

415
A média dos salários iniciais é 𝜇 = = 41,5. 7

Prof. Emerson R. Andrade 10

Variância
A variância é baseada pelo quadrado dos desvios dos dados em relação
à média. Esta medida é expressa na unidade dos dados ao quadrado.

 Para a população a variância é representada por:

𝑁 2
2 𝑖=1 𝑥𝑖 − 𝜇
𝜎 =
𝑁

em que N é o tamanho da população.

 Para a amostra a variância é representada por:

𝑁 2
𝑖=1𝑥𝑖 − 𝑥
𝑠2 =
𝑛−1

em que 𝑛 é o tamanho da amostra. 8

Prof. Emerson R. Andrade

4
29/08/2016

Desvio Padrão
O desvio-padrão de um conjunto de valores amostrais, denotado por 𝑠,
é uma medida da variação dos valores em torno da média. É uma espécie de desvio
médio dos valores em relação à média, que é calculado pelas fórmulas.

 Para a população o desvio padrão é representado por:

𝑁 2
𝑖=1 𝑥𝑖 − 𝜇
𝜎= 𝜎2 =
𝑁

 Para a amostra o desvio padrão é representado por:

𝑁 2
𝑖=1 𝑥𝑖 − 𝑥
𝑠= 𝑠2 =
𝑛−1
9

Prof. Emerson R. Andrade

Exemplo 4: Vamos encontrar a variância populacional e o desvio


padrão dos salários iniciais para a Empresa A dados no exemplo 3.

Solução:
Temos que:
𝑠𝑠𝑥 = 88,5 e 𝑁 = 10
então:
𝑁
𝑥𝑖 −𝜇 2 88,5
𝜎2 = 𝑖=1
= ≅ 8,9 e
𝑁 10

𝜎 = 𝜎 2 = 8,9 ≅ 3,0

Assim, a variância populacional é de


aproximadamente 8,9 e o desvio padrão
populacional é de aproximadamente de 3,0.
10

Prof. Emerson R. Andrade

5
29/08/2016

Propriedades do Desvio-Padrão:

• O desvio-padrão mede a variação entre os valores dos dados.


• Valores próximos uns dos outros têm um desvio-padrão pequeno, mas valores
com muito mais variação têm desvio-padrão maior.
• O desvio-padrão tem as mesmas unidades de medida (tais como minuto, gramas
ou reais) que os valores originais dos dados.
• Para muitos conjuntos de dados, um valor é não usual se é diferente da média
por mais de dois desvios-padrão.
• Ao se comparar a variação em dois conjuntos de dados diferentes, compare o
desvio-padrão apenas se os conjuntos de dados usarem a mesma escala e
unidades de medida e tiverem médias aproximadamente iguais.
11

Prof. Emerson R. Andrade

Desvio-padrão para dados agrupados:

Quando a distribuição de frequência tem classes, podemos estimar a


média amostral e o desvio-padrão usando pontos médios de cada classe.

Exemplo 5: Calcule o desvio padrão para os dados agrupados abaixo:

Classe f
0-99 380
100-199 230
200-299 210
300-399 50
400-499 60
500+ 70

= 1000
12

Prof. Emerson R. Andrade

6
29/08/2016

Solução:

192.000
𝑥= = 192
1.000
Use a soma dos quadrados para encontrar o desvio-padrão amostral
𝑁
𝑖=1 𝑥𝑖 − 𝑥 2 𝑓 25.668.750
𝑠= = = 160,3
Prof. Emerson R. Andrade
𝑛−1 999 13

Regra Empírica:
A regra empírica é um conceito útil na interpretação dos valores de um
desvio-padrão. Essa regra estabelece que para um conjunto de dados que tenham uma
distribuição com forma aproximadamente de sino, aplicam-se as propriedades.

• Cerca de 68% de todos os valores ficam a até um desvio-padrão da média.


• Cerca de 95% de todos os valores ficam a até 2 desvios-padrão da média.
• Cerca de 99,7% de todos os valores ficam a até 3 desvios-padrão da média.

http://thumbs.dreamstime.com/t/histograma-de-los-datos-en-la-tableta-digital-
40269322.jpg
14

Prof. Emerson R. Andrade

7
29/08/2016

15

Prof. Emerson R. Andrade

Exemplo 6: Em uma pesquisa conduzida pelo Centro Nacional de


Estatísticas Médicas, uma amostra das alturas médias das mulheres nos EUA
(idade entre 20 e 29) era de 64 polegadas, com desvio-padrão amostral de
2,71 polegadas. Estime a porcentagem de mulheres cujas alturas estão entre 64 e
69,42 polegadas.

Solução: A distribuição das alturas das mulheres é mostrada no gráfico.

16

Prof. Emerson R. Andrade

8
29/08/2016

Em razão de a distribuição ter formato de sino, podemos usar a regra


empírica. A altura média é 64, então, quando você adiciona dois
desvios-padrão à altura média, você obtém:

𝑥 + 2𝑠 = 64 + 2 . 2,71 = 69,42

Já que 69,42 é dois desvios-padrão acima da altura média, a porcentagem a


porcentagem das alturas entre 64 polegadas e 69,42 polegadas são
34%+13,5%=47,5%.

Interpretação: Então, 47,5% das mulheres têm entre 64 e 69,42 polegadas de altura.
Teorema de Chebyshev:

Vantagem: O teorema de Chebyshev se aplica a qualquer conjunto de dados.

Desvantagem: Os resultados são apenas aproximados pelo fato de os resultados


serem limites inferiores. 17

Prof. Emerson R. Andrade

Teorema de Chebyshev: A proporção de qualquer conjunto de dados que se situa até 𝐾


desvios-padrão da média é sempre, no mínimo,
1
1 − 𝐾2, onde 𝐾 é qualquer número positivo maior do que 1.

Para 𝐾 = 2 e 𝐾 = 3, obtemos as seguintes afirmativas:

• Pelo menos 3 4(ou 75%) de todos os valores se localizam a até 2 desvios-padrão da


média.

• Pelo menos 8 9(ou 88,9%) de todos os valores se localizam a até 2 desvios-padrão da


média.

Exemplo 7: As distribuições das idades para a Flórida é mostrada no histograma. Aplique o


teorema de Chebyshev para os dados usando k=2. O que podemos concluir?

18

Prof. Emerson R. Andrade

9
29/08/2016

Flórida

Solução:
Movendo dois desvios-padrão para a esquerda da média chega-se em 0, pois 𝜇 − 2𝜎 =
39,2 − 2 . 24,8 = −10,4. Mover dois desvios-padrão para a direita da média nos coloca em
𝜇 + 2𝜎 = 39,2 + 2 . 24,8 = 88,8. Pelo teorema de Chebyshev podemos dizer que pelo
menos 75% d a população da Flórida está entre 0 e 88,8 anos de idade.
19

Prof. Emerson R. Andrade

Coeficiente de Variação
Os desvios-padrão só devem ser comparados se os dois conjuntos de
dados usarem a mesma escala e unidades de medidas e tiverem
aproximadamente a mesma média. Caso contrário, devemos utilizar o coeficiente
de variação. O coeficiente de variação (CV) é uma medida de dispersão que
expressa o desvio-padrão em termos da média de forma percentual.
𝑆 𝜎
Amostra: 𝐶𝑉 = 100% . População: 𝐶𝑉 = 100% .
𝑋 𝜇

Exemplo 8: Em um laboratório foram observados os seguintes níveis médios da


substância W após dois conjuntos ensaios. No conjunto de ensaios A, a média foi
𝑥𝑎 = 1495 mg, e no conjunto B, 𝑥𝑏 = 1875 mg. Os desvios padrão dos respectivos
conjuntos foram: 𝑠𝑎 = 280 mg e 𝑠𝑏 = 310 mg.

Qual conjunto de ensaios tem maior:


a) dispersão absoluta; b) dispersão relativa?
20

Prof. Emerson R. Andrade

10
29/08/2016

Solução: a) Dispersão absoluta = Desvio Padrão


Portanto, o conjunto B apresenta maior dispersão absoluta com o valor
de 310 mg.

b) Dispersão relativa = coeficiente de variação


𝑆
𝐶𝑉 = 100% .
𝑋
Dispersão relativa do conjunto A:

280
. 100% = 18,73%
1495

Dispersão relativa do conjunto B:

310
. 100% = 16,53%
1875

Portanto, o conjunto A apresenta maior dispersão relativa. 21

Prof. Emerson R. Andrade

Medidas de posição:
São números que mostram a posição dos valores de dados relativamente
a outros valores, em um conjunto de dados.
Escores z:
O escore padrão ou z-escore representa o número de desvios padrão que um valor
dado x está a partir da média 𝜇. Para encontrar o z-escore para certo valor, use a
fórmula a seguir:

𝑣𝑎𝑙𝑜𝑟−𝑚é𝑑𝑖𝑎 𝑥−𝜇 𝑥−𝑥


𝑧 = 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 População 𝑧 = 𝜎
Amostra 𝑧 = 𝑠

Regra do arredondamento para z-escores:


Arredonde escores 𝑧 para duas casas decimais.

https://interartesufgd.files.wordpress.com/2015/09/comunicac3a7c3a3o-boneco-com-
megafone.jpg

22

Prof. Emerson R. Andrade

11
29/08/2016

Escores z, Valores Não Usuais e Valores Atípicos

Exemplo 9: A vazão medida em um rio foi de 84 litros por hora. Sabe-se que a
vazão média histórica deste mesmo rio é de 76 L/h e desvio padrão de 10 L/h. Em
outro rio, cuja vazão média histórica é de 82 L/h e desvio padrão 16 L/h, mediu-
se uma vazão de 82 L/h. Em qual dos rios a vazão relativa foi mais elevada?
23

Prof. Emerson R. Andrade

𝑥−𝜇
Solução: Vamos calcular o z-escore 𝑧 = 𝜎

84−76 82−82
𝑧1 = = 0,8 e 𝑧2 = =0
10 16

Como 𝑧1 > 𝑧2 concluímos que o rio 1 possui vazão relativa maior.

MEDIDAS SEPARATRIZES

São números que dividem a sequência ordenada de dados em partes que


contêm a mesma quantidade de elementos da série.

Desta forma, a mediana que divide a sequência ordenada em dois grupos, cada
um deles contendo 50% dos valores da sequência, é também uma medida
separatriz.

Além da mediana, as outras medidas separatrizes que destacaremos são:


quartis, decis e percentis. 24

Prof. Emerson R. Andrade

12
29/08/2016

Quartis
Se dividirmos a série ordenada em quatro partes, cada uma ficará
com seus 25% de seus elementos. Os elementos que separam estes
grupos são chamados de quartis.

• Assim, o primeiro quartil, que indicaremos por Q1, separa a sequência ordenada
deixando 25% de seus valores à esquerda e 75% de seus valores à direita.

• O segundo quartil, que indicaremos por Q2, separa a sequência ordenada deixando
50% de seus valores à esquerda e 50% de seus valores à direita. Note que o Q2 é a
Mediana da série.

• O terceiro quartil Q3 obedece a mesma regra dos anteriores.

25,0% 25,0% 25,0% 25,0 %


o o o
Mínimo 1 . Quartil 2 . Quartil 3 . Quartil Máximo

25

Prof. Emerson R. Andrade

Decis
Se dividirmos a série ordenada em dez partes, cada uma ficará com
seus 10% de seus elementos. Os elementos que separam estes grupos são
chamados de decis.

Assim, o primeiro decil, que indicaremos por D1, separa a sequência ordenada
deixando 10% de seus valores à esquerda e 90% de seus valores à direita. De modo
análogo são definidos os outros decis.

Percentis
São medidas de localização, denotadas por 𝑃1 , 𝑃2 , ... , 𝑃99 que dividem os dados
em 100 grupos com cerca de 1% dos valores de cada um.

Observação: Se observarmos que os quartis e decis são múltiplos dos percentis,


então basta estabelecer a fórmula de cálculo de percentis que todas as outras
medidas podem ser identificadas como percentis. Prof. Emerson R. Andrade
26

13
29/08/2016

Determinação do Percentil de ordem K

27

Prof. Emerson R. Andrade

Para determinar os quartis e os decis, podemos usar a fórmula do


percentis observando que:
QUARTIS- DECIS -
PERCENTIS PERCENTIS
Q1 = P25 D1 = P10
Q2 = P50 D2 = P20
Q3 = P75 D3 = P30
D4 = P40
D5 = P50
D6 = P60
D7 = P70
D8 = P80
D9 = P90

28

Prof. Emerson R. Andrade

14
29/08/2016

Exemplo 10: A tabela abaixo lista os 35 valores dos orçamentos (em


milhões de dólares) ordenados, da amostra aleatória simples de filmes
listados.
4,5 5 6,5 7 20 20 29 30 35 40
40 41 50 52 60 65 68 68 70 70
70 72 74 75 80 100 113 116 120 125
132 150 160 200 225

a) Encontre 𝐷1 , 𝑄1 , 𝑄2 e 𝑄3 .

10
Solução: 𝐷1 = 𝑃10 = 100 . 35 = 3,5 → 4º 𝑡𝑒𝑟𝑚𝑜 = $7 𝑚𝑖𝑙ℎõ𝑒𝑠
25
𝑄1 = 𝑃25 = . 35 = 8,75 → 9º 𝑡𝑒𝑟𝑚𝑜 = $35 𝑚𝑖𝑙ℎõ𝑒𝑠
100
50
𝑄2 = 𝑃50 = . 35 = 17,5 → 18º 𝑡𝑒𝑟𝑚𝑜 = $68 𝑚𝑖𝑙ℎõ𝑒𝑠
100
75
𝑄3 = 𝑃75 = . 35 = 26,25 → 27º 𝑡𝑒𝑟𝑚𝑜 = $113 𝑚𝑖𝑙ℎõ𝑒𝑠
29

Prof. Emerson R. Andrade 100

b) Ache o percentil para o valor de $29 milhões.

Solução: Pela lista ordenada dos valores dos orçamentos, vemos que há
6 valores de orçamento menores do que 29, de modo que
6
𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑑𝑜 𝑣𝑎𝑙𝑜𝑟 29 = . 100 = 17
35
(arredondado o resultado para o inteiro mais próximo)

O valor do orçamento de $29 milhões está no 17º percentil. O orçamento de $29


milhões separa os menores 17% dos valores de orçamentos de 83% maiores.

Diagrama de Caixa (Boxplot)

É um gráfico utilizado para avaliar a distribuição empírica dos dados. É formado


pelo terceiro quartil e pela mediana. As hastes inferiores e superiores se
estendem, respectivamente até o menor valor não inferior ao limite inferior e do
quartil superior até o maior valor não superior ao limite superior. Os limites são
calculados da forma a seguir: 30

Prof. Emerson R. Andrade

15
29/08/2016

𝐿𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟: max{min 𝑑𝑎𝑑𝑜𝑠 ; 𝑄1 − 1,5. (𝑄3 − 𝑄1 )


𝐿𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟: m𝑖𝑛{m𝑎𝑥 𝑑𝑎𝑑𝑜𝑠 ; 𝑄3 + 1,5. (𝑄3 − 𝑄1 )

Os pontos localizados fora destes limites são considerados valores discrepantes


(outliers) e são representados por um asterisco (*).

Exemplo 11: Use os valores dos orçamentos de filmes listados do exemplo anterior
para construir um diagrama em caixas.

Solução: O diagrama em caixa usa os valores mínimo e máximo e os quartis


encontrados no exemplo anterior 4,5; 35; 68; 113 e 225, todos em milhões de
dólares.

Calculo dos limites:

𝐿𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟: 𝑄1 − 1,5. 𝑄3 − 𝑄1 = 35 − 1,5. 113 − 35 = −82


𝐿𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟: 𝑄3 + 1,5. 𝑄3 − 𝑄1 = 113 + 1,5. 113 − 35 = 230
31

Prof. Emerson R. Andrade

A figura a seguir é o diagrama em caixa que representa os valores dos


orçamentos listados no exemplo anterior. Neste caso, não temos outliers.

32

Prof. Emerson R. Andrade

16
29/08/2016

Exercite...
1) Ergonomia – Ao planejar uma nova montanha russa para um parque de
diversões, o projetista deve considerar as alturas de homens sentados. A seguir,
estão listadas as alturas sentadas (em milímetros) obtidas de uma amostra simples de homens
adultos (com base em dados de pesquisa antropométrica de Gordon, Churchill, et al.).

936 928 924 880 934 923 878 930 936

Use as alturas sentadas dadas para encontrar:


a) a média;
b) a mediana;
c) a moda;
d) a amplitude;
e) o desvio-padrão;
f) a variância;
g) 𝑄1 http://gerasaude.com/wp-content/uploads/2016/03/saudemental.jpg

h) 𝑄3 33

Prof. Emerson R. Andrade

2) Escore Z – Usando os dados amostrais do Exercício 1, ache o escore z


correspondente à altura sentada de 878 mm. Com base no resultado, essa altura sentada de
878 mm é não usual? Por que sim ou por que não?

3) Diagrama em Caixa – Usando os dados amostrais do exercício 1, construa um diagrama em


caixa e inclua os valores do resumo dos cinco números. O diagrama sugere que os dados
sejam provenientes de uma população com uma distribuição normal (em forma de sino)? Por
que sim ou por que não?

http://cbitsgroup.com/img_uploads//galeria/images/tudo-ar-
condicionado/bem-estar/malhar-reforco-cerebro.jpg
34

Prof. Emerson R. Andrade

17
29/08/2016

BIBLIOGRAFIA:

 TRIOLA, Mário. Introdução à Estatística. 11.ed. Rio de Janeiro:


LTC, 2005.
 LARSON e FARBER Estatística Aplicada. 4.ed. São Paulo:Pearson, 2010.
 MONTGOMERY, Douglas C.; RUNGER, George C. Estatística aplicada
e probabilidade para engenheiros. 4.ed. Rio de Janeiro: LTC, 2009.

http://static6.depositphotos.com/1000434/543/i/950/depositphotos_5437218-3d-puppets-reading-the-books.jpg

Prof. Emerson R. Andrade

18

Você também pode gostar