Você está na página 1de 15

Universidade Federal do Paraná - Departamento de Estatística

CE009: Introdução à Estatística


Estatística Descritiva - parte II
Exercícios

1. Os dados a seguir representam os valores (em reais) recebidos por um motorista de serviço de aplicativo
nas 12 corridas realizadas em determinado dia.

12.50 20.00 28.25 18.50 20.00 25.75 10.15 24.00 17.50 22.75 16.50 21.00

Calcule a média, a mediana e a moda com base nos dados apresentados.

Seja y o valor recebido por corrida. Primeiramente, vamos calcular a média:

n
1X
ȳ = yi =
n i=1
12.50 + 20.00 + 28.25 + 18.50 + 20.00 + 25.75 + 10.15 + 24.00 + 17.50 + 22.75 + 16.50 + 21.00
= 19.74 reais
12

Para o cálculo da mediana, precisamos, inicialmente, ordenar os dados de forma crescente:

10.15 12.50 16.50 17.50 18.50 20.00 20.00 21.00 22.75 24.00 25.75 28.25

Como n = 12 é par, a mediana é dada pela média das duas observações centrais:

y(12/2) + y(12/2+1) y(6) + y(7) 20 + 20


md = = = = 20 reais
2 2 2

Já a moda, por definição, é o valor que aparece com maior frequência na amostra. Observe que o único valor
que se repete é 20 reais, de tal forma que:

Moda = 20 reais

Podemos notar, nesta aplicação, que as três medidas de centralidade produziram resultados bastante próximos.

1
2. Na sequência são aperesentados os volumes de chuva, em certa localidade, registrados por hora (em
mm) num particular momento do dia ao longo de 10 dias:

0 0 2.5 5.8 0
6.2 0 125.8 3.2 7.2

a) Calcule a média, a mediana e a moda com base nos registros de chuvas. Discuta as diferenças.
Seja y o volume de chuva registrado por hora. A média (ȳ) é calculada da seguinte forma:

n
1X 0 + 0 + 2.5 + 5.8 + 0 + 6.2 + 0 + 125.8 + 3.2 + 7.2
ȳ = yi = = 15.07 mm
n i=1 10

Para a obtenção da mediana, primeiramente ordemanos os dados da amostra de forma crescente:

0 0 0 0 2.5 3.2 5.8 6.2 7.2 125.8

Como n = 10 é par, então a mediana será a média das duas observações centrais dos dados ordenados, ou
seja:

y(10/2) + y(10/2+1) y(5) + y(6) 2.5 + 3.2


md = = = = 2.85 mm
2 2 2

Finalmente, a moda representa o valor mais frequente na amostra. Podemos verificar que o único valor que
se repete na amotra é 0, aparecendo 4 vezes. Desta forma,

Moda = 0 mm

Podemos observar que a média é fortemente afetada por um valor extremo, correspondente ao registro de
125.8 mm de chuva num particular dia. O valor da média ȳ = 15, 07, neste caso, é pouco representativo para
os volumes de chuva. A mediana, por sua vez, não é afetada pelo volume extremo observado, e produz um
valor que descreve mais adequadamente a centralidade dos demais registros. A moda, finalmente, reflete o
fato de que não houve chuva em quatro oportunidades, de tal maneira que volume de chuva igual a zero é
mais frequente do que qualquer volume observado em dias chuvosos.

b) Como medidas de dispersão, calcule a amplitude, o desvio padrão e o desvio mediano absoluto (dma).
Comente.
A amplitude da amostra é definida como a diferença entre o maior e o menor valor observado:

Amp = y(n) − y(1) = y(10) − y(1) = 125.8 − 0 = 125.8 mm

Para o cálculo do desvio padrão, vamos primeiramente calcular a variância:

n
1 X 2
s =
2
(yi − ȳ) =
n − 1 i=1

2
1
(0 − 15.07)2 + (0 − 15.07)2 + ... + (125.8 − 15.07)2 + (3.2 − 15.07)2 + (7.2 − 15.07)2 = 1521.7 mm2

10 − 1

O desvio padrão é calculado pela raiz quadrada da variância:

√ √
s= s2 = 1521.7 = 39 mm

Finalmente, o desvio mediano absoluto é dado pela mediana das diferenças absolutas dos valores observados
em relação à mediana da amostra:

dma = md|yi − md|

Com base nos valores amostrados, as diferenças absolutas para a mediana, já ordenadas, são as seguintes:

|3.2-2.85| |2.5-2.85| |0-2.85| |0-2.85| |0-2.85|


|0-2.85| |5.8-2.85| |6.2-2.85| |7.2-2.85| |125.8-2.85|

Como n = 10 é par, dma será a média das duas diferenças centrais, ou seja:

|0 − 2.85| + |0 − 2.85|
dma = = 2.85mm
2

Novamente podemos perceber o efeito da precipitação extrema tanto no cálculo da amplitude quanto do
desvio padrão, enquanto dma resultou em valor consideravelmente menor, mostrando-se uma medida de
dispersão robusta ao valor discrepante.

3
3. Um conjunto de imagens foi submetido a três algoritmos de tratamento (filtragem, correção e classifcação)
e foram registrados os tempos de processamento, em segundos, conforme apresentado na sequência.

Imagem 1 Imagem 2 Imagem 3 Imagem 4 Imagem 5


Algorítmo A 9.8 10 9.5 10.4 10.3
Algorítmo B 10 8 8.7 12.3 11
Algorítmo C 15.1 2.8 4.2 17.9 10

a) Calcule média e mediana para os tempos de processamento registrados para cada algoritmo.
Seja y o tempo de processamento de imagem.
• Para o algoritmo A:

9.8 + 10 + 9.5 + 10.4 + 10.3


ȳA = = 10 seg
5
Para a obtenção da mediana, primeiramente ordemanos os dados da amostra de forma crescente:

9.5 9.8 10 10.3 10.4


Como n = 5 é ímpar, então a mediana corresponde à observação central dos dados ordenados:

mdA = y(3) = 10 seg

De maneira similar, vamos calcular média e mediana para os tempos observados para os demais algoritmos:

• Para o algoritmo B:

10 + 8.0 + 8.7 + 12.3 + 11


ȳB = = 10 seg
5
Amostra ordenada:

8.0 8.7 10 11 12.3

mdB = y(3) = 10 seg

• Para o algoritmo C:

15.1 + 2.8 + 4.2 + 17.9 + 10


ȳC = = 10 seg
5
Amostra ordenada:

2.8 4.2 10 15.1 17.9

mdC = y(3) = 10 seg

4
b) Apresente os resultados por meio de um gráfico de pontos (dot chart).

Tempo (seg) 15

10

A B C
Algoritmo

c) Calcule amplitude, variância e desvio padrão para os tempos de processamento de cada algoritmo.

• Para o algoritmo A:
Amplitude:

AmpA = y(n) − y(1) = y(5) − y(1) = 10.4 − 9.5 = 0.9 seg

Variância:

n
1 X 2
s2A = (yi − ȳA ) =
n − 1 i=1

1
(9.8 − 10)2 + (10 − 10)2 + (9.5 − 10)2 + (10.4 − 10)2 + (10.3 − 10)2 = 0.135 seg2

5−1

Desvio padrão:
q √
sA = s2A = 0.135 = 0.367 seg

• Para o algoritmo B:
Amplitude:

AmpB = y(n) − y(1) = y(5) − y(1) = 12.3 − 8 = 4.3 seg

5
Variância:

n
1 X 2
s2B = (yi − ȳB ) =
n − 1 i=1

1
(10 − 10)2 + (8 − 10)2 + (8.7 − 10)2 + (12.3 − 10)2 + (11.3 − 10)2 = 2.995 seg2

5−1

Desvio padrão:
q √
sB = s2B = 2.995 = 1.731 seg

• Para o algoritmo C:
Amplitude:

AmpC = y(n) − y(1) = y(5) − y(1) = 17.9 − 2.8 = 15.1 seg

Variância:

n
1 X 2
s2C = (yi − ȳC ) =
n − 1 i=1

1
(15.1 − 10)2 + (2.8 − 10)2 + (4.2 − 10)2 + (17.9 − 10)2 + (10 − 10)2 = 43.475 seg2

5−1

Desvio padrão:
q √
sC = s2C = 43.475 = 6.593 seg

d) Discuta os resultados.
Embora os três algoritmos tenha produzido iguais medidas de centralidade (média = mediana = 10), eles
claramente apresentam performances diferentes quanto à dispersão dos resultados produzidos. Enquanto o
algoritmo A produziu tempos de processamento bastante homogêneos e próximos ao tempo médio, o algoritmo
C apresentou a maior variação de resultados dentre os três, e o algoritmo B produziu heterogeneidade
intermediária.

6
4. As concentrações de bactérias em 200 amostras de água extraídas estão resumidas na tabela a seguir.

Concentração Num.amostras
[0;200) 50
[200;400) 65
[400;800) 70
[800;1200) 10
[1200;2000) 5

Seja y a concentração de bactérias. Com base nos dados agrupados apresentados, calcule a média, a variância,
o desvio padrão aproximados. Identifique também a classe modal.

Para o cálculo da média e variância aproximadas, baseado em dados agrupados em faixas, vamos trabalhar
com o ponto médio de cada faixa (yi , i = 1, 2, ..., k, sendo k o número de faixas).

Concentração Num.amostras yi
[0;200) 50 100
[200;400) 65 300
[400;800) 70 600
[800;1200) 10 1000
[1200;2000) 5 1600

Agora, podemos calcular a média a partir das frequências (fi ) e pontos médios das faixas (yi ), como uma
média ponderada, da seguinte forma:

Pk
fi × yi
ȳ = i=1
Pk =
fi i=1
50 × 100 + 65 × 300 + 70 × 600 + 10 × 1000 + 5 × 1600 84500
= = 422.5
200 200

A variância pode ser calculada de maneira similar, mas substituindo yi por (yi − ȳ)2 no cálculo da média
ponderada.

Pk
fi × (yi − ȳ)2
s2 = i=1
Pk =
i=1 fi − 1

50 × (100 − 422.5)2 + 65 × (300 − 422.5)2 + 70 × (600 − 422.5)2 + 10 × (1000 − 422.5)2 + 5 × (1600 − 422.5)2
=
200 − 1

18555506
= 93712.31
199
O desvio padrão é simplesmente a raiz quadrada da variância:

√ √
s= s2 = 93712.31 = 306.12

Finalmente, a classe modal é aquela com maior frequência registrada, ou seja, [400, 800).

7
5. Uma empresa aplicou um teste aos seus funcionários, com o objetivo de avaliar o nível de satisfação
com as condições atuais de trabalho. O resultado do teste é um escore entre 0 e 100, sendo que 0
corresponde ao menor nível de satisfação, e 100 ao maior. Os funcionários foram classificados segundo
o setor em que estão empregados: administrativo, financeiro ou executivo. Ao todo, 33 funcionários
foram selecionados para participar do estudo, sendo 12 do setor administrativo, 11 do financeiro e 10
do executivo. As pontuações registradas são apresentadas na sequência.

1 2 3 4 5 6 7 8 9 10 11 12
Administrativo 30 36 41 43 44 45 45 49 49 55 57 62
Financeiro 19 21 23 24 27 29 29 32 32 41 45
Executivo 39 60 63 69 70 77 78 80 80 90

a) Calcule os escores médios e medianos de satisfação dos funcionários de cada setor.


Seja y o escore de satisfação dos funcionários.

• Para o setor administrativo (A):

30 + 36 + 41 + 43 + 44 + 45 + 45 + 49 + 49 + 55 + 57 + 62
ȳA = = 46, 3 pontos
12
Para o cálculo da mediana, como nA = 12 é par, então a mediana corresponde à média das duas observações
centrais (sexta e sétima) dos dados ordenados:

y(n/2) + y(n/2+1) y(6) + y(7) 45 + 45


mdA = = = = 45 pontos
2 2 2
De maneira similar, vamos calcular média e mediana para os escores de satisfação dos funcionários dos demais
setores:

• Para o setor financeiro (F):

19 + 21 + 23 + 24 + 27 + 29 + 29 + 32 + 32 + 41 + 45
ȳF = = 29, 3 pontos
11
Para o cálculo da mediana, como nF = 11 é ímpar, então a mediana corresponde ao valor da observação
central (sexta) dos dados ordenados:

mdF = y(n+1)/2 = y(6) = 29 pontos

• Para o setor executivo (E):

39 + 60 + 63 + 69 + 70 + 77 + 78 + 80 + 80 + 90
ȳE = = 70.6 pontos
10
Amostra ordenada:
Para o cálculo da mediana, como nF = 10 é par, então a mediana corresponde à média das observações
centrais (quinta e sexta) dos dados ordenados:

y(n/2) + y(n/2+1) y(5) + y(6) 70 + 77


mdE = = = = 73, 5 pontos
2 2 2

8
b) Obtenha os demais quartis e apresente o resumo dos cinco números para os escores de satisfação para
cada setor.

• Para o setor administrativo (A):


Para o cálculo do primeiro quartil, vamos considerar a primeira metade da amostra:

30 36 41 43 44 45

O primeiro quartil corresponde à mediana desta primeira parte da amostra, ou seja:

y(3) + y(4) 41 + 43
q1 = = = 42 pontos
2 2
O terceiro quartil, por sua vez, corresponde à mediana da segunda metade da amostra:

45 49 49 55 57 62
ou seja

y(9) + y(10) 49 + 55
q3 = = = 52 pontos
2 2
Vamos proceder de maneira semelhante para os demais grupos.

• Para o setor financeiro (F):


A primeira metade da amostra é composta por:

19 21 23 24 27 29
De tal forma que o primeiro quartil é dado por:

y(3) + y(4) 23 + 24
q1 = = = 23.5 pontos
2 2
Já o terceiro quartil é calculado com base nos seguintes valores:

29 29 32 32 41 45
De tal forma que o terceiro quartil é dado por:

y(8) + y(9) 32 + 32
q3 = = = 32 pontos
2 2

• Para o setor executivo (E):


A primeira metade da amostra é composta por:

39 60 63 69 70
De tal forma que o primeiro quartil é dado por:

9
q1 = y(3) = 63 pontos

Já o terceiro quartil é calculado com base nos seguintes valores:

77 78 80 80 90

De tal forma que o terceiro quartil é dado por:

q3 = y(8) = 80 pontos

c) Produza um gráfico do tipo box-plot a fim de comparar a satisfação dos funcionários dos três setores.
Vamos calcular os limites para detecção dos pontos discrepantes (LI- limite inferior e LS- limite superior),
com base nos quartis calculados para cada uma das amostras.

• Para o setor administrativo (A):

LI = q1 − 1.5 × (q3 − q1 ) = 42 − 1.5 × (52 − 42) = 27


LS = q3 + 1.5 × (q3 − q1 ) = 52 + 1.5 × (52 − 42) = 67

• Para o setor financeiro (F):

LI = q1 − 1.5 × (q3 − q1 ) = 23.5 − 1.5 × (32 − 23.5) = 10.75


LS = q3 + 1.5 × (q3 − q1 ) = 32 + 1.5 × (32 − 23.5) = 44.75

• Para o setor executivo (E):

LI = q1 − 1.5 × (q3 − q1 ) = 63 − 1.5 × (80 − 63) = 37.5


LS = q3 + 1.5 × (q3 − q1 ) = 80 + 1.5 × (80 − 63) = 105.5

Já dispomos de todos os elementos para a construção do boxplot:

10
100

80

60
Escore

40

20

Administrativo Financeiro Executivo

Setor

d) Comente os resultados
Os funcionários do setor executivo apresentam maiores níveis de satisfação, embora neste grupo a heterogenei-
dade das respostas seja maior do que nos demais. As respostas dos funcionários dos setores administrativo e
financeiro apresentam heterogeneidade semelhante, mas o nível de satisfação dos funcionários do setor admi-
nistrativo, em geral, supera o do financeiro. Finalmente, há um resultado discrepante dentre os respondentes
do setor financeiro, correspondente a um escore de satisfação superior em relação aos demais.

11
6. Para fins de controle da qualidade da produção, 8 chapas de alumínio tiveram suas larguras e compri-
mentos mensurados. Segundo as especificações do projeto, as chapas deveriam apresentar 10 cm de
largura, e 120 cm de comprimento, mas alguma variação é esperada devido às condições de produção.
Os resultados avaliados para as 8 chapas são apresentados na sequência:

Largura 10.8 9.4 11.2 8.8 10.2 10.7 8.8 10.3


Comprimento 122.2 118.3 119.5 123.4 120.5 118.8 117.5 120.1

a) Calcule a média para as larguras e comprimentos das chapas produzidas. Em média, a produção parece
atender às especificações?

1 X 10.8 + 9.4 + 11.2 + 8.8 + 10.2 + 10.7 + 8.8 + 10.3


ȳL = yi = = 10.025 cm
nL 8

1 X 122.2 + 118.3 + 119.5 + 123.4 + 120.5 + 118.8 + 117.5 + 120.1


ȳC = yi = = 120.037 cm
nC 8
Em ambos os casos, as médias estão bastante próximas das respectivas especificações.

b) Calcule a variância e o desvio padrão para as larguras e comprimentos das chapas produzidas. Compare
os resultados calculados para as duas dimensões.

1 X 1
s2L = (yi − ȳL )2 = (10.8 − 10.025)2 + (9.4 − 10.025)2 + ... + (10.3 − 10.025)2 = 0.85 cm2

nL − 1 8−1
q √
sL = s2L = 0.85 = 0.92 cm
1 X 1
s2C = (yi −ȳC )2 = (122.2 − 120.037)2 + (118.3 − 120.037)2 + ... + (120.1 − 120.037)2 = 3.92 cm2

nC − 1 8−1
q √
sC = s2C = 3.92 = 1.98 cm

c) Calcule o coeficiente de variação para as larguras e comprimentos das chapas produzidas. Compare
com os resultados calculados no item anterior, baseados nas variâncias e desvios padrões. Justifique as
diferenças.

sL 0.92
CVL = 100 × = 100 × = 9.1%
ȳL 10.025

sC 1.98
CVC = 100 × = 100 × = 1.6%
ȳC 120.037

Podemos verificar maiores desvio padrão e variância para os comprimentos. No entanto, o coeficiente de
variação para das larguras é superior ao dos comprimentos. Isso pode ser explicado pelo fato da variância
e desvio padrão dependerem da escala e magnitude dos dados, enquanto o coeficiente de variaçãp, como
medida de dispersão relativa, é adimensional. Assim, podemos concluir que os comprimentos apresentem
maior dispersão que as larguras em termos absolutos, ao relativizar pelas respectivas médias, eliminando o
efeito das diferentes escalas, notamos maior dispersão relativa para as larguras.

12
7. Um provedor de internet oferece um plano com velocidade de 100 Mps. Quinze testes foram realizados,
produzindo as seguintes velocidades de conexão:

80.4 88.7 95.2 98.3 98.8 99.2 99.5 100.2 100.4 100.5 100.8 101.5 104.8 108.6 122.3

Calcule os coeficientes de assimetria e curtose com base nos dados apresentados. Classifique a distribuição
quanto a essas duas características.

A média e o desvio padrão são iguais, respectivamente, a ȳ = 99.95 Mps e s = 9.01 Mps (exercício).
O coeficiente de assimetria amostral é dado por:

n 3
1X

yi − ȳ
b1 = =
n i=1 s

" 3 3 3 #
1 80.4 − 99.95 88.7 − 99.95 122.3 − 99.95
 
+ + ... + = 0.266
15 9.01 9.01 9.01

O coeficiente de curtose, por sua vez, é dado por:

n 4
1X

yi − ȳ
b2 = −3=
n i=1 s
" 4 4 4 #
1 80.4 − 99.95 88.7 − 99.95 122.3 − 99.95
 
+ + ... + − 3 = 1.223
15 9.01 9.01 9.01

Assim, temos um coeficiente de assimetria próximo a zero (b1 = 0.266), indicando que a distribuição é
aproximadamente simétrica, e coeficiente de curtose positivo (b2 = 1.22), indicando que a distribuição é
leptocúrtica (mais alta e concentrada que a curva normal). O histograma, apresentado na sequência, ajuda a
entender essas características da distribuição.

6
Frequência

0
80 90 100 110 120
Velocidade (Mps)

13
Comandos em R para cálculo das medidas resumo
Vamos usar o R para calcular as medidas resumo com base na seguinte amostra:

10.2 12.8 14.5 9.8 7.4 6.8 9.9 10.5 11.1 17.4

require(psych)
### Carregando o pacote psych, para o cálculo dos doeficientes de assimetria
### e curtose. Se você não tiver o pacote instalado na sua máquina, digitar
### antes:

# install.packages('psych')
### O vetor x armazena os dados
x <- c(10.2, 12.8, 14.5, 9.8, 7.4, 6.8, 9.9, 10.5, 11.1, 17.4)
x

## [1] 10.2 12.8 14.5 9.8 7.4 6.8 9.9 10.5 11.1 17.4
### Média
mean(x)

## [1] 11.04
### Mediana
median(x)

## [1] 10.35
### Variância
var(x)

## [1] 10.06489
### Desvio padrão
sd(x)

## [1] 3.172521
### Coeficiente de variação
sd(x)/mean(x)

## [1] 0.287366
### Amplitude
max(x) - min(x)

## [1] 10.6
### Resumo dos cinco números: Mínimo, 1º quartil, mediana, 3º quartil e máximo
fivenum(x)

## [1] 6.80 9.80 10.35 12.80 17.40


### Diversas medidas resumo, incluindo os coeficientes de assimetria e curtose.
describe(x)

## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 10 11.04 3.17 10.35 10.78 2.37 6.8 17.4 10.6 0.55 -0.74 1
### Boxplot
boxplot(x)

14
8 10 12 14 16

15

Você também pode gostar