Escolar Documentos
Profissional Documentos
Cultura Documentos
DESCRITIVA
ENGENHARIA
Resumo
Fernando Mori
Prof.fmori@gmail.com
ESTATÍSTICA DESCRITIVA | Fernando Mori
1.1 Exemplo:
Exemplo:
Forma levantados os minutos gastos por um atendente ao telefone, de acordo com a tabela a seguir:
Valor mínimo = 67
Valores-chave:
Valor máximo = 125
A partir destes dados usamos as seguintes regras empíricas para construir o histograma:
67 78
79 90 3
91 102 5
103 114 8
115 126 9
5
Classe Fronteiras
67 – 78 3 66,5 – 78,5
79 – 90 5 78,5 – 90,5
91 – 102 8 90,5 – 102,5
103 – 114 9 102,5 – 114,5
115 – 126 5 114,5 – 126,5
Tempo ao telefone
9
9
8
8
7
6
5 5
5
4
3
3
2
1
0
66,5 78,5 90,5 102,5 114,5 126,5
Minutos
Classe
67 – 78 3 Tempo ao telefone
79 – 90 5 9
9
91 – 102 8 8
8
103 – 114 9
7
115 – 126 5
6
5 5 5
4
3 3
2
1
0
72,5 84,5 96,5 108,5 120,5
Minutos
Marque o ponto médio no topo de cada barra. Conecte os pontos médios consecutivos.
Estenda o polígono até os eixos.
Tempo ao telefone
Freqüência relativa
0,30
0,30 0,2
7
0,20 0,17 0,17
0 0,1
0,1
0
0
0
66,5 78,5 90,5 102,5 114,5 126,5
Minutos
Tempo ao telefone
3
30 0
2
5
20
1
6
10 8
3
0
0
66,5 78,5 90,5 102,5 114,5 126,5
Minutos
2.1 - Média
Há diferentes tipos de média: a média aritmética, a mais comum, é a soma dos elementos de um
conjunto dividido pelo número de elementos desse conjunto. Assim, um grupo de cinco pessoas, com
idades de 21, 23, 25, 28 e 31, terá média (aritmética) de idade dada por:
21 23 25 28 31
x 25, 6 anos
5
De modo geral, a média aritmética será dada por:
x1 x2 xn
x
n
A média aritmética também pode ser ponderada, o que não a torna um tipo diferente de média.
Ponderar significa atribuir pesos; logo, se um valor tem peso maior significa simplesmente que ele
entrará mais vezes na média. Digamos, por exemplo, que em três provas um aluno tenha tirado 4, 6 e
8. Se a média não for ponderada, é obvio que será 6.
Se, no entanto, a média for ponderada da seguinte forma: a primeira prova com peso 1, a segunda com
2, e a terceira, 3, a média será calculada como se as provas com maior peso tivessem ocorrido varias
vezes, ou seja:
466888
x
6
Ou simplesmente:
4 1 6 2 8 3
x 6,7
6
Os pesos podem ser o número de vezes que um valor aparece. Suponhamos que numa classe de 20
alunos haja oito com idade de 22 anos, sete de 23, três de 25, um de 28 e um de 30. A quantidade que
cada número aparece no conjunto é chamada de freqüência (freqüência absoluta, nesse caso, pois
se trata da quantidade de alunos com determinada idade). A média de idade, então, será dada por:
22 8 23 7 25 3 28 1 30 1
x 23,5anos
20
A freqüência também pode ser expressa em proporções, sendo chamada nesse caso de freqüência
relativa. No exemplo anterior, há oito alunos com 22 anos de idade em um total de 20, portanto,
nessa classe há 8 20 0, 4 40% dos alunos com essa idade. Da mesma forma, temos 35% com
23,15% com 25 e 5% com 28 e 30, respectivamente. A média de idade, então, pode ser calculada da
seguinte forma:
x 22 0, 4 23 0,35 25 0,15 28 0,05 30 0,05 23,5
Repare que o segundo jeito de calcular (usando a freqüência relativa) nada mais é do que o primeiro
(usando a freqüência absoluta) com a fração simplificada (dividiu-se o valor dos pesos pelo número
total).
Um outro tipo de média é a média geométrica. A média geométrica para o aluno que tirou notas
4,6 e 8 será:
G 3 4 6 8 5,8
Ou, genericamente:
G n x1 x2 xn
Ou, ainda, de maneira mais resumida:
1
n n
G
xi
i 1
Repare que a média geométrica zera se um dos elementos for zero. A média geométrica também pode
ser ponderada: se os pesos das provas forem 1,2 e 3, ela será dada por:
6 1
G 4 6 2 83 6,5
Há ainda um terceiro tipo de média, a média harmônica. No exemplo das notas, ela será dada
por:
1 3
H 5,5
1 1 1 1 1 1
4 6 8 4 6 8
3
De modo geral:
n
H
1 1 1
x1 x2 xn
Ou ainda:
n
H
n
1
xi
i 1
Foi possível notar, tanto para as médias simples (sem pesos) como para as ponderadas, que em geral, a
média aritmética é maior do que a média geométrica e essa por sua vez é maior do que a harmônica.
Isso é verdade, exceto, obviamente, quando os valores são todos iguais.
2.2.1 Um aluno tira as seguintes notas bimestrais: 3, 4,5, 7 e 8,5. Determinemos qual seria sua média
final se esta fosse calculada dos três modos (aritmética, geométrica e harmônica), em cada um
dos seguintes casos.
a) As notas dos bimestres têm os mesmos pesos. Nesse caso, a média aritmética final seria:
3 4,5 7 8,5 23
x
4 4
x 5, 75
E a harmônica seria:
4
H
1 1 1 1
3 4,5 7 8,5
H 4,90
b) Supondo que os pesos para as notas bimestrais sejam 1, 2, 3 e 4. Agora os pesos dos quatro
bimestres totalizam 10, portanto, a média aritmética final será:
1 3 2 4,5 3 7 4 8,5 67
x
10 10
x 6,7
A geométrica será:
G 10 31 4, 5 2 7 3 8, 5 4
G 6, 36
E a harmônica:
10
H
1 2 3 4
3 4,5 7 8,5
H 5,96
c) Supondo que os pesos sejam, respectivamente, 30%, 25%, 25% e 20%. Agora os pesos são
dados em termos relativos (percentuais) e somam, portanto 1.
E a harmônica:
1
H
1 1 1 1
0,3 0, 25 0, 25 0, 2
3 4,5 7 8,5
H 4,66
Alturas de 30 Pessoas
159 168 172 175 181
161 168 173 176 183
162 169 173 177 185
164 170 174 178 190
166 171 174 179 194
167 171 174 180 201
Classes de 10 cm
[150; 160[ 1
[160; 170[ 8
UNIVERSIDADE SÃO JUDAS TADEU 2015 8
ESTATÍSTICA DESCRITIVA | Fernando Mori
[170; 180[ 14
[180; 190[ 4
[190; 200[ 2
[200; 210[ 1
16
14
[150; 160[
12
[160; 170[
10
[170; 180[
8
[180; 190[
6
[190; 200[
4
[200; 210[
2
0
150 160 170 180 190 200 210
Repare que o valor correto da média, tomando-se os 30 dados originais, é de 174,5 cm.
2.3 - Moda
Moda é o elemento de maior freqüência, ou seja, que aparece o maior número de vezes. No
exemplo das idades na classe com 20 alunos, a moda é 22 anos, que é a idade mais freqüente
nesse conjunto.
Pode haver, entretanto, mais de uma moda em um conjunto de valores. Se houver apenas uma
moda, a distribuição é chamada de unimodal. Se houver duas, de bimodal.
2.3.1 - Mediana
Mediana é o valor que divide um conjunto ao meio. Por exemplo, num grupo de cinco pessoas
com alturas de 1,60m, 1,65m, 1,68m, 1,70m e 1,73m, a mediana é 1,68m, pois há o mesmo número de
pessoas mais altas e mais baixas (duas).
A mediana apresenta uma vantagem em relação à média, como veremos a seguir. No grupo, a
média é de 1,672m. Nesse caso, tanto a média como a mediana nos dão uma idéia razoável do grupo
de pessoas que estamos considerando. Se, no entanto, retirarmos a pessoa de 1,73m, substituindo-a
por outra de 2,10m, a média passará a ser 1,746m. Nesse caso, a média não seria muito representativa
de um grupo que, afinal de contas, tem apenas uma pessoa acima de 1,70m. A mediana, entretanto,
fica inalterada.
A mediana, ao contrário da média, não é sensível a valores extremos.
Seguindo a mesma lógica, os quartis são os elementos que dividem o conjunto em quatro
partes iguais. Assim, o primeiro quartil é aquele elemento que é maior do que 1 4 dos elementos e,
portanto, menor do que 3 4 deles; o segundo quartil (que coincide com a mediana) é aquele que
divide 2 4 para acima e 2 4 para baixo; finalmente, o terceiro quartil é aquele elemento que tem
3 abaixo de si e 1 acima.
4 4
Dessa forma, se dividirmos o conjunto em oito pedaços iguais, teremos os octis, decis se
dividirmos em 10 e, mais genericamente, os percentis: o percentil de ordem 20 é aquele que tem
abaixo de si 20% dos elementos e, acima, 80%.
2.4 - Exemplo
a) A moda.
O elemento que aparece mais vezes (três) é 174 cm, portanto:
Mo 174cm
E só há uma moda, o que não é necessário que ocorra. No caso desse exemplo, bastaria que
houvesse mais uma pessoa com 168 cm de altura para que essa distribuição se tornasse
bimodal.
b) A mediana.
Há 30 dados. Do menor para o maior, o 15º. dado é, pela ordem, 173 cm, enquanto o 16º. é
174 cm. Como a mediana deve ter 15 elementos abaixo e 15 acima, tomaremos o ponto
médio entre o 15º. e o 16º. dado:
173 174
Md
2
Md 173, 5cm
Resumindo:
Mediana: Ponto que tem um número igual de valores acima e abaixo de si.
Moda: O valor com a maior freqüência.
Média: x
x x 63 n9 x
63
7
n 9
0 2 2 2 3 4 4 6 40
2.4.3) Suponha que o aluno com 40 faltas abandone o curso. Calcule a média, a mediana e a
moda dos valores restantes. Compare o efeito da mudança para cada tipo de média. Calcule a
média, a mediana e a moda.
2 4 2 0 2 4 3 6
x
Média: x n x 23 n8 x
23
2,875
8
0 2 2 2 3 4 4 6
Uniforme
Simétrica
Média = Mediana
2.4.4) O preço de fechamento atingido por dois pacotes de ações foi registrado em dez sextas-feiras
consecutivas. Calcule a média, a mediana e a moda de cada pacote.
56 33
Ações A 56 42 Ações B
57 48
58 52
61 57
63 67
63 67
67 77
67 82
67 90
Média = 61,5 Média = 61,5
Mediana = 62 Mediana = 62
Moda = 67 Moda = 67
A amplitude total é fácil de calcular porque só usa dois números de conjunto de dados.
UNIVERSIDADE SÃO JUDAS TADEU 2015 13
ESTATÍSTICA DESCRITIVA | Fernando Mori
Para aprender a calcular medidas de variação que usem todo e qualquer valor do conjunto de dados,
primeiro você precisa saber o que é um desvio.
Ações A Desvio
56 – 5,5 56 – 61,5
56 – 5,5
57 – 4,5 56 – 61,5
58 – 3,5 61,5
61 – 0,5 57 – 61,5
63 1,5
63 1,5 58 – 61,5
67 5,5
67 5,5
67 5,5
x 0
A soma dos desvios é sempre zero.
x
56 – 5,5 30,25
56 – 5,5 30,25
57 – 4,5 20,25
58 – 3,5 12,25
61 – 0,5 0,25
63 1,5 2,25
63 1,5 2,25
67 5,5 30,25
67 5,5 30,25
67 5,5 30,25
188,5
Soma dos quadrados
0
18,85 4,34
Para calcular uma variância amostral, divida a soma dos quadrados por n – 1.
Para calcular o desvio padrão amostral, s, tire a raiz quadrada da variância amostral.
S S2
S 20, 94 4, 58
2.5 Localização
Uma das características mais úteis de uma distribuição é algum valor médio representativo do
conjunto de valores. Tal valor é chamado de tendência central. Um dos mais usados é a média
aritmética:
- A mediana de um conjunto de dados é definida como o valor médio quando as medidas são
colocadas em ordem crescente, 50% das medidas estão acima dela e 50% estão abaixo:
A definição precisa de mediana depende se o número de observações é impar ou par:
n 1
1) Se n é impar, a mediana está no meio das observações 2 , valores são maiores que
n 1
ela e 2
valores são menores que ela.
2) Se n é par, então existem dois valores médios e a mediana é a média dos dois valores
n n
médios e 2 são maiores que ela, e 2 são menores que ela.
x y
1 1
2 1
f
3 1
2
3 2
4 1
5 1
1
1 2 3 4 5 x
1
x
6
1 2 3 3 4 5 3, 0
1 2 5 8 y
1
y
6
1 1 1 2 5 8 3, 0
1 2 3 4 5 6 7 8 9 10
A) Total: 19 dados
1
x
19
3 2 4 3 5 5 4 7 2 8 110
97
5,105
19
9 10 9
Temos um número impar de observações;
5
mx = 5
É muito comum ouvirmos: em estatística, quando uma pessoa come dois frangos enquanto outra passa
fome, na média ambas comem um frango e estão, portanto, bem alimentadas; ou, se uma pessoa está
com os pés em um forno e a cabeça em um freezer, na média experimenta uma temperatura agradável.
É claro que essas distorções têm de ser percebidas, e são! – pela estatística. É para isso que servem as
medidas de dispersão, isto e, medidas de como os dados estão agrupados: mais ou menos
próximos entre si (menos ou mais dispersos).
3.1 - Variância
Uma das medidas mais comuns de dispersão é a variância. Tomemos o exemplo de três
frangos para três indivíduos, ilustrado na Tabela 3.1.1. Na situação 1, há uma divisão eqüitativa,
enquanto, na situação 2, um indivíduo come demais e o outro passa fome.
Situação 1 Situação 2
Indivíduo 1 1 2
Indivíduo 2 1 1
Indivíduo 3 1 0
É claro que, em ambas as situações, a média é um frango por indivíduo. Para encontrar uma
maneira de distinguir numericamente os dois casos, uma tentativa poderia ser subtrair a média de cada
valor, como mostrado na Tabela 3.1.2.
Situação 1 Situação 2
Indivíduo 1 1 – 1 =0 2–1=1
Indivíduo 2 1 – 1 =0 1–1=0
Indivíduo 3 1 – 1 =0 0 – 1 = -1
Média 0 0
O que não resolveu muito, pois a média dos desvios em relação à média (valor menos a média)
continua igual. Mais precisamente, ambas são zero. Isso ocorre porque, na situação 2, os valores
abaixo da média, que ficam negativos, compensam os que ficam acima da média, os positivos.
Para eliminar esse inconveniente dos sinais, podemos elevar todos os valores encontrados ao
quadro, como realizado na Tabela 3.1.3.
Situação 1 Situação 2
Indivíduo 1 (1 – 1)2 = 0 (2 – 1)2 = 1
Indivíduo 2 (1 – 1)2 = 0 (1 – 1)2 = 0
Indivíduo 3 (1 – 1)2 = 0 (0 – 1)2 = 1
Média 0 2
3
E, dessa forma, conseguimos encontrar uma medida que distingue a dispersão entre as duas
situações.
Na situação 1, não há dispersão, pois todos os dados são iguais, e a variância é zero.
Na situação 2, a dispersão é, obviamente, maior – encontramos uma variância de 2 3 0,67 .
x1 x x2 x
2 2 2
xn x
var x x2
n
ou ainda:
n
x1 x
1 2
var x
n
i 1
Variância é, portanto, uma medida de dispersão que lembra quadrados. Esse último
aspecto, pode ser um problema na utilização da variância.
Na situação 2 do exemplo anterior (que tratava de frangos), encontramos uma variância de
0,67...frangos ao quadrado? Sim, porque elevamos, por exemplo, um frango ao quadrado. Da mesma
forma que, na geometria um quadrado de lado 2m tem área de (2m)2 = 4m2, temos que (um frango)2 =
um frango2 ! E assim também valeria para outras variáveis: renda medida em reais ou dólares teria
variância medida em reais ao quadrado ou dólares ao quadrado.
Além de causar estranheza, isso dificulta, por exemplo, uma comparação com a média. Para
eliminar esse defeito, utiliza-se uma outra medida de dispersão que é, na verdade, uma pequena
alteração da variância.
3.2 - Exemplo
Mais uma vez, é uma aproximação. Verifique que o valor correto da variância (utilizando os
dados iniciais) é 86,92.
Para eliminar o efeito dos quadrados existentes na variância, basta extrair a raiz quadrada.
Chamaremos esta nova medida de desvio-padrão da variável x dp x ou x :
dp x x var x
dp x 0, 67 0,8 frangos
n
xi x
1 2
var x
n
i 1
n
xi2 2 xi x x
1 2
var x
n
i 1
n n n
x
1 1 1 2
var x xi2 2 xi x
n n n
i 1 i 1 i 1
n n
xi2 2 x n xi n n x
1 1 1 2
var x
n
i 1 i 1
n
xi2 2 x
1 2 2
var x x
n
i 1
n
xi2 x
1 2
var x
n
i 1
Utilizando esse método para calcular a variância da situação 2 do exemplo dos frangos,
chegaremos à Tabela 3.1.1 – Frangos por indivíduo (variância):
Situação 2 Ao quadrado
Indivíduo 1 2 4
Indivíduo 2 1 1
Indivíduo 3 0 0
Média 1 5
3
Economia 3 9
Contabilidade 2 4
Administração 4 16
UNIVERSIDADE SÃO JUDAS TADEU 2015 22
ESTATÍSTICA DESCRITIVA | Fernando Mori
Matemática 1 1
Média 2,5 7,5
Para esse aluno (A), temos:
x 2,5
2
var x 7,5 2,5 1, 25
dp x 1,12
Suponha agora um aluno B, mais estudioso, cujas notas são exatamente o dobro,
conforme a Tabela 3.2.5:
2
var x 30 5 5 4 1, 25
Ou seja, se os valores dobram, a variância quadruplica. Isso porque variância lembra quadrados. Em
outras palavras, vale a relação:
var ax a 2 var x
dp x 2, 24
Agora tomemos um aluno C, ainda mais estudioso que tira cinco pontos a mais do que o aluno A em
todas as matérias, como segue Tabela 3.2.6:
Se o aluno tira cinco pontos a mais em cada disciplina, a média também será de cinco pontos a mais:
2
var x 57, 5 7, 5 1, 25
dp x 1,12
A variância e o desvio-padrão são os mesmos do aluno A isso porque são medidas de dispersão – se
somarmos o mesmo valor a todas as notas de A elas continuarão dispersas, espalhadas da mesma
forma, apenas mudarão de posição. Valem, portanto, as relações:
var x a var x
dp x a dp x
A dispersão pode então ser analisada com base nas seguintes grandezas:
2
- Variância: S
A variância de um conjunto de n valores observados tendo uma média y é a soma dos desvios
quadráticos divididos por n-1.
yi y
2
S2
n 1
- Desvio padrão: é definido como sendo a raiz quadrada positiva de variância.
1) O intervalo y S contém 68% das observações.
yi y
- Desvio médio absoluto: DMA n
3 yy
Coeficiente de Assimetria: As S
1) Média:
fi xi
x n
onde n fi
2) Mediana:
n
h fac , ant
2
x Linf, n
2 fi , n
2
Se n é par:
L n n
inf,
2
Limite inferior da classe que contém o elemento .
2
n
h = amplitude da classe que contém o elemento 2
.
Se n é impar:
n 1
h f ac ,ant
2
x Linf, n 1
2 f i , n1
2
fi, n1 n 1
2
Freqüência simples da classe que contém o elemento 2
.
L n1 n 1
inf,
2
Limite inferior da classe que contém o elemento 2
.
n 1
h = amplitude da classe que contém o elemento 2
.
2
fi xi x
3)Variância:
S2
n 1
4) Desvio padrão: S S2
fi xi x
5) Desvio médio absoluto: DMA n
S
6) Coeficiente de variação: CV 100
x
3 xx
7) Coeficiente de Assimetria: As s
8) Moda:
h f mo f ant
M o Linf, mo
2 f mo f ant f pos
f mo Freqüência maior.
f ant Freqüência simples da classe anterior à classe de maior freqüência.
f post Freqüência simples da classe posterior à classe de maior freqüência.
Linf,mo Limite inferior da classe de maior freqüência.
Temos:
n = 20
R xmax xmin 3, 7
k n 4, 47 5 5 classes
R 3,7
h 0,74 0,8 Amplitude
k 5
Definimos as Classes:
10 10,8
10,8 11,6
11,6 12,4
13,2 14
12,4 13,2
Construímos o histograma:
5
F re q ü ê n c i a
Calculamos a média
n = 20
x
fi .xi 310, 4 5 11, 2 512 4 12,8 113,6
n 20
212
10,6 média = 10,6
20
A Mediana será:
n
h f ac ,ant
x Linf, n 2
2 fi ; n
2
20
elemento 10
2
n
h 0, 8 10
2
fi , n 5
2
f ac , ant 8
Linf, n 11, 6
2
0, 8 10 8
x 11, 6 11, 92
5
Variância:
fi x x
2
i
S2
n 1
1
3 10, 4 10,6 5 11, 2 10,6 4 12,8 10,6 1 13,6 10,6
2 2 2 2
19
1
40,08 4, 453
19
Desvio padrão S : S 2,110
Coeficiente de variação:
s 2,110
CV .100 .100 19, 90%
x 10, 6
Coeficiente de assimetria:
As
3 x x
3 10, 6 11, 92
s 2,110
As 1, 876
As 1, 876 assimetria forte
n = 20
in 30.20
6 6º elemento intervalo 10,8 11,6 h 0,8
100 100
f ac
→ freqüência acumulada anterior ao elemento 6: 3
f
→ freqüência simples da classe que contém o 6º elemento: 5
0,8 6 3
P30 10,8 11, 28
5
3.3.2.2) Os valores abaixo representam uma variável contínua. Construa sua distribuição de
freqüências e calcule a média e a mediana.
A 10, 6 7, 4 3, 2
k n 4, 58 5
A
h 0, 64
k
21 dados
Classes fi xi xi . fi
7,4 ─ 8,04 5 7,72 38,60
8,04 ─ 8,68 5 8,36 41,80
8,68 ─ 9,32 2 9,00 18,00
9,32 ─ 9,96 3 9,64 28,92
9,96 ─ 10,60 6 10,28 61,68
Total: 189,00
x
xi . fi
189
9
n 21
n 1
2 f ac ,ant
md L n 1
h
inf, fi , n 1
2
2
Mediana:
n 1 22
11
2 2
n 1
h 0, 64 11
2
f i , n 1 2
2
f ac , ant 10
Linf, n 1 8, 68
2
md 8, 68
11 10 .0, 64 9, 00
2
xi Número de Pessoas
assaltos
1,5 0─3 5
4,5 3─6 7
7,5 6─9 8
10,5 9 ─ 12 3
13,5 12 ─ 15 1
a) Média =
1
24
1, 5 5 7 4, 5 8 7, 5 3 10, 5 1 13, 5
144
6
24
xi
2
x fi
2
S
n 1
1, 5 6 2 101, 25
4, 5 6 2 15, 75
2
7, 5 6 .8 18
2
10, 5 6 .3 60, 75
13, 5 6 2 .1 56, 25
S 3, 31
CV 0, 55
x 6
CV 55%
252
S2 10, 96
24 1
S S 2 3, 31
b) Mediana:
n
h f ac ,ant
x Linf, n 2
2 fi, n
2
n 24
12 12º posição
2 2
n
h 3 12
2
f i ,12 7
f ac , ant 5
Linf 3
x 3
12 5 .3
7
x 6
AS
3 x x
3 6 6
0
S 3, 31