Você está na página 1de 38

Descrevendo Distribuies com

Nmeros
TADI

Quanto ganha quem tem curso superior ?


Entrevistamos 15 pessoas que responderam (em milhares de R$/ms):

11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6


Salrio de Indivduos com Curso
Superior

Freqncia

8
6
4
2
0
2

10

12

Mais

Salrio

Como resumir esta informao ?


2

Mdia
Para achar a mdia aritmtica, ou simplesmente mdia, voc deve somar cada
um dos valores e dividir pelo nmero de observaes. A mdia comumente
denotada por uma barra sobre a varivel, assim para nosso exemplo:

11 + 2,5 + 5 + 5 + 5,5 + 3 + 3,5 + 3 + 0,4 + 3,2 + 5 + 3 + 3,2 + 7 66,7


x=
=
= 4,45
15
15

A forma geral para a mdia :

x1 + x2 + + xn
x=
n
ou
n

x=

xi

i= 1

O que a mdia representa ?


Representa quanto cada um receberia se o total de salrios fosse dividido
identicamente. Ela tambm o ponto onde voc conseguiria equilibrar o
histograma, ou seja, o seu centro de massa.
4,5

outlier

Freqncia

4
3,5
3
2,5
2
1,5
1
0,5
Mais

12

11

10

Salrios

E se removermos o outlier da amostra ? O que acontece


com a mdia ?
4

Eliminando o outlier
Calculando a mdia novamente:
2,5 + 5 + 5 + 5,5 + 3 + 3,5 + 3 + 0,4 + 3,2 + 5 + 3 + 3,2 + 7 55,7
x=
=
= 3,98
14
14
4,5

Freqncia

4
3,5
3
2,5
2
1,5
1
0,5
Mais

12

11

10

Salrios

E se entrevistssemos um felizardo que ganhe R$200


mil/ms ? O que ocorre com a mdia ?

Efeito do outlier

8
6
4
2
198

184

170

156

142

128

114

100

86

72

58

44

30

16

0
2

Freqncia

Calculando a mdia novamente:


200 + 2,5 + 5 + 5 + 5,5 + 3 + 3,5 + 3 + 0,4 + 3,2 + 5 + 3 + 3,2 + 7
x=
= 17
15

Salrios

CUIDADO: A mdia uma medida sensvel a valores grandes.


6

Mediana
Para achar a mediana ordenamos os dados e encontramos o valor que divide as
observaes ao meio:
Dados fora de ordem:

11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6


Dados ordenados:

0,4 2,5 3 3 3 3,2 3,2


A mediana M ser:

3,5

5 5 5 5,5 6 7,4 11

M=3,5

E se eliminarmos o outlier ?

Eliminando o outlier
Dados ordenados sem o outlier:

0,4 2,5 3 3 3 3,2 3,2


A mediana M ser:

3,5 5 5 5 5,5 6 7,4

M=(3,2+3,5)/2 = 3,35

A mediana bem menos sensvel a valores grandes do que a


mdia. Mas, e se agora introduzirmos nosso felizardo assalariado
que recebe R$200 mil/ms ?

Efeito do outlier
Dados ordenados sem o outlier:

0,4 2,5 3 3 3 3,2 3,2


A mediana M ser:

3,5 5 5 5 5,5 6 7,4 200

M=3,5

Um nico valor muito grande no altera a mediana. A mediana


dita uma medida de posio resistente. Por outro lado,
dependendo da informao que se busca, esta caracterstica pode
no ser desejvel. A alterao de 11 para 200 em um dos salrios
no alterou em nada a mediana.
9

Moda
Qual seria o salrio (ou salrios) mais freqentes ?
Para achar a moda montamos uma tabela de freqncias e procuramos pelo
salrio ou faixa com maior freqncia:
mais fcil comear com dados ordenados:

0,4 2,5 3 3 3 3,2 3,2

3,5

5 5 5 5,5 6 7,4 11

Montamos a tabela de freqncias:

x
n

[0,1) [1,2) [2,3


)

[3,4) [4,5) [5,6


)

[6,7) [7,8) [8,9) [9,10)

A moda est no intervalo [3,4), escolhemos o meio do


intervalo como indicador: MODA=3,5.

[10,11)

10

Pense a respeito 1
1. Como deve ser a distribuio para que a mdia e
a mediana sejam idnticas? Desenhe o
histograma.
2. Como deve ser o histograma para que a mediana
seja igual a moda mas a mdia seja maior que a
mediana ?
3. Como deve ser o histograma para que a moda
seja maior que a mediana e a mediana seja maior
que a mdia ?
11

Pense a respeito 2
Voc est procurando emprego para o prximo ano. As
empresas A e B so totalmente equivalentes a menos de
suas polticas de remunerao. As caractersticas de
remunerao de cada uma das empresas so resumidas
na tabela a seguir:
Empresa

Mdia

2500

2000

Mediana

1700

1900

Moda

1500

1900

Qual das duas empresas voc escolheria ? Justifique

12

Pense a respeito 3
Quais medidas de posio so mais adequadas nos
seguintes casos ? Justifique.

Esto disponveis dados mensais sobre a incidncia de


envenenamento por picada de cobra. Deseja-se planejar a compra
mensal de antdoto.
O nmero dirio de usurios, entre 17 e 19 horas, de determinada
linha de nibus foi anotado. Pretende-se utilizar essa informao
para dimensionar a frota em circulao.
Um fabricante de baterias deseja divulgar a durabilidade do seu
produto e coleta a informao sobre a durao de 100 de suas
baterias.

13

Exerccio 1
Vinte e cinco residncia de um bairro foram sorteadas e
visitadas por um entrevistador que, entre outras questes,
perguntou sobre o nmero de televisores. Os dados foram
os seguintes:
2,2,2,3,1,2,1,1,1,1,0,1,2,2,2,2,3,1,1,3,1,2,1,0,2
Organize os dados em uma tabela de freqncia e
determine as diversas medidas de posio.

14

Exerccio 2
Num experimento, 15 coelhos foram alimentados com uma nova
rao e seu peso avaliado ao fim de um ms. Os dados referentes ao
ganho de peso (em kg) foram os seguintes:
1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5; 2,2
a. Utilizando os dados brutos acima, determine mdia, moda e
mediana.
b. Organize uma tabela de freqncia com faixas de amplitude 0,2 a
partir de 1,5.
c. Calcule a partir da tabela de freqncia e com o ponto mdio
representando cada faixa , a mdia, a moda e a mediana. Comente as
diferenas em relao ao item a.
d. Se ao invs de 15, fossem 500 coelhos, qual seria o procedimento
mais conveniente (a) ou (c)?

15

Quartis
Quartis - outra forma de caracterizar quantitativamente a distribuio de uma
varivel. Consiste em encontrar os valores abaixos dos quais est 25% dos
dados (Primeiro Quartil), 50% dos dados (Mediana) e 75% dos dados (Terceiro
Quartil). Por exemplo, retornando aos dados salariais temos:
Dados fora de ordem:
200 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6
Dados ordenados:
0,4 2,5 3 3 3 3,2 3,2

3,5

5 5 5 5,5 6 7,4 11 200

25% dos dados est abaixo de 3, assim, o Primeiro Quartil Q1=3;

50% dos dados est abaixo de 4,25, assim, o Segundo Quartil, que tambm a
Mediana Q2=M=4,25;

75% dos dados est abaixo de 5,75, assim, o Teceiro Quartil Q3=5,75
16

Clculo da Mediana, Quartis,


Percentis
Para o clculo da mediana ( j = 2 ) , do quartil

Pi

Qi ( j = 4 ) ou do percentil

( j = 100 ), calcula-se

n
k= i
j
Se k no inteiro, arredonda-se para cima e o valor procurado dado por

xk . Se k

inteiro, valor procurado dado por

xk + xk + 1
2

17

Sumrio de 5 nmeros
Podemos descrever uma distribuio de forma resumida fornecendo 5 nmeros
apenas: mnimo, Q1, M, Q3, mximo. No exemplo:
Dados ordenados:
0,4 2,5 3 3 3 3,2 3,2

3,5

5 5 5 5,5 6 7,4 11 200

MIN = 0,4
Q1

= 3,0

= 4,25

Q3 = 5,75
MAX = 200

18

Dados sobre rendimentos anuais da Aula 5:

00
50

00
13

00
12

50

00

0
10

00

0
90

75

00

0
00

0
60

45

00

0
00

30

15

00

500
400
300
200
100
0
0

Freqncia

Histograma

Bloco

MIN=-19.998
Q2=27.479,50

Q1=14.000
Q3=47.962,50

Mdia= 34.295,20
MAX=319.350
19

Quantis: Generalizando a idia de Quartis


Ao invs de fixarmos os percentuais de interesse em 25%, 50% e 75% dos
dados podemos trabalhar com um percentual qualquer, ou quantil. Observando
novamente os dados brutos de peso colhidos em classe podemos montar uma
Bloco Freqncia % cumulativo
tabela de freqncias:
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
50000
55000
60000
65000
70000
75000
80000
85000
90000
95000
100000

116
184
352
401
396
353
296
249
247
215
187
168
130
111
70
57
59
39
37
30
25

2,98%
7,72%
16,77%
27,08%
37,27%
46,35%
53,96%
60,37%
66,72%
72,25%
77,06%
81,38%
84,72%
87,58%
89,38%
90,84%
92,36%
93,36%
94,32%
95,09%
95,73%

20

Exerccio 3
a. Ordene os dados e calcule o sumrio de 5 nmeros para a
varivel Pontos no problema dos dois jogadores de
basqyete. H variao perceptvel entre os dois?
b. Faa um grfico para cada jogador com os quantis em
intervalos de 20%. Represente as duas distribuies no
mesmo grfico. O que se pode dizer a respeito da
diferena entre os dois ?

21

Boxplot (ou Grfico de Caixa)


O Box plot um grfico que apresenta a
informao contida nos quartis e nos pontos
extremos dos dados, permitindo, caso se
tenha mais de um caso (por exemplo, dados
associados a diferentes valores de uma
varivel qualitativa), fazer a comparao
entre os casos de forma visualmente fcil.

22

Vejamos
Boxplot dos Salrios
12

10

Salrios

23

Interpretando
A caixa mostra o intervalo que contm os
50% centrais dos dados (entre Q1 e Q3), com
a mediana marcada como uma linha central.
As linhas acima e abaixo da caixa so
chamadas de bigodes e tem a funo de
mostrar at onde se observaram dados
(exceto pelos outliers, marcados por
asteriscos).
24

Construindo um Box plot


Primeiro, calcule os quartis, de forma a desenhar
a caixa.
Obtenha a distncia entre o primeiro e o terceiro
quartil (amplitude interquartil): Q3-Q1
Os bigodes tem como tamanho mximo 1,5 vezes
a amplitude interquartil, mas vo apenas at o
ltimo dado dentro desta distncia.
Dados que estiverem alm so marcados por
25
asteriscos (outliers).

No computador
Infelizmente, as planilhas (Excel ou OpenOffice) no
possuem o boxplot como grfico. O OpenOffice tem um
grfico que se parece, mas no um boxplot! Os
boxplots apresentados aqui foram feitos usando o
Minitab.
No entanto, h formas de se usar o Excel para fazer um
boxplot, se voc j tiver calculado os quartis
(infelizmente, ele errar quanto aos outliers):
http://www.mis.coventry.ac.uk/~nhunt/boxplot.htm
http://www.olemiss.edu/courses/psy501/Lectures/Lecture1/HTML_Files/Assgnmt1_HowTo.htm
26

Comparando
Jogadores A e B
90
80
70
60
Pont os

O box-plot
bastante til para
comparar relaes
entre dados
qualitativos e
quantitativos.

50
40
30
20
10
0
A

27

Medidas de Disperso
Queremos agora medir o quanto os dados esto
espalhados (dispersos).
Note que possvel que conjuntos de dados com a
mesma mdia estejam muito concentrados (quase
todos prximos a mdia), muito espalhados
(quase todos distantes) ou algo intermedirio.
Portanto interessante medir esta disperso.
28

Amplitudes
A medida mais simples que podemos ter da
disperso a amplitude, definida como o valor
mximo observado menos o valor mnimo.
Portanto, todos os dados encontram-se dentro desta
distncia.
Como uma medida central, temos a amplitude
interquartil Q3-Q1. S metade dos dados (a metade
central) se encontra dentro desta distncia.

29

Desvio Mdio
Outra medida de disperso o desvio mdio, dm. Para
calcul-lo, obtenha a distncia de cada dado xi mdia,
xi . x
Para os salrios, teremos a lista
4,05 1,95 1,45 1,45 1,45 1,25 1,25 0,95 0,55 0,55 0,55 1,05 1,55 2,95 6,55

Tomando a mdia destes nmeros teremos que o desvio


mdio dm=1,84, ou seja, os salrios esto, em mdia, a
uma distncia de R$1.840,00 do salrio mdio.

30

Exemplos
Tomemos os dois conjuntos de dados abaixo:
4, 4, 6, 6
3, 5, 5, 7

Qual dos dois voc diria que est mais


disperso?

31

Tomemos os dois conjuntos de dados abaixo:


4, 4, 6, 6
3, 5, 5, 7

Qual dos dois voc diria que est mais disperso?


Na verdade, o desvio mdio igual para os dois
conjuntos (igual a 1).
Dados mais distantes, no entanto, parecem ter um
efeito maior na disperso. Se mudarmos a medida,
tomando o quadrado dos dados, teramos este
efeito.
32

Varincia
Obtendo o quadrado de cada uma das
distncias, temos:
16,4 3,8 2,1 2,1 2,1 1,56 1,56 0,9 0,3 0,3 0,3 1,1 2,4 8,7 42,9

Se calcularmos a mdia destes valores,


teremos a varincia 2 = 5,77 .
No entanto, como estes salrios so apenas
uma amostra de todos os salrios, costuma-se
calcular a varincia da amostra.
33

Varincia de Amostra
Para amostras, ao calcular a mdia, ao invs
de se dividir pelo total de elementos n (no
caso, 15 salrios), divide-se por n-1 (ou seja,
14). Teramos ento: s 2 = 6,18

34

Assim, temos
Populao (conjunto completo que se est interessado):

2
(
x

)
i
i

Amostra (parte do conjunto completo que se est interessado):

s2 =

(x
i

n1
35

Desvio Padro
Note, no entanto, que interpretar a varincia
no simples. No caso dos salrios, estes
estavam em reais, mais as distncias foram
elevadas ao quadrado e a varincia dada
em reais ao quadrado (o que quer que isto
signifique).
Para resolver este problema, extramos a raiz
quadrada, obtendo o desvio padro.
36

Desvio Padro dos Salrios


Temos ento que o desvio dos salrios ser
de 2,49, ou seja, cerca de R$2.500,00.
Isto quer dizer que os salrios esto a uma
distncia tpica de R$2.486,00 do salrio
mdio, R$ 4.447,00.
Note que est no uma distncia mdia,
uma distncia tpica.
37

Exemplo
Jogador A
15
45
32
16
30
90
26
52
34
40

Jogador B
50
12
46
10
20
0
52
44
10
45

i.

38

Você também pode gostar