Você está na página 1de 18

2 REVISO DE ESTATSTICA DESCRITIVA

Na presente seo faremos uma reviso bsica de estatstica descritiva, dando nfase em
aspectos operacionais da anlise de dados. Como veremos, ao longo dessa seo, analisar os
dados e prepar-los para o uso em regresso1 fundamental para que se possa obter resultados
satisfatrios.

2.1 Tipos de Dados


Existem trs tipos bsicos de dados no campo da estatstica, a saber:

Dados Brutos: 3,4,2,3,2,1,4,2,5,7


Rol de Dados: 1,2,2,2,3,3,4,4,5,7
Dados Agrupados em Freqncia
Dados Agrupados em Classes

Dados agrupados em freqncia

Dados agrupados em classe

X={1,2,2,2,3,3,4,4,5,7}
Xi
1
2
3
4
5
7

fi
1
3
2
2
1
1
10

Classe
0 2
2 4
4 6
6 8

fi
1
5
3
1
10

Notao
a b
ax<b
a<xb
a b
a<x<b
a b
axb
a b

As freqncias so classificadas em:

absoluta e relativa
simples (fi) e acumulada (Fi)

A anlise de regresso o estudo da dependncia de uma varivel, a varivel dependente, em relao a


uma ou mais variveis, variveis explicativas, com o objetivo de estimar e/ou prever a mdia da populao
ou o valor mdio da dependente em termos dos valores conhecidos ou fixos (em amostragem repetida) das
explicativas. Gujarati, Damodar N. Econometria Bsica So Paulo: Makron Books, 2000, pp 21.
5

Xi
1
2
3
4
5
7

Absoluta
fi
Fi
1
1
3
4
2
6
2
8
1
9
1
10
10

Xi
1
2
3
4
5
7

Relativa
f*i
0,10
0,30
0,20
0,20
0,10
0,10

F*i
0,10
0,40
0,60
0,80
0,90
1,00

ATENO: Denomina-se amplitude (h) de classe, definida por h = l s - l i


onde: ls = limite superior da classe; e
li = limite inferior da classe.
Para efeito de clculos da varivel estudada e desde que no haja impedimento tcnico
(informaes que indiquem, por exemplo, que a classe fortemente concentrada direita ou
esquerda) denomina-se Xi o ponto mdio da classe, definido por:

Xi =

ls + li
2

Exemplo:

A tabela abaixo representa os salrios pagos a 100 operrios de uma empresa. Determinar:

a) freqncia absoluta acumulada, simples relativa e acumulada relativa


b) quantos operrios ganham at dois salrios mnimos exclusive?
c) quantos operrios ganham at 6 salrios mnimos exclusive?
d) qual a porcentagem de operrios com salrios entre 6 e 8 salrios mnimos?

N de salrios
mnimos
0 |--- 2
2 |--- 4
4 |--- 6
6 |--- 8
8 |--- 10
Total

N de operrios
( fI )
40
30
10
15
5
100

Fi

fi ( % )

Fi ( % )

2.2. Polgono de Freqncia e Histograma


Considere a seguinte distribuio de freqncia:
Xi
5
15
25
35
45
55
65

fi
0
2
3
5
3
2
0
15

Podemos associar a cada valor de Xi o seu correspondente ponto no eixo X e sua


freqncia (absoluta ou relativa) ao eixo Y. Teremos ento:

6 5 4 fi

Polgono de freqncia

3 -

ou

2 -

Curva de freqncia

1 0 -

15

25

35

45

55

65

Pode-se fazer uma alterao na distribuio de freqncia da seguinte forma:


Xi
0 10
10 20
20 30
30 40
40 50
50 60
60 70

fi
0
2
3
5
3
2
0
15

Podemos agora construir um novo desenho, composto por retngulos tais que:
(1) As bases dos retngulos estejam centradas nos pontos mdios das classes;
(2) As alturas dos retngulos sejam iguais ou proporcionais s freqncias das respectivas
classes.

Teremos ento:

6 5 4 -

[Histograma]

3 2 1 0 -

15

25

35

45

55

65

Unindo os dois desenhos, teremos:


6 5 4 3 2 1 0

15

25

35

45

55

65

NOTA: A rea do histograma igual rea do polgono de freqncia

2.3 Medidas de Posio


As medidas de posio so divididas em dois grandes grupos:

medidas de tendncia central e separatrizes - so valores tpicos ou representativo de um

conjunto de dados.

medidas de disperso - medem o grau de disperso dos dados, ou seja, o quanto eles se

afastam em torno da mdia.

Cada uma delas se divide em vrios tipos, como veremos a seguir.


Aritmtica
Mdia
Geomtria

Bruta

Moda Pearson
Czuber

Mediana

Medidas de Tendncia Central

Separatrizes

Mediana
Decil

Quartil
Percentil

Medidas de Disperso

Amplitude Total
Desvio - Mdio

Varincia
Desvio - Padro

Coeficiente de Variao

2.4 Medidas de Tendncia Central


2.4.1 Mdias
A media um dos vrios indicadores de tendncia central que se usa para indicar o ponto
na escala de medidas no qual a populao (ou amostra) est centrada. , portanto um valor que
indica o centro dos valores de uma coleo de dados (populao ou amostra)
A mdia o termo mdio dos dados na populao (ou amostra). Numericamente, igual a
soma das observaes dividida pela sua freqncia. interessante notar que a mdia o nico
valor que, se substituir todos os dados na populao (ou amostra), produzir a mesma soma dos
dados originais, e por conseguinte a mesma mdia.

2.4.1.1 Mdia Aritmtica2


Dados x1, x2, x3, x4,..., xn

X=

x1 + x 2 + ... + x n
=
n

Mais para frente x ser desvio.


9

Exemplos:
(a) Para dado Bruto: X = 2,3,2,3,5 X =

2 + 3 + 2 + 3 + 5 15
=
=3
5
5

x f
f

(b) Para dados agrupados em freqncia: X =

xi
2
4
6
8

fi
2
3
3
2
10

50
=5
10

xi.fi
4
12
18
16
50

Nesse caso, a mdia aritmtica chamada de Mdia Aritmtica Ponderada, onde os pesos
so os valores fi .
(c) Para dados agrupados em classe: X =

x f
f
i

46
= 4.6
10

classe
0 2
2 4
4 6
6 8
8 10

fi
2
3
2
1
2
10

xi
1
3
5
7
9
-

xi.fi
2
9
10
7
18
46

IMPORTANTE: Genericamente, a Mdia Aritmtica expressa por:

X =

x f
f
i

. Quando fi = 1 X =

x
f

2.4.1.2 Mdia Geomtrica ( Mg )


Medida menos afetada pelos valores extremos das observaes da srie. Muito utilizada em
taxas de crescimento.

Dados x1, x2, x3, x4,..., xn

10

Mg = n x1 .x 2 ...x n

Exemplos:
(a) Para dado Bruto: X = 2,4,8,4 Mg =

2 4 8 4 = 22 = 4

(b) Para dados agrupados em freqncia:


Nesse caso, as potncias de cada valor xi so as freqncias (fi) com que eles aparecem da
distribuio. Portanto: Mg = n x 1f 1 .x f2 2 ....x fn
n
xi
2
4
6
8

Logo: Mg=

20

e n = fi .
fi
2
3
10
5

xifi
22
43
610
85

22 43 610 85 = 5.25

(c) Para dados agrupados em classe:


Nesse caso, o valor de xi utilizado, dever ser o valor mdio da classe
classe
10 20
20 30
30 40
40 50

Mg =

10

fi
2
3
3
2
10

xifi
152
253
353
452

xi
15
25
35
45
-

152 253 353 452 = 28.08

2.4.2 Moda (Mo)


o valor mais freqente de uma srie de dados.
(a) Para dado bruto:
Dado Bruto

Rol de dados

Moda

Tipo

2,3,4,3,1

1,2,3,3,4

unimodal

2,3,2,4,3,5

2,2,3,3,4,5

Mo1=2; Mo2=3

bimodal

1,2,2,4,4,3,3

1,2,2,3,3,4,4

Mo1=2;Mo2=3;Mo3=4

trimodal

4,4,2,2,3,3

2,2,3,3,4,4

(ausente)

amodal

11

(b) Para dados agrupados em freqncia:


xi
2
4
6
8
Mo =

fi
2
3
4
2

xi
2
4
6
8
Mo =

Tipo =

fi
1
3
3
2

xi
10
20
30
40
Mo =

Tipo =

fi
2
2
2
2

Tipo =

(c) Para dados agrupados em classe:


classe
0 20
20 40
40 60
60 80
80 100

fi
2
3
10
3
2
20

xi
10
30
50
70
90
250

Fi

Obs.: Para dados agrupados em classe, existem vrias frmulas de clculo da Moda. Trs, no
entanto, so as mais utilizadas.

c.1) Moda Bruta : Ponto Mdio da Classe Modal


c.2) Moda de Pearson : Mo = 3.Md 2. X

f mo f ant
h
2 f mo ( f ant + f post )

c.3) Moda de Czuber : Mo = li +

2.4.3 Mediana (Md )


o valor que divide o conjunto de dados ordenados em duas metades, com metade dos
valores acima da mediana e a metade dos valores abaixo dela. Quando o nmero de observaes
(n) mpar, a mediana o valor que ocupa a posio central. Quando n for par, h duas posies
centrais no conjunto, ento a mediana a mdia aritmtica dos dois valores que ocupam as posies
centrais.
Antes de calcular a mediana, devemos calcular a Posio da Mediana dada por: P(Md)=
(a) Para dado bruto:

12

n +1
2

Dado Bruto
4,2,3,3,2
2,5,4
2,3,4,2,4
5,2,4,4,3,4,2,2

Rol
2,2,3,3,4
2,4,5
2,2,3,4,4
2,2,2,2,4,4,4,5

P(Md)
3
2
3
4,5

Mediana
3
4
3
3

(b) Para dados agrupados em freqncia:


xi
2
4
6
8
10

fi
2
3
4
6
5
20

Fi
2
5
9
15
20

Passos para o clculo da Mediana


(1) Achar n
(2) Calcular Fi
(3) Calcular P(Md)
(4) Procurar P(Md) em Fi
(5) Calcular Md, se for o caso

(c) Para dados agrupados em classe:


classe
10 20
20 30
30 40
40 50
50 60

fi
2
3
10
3
2
20

Fi
2
5
15
18
20

Passos para o clculo da Mediana


(1) Achar n
(2) Calcular Fi
(3) Calcular P(Md)
(4) Determinar a Classe Mediana

13

n
Fa
(5) Aplicar a seguinte frmula: Md = l i + 2
h
f Md
onde: li = limite inferior da classe mediana;
n = nmero total de observaes;
Fa = freqncia acumulada da classe anterior da mediana
h = amplitude da classe mediana
fMd = freqncia simples da classe mediana.

2.5 Separatrizes

2.5.1 A Mediana
um nico valor que divide o rol de dados em duas partes iguais. importante observar
que a mediana um parmetro especial de qualquer conjunto de dados, pois ao mesmo tempo
uma medida de tendncia central e uma separatriz.

2.5.2 O Quartil
So trs valores (Q1 , Q2 , Q3) que dividem o rol (de dados) em quatro partes iguais.

25%

50%

75%

Q1

Q2

Q3

A posio do quartil dada por:

P( Q k ) =
P( Q k ) =

nk 1
+
4
2

nk + k
4
k=1,2,3

14

se n par

se n mpar

2.5.3 O Decil
So nove valores que dividem o rol (de dados) em dez partes iguais.

10%

20%

30%

D1

D2

D3

...

90%
D9

A posio do decil dada por:

P( D k ) =

nk 1
+ , k=1,2,...,9
10 2

2.5.4 O Percentil
So 99 valores que dividem o rol (de dados) em cem partes iguais.

1%2%3%

...

| | | | | | | | | | | | | | | | | | | | | | | | | | | |
P1 P2 P3

99%

| |
...

P 99

A posio do percentil dada por:

P( Pk ) =

nk 1
+
, k=1,2,3,...,99
100 2

Exemplos: Calcular a mediana, os trs quartis,o 2 e o 7 decis.


(a) Rol: { 2 ,2 ,3 ,3 ,4 ,6 ,6 ,6 ,7 ,9 }

P( Md ) =

n + 1 10 + 1
4+6
=
= 5,5 Md =
=5
2
2
2

P( Q 1 ) =

n 1 1 10 1 1 12
+ =
+ =
= 3 Q1 = 3
4
2
4
2 4

P( Q 2 ) =

n 2 1 10 2 1 11
4+6
+ =
+ = = 5,5 Q 2 =
=5
4
2
4
2 2
2

P( Q 3 ) =

n 3 1 10 3 1 16
+ =
+ =
= 8 Q3 = 6
4
2
4
2 2
15

P( D 2 ) =

n 2 1 10 2 1
2+3
+ =
+ = 2 ,5 D 2 =
= 2 ,5
10 2
10
2
2

P( D 7 ) =

n 7 1 10 7 1
6+6
+ =
+ = 7,5 D 7 =
=6
10 2
10
2
2

(b) Para dados agrupados em freqncia:


xi
1
2
4
6
8
10

fi
5
8
27
30
20
10
100

Fi
5
13
40
70
90
100
-

n + 1 100 + 1
=
= 50,5 Md = 6
2
2
n 1 1 100 1 1
P( Q1 ) =
+ = 25,5 Q1 = 4
+ =
4
2
4
2
n 2 1 100 2 1
P( Q 2 ) =
+ =
+ = 50,5 Q 2 = 6
4
2
4
2
n 3 1 100 3 1
P( Q 3 ) =
+ =
+ = 75,5 Q 3 = 8
4
2
4
2
n 2 1 100 2 1
P( D 2 ) =
+ =
+ = 20,5 D 2 = 4
10 2
10
2
n 7 1 100 7 1
6+8
P( D 7 ) =
+ =
+ = 70,5 D 7 =
= 7 [lim ite de faixa ]
10 2
10
2
2
P( Md ) =

CLCULO DAS SEPARATRIZES PARA DADOS AGRUPADOS EM CLASSE

Fa h
2

Mediana ( Md ) = li +
fi
n.k

Fa h

Quartil (Qk ) = l i +
fi

16

n.k

Fa h

10

Decil ( Dk ) = li +
fi
n.k

Fa h

100

Percentil ( Pk ) = l i +
fi

onde:
n = nmero de observaes
li = limite inferior da classe
Fa = freqncia acumulada da faixa anterior
h = amplitude da classe
fi = freqncia da classe

Exemplo:
Calcular a mediana, o 3 quartil e o 6 decil :
xi
0 10
10 20
20 30
30 40
40 50

fi
8
12
40
20
20
100

Fi
8
20
60
80
100
-

100

20 10

( 50 20 ).10
100 + 1
2

P( M d ) =
= 50,5 Md = 20 +
= 20 +
= 27,5
2
40
40
100 3

60 .10

100 3 1
4
= 30 + 7,5 = 37,5
P( Q 3 ) =
+ = 75,5 Q 3 = 30 +
4
2
20
100 6

60 .10

100 6 1
10
= 30 + 0 = 30
P( D 6 ) =
+ = 60,5 D 6 = 30 +
10
2
20

2.6 Medidas de Disperso


Existem vrias medidas que indicam e medem a disperso de um conjunto de dados. So
elas:

2.6.1 Amplitude Total


a diferena entre o maior e o menor valor de um conjunto de dados.

H = AT = MAX - MIN

17

2.6.2 Desvio Mdio


expresso pela soma dos mdulos das diferenas entre os elementos da srie e a mdia,
dividida pelo nmero de elementos da srie.
n

|x
DM =

Para dado bruto:

x|

i =1

n
n

| x x | f
DM =
f
i

Para dado agrupado em freqncia ou em classe:

i =1

2.6.3 Varincia ( VAR ou 2 )


a soma dos quadrados das diferenas em relao mdia, dividida pelo nmero de
elementos da srie.
Para dado bruto:

VAR =

( x i x )2
n

Para dado agrupado em freqncia ou em classe

( x i x ) 2 f i

VAR =
fi

2.6.4 Desvio-Padro (DP ou )


a raiz quadrada da varincia.
Genericamente

DP =

VAR

2.6.5 Coeficiente de Variao (CV)


uma medida de disperso relativa (adimensional) da variao de uma srie e expressa
pela razo entre o Desvio-Padro e a Mdia.

CV =

DP
DP
ou % CV =
x 100
x
x

NOTA: As duas principais medidas de disperso so VARINCIA e DESVIO-PADRO

18

Exerccios Propostos

1. Com os dados a seguir, complete as tabelas com as freqncias simples e as acumuladas:

3
6
3
10

2
1
5
10

7
6
10
9

Xi

fi

6
5
3
7

9
4
6
5

Fi

9
3
9
1

2
3
2
3

Classe
1 | 3
3 | 5
5 | 7
7 | 9
9 | 11

1
2
3
4
5
6
7
8
9
10

9
6
1
1

fi

3
9
9
8

9
7
8
2

Fi

2. Com os dados da questo anterior, desenhe um histograma com 5 classes e outro com 10
classes.

3. Com os dados a seguir, calcule as medidas de posio: mdia, moda, mediana, amplitude total,
desvio-padro, varincia e coeficiente de variao.
13,47
19,78
13,48
13,74

16,12
17,55
16,51
16,03

14,89
15,00
16,28
15,60

13,50
15,85
14,30
17,68

14,32
17,37
15,35
15,71

15,73
15,30
15,46
14,57

14,27
13,20
11,30
15,34

13,69
14,69
15,87
15,45

14,28
15,22
16,29
12,16

12,47
14,61
16,16
14,23

4. Agrupe os dados do exerccio anterior em 6 classes de mesma amplitude e recalcule todas as


medidas de posio. Explique porque voc encontrou valores diferentes.

5. Os dados a seguir representam a srie de lucros mensais de duas empresas distintas (do
mesmo setor) para os ltimos trs anos. Suponha que as duas esto venda e que voc precisa
decidir qual delas ir adquirir. Escolha a melhor opo de investimento de acordo com os seus
conhecimentos de estatstica bsica. Voc acredita que o seu julgamento seria o mesmo se no
conhecesse as medidas de posio?

19

Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
ANO

ANO 1
A
B
12,20
8,51
13,11
10,77
16,86
20,14
15,28
16,20
17,59
21,98
15,22
16,06
11,26
6,16
12,58
9,44
15,88
17,70
15,76
17,40
12,02
8,06
17,43
21,56
175,19 173,98

ANO 2
A
B
14,70
14,75
15,04
15,59
15,00
15,51
14,77
14,92
14,64
14,59
15,35
16,36
12,84
10,11
12,17
8,43
14,79
14,98
14,62
14,56
16,21
18,54
15,12
15,81
175,25 174,15

ANO 3
A
B
17,66
22,15
11,80
7,50
14,26
13,66
12,73
9,83
15,31
16,27
11,07
5,66
18,97
25,44
13,98
12,95
17,84
22,60
16,16
18,39
15,46
16,64
16,84
20,11
182,08 191,20

6. Os dados a seguir foram obtidos de duas populaes diferentes. Faa uma anlise dos valores
fornecidos e indique qual o formato que voc acredita representar o comportamento de cada uma
das populaes:
Medida
Mdia
Mediana
Moda

Populao I
7,57
6,20
5,75

Populao J
6,03
6,20
7,00

7. Calcule o 1 e o 3 quartis e o 7 e o 85 percentis das bases de dados a seguir:


2
41
7
47

75
42
67
46

28
32
42
79

30
53
91
28

2
29
91
33

12
79
28
31

68
41
55
67

97
35
15
16

21
14
48
68

8
10
46
7

8. Calcule o 1 e o 3 quartis e o 16 e o 73 percentis de uma distribuio N(5;9)

9. A seguir fornecida uma base da dados com o salrio de 40 analistas de crdito. A primeira
metade refere-se a profissionais do sexo feminino e a segunda a profissionais do sexo masculino.
Com os instrumentos que voc julgar conveniente, avalie se voc acredita existir diferenas entre
o rendimento por sexo.

2.253,97
2.335,24

2.200,52
2.218,79

2.226,68
2.249,34

2.202,24
2.313,82

2.098,00
2.161,11

2.199,27
2.386,02

2.093,17
2.360,69

2.359,16
2.283,88

2.305,51
2.069,40

2.367,27
2.231,00

2.574,77
3.049,96

2.226,21
2.375,34

2.218,25
2.542,13

2.473,37
2.576,82

2.510,08
2.569,89

2.686,63
2.721,19

2.795,96
2.360,63

2.843,11
2.099,83

2.333,32
3.198,08

2.514,34
2.471,41

20

10. Abaixo voc encontra o tempo de resposta (em dias) entre a aplicao de um tratamento e a
efetiva cura de uma certa doena, alm de algumas caractersticas dos pacientes (levantadas
segundo um questionrio). Avalie se voc consegue determinar algum fator que diferencie, de
forma significativa, o tempo de resposta do medicamento doena.
tempo

sexo

idade

fumante

estado civil

masculino

38

no

solteiro

12

masculino

28

no

casado

13

masculino

31

no

vivo

feminino

33

sim

casado

masculino

34

sim

solteiro

13

masculino

18

sim

casado

masculino

20

sim

solteiro

11

masculino

18

sim

casado

feminino

21

no

casado

masculino

22

no

casado

11

masculino

19

sim

casado

masculino

26

sim

casado

11

feminino

28

sim

casado

17

feminino

29

sim

casado

11

masculino

24

sim

casado

12

feminino

34

no

solteiro

12

feminino

28

sim

casado

12

masculino

30

no

solteiro

masculino

26

sim

solteiro

15

feminino

27

sim

casado

*11. Demonstre que a varincia da mdia de duas variveis aleatrias independentes igual
mdia de suas varincias.

*12. Na estatstica podemos encontrar diversas distribuies com um formato previamente


conhecido.

Dentre elas encontramos a distribuio uniforme.

uniforme definida

como

representao

de

Sabendo que a distribuio

pontos com a mesma probabilidade de

ocorrncia em um determinado intervalo, [a,b], com mdia = mediana = (a + b) / 2 = e que ela


amodal, indique o formato esperado de um histograma relativo a uma populao proveniente de
um grupo uniformemente distribudo.
*13. Com os ndices (data base jan/94 = 100) relativos s vendas da indstria eletroeletrnica de
consumo no Brasil (indicados abaixo), monte uma tabela representativa dos dados agrupados em
at sete (7) classes. Com os valores encontrados, monte um histograma e faa uma anlise
estatstica. Utilize seus conhecimentos de medidas de posio para a melhor avaliar a amostra
21

fornecida.

Compare os resultados com o seu conhecimento a respeito da evoluo deste

segmento durante o perodo indicado.


Data
31/01/98
28/02/98
31/03/98
30/04/98
31/05/98
30/06/98
31/07/98
31/08/98
30/09/98
31/10/98
30/11/98
31/12/98
31/01/99
28/02/99
31/03/99
30/04/99
31/05/99
30/06/99
31/07/99
31/08/99
30/09/99
31/10/99
30/11/99

ndice
180,02
192,45
261,97
247,51
227,16
194,29
196,33
223,44
212,61
249,55
298,34
248,48
151,11
101,98
185,44
176,49
140,98
178,36
191,89
204,02
190,90
223,93
259,44

Fonte: Eletros.

*14. Quais as vantagens e desvantagens voc obtm ao utilizar, numa anlise estatstica, uma
tabela com dados agregados?

22