Você está na página 1de 9

i 1

As frmulas para calcular a e b a partir dos dados so:


n
n

i 1

xi x
n
i 1

yi y

xi x

i 1

xiyi

2
n
i 1

a y bx

i 1

i 1

yi b
n

n
i 1

2
i

xi

i 1

n
n
x
i 1 i

yi

s xy
s2x

xi

EXERCCIOS RESOLVIDOS
R7.1) O problema mais grave do estado do RJ
Considere uma pesquisa por amostragem feita em 1986 junto populao do estado do Rio de Janeiro.
Foram ouvidas 1.230 pessoas que, entre outras coisas, apontaram qual era, em sua opinio, o problema mais
grave do estado naquele momento. Com base nos dados brutos, foi obtida a tabela a seguir.
Frequncias e percentuais dos 1.230 respondentes da Pesquisa junto populao
do estado do RJ em 1986, segundo o problema mais grave do Estado

Problema mais grave do Estado Frequncias Percentuais


Segurana / Violncia
360
29,27
Educao
160
13,01
Sade
152
12,36
Saneamento
118
9,59
Alimentao/Fome/Pobreza
73
5,93
Transporte
63
5,12
Outros
304
24,72
Total
1.230
100,00
Fonte: Pesquisa de Opinio sobre as Eleies do Rio de Janeiro 1986
Ibase / Serpro / IM-UFRJ

Construa o grfico de barras e o grfico de setores (ou grfico pizza) com base nessa tabela de frequncias.

264

ook.indb 264

07/08/2012 09:5

C A P T U L O 7 ANLISE EXPLORATRIA DE DADOS AMOSTRAIS

EXERCCIOS PROPOSTOS
P7.1) Um erro grosseiro, mas (infelizmente) bastante comum
A partir dos dados x 1 , x 2 ,..., x n , calcula-se a varincia da varivel X pela expresso
n
x i
n
2
x i i =1

n
s2 = i = 1
n1
Ento, se n
5
i 1

5, x 1

3, x 2

5, x 3

0, x 4

2, x 5

6 , temos:

x i 2 32 52 02 22 62 74

74
74
74
5 =
5 = 14,8
Logo, s2 =
51
4
74

a) O que est errado nesse clculo?


b) Qual a soluo correta?
P7.2) Combinando duas amostras
Foram coletados os dados relativos a uma determinada varivel para duas amostras distintas. Apresentam-se a seguir, para cada uma delas, os resultados obtidos quanto a: tamanho da amostra, mdia e desvio
padro.
Amostra
1
2

No de Obs.
5
4

Mdia
7,4
11,5

Desvio Padro
6,309
9,983

a) Considerando agora a amostra combinada, ou seja, a amostra composta por todas as nove observaes, qual o valor da sua mdia?
b) Qual o seu desvio padro?
P7.3) Atualizao da mediana
Temos um conjunto de dados com 11 observaes j devidamente ordenadas:
x (1) < x (2) < x (3) < ... < x (11).
Quais das seguintes afirmaes esto corretas e quais esto erradas? Por qu?
a) A mediana desses dados Q2 x 6 .
b) Suponha que foi eliminada desse conjunto de dados original a maior observao x(11). Ento a nova
1
x 1 x 10 .
mediana agora
2
c) Suponha que foi adicionada ao conjunto de dados original mais uma observao, de modo que ele
passou a ter 12 observaes. Ento a diferena entre o maior valor possvel da nova mediana e o

ELSEVIER

P R O B A B I L I D A D E E E S TAT S T I C A

P7.4) Implantes mamrios raciocnio equivocado


Um determinado fabricante produz implantes mamrios utilizando gel de silicone. Os dados a seguir
se referem tenso de ruptura desses implantes, e foram obtidos por meio de testes fsicos realizados com
uma amostra de tamanho n = 20:
72,2
65,1

80,1
66,5

70,4
64,1

67,8
79,0

70,9
70,6

72,1
70,3

75,1
63,1

73,0
64,4

59,4
74,9

77,2
75,3

Com base nesses dados, obtenha os quartis Q1, Q2 e Q3.


Foi apresentada a seguinte soluo:
Posio
Valor

1
2
3
4
5
6
7
72,2 80,1 70,4 67,8 70,9 72,1 75,1

Posio
Valor

11
12
13
65,1 66,5 64,1

Posio Q2

1 20
10,5
2

Posio(Q1)

1 10,5
5,75
2

Posio(Q3)

10,5 20
15,25
2

14
79

8
73

9
10
59,4 77,2

15
16
17
18
19
20
70,6 70,3 63,1 64,4 74,9 75,3

1
1
77,2
65,1 71,15
2
2

Q2

Q1

1
3
70,9
72,1 71,8
4
4

Q3

3
1
70,6
70,3 70,525
4
4

a) Algo est errado nessa soluo. O que ?


b) Qual a soluo correta?
P7.5) Preos de automveis
A tabela de frequncias a seguir se refere aos preos (em reais) pelos quais foram anunciados 2.695
automveis para venda em um determinado site.
Faixa de preo
At R$ 7.000
De R$ 7.001 a R$ 10.000
De R$ 10.001 a R$ 15.000
De R$ 15.001 a R$ 20.000
De R$ 20.001 a R$ 25.000
De R$ 25.001 a R$ 30.000
De R$ 30.001 a R$ 40.000

Frequncia
344
419
530
443
320
229
220

ELSEVIER

P R O B A B I L I D A D E E E S TAT S T I C A

P7.4) Implantes mamrios raciocnio equivocado


Um determinado fabricante produz implantes mamrios utilizando gel de silicone. Os dados a seguir
se referem tenso de ruptura desses implantes, e foram obtidos por meio de testes fsicos realizados com
uma amostra de tamanho n = 20:
72,2
65,1

80,1
66,5

70,4
64,1

67,8
79,0

70,9
70,6

72,1
70,3

75,1
63,1

73,0
64,4

59,4
74,9

77,2
75,3

Com base nesses dados, obtenha os quartis Q1, Q2 e Q3.


Foi apresentada a seguinte soluo:
Posio
Valor

1
2
3
4
5
6
7
72,2 80,1 70,4 67,8 70,9 72,1 75,1

Posio
Valor

11
12
13
65,1 66,5 64,1

Posio Q2

1 20
10,5
2

Posio(Q1)

1 10,5
5,75
2

Posio(Q3)

10,5 20
15,25
2

14
79

8
73

9
10
59,4 77,2

15
16
17
18
19
20
70,6 70,3 63,1 64,4 74,9 75,3

1
1
77,2
65,1 71,15
2
2

Q2

Q1

1
3
70,9
72,1 71,8
4
4

Q3

3
1
70,6
70,3 70,525
4
4

a) Algo est errado nessa soluo. O que ?


b) Qual a soluo correta?
P7.5) Preos de automveis
A tabela de frequncias a seguir se refere aos preos (em reais) pelos quais foram anunciados 2.695
automveis para venda em um determinado site.
Faixa de preo
At R$ 7.000
De R$ 7.001 a R$ 10.000
De R$ 10.001 a R$ 15.000
De R$ 15.001 a R$ 20.000
De R$ 20.001 a R$ 25.000
De R$ 25.001 a R$ 30.000
De R$ 30.001 a R$ 40.000
De R$ 40.001 a R$ 50.000
De R$ 50.001 a R$ 100.000
Acima de R$ 100.000
Total

Frequncia
344
419
530
443
320
229
220
99
80
11
2.695

278
book.indb 278

07/08/2012 09:54:31

C A P T U L O 7 ANLISE EXPLORATRIA DE DADOS AMOSTRAIS

a) Determine a mdia e o desvio padro dessa varivel.


b) Determine a mediana e a distncia interquartil dessa varivel.
P7.6) Telefonia fixa per capita
A tabela de dados brutos a seguir reporta o nmero de linhas telefnicas por mil habitantes em cada
estado do Brasil, em 2001.
Telefonia fixa per capita em cada estado do Brasil em 2001
(em linhas telefnicas por mil habitantes)

Acre
Alagoas
Amap
Amazonas
Bahia
Cear
D. Federal
E. Santo
Gois

183,8
125,4
193,3
162,0
142,3
140,6
456,8
228,7
231,4

Maranho
M. Grosso
M. G. do Sul
Minas Gerais
Par
Paraba
Paran
Pernambuco
Piau

86,1
199,6
235,3
218,6
128,0
125,4
244,2
147,8
118,2

Rio Janeiro
R. G. do Norte
R. G. do Sul
Rondnia
Roraima
Santa Catarina
So Paulo
Sergipe
Tocantins

347,5
150,1
236,9
214,6
214,1
257,3
362,8
140,7
113,8

Fonte: Almanaque Abril 2002

a)
b)
c)
d)

Construa um ramo-folha para essa varivel.


Determine os seus quartis.
Construa o seu box plot.
H outliers entre essas observaes? Quais?

P7.7) Habitantes por leito hospitalar nos estados do Brasil


A tabela a seguir contm o nmero de habitantes por leito hospitalar em cada estado do Brasil em 2005.
Nmero de habitantes/leito no Brasil em 2005

Rio Janeiro
Gois
R. G. do Sul
Paran
M. G. do Sul
Sta. Catarina
Pernambuco
Paraba
Piau

341,30
344,83
354,61
362,32
364,96
375,94
395,26
398,41
404,86

Minas Gerais
Mato Grosso
R. G. do Norte
Acre
So Paulo
Maranho
E. Santo
Bahia
Cear

414,94
418,41
418,41
421,94
436,68
440,53
446,43
456,62
467,29

D. Federal
Tocantins
Rondnia
Alagoas
Par
Sergipe
Amazonas
Roraima
Amap

469,48
471,70
497,51
507,61
520,83
552,49
641,03
653,59
800,00

Fonte: IBGE Pesquisa Assistncia Mdico-Sanitria

a)
b)
c)
d)

Calcule a mdia, a mediana, o desvio padro e a distncia interquartil.


Faa um box plot desses dados.
Repita o item (a), porm excluindo o estado do Amap.
Compare as variaes em cada uma dessas quatro medidas, com e sem o Amap, e extraia concluses
a esse respeito.

279
book.indb 279

07/08/2012 09:54:31

ELSEVIER

P R O B A B I L I D A D E E E S TAT S T I C A

P7.8) Propriedades da distribuio Normal


Seja X uma varivel aleatria com distribuio Normal de mdia

e desvio padro . Sejam q 1 X ,

q 2 X e q 3 X os trs quartis de X, ou seja, eles so tais que P(X q 1 (X)) 1/4 ;

P(X q 2 (X)) 1/2 ;

P(X q 3 (X)) 3/4 .


Finalmente, sejam a q 1 (X) 1,5 q 3 (X) q 1 (X)

b q 1 (X) 1,5 q 3 (X) q 1 (X) .

a) Obtenha expresses matemticas para q 1 X , q 2 X e q 3 X em funo de


b) Prove que P a X b 0,99 .

e .

Obs.: Essa uma avaliao probabilstica do procedimento para apontar observaes aberrantes (usando
medidas resistentes) que foi exposto na teoria, para o caso de dados provenientes de um modelo Gaussiano.
P7.9) Proximidade entre medidas de centralidade e entre medidas de disperso
Quando o ramo-folha, obtido com base em um conjunto de dados relativos a uma determinada varivel,
sugere que:
existe simetria em torno de um valor central;
no h observaes discrepantes;
qual a sua expectativa no que se refere:
proximidade entre a mdia e a mediana dessa varivel?
proximidade entre o desvio padro e a distncia interquartil dessa varivel?
Justifique as suas respostas.
Sugesto: Imagine, por exemplo, que os dados foram gerados a partir de uma distribuio Normal.
P7.10) Nmero de hotis nos municpios da Regio Serrana do RJ
Os dados a seguir se referem ao nmero de estabelecimentos hoteleiros em cada um dos 37 municpios
da Regio Serrana do Estado de Rio de Janeiro em 2001.
Nmero de hotis na Regio Serrana do RJ 2001

Municpio
Areal
Barra Mansa
Barra do Pira
Engo. Paulo de Frontin
Itatiaia
Maring
Maromba
Penedo
Mendes
Paraba do Sul
Pira
Porto Real
Quatis

Hotis
3
22
18
8
121
17
20
55
5
12
7
4
5

Municpio
Resende
Engenheiro Passos
Visconde de Mau
Rio Claro
Rio das Flores
Sapucaia
Trs Rios
Valena
Conservatria
Volta Redonda
C. de Macacu
Guapimirim
Miguel Pereira

Hotis
36
4
12
10
2
5
15
34
20
14
14
7
12

Municpio
Nova Friburgo
Lumiar
So Pedro da Serra
Paty do Alferes
Petrpolis
Petrpolis / arredores
Rio Bonito
S. J. do Vale do Rio Preto
Silva Jardim
Terespolis
Vassouras

Hotis
84
16
14
8
83
58
6
5
6
44
9

280
book.indb 280

07/08/2012 09:54:31

ok.indb 279

C A P T U L O 7 ANLISE EXPLORATRIA DE DADOS AMOSTRAIS

a) Determine a mdia e o desvio padro dessa varivel.


b) Determine a mediana e a distncia interquartil dessa varivel.
P7.6) Telefonia fixa per capita
A tabela de dados brutos a seguir reporta o nmero de linhas telefnicas por mil habitantes em cada
estado do Brasil, em 2001.
Telefonia fixa per capita em cada estado do Brasil em 2001
(em linhas telefnicas por mil habitantes)

Acre
Alagoas
Amap
Amazonas
Bahia
Cear
D. Federal
E. Santo
Gois

183,8
125,4
193,3
162,0
142,3
140,6
456,8
228,7
231,4

Maranho
M. Grosso
M. G. do Sul
Minas Gerais
Par
Paraba
Paran
Pernambuco
Piau

86,1
199,6
235,3
218,6
128,0
125,4
244,2
147,8
118,2

Rio Janeiro
R. G. do Norte
R. G. do Sul
Rondnia
Roraima
Santa Catarina
So Paulo
Sergipe
Tocantins

347,5
150,1
236,9
214,6
214,1
257,3
362,8
140,7
113,8

Fonte: Almanaque Abril 2002

a)
b)
c)
d)

Construa um ramo-folha para essa varivel.


Determine os seus quartis.
Construa o seu box plot.
H outliers entre essas observaes? Quais?

P7.7) Habitantes por leito hospitalar nos estados do Brasil


A tabela a seguir contm o nmero de habitantes por leito hospitalar em cada estado do Brasil em 2005.
Nmero de habitantes/leito no Brasil em 2005

Rio Janeiro
Gois
R. G. do Sul
Paran
M. G. do Sul
Sta. Catarina
Pernambuco
Paraba
Piau

341,30
344,83
354,61
362,32
364,96
375,94
395,26
398,41
404,86

Minas Gerais
Mato Grosso
R. G. do Norte
Acre
So Paulo
Maranho
E. Santo
Bahia
Cear

414,94
418,41
418,41
421,94
436,68
440,53
446,43
456,62
467,29

D. Federal
Tocantins
Rondnia
Alagoas
Par
Sergipe
Amazonas
Roraima
Amap

469,48
471,70
497,51
507,61
520,83
552,49
641,03
653,59
800,00

Fonte: IBGE Pesquisa Assistncia Mdico-Sanitria

a)
b)
c)
d)

Calcule a mdia, a mediana, o desvio padro e a distncia interquartil.


Faa um box plot desses dados.
Repita o item (a), porm excluindo o estado do Amap.
Compare as variaes em cada uma dessas quatro medidas, com e sem o Amap, e extraia concluses
a esse respeito.

279

07/08/2012 09:5

book.indb 281

Q3
DIQ

20
14

Se for utilizado o critrio para identificao de observaes discrepantes que se baseia em medidas resistentes, teremos Cerca Superior Q3 1,5 DIQ 20 1,5 14 41 . Assim, seis das 37 observaes
(16%) seriam apontadas como possveis outliers, isto , municpios onde haveria um nmero anormalmente
alto de hotis: Terespolis (44), Penedo (55), Petrpolis/arredores (58), Petrpolis (83), Nova Friburgo (84)
e Itatiaia (121).
Responda:
a) Por que a mdia resultou em um valor bem maior que a mediana nesse caso?
b) Por que tantos municpios teriam sido apontados pelo critrio que identifica outliers?
P7.11) Dficit habitacional no Estado do Rio de Janeiro
A tabela a seguir contm o nmero de domiclios rsticos em alguns municpios do Estado do Rio de
Janeiro no ano 2000.
Nmero de domiclios rsticos no RJ 2000

Angra dos Reis


Araruama
Barra do Pira
Barra Mansa
Belford Roxo
Cabo Frio
Campos dos Goytacazes
Duque de Caxias
Guapimirim
Itabora
Itagua
Itaperuna
Japeri
Maca
Mag
Maric

572
117
741
250
339
566
1.119
556
51
132
70
74
122
143
567
64

Miracema
Niteri
Nova Friburgo
Nova Iguau
Petrpolis
Queimados
Resende
Rio das Ostras
Sto. Antnio de Pdua
So Gonalo
So Joo de Meriti
So Pedro da Aldeia
Saquarema
Seropdica
Terespolis
Valena

216
914
295
457
1.839
81
66
123
88
394
103
77
289
159
329
229

Fonte: Fundao Joo Pinheiro (FJP), Centro de Estatstica e Informaes (CEI)

a. Determine os quartis.
b. Obtenha um grfico box plot para esses dados.
c. Seria o grfico ramo-folha adequado para representar estes dados? Por qu?

281

07/08/2012 09:54

Sexo Masculino:

Sexo Feminino:

Mdia: 22; 30
Moda: 22; 00
3o Quartil: 25; 00
Mnimo: 17; 00
Mdia: 20; 88
Moda: 22; 00
3o Quartil: 23; 00
Mnimo: 10; 00

Mediana: 22; 00
1o Quartil: 20; 00
Varincia: 7; 51
Mximo: 26; 00
Mediana: 21; 00
1o Quartil: 19; 00
Varincia: 11; 93
Mximo: 28; 00

(a) Qual dos grupos (masculino ou feminino) evidencia desempenho mais


heterogneo? Justique com base a uma medida estatstica apropriada.
(b) H evidncia de dados discrepantes (outliers) no grupo masculino? Justique.
(c) H evidncia de dados discrepantes (outliers) no grupo feminino? Justique.
(d) Analise a assimetria da distribuio dos escores do grupo masculino.
(e) Analise a assimetria da distribuio dos escores do grupo feminino.
Exerccio 2 Houve uma denncia por parte dos operrios de uma indstria de que,
toda vez que ocorreria um acidente em uma seo da indstria, ocorreriam outros em
outras sees mais ou menos no mesmo horrio. Em outras palavras, os acidentes
no estavam ocorrendo ao acaso. Para vericar esta hiptese, foi feita uma contagem
do nmero de acidentes por hora durante um certo nmero de dias (24 horas por
dia). Os resultados da pesquisa esto abaixo:
Nmero de Acidentes por Hora 0
1
2
Nmero de Horas
200 152 60

3
30

4
13

5
9

6
7

7
5

(a) Qual o nmero mdio de acidentes por hora?


(b) E o nmero mediano?
(c) Qual a moda?
(d) Qual o desvio-padro?
(e) Avalie os dados quanto assimetria.
(f) Avalie os dados quanto curtose.

Coeciente de Correlao

Vimos anteriormente que o diagrama de disperso (scatterplot) usado quando


desejamos avaliar a relao entre duas variveis. A visualizao um primeiro passo
para um entendimento dessa possvel inuncia de uma varivel sobre outra, mas
h que se medir a correlao entre elas. O coeciente de correlao (r) a
medida comumente utilizada para se avaliar a correlao linear entre duas variveis
quantitativas.

8
4