Você está na página 1de 12

Lista de Exerccios de Probabilidade e Estatstica

Randy Ambrsio Quindai Joo

Para todos os problemas resolvidos, foram usados diferentes workspaces


com os dados da amostra em um arquivo temp.txt, as amostras tm um
cabealho diferente, dependendo do tipo da amostra. Por exemplo, uma
amostra com dados de temperatura ter um cabealho Temperatura, o comando
usado no R para a leitura da amostra temp=(temp.txt,header=T,sep=).

6-42) Conjunto de dados:


84 49 61 40 83 67 45 66 70 69 80 58 68 60 67 72 73 70 57 63 70 78 52 67
53 67 75 61 70 81 76 79 74 76 58 31

a) Os quartis inferior(q1)
frmulas respectivamente:

q 1 = (1 0.25)x n 1 + 0.25x n

superior(q3)

!
!
!
!

so

dados

pelas

seguintes

q 3 = (1 0.75)x n 1 + 0.75x n

Essas duas frmulas nos do uma aproximao razovel


mencionados. Seja n o tamanho da amostra, temos que n=36.

dos

quartis

Sabemos que:
O quartil inferior dado por >

!
!
E o quartil superior dado por >
!
!
!

1
1
(n + 1) = 25% =
(36 + 1) = 9.25
4
4
3
3
(n + 1) = 75% =
(36 + 1) = 27.75
4
4

Os termos Xn e Xn-1 so obtidos a partir da amostra ordenada, para q1


temos o 9 e o 10 elemento, para q3 temos o 27 e 28 elemento.
O comando sort(temp$Temperatura) do R ordena a amostra como segue:
31 40 45 49 52 53 57 58 58 60 61 61 63 66 67 67 67 67 68 69 70 70 70 70
72 73 74 75 76 76 78 79 80 81 83 84

Podemos verificar que o 9, 10, 27 e 28 elementos so 58, 60, 74 e 75


respectivamente, substituindo em q1 e q3 temos que:

!
!
q 3 = (1 0.75) * 74 + 0.75 * 75 = 74.75 !
!
!
q 1 = (1 0.25) * 58 + 0.25 * 60 = 58.5

b) A mediana depende de n, como n=36 um nmero par, segue que n/2=18,


logo a mediana dada pela mdia entre os 18 e 19 elementos da amostra
ordenada, segue que = (67+68)/2 = 135/2 = 67.5
Obs: Se n fosse mpar a mediana seria o valor central da amostra
ordenada.

Rodando o comando summary(temp) do R, podemos comparar e verificar que os


nossos clculos so coerentes com o resultado apresentado pelo R:

!
!

1 de 12

Temperatura
Min.
:31.00
1st Qu.:59.50
Median :67.50
Mean
:65.83
3rd Qu.:74.25
Max.
:84.00

c) Retirando o 31 da amostra temos que n=35, da amostra ordenada a


mediana o 18 elemento, que = 68.

!
!
O quartil inferior dado por >
!
!
!
O quartil superior dado por >
!
!

1
1
(n + 1) =
(35 + 1) = 9
4
4
3
3
(n + 1) =
(35 + 1) = 27
4
4

Logo, o primeiro e o terceiro quartil so dados pelos 9 e 27 elementos


respectivamente, assim: q1=60 e q3=75.

Note que a ausncia da temperatura 31F nos clculos, no afeta muito a


mediana nem os quartis, no entanto, note tambm que a maioria das
temperaturas em media duas vezes maior que 31, indcios que sugerem que
31 seja um outlier.

d) Para construir o boxplot precisamos achar o IQR, q1-1.5*IQR,


q3+1.5*IQR e q2, sendo:
IQR = q3 - q1
: desvio interquartil
q1-1.5*IQR
: menor valor da amostra maior que 1.5*IQR abaixo de q1
q3+1.5*IQR
: maior valor da amostra menor que 1.5*IQR acima de q3
q2 = mediana
: linha central do boxplot

Segue que:
IQR = 74.75 - 58.5 = 16.25
q1-1.5*IQR = 58.5 - 1.5*16.25 = 34.125
q3+1.5*IQR = 74.75 + 1.5*16.25 = 99.125

Temos que o maior valor da amostra menor que 1.5*IQR acima de q3 84 e o


menor valor da amostra maior que 1.5*16.25 abaixo de q1 40.

Do grfico a seguir podemos constatar que o dado 31 realmente um


outlier.

Comandos usados no R para gerar o grfico:


> boxplot(temp, main="Grfico de Caixa ",ylab="Temperatura (F)",
xlab="O-rings")
> png(filename="orings.png")
> boxplot(temp, main="Grfico de Caixa ",ylab="Temperatura (F)",
xlab="O-rings")
> dev.off()

!
!
!
!

2 de 12

6-64) Conjunto de dados:


0.19 0.78 0.96 1.31 2.78 3.16 4.15 4.67 4.85 6.50 7.35 8.01 8.27
12.06 31.75 32.52 33.91 36.71 72.89

O comando length(temp$Tempo) nos d o tamanho da amostra, n=19, a tabela


a seguir computa os valores ordenados de forma crescente para a
construo do grfico de Probabilidade Normal:

x(j)

Fa=(j-0.5)/n

zj

0.19

0,026

-1.93

0.78

0,079

-1.41

0.96

0,132

-1.11

1.31

0,184

-0.89

2.78

0,237

-0.71

3.16

0,289

-0.55
3 de 12

x(j)

Fa=(j-0.5)/n

zj

4.15

0,342

-0.40

4.67

0,395

-0.26

4.85

0,447

-0.13

10

6.50

0,5

0.00

11

7.35

0,553

0.13

12

8.01

0,605

0.26

13

8.27

0,658

0.40

14

12.06

0,711

0.55

15

31.75

0,763

0.71

16

32.52

0,816

0.89

17

33.91

0,868

1.11

18

36.71

0,921

1.41

19

72.89

0,974

1.93

Fa <- (1:19-0.5)/19 esse comando no R calcula a frequncia cumulativa da


amostra e atribui os valores varivel Fa.

Resolvendo Faj = Phi(Zj) para achar Zj,em que Zj so os escores normais


padres contra X(j), o comando usado no R foi Zj<- qnorm(Fa,0,1), esse
comando atribui varivel Zj os correspondentes Phi(Z) para cada valor
de Fa.

A partir do grfico abaixo no razovel admitir que o tempo de


esgotamento desse fluido isolante entre eletrodos a 34kV segue uma
distribuio normal, nota-se tambm um outlier no canto superior
direito.

Para o R gerar o grfico a seguir foram usados os seguintes comandos:


> temp <- read.table("temp.txt",header=T,sep="")
> Fa <- (1:19-0.5)/19
> ST <- sort(temp$Tempo)
> Zj <- qnorm(Fa,0,1)
> png(filename="normal.png")
> plot(ST,Zj,main="Grfico de Probabilidade\nTempo de Esgotamento de
Fluido Isolante entre Eletrodos a 34kV",ylab="Z - Escores Normal
Padro",xlab="Tempo (Minuto)")
> abline(lm(Zj~ST),col=2)
> dev.off()

!
!
!
!
!
!
!

4 de 12

!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
5 de 12

!
!

6-71) Conjunto de dados:


Altura das alunas:
62 64 66 67 65 68 61 65 67 65 64 63 67 68 64 66 68 69 65 67 62 66 68 67
66 65 69 65 70 65 67 68 65 63 64 67 67

Para o R gerar esse grfico foram usados os seguintes comandos:


> temp <- read.table("tempF.txt",header=T,sep="")
> n <- length(temp$Alunas)
> Fa <- (1:n-0.5)/n
> ST <- sort(temp$Alunas)
> Zj <- qnorm(Fa,0,1)
> png(filename="normalF.png")
> plot(ST,Zj,main="Grfico de Probabilidade da Altura\n das Alunas",
ylab="Z - Escores Normal Padro",xlab="Altura de Alunas")
> abline(lm(Zj~ST),col=2)
> dev.off()

!
!
!

6 de 12

Altura dos alunos:


69 67 69 70 65 68 69 70 71 69 66 67 69 75 68 67 68 69 70 71 72 68 69 69
70 71 68 72 69 69 68 69 73 70 73 68 69 71 67 68 65 68 68 69 70 74 71 69
70 69

Para o R gerar o esse grfico foram usados os seguintes comandos:


> temp <- read.table("tempM.txt",header=T,sep="")
> n <- length(temp$Alunos)
> Fa <- (1:n-0.5)/n
> ST <- sort(temp$Alunos)
> Zj <- qnorm(Fa,0,1)
> png(filename="normalM.png")
> plot(ST,Zj,main="Grfico de Probabilidade da Altura\n dos Alunos",
ylab="Z - Escores Normal Padro",xlab="Altura de Alunos")
> abline(lm(Zj~ST),col=2)
> dev.off()

Observando os dois grficos, eles seguem razoavelmente uma distribuio


normal, porm, a altura das alunas aparenta estar mais normalmente
distribuda em relao altura dos alunos.

7 de 12

6-76)

A viscosidade varia, mas sem um padro aparente.


b) O grfico indica que os dois processos geram resultados similares.
c) Usando o R para calcular a mdia da amostra temos que:
> ma <- sum(temp[1:40])/40
[1] 14.875
E usando o mtodo abreviado para o clculo da varincia, temos que:
> s2 <- (sum(temp[1:40]^2) - (sum(temp[1:40])^2)/40)/39
[1] 0.899359

Para as ltimas 40 observaes temos que a mdia e a varincia so


respectivamente:
> ma2 <- sum(temp[41:80])/40
[1] 14.9225
> s2_2 <- (sum(temp[41:80]^2) - (sum(temp[41:80])^2)/40)/39
[1] 1.046404

Podemos constatar que os dois processos possuem mdias muito prximas,


14.875 e 14.9225, mas a varincia um pouco maior no segundo processo,
0.899359 e 1.046404.

8 de 12

Cdigo R para gerar o grfico acima:


> temp <- scan(temp.txt")
> #criar uma serie temporal
> temptimeseries <- ts(temp)
> png(filename=tseries.png)
> plot.ts(temptimeseries,main="Srie Temporal, ylab=Viscosidade",
xlab=Tempo")
> dev.off()

6-77) Usando comandos do R para encontrar os dados para traar os


diagramas de caixa, temos que:
> temp = read.table(temp.txt")
> temp1 <- temp$V1[1:40]
> temp2 <- temp$V1[41:80]

Para as primeiras 40 observaes:


> quantile(temp1, type=2)
0%
25%
50%
75% 100%
12.60 14.30 14.90 15.35 17.00

> summary(temp1)
Min. 1st Qu. Median
12.60
14.30
14.90

Mean 3rd Qu.


14.88
15.32

Max.
17.00

Podemos observar que q1=14.30, q3=15.32, IQR = 15.35 - 14.30 = 1.05 e


mediana=14.90.

Para as ltimas 40 observaes:


> quantile(temp2,type=2)
0%
25%
50%
75% 100%
12.80 14.20 14.85 15.65 16.90

> summary(temp2)
Min. 1st Qu. Median
12.80
14.20
14.85

Mean 3rd Qu.


14.92
15.62

Max.
16.90

Podemos observar que q1=14.20, q3=15.62, IQR = 15.65 - 14.20 = 1.45 e


mediana=14.85.

No grfico a seguir note que na amostra 1 temos dois outliers, o 12.60


e 17.0, note tambm que os dados esto mais prximos da mediana, ao
contrrio da amostra 2 em que temos uma varincia maior, tambm podemos
observar que as medianas so muito prximas uma da outra.

!
!
!
!
!
!
!
!
!
!
!
!
!

9 de 12

6-78) Comando usados no R para traar o grfico:


> temp = scan("temp.txt")
> temps = ts(temp, start = c(1962,1), frequency=12)
> png(filename="temps.png")
> ts.plot(temps, type="b", main="Grfico de Srie Temporal\nVendas de
Champanhe na Frana(1962-1969)", ylab="Venda(garrafas)",xlab="Ano")
> dev.off()

a) Do grfico abaixo, podemos observar que apesar de


recadas, as vendas vo aumentando a cada ano que passa.

haver

algumas

b) Podemos prever que as vendas tm uma chance muito grande de aumentar


no ano 1970.

!
!
!
!
!
!
!
!
!
!
!

10 de 12

6-86) Usando o R para calcular os quartis a mediana e o desvio-padro,


temos que:
a)
> quantile(temp$V1)
0% 25% 50% 75% 100%
4.07 5.30 5.46 5.61 5.86

> summary(temp)
Min.
:4.07
1st Qu.:5.30
Median :5.46
Mean
:5.42
3rd Qu.:5.61
Max.
:5.86

> n <- length(temp$V1);n


[1] 29
> mediap <- (sum(temp$V1[1:n]))/n; mediap
[1] 5.419655

11 de 12

> s2 <- (sum(temp$V1[1:n]^2) - (sum(temp$V1[1:n])^2)/n)/(n-1); s2


[1] 0.1148392
> s <- sqrt(s2); s
[1] 0.3388793

Podemos observar que q1=5.30, q3=5.61, IQR = 5.61 - 5.30 = 0.31, media
amostral =5.4196555.42, mediana=5.46 e desvio-padro s=0.33887930.339

b)

Pelo grfico de probabilidade, podemos concluir que os dados no seguem


uma distribuio normal, temos tambm um outlier no canto inferior
esquerdo, muito fora dos limites da linha, visto que n=29<30, j era de
se esperar um desvio como esse, logo, podemos afirmar que as medidas de
Cavendish so assimtricas.

c) A densidade da Terra tem um valor mais preciso nas medidas que esto
mais prximas da linha, podemos notar tambm que eles se encontram muito
prximos uns dos outros, assim, a mediana seria sim a melhor estimativa.

12 de 12

Você também pode gostar