Escolar Documentos
Profissional Documentos
Cultura Documentos
1
C D E F G 2
X Y 3
Número de
Género cartões de Y (Amostra 4
hipermercado X ordenada)
Feminino 4 0 0 5
Masculino 1 1 0 6
Masculino 0 1 0 7
Masculino 2 1 0 8
Feminino 3 0 0 9
Masculino 1 1 0 10
Feminino 2 0 1 11
Masculino 3 1 1 12
Masculino 0 1 1 13
Masculino 0 1 1 14
Feminino 1 0 1 15
Feminino 5 0 2 16
Feminino 0 0 2 17
Masculino 2 1 2 18
Feminino 1 0 2 19
Feminino 0 0 3 20
Feminino 1 0 3 21
Feminino 2 0 3 22
Masculino 3 1 4 23
Masculino 0 1 5 24
Feminino: 0
Masculino: 1
(a)
(b)
(c)
C D E F G
67 yi ni Ni fi Fi
68 0 6 6 0,30 0,30
69 1 5 11 0,25 0,55
70 2 4 15 0,20 0,75
71 3 3 18 0,15 0,90
72 4 1 19 0,05 0,95
73 5 1 20 0,05 1,00
74
75 n= 20 Editar =SOMA(D68:D73)
C D E F G
93 xi ni Ni fi Fi
94 0 10 10 0,50 0,50
95 1 10 20 0,50 1,00
96 Luís Costa, Universidade de Aveiro - ISCA
97 n= 20 Editar =SOMA(D94:D95)
Assim, as respostas correspondentes a (d) são as seguintes:
Exercício 1.2
X
1
2 (a)
1
3 A variável estatística em estudo, X , descreve o tempo de leitura
2 de um aluno da escola no mês de férias, expresso em minutos.
2
2 (b)
3
3 A população em estudo consiste no conjunto de todos os alunos
3 da escola.
1
3
3
2
2
1
1
2
1
1
5
2
1
1
1
____________________________________________________________________________________________
X
Y
Z
(a)
Gráfico de barras: A • B C •
(O gráfico de barras é uma representação gráfica associada à distribuição de frequências de uma
amostra de uma variável estatística discreta. Ora, as variáveis estatísticas X e Z, definidas em A e
C, respetivamente, são discretas, pelo que o gráfico de barras é uma representação gráfica adequada.)
(b)
Histograma: A B • C •
(O histograma é uma representação gráfica associada à distribuição de frequências de uma
amostra de uma variável estatística contínua. Ora, a variável estatística Y, definida em B, é contínua,
pelo que o histograma é uma representação gráfica adequada.)
(c)
____________________________________________________________________________________________
Exercício 2.2
x máximo _____
____ y máximo
Q 0.75 _____
__ Q 0.75
Q 0.25 _____ __ Q 0.25
____ y mínimo
x mínimo _____
(a)
(b)
(c)
____________________________________________________________________________________________
File -> Options -> Add - ins -> Go -> Ativar "Analysis Toolpak" e "Analysis Toolpak - VBA" -> OK
Exercício 2.3
B C D
x i:n
xi (Amostra (Amostra
original) Ordem ordenada)
3 1 0 219
2 2 0 220
2 3 0 221
0 4 0 222
3 5 0 223
3 6 0
1 7 0
2 8 0
1 9 0
1 10 0
3 11 0
0 12 0
0 13 0
1 14 0
1 15 0
1 16 0
1 17 0
1 18 0
1 19 0
2 20 0
1 21 0
2 22 0
1 23 0
2 24 0
3 25 0 Luís Costa, Universidade de Aveiro - ISCA
2 26 0
2 27 0
3 28 0
1 29 0
1 30 0
2 31 0
1 32 0
4 33 0
2 34 0
1 35 0
3 36 0
0 37 0
1 38 0
1 39 0
2 40 0
4 41 0
0 42 0
2 43 0
5 44 0
3 45 0
1 46 0
2 47 0
2 48 0
5 49 0
1 50 0
3 51 0
2 52 0
5 53 0
4 54 0
3 55 0
2 56 0
2 57 0
0 58 0
2 59 0
1 60 0
2 61 0
3 62 0
1 63 0
3 64 0
1 65 0
1 66 0
2 67 0
6 68 0
1 69 0
2 70 0
3 71 0
4 72 0
0 73 0
1 74 0 Luís Costa, Universidade de Aveiro - ISCA
4 75 0
1 76 0
2 77 0
1 78 0
0 79 0
2 80 0
3 81 0
1 82 0
2 83 0 [ Determinação do primeiro quartil, do terceiro quartil e do
0 84 0 quantil de ordem 0,90, com recurso à função percentil. ]
1 85 0
0 86 0 Editar =PERCENTIL(B$219:B$1218;0,25)
4 87 0 Editar =PERCENTIL(B$219:B$1218;0,75)
3 88 0 Editar =PERCENTIL(B$219:B$1218;0,90)
1 89 0 Q 0.25 = 1
4 90 0 Q 0.75 = 3
1 91 0 Q 0.90 = 4
1 92 0
2 93 0
1 94 0
1 95 0
3 96 0
4 97 0
4 98 0
1 99 0
3 100 0
1 101 0
2 102 0
0 103 0
1 104 0
4 105 0
1 106 0
2 107 0
2 108 0
2 109 0
2 110 0
3 111 0
2 112 0
4 113 0
2 114 0
1 115 0
3 116 0
5 117 0
4 118 0
0 119 0
0 120 1
2 121 1
1 122 1
3 123 1 Luís Costa, Universidade de Aveiro - ISCA
1 124 1
3 125 1
1 126 1
2 127 1
1 128 1
2 129 1
0 130 1
2 131 1
0 132 1
0 133 1
1 134 1
5 135 1
1 136 1
1 137 1
1 138 1
1 139 1
3 140 1
0 141 1
2 142 1
3 143 1
1 144 1
1 145 1
0 146 1
0 147 1
1 148 1
4 149 1
3 150 1
1 151 1
2 152 1
3 153 1
4 154 1
2 155 1
1 156 1
1 157 1
3 158 1
2 159 1
3 160 1
5 161 1
1 162 1
3 163 1
1 164 1
0 165 1
1 166 1
2 167 1
1 168 1
4 169 1
0 170 1
2 171 1
1 172 1
4 173 1 Luís Costa, Universidade de Aveiro - ISCA
3 174 1
0 175 1
1 176 1
3 177 1
3 178 1
2 179 1
6 180 1
1 181 1
3 182 1
2 183 1
3 184 1
2 185 1
1 186 1
2 187 1
3 188 1
2 189 1
4 190 1
2 191 1
4 192 1
3 193 1
2 194 1
1 195 1
4 196 1
2 197 1
3 198 1
0 199 1
3 200 1
5 201 1
4 202 1
3 203 1
2 204 1
3 205 1
1 206 1
2 207 1
3 208 1
4 209 1
2 210 1
1 211 1
1 212 1
0 213 1
3 214 1
5 215 1
3 216 1
2 217 1
3 218 1
0 219 1
2 220 1
1 221 1
4 222 1
1 223 1 Luís Costa, Universidade de Aveiro - ISCA
2 224 1
2 225 1
6 226 1
0 227 1
1 228 1
1 229 1
4 230 1
1 231 1
3 232 1
4 233 1
1 234 1
2 235 1
3 236 1
1 237 1
1 238 1
2 239 1
2 240 1
4 241 1 x np : n + x np + 1 : n
⇐ np ∈ N
7 242 1 2
1 243 1 Q p =
6 244 1 x ⇐ np ∉ N
0 245 1 [np ]+ 1 : n
2 246 1
3 247 1
5 248 1 [ Cálculo associado a 3 (e) (Determinação do primeiro
3 249 1 quartil.). ]
0 250 1 Tem-se np= 1000*0,25=250.
5 41 205 9
1270
6
7
18
3
108
21
x =
1
1000 ∑i =1
ni xi
Coluna1
Média 2,069 Média amostral
Erro-padrão 0,045589
Mediana 2
Moda 1
Desvio-padrão 1,441637 Desvio padrão corrigido
Variância da amostra2,078317 Variância corrigida
Curtose 0,572087 Coeficiente de curtose
Assimetria 0,748826 Coeficiente de assimetria
Intervalo 9 Amplitude amostral
Mínimo 0 Observação mínima
Máximo 9 Observação máxima
Soma 2069 Luís Costa, Universidade de Aveiro - ISCA
Contagem 1000 Dimensão amostral
(a)
(b)
(c)
(d)
(e)
(f)
Face ao valor do percentil de ordem 0.9, podemos dizer que apenas 10%
dos textos observados apresentam mais de __4__ erros.
____________________________________________________________________________________________
Exercício 2.4
Para um conjunto de dados qualitativos, qual das medidas de tendência central faz sentido
calcular?
A. Média B. Mediana C. Moda •
As medidas de localização média e mediana envolvem cálculos, que só têm significado quando
as observações da amostra em estudo (dados) são representadas por números, e não por
qualidades. Acresce que, quando se dispõe de uma amostra discreta de uma variável qualitativa
(ou seja, um conjunto de dados qualitativos), a medida de localização Moda possui significado,
pois exige, apenas, a identificação da observação correspondente à maior frequência.
____________________________________________________________________________________________
21,96 0,40
22,00
0,30
22,02
22,25 0,20
22,36 0,10
22,61
22,81 0,00
[2,6] ] 6 , 10 ] ] 10 , 14 ] ] 14 , 18 ] ] 18 , 22 ] ] 22 , 26 ] ] 26 , 30 ]
22,85
22,90
22,91
22,91
22,92
22,93
22,93
22,95
23,42
23,45
23,74
23,82
24,27
24,43
24,53
24,92
24,93
25,00
25,00
27,00
30,00
____________________________________________________________________________________________
Luís Costa, Universidade de Aveiro - ISCA
Exercício 2.6
1985 X Ordem
setembro 467 1
novembro 496 2
fevereiro 498 3
outubro 512 4
janeiro 522 5
dezembro 525 6
abril 586 7
agosto 610 8
março 643 9
julho 671 10
junho 933 11
1986 Y Ordem
setembro 445 1
outubro 448 2
agosto 477 3
junho 481 4
julho 486 5
novembro 519 6
fevereiro 527 7
maio 536 8
abril 538 9
dezembro 540 10
janeiro 545 11
X Y
Coluna1 Coluna1
(a)
(c)
Uma vez que a mediana referente à amostra associada a 1985 vale 525, podemos afirmar
que 0,50*100%=50% das observações assumem um valor menor ou igual a 525 (chamadas por
mês).
Por outro lado, dado que a mediana referente à amostra associada a 1986 vale 519, podemos
afirmar que 0,50*100%=50% das observações assumem um valor menor ou igual a 519
(chamadas por mês).
(d)
Como np=11*0,25=2,75 não é um número natural, tem-se Q0.25= x[2,75]+1:11= x3:11= 498.
Como np=11*0,75=8,25 não é um número natural, tem-se Q0.75= x[8,25]+1:11= x9:11= 643.
Por conseguinte, a amplitude interquartis consiste em r q = 643 - 498 = 145 (chamadas por mês).
A metade central da amostra (a mais importante) está compreendida entre 498 e 643 chamadas
por mês.
A dispersão da amostra é considerável, pois a amplitude interquartis assume um valor que não é
muito pequeno relativamente aos valores assumidos pelas observações de X .
Luís Costa, Universidade de Aveiro - ISCA
(e)
(f) D E F
Nova amostra
1985 X Ordem X´ 1565
setembro 467 1 467 1566
novembro 496 2 496 1567
fevereiro 498 3 498 1568
outubro 512 4 512 1569
janeiro 522 5 522 1570
dezembro 525 6 525 1571
abril 586 7 586 1572
agosto 610 8 643 1573
março 643 9 671 1574
julho 671 10 933 1575
junho 933 11 Média: 585,30
Editar =media(F1566:F1575)
Nova amostra
1986 Y Ordem Y´ 1579
setembro 445 1 445 1580
outubro 448 2 448 1581
agosto 477 3 481 1582
junho 481 4 486 1583
julho 486 5 519 1584
novembro 519 6 527 1585
fevereiro 527 7 536 1586
maio 536 8 538 1587
abril 538 9 540 1588
dezembro 540 10 545 1589
janeiro 545 11 Média: 506,50
Editar =media(F1580:F1589)
Determinação da mediana da nova amostra associada a 1985:
x 10 + x 10
:10 +1:10 x5:10 + x6:10
Como n=10 é par, tem-se 522 + 525
Me = 2 2 = = = 523,50 .
2 2 2
x = 585,30, y = 506,50 .
Luís Costa, Universidade de Aveiro - ISCA
Comparação das médias e das medianas:
1985 1986
Média Mediana Média Mediana
Amostra original 587,55 525,00 503,82 519,00
Nova amostra 585,30 523,50 506,50 523,00
A média e a mediana da nova amostra sofrem alterações de valor muito reduzidas, relativamente
ao valor original destas medidas.
Em particular, as pequenas variações das médias amostrais ficam a dever-se ao facto de as observações
excluídas, referentes ao mês de agosto, assumirem valores próximos das médias amostrais
originais.
____________________________________________________________________________________________
Exercício 2.8
(a) C D E F G
Quadro de Frequências
1625 Classes (meses) ni Ni fi Fi
1626 [ -6 , 0 ] 42 42 0,2400 0,2400
1627 ]0,6] 83 125 0,4743 0,7143
1628 ] 6 , 12 ] 27 152 0,1543 0,8686
1629 ] 12 , 18 ] 23 175 0,1314 1,0000
Editar = E1626+D1627
Estender a instrução anterior às restantes células.
Editar =D1626/175
Estender a instrução anterior às restantes células.
Editar =E1626/175
Estender a instrução anterior às restantes células.
0,4000
0,3000
0,2000
0,1000
0,0000
[ -6 , 0 ] ]0,6] ] 6 , 12 ] ] 12 , 18 ]
(b.1)
Falsa Só 10% dos diplomados inquiridos demoraram um ano ou mais a obter o primeiro emprego.
(Dado que 0,87*100%=87% dos inquiridos demoraram um ano ou menos para obter o primeiro emprego,
deduz-se que (100-87)%=13% dos inquiridos demoraram mais de um ano para obter o primeiro emprego,
donde decorre que a afirmação exposta é falsa.)
(b.2)
Falsa A percentagem de inquiridos que demoraram 9.06 meses a obter o primeiro emprego é 60%.
(Uma vez que 100*F2% = 0,71*100% = 71% dos inquiridos demoraram 6 meses ou menos para obter o
primeiro emprego, conclui-se a percentagem de inquiridos que demoraram 9.06 meses para obter o
primeiro emprego é superior a 71%, pelo que a afirmação exposta é falsa.)
(b.3)
(Observando que a classe modal é representada pelo intevalo ] 0 , 6 ], pois corresponde à maior frequência,
deduz-se que a moda consiste em Mo = (0+6)/2 = 3 (meses), donde decorre que a afirmação proposta é
verdadeira.) Luís Costa, Universidade de Aveiro - ISCA
(b.4)
Verdadeira (Pelo menos) 50% dos inquiridos obtiveram o primeiro emprego antes dos 6 meses.
(Uma vez que 100*F2% = 0,71*100% = 71% dos inquiridos demoraram 6 meses ou menos para obter o
primeiro emprego, percentagem esta que é superior a 50%, donde se conclui qua a afirmação apresentada
é verdadeira.)
(b.5)
1724 ] 12 , 18 ] 23 15 345 x =
1
175 ∑ i =1
n i x i′
1725 Soma: 711
Média amostral: 4,06 (meses) Editar =F1725/175
[ Determinação da mediana. ]
6−0 Me − 0
= ⇔ Me ≈ 3,32 (meses).
0 ,71 − 0 , 24 0 ,50 − 0 , 24
____________________________________________________________________________________________
Exercício 2.9
X Ordem
10 1
10 2
10 3
23 4
23 5 Luís Costa, Universidade de Aveiro - ISCA
23 6
23 7
23 8 Quadro de Frequências
32 9 xi ni Ni fi Fi
32 10 10 3 3 0,06 0,06
32 11 23 5 8 0,10 0,16
32 12 32 10 18 0,20 0,36
32 13 41 12 30 0,24 0,60
32 14 55 20 50 0,40 1,00
32 15
32 16
32 17
32 18
41 19
41 20
41 21
41 22
41 23
41 24
41 25
41 26
41 27
41 28
41 29
41 30
55 31
55 32
55 33
55 34
55 35
55 36
55 37
55 38
55 39
55 40
55 41
55 42
55 43
55 44
55 45
55 46
55 47
55 48
55 49
55 50
(a)
Trata-se da função, F , tal que F (10 ) = 0,06, F (23 ) = 0,16 , F (32 ) = 0,36, F (41) = 0,60, F (55 ) = 1,00 .
Fazendo uso do complemeto "Análise de Dados" do Excel, obtemos o quadro de medidas seguinte:
Coluna1
Média 41,14
Erro-padrão 1,941178
Mediana 41
Moda 55
Desvio-padrão 13,7262 Desvio padrão corrigido
Variância da amostra188,4086 Variância corrigida
Curtose -0,48288
Assimetria -0,61504
Intervalo 45
Mínimo 10
Máximo 55
Soma 2057
Contagem 50
(c)
(d)
Dado que F(32)=0,36, somos levados a concluir que 100*0,36%=36% das observações assumem
valor não superior a 32, donde decorre que (100-36)% = 64% das observações assumem valor
superior a 32.
Assim, como as observações 41 e 55 são superiores à observação 35, pode-se inferir que
64% das durações de auditoria são superiores a 35 horas.
(e)
C D E F
1844 xi ni nixi n i* (x i -média) 2
1845 10 3 30 2909,10 Eitar = D1845*(C1845-$E$1851)^2
1846 23 5 115 1645,30
1847 32 10 320 835,40 5
1848
1849
41
55
12
20
492
1100
0,24 S 2 = 1
3841,99 50
i =1
∑
n i (x i − x ) 2
x − M0 41,14 − 55,00
em gP = ≈ ≈ -1,02 , é negativo, podemos deduzir que a distribuição de
s 13,59
(f)
60
50
40 xmáximo
30 Q0.75
Q0.25
20
xmínimo
10
0
Diagrama de Extremos e Quartis
____________________________________________________________________________________________
Luís Costa, Universidade de Aveiro - ISCA
Exercício 2.10
(a)
X : "Montante do empréstimo, expresso em unidades monetárias."
xi
30
30
35
35
45
45
50
50
55
55
60
60 Adotamos 6 classes.
65
70 Amplitude de cada classe:
75 h = Amplitude amostral/Número de classes = ( 300 - 30) / 6 = 45 (u.m.)
75
85 Classes consideradas:
85
90 [ 30 , 75 ]
90 ] 75 , 120 ]
95 ] 120 , 165 ]
100 ] 165 , 210 ]
100 ] 210 , 255 ]
100 ] 255 , 300 ]
110
120
120 Classes bi ni Ni fi Fi
125 [ 30 , 75 ] 75 16 16 0,400 0,400
130 Classe mediana ] 75 , 120 ] 120 11 27 0,275 0,675
140 ] 120 , 165 ] 165 7 34 0,175 0,850
150 ] 165 , 210 ] 210 4 38 0,100 0,950
150 ] 210 , 255 ] 255 1 39 0,025 0,975
160 ] 255 , 300 ] 300 1 40 0,025 1,000
165
180
190
200
200
250
300
0,400
0,300
0,200
0,100
0,000
[ 30 , 75 ] ] 75 , 120 ] ] 120 , 165 ] ] 165 , 210 ] ] 210 , 255 ] ] 255 , 300 ]
(c)
Classes x´ i ni n i x´ i
[ 30 , 75 ] 52,5 16 840,00
] 75 , 120 ] 97,5 11 1072,50
] 120 , 165 ] 142,5 7 997,50
] 165 , 210 ] 187,5 4 750,00
] 210 , 255 ] 232,5 1 232,50
] 255 , 300 ] 277,5 1 277,50
Soma: 4170,00
Média amostral: 104,25 (u.m.)
Determinação da mediana:
Identificação da classe mediana: ] 75 , 120 ]
Interpolação linear:
120 − 75 Me − 75 45 4,5
= ⇔ Me − 75 = * 0,1 ⇔ Me = 75 + ⇔ Me ≈ 91,36 (u.m.)
0,675 − 0,400 0,500 − 0,400 0,275 0,275
Interpolação linear:
165 − 120 Q 0 .75 − 120 45 3,375
= ⇔ Q 0 . 75 − 120 = * 0 , 075 ⇔ Q 0 . 75 = 120 + 91,36
0 ,850 − 0 , 675 0 , 750 − 0 , 675 0 ,175 0 ,175
52,5 16 42849,00 6
∑ n (x ′ − x )
2011
1
2012 97,5 11 501,19 S c2 = i i
2
40 − 1
2013 142,5 7 10241,44 i =1
2014 187,5 4 27722,25
2015 232,5 1 16448,06
2016 277,5 1 30015,56 Sc = S c2
2017 Soma: 127777,50
2018 Variância corrigida, S c2 : 3276,35 (u.m.2)
2019 Desvio padrão corrigido, S c : 57,24 (u.m.) Editar =E2018^0,5
(d)
xi Ordem
30 1 Coluna1
30 2
35 3 Média 106,75
35 4 Erro-padrão 9,891316446
45 5 Mediana 92,5
45 6 Moda 100
50 7 Desvio-padrão62,55817805 Desvio padrão corrigido
50 8 Variância da 3913,525641
amostra Variância corrigida
55 9 Curtose 1,198643764
55 10 Assimetria 1,117774662
60 11 Intervalo 270
60 12 Mínimo 30
65 13 Máximo 300
70 14 Soma 4270
75 15 Contagem 40
75 16
85 17
85 18 [ Determinação do primeiro quartil. ]
90 19
90 20 Tem-se np=40*0,25=10 .
95 21 Como np é um número natural, conclui-se que
100 22 Q 0.25 = (x 10:40 +x 11:40 )/2=(55+60)/2=57,5.
100 23
100 24
110 25
120 26 [ Determinação do terceiro quartil. ]
120 27
125 28 Tem-se np=40*0,75=30 .
130 29 Como np é um número natural, conclui-se que
140 30 Q 0.75 = (x 30:40 +x 31:40 )/2=(140+150)/2=145.
150 31
150 32
160 33 Luís Costa, Universidade de Aveiro - ISCA
165 34
180 35
190 36
200 37
200 38
250 39
300 40
150
100
50
0
Diagrama de Extremos e Quartis
(e)
(f)
Por conseguinte, cerca de 100*0,88%=88% das observações assumem valor inferior ou igual
a 180 (u.m.).
Daqui decorre que 40*0,88 = 35,2 das observações, aproximadamente, assumem
valor inferior ou igual a 180 (u.m.).
Tal significa que existem, aproximadamente, 35 empréstimos de valor inferir ou igual a 180
unidades monetárias. Luís Costa, Universidade de Aveiro - ISCA
____________________________________________________________________________________________
Exercício 3.1
Y X W
Vinho Preço ParkerPoints CoatesPoints
Lafite 2850 100 19,5
Latour 2850 98 18,5
Margaux 2900 100 19,5
Mouton 2500 97 17
Haut Brion 2500 98 18,5
Cheval Blanc 3650 100 19,5
Ausone 4200 100 18,5
Petrus 10500 100 18,5
Pichon-Lalande 880 97 16,5
Pichon-Baron 550 96 17,5
Duhart-Milon 210 90 16
Batailley 150 87 15,5
Haut-Batailley 180 90 16,5
Grand-Puy-Lacoste 380 92 18
Lynch-Bages 620 95 16
Pontet-Canet 330 92 16,5
D'Armailhac 210 91 15,5
Clerc-Millon 225 91 16
Leoville-Las-Cases 1300 100 18,5
Leoville-Poyferre 465 95 17,5
Leoville-Barton 780 96 18,5
Gruaud-Larose 520 94 17
Ducru-Beaucaillou 680 94 18,5
Lagrange 260 93 15
Langoa-Barton 240 91 17
Saint-Pierre 180 89 16,5
Talbot 330 90 17
Beychevelle 240 91 16,5
Rauzan-Segla 420 90 17,5
Durfort-Vivens 180 88 17
Lascombes 230 90 17
Brane-Cantenac 255 92 16,5
Malescot 275 92 18
Palmer 900 95 18
Prieure-Lichine 180 88 15
Montrose 560 97 17,5
Calon-Segur 500 95 17,5
Haut-Marbuzet 225 87 17
Haut-Bailly 265 90 17,5
Domaine de Chevalier 260 90 18
La Mission Haut-Brion 2500 100 18
Pape-Clement 380 95 17
La Tour Haut-Brion 310 92 17
Angelus 980 96 18
Beau-Sejour-Becot 380 93 17
Beausejour 450 92 17,5 Luís Costa, Universidade de Aveiro - ISCA
Belair 250 87 16,5
Canon 360 89 18
Clos Fourtet 325 90 15
Figeac 520 93 18
La Gaffeliere 280 90 15,5
Magdelaine 350 92 18
Pavie 1600 100 14,5
Trottevieille 250 89 15
La Mondotte 2400 98 18
Troplong-Mondot 450 96 17,5
Pavie-Macquin 520 95 17,5
Tertre-Roteboeuf 1300 96 17,5
De Valandraud 1620 93 16,5
Trotanoy 800 92 18,5
La Fleur-Petrus 500 95 18
Latour-a-Pomerol 350 91 17,5
Vieux, Ch, Certan 840 94 18
Certran de May 550 91 16
La Conseillante 1250 96 17,5
L'Evangile 1500 96 18
Le Pin 10500 98 17,5
Lafleur 5000 100 18
Gazin 300 90 16
Clinet 700 92 15,5
L'Eglise-Clinet 1400 96 18
Clos L'Eglise 1220 96 17
(a)
C D
ParkerPoints CoatesPoints
X (variável independente)W (variável dependente)
2189 100 19,5
2190 98 18,5
2191 100 19,5
2192 97 17
2193 98 18,5
2194 100 19,5
2195 100 18,5
2196 100 18,5
2197 97 16,5
2198 96 17,5
2199 90 16
2200 87 15,5
2201 90 16,5
2202 92 18
2203 95 16
2204 92 16,5
2205 91 15,5
2206 91 16
2207 100 18,5
2208 95 17,5 Luís Costa, Universidade de Aveiro - ISCA
2209 96 18,5
2210 94 17
2211 94 18,5
2212 93 15
2213 91 17
2214 89 16,5
2215 90 17
2216 91 16,5
2217 90 17,5
2218 88 17
2219 90 17
2220 92 16,5
2221 92 18
2222 95 18
2223 88 15
2224 97 17,5
2225 95 17,5
2226 87 17
2227 90 17,5
2228 90 18
2229 100 18
2230 95 17
2231 92 17
2232 96 18
2233 93 17
2234 92 17,5
2235 87 16,5
2236 89 18
2237 90 15
2238 93 18
2239 90 15,5
2240 92 18
2241 100 14,5
2242 89 15
2243 98 18
2244 96 17,5
2245 95 17,5
2246 96 17,5
2247 93 16,5
2248 92 18,5
2249 95 18
2250 91 17,5
2251 94 18
2252 91 16
2253 96 17,5
2254 96 18
2255 98 17,5
2256 100 18
2257 90 16
2258 92 15,5
2259 96 18
2260 96 17
Luís Costa, Universidade de Aveiro - ISCA
Instrução Excel destinada a obter o coeficiente de correlação linear, R :
Editar "=CORREL(Domínio de células que contém a amostra da variável independente (explicativa);
Domínio de células que contém a amostra da variável dependente (explicada))".
R= 0,548 =CORREL(C2189:C2260;D2189:D2260)
Dados -> Análise de Dados -> Regressão -> OK -> Inserir "Intervalo Y" (variável dependente) ->
Inserir "Intervalo X" (variável independente) -> Ativar "Intervalo de saída", inserindo a localização da célula
de colagem do canto superior esquerdo da folha de resultados -> OK.
Estatística de regressão
R múltiplo 0,548 Coeficiente de correlação linear, R.
Quadrado de R 0,300 Índice de correlação linear, R 2.
Quadrado de R ajustado 0,290 ( O coeficiente de correlação linear, R, é positivo, visto que este deve
Erro-padrão 0,948 possuir o mesmo sinal que o coeficiente de regressão linear, βˆ . )
Observações 72
α̂ : ordenada na origem.
ANOVA βˆ : coeficiente de regressão linear.
gl SQ MQ F F de significância
Regressão 1 27,0047 27,00470385 30,048873 6,26538E-07
Residual 70 62,90849 0,898692723
Total 71 89,91319
Coeficientes Erro-padrão Stat t valor P 95% inferior 95% superior Inferior 95,0%
Interceptar
( αˆ ≈ )
1,808 2,81299 0,642561026 0,5226081 -3,80281399 7,41785 -3,80281
X
( βˆ ≈ ) 0,164 0,030008 5,48168527 6,265E-07 0,104646136 0,224345 0,104646
αˆ ≈ 1,808, βˆ ≈ 0,164, yˆ = 1,808 + 0,164 x ( equação da reta de regressão linear ).
(b)
Verdadeira O valor do coeficiente de correlação linear significa que as classificações dos dois enólogos
estão positivamente correlacionadas.
( Uma vez que R , que vale aproximadamente 0,548, pertence ao intervalo ]0,1],
conclui-se que as classificações atribuídas pelos enólogos, ou seja as variáveis x e w , variam
no mesmo sentido, o que equivale a dizer-se que estão positivamente correlacionadas. )
(c)
Verdadeira O valor do coeficiente de correlação linear significa que existe uma associação linear entre as
classificações dos dois enólogos. Luís Costa, Universidade de Aveiro - ISCA
( Dado que R não é nulo, existe associação linear entre x e w . )
(d)
ParkerPoints Preço
(Variável independente (explicativa)) X Y (Variável dependente (explicada))
Diagrama de Dispersão, Y(X)
100 2850
98 2850
100 2900
97 2500
98 2500
100 3650
100 4200
100 10500
97 880
96 550
90 210
87 150
90 180
92 380
95 620
92 330
91 210
91 225
100 1300
95 465
96 780
94 520
94 680
93 260
91 240
89 180
90 330
91 240
90 420
88 180
90 230
92 255
92 275
95 900
88 180
97 560
95 500
87 225
90 265
90 260
100 2500
95 380
92 310
96 980
93 380
92 450
87 250
89 360 Luís Costa, Universidade de Aveiro - ISCA
90 325
93 520
90 280
92 350
100 1600
89 250
98 2400
96 450
95 520
96 1300
93 1620
92 800
95 500
91 350
94 840
91 550
96 1250
96 1500
98 10500
100 5000
90 300
92 700
96 1400
96 1220
(e)
CoatesPoints Preço
(Variável independente (explicativa)) w Y (Variável dependente (explicada))
Diagrama de Dispersão, Y(W)
19,5 2850
18,5 2850
19,5 2900
17 2500
18,5 2500
19,5 3650
18,5 4200
18,5 10500
16,5 880
17,5 550
16 210
15,5 150
16,5 180
18 380
16 620
16,5 330
15,5 210
16 225
18,5 1300
17,5 465
18,5 780
17 520
18,5 680
15 260
17 240
16,5 180
17 330
16,5 240
17,5 420
17 180
17 230
16,5 255
18 275
18 900
15 180
17,5 560
17,5 500
17 225
17,5 265
18 260
18 2500
17 380
17 310
18 980
17 380
17,5 450 Luís Costa, Universidade de Aveiro - ISCA
16,5 250
18 360
15 325
18 520
15,5 280
18 350
14,5 1600
15 250
18 2400
17,5 450
17,5 520
17,5 1300
16,5 1620
18,5 800
18 500
17,5 350
18 840
16 550
17,5 1250
18 1500
17,5 10500
18 5000
16 300
15,5 700
18 1400
17 1220
0
0 5 10 15 20 25
-2000
Luís Costa, Universidade de Aveiro - ISCA
Assim, a equação definidora da reta de regressão linear consiste em __y = 618,87x - 9472,6__.
(f)
(g)
Falsa A variabilidade nos preços é explicada em maior percentagem pelo modelo de regressão linear
relativo às classificações do enólogo Coates.
( Uma vez que o índice de correlação linear, R 2 , referente à reta de regressão linear do preço, y, sobre
a classificação do enólogo Parker, x, que vale aproximadamente 0,3704, é superior ao índice de correlação
linear, R2,referente à reta de regressão linear do preço, y, sobre a classificação do enólogo CoatesParker, w,
que vale aproximadamente 0,1366, podemos concluir que o melhor ajustamento linear é o primeiro.
Com efeito, 0,3704*100%=37,04% da variação do preço, y, é explicada pela variação da classificação do
enólogo Parker, x.
Por outro lado, 0,1366*100%=13,66% da variação do preço, y, é explicada pela variação da classificação do
enólogo Coates, w. )
(h)
CoatesPoints Preço
(Variável independente (explicativa)) w Y (Variável dependente (explicada))
19,5 2850
18,5 2850
19,5 2900
17 2500
18,5 2500
19,5 3650
18,5 4200
18,5 10500
16,5 880
17,5 550
16 210
15,5 150
16,5 180
18 380
16 620
16,5 330
15,5 210
16 225
18,5 1300
17,5 465
18,5 780 Luís Costa, Universidade de Aveiro - ISCA
17 520
18,5 680
15 260
17 240
16,5 180
17 330
16,5 240
17,5 420
17 180
17 230
16,5 255
18 275
18 900
15 180
17,5 560
17,5 500
17 225
17,5 265
18 260
18 2500
17 380
17 310
18 980
17 380
17,5 450
16,5 250
18 360
15 325
18 520
15,5 280
18 350
14,5 1600
15 250
18 2400
17,5 450
17,5 520
17,5 1300
16,5 1620
18,5 800
18 500
17,5 350
18 840
16 550
17,5 1250
18 1500
17,5 10500
18 5000
16 300
15,5 700
18 1400 Luís Costa, Universidade de Aveiro - ISCA
17 1220
Procedimento referente à obtenção da representação gráfica e analítica da curva de regressão exponencial:
Clicar sobre um marcador no diagrama de dispersão -> Adicionar linha de tendência
-> Ativar opção "Exponencial" -> Ativar as opções "Mostrar equação no gráfico." e "Mostrar o valor de R 2
no gráfico." -> Fechar.
10000
8000
6000
4000
y = 0,1184e0,498x
2000
R² = 0,3026
0
0 5 10 15 20 25
O modelo exponencial é preferível ao modelo linear, porquanto R 2(modelo exponencial) > R2(modelo linear).
____________________________________________________________________________________________
Exercício 3.2
(a)
15
10
0
0 2 4 6 8 10 12 14
15
10
5
y = -1,5712x + 23,568
R² = 0,9301
0
0 2 4 6 8 10 12 14
Assim, a equação definidora da reta de regressão linear que ajusta a amostra de dados consiste em .
yˆ = 23 , 568 − 1 , 5712 x .
(b)
O valor assumido pelo declive da reta de regressão linear consiste no coeficiente de regressão linear,
βˆ ≈ −1,5712 , pelo que aquele pode ser interpretado como sendo a diminuição prevista de consumo de
gás, 1.57 m 3, correspondente ao aumento da temperatura média em 1 oC.
(c)
15
10
y = 42,396e-0,18x
5
R² = 0,9022
0
0 2 4 6 8 10 12 14 Luís Costa, Universidade de Aveiro - ISCA
O modelo exponencial que ajusta esta amostra de dados é definido pela equação yˆ = 42 , 396 e − 0 ,18 x .
(d)
O modelo de regressão linear, definido pela equação yˆ = 23 , 568 − 1 , 5712 x , oferece-nos um melhor
ajustamento aos dados, uma vez que o respetivo índice de correlação linear, R 2=0.93 , é superior ao
2
índice de correlação associado à curva de regressão exponencial obtida em (c), R =0.90 .
____________________________________________________________________________________________
Exercício 3.3
(a)
Distância
Tempo de entrega
percorrida (Km),
(minutos), Y
X
Diagrama de Dispersão,
Y(X)
1,0 11
0,6 10
2,0 20
1,5 29
3,2 25
3,9 34
2,6 30
2,0 15
0,9 11
1,1 16
A equação definidora da reta de regressão linear que ajusta a amostra em estudo consiste em yˆ = 6 , 7378 x + 7 , 4329 .
(b)
O valor assumido pelo declive da reta de regressão linear consiste no coeficiente de regressão linear,
βˆ ≈ 6,74 , pelo que aquele é interpretável como sendo o aumento previsto do tempo de entrega,
6,74 minutos, correspondente ao aumento da distância percorrida em 1 km.
(c)
(i) Obtenção dos valores assumidos pelo coeficiente de regressão linear, índice de correlação linear,
utilizando o procedimento seguinte:
Dados - > Análise de Dados - > Regressão (OK) - > Intervalo Y (selecionar) - > Intervalo X (selecionar) - >
Ativar "Rótulos" - > Intervalo de saída - > OK.
Distância
Tempo de entrega
percorrida
(minutos), Y
(Km), X
1,0 11
0,6 10
2,0 20
1,5 29
3,2 25
3,9 34
2,6 30
2,0 15
0,9 11
1,1 16
Estatística de regressão
R múltiplo 0,82217939
Quadrado de R 0,675978949
Quadrado de R ajustado
0,635476317
Erro-padrão 5,343248532
Observações 10
ANOVA
gl SQ MQ F F de significância
Regressão 1 476,4976 476,497561 16,689754 0,003508275
Residual 8 228,4024 28,55030488
Total 9 704,9
Coeficientes Erro-padrão Stat t valor P 95% inferior 95% superior Inferior 95,0%
Interceptar 7,432926829 3,531147 2,104961171 0,0684075 -0,70991221 15,57577 -0,70991
Distância percorrida
6,737804878
(Km), X 1,649276 4,085309518 0,0035083 2,934566511 10,54104 2,934567
Assim, tem-se:
Coeficiente de correlação linear: R=+0,82 . ( Este coeficiente é positivo, pois deve possuir
o mesmo sinal que coeficiente de regressão linear, que vale +6,737804878. )
(ii) Interpretações:
O valor assumido pelo índice de correlação linear interpreta-se como sendo a proporção da variação do tempo
de entrega que é justificada pela variação da distância percorrida, por meio do modelo linear.
Neste contexto, pode dizer-se que cerca de 68% da variação do tempo de entrega é justificada pela variação da
distância percorrida.
Dado que o valor assumido pelo coeficiente de correlação linear é relativamente próximo de +1, podemos
concluir que existe uma relação entre as duas variáveis consideravelmente próxima da relação linear perfeita
positiva.
Por outro lado, uma vez que este coeficiente é positivo, podemos deduzir que as duas variáveis, x e y, variam no
mesmo sentido.
(d)
Tempo de entrega associado a distância percorrida valendo 3 Km: ŷ ( 3 ) = 6 ,7378 * 3 + 7 ,4329 ≈ 27,65 (minutos)
Distância
Tempo de entrega
percorrida
(minutos), Y
(Km), X
Diagrama de
Dispersão, Y(X) Diagrama de Dispersão, Y(X)
1,0 11 40
0,6 10
2,0 20 30
1,5 29
3,2 25 20
3,9 34
2,6 30 10
2,0 15
0,9 11 0
0,0 1,0 2,0 3,0 4,0 5,0
1,1 16
(ii) Obtenção da representação analítica e gráfica da curva de regressão do modelo "potência", com recurso
ao procedimento seguinte:
Clicar sobre um marcador - > Usando o botão direito, selecionar "Adicionar linha de tendência - >
Ativar "Potência" -> Ativar "Mostrar equação no gráfico" e "Mostrar o valor de R 2 no gráfico" - > Fechar.
O modelo "potência" que ajusta esta amostra é definido pela equação yˆ = 13 , 455 x 0 , 6515 .
(f)
Dado que o índice de correlação associado à regressão curvilínea acabada de estudar, o qual vale 0,74, é
superior ao índice de correlação linear obtido em (c), que vale 0,68, deduz-se que o modelo de regressão
"potencia" é o que nos oferece um melhor ajustamento da amostra.
____________________________________________________________________________________________
Luís Costa, Universidade de Aveiro - ISCA
Exercício 3.4
Rendimento
Número médio de disponível
Ano espectadores por das famílias
sessão de Teatro (milhões de
Euros)
B C D E F
Rendimento
disponível
das famílias
(milhões de
Euros)
(a.1)
O … foi em média de 44495,67 milhões de euros, para os anos considerados.
(a.2)
(A mediana vale, aproximadamente, 32055,50, pelo que 50% das observações assumem valor
inferior ou igual a 32055,50.)
(a.3)
(O terceiro quartil vale, aproximadamente, 78574,13, pelo que 75% das observações assumem
valor inferior ou igual a 78574,13, donde decorre que (100-75)% = 25% das observações
assumem valor superior a 78574,13.)
(a.4)
(a.5)
O valor do coeficiente de variação é 93% , indicando que … uma grande variabilidade … média.
(b)
X Y
Diagrama de Dispersão, Y(X)
384,9 407,7
401,1 401,9
439 396,2
470 412,1
508,9 410,8
568,3 359
622,5 356,6
718 377,4
782,9 395
857,8 356,5
5094,8 299,4
6582,4 231,9 Luís Costa, Universidade de Aveiro - ISCA
8324,1 242,2
10466 202,8
12875,8 155,6
Diagrama de Dispersão, Y(X)
15690,8 150,5
450
18836,7 166,7
400
22115,3 162
350
26017,1 160,3
300
29132,2 151,4
250
34978,8 114,6
200
41863,6 144,6
150
49169,8 134,1
100
54963,1 121,3
50
57838,2 78,6
0
60246,2 131,9
0 20000 40000 60000 80000 100000 120000 140000
64678,3 96,5
67873,3 111,5
71817,2 88,7
76887,9 98,4
83632,8 136,9
89721,5 128,3
94369,1 134,7
98135,1 150,4
101390,1 140,2
105820,9 151,9
109599,1 147,9
112770,9 142,2
118397,5 146,7
124.784,70 145,7
(c)
(e.1)
Falsa
(Face ao valor do índice de correlação linear, podemos deduzir que cerca de 50% da variação
do número médio de espectadores por sessão de teatro é explicada pela variação do rendimento
familiar disponível, por meio do modelo linear.)
(e.2)
Verdadeira
(Tendo em conta o valor do coeficiente de regressão linear, podemos concluir que, previsivelmente,
do número médio de espectadores por sessão de teatro diminui 0,0019 unidades, quando o
rendimento familiar disponível aumenta 1 milhão de euros.
Assim, previsivelmente, o número médio de espectadores por sessão de teatro diminui 19
unidades, quando o rendimento familiar médio sofre um aumento de 10000 milhões de euros.)
(e.3)
Falsa
(O modelo de regressão"potência", definido pela equação yˆ = 1573,1x −0,224 , oferece-nos um
2
melhor ajustamento, pois o respetivo índice de correlação, R potência=0.87 , é superior ao índice de
2
correlação linear, R linear=0.50.)
(e.4)
Verdadeira
____________________________________________________________________________________________
(a)
Número de
campistas
11616 Coluna1
31681
53181 Média 103136 (0 casas decimais)
123377 Erro-padrão 23752,43678
422217 Mediana 53151 (0 casas decimais)
223767 Moda #N/D
132553 Desvio-padrão 116362,7005 Desvio padrão corrigido
77609 13540278074
Variância da amostra Variância corrigida
56856 Curtose 3,892769687
39921 Assimetria 2,095335484 Coeficiente de assimetria
32230 Intervalo 426707 Amplitude amostral
23638 Mínimo 11616
32119 Máximo 438323
38113 Soma 2475254
48403 Contagem 24 Dimensão amostral
120803
438323 Variância amostral:
231540 S 2 = (23/24)Sc2 = 2
12976099820 ( campistas )
114571 Desvio padrão:
64450 S= 113912,685 ( campistas )
53120
46621
32490
26055 Luís Costa, Universidade de Aveiro - ISCA
[ Determinação do coeficiente de variação. ]
Face aos cálculos efetuados anteriormente, obtemos as seguintes respostas às questões expostas:
(a.1)
O … foi 103136 , para os meses considerados.
(a.2)
(A mediana vale, aproximadamente, 53151, pelo que 50% das observações assumem valor
inferior ou igual a 53151.)
(a.3)
(a.4)
(a.5)
(b)
X Y
Diagrama de Dispersão, Y(X)
Diagrama de Dispersão, Y(X)
11616 10330
31681 13421 35000
53181 16260 30000
123377 21003 25000
422217 32909
20000
223767 25659
15000
132553 25119
10000
77609 20733
56856 23282 5000
39921 19316 0
32230 14769 0 100000 200000 300000 400000 500000
23638 9309 Luís Costa, Universidade de Aveiro - ISCA
32119 15082
38113 16326
48403 15396
120803 21976
438323 28870
231540 24987
114571 21828
64450 21257
53120 19745
46621 21887
32490 14521
26055 10635
(b.1)
(b.2)
Para efetuar … escolher o logarítmico , uma vez que a este modelo corresponde o maior índice
de correlação.
Luís Costa, Universidade de Aveiro - ISCA
(c.1)
Falsa
(Tendo em consideração o valor do índice de correlação linear, conclui-se que cerca de 68% da
variação do número de hóspedes em Pousadas da Juventude é explicada pela variação do número
de campistas, por meio do modelo linear.)
(c.2)
Verdadeira
(Face ao valor do coeficiente de regressão linear, podemos deduzir que, previsivelmente, do
número de hóspedes nas Pousadas da Juventude aumenta 0,042 unidades, quando o número de
campistas aumenta 1 unidade.
Assim, previsivelmente, o número de hóspedes nas Pousadas da Juventude aumenta 42
unidades, quando o número de campistas sofre um aumento de 1000 unidades.)
(c.3)
Verdadeira
____________________________________________________________________________________________