Escolar Documentos
Profissional Documentos
Cultura Documentos
𝑦𝑖 = b0 + b1𝑥𝑖 + e𝑖, 𝑖 = 1, … , 𝑛
Podemos mensurar a relação linear entre duas variáveis por meio do coeficiente de correlação 𝜌. Ele varia entre -1 e 1.
Coeficiente de correlação linear
É uma medida que avalia o quanto a “nuvem de pontos”
no diagrama de dispersão aproxima-se de uma reta.
𝑦𝑖 = b0 + b1𝑥𝑖 + e𝑖, 𝑖 = 1, … , 𝑛
% %
𝑦𝑖 = b0 + b1𝑥𝑖 + e𝑖, 𝑖 = 1, … , 𝑛
𝑆"#
Os estimadores de b0 e b1 são: 𝛽!! = ; 𝛽!0 = 𝑦̄ − 𝛽!1 𝑥,̄ em que
𝑆""
∑%#$" 𝑥# ∑%#$" 𝑦# % % %
∑%#$" 𝑥# 𝑦#− % %
∑#$" 𝑥# ∑#$" 𝑦# 1 1
𝑆)) = 𝑛 ; 𝑆 = - 𝑥 𝑦 − ; 𝑥̅ = - 𝑥# ; 𝑦
0 = - 𝑦#
% & )* # #
𝑛 𝑛 𝑛
∑ 𝑥 #$" #$" #$"
∑%#$" 𝑥#& − #$" #
𝑛
Exemplo (MONTGOMERY; RUGER, 6. ed., p. 334):
A seguir apresenta-se a pureza do oxigênio produzido em um processo químico de destilação, em função
da percentagem de hidrocarbonetos presentes no condensador principal da unidade de destilação
Observação Hidrocarboneto Pureza
1 0,99 90,01 Gráfico de dispersão
2 1,02 89,05
3 1,15 91,43
4 1,29 93,74
5 1,46 96,73
6 1,36 94,45
7 0,87 87,59
8 1,23 91,77
9 1,55 99,42
10 1,40 93,65
11 1,19 93,54
12 1,15 92,52
13 0,98 90,56
14 1,01 89,54
15 1,11 89,85
16 1,20 90,39
17 1,26 93,25
18 1,32 93,41
19 1,43 94,98 Note que podemos assumir que há uma relação linear entre a
20 0,95 87,33 pureza e os hidrocarbonetos
Exemplo (MONTGOMERY; RUGER, 6. ed., p. 334):
Ajustar uma reta para explicar a pureza do oxigênio em função da percentagem de hidrocarbonetos
𝑌𝑖 = 𝛽! 0 + 𝛽! 1𝑋𝑖 , Obs. Xi Yi Xi2 Yi2 Xi Yi
1 0,99 90,01 0,9801 8101,8001 89,1099
2 1,02 89,05 1,0404 7929,9025 90,8310
3 1,15 91,43 1,3225 8359,4449 105,1445
Estimando 𝛽" 4 1,29 93,74 1,6641 8787,1876 120,9246
5 1,46 96,73 2,1316 9356,6929 141,2258
6 1,36 94,45 1,8496 8920,8025 128,4520
𝑆)* 10,1774 7 0,87 87,59 0,7569 7672,0081 76,2033
𝛽1 1 = = = 14,9475, em que 8 1,23 91,77 1,5129 8421,7329 112,8771
𝑆)) 0,6809 9 1,55 99,42 2,4025 9884,3364 154,1010
10 1,40 93,65 1,96 8770,3225 131,1100
( 11 1,19 93,54 1,4161 8749,7316 111,3126
∑(%&' 𝑥% ∑(%&' 𝑦% (23,92)(1843,21) 12 1,15 92,52 1,3225 8559,9504 106,3980
𝑺𝒙𝒚 = - 𝑥% 𝑦% − = 2214,6566 − 13 0,98 90,56 0,9604 8201,1136 88,7488
𝑛 20 14 1,01 89,54 1,0201 8017,4116 90,4354
%&' 15 1,11 89,85 1,2321 8073,0225 99,7335
= 10,1774 16 1,20 90,39 1,44 8170,3521 108,4680
17 1,26 93,25 1,5876 8695,5625 117,4950
18 1,32 93,41 1,7424 8725,4281 123,3012
19 1,43 94,98 2,0449 9021,2004 135,8214
( ( )
∑ %&' 𝑥% 23,92) 20 0,95 87,33 0,9025 7626,5289 82,9635
𝑺𝒙𝒙 = - 𝑥%) − = 29,2892 − = 0,6809 Total 23,92 1843,21 29,2892 170044,5321 2214,6566
𝑛 20
%&'
Exemplo (MONTGOMERY; RUGER, 6. ed., p. 334):
Ajustar uma reta para explicar a pureza do oxigênio em função da percentagem de hidrocarbonetos
𝑌𝑖 = 𝛽! 0 + 𝛽! 1𝑋𝑖 , Obs. Xi Yi Xi2 Yi2 Xi Yi
1 0,99 90,01 0,9801 8101,8001 89,1099
2 1,02 89,05 1,0404 7929,9025 90,8310
3 1,15 91,43 1,3225 8359,4449 105,1445
Estimando 𝛽! 4 1,29 93,74 1,6641 8787,1876 120,9246
5 1,46 96,73 2,1316 9356,6929 141,2258
6 1,36 94,45 1,8496 8920,8025 128,4520
A equação de regressão é:
𝑦 = 74,2833 + 14,9475 𝑥
A equação de regressão é:
𝑦 = 74,2833 + 14,9475 𝑥
= 74,2833 + 14,9575 × 1
= 89,2308
Tal estimativa pode ser feita pelo fato do valor de 𝑥 estar dentro do intervalo usado para construir a
reta de regressão. CUIDADO COM EXTRAPOLAÇÕES! O modelo pode não mais ser válido
Testes de hipóteses
Objetivo: verificar se há variável 𝑋 contribui para explicar 𝑌 de uma forma linear.
Anova:
Fonte de Graus de
Soma de Quadrados (SQ) Quadrado médio (QM) F
variação liberdade
𝑆𝑄$ 𝑄𝑀$
Regressão 1 𝑆𝑄$ = 𝛽% 𝑆&' 𝑄𝑀$ = 𝐹=
1 𝑄𝑀(
Quanto maior for o valor de 𝐹𝑜𝑏𝑠 , maiores as evidências contra 𝐻0 . Rejeita-se H0 Se 𝐹𝑜𝑏𝑠 > 𝐹𝑐 ,
em que 𝐹𝑐 é calculado da distribuição F-Snedecor tal que 𝑃 𝐹 > 𝐹𝑐 = 𝛼
Exemplo (MONTGOMERY; RUGER, 6. ed., p. 334):
Voltando ao exemplo de pureza do oxigênio em função de hidrocarbonetos. Vamos testar
𝐻0: 𝛽1 = 0 (Não existe reta de regressão)
𝐻1: 𝛽1 ≠ 0 (Existe reta de regressão)
Como 𝐹-./ = 128,8617 > 4,4139 ao nível de significância de 5%, rejeita-se H0 e conclui-se
que a regressão é significante, isto é o hidrocarboneto está influenciando linearmente a pureza.
Coeficiente de determinação
𝑆𝑄$ 152,1271
*
𝑅 = = = 0,8774 (o modelo explica 87,74% da variabilidade total)
𝑆𝑄) 173,3769
Exemplo (MONTGOMERY; RUGER, 6. ed., p. 334):
Contas do ANOVA
Fonte de Graus de Soma de Quadrado
F_crítico Valor-p
variação liberdade Quadrados (SQ) médio (QM) F
Regressão 1 152,1271 152,1271
Erro 18 21,2498 1,1805 128,8617 4,4139 1,23E-09
Total 19 173,3769
Obs. Xi Yi Xi2 Yi2 Xi Yi
1 0,99 90,01 0,9801 8101,8001 89,1099
Dados: 𝛽1 1 = 14,9475; 𝑺𝒙𝒚 = 10,1774 2
3
1,02
1,15
89,05
91,43
1,0404 7929,9025
1,3225 8359,4449
90,8310
105,1445
4 1,29 93,74 1,6641 8787,1876 120,9246
5 1,46 96,73 2,1316 9356,6929 141,2258
)
∑ %&' 𝑦% 1843,21* 10 1,40 93,65 1,96 8770,3225 131,1100
𝑆𝑄/ = - 𝑦% − = 170044,5321 − 11 1,19 93,54 1,4161 8749,7316 111,3126
𝑛 20 12 1,15 92,52 1,3225 8559,9504 106,3980
%&' 13 0,98 90,56 0,9604 8201,1136 88,7488
= 173,37695 14 1,01 89,54 1,0201 8017,4116 90,4354
15 1,11 89,85 1,2321 8073,0225 99,7335
16 1,20 90,39 1,44 8170,3521 108,4680
F_crítico: Procurar na Tabela F (5%) considerando 1 grau de liberdade 17 1,26 93,25 1,5876 8695,5625 117,4950
no numerador e 18 no denominador. Ou no Excel =INV.F.CD(0,05;1;18) 18 1,32 93,41 1,7424 8725,4281 123,3012
19 1,43 94,98 2,0449 9021,2004 135,8214
Valor-p: Excel = DIST.F.CD(F;1;18) 20 0,95 87,33 0,9025 7626,5289 82,9635
Total 23,92 1843,21 29,2892 170044,5321 2214,6566
Teste de hipótese para o intercepto
(5) Decisão
𝑠𝑒 𝑇𝑜𝑏𝑠 ∈ 𝑅𝐶 → Rejeita-se 𝐻0, caso contrário dizemos que não há evidencias suficientes para Rejeitar 𝐻𝑜
Teste de hipótese para o coeficiente angular (inclinação)
(5) Decisão
𝑠𝑒 𝑇𝑜𝑏𝑠 ∈ 𝑅𝐶 → Rejeita-se 𝐻0, caso contrário dizemos que não há evidencias suficientes para Rejeitar 𝐻𝑜
Voltando ao exemplo de pureza do oxigênio em função de hidrocarbonetos testar, ao nível de
significância de 5%, se o coeficiente angular é igual a zero.
Como 𝑇𝑜𝑏𝑠 = 11,3517 ∈ 𝑅𝐶., logo ao nível se significância de 5%, rejeita-se H0 e conclui-se que a
regressão é significante.
Teste de hipótese para o coeficiente de correlação (𝜌)
(5) Decisão
𝑠𝑒 𝑇𝑜𝑏𝑠 ∈ 𝑅𝐶 → Rejeita-se 𝐻0, caso contrário dizemos que não há evidencias suficientes para Rejeitar 𝐻𝑜
Voltando ao exemplo de pureza do oxigênio em função de hidrocarbonetos Testar, ao nível de
significância de 5%, se a correlação entre pureza do oxigênio e a porcentagem de
hidrocarboneto é igual a zero ou não.
𝜎 2 ∑𝑛𝑖=1 𝑋𝑖 2 𝜎2
𝛽10 ~𝑁 𝛽0 , 𝛽1" ~𝑁 𝛽1 ,
𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋)2 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋)2
Variância Variância
Note que 𝜎 2 é desconhecido, porém pode ser estimado por meio de QME. Assim, usaremos a
distribuição t-student nos testes de hipóteses e intervalos de confiança.
Intervalos de confiança
Intercepto 𝛽) Efeito da variável 𝑋
1 𝑥̄ * 𝜎S *
𝐼𝐶 𝛽31 = 𝛽31 ± 𝑡+,* 𝜎S * + 𝐼𝐶 𝛽3% = 𝛽3% ± 𝑡+,*
𝑛 𝑆&& 𝑆&&
em que 𝜎S 2 = 𝑄𝑀𝐸
1 𝑥̄ # 1 1,196#
𝐼𝐶 𝛽) = 𝛽7) ± 𝑡'-# 𝜎" # + = 74,2833 ± 2,101 1,1805 + = 74,2833 ± 3,3478
𝑛 𝑆++ 20 0,6809
= 70,9356; 77,6311
Intervalos de confiança
Média de 𝑦 dado um valor de 𝑋 = 𝑥1 Novo valor de 𝑌 = 𝑦1 |𝑥1
̄ #
1 (𝑥) − 𝑥) ̄ #
1 (𝑥) − 𝑥)
𝐼𝐶 𝜇.|+! = 𝑦40 ± 𝑡'-# 𝜎4 # + 𝐼𝐶 𝑦) 𝑥) = 𝑦40 ± 𝑡'-# 𝜎4 # 1+ +
𝑛 𝑆++ 𝑛 𝑆++
̄ #
1 (𝑥) − 𝑥) 1 (1−1,196)#
𝑦4) ± 𝑡'-# 𝜎4 # 1+ + = 89,2308 ± 2,101 1,1805 1 + + = 89,2308 ± 2,4011
𝑛 𝑆++ 20 0,6809
= [86,830; 91,632]
Intervalos de confiança
Note que os intervalos de confiança para a média (IC de 95%) são mais estreitos quando comparados
com os intervalos para as previsões de valores individuais (IP de 95%).
Análise de regressão para o caso de dados com repetição