Escolar Documentos
Profissional Documentos
Cultura Documentos
𝟏 𝐗𝟎 − 𝐗5 𝟐
"𝟎 ± 𝐭
𝒀 𝛂 𝐐𝐌𝐑𝐞𝐬 + 𝐧
𝟐; 𝐧+𝟐 𝐧 5
∑𝐢8𝟏 𝐗 𝐢 − 𝐗 𝟐
Portanto, para um dado valor de Xi=X0 se pode estimar a esperança de uma valor de Yi,
𝟏 𝟐𝟖 − 𝟏𝟔, 𝟗𝟏 𝟐
𝑰𝑪 = 𝟏𝟔, 𝟗𝟏 ± 𝟐, 𝟏𝟔 𝟎, 𝟕𝟎𝟕𝟎 +
𝟏𝟓 𝟑𝟎𝟑, 𝟔
IC = 16,91 ± (2,16)(0,58)
IC = 16,91 ± 1,25
15,66 m ≤ 𝝁𝒀 ≤ 𝟏𝟖, 𝟏𝟔 m
A coleta de dados é uma fase fundamental no processo de modelagem, pois dependendo da magnitude do erro
basta um valor ser obtido ou compilado de forma errônea para que o ajuste produza equações com coeficientes
tendenciosos que afetam a precisão da equação.
Considere uma situação em que se deseja estimar a produtividade de clones de Eucalyptus sp. aos 6 anos de idade
em função da pluviosidade anual no ano de plantio, ajustando os seguintes modelos:
Yi = β0 + β1 Xi + ɛi
N
YI = βK . XI O . εI
Em que:
Yi = Produtividade de clones Eucalyptus sp. em m3/ha aos 6 anos;
Xi = Pluviosidade mm/ano no plantio.
O valor de Yi na observação 4 foi compilado como sendo 310 m3/ha quando na realidade o valor correto
seria 210 m3/ha.
OBS. Yi Xi 𝐘𝐢𝟐 𝐗 𝟐𝐢 𝐘𝐢 𝐗 𝐢
Coeficiente de determinação r2
r2 = 0,6095
()
O ajuste do modelo na forma não linear intrinsecamente linear Y" = β% . X " . ε" se fez com a
Coeficiente de determinação r2
r2 = 0,7012
Substituindo o valor da observação 4 que é 310 m3/ha por 210 m3/ha, após o novo ajuste se obtém
a seguinte equação:
!" = $%, '(() + ', ,,-%. "
Com o seguinte quadro da ANOVA
FV GL SQ QM Fcalc Ftab
Regressão 1 6720,4364 6720,4364 442,81** 9,07
Resíduo 13 197,2969 15,1767
Total 14 6917,7333
Coeficiente de determinação r2
r2 = 0,9715
O ajuste do modelo logaritmizado gerou a seguinte equação:
/0 !1 = ', 2)-' + ', %,,' /0 . "
Com o seguinte quadro da ANOVA
FV GL SQ QM Fcalc Ftab
Regressão 1 0,1930 0,1930 321,67** 9,07
Resíduo 13 0,0076 0,0006
Total 14 0,2006
Coeficiente de determinação r2
r2 = 0,9621
2
O quadro abaixo mostra os valores de r obtidos nos quatro ajustes usando valores diferentes
para a observação 4:
2 3 2 3
MODELO r (usando 310 m /ha) r (usando 210 m /ha)
Yi = β0 + β1 Xi + ɛi 0,6095 0,9715
ln Yi = ln β0 + β1 ln Xi + ln ɛi 0,7012 0,9621
Observa-se que para o modelo linear o a perda de precisão foi de 0,3620 que corresponde
a 36,20% e para o logaritmo a perda foi de 26,09%.
REGRESSÃO LINEAR MÚLTIPLA.
Yi = b0 + b1 X1i + b 2 X 2i + ! + b n X n i + e i
Em que:
Yi = variável dependente;
Xi = variáveis independentes;
b0 , b1 , !, bn = parâmetros de modelo;
ei = erro da regressão.
Os erros ei do modelo podem ser escritos da seguinte forma:
e i = Yi - b0 - b1 X1i - b 2 X 2i - ! - b n X n i
Usa-se o mesmo procedimento do método dos mínimos quadrados empregado para o modelo linear
simples, sendo que tem que se derivar para cada parâmetro associado a respectiva variável
independente.
n n
åε
i =1
2
i = å (yi - β 0 - β1 X1i - β 2 X 2i - ! - β n X n i ) 2
i =1
n
¶ å ε i2
( )(- 1) = 0
n
i =1
= 2å Yi - b 0 - b1X1i - b 2 X 2i - ! - b n X n i
¶ b0 i =1
b 0 = Y - b1X1 - b 2 X 2 - ! - b n X n
Para os parâmetros βi, tem-se:
n
¶ å e i2
( )
n
i =1
= 2å Yi - b 0 - b1 X1i - b 2 X 2i - ! - b n X n i (- X1i ) = 0
¶ b1 i =1
n
¶ å e i2
( )( )
n
i =1
= 2å Yi - b 0 - b1 X1i - b 2 X 2i - ! - b n X n i - X 2i = 0
¶ b2 i =1
n n n n
nb 0 + b1 å X1i + b 2 å X 2i + ! + b n å X n i = å Yi
i =1 i =1 i =1 i =1
n n n n n
b 0 å X1i + b1 å X12i + b 2 å X1i X 2i + ! + b n å X1i X n i = å X1i Yi
i =1 i =1 i =1 i =1 i =1
n n n n n
b 0 å X 2i + b1 å X1i X 2i + b 2 å X 22i + ! + b n å X 2i X n i = å X 2i Yi
i =1 i =1 i =1 i =1 i =1
"
n n n n n
b 0 å X n i + b1 å X1i X n i + b 2 å X 2i X n i + ! + b n å X 2n i = å X n i Yi
i =1 i =1 i =1 i =1 i =1
Uma maneira simples de se conseguir tal simplificação é a de se trabalhar com os valores dos
desvios, tornando x i = ( Xi -X ) e yi = ( Yi -Y ). Sabendo-se que:
å (X - X) =
n n
i =1
i åx
i =1
i =0
å (Y - Y) =
n n
i =1
i åy
i =1
i =0
n n n n
b1 å x 12i + b 2 å x 1i x 2i + ! + b n å x1i x n i = åx 1i y i ® Equação de b1
i =1 i =1 i =1 i =1
n n n n
b1 å x 1i x 2i + b 2 å x 22i + ! + b n å x 2 i x n i = åx 2i y i ® Equação de b 2
i =1 i =1 i =1 i =1
"
n n n n
b1 å x 1i x n i + b 2 å x 2i x n i + ! + b n å x 2n i = åx ni y i ® Equação de b n
i =1 i =1 i =1 i =1
As somas dos quadrados e soma dos produtos
corrigidos para as médias são computados da forma
conhecida: 2
æ n ö
n n
ç å Yi ÷
å y i2 = åY i
2
- è i =1 ø
i =1 i =1 n
2
æ n ö
n n
ç å Xi ÷
åx 2
i = åX 2
i - è i =1 ø
i =1 i =1 n
n n
n n
( å X i )(å Yi )
åx
i =1
i yi = åX
i =1
i Yi - i =1
n
i =1
n n
n n
( å X i )(å X j )
åx
i = j=1
i xj = åXi =1
i Xj - i =1
n
i =1
Considerar o exemplo proposto por Freese (1962), em que se relacionou o crescimento
volumétrico (Yi) de um povoamento equiâneo de Pinus elliottii e Pinus taeda, com área basal total
(X1), porcentagem de área basal em Pinus elliottii (X2) e índice de sítio para Pinus elliottii (X3),
ajustando o modelo:
Yi = b 0 + b1X1i + b 2 X 2 i + b3 X 3i + e i
Em que:
Yi = Volume da parcela;
X1i = Área basal em pés quadrados;
X2i = Porcentagem de área basal de Pinus elliottii;
X3i = Índice de sítio dado pela altura média das árvores dominantes e codominantes em pés.
EQUAÇÕES NORMAIS EQUAÇÕES REDUZIDAS
n n n n Desta forma, tem-se:
nb 0 + b1 å X1i + b 2 å X 2i + ! + b n å X n i = å Yi
i =1 i =1 i =1 i =1
ì n 2 n n n
i =1 i =1
1i
i =1 i =1 i =1 ï in=1 i =1 i =1 i =1
ï n n n
íb1 å x1i x 2i + b 2 å x 2i + b 3 å x 2i x 3i = å x 2i y i
2
n n n n n ï i =n1 i =1 i =1 i =1
b 0 å X 2i + b1 å X1i X 2i + b 2 å X + ! + b n å X 2i X n i = å X 2i Yi
2 n
ïb x x + b x x + b x2 = x y
n n
ïî 1 å 2 å 2i 3i 3 å 3i å
2i
i =1 i =1 i =1 i =1 i =1 1i 3i 3i i
i =1 i =1 i =1 i =1
"
n n n n n
b 0 å X n i + b1 å X1i X n i + b 2 å X 2i X n i + ! + b n å X = å X n i Yi 2
ni
i =1 i =1 i =1 i =1 i =1
As somas de quadrados e somas dos produtos corrigidos para as médias são computados da
forma familiar:
2
æ n ö
ç å Yi ÷
n n
- è i =1 ø (2206 )
2
åy i =1
2
i = åY
i =1
i
2
n
= 65 2
+ 78 2
+ ! + 61 2
-
28
= 5974,7143
2
æ n ö
ç å X 1i ÷
n n
- è i =1 ø (1987 )
2
åx i =1
2
1i = åX
i =1
2
1i
n
= 41 + 90
2 2
+ ! + 46 2
-
28
= 11436,9643
æ n öæ n ö
ç å X 1 i ÷ç å Yi ÷
ø = (41)(65 ) + (90 )(78 ) + ! + (46 )(61) - (1987 )(2206 )
n n
å x 1i y i = å X 1i Yi - è i =1 øè i =1
i =1 i =1 n 28
åx i =1
1i y i = 6428,7858
Substituindo estes valores nas equações normais, tem-se:
1) Subtraindo as equações de b2 e b3 de b1, tem-se:
b2 + 0,364682430b3 = 0,559740779
b2 + 0,72766049894b3 = 0,645397042
1) Subtraindo a equação resultante de b3 de b2, tem-se:
-0,362978064b3 = - 0,08556566263
- 0,085656263
b3 = = 0,235981927
- 0,362978064
3) Com o valor de b3, substitui-se o mesmo em uma das equações do item (3), encontrando-
se o valor de b2.
b2 = 0,473682316
1) Substitui-se os valores de b2 e b3 em uma das equações de (1) encontrando-se o valor de b1.
b1= 0,53925759
b 0 = Y - b1X1 - b 2 X 2 - b 3 X3
b 0 = -11,73196808 @ -11,7320
Resultando na equação:
å (Ŷ - Y )
n n n
= b1 å x ii y i + b 2 å x 2i y i
2
SQREG = i
i =1 i =1 i =1
SQRES =
SQT = 65 + 78 + ! + 61
2 2 2
-
(2206 )
2
= 5974,7143
28
Então:
FV GL SQ QM F
**
Regressão 3 5798,9389 1832,9796 92,463
Erro 24 475,7754 19,8240
TOTAL 24 5974,7143
i =1
Então :
5798,9389
R2 = = 0,9204
5974,7143
Indicando que 92,04% das variações dos dados estão sendo explicadas pela regressão.
COEFICIENTE DE DETERMINAÇÃO AJUSTADO 𝐑𝟐𝐚𝐣
SQ Re g SQT - SQ Re s SQ Re s
R2 = = = 1-
SQT SQT SQT
SQ Re S
( n - p) ( n - 1)SQ Re s æ n - 1 ö SQ Re s
2
R aj =1 - = 1- =1 - ç
ç ÷
÷.
SQT ( n - p)SQT è n - p ø SQT
n -1
æ n - 1 ö SQT - SQ Re sg æ n - 1 öæ SQT SQ Re sg ö
R 2
aj =1 - ç
çn-p÷ ÷. =1 - ç
ç ÷
֍
ç - ÷
÷
è ø SQT è n - p øè SQT SQT ø
æ n -1 ö
2
R aj =1 - ç
çn-p÷ ÷ 1 -(R 2
)
è ø
Quando se trabalha com mais de uma variável independente, há necessidade de se conhecer qual a
contribuição de cada variável independente para se determinar qual(is) variável(is) deveria(m) ser ou
não incluída(s) na equação resultante.
Testar a variável X1i na presença de X2i e X3i.
ì n 2 n n n
ï b1 å x1i + b 2 å x1i x 2i + b3 å x1i x 3i = å x1i y i As equações normais para ajustar X2i e X3i são:
ï in=1 i =1 i =1 i =1
ï n n n
íb1 å x1i x 2i + b 2 å x 2i + b 3 å x 2i x 3i = å x 2i y i
2 n n n
b ,2 å x 22i + b ,3 å x 2i x 3i = åx yi
ï i =n1
2i
i =1 i =1 i =1 i =1 i =1 i =1
n n n
ïb x x + b x x + b x2 = x y
ïî 1 å 2 å 2i 3i 3 å 3i å n n n
i =1
1i 3i
i =1 i =1 i =1
3i i b ,
2 åx
i =1
2i x 3i + b ,
3 åx
i =1
2
3i = åx
i =1
3i yi
ìï5998,9643b ,2 + 1789,6786b ,3 = 2632,2143
í
ïî1789,6786b ,2 + 2606,1072b ,3 = 3327,9286
2632,2143 - 5998,9643b ,2
b =
,
3
1789,6786
Substituindo na segunda equação se obtém:
æ 2632,2143 - 5998,9643b ,2 ö
1789,6786b ,2 + ç
ç ÷
÷ 2606,1072 = 3327,9286
è 1789,6786 ø
- 505,0683
b ,2 =
- 6945,9368
b ,2 = 0,072714
2632,2143 - 5998,9643(0,0702714)
b ,3 =
1789,6786
b ,3 = 1,22704
Então:
æ n ö æ n ö
SQReg de X 2 e X 3 = b 2 ç å x 2i y i ÷ + b 3 ç å x 3i y i ÷
è i =1 ø è i =1 ø
SQReg de X 2 e X 3 = 0,072714(2632,2143) + 1,22704(3327,9286 )
SQReg de X 2 e X3 = 4274,9003
O quadro da análise da variância passa a ser o seguinte:
FV GL SQ QM F
Reg. de X1, X2 e X3 3 5498,9389
Reg. de X2 e X3 2 4274,9003
**
Ganho de X1 1 1224,0386 1224,0386 61,7452 **
Resíduo 24 457,7754 19,8240
TOTAL 27 5974,7143
Como o valor de F foi significativo, há uma indicação de que a variável independente X1 deve ser
considerada na equação.
VARIÁVEIS INDICADORAS (DUMMY)
Exemplo: Considere as produções volumétricas (m3) de árvores de três clones de eucaliptos (A, B
e C) aos seis anos plantados no mesmo tipo de solo.
2
V D H D H X1 X2
0,0116 5,3 9,6 269,66 1 0
0,0157 6,1 9,0 334,89 1 0
0,0125 5,5 8,9 269,23 1 0
0,0182 6,5 10,0 422,50 1 0
0,0204 6,8 10,2 471,65 1 0
0,0233 7,0 10,3 504,70 1 0
0,0093 5,0 9,0 225,00 1 0
0,0253 7,2 10,0 518,40 1 0
0,0140 6,0 8,5 306,00 1 0
0,0120 5,4 7,9 230,36 1 0
0,0304 8,0 11,0 704,00 0 1
0,0337 8,2 10,9 732,92 0 1
0,0291 7,9 10,0 624,10 0 1
0,0276 7,8 10,5 638,82 0 1
0,0410 8,9 12,0 950,52 0 1
0,0437 9,0 11,9 963,90 0 1
0,0350 8,4 10,8 762,05 0 1
0,0465 9,1 12,5 1035,13 0 1
0,0374 8,5 12,0 867,00 0 1
0,0507 9,4 12,4 1095,66 0 1
0,0540 10,0 10,0 1000,00 0 0
0,0679 11,0 11,0 1331,00 0 0
0,0609 12,0 11,9 1713,60 0 0
0,0777 11,5 12,1 1600,23 0 0
0,0808 13,0 11,6 1960,40 0 0
0,0673 11,4 10,3 1338,59 0 0
0,0861 12,2 10,9 1622,36 0 0
0,0693 11,2 10,0 1254,40 0 0
0,0539 10,2 10,0 1040,40 0 0
0,0690 12,0 10,9 1569,60 0 0
Em que:
3
V = Volume em m ;
D = Diâmetro à altura do peito em cm;
H = Altura da árvore em m;
D2H = Variável independente;
X1 = Variável indicadora para o clone A (1,0);
O modelo ajustado é:
O valor de F altamente significativo indica que a regressão está se ajustando aos dados. Para se
conhecer com qual precisão, calcula-se o coeficiente de determinação:
SQRegressão 0,01514
R2 = = = 0,9607
SQTotal 0,01576
Significando que 96,19% das variações dos dados estão explicadas pela equação geral.
2
V̂i = 0,02263 + 0,00032 (D H)i – (0,01774)(1) – (0,01185)(0)
Resultando em:
FV GL SQ QM F
Reg. de D2H, X1 e X2 3 0,01514 0,00504 252,0**
Reg. de D2H e X2 2 0,01487
Ganho de X1 (Clone A) 1 0,00027 0,00027 13,5**
Reg. de D2H e X1 2 0,01488
Ganho de X2 (Clone B) 1 0,00026 0,00026 13,0**
Reg. de X1 e X2 2 0,01392
Ganho de D2H (Clone C) 1 0,00122 0,00122 61,0**
Resíduo 26 0,00060 0,00002
Total 29 0,01574
Os valores de F tabelado com 1 grau de liberdade para a regressão e 26 graus de liberdade para o
resíduo são 4,23 e 7,72 para 5% e 1% de probabilidade, indicando que os três clones têm
contribuições altamente significativas, isto é, são diferentes entre si em termos de crescimento.
Modelos com a restrição de β0=0
Existem situações em que a restrição de que β0=0 deve ser considerada, principalmente quando se
modela a variável dependente como sendo custos, pois quando a(s) variável(eis) independente
for(em) igual(is) a zero a variável dependente também deve ser zero. Ou até mesmo em modelos
volumétricos, admitindo que quando o DAP e H forem zero, o volume também é zero.
Por exemplo, o modelo linear simples se torna em Yi = β1Xi + εi. Aplicando o método dos mínimos
quadrados, tem-se:
n n
å ε = å (Yi - β1Xi )
2 2
i
i =1 i =1
2
æ n
ö Como a linha da regressão passa pela origem, pois β0 = 0, implica em:
d ç å εi ÷ n
è i=1 ø = 2 (Y - b X )(- X ) = 0
d β1
åi=1 i 1 i i
n n n
å i =
(Y -Y) 2
å i åi
(Y -0) 2
= Y 2
n
-2å ( Yi -b1X i ) (X i )=0
i=1
i=1 i=1 i=1
n
0
å X ( Y -b
i=1
i i 1 Xi )=
-2
n n n
n
å X ( Y -b
i=1
i i 1 Xi ) =0 å i å i åi
ˆ
(Y
i=1
-Y) 2
= ˆ
(Y -0)
i=1
= ˆ
2
Y 2
i=1
n n
åX
i=1
i Yi -b1 åi=1
X i2 =0
n n
Como Ŷi =b1Xi , a SQReg = å ( b1Xi ) e a SQRes= å ( Yi -b1Xi ) .
n n 2 2
b1 åX
i=1
2
i = å X i Yi
i=1
i=1 i=1
n
åX i Yi
b1 = i=1
n
åX
i=1
2
i
O quadro da análise da variância é o que segue:
FV GL SQ QM F
n n
å ( b1Xi ) å ( b1Xi )
2 2
Regressão 1 i=1 i=1
QMReg/QMRes
n n
å(Y - b X ) å ( Yi - b1Xi )
2 2
Resíduo N-1 i=1
i 1 i
i=1
n-1
n
Total N åY
i=1
i
2
O grau de liberdade total é igual a N porque se trabalha com os valores não corrigidos, isto é, o
2
æ n ö
ç
è
å Y i ÷
ø não é considerado.
termo da correção C = i=1
n
Considerar os dados do exemplo anterior, mas sem as variáveis indicadoras e ajustar o modelo:
Vi = β1(D2H)i + εi XK
"K ± t
𝐘 U QMRes 1 +
V
;W+X ∑WI8X 5
XI − X V
A estimativa do parâmetro β1 é:
n
åX Y i i
1401,400028
b1 = i=1
n
= = 0,000046
30301806,14750
åX
i=1
2
i
n
SQReg. = å (b X i ) = 0,06481
2
1
i =1
å(Y - b X )
2
SQRes = i 1 i = SQTotal – SQReg.= 0,06572-0,06468 = 0,00104
i=1
#
O coeficiente de determinação para a regressão sem b0 é expresso por r"
#
0,06481
r" = = 0,9861
0,06572
Indicando que 98,62% das variações dos dados estão explicadas pela equação.
`K será:
Para um valor de DAP = 60 e H = 9,0, tem-se X0 = D2H = 324. O intervalo de confiança para V
XK
"𝟎 ± t
𝐘 U QMRes 1 +
V
;W+X ∑WI8X 5
XI − X V
324
𝟎, 𝟎𝟏𝟒𝟖 ± 2,045 0,00004 1 + = 0,0148 ± 0,0129
7145301,5
"K ≤ 0,0277 ml
0,0019 ≤ V
Que é um intervalo de confiança com uma grande amplitude, isto é, 0,0258 m3 (0,0277-0,0019).
No mesmo exemplo considere o ajuste do modelo incluindo a interseção b0. Após o ajuste, a
equação resultante é seguinte:
0,01498
r" = = 0,9425
0,01576
2
O intervalo de confiança de V" para DAP = 6,0 e H = 9,0 com X0 = D H = 324 será:
1 (X " − X)(
Y" ± t ' QMRes + *
(
; *+( n 89: X 8 − X
(
t(0,05;28) = 2,048
1 (324 − 878,57)(
0.0115 ± 2,048 0,00003 +
30 7145301,5
0,0115 ± (2,048)(0,0015)
3
0,0115 ± 0,0031 m
0,0084 ≤ V0 ≤ 0,0148 mF
3
Portanto, a amplitude do intervalo de confiança passa a ser de 0,0064 m .
Para fazer tal comparação se recomenda calcular a soma de quadrados dos
V
desvios entre os valores reais e os estimados ∑WI8X "I
YI − Y
A simples comparação mostra que rKV = 0,9861 > r V = 0,9425 que levaria
a conclusão de que o modelo com β0 = 0 resultou em uma equação mais
precisa. Esta interpretação é errônea, pois a comparação direta não pode ser
feita, uma vez que no cálculo do rKV em seu denominador não se subtrai a
correção, enquanto que no modelo β0 a correção é considerada e isto
conduz a rKV > r V
Primeiro trabalho
Ajustar dois modelos contendo duas variáveis independentes na área que você trabalha.
𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + 𝜺𝒊
𝜷 𝜷
𝒀𝒊 = 𝜷𝟎 𝑿𝟏 𝟏 𝑿𝟐 𝟐 𝜺𝒊