Você está na página 1de 43

AULA 03 – ANÁLISE DE REGRESSÃO

Intervalo de confiança (IC)

O intervalo de confiança para a estimativa Ŷ em função de um novo valor conhecido de Xi , é


expresso por:

IC = Ŷi ± t (n - 2,a / 2 ).s X


Em que:

Ŷi = valor estimado em função de Xi conhecido;


t (n - 2,a / 2 ) = valor tabelado da distribuição de t, com n–2 graus de liberdade, pelo fato de se perder
!
uma observação em Y e outra em X, ao nível de de significância.
"

INTERVALO DE CONFIANÇA

𝟏 𝐗𝟎 − 𝐗5 𝟐
"𝟎 ± 𝐭
𝒀 𝛂 𝐐𝐌𝐑𝐞𝐬 + 𝐧
𝟐; 𝐧+𝟐 𝐧 5
∑𝐢8𝟏 𝐗 𝐢 − 𝐗 𝟐

Portanto, para um dado valor de Xi=X0 se pode estimar a esperança de uma valor de Yi,

representado por E(Yi/Xi=X0) = Ŷ0 .



Exemplo: Calcular o intervalo de confiança de Ŷ0 , quando o valor de X0 =28.

Y" = 0,0137M + 0,6034 X "

Y" = 0,0137 + 0,6034 28 = 16,91



Então com 𝒕𝟎,𝟎𝟓;𝟏𝟑) = 𝟐, 𝟏𝟔

𝟏 𝟐𝟖 − 𝟏𝟔, 𝟗𝟏 𝟐
𝑰𝑪 = 𝟏𝟔, 𝟗𝟏 ± 𝟐, 𝟏𝟔 𝟎, 𝟕𝟎𝟕𝟎 +
𝟏𝟓 𝟑𝟎𝟑, 𝟔

IC = 16,91 ± (2,16)(0,58)
IC = 16,91 ± 1,25
15,66 m ≤ 𝝁𝒀 ≤ 𝟏𝟖, 𝟏𝟔 m

Portanto, o valor de Y0 a 95% de probabilidades deverá estar próximo de 16,91m, variando de


15,66 m a 18,16 m.

IMPORTÂNCIA DA COLETA DE DADOS

A coleta de dados é uma fase fundamental no processo de modelagem, pois dependendo da magnitude do erro
basta um valor ser obtido ou compilado de forma errônea para que o ajuste produza equações com coeficientes
tendenciosos que afetam a precisão da equação.

Considere uma situação em que se deseja estimar a produtividade de clones de Eucalyptus sp. aos 6 anos de idade
em função da pluviosidade anual no ano de plantio, ajustando os seguintes modelos:
Yi = β0 + β1 Xi + ɛi
N
YI = βK . XI O . εI
Em que:
Yi = Produtividade de clones Eucalyptus sp. em m3/ha aos 6 anos;
Xi = Pluviosidade mm/ano no plantio.
O valor de Yi na observação 4 foi compilado como sendo 310 m3/ha quando na realidade o valor correto
seria 210 m3/ha.

OBS. Yi Xi 𝐘𝐢𝟐 𝐗 𝟐𝐢 𝐘𝐢 𝐗 𝐢

1 180 460 32400 211600 82800

2 200 500 40000 250000 100000

3 155 300 24025 90000 46500

4 310 570 96100 324900 176700

5 170 400 28900 160000 68000

6 160 360 25600 129600 57600

7 190 480 36100 230400 91200

8 220 600 48400 360000 132000

9 158 320 24964 102400 50560

10 182 420 33124 176400 76440

11 204 520 41616 270400 106080

12 220 590 48400 348100 129800

13 192 480 36864 230400 92160

14 205 532 42025 283024 109060

15 166 340 27556 115600 56440

TOTAIS 2912 6872 586074 3282824 1375340

MÉDIAS 194,13 528,62


Ajustando Yi = β0 + β1Xi +ɛi se obtém a seguinte equação:
!" = $%, '(%) + ,, %,'-. "
Com o seguinte quadro da ANOVA
FV GL SQ QM Fcalc Ftab
Regressão 1 12653,13 12653,13 20,37** 9,07
Resíduo 13 8074,60 621,12
Total 14 20757,73

Coeficiente de determinação r2
r2 = 0,6095

()
O ajuste do modelo na forma não linear intrinsecamente linear Y" = β% . X " . ε" se fez com a

transformação logarítmica na seguinte forma: ln Yi = ln β0 + β1 ln Xi + ln ɛi. Assim, torna-se


necessária a transformação logarítmica dos dados para entrar na tabela anterior substituindo Yi por
ln Yi e Xi por ln Xi. A equação resultante foi a seguinte:
+, -. = /, 1234 + 6, 3274 +, 8 9
Com o seguinte quadro da ANOVA
FV GL SQ QM Fcalc Ftab
Regressão 1 0,3039 0,3339 33,39** 9,07
Resíduo 13 0,1295 0,0100
Total 14 0,4334

Coeficiente de determinação r2
r2 = 0,7012
Substituindo o valor da observação 4 que é 310 m3/ha por 210 m3/ha, após o novo ajuste se obtém
a seguinte equação:
!" = $%, '(() + ', ,,-%. "
Com o seguinte quadro da ANOVA
FV GL SQ QM Fcalc Ftab
Regressão 1 6720,4364 6720,4364 442,81** 9,07
Resíduo 13 197,2969 15,1767
Total 14 6917,7333

Coeficiente de determinação r2
r2 = 0,9715
O ajuste do modelo logaritmizado gerou a seguinte equação:
/0 !1 = ', 2)-' + ', %,,' /0 . "
Com o seguinte quadro da ANOVA
FV GL SQ QM Fcalc Ftab
Regressão 1 0,1930 0,1930 321,67** 9,07
Resíduo 13 0,0076 0,0006
Total 14 0,2006

Coeficiente de determinação r2
r2 = 0,9621
2
O quadro abaixo mostra os valores de r obtidos nos quatro ajustes usando valores diferentes
para a observação 4:
2 3 2 3
MODELO r (usando 310 m /ha) r (usando 210 m /ha)

Yi = β0 + β1 Xi + ɛi 0,6095 0,9715

ln Yi = ln β0 + β1 ln Xi + ln ɛi 0,7012 0,9621

Observa-se que para o modelo linear o a perda de precisão foi de 0,3620 que corresponde
a 36,20% e para o logaritmo a perda foi de 26,09%.
REGRESSÃO LINEAR MÚLTIPLA.

Corresponde a um modelo linear no qual a variável dependente Yi é relacionada com várias


variáveis independentes Xi.

Generalizando um modelo linear, pode-se escrever:

Yi = b0 + b1 X1i + b 2 X 2i + ! + b n X n i + e i

Em que:
Yi = variável dependente;
Xi = variáveis independentes;
b0 , b1 , !, bn = parâmetros de modelo;

ei = erro da regressão.

Os erros ei do modelo podem ser escritos da seguinte forma:

e i = Yi - b0 - b1 X1i - b 2 X 2i - ! - b n X n i

Usa-se o mesmo procedimento do método dos mínimos quadrados empregado para o modelo linear
simples, sendo que tem que se derivar para cada parâmetro associado a respectiva variável
independente.

n n

åε
i =1
2
i = å (yi - β 0 - β1 X1i - β 2 X 2i - ! - β n X n i ) 2
i =1

n
¶ å ε i2
( )(- 1) = 0
n
i =1
= 2å Yi - b 0 - b1X1i - b 2 X 2i - ! - b n X n i
¶ b0 i =1

b 0 = Y - b1X1 - b 2 X 2 - ! - b n X n
Para os parâmetros βi, tem-se:

n
¶ å e i2
( )
n
i =1
= 2å Yi - b 0 - b1 X1i - b 2 X 2i - ! - b n X n i (- X1i ) = 0
¶ b1 i =1


n
¶ å e i2
( )( )
n
i =1
= 2å Yi - b 0 - b1 X1i - b 2 X 2i - ! - b n X n i - X 2i = 0
¶ b2 i =1
n n n n
nb 0 + b1 å X1i + b 2 å X 2i + ! + b n å X n i = å Yi
i =1 i =1 i =1 i =1

n n n n n
b 0 å X1i + b1 å X12i + b 2 å X1i X 2i + ! + b n å X1i X n i = å X1i Yi
i =1 i =1 i =1 i =1 i =1

n n n n n
b 0 å X 2i + b1 å X1i X 2i + b 2 å X 22i + ! + b n å X 2i X n i = å X 2i Yi
i =1 i =1 i =1 i =1 i =1

"
n n n n n
b 0 å X n i + b1 å X1i X n i + b 2 å X 2i X n i + ! + b n å X 2n i = å X n i Yi
i =1 i =1 i =1 i =1 i =1
Uma maneira simples de se conseguir tal simplificação é a de se trabalhar com os valores dos
desvios, tornando x i = ( Xi -X ) e yi = ( Yi -Y ). Sabendo-se que:

å (X - X) =
n n

i =1
i åx
i =1
i =0

å (Y - Y) =
n n

i =1
i åy
i =1
i =0

O sistema de equações se torna em:

n n n n
b1 å x 12i + b 2 å x 1i x 2i + ! + b n å x1i x n i = åx 1i y i ® Equação de b1
i =1 i =1 i =1 i =1

n n n n
b1 å x 1i x 2i + b 2 å x 22i + ! + b n å x 2 i x n i = åx 2i y i ® Equação de b 2
i =1 i =1 i =1 i =1

"
n n n n
b1 å x 1i x n i + b 2 å x 2i x n i + ! + b n å x 2n i = åx ni y i ® Equação de b n
i =1 i =1 i =1 i =1
As somas dos quadrados e soma dos produtos
corrigidos para as médias são computados da forma
conhecida: 2
æ n ö
n n
ç å Yi ÷
å y i2 = åY i
2
- è i =1 ø
i =1 i =1 n

2
æ n ö
n n
ç å Xi ÷
åx 2
i = åX 2
i - è i =1 ø
i =1 i =1 n

n n

n n
( å X i )(å Yi )
åx
i =1
i yi = åX
i =1
i Yi - i =1
n
i =1

n n

n n
( å X i )(å X j )
åx
i = j=1
i xj = åXi =1
i Xj - i =1
n
i =1
Considerar o exemplo proposto por Freese (1962), em que se relacionou o crescimento
volumétrico (Yi) de um povoamento equiâneo de Pinus elliottii e Pinus taeda, com área basal total
(X1), porcentagem de área basal em Pinus elliottii (X2) e índice de sítio para Pinus elliottii (X3),
ajustando o modelo:

Yi = b 0 + b1X1i + b 2 X 2 i + b3 X 3i + e i

Yi X1i X2i X3i Yi X1i X2i X3i


65 41 79 75 81 55 93 85
78 90 48 83 77 77 68 71
85 53 67 74 83 98 51 84
50 42 52 61 97 95 82 81
55 57 52 59 90 90 70 78
59 32 82 73 87 93 61 89
82 71 80 72 74 45 96 81
66 60 65 66 70 50 80 77
113 93 96 99 75 60 76 70
86 80 81 90 75 68 74 76
104 101 78 86 93 75 96 85
92 100 59 88 76 82 58 80
96 84 84 93 71 72 58 68
65 72 48 70 61 46 69 65
Soma 2206 1987 2003 2179
Média 78,7857 70,9643 71,5357 77,8214

Em que:
Yi = Volume da parcela;
X1i = Área basal em pés quadrados;
X2i = Porcentagem de área basal de Pinus elliottii;
X3i = Índice de sítio dado pela altura média das árvores dominantes e codominantes em pés.

EQUAÇÕES NORMAIS EQUAÇÕES REDUZIDAS
n n n n Desta forma, tem-se:
nb 0 + b1 å X1i + b 2 å X 2i + ! + b n å X n i = å Yi
i =1 i =1 i =1 i =1

ì n 2 n n n

ï b1 å x1i + b 2 å x1i x 2i + b3 å x1i x 3i = å x1i y i


n n n n n
b 0 å X1i + b1 å X + b 2 å X1i X 2i + ! + b n å X1i X n i = å X1i Yi
2

i =1 i =1
1i
i =1 i =1 i =1 ï in=1 i =1 i =1 i =1
ï n n n

íb1 å x1i x 2i + b 2 å x 2i + b 3 å x 2i x 3i = å x 2i y i
2

n n n n n ï i =n1 i =1 i =1 i =1
b 0 å X 2i + b1 å X1i X 2i + b 2 å X + ! + b n å X 2i X n i = å X 2i Yi
2 n
ïb x x + b x x + b x2 = x y
n n

ïî 1 å 2 å 2i 3i 3 å 3i å
2i
i =1 i =1 i =1 i =1 i =1 1i 3i 3i i
i =1 i =1 i =1 i =1
"
n n n n n
b 0 å X n i + b1 å X1i X n i + b 2 å X 2i X n i + ! + b n å X = å X n i Yi 2
ni
i =1 i =1 i =1 i =1 i =1
As somas de quadrados e somas dos produtos corrigidos para as médias são computados da
forma familiar:

2
æ n ö
ç å Yi ÷
n n
- è i =1 ø (2206 )
2

åy i =1
2
i = åY
i =1
i
2

n
= 65 2
+ 78 2
+ ! + 61 2
-
28
= 5974,7143

2
æ n ö
ç å X 1i ÷
n n
- è i =1 ø (1987 )
2

åx i =1
2
1i = åX
i =1
2
1i
n
= 41 + 90
2 2
+ ! + 46 2
-
28
= 11436,9643

æ n öæ n ö
ç å X 1 i ÷ç å Yi ÷
ø = (41)(65 ) + (90 )(78 ) + ! + (46 )(61) - (1987 )(2206 )
n n

å x 1i y i = å X 1i Yi - è i =1 øè i =1
i =1 i =1 n 28

åx i =1
1i y i = 6428,7858


Substituindo estes valores nas equações normais, tem-se:

11436,9643b1 - 1171,4642b 2 + 3458,8215b 3 = 6428,7858


- 1171,4642b1 + 5998,9643b 2 + 1789,6786b 3 = 2632,2143
3458,8215b1 + 1789,6786b 2 + 2606,1072b 3 = 3327,9286

Então, resolvendo-se as equações normais pelo processo anteriormente citado, tem-se:

1) Dividir cada equação pelo coeficiente numérico de b1:

b1 - 0,102427897 b 2 + 0,302424788 b 3 = 0,562105960,


b1 - 5,120911334 b 2 - 1,527727949 b 3 = -2,246943867
b1 + 0,517424389 b 2 + 0,753466809b 3 = 0,962156792


1) Subtraindo as equações de b2 e b3 de b1, tem-se:

5,018483437 b 2 + 1,830152737 b 3 = 2,809049827


- 0,619852286 b 2 - 0,451042021b 3 = -0,400050832

2) Dividir cada equação pelo coeficiente numérico de b2:

b2 + 0,364682430b3 = 0,559740779
b2 + 0,72766049894b3 = 0,645397042

1) Subtraindo a equação resultante de b3 de b2, tem-se:

-0,362978064b3 = - 0,08556566263

2) Encontra-se, então, o valor de b3:

- 0,085656263
b3 = = 0,235981927
- 0,362978064

3) Com o valor de b3, substitui-se o mesmo em uma das equações do item (3), encontrando-
se o valor de b2.

b2 + ( 0,364682430) ( 0,235981927) = 0,559740779

b2 = 0,473682316

1) Substitui-se os valores de b2 e b3 em uma das equações de (1) encontrando-se o valor de b1.

b1 = 0,102427897) ( 0,473682316) + ( 0,302424788) ( 0,235981927) = 0,562105960

b1= 0,53925759

Dados os valores de b1, b 2 e b3, encontra-se facilmente o valor de b0 .

b 0 = Y - b1X1 - b 2 X 2 - b 3 X3

b 0 = 78,7857 - (0,539257459)(70,9643) - (0,473682316)(71,5357) - (0,235981927)(77 ,8214).

b 0 = -11,73196808 @ -11,7320

Resultando na equação:

Ŷi = -11,7320 + 0,5392 X1 + 0,4737 X 2 + 0,2360 X3



ANÁLISE DA VARIÂNCIA
2
æ ö n
ç å Yi ÷
å (Y - Yi )
n n
SQT = å Yi2 - è i =1 ø 2
= i
i =1 n i =1

å (Ŷ - Y )
n n n
= b1 å x ii y i + b 2 å x 2i y i
2
SQREG = i
i =1 i =1 i =1

SQRES =
SQT = 65 + 78 + ! + 61
2 2 2
-
(2206 )
2
= 5974,7143
28

SQ Re g = 0,5392(6428,7858) + 0,4737(2632,2143) + 0,2360(3327,9286 ) = 5498,9389

SQ Re s = 5974,7143 - 5498,9389 = 475,7754

Então:
FV GL SQ QM F
**
Regressão 3 5798,9389 1832,9796 92,463
Erro 24 475,7754 19,8240
TOTAL 24 5974,7143

F tabelado a 1% de probabilidades com 3 graus de liberdade para a regressão e 24 para o resíduo


é igual a 4,72, indicando que a regressão se ajusta aos dados de maneira altamente significativa.

COEFICIENTE DE DETERMINAÇÃO OU
ÍNDICE DETERMINÍSTICO (R2)
n n
b1 å x1i y i + b 2 å x 2i y i
SQ Re g
R2 = i =1
n
i =1
=
SQT
å i
y 2

i =1

Então :

5798,9389
R2 = = 0,9204
5974,7143

Indicando que 92,04% das variações dos dados estão sendo explicadas pela regressão.

COEFICIENTE DE DETERMINAÇÃO AJUSTADO 𝐑𝟐𝐚𝐣

SQ Re g SQT - SQ Re s SQ Re s
R2 = = = 1-
SQT SQT SQT

SQ Re S
( n - p) ( n - 1)SQ Re s æ n - 1 ö SQ Re s
2
R aj =1 - = 1- =1 - ç
ç ÷
÷.
SQT ( n - p)SQT è n - p ø SQT
n -1

æ n - 1 ö SQT - SQ Re sg æ n - 1 öæ SQT SQ Re sg ö
R 2
aj =1 - ç
çn-p÷ ÷. =1 - ç
ç ÷
֍
ç - ÷
÷
è ø SQT è n - p øè SQT SQT ø

æ n -1 ö
2
R aj =1 - ç
çn-p÷ ÷ 1 -(R 2
)
è ø
Quando se trabalha com mais de uma variável independente, há necessidade de se conhecer qual a
contribuição de cada variável independente para se determinar qual(is) variável(is) deveria(m) ser ou
não incluída(s) na equação resultante.
Testar a variável X1i na presença de X2i e X3i.

ì n 2 n n n

ï b1 å x1i + b 2 å x1i x 2i + b3 å x1i x 3i = å x1i y i As equações normais para ajustar X2i e X3i são:
ï in=1 i =1 i =1 i =1
ï n n n

íb1 å x1i x 2i + b 2 å x 2i + b 3 å x 2i x 3i = å x 2i y i
2 n n n
b ,2 å x 22i + b ,3 å x 2i x 3i = åx yi
ï i =n1
2i
i =1 i =1 i =1 i =1 i =1 i =1
n n n
ïb x x + b x x + b x2 = x y
ïî 1 å 2 å 2i 3i 3 å 3i å n n n

i =1
1i 3i
i =1 i =1 i =1
3i i b ,
2 åx
i =1
2i x 3i + b ,
3 åx
i =1
2
3i = åx
i =1
3i yi



ìï5998,9643b ,2 + 1789,6786b ,3 = 2632,2143
í
ïî1789,6786b ,2 + 2606,1072b ,3 = 3327,9286

Calculando o valor de b ,3 , tem - se :

2632,2143 - 5998,9643b ,2
b =
,
3
1789,6786
Substituindo na segunda equação se obtém:

æ 2632,2143 - 5998,9643b ,2 ö
1789,6786b ,2 + ç
ç ÷
÷ 2606,1072 = 3327,9286
è 1789,6786 ø

1789,6786b ,2 + 3832,9969 - 8735,6154b ,2 = 3327,9286 - 6945,9368b ,2 = -505,0683

- 505,0683
b ,2 =
- 6945,9368

b ,2 = 0,072714

2632,2143 - 5998,9643(0,0702714)
b ,3 =
1789,6786

b ,3 = 1,22704

Então:

æ n ö æ n ö
SQReg de X 2 e X 3 = b 2 ç å x 2i y i ÷ + b 3 ç å x 3i y i ÷
è i =1 ø è i =1 ø

SQReg de X 2 e X 3 = 0,072714(2632,2143) + 1,22704(3327,9286 )


SQReg de X 2 e X3 = 4274,9003

O quadro da análise da variância passa a ser o seguinte:
FV GL SQ QM F
Reg. de X1, X2 e X3 3 5498,9389
Reg. de X2 e X3 2 4274,9003
**
Ganho de X1 1 1224,0386 1224,0386 61,7452 **
Resíduo 24 457,7754 19,8240
TOTAL 27 5974,7143

Como o valor de F foi significativo, há uma indicação de que a variável independente X1 deve ser
considerada na equação.

VARIÁVEIS INDICADORAS (DUMMY)
Exemplo: Considere as produções volumétricas (m3) de árvores de três clones de eucaliptos (A, B
e C) aos seis anos plantados no mesmo tipo de solo.
2
V D H D H X1 X2
0,0116 5,3 9,6 269,66 1 0
0,0157 6,1 9,0 334,89 1 0
0,0125 5,5 8,9 269,23 1 0
0,0182 6,5 10,0 422,50 1 0
0,0204 6,8 10,2 471,65 1 0
0,0233 7,0 10,3 504,70 1 0
0,0093 5,0 9,0 225,00 1 0
0,0253 7,2 10,0 518,40 1 0
0,0140 6,0 8,5 306,00 1 0
0,0120 5,4 7,9 230,36 1 0
0,0304 8,0 11,0 704,00 0 1
0,0337 8,2 10,9 732,92 0 1
0,0291 7,9 10,0 624,10 0 1
0,0276 7,8 10,5 638,82 0 1
0,0410 8,9 12,0 950,52 0 1
0,0437 9,0 11,9 963,90 0 1
0,0350 8,4 10,8 762,05 0 1
0,0465 9,1 12,5 1035,13 0 1
0,0374 8,5 12,0 867,00 0 1
0,0507 9,4 12,4 1095,66 0 1
0,0540 10,0 10,0 1000,00 0 0
0,0679 11,0 11,0 1331,00 0 0
0,0609 12,0 11,9 1713,60 0 0
0,0777 11,5 12,1 1600,23 0 0
0,0808 13,0 11,6 1960,40 0 0
0,0673 11,4 10,3 1338,59 0 0
0,0861 12,2 10,9 1622,36 0 0
0,0693 11,2 10,0 1254,40 0 0
0,0539 10,2 10,0 1040,40 0 0
0,0690 12,0 10,9 1569,60 0 0

Em que:
3
V = Volume em m ;
D = Diâmetro à altura do peito em cm;
H = Altura da árvore em m;
D2H = Variável independente;
X1 = Variável indicadora para o clone A (1,0);
O modelo ajustado é:

Vi = β" + β% D' H ) + β' X%) + β+ X ') + ε)

Após o ajuste, a equação resultante foi a seguinte:

V̂i = 0,02263 + 0,00032 (D 2 H)i - 0,01774X1 - 0,01185X 2


i i

A análise da variância apresentou o seguinte resultado:


FV GL SQ QM F
Regressão 3 0,01514 0,00504 252,0**
Resíduo 26 0,00062 0,00002
Total 29 0,01576

O valor de F altamente significativo indica que a regressão está se ajustando aos dados. Para se
conhecer com qual precisão, calcula-se o coeficiente de determinação:

SQRegressão 0,01514
R2 = = = 0,9607
SQTotal 0,01576

Significando que 96,19% das variações dos dados estão explicadas pela equação geral.

A equação para o clone A é a seguinte:

2
V̂i = 0,02263 + 0,00032 (D H)i – (0,01774)(1) – (0,01185)(0)

Resultando em:

V̂i = (0,02263 - 0,01774) + 0,00032 (D2 H) i


V̂i = 0,00489 + 0,00032 (D2 H) i

A equação para o clone B é:

V̂i = 0,02263 + 0,00032(D2 H)i - 0,01774(0) - 0,01185(1)

V̂i = (0,02263 - 0,01185) + 0,00032 (D2 H)i


V̂i = 0,01078 + 0,00032 (D2 H)i

A equação para o clone C é:

V̂i = 0,02263+ 0,00032(D2 H)i - 0,01774 (0) - 0,01185(0)

V̂i = 0,02263+ 0,00032(D2 H)i



Uma forma de verificar se a inclusão de uma variável indicadora é significativa, pode ser realizada
calculando a contribuição dessa variável indicadora, como foi visto no item l. Para calcular as
contribuições de X1i e X2i se faz necessário isolar uma de cada vez no sistema de equações. Para
calcular a contribuição de X1i se ajusta o modelo com as presenças das variáveis (D2H)i e X2i cuja
soma de quadrados deverá ser subtraída da regressão completa. O mesmo procedimento se utiliza
para calcular a contribuição de X2i e para o Clone C como se segue:

FV GL SQ QM F
Reg. de D2H, X1 e X2 3 0,01514 0,00504 252,0**
Reg. de D2H e X2 2 0,01487
Ganho de X1 (Clone A) 1 0,00027 0,00027 13,5**
Reg. de D2H e X1 2 0,01488
Ganho de X2 (Clone B) 1 0,00026 0,00026 13,0**
Reg. de X1 e X2 2 0,01392
Ganho de D2H (Clone C) 1 0,00122 0,00122 61,0**
Resíduo 26 0,00060 0,00002
Total 29 0,01574

Os valores de F tabelado com 1 grau de liberdade para a regressão e 26 graus de liberdade para o
resíduo são 4,23 e 7,72 para 5% e 1% de probabilidade, indicando que os três clones têm
contribuições altamente significativas, isto é, são diferentes entre si em termos de crescimento.

Modelos com a restrição de β0=0

Existem situações em que a restrição de que β0=0 deve ser considerada, principalmente quando se
modela a variável dependente como sendo custos, pois quando a(s) variável(eis) independente
for(em) igual(is) a zero a variável dependente também deve ser zero. Ou até mesmo em modelos
volumétricos, admitindo que quando o DAP e H forem zero, o volume também é zero.

Por exemplo, o modelo linear simples se torna em Yi = β1Xi + εi. Aplicando o método dos mínimos
quadrados, tem-se:

n n

å ε = å (Yi - β1Xi )
2 2
i
i =1 i =1


2
æ n
ö Como a linha da regressão passa pela origem, pois β0 = 0, implica em:
d ç å εi ÷ n
è i=1 ø = 2 (Y - b X )(- X ) = 0
d β1
åi=1 i 1 i i
n n n

å i =
(Y -Y) 2
å i åi
(Y -0) 2
= Y 2
n
-2å ( Yi -b1X i ) (X i )=0
i=1
i=1 i=1 i=1
n
0
å X ( Y -b
i=1
i i 1 Xi )=
-2
n n n
n

å X ( Y -b
i=1
i i 1 Xi ) =0 å i å i åi
ˆ
(Y
i=1
-Y) 2
= ˆ
(Y -0)
i=1
= ˆ
2
Y 2

i=1

n n

åX
i=1
i Yi -b1 åi=1
X i2 =0

n n
Como Ŷi =b1Xi , a SQReg = å ( b1Xi ) e a SQRes= å ( Yi -b1Xi ) .
n n 2 2
b1 åX
i=1
2
i = å X i Yi
i=1
i=1 i=1
n

åX i Yi
b1 = i=1
n

åX
i=1
2
i
O quadro da análise da variância é o que segue:
FV GL SQ QM F
n n
å ( b1Xi ) å ( b1Xi )
2 2
Regressão 1 i=1 i=1
QMReg/QMRes
n n

å(Y - b X ) å ( Yi - b1Xi )
2 2
Resíduo N-1 i=1
i 1 i
i=1

n-1
n

Total N åY
i=1
i
2

O grau de liberdade total é igual a N porque se trabalha com os valores não corrigidos, isto é, o
2
æ n ö
ç
è
å Y i ÷
ø não é considerado.
termo da correção C = i=1

n

Considerar os dados do exemplo anterior, mas sem as variáveis indicadoras e ajustar o modelo:

Vi = β1(D2H)i + εi XK
"K ± t
𝐘 U QMRes 1 +
V
;W+X ∑WI8X 5
XI − X V

A estimativa do parâmetro β1 é:
n

åX Y i i
1401,400028
b1 = i=1
n
= = 0,000046
30301806,14750
åX
i=1
2
i

Resultando na seguinte equação

V" = 0,0000456 (DAP2 H)i



Os cálculos das somas de quadrados para a análise da variância (ANOVA) se processam da forma
que segue:
n
SQTotal = åYi=1
i
2
= 0,06572

n
SQReg. = å (b X i ) = 0,06481
2
1
i =1

å(Y - b X )
2
SQRes = i 1 i = SQTotal – SQReg.= 0,06572-0,06468 = 0,00104
i=1

O quadro da ANOVA é o que segue:


FV GL SQ QM F
Regressão 1 0,06481 0,06481 2065,30**
Resíduo 29 0,00091 0,00003
Total 30 0,06572

#
O coeficiente de determinação para a regressão sem b0 é expresso por r"

#
0,06481
r" = = 0,9861
0,06572

Indicando que 98,62% das variações dos dados estão explicadas pela equação.

`K será:
Para um valor de DAP = 60 e H = 9,0, tem-se X0 = D2H = 324. O intervalo de confiança para V

XK
"𝟎 ± t
𝐘 U QMRes 1 +
V
;W+X ∑WI8X 5
XI − X V

`K = 0,0000456 324 = 0,0148


V
t(0,05;29) = 2,021

324
𝟎, 𝟎𝟏𝟒𝟖 ± 2,045 0,00004 1 + = 0,0148 ± 0,0129
7145301,5

"K ≤ 0,0277 ml
0,0019 ≤ V

Que é um intervalo de confiança com uma grande amplitude, isto é, 0,0258 m3 (0,0277-0,0019).
No mesmo exemplo considere o ajuste do modelo incluindo a interseção b0. Após o ajuste, a
equação resultante é seguinte:

V̂i = 0,0007543 + 0,0000456 (D 2 H) i

A análise da variância apresentou o seguinte resultado:


FV GL SQ QM F

Regressão 1 0,01485 0,01485 495,00**

Resíduo 28 0,00089 0,00003


Total 29 0,01576

O coeficiente de determinação para a regressão incluindo b0 é:

0,01498
r" = = 0,9425
0,01576

2
O intervalo de confiança de V" para DAP = 6,0 e H = 9,0 com X0 = D H = 324 será:

1 (X " − X)(
Y" ± t ' QMRes + *
(
; *+( n 89: X 8 − X
(

V̂i = 0,0007543 + 0,0000456 (324) = 0,0155 m 3

t(0,05;28) = 2,048

1 (324 − 878,57)(
0.0115 ± 2,048 0,00003 +
30 7145301,5

0,0115 ± (2,048)(0,0015)

3
0,0115 ± 0,0031 m

0,0084 ≤ V0 ≤ 0,0148 mF

3
Portanto, a amplitude do intervalo de confiança passa a ser de 0,0064 m .
Para fazer tal comparação se recomenda calcular a soma de quadrados dos
V
desvios entre os valores reais e os estimados ∑WI8X "I
YI − Y

A simples comparação mostra que rKV = 0,9861 > r V = 0,9425 que levaria
a conclusão de que o modelo com β0 = 0 resultou em uma equação mais
precisa. Esta interpretação é errônea, pois a comparação direta não pode ser
feita, uma vez que no cálculo do rKV em seu denominador não se subtrai a
correção, enquanto que no modelo β0 a correção é considerada e isto
conduz a rKV > r V
Primeiro trabalho

Ajustar dois modelos contendo duas variáveis independentes na área que você trabalha.

𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + 𝜺𝒊

𝜷 𝜷
𝒀𝒊 = 𝜷𝟎 𝑿𝟏 𝟏 𝑿𝟐 𝟐 𝜺𝒊

transformado em linear por logaritmização dos termos:

𝒍𝒏𝒀𝒊 = 𝒍𝒏𝜷𝟎 + 𝜷𝟏 𝒍𝒏𝑿𝟏 + 𝜷𝟐 𝒍𝒏𝑿𝟐 + 𝒍𝒏𝜺𝒊

Fazer análise da variância completa, coeficiente de determinação e contribuição das


variáveis independentes.

Usar no mínimo 20 dados. Só é permitido o uso do computador na planilha dos dados, o


resto tem que ser feito a mão, mostrando passo a passo.

Você também pode gostar