Você está na página 1de 15

ANÁLISE DE REGRESSÃO

1. Introdução :

O método da análise de regressão pode ser usado quando existe uma


relação funcional entre duas variáveis (regressão linear simples) ou entre uma
variável (chamada dependente) e duas ou mais variáveis independentes
(regressão linear múltipla).

A posição dos pontos experimentais em um diagrama de dispersão pode


sugerir a forma da relação funcional entre as variáveis, facilitando a escolha do
modelo estatístico a ser usado.

Pode-se observar, neste caso, que x explica grande parte da variação


em y. A parte da variação de y não explicada é atribuída ao acaso e constitui a
variação residual.

2. Regressão linear Simples:


Sejam y e x duas v. a. cuja distribuição conjunta é dada por g( Y, X). Se
o valor esperado de Y na distribuição condicional g (Y/X = x) é igual a 0 + 1X,
então, há uma regressão linear simples de Y sobre X.

Seja o modelo de regressão linear simples Y= 0 + 1x + e; admitindo


E(e)=0, o problema se resume nas estimativas dos parâmetros 0 + 1,
estabelecendo assim, a equação de regressão: Yˆ = ˆ 0 + ˆ 1X.

Estimativa dos parâmetros:


Sejam n pares de valores (xi , yi) ; i = 1,2,...,n

Xi X1 X2 X3 ... Xn
Yi Y1 Y2 Y3 ... Yn

Seja Yi = 0 + 1Xi + ei
Fazendo i = 1, 2, ..., n, temos:
Y1 = 0 + 1X1 + e1
Y2 = 0 + 1X2 + e2
. . . .
. . . .
. . . .
Yn = 0 + 1Xn + en

ei = Yi - 0 + 1Xi
(ei)² = (Yi - 0 - 1Xi)²
n n
Seja Z =  (ei)² =  (Yi - 0 - 1Xi )²
i=1 i=1

Os valores de ˆ 0 e ˆ 1 que minimizam Z são os que satisfazem as


derivadas parciais:
Z Z
=0; =0
 0  1
Z
= 2  (Yi - ˆ 0 - ˆ 1 Xi ) (-1) = 0  ( Yi - ˆ 0 - ˆ 1Xi ) = 0
 0
Z
= 2  (Yi - ˆ 0 - ˆ 1Xi ) (-Xi) = 0  ( Yi - ˆ 0 - ˆ 1X1 ) ( Xi) = 0
 1
Yi - n ˆ 0 - ˆ 1Xi = 0  Yi = n ˆ 0 + ˆ 1Xi
XiYi - ˆ 0Xi - ˆ 1Xi² = 0  XiYi = ˆ 0Xi + ˆ 1Xi²

O sistema de equações acima é denominado sistema de equações


normais. A solução deste sistema fornece as estimativas de 0 e 1.

Análise de variância da regressão:


Seja o sistema de equações normais:
Yi =n ˆ 0 + ˆ 1Xi 1
XiYi = ˆ 0Xi + ˆ 1Xi² 2

De 1 temos: ˆ 0 = Yi - ˆ 1Xi  ˆ 0 = Y - ˆ 1 X 3 , substituindo 3 em 2:


n n

XiYi = [Yi - ˆ 1Xi ] Xi + ˆ 1Xi²


n n

XiYi = (Xi ) (Yi ) - ˆ 1 (Xi)² + ˆ 1Xi²


n n

ˆ 1Xi² - ˆ 1(Xi )² = XiYi - (Xi ) (Yi)


n n
ˆ 1 [Xi² - (Xi )² ] = XiYi - (Xi ) (Yi)
n n

XiYi - (Xi ) (Yi)


ˆ 1= n
Xi² - ( Xi )²
n
Para proceder a análise de variância, vamos calcular a soma de
quadrado do resíduo ou independente da regressão :  eˆi2 =  (Yi  Yˆi ) 2
n n
SQR =  ei² =  (Yi - ˆ 0 - ˆ 1Xi)²
i=1 i=1

=  (Yi² + ˆ 0² + ˆ 12 Xi² - 2 ˆ 0Yi - 2 ˆ 1XiYi + 2 ˆ 0 ˆ 1Xi)

= Yi² + n ˆ 0² + ˆ 12Xi² - 2 ˆ 0Yi - 2 ˆ 1XiYi + 2 ˆ 0 ˆ 1Xi

= Yi² - [ ˆ 0Yi + ˆ 1XiYi] + n ˆ 0² + ˆ 1²Xi² - ˆ 0Yi - ˆ 1XiYi + 2 ˆ 0 ˆ 1Xi

SQRes = [Yi² - C] – [ ˆ 0Yi+ ˆ 1XiYi- C] + K


SQRes = Sqtotal - SQRegr
K = n ˆ 0² + ˆ 1²Xi2 - ˆ 0Yi - ˆ 1XiYi + 2 ˆ 0 ˆ 1Xi

K = n[Yi - ˆ 1Xi]² + ˆ 1²Xi² - [Yi - ˆ 1Xi]Yi - ˆ 1XiYi + 2[Yi - ˆ 1Xi] ˆ 1Xi


n n n n n n

K= n[(Yi)² - 2 ˆ 1 (Xi )(Yi) + ˆ 1²(Xi)²] + ˆ 1²Xi² - (Yi)² + ˆ 1(Xi)(Yi) - ˆ 1XiYi


n² n² n² n n

+ 2 ˆ 1(Xi)(Yi ) - 2 ˆ 1²(Xi)²
n n

K= ˆ 1² Xi² + ˆ 1(Xi)(Yi) - ˆ 1XiYi - ˆ 1²(Xi)²


n n
ˆ ˆ
K=  1² [ Xi² - (Xi)² ] -  1 [XiYi – (Xi)(Yi) ]
n n
K= ˆ 1²SQDx - ˆ 1SQDx ˆ 1

K= ˆ 1²SQDx - ˆ 1²SQDx = 0 , logo, a SQR será:

SQR = [Yi² - C] – [ ˆ 0Yi + ˆ 1XiYi – C]

SQR = SQtotal - SQRegressão


Sendo C = (Yi)²
n
SQtotal = Yi² - ( Yi)²
n

SQRegressão = ˆ 0Yi + ˆ 1XiYi - (Yi )²


n
SQR = SQtotal - SQRegressão

Quadro da Análise de Variância

F.V. GL SQ QM F
Regressão 1 SQRegr. QMRegr. QMRegr.
Indep.Regr. n-2 SQ.ind.Regr. QM.ind.Regr. QM.ind.Reg.
Total n-1

Conclusões :
Se Fcalc  F (1; n-2) g.l. conclui-se que a equação de regressão
explica significativamente a variável dependente Y, ao nível de significância .
Se Fcalc < F (1; n-2) g.l. conclui-se que a equação de regressão não
explica significativamente a variável dependente Y, ao nível de significância .
O R² (coeficiente de determinação), em todos os casos, é calculado pela
expressão:
R² = SQRegressão x 100
SQtotal
O R² representa a percentagem da variação em Y (variável dependente)
que está sendo explicada pela equação de regressão.

Exemplo: Considerando os pares de valores (X, Y) dados abaixo, obter a


equação de regressão e a análise de variância da regressão, para o modelo : y
= 0 + 1X + e. (adotar  = 5%)

X 2,2 2,4 2,6 2,8 3,0


Y 5,0 5,4 5,7 6,2 6,9

Xi = 2,2 + 2,4 + ... + 3,0 = 13,00


Xi² = (2,2)² + (2,4)² + ... + (3,0)² = 34,20
Yi = 5,0 + 5,4 + ... + 6,9 = 29,20
Yi² = (5,0)² + (5,4)² + ... + (6,9)² = 172,70
XiYi = (2,2)(5,0) + ... + (3,0)(6,9) = 76,84

Sistema de equações normais:

Yi = n ˆ 0 + ˆ 1Xi  29,20 = 5 ˆ 0 + 13 ˆ 1 (X13)


XiYi = ˆ 0Xi + ˆ 1Xi2 76,84 = 13 ˆ 0 + 34,20 ˆ 1 ( X - 5)

379,60 = 65 ˆ 0 + 169 ˆ 1
-384,20 = -65 ˆ 0 - 171 ˆ 1
-4,60 = 0 - 2 ˆ 1  ˆ 1 = 2,3000

29,20 = 5 ˆ 0 + 13(2,3000)  ˆ 0 = -0,1400

Equação de regressão: Yˆ = -0,1400 + 2,3000X

Análise de Variância:
SQtotal =  Yi² - (Yi)² = 172,70 – (29,20)² = 2,1720
n 5

SQRegr. = ˆ 0Yi + ˆ 1XiYi - (Yi)²


n
SQRegr. = -0,1400(29,20) + 2,3000(76,84) - (29,20)² = 2,1160
5
SQ.ind.Regr. = 2,1720 - 2,1160 = 0,0560

Quadro da análise de Variância:

F.V. GL SQ QM F
Regressão 1 2,1160 2,1160 113,76*
Ind. Regr. 3 0,0560 0,0186
Total 4 2,1720

F5% (1;3) = 10,13

A equação de regressão explica significativamente a variável


dependente Y, ao nível de 5% de probabilidade.

R² = SQRegressão x 100 = 2,1160 x 100 = 97,42%


SQtotal 2,1720

97,42% da variação em Y está sendo explicada pela equação de regressão.


REGRESSÃO LINEAR MÚTIPLA
Pela álgebra de matrizes podemos apresentar um processo geral para a
obtenção das estimativas dos parâmetros para um modelo de regressão linear
múltipla ou um modelo polinomial.
Temos uma regressão linear múltipla quando admitimos que o valor da
variável dependente é função linear de duas ou mais variáveis independentes.
O modelo estatístico de uma regressão linear múltipla com p variáveis
independentes é:

Yi =0 + 1X1i + 2X2i +...+ pXpi + e1; i = 1, 2, ... , n

Fazendo i variar de 1 até n, obtemos as n equações seguintes:

Y1 = 0 + 1X11 + 2X21 + ... + pXp1 + e1


Y2 = 0 + 1X12 + 2X22 + ... + pXp2 + e2
... ... ... ... ... ... ...

Yn =0 + 1X1n + 2X2n + ... + pXpn + en

Essas equações podem ser apresentadas compactamente na notação


matricial por:

Y= X +  ; onde:

Y1 1 X11 X21 ... Xp1 0 e1


Y2 1 X12 X22 ... Xp2 1 e2
Y= · ; X= . . . . . = .
· . . . . ; = . .
. . . . . . .
Yn 1 X1n X2n ... Xpn p en

Y é um vetor n x 1 de observações aleatórias


X é uma matriz n x (p+1) de quantidades fixas conhecidas
 é um vetor (p+1) x 1 de parâmetros desconhecidos
 é um vetor aleatório n x 1

Pressuposições:
I. A variável dependente Yi é função linear das variáveis independentes Xji
(j =1,2,.., p);
II. Os valores das variáveis independentes são fixos;

III. E (ei) = 0, ou seja, E () = , onde, representa um vetor de zeros;


IV. Os erros são homocedásticos, isto é, E (ei)² =  ²;
V. Os erros têm distribuição normal;
Estimativa dos parâmetros de acordo com o método dos mínimos
quadrados:

Temos que: Y = X +
 = Y - X
Para determinar as estimativas dos parâmetros devemos minimizar a
soma de quadrado dos erros dada por ’:

e1
n e2
ei² = [ e1 e2 ... en ] . = ’
i=1
.
.
en
Seja Z = = ’
Z = (Y - X)' (Y - X)
Z = (Y' - 'X') (Y - X)
Z = Y'Y - Y'X - 'X'Y + 'X'X

Sendo as matrizes Y'X e 'X'Y de dimensões 1 x 1 e uma sendo a


trasposta da outra, temos:
Y'X = 'X'Y , logo:
Z = Y'Y - 2 'X'Y + ’X’X
A função Z apresenta ponto de mínimo para valores de  que tornem
sua diferencial identicamente nula:
Diferenciando Z, vem:
Z = -2 (') X'Y + (') ( X'X) + 'X'X ()

Sendo (') (X'X ) = 'X'X () por serem matrizes de dimensões 1 x 1 e


uma ser a transposta da outra.

Z = -2 (') X'Y + 2 (') X'X = 2 (') (X'X - X'Y)


Fazendo Z   , temos:
2  ˆ ' (X'X ˆ - X'Y)   ; como  ˆ '  , temos:
X'X ˆ - X'Y =   X'X ˆ = X'Y

Onde ˆ é o vetor das estimativas dos parâmetros, isto é:


ˆ 0
ˆ = ˆ 1
.
.
.
ˆ p
O sistema de equações X'X ˆ = X'Y é denominado sistema de equações
normais. A solução deste sistema nos fornece as estimativas dos parâmetros
constituintes do vetor .
X'X é não singular, logo, existe a matriz (X'X) -1, pré-multiplicando ambos
os membros da equação acima por (X'X)-1, temos:

(X'X)-1 (X'X) = (X'X)-1 (X'Y)


fazendo X'X = S , temos:

S-1 S ˆ = S-1 X'Y


I ˆ = S-1X'Y

ˆ = S-1X'Y

A primeira etapa dos cálculos para obtenção das estimativas dos


parâmetros é a construção das matrizes:

S = X'X

1 1 1 ... 1 1 X11 X21 ... Xp1


X11 X12 X13 ... X1n 1 X12 X22 ... Xp2
S= X21 X22 X23 ... X2n
. . . . . . . .
. . . . . . . .
. . . . . . . .
Xp1 Xp2 Xp3 ... Xpn 1 X1n X2n ... Xpn

S= n X1i X2i ... Xpi


X1i X1i² X1iX2i ... X1iXpi
X2i X1iX2i X2i² ... X2iXpi
. . . .
. . . .
. . . .
Xpi X1iXpi X2iXpi ... Xpi²

Observa-se que a matriz s é simétrica, isto é:


Primeira linha = primeira coluna
Segunda linha = segunda coluna.
... ...
Linha ordem (p +1) = coluna ordem (p + 1)
S = S'
1 1 1 ... 1 Y1 Yi
X11 X12 X13 ... X1n Y2 X1iYi
X'Y = X21 X22 X23 ... X2n Y3 X2iYi
... ... ... ... ... . ...
Xp1 Xp2 Xp3 ... Xpn . XpiYi
Yn

Análise de Variância da Regressão:


n
A soma de quadrado do resíduo é dada por: SQR = 
i 1
(Yi - Yˆ i )²

Isto é, a soma de quadrado dos desvios entre os valores observados e os


estimados pela equação de regressão.

Matricialmente, temos:

SQR = ˆ ’ ˆ
ˆ = Y - X ; ˆ ’ = Y' - ˆ 'X'
SQRes = (Y'- ˆ 'X') (Y - X ˆ )
= Y'Y - ˆ 'X'Y - Y'X ˆ + ˆ 'X'X ˆ
Sendo as matrizes Y'X ˆ e ˆ 'X'Y de dimensões 1 x 1 e sendo uma a
transposta da outra, temos:

Y'X ˆ = ˆ 'X'Y , logo :


SQRes = Y'Y - 2 ˆ 'X'Y + ˆ 'X'X ˆ

Do sistema de equações normais, temos:


X'X ˆ = X'Y

SQRes = Y'Y - 2 ˆ 'X'Y + ˆ 'X'Y


SQRes = Y'Y - ˆ 'X'Y
SQRes = [ Y'Y - (Yi)² ] - [ ˆ 'X'Y - ( Yi)² ]
n n

SQRes = SQtotal - SQRegressão


SQtotal = Y'Y - C

SQRegressão = ˆ 'X'Y - C

C = (Yi )²
n
Quadro - Análise de Variância da Regressão:

F.V. GL SQ QM F
Regressão p SQRegr. QMRegr. QMRegr.
Ind. Regr. n – p - 1 SQ.ind.Regr. QM.ind.Regr. QM.ind.Regr.
Total n-1

Exemplo 1 :
Obter a equação de regressão e a análise de variância da regressão para o
modelo Yˆ = ˆ 0 + ˆ 1X + ˆ 2X² , adotando  = 5%, dados :

X 1,0 2,0 3,0 4,0 5,0


Y 5,0 8,0 9,5 10,0 9,0

5,0 1 1 1
8,0 1 2 4 1 1 1 1 1
Y= 9,5 X= 1 3 9 ; X' = 1 2 3 4 5
10,0 1 4 16 1 4 9 16 25
9,0 1 5 25

S = X'X = 5,0 15,0 55,0


15,0 55,0 225,0
55,0 225,0 979,0

S = ( 269.225 + 185.625 + 185.625) - (220.275 + 253 . 125 + 166 .375)

S = 700

S-1 = (cofatores)' , onde, cofator Sij = (-1)i+j . Dij


Det S

S11 = (-1)² det 55 225 = 3.220


225 979

S12 = (-1) 1+² det 15 225 = -2.310


55 979

S13 = (-1) 1+³ det 15 55 = 350


55 225

S21 = (-1)²+1 det 15 55 = -2.310


225 979
S22 = (-1)²+² det 5 55 = 1.870
55 979

S23 = (-1)²+3 det 5 15 = -300


55 225

S31 = (-1) ³+1 det 15 55 = 350


55 225

S32 = (-1)³+² det 5 55 = -300


15 225

S33 = (-1)³+³ det 5 15 = 50


15 55

cof s = 3.200 -2.310 350


-2.310 1.870 -300
350 -300 50

Adj S = (cof s)' = 3.200 -2.310 350


-2.310 1.870 -300
350 -300 50

4,600000 -3,300000 0,5000000


-1
S = 1 Adj S = -3,300000 2,671428 -0,428571
700 0,500000 -0,428571 0,071428

1 1 1 1 1 5,0 41,5
X'Y = 1 2 3 4 5 8,0 134,5
1 4 9 16 25 9,5 = 507,5
10,0
9,0

ˆ 0 0,8000
ˆ = ˆ 1 = S-1 X'Y = 4,8573
ˆ 2 -0,6431
Equação de Regressão:

Yˆ = 0,8000 + 4,8573X - 0,6431X²

Análise de Variância da Regressão

SQTotal = Yi² - ( Yi)²


n

SQTotal = 5,0 ² + 8,0² + ... + 9,0 ² - (41,5 )² = 15,80


5

41,5
ˆ 'X'Y = [ 0,8000 4,8573 - 0,6431] 134,5 = 360,1336
507,5

SQRegr = ˆ 'X'Y - C = 360,1336 - 344,4500 = 15,68

SQind. Regr = 15,80 -15,68 = 0,12

Quadro - ANOVA REGRESSÃO:

F.V. GL SQ QM F
Regressão 2 15,68 7,84 130,66*
Ind.Regr. 2 0,12 0,06
total 4

Gráfico da Equação

X=1 Yˆ = 5,01
X=5 Yˆ = 9,00

Y' = 4,8573 - 2(0,6431) X = 4,8573 - 1,2862X

Y' = 0  4,8573 - 1,2862X = 0  1,2862X = 4,8573

X= 3,78

Y'' = -1,2862 (a função admite ponto de máximo)

X = 3,78 Yˆ = 9,97

Ponto de máximo (3,78 ; 9,97)


Exercício Proposto:
Considerando os pares de valores (x, y)dados abaixo, determinar a
equação de regressão para o modelo Yˆ = ˆ 0 + ˆ 1X + ˆ 2X² e estabelecer a
análise de variância da regressão, para = 5%.

X 0 1 2 3 4 5 6
Y 5,0 9,5 11,5 12,5 11,0 9,0 5,5

Exemplo 2

X1 1,2 1,5 1,8 2,1 2,4 2,7 3,0


X2 5,8 6,2 6,0 6,3 3,0 4,8 5,0
Y 10,8 9,6 9,0 8,0 7,0 5,8 4,8

Com os dados acima, obter a equação de regressão e a ANOVA da


regressão, adotando = 5%, admitindo a modelo Y =0 + 1X1 + 2X2 + e

10,8 1 1,2 5,8


9,6 1 1,5 6,2
9,0 1 1,8 6,0
Y= 8,0 X= 1 2,1 6,3
7,0 1 2,4 3,0
5,8 1 2,7 4,8
4,8 1 3,0 5,0

X' = 1 1 1 1 1 1 1
1,2 1,5 1,8 2,1 2,4 2,7 3,0
5,8 6,2 6,0 6,3 3,0 4,8 5,0

7 14,70 37,10
S =X’X 14,70 33,39 75,45
37,10 75,45 204,81

S-1 = 11,241621 -2,074989 -1,271940


-2,074989 0,561736 0,168933
-1,271940 0,168933 0,173053

X'Y = Y 55,00
X1Y = 107,22
X2Y 299,40
ˆ = S-1 X'Y

ˆ 0 14,989998
ˆ = ˆ 1 = -3,316521
ˆ 2 -0,031635

Equação de Regressão:

Yˆ = 14,989998 - 3,316521X1 -0,031635X2

Análise deVariância:

SQTotal = Yi² - (Yi)² = 459,4800 - ( 55,0)² = 27,3371


n 7

SQRegr = ˆ 'X'Y - C
55,00
SQRegr = [14,989998 - 3,316521 - 0,031635] 107,22 - 432,1429
299,40

SQRegr = 459,3810 - 432,1429 = 27,2381

SQind. Regr = 0,0990

F.V. GL SQ QM F
Regressão 2 27,2381 13,6190 551,37*
Ind.Regr. 4 0,0990 0,0247
total 6

R² = 27,2381 x 100 = 99,63%


27,3371
Testar a significância dos coeficientes da regressão:

Matriz de dispersão:
𝑉̂ 𝑎̂0 𝐶𝑜𝑣(𝑎̂0 , 𝑎̂1 ) 𝐶𝑜𝑣(𝑎̂0 , 𝑎̂2 )
D= X'X-1. QMResíduo = [𝐶𝑜𝑣(𝑎̂0 , 𝑎̂1 ) 𝑉̂ 𝑎̂1 𝐶𝑜𝑣(𝑎̂1 , 𝑎̂2 )]
𝐶𝑜𝑣(𝑎̂0 , 𝑎̂2 ) 𝐶𝑜𝑣(𝑎̂1 , 𝑎̂2 ) 𝑉̂ 𝑎̂2

Hipóteses (teste ‘t”)


𝐻0 : 𝑎̂𝑖 = 0
𝐻𝑎 : 𝑎̂𝑖 ≠ 0

Estatística “t” de Student

𝑎̂𝑖 − 0
𝑡 𝑐𝑎𝑙𝑐. =
√(𝑉̂ (𝑎̂𝑖 )

Constuir Intervalo de confiança para os coeficientes:

𝐼𝐶𝛼% = 𝑎̂𝑖 ± 𝑡𝛼 . √(𝑉̂ (𝑎̂𝑖 )


2

Você também pode gostar