Você está na página 1de 75

Carlos Alberto Alves Varella

Graduao em Engenharia Agronmica UFRRJ, 1983.


Mestrado em Fitotecnia UFRRJ, 1999.
Doutorado em Engenharia Agrcola UFV, 2004.
Professor Adjunto, UFRRJ-IT-DE.
reas de atuao: Mecanizao agrcola, Agricultura de preciso, Projeto de
mquinas e Estatstica multivariada.

Ps-Graduao em Agronomia - CPGA-Solos
Anlise Multivariada Aplicada as Cincias Agrrias

Regresso linear mltipla
Ensinar modelagem estatstica de
fenmenos naturais aos alunos de ps-
graduao utilizando tcnicas da
estatstica multivariada.
Objetivo da disciplina
Ementa da disciplina
Regresso linear mltipla
Regresso linear mltipla para dados repetidos
Validao da predio
Correlao mltipla
Anlise de componentes principais
Anlise discriminante de Fisher
Anlise de varincia multivariada - MANOVA
Anlise de variveis cannicas

Avaliaes
Uma Prova
Trabalhos semanais
Trabalho final: Cada aluno dever
apresentar um seminrio e um
trabalho escrito sobre aplicaes de
tcnicas da estatstica multivariada em
sua tese.
Recursos computacionais
SAS: recomendado para anlises
estatsticas multivariadas por Revistas
de nvel internacional.
Local para baixar arquivos da
disciplina pela Internet
http://www.ufrrj.br/institutos/it/deng/varella/
multivariada.htm
Universidade Federal Rural do Rio de Janeiro CPGA-CS
Modelos Lineares
(reviso)
Modelos lineares
Seja Y a varivel que queremos
predizer a partir de um conjunto de
variveis preditoras X
1
, X
2
, ..., X
p
.
Ento podemos escrever:
Y representa a resposta;
X
1
,X
2
,..., X
p
so as variveis estudadas;
representa outro conjunto de variveis no
consideradas no estudo;


( ) c , X , , X , X f Y
p 2 1
=
Requisitos da funo
Deve prestar-se ao tratamento
matemtico;
Deve ser adequada para o conjunto de
dados em estudo;
Deve ser simples ou pelo menos mais
simples dentre as concorrentes.
( ) f
Condio para que um modelo seja linear
Um modelo para as observaes Y ser
linear se:
Este modelo definido como Modelo Linear de
Gauss-Markov-Normal.
| X E = ) Y (
( )
2
, N ~ , Y o c c | X + =
Vamos estudar o caso em que os erros so
normalmente distribudos, independentes e
homocedsticos.
A superfcie de resposta
O modelo linear a chave do negcio, isto ,
tem inmeras aplicaes na estatstica
multivariada.

a superfcie gerada pelos valores da
varivel de resposta. O modelo linear para
uma nica varivel de resposta Y com p
variveis preditoras :
. n , , 2 , 1 i
e X X X Y
i pi p i 2 2 i 1 1 0 i

=
+ + + + + = | | | |
Y
i
= superfcie de resposta
n = nmero de observaes;
p = nmero de variveis preditoras.
Duas situaes so
encontradas na modelagem
1. A matriz XX de variveis preditoras
X de posto coluna completo.
Neste caso o modelo chamado de
posto completo ou modelo de
regresso. o modelo que estamos
estudando;
2. A matriz XX de variveis preditoras
X de posto coluna incompleto.
Neste caso o modelo chamado de
posto incompleto o modelo da
ANOVA (ANalysis Of VAriance)
Conseqncias da estimao
Posto ou Rank de matrizes
Nmero de linhas ou colunas linearmente
independentes de uma matriz.
Em nosso caso, o posto o nmero de
colunas linearmente independentes da matriz
XX, sendo X a matriz dos valores das
variveis preditoras ou independentes
No programa computacional MATLAB o
comando rank faz uma estimativa do
posto de matrizes.
Conseqncias da estimao
Condies para que a matriz XX
seja de posto coluna completo
O posto ou rank da matriz XX deve ser
igual a p+1, ou seja:
( ) 1 p X ' X posto + =
p o nmero de variveis preditoras
estudas no modelo.
Conseqncias da estimao
Condies para que a matriz
XX tenha inversa (XX)
-1
As matrizes que possuem inversa so
chamadas NO SINGULARES.
Somente matrizes quadradas podem
ser no singulares. Contudo, nem toda
matriz quadrada no singular;
Conseqncias da estimao
Quando uma matriz quadrada
singular?
Seu determinante nulo; det(XX)
Ao menos uma de suas razes
caractersticas nula. As razes
caractersticas so os autovalores da
matriz; eig(XX)
Seu posto menor que p; rank(XX)
No definida positiva ou negativa.
Conseqncias da estimao
Matriz definida positiva (negativa)
Quando todos os autovalores so
positivos (negativos).
Conseqncias da estimao
Regresso Linear Mltipla
Introduo
uma tcnica da estatstica
multivariada utilizada para a predio
de valores de uma ou mais variveis
de resposta (dependentes) a partir de
diversas variveis preditoras ou
independentes.
JOHNSON, R. A.; WICHERN, D. W.
Applied multivariate statistical
analysis. 5th ed. Upper Saddle River,
New Jersey: Prentice-Hall, 2002, 767
p.
Pode tambm ser utilizada para estudar o
efeito dos preditores sobre as variveis de
resposta.
Primeiro trabalho sobre o assunto:
Regression Towards Mediocrity in Heredity
Stature. Journal of the Anthropological
Institute, 15 (1885). 246-263.
Mediocridade em funo da estatura
hereditria
Estatstica UNIVARIADA. Segundo
JOHNSON & WICHERN (2002) nesse
artigo o autor no percebeu a importncia
da tcnica para anlises multivariadas.
Introduo (Cont.)
Modelagem da Regresso
Linear
Pressuposies da modelagem
O modelo utilizado o de Gauss-Markov-Normal
Pressupe que a resposta apresenta uma mdia.
Pressupe ainda que essa mdia contem erros
provenientes de medies aleatrias e de outras
fontes no explicitadas pelo modelo.
O erro, e conseqentemente a resposta, so
tratados como variveis aleatrias, que o
comportamento caracterizado assumindo-se
uma distribuio NORMAL para os dados
experimentais.

Este mtodo consiste em se determinar o
estimador que minimiza a soma do
quadrado das diferenas entre valores
observados e valores preditos pelo modelo.
linear modelo o X Y c | + =
| | de estimador o

determinar Queremos
Estimadores dos parmetros pelo
mtodo dos mnimos quadrados
O erro do modelo na forma matricial :
| c X Y =
(
(
(
(
(

=
(
(
(
(
(

=
(
(
(
(

=
(
(
(
(

=
p
1
0
pn n 2 n 1
2 p 22 12
1 p 21 11
n
2
1
n
2
1
,
X X X 1
X X X 1
X X X 1
X ,
Y
Y
Y
Y ,
e
e
e
|
|
|
| c


O problema consiste em se ajustar um
modelo de regresso.
O erro da modelagem
Estimadores dos parmetros pelo mtodo dos mnimos quadrados
Modelo de regresso
O estimador de beta chamado de beta
chapu e pode ser determinado por outros
mtodos de minimizao do erro, como por
exemplo o mtodo da mxima
verossimilhana.
. n , , 2 , 1 i , X

X

Y

pi p i 2 2 i 1 1 0 i
= + + + + = | | | |
(
(
(
(
(

=
p
1
0

|
|
|
|

Estimadores dos parmetros pelo mtodo dos mnimos quadrados


O mtodo dos mnimos quadrados
Sabendo que o erro do modelo :
| c X Y =
Ento o somatrio ao quadrado das
diferenas dos erros pode ser
representado na forma matricial por:
2
X Y Z | =
De acordo com o mtodo temos que
minimizar Z
Estimadores dos parmetros pelo mtodo dos mnimos quadrados
Minimizao da funo Z
As matrizes YX e XY uma a
transposta da outra e so de
dimenso 1x1, ento as matrizes so
iguais.
2
X Y Z | =
( ) ( )
( ) ( )
| | | |
| |
| |
X ' X ' Y ' X ' X ' Y Y ' Y Z
X Y ' X ' ' Y Z
X Y X Y Z
'
+ =
=
=
Estimadores dos parmetros pelo mtodo dos mnimos quadrados
| | | X ' X ' Y ' X ' 2 Y ' Y Z + =
Diferenciando a funo Z
( ) ( ) ( ) | | | | | d X ' X ' X ' X ' d Y ' X ' d 2 dZ + + =
As matrizes (d)XX e XX(d) uma a
transposta da outra e so de dimenso 1x1,
ento as matrizes so iguais.
( ) ( )
( ) ( ) Y ' X X ' X ' d 2 dZ
X ' X ' d 2 Y ' X ' d 2 dZ
=
+ =
| |
| | |
Estimadores dos parmetros pelo mtodo dos mnimos quadrados
Fazendo com que a diferencial
de Z seja igual a zero
Para que a diferencial de Z seja zero
0 dZ
( ) ( ) 0 Y ' X X ' X ' d 2 = | |
Para que dZ seja zero, (XX-XY)
deve ser igual a zero.
0 Y ' X

X ' X = |
Estimadores dos parmetros pelo mtodo dos mnimos quadrados
O beta chapu
Assim chamado o vetor estimador
dos parmetros de beta.
O vetor beta chapu determinado
resolvendo-se o sistema de equaes
normais:
Y ' X

X ' X = |
Estimadores dos parmetros pelo mtodo dos mnimos quadrados
Soluo do sistema de equaes normais
Multiplicando-se ambos os membros do sistema de
equaes por
Y ' X

X ' X = |
( )
1
X ' X

Temos:
( ) ( ) Y ' X X ' X

X ' X X ' X
1 1
= |
( ) Y ' X X ' X

1
= |
O modelo de regresso pressupe um beta chapu
nico no tendencioso (blue). Mas isso precisa de
ser testado.
Estimadores dos parmetros pelo mtodo dos mnimos quadrados
O modelo que estamos estudando o
Linear de Gauss-Markov-Normal.
( )
2
, N ~ , X Y o c c | + =
modelo do erro o este X Y | c =
Regresso Linear Mltipla
Conseqncias da estimao
A mdia do modelo linear
Quando trabalhos com dados
experimentais assumimos que o estimador
da mdia x barra pode representar a
mdia da populao. Mas depois
precisamos testar se isso verdadeiro.
( )
'. ' mdia
como conhecido tambm populao, da
matemtica esperana a X Y

| E =
Conseqncias da estimao
.

o , de estimador
do e X preditoras variveis de valores de
linear combinao uma de f uno em
Y para obtidos valores , isto modelo,
pelo preditos valores os so

X Y

| |
| =
Quando trabalhos com dados experimentais
determinamos o beta chapu a partir de
amostras da populao. Por isso que
precisamos testar se esse beta mesmo
estimador no tendencioso.
Os valores preditos pelo modelo
Conseqncias da estimao
desvio. ou
resduo de chamado tambm ajustado,
modelo do erro o

X Y Y

| c = =
O erro do modelo de regresso
Este o erro que calculamos quando
trabalhamos com dados experimentais.
um vetor que descreve a distribuio
dos dados experimentais. Muitas
inferncias sobre nossos dados podem
ser feitas analisando-se esse vetor.
Conseqncias da estimao
O que queremos modelar
f enmeno. do modelagem na erro o :

estudado; f enmeno do modelagem a : Y

modelar; queremos que f enmeno o : Y

Y
c
c + =
Quando trabalhos com dados
experimentais assumimos que nossas
observaes so capazes de modelar
o fenmeno, e depois testamos.
Conseqncias da estimao
Prtica 1
Na tabela abaixo apresentamos os valores de uma
amostra de 6 observaes das variveis Y
i
, X
1i
e X
2i
.
Y
i
X
1i
X
2i
1,5 0 0
6,5 1 2
10,0 1 4
11,0 2 2
11,5 2 4
16,5 3 6
Fonte: Apostila de INF 664 Modelos Lineares. Adair Jos Regazzi,UFV,
Viosa, 2002.
Montar do sistema de equaes normais
(
(
(
(
(
(
(
(

=
6 3 1
4 2 1
2 2 1
4 1 1
2 1 1
0 0 1
X
Quando a regresso com intercepto adicionados
uma coluna de uns na matriz de dados.
X com intercepto
(
(
(
(
(
(
(
(

=
6 3
4 2
2 2
4 1
2 1
0 0
X
X sem intercepto
(
(
(
(
(
(
(
(

=
5 , 16
5 , 11
0 , 11
0 , 10
5 , 6
5 , 1
Y
Resposta Y
Prtica 1
Obteno da matriz XX
Esta matriz obtida multiplicando-se a
transposta da matriz X por ela mesma.
(
(
(

=
(
(
(
(
(
(
(
(

(
(
(

=
76 36 18
36 19 9
18 9 6
6 3 1
4 2 1
2 2 1
4 1 1
2 1 1
0 0 1
6 4 2 4 2 0
3 2 2 1 1 0
1 1 1 1 1 1
X ' X
Prtica 1
Obteno da matriz XY
Esta matriz obtida multiplicando-se a
transposta da matriz X pelo vetor Y.
(
(
(

=
(
(
(
(
(
(
(
(

(
(
(

=
220
111
57
5 , 16
5 , 11
0 , 11
0 , 10
5 , 6
5 , 1
6 4 2 4 2 0
3 2 2 1 1 0
1 1 1 1 1 1
Y ' X
Prtica 1
Sistema de equaes normais
Estimativa de beta pelos mtodo dos
mnimos quadrados
(
(
(

=
(
(
(

(
(
(

=
(
(
(
(


1
3
2
220
11
57
76 36 18
36 19 9
18 9 6
B

1
2
1
0
Prtica 1
regresso de equao a : X 1 3X 2 Y
s. regressore os so : e
regresso; de equao da intercepto o :

2i 1i i
2 1
0
+ + =
| |
|
Programa na linguagem MATLAB
Exemplos de comandos do Programa
computacional MATLAB
Resultados obtidos no Programa
computacional MATLAB

Vetor de parmetros
Posto da matriz
Determinante da matriz
Autovalores da matriz
Anlise de Varincia da
Regresso Linear
A anlise de varincia da regresso a
estatstica utilizada para testar os
regressores. A hiptese nula que todos os
regressores so iguais e zero. Caso isso no
ocorra o resultado da anlise significativo,
isto , rejeita-se a hiptese nula.
A anlise de varincia no testa o intercepto.
Anlise de varincia da
regresso linear
0 :
2 1 0
= = = =
p
H | | |
Algumas Pressuposies do
Modelo
Beta chapu um estimador no
tendencioso:
( ) | | E =

A esperana do erro do modelo zero e a


esperana da varincia dos erros
constante:
( ) ( )
2
I V e o c | c E = =
Varincias e Covarincias do Vetor
Estimador dos Parmetros
O vetor estimador dos parmetros beta
chapu:
2 1 '
) X ' X ( ] )

( )

[( )

( Cov o | | | | |

= E =
A covarincia deste vetor :
2 1

) ' ( )

( o |

= X X Cov
2 1
) ' ( )

( s X X Cov

= |
s
2
o Quadrado mdio do resduo.
Soma de Quadrado do Resduo
Soma dos quadrados dos desvios entre os
valores observados e os estimados pela
equao de regresso.
( )
2
n
1 i
i i
Y

Y s Re SQ

=
=
Escrito na forma matricial :
Y ' X '

Y ' Y s Re SQ | =
Soma de Quadrado Total
Matricialmente podemos escrever:
n
Y
Y SQTotal
2
n
1 i
i
n
1 i
2
i
|
.
|

\
|
=

=
=
c Y ' Y SQTotal =
Y ' u u ' Y
n
1
c =
u um vetor de 1s de dimenso n x 1.
Soma de Quadrado da Regresso
Na forma matricial escrevemos:
( )
2
n
1 i
i
Y Y

g Re SQ

=
=
Y ' u u ' Y
n
1
Y ' X '

g Re SQ = |
Esquema da anlise de varincia
da regresso
n =nmero de observaes;
p =nmero de variveis
Anlise para dados no repetidos
Causa de
variao
GL SQ QM F
Regresso
p
SQReg/p
Resduo
n-p-1
SQRes/n-p-1
Total
n-1
c Y ' X '

|
Y ' X '

Y ' Y
|
c Y ' Y

s Re QM
g Re QM
Teste F dos parmetros
Se os erros e
i
tm distribuio normal e se o
quociente
0
p 2 1
= = = = | | |
o mesmo que testar se:
s Re QM
g Re QM
F =
tem distribuio F (central) com p e n-p-1
graus de liberdade.
0 : H
p 2 1 0
= = = = | | |
F utilizado para testar a hiptese:
Quando o teste F significativo?
Quando F maior que o tabelado;
Quando rejeitamos a hiptese nula;
Contudo no possvel concluir quais
parmetros so significativos;
Exceto para o caso particular de p=1.

Teste t dos parmetros
Utilizado para testar hiptese a respeito dos
parmetros da regresso .
gl. 1) - p - (n a associado ,
)

( s

t
i
i i
|
| |
=
A estatstica utilizada :
O teste significativo quando t maior que o
valor tabelado.
Hipteses a Respeito dos Parmetros
no Modelo Linear
A hiptese de nulidade pode ser construda a
partir de m combinaes lineares independentes
u | = ' c : H
0
c uma matriz com m linhas e p+1 colunas

] c c c c [ ' c
p 2 1 0
=
um vetor m-dimensional de constantes
conhecidas.
(
(
(
(

=
m
2
1
u
u
u
u

Estatstica F usada para testar a


hiptese H
0
:c|=
2
1 1
0

m
)

' C ( ] C ) X ' X ( ' C [ )'

' C (
) H ( F
o
u | u |
=

Sendo verdadeira a hiptese de nulidade a
estatstica F(H
0
) tem distribuio F com m
e n-posto[X]=n-p-1 graus de liberdade.
Estatstica de Wald
Para teste F simultneo dos parmetros
Exemplo: testar a hiptese
H
0
:|
1
=|
2
=0
Posto [c]=m=2
0 e 0 : H
0
0
1 0 0
0 1 0
' c : H
2 1 0
2
1
0
0
= =
(

=
(
(
(

= | |
|
|
|
u |
(

=
(
(
(

=
1
3
1
3
2
1 0 0
0 1 0

' c |
(

=
(

=
1
3
0
0
1
3

' c u |
Exemplo: testar a hiptese
H
0
:|
1
=|
2
=0
(

33 54
54 132
240
1
c ) x ' x ( ' c
1
| |
(
(

6
132
6
54
6
54
6
33
c ) x ' x ( ' c
1
1
| | 50 , 125
1
3
6
132
6
54
6
54
6
33
1 3 =
(

(
(

Rejeita-se a hiptese H
0
:|
1
=|
2
=0
Exemplo: testar a hiptese
H
0
:|
1
=|
2
=0
00 , 1
1 2 6
00 , 3
1 p n
y ' x '

y ' y
QMR s

2 2
=

=

= = =
|
o
* *
0
75 , 62
) 00 , 1 ( 2
50 , 125
) H ( F =

=
82 , 30 ) 3 ; 2 ( F
% 1
=
Estatstica t usada para testar a
hiptese H
0
:c|=
Podemos usar t para testar hipteses a
respeito de combinaes lineares dos
parmetros
gl. 1) - p - (n a ,
)

' (

'

'
associado
c V
c c
t
|
| |
=
GLR ) X ( posto n 1 p n = =
Teste Simultneo dos
Parmetros
Testa uma nica hiptese;
Testa um vetor de betas;
No o mesmo que testar os betas
separadamente.
Isto , testar

No o mesmo que testar
0 : H e 0 : H
2 1 1 0
= = | |
(

=
(

= =
0
0
: H ou 0 : H
2
1
0 2 1 0
|
|
| |
Programa SAS (reg_cap1.sas)
proc reg data=sas.ind_v9;
/*ndvi rnir gnir arvi savi gndvi*/
model N = gndvi;
output out=p p=yhat r=resid;
print p;
run;
quit;
proc reg;
model yhat=N;
test N=1, intercept=0;
run;
plot yhat*N;
run;
quit;

Output do SAS Anlise de varincia do
modelo de regresso
The SAS System 23:15 Thursday, October 7, 2009 5

The REG Procedure
Model: MODEL1
Dependent Variable: N N

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F

Model 6 20710 3451.59735 4.39 0.0293
Error 8 6290.41589 786.30199
Corrected Total 14 27000


Root MSE 28.04108 R-Square 0.7670
Dependent Mean 60.00000 Adj R-Sq 0.5923
Coeff Var 46.73513


Teste t dos beta-chapu do modelo de
regresso
Parameter Estimates

Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t|

Intercept Intercept 1 1835.59747 1483.61562 1.24 0.2511
NDVI NDVI 1 -15182 19298 -0.79 0.4541
RNIR RNIR 1 -1698.66240 3814.27214 -0.45 0.6679
GNIR GNIR 1 -413.90081 2665.47402 -0.16 0.8804
ARVI ARVI 1 546.46984 283.26026 1.93 0.0898
SAVI SAVI 1 8350.10834 13196 0.63 0.5445
GNDVI GNDVI 1 594.04446 2908.94995 0.20 0.8433

Dependent Predicted
Obs Variable Value Residual

1 0 -16.4019 16.4019
2 0 -3.4152 3.4152
3 0 19.8021 -19.8021
4 30.0000 30.9970 -0.9970
5 30.0000 68.5033 -38.5033
6 30.0000 47.8805 -17.8805
7 60.0000 67.1267 -7.1267
8 60.0000 99.6748 -39.6748
9 60.0000 61.1820 -1.1820
10 90.0000 68.4044 21.5956
11 90.0000 65.1605 24.8395
12 90.0000 78.0660 11.9340
13 120.0000 97.4010 22.5990
14 120.0000 116.5953 3.4047
15 120.0000 99.0235 20.9765

Sum of Residuals -3.6067E-11
Sum of Squared Residuals 6290.41589
Predicted Residual SS (PRESS) 28335
Nveis de N preditos pelo modelo
Grfico: Predito x Observado
Concluso
O modelo de regresso multivariado
proposto no pode ser utilizado para
predizer nveis de N aplicados no solo.
Exemplo de regresso linear mltipla
com duas vaiveis independentes
Y X1 X2
1,5 0 0
6,5 1 2
10 1 4
11 2 2
11,5 2 4
16,5 3 6
Programa SAS
Resumo do Stepwise
Valores preditos
Regresso entre predito e
observado
Validao da predio