Você está na página 1de 54

Regresso linear mltipla

Modelos de regresso linear mltipla


Exemplos:
Em um estudo com 67 escritrios de uma rede financeira, a varivel resposta foi
o custo operacional no ano que se findou. Haviam 4 variveis preditoras: o valor
mdio emprestado aos clientes durante o ano, o nmero mdio de emprstimos,
nmero total de novos emprstimos processados, e ndice de salrios dos
escritrios. (Temos um levantamento).
Num estudo sobre a produtividade de trabalhadores ( em aeronave, navios) o
pesquisador deseja controlar o nmero desses trabalhadores e o bnus pago
(remunerao). (Aqui temos um experimento).
Num estudo sobre a resposta uma droga, o pesquisador deseja controlar as
doses da droga e o mtodo de aplicao. (Tambm temos um experimento).
Num estudo sobre o tempo de CPU, para avaliar a demanda por recursos, o
pesquisador decidiu verificar o efeito de X1=disk I/O e X2=memory size.

Em todos os exemplos foram necessrias vrias variveis preditoras no


modelo para um bom ajuste do mesmo.

Um modelo contendo vrias variveis preditoras resulta numa estimao


mais precisa.

As anlises aqui desenvolvidas so vlidas para o delineamento inteiramente


casualizado.

Modelo de regresso de primeira ordem com duas


variveis preditoras
O modelo de regresso linear dado por:

Yi 0 1 X i1 2 X i 2 i

(1)

Onde Yi a resposta no i-simo ensaio, Xi1 e Xi2 so os valores das duas variveis
preditoras no i-simo ensaio. Os parmetros do modelo so 0, 1, 2 e o termo do erro
i.
Vamos assumir que E(i)=0, portanto, a funo de regresso do modelo de primeira
ordem :

E (Y ) 0 1 X 1 2 X 2

(2)

A representao grfica desta funo um plano no espao. A figura, na pgina


seguinte, mostra este plano para a funo:

E (Y ) 10 2 X 1 5 X 2

(3)

A funo de regresso na regresso mltipla chamada de superfcie de resposta.

Plano de resposta

Yi

E(Yi) = 20,00

(1,33;1,67)

Significado dos coeficientes de regresso:


O parmetro 0 o intercepto do plano de regresso. Se a abrangncia do modelo
inclui X1=0 e X2=0 ento 0=10 representa a resposta mdia E(Y) neste ponto.
Em outras situaes, 0 no tem qualquer outro significado como um termo
separado no modelo de regresso.
O parmetro 1 indica a mudana na resposta mdia E(Y) por unidade de
acrscimo em X1 quando X2 mantido constante. Da mesma forma 2 indica a
mudana na resposta mdia por unidade de aumento em X2 quando X1 mantido
constante.
Neste modelo, o efeito de X1 sobre a resposta mdia no depende de X2 e viceversa, assim, dissemos que as variveis preditoras tem efeito aditivo ou no
interagem. Temos um modelo de primeira ordem sem interao.
Exemplo: considerar o modelo de regresso da figura anterior.
Y = vendas no mercado (em 10.000 unidades monetrias); X1= despesas com o
ponto de venda (em 1.000 u.m.); X2= gastos com TV (em 1.000 u.m.). Como 1=2,
se o gasto em uma localidade aumenta em 1 unidade (1.000 u.m.), enquanto o gasto
com TV mantido constante, espera-se um acrscimo nas vendas de 2 unidades
(20.000 u.m.).

Exerccio: faa a interpretao para 2. Resposta: como 2=5 se o gasto com


TV em uma localidade aumenta em 1 unidade (1.000 u.m.) e o gasto com o
ponto mantido constante, as vendas esperadas aumentam 50.000 u.m.

Exerccio: no modelo

Yi 0 1 X i1 2 X i 2 ... p 1 X i , p 1 i

Faa a interpretao do parmetro k . Resposta: indica a mudana na


resposta mdia E(Y) com o acrscimo de uma (1) unidade na varivel
preditora Xk, quando todas as outras variveis preditoras so mantidas
constantes.

Modelo linear geral de regresso


Vamos supor que temos X1, X2,..., Xp-1 variveis preditoras. Vamos definir o modelo
de regresso, com erros normais, em termos das variveis preditoras:

Yi 0 1 X i1 2 X i 2 ... p 1 X i , p 1 i

(4)

Onde: 0, 1,..., p-1, so os parmetros;


Xi1,..., Xi,p-1 so constantes conhecidas;
i so independentes com distribuio N(0, 2)
i=1,2,...,n.
A funo resposta para o modelo, como E(i )=0, dada por:

E (Y ) 0 1 X 1 2 X 2 ... p 1 X p 1

(5)

Algumas situaes em que podemos usar o modelo em considerao.

1) Temos p-1 variveis preditoras: todas as variveis preditoras apresentam efeito


aditivo, ou seja, no apresentam um efeito de interao entre elas (o efeito de uma
varivel preditora no depende dos nveis da outra varivel preditora).

2) As variveis preditoras so qualitativas: neste caso temos variveis como: sexo,


invalidez (normal, parcialmente invlido, invlido). Usamos variveis indicadoras,
que recebem valores 0 e 1 para identificar as categorias de uma varivel
qualitativa.
Exemplo: desejamos fazer uma anlise de regresso para estimar a distncia de um
hospital (Y), baseado na idade dos pacientes (X1) e sexo (X2).
O modelo deYregresso
:

i

Onde:

1 X i 1 2 X i 2 i

(6)

X i1 idade dos pacientes;


X i2

1 se o paciente do sexo feminino

0 se o paciente do sexo masculino

A resposta mdia do modelo (6) :

E (Y ) 0 1 X 1 2 X 2 (7)
Para pacientes do sexo masculino, X2=0, temos:

E (Y ) 0 1 X 1

(8)

Para pacientes do sexo feminino, X2=1, temos:

E (Y ) ( 0 2 ) 1 X 1

(9)

As duas funes respostas representam duas retas paralelas com diferentes


interceptos. Exerccio: faa a representao grfica das funes 8 e 9.
Outro exemplo: vamos considerar uma terceira varivel no modelo, o status sobre
a invalidez dos pacientes, a qual apresenta trs categorias. Em geral,
representamos uma varivel qualitativa com c categorias, por meio de c-1
variveis indicadoras. Portanto, no exemplo, vamos definir as variveis X3 e X4
como:

1 se o paciente normal
0 se o paciente est em outra categoria

X3

1 se o paciente parcialmen te invlido


0 se o paciente est em outra categoria

X4

O modelo com idade, sexo e status da invalidez fica:

Yi 0 1 X i1 2 X i 2 3 X i 3 4 X i 4 i

(10)

Neste curso, temos um captulo somente para o estudo de variveis qualitativas.


Como modelar e interpretar os coeficientes de regresso?
3) Regresso polinomial: contm termos quadrticos e de maior ordem nas
variveis preditoras. Exemplo:

Yi 0 1 X i 2 X i2 i

(11)
10

O grfico deste modelo uma parbola.


Diagrama de disperso para os dados de produo de milho
11

Produo em kg/parcela

-20

20

40

60

80

100

120

Doses de fsforo

Apesar da natureza curvilnea da funo resposta do modelo (11) ele um caso


especial do modelo (4). Fazendo-se Xi1=Xi e Xi2=Xi2, temos o modelo (1).

11

4)Variveis transformadas: uma transformao bastante utilizada a


logartmica:

Yi ' log Yi

O modelo fica:

Yi ' 0 1 X i1 2 X i 2 3 X i 3 i

(12)

A funo resposta complexa. Porm, o modelo (12) da forma do modelo


linear geral de regresso.
Exerccio: coloque o modelo (13) na forma do modelo de regresso linear
geral (4).

Yi

0 1X i 1 2 X i 2

(13)

Basta fazer:

Yi '

1
Yi

Yi ' 0 1 X i1 2 X i 2 i
12

5) Modelos com efeito da interao entre variveis preditoras. O efeito de uma


varivel preditora depende dos nveis das outras variveis preditoras. Exemplo:

Yi 0 1 X i1 2 X i 2 3 X i1 X i 2 i

(14)

Observe que fazendo-se Xi3=Xi1Xi2 obtemos o modelo linear geral


de regresso (4).
6) Combinando modelos: Exemplo:

Yi 0 1 X i1 2 X i21 3 X i 2 4 X i22 5 X i1 X i 2 i

(15)

Fazendo-se:

Z i1 X i1 Z i2 X i21 Z i 3 X i 2

Z i4 X i22

Z i 5 X i1 X i 2

temos o modelo linear geral de regresso (4).

13

A figura ilustra um desses modelos mais complexos.

14

Modelo de regresso linear mltipla em termos


matriciais
A expresso do modelo linear geral de regresso dada por:

Yi 0 1 X i1 2 X i 2 ... p 1 X i , p 1 i

(16)

Em termos matriciais, precisamos definir:

Y1
Y
2

Y .
n x1

.
Yn

1 X 11 . . X 1, p 1
1 X

.
.
X
21
2 , p 1

X
nxp

. .

. . .
.
.
.
. . .
.

1 X n1 . . X n , p 1

0

1

p x1

p 1

1

2
.

.
.

n x1

15

Em termos matriciais, o modelo de regresso linear geral dado por:

Y X

(17)

um vetor de variveis aleatrias independentes e normalmente distribudas


com esperana (mdia), E()=0 e matriz de varincia-covarincia dada por:

0
2 ( )
.

2 . 0
. . .

0 . 2

=2I

Assim, o vetor das observaes Y tem esperana e varincia dadas por:

E( Y ) X
n x1

2 ( Y) 2I
nxn

(18)

16

Exerccio: uma empresa opera estdios fotogrficos para crianas em 12


cidades. A empresa deseja expandir seus estdios para outras cidades
semelhantes e deseja investigar se as vendas (Y) podem ser estimadas atravs
do nmero de pessoas com 16 anos ou menos (X1) e a renda per capita na
cidade (X2). Os resultados foram:

17

A) Escreva o modelo de regresso linear de primeira ordem (sem efeito


quadrtico e interao).
B) Faa um grfico de disperso (Scatterplot) entre vendas e nmero e outro
para vendas e renda.
C) Mostre a matriz X, os vetores Y e para os dados do exerccio.
D) calcule os valores mdios (esperanas) das observaes,
E(Y).

18

Respostas:
A)

Yi 0 1 X i1 2 X i 2 i

B)

19

20

68

17

45

16

91

18

48

16

C)

1
1

174
164

244

154

47

17

X
1

1
1

1
1

66

18

182

50

17

52

17

49

17

38

16

88

18

73

17

208

Y
163

145
145

137
242

191

21

0 68 1 17 2
45 16
1
2
0
0 911 18 2
0 48 1 16 2

0 47 1 17 2
66 18
0
1
2

E(Y )
0 50 1 17 2
52 17
1
2
0

0 49 1 17 2
38 16
1
2
0
0 88 1 18 2

0 73 1 17 2

22

Estimao dos coeficientes de regresso


O sistema de equaes normais para o modelo (17) :

X ' Xb X ' Y

(19)

E os estimadores de mnimos quadrados so dados por:

b ( X ' X ) 1 X ' Y

(20)

Mtodo de mxima verossimilhana


Vamos considerar o modelo com erros normais (17). A funo de mxima
verossimilhana dada por:

L(, )
2

1
( 2 2 ) n / 2

exp 21 2 (Yi 0 1 X i1 ... p 1 X i , p 1 ) 2


i 1

(21)

Os estimadores de mxima verossimilhana so exatamente os mesmos obtidos com o


mtodo de mnimos quadrados.

23

Continuao do Exerccio do estdio fotogrfico. Dados os resultados:


715
12
X ' X 715 45921

204 12269

204

12269
3474

108,435 0,228 - 7,174


( X ' X ) 1 0,228 0,001 - 0,016

- 7.174 - 0,016 0,480

2149
X ' Y 134330

36772
E) Encontre as estimativas dos parmetros do modelo.
F) Apresente a funo de regresso estimada.
G) Faa a interpretao das estimativas dos parmetros do modelo.

24

Valores estimados e resduos


Os valores estimados so obtidos por:

Y Xb

n x1

(22)

Os resduos so obtidos atravs da expresso matricial:

Y Xb
e YY

nx1

(23)

Exerccio:
H) para verificar o ajuste do modelo de regresso para os dados, necessrio
encontrar os valores estimados e os resduos. Encontre estes resultados para os dados
da empresa de estdio fotogrfico.

25

Anlise de varincia
Soma de quadrados e quadrados mdios

SQTotal Y' [I ( n1 ) J]Y com n - 1 graus de liberdade


SQRegresso Y ' [H ( n1 ) J]Y com p - 1 graus de liberdade
SQResduo Y ' (I H) Y com n - p graus de liberdade
Onde J uma matriz n x n de uns e H=X(XX)-1X a matriz de projeo. Os
quadrados mdios so dados por:

QMRegresso
QMErro

SQRegresso
p 1

SQErro
n p

26

Teste F para regresso


Hipteses em teste:

H 0 : 1 2 ... p 1 0
H a : pelo menos um k diferente de zero.
A estatstica de teste dada por:

F*

QMRegress o
QMErro

(24)

Se F*> F(; p-1,n-p), rejeitamos a hiptese nula, caso contrrio, aceitamos a


hiptese. No devemos esquecer de usar o valor p.
Exemplo: continuao do exerccio sobre a empresa de estdio fotogrfico.

27

Exerccio: interprete o teste F da anlise de varincia com o uso do valor p. Se a


hiptese nula for rejeitada, isto garante que podemos fazer estimao (predio)
vlidas? Resp. no.

28

Coeficiente de determinao (R2)


Define-se R2 por:

R2

SQRegress o
SQTotal

SQErro
SQTotal

(25)

Mede a reduo da variabilidade total de Y associada com o uso do conjunto de


variveis X1,...,Xp-1. Como na regresso linear simples, temos:

0 R2 1
Assim, R2=0 se todas as estimativas bk=0 (k=1,...,p-1), e R2=1 quando todas as
observaes Y carem exatamente na superfcie de regresso ajustada, isto ,
quando:
Yi Yi para todo i.
Como R2 aumenta com a adio de variveis explanatrias, sugere-se utilizar o
coeficiente de determinao ajustado (corrigido) para os graus de liberdade. O
coeficiente de determinao ajustado dado por:

Ra2 1

SQErro
n p
SQTotal
n 1

SQErro
1 nn1p SQTotal

(26)
29

Um alto valor de R2 no necessariamente implica que o modelo ajustado se presta


para se fazer inferncias precisas, pois apesar de um valor alto de R2, o QME ainda
pode ser grande. O modelo pode no ser exatamente linear.

Coeficiente de correlao mltipla (R)

R R

(27)

O coeficiente de correlao
mltipla mede o relacionamento
linear entre Y e .

Exerccio: calcule o coeficiente de determinao (R2), o coeficiente de


determinao ajustado (R2a) e o coeficiente de correlao (R), para os dados da
empresa de estdios fotogrficos . Faa a interpretao desses coeficientes.

Inferncia sobre os parmetros da regresso


Os estimadores de mnimos quadrados ou de mxima verossimilhana so no
tendenciosos, isto : E(b)=.
A matriz de varincia-covarincia dos estimadores, 2(b), dada por:

2 (b) 2 ( X ' X ) 1
(p x p)

(28)

30

A estimativa da matriz de varincia-covarincia dada por:

s2 (b) QMErro ( X ' X ) 1 (29)


(p x p)

Exerccio: para o exemplo da empresa de estdios fotogrficos, obtenha


s2(b).

Intervalo de confiana para os parmetros k


Para o modelo com erros normais, (17), temos:
bk k
s ( bk )

~ t (n p)

k 0,1,..., p - 1

(30)

Assim, o intervalo para k, com confiana 1- dado por:

bk t (1 / 2; n p ) s(bk )

(31)

Exerccio: para o exemplo da empresa de estdios fotogrficos calcule o


intervalo de confiana para 2, com confiana de 95%. Faa a
interpretao.

31

Testes de hipteses para k


Hipteses:

H 0 : k 0
H a : k 0

(32)

Estatstica de teste:

t*

bk
s ( bk )

(33)

Critrio do teste:
Se |t* |t(1-/2;n-p), aceita-se a hiptese nula, caso contrrio rejeita-se a mesma.
Exerccio: para o exemplo da empresa de estdios fotogrficos, teste a hiptese
para 2=0 vs a hiptese de que 2 diferente de zero, ao nvel de significncia de
5%. Faa a interpretao. Verifique se chegamos a mesma concluso com o uso
do intervalo de confiana.

32

Estimao da resposta mdia e predio de uma


nova observao
Intervalo de confiana para E(Yh)
Para valores dados de X1,X2,...,XP-1, representados por: Xh1,Xh2,...,Xh,P-1, a resposta
mdia representada por E(Yh). Vamos definir o vetor:

1
X
h1

Xh .
p x1

X h , p 1

A resposta mdia estimada, correspondente ao vetor Xh, dada por :

Yh X 'hb

(34)
33

A varincia estimada da resposta mdia dada por:

s 2 (Yh ) QMErro ( X 'h ( X ' X ) 1 X h ) X 'h s2 (b) X h

(35)

O intervalo de confiana para a resposta mdia, E(Yh), dado por:

Yh t (1 / 2; n p ) s(Yh )

(36)

Exerccio: encontre o intervalo de confiana.para a resposta mdia (vendas)


considerando Xh1=65,4 (populao objeto) e Xh2=17,6, (renda per capita) com
95%. Faa a interpretao. Voc considera que este intervalo d informao
precisa? Utilize os seguintes resultados:

26932,446

s2 (b)

56,748 - 1781,941

0,215

- 4,093

119,166

s2 ( Y h ) 42,316 s(Yh ) 6 ,505


34

Limites de predio para uma nova observao Yh(novo)


Os limites de predio com confiana 1- para uma nova observao Yh(nova)
correspondente ao vetor Xh, os valores das variveis explanatrias, so:

Yh t (1 / 2; n p ) s ( pred ) (37)
A varincia do erro de predio ( a diferena entre a nova observao e o valor
estimado) dado por:

s 2 ( pred ) QMErro (1 X 'h ( X ' X ) 1 X h )

(38)

Exerccio: a empresa deseja predizer as vendas para uma nova cidade com as
seguintes caractersticas
Cidade A: Xh1=53,1

Xh2=17,7

encontre o intervalo de predio com 95%. Faa a interpretao. Voc considera


que este intervalo satisfatrio? Utilize os seguintes resultados:

177,034 s(pred) 19,331 t(0,975;12 - 3) 2,306


Y
h

35

Observao: Isto serve para mostrar que apesar de termos um alto valor para o
R2=0,845, no temos preciso suficiente para fazer os intervalos de predio.
Assim, alto coeficiente de determinao, no significa que podemos fazer
predio precisa.
Pode-se pensar em adicionar ou substituir variveis preditoras do modelo.

Cautela com extrapolaes.


X2

X2

X1

X1

36

Diagnstico do modelo
Os procedimentos vistos para o modelo de regresso linear simples aplicam-se
diretamente para o caso do modelo de regresso linear mltipla.
Os captulos 9 e 10 do livro texto apresentam muitos outros procedimentos.
matriz de diagrama de disperso
grfico tridimensional (ver a nuvem de pontos de diferentes perspectivas para
identificar padres)
grficos de resduos (versus: valores estimados, tempo, alguma outra
seqncia, variveis regressoras, variveis regressoras omitidas, termos da
interao, box-plot(desenho esquemtico), grfico normal de probabilidades)
testes para homogeneidade de varincias, normalidade, falta de ajuste

Exemplo:
Empresa de estdio fotogrfico em 21 cidades.

37

Dados de 21 cidades da empresa de estdio fotogrfico:


OBS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

POPULACA
68.5
45.2
91.3
47.8
46.9
66.1
49.5
52.0
48.9
38.4
87.9
72.8
88.4
42.9
52.5
85.7
41.3
51.7
89.6
82.7
52.3

RENDA
16.7
16.8
18.2
16.3
17.3
18.2
15.9
17.2
16.6
16.0
18.3
17.1
17.4
15.8
17.8
18.4
16.5
16.3
18.1
19.1
16.0

VENDAS
174.4
164.4
244.2
154.6
181.6
207.5
152.8
163.2
145.4
137.2
241.9
191.1
232.0
145.3
161.1
209.7
146.4
144.0
232.6
224.1
166.5

Populao (X1)
Renda (X2)
Vendas (Y)

38

Matriz de diagrama de disperso:

Observa-se uma tendncia linear entre vendas (Y) e populao (X1); tambm
entre vendas (Y) e renda (X2). Observa-se, tambm, uma relao linear entre X1 e
X2. No se observa outliers, no se observa separaes nos dados.

39

40

A matriz de correlao:

Observe que a renda EST CORRELACIONADA com a populao.

41

A figura indica que razovel admitir uma superfcie plana como modelo de
regresso para os dados.

yi 0 1 X i1 2 X i 2 i

42

Exerccio: dados os vetores dos valores estimados e dos resduos. Faa os


seguintes grficos e interprete.
1 - resduos versus valores estimados
2 - resduos versus X1
3 - resduos versus X2
4 - resduos versus X1X2 (interao)

43

Y ajustados
187.18411
154.22943
234.39632
153.32853
161.38493
197.74142
152.05508
167.86663
157.7382
136.84602
230.38737
197.18492
222.6857
141.51844
174.21321
228.12389
145.74699
159.00131
230.98702
230.31606
157.0644

ERROS
-12.78411
10.170574
9.8036764
1.271469
20.215072
9.7585779
0.7449178
-4.666632
-12.3382
0.3539791
11.512629
-6.084921
9.3142995
3.7815611
-13.11321
-18.42389
0.6530062
-15.00131
1.6129777
-6.216062
9.4356009

X1X2
1143.95
759.36
1661.66
779.14
811.37
1203.02
787.05
894.4
811.74
614.4
1608.57
1244.88
1538.16
677.82
934.5
1576.88
681.45
842.71
1621.76
1579.57
836.8

44

Indica que a funo de regresso linear mltipla adequada (plano)


Indica que a suposio de homogeneidade de varincia atendida
No apresenta outliers (valores discrepantes).

45

A suposio de normalidade dos erros est satisfeita, ou seja, a


distribuio dos erros segue aproximadamente uma distribuio normal.

46

No se observa nenhum padro, indicando que o modelo linear


adequado.
Homogeneidade de varincias.

47

No se observa nenhum padro, indicando que o modelo linear


adequado.
Homogeneidade de varincias.

48

Nota-se que no necessrio a incluso da interao X1*X2 no modelo.

49

Grfico dos valores absolutos dos resduos versus valores estimados: homogeneidade de
varincias.

No se observa um acrscimo ou decrscimo da variabilidade com o aumento dos valores


estimados. Portanto, considera-se a suposio de homogeneidade de varincia atendida.
Se ocorrer heterogeneidade de varincia, fazer grficos dos resduos absolutos versus cada
varivel preditora para identificar qual(is) esto relacionadas com a falta de homogeneidade.

50

Anlise de varincia:

H 0 : 1 0 e 2 0
H a : pelo menos um diferente de zero.

Concluso: Rejeita-se H0. Assim, pelo menos um coeficiente de regresso difere


de zero.
Observao: se o modelo de regresso til para realizar estimao e predio
ainda ser visto.

51

Estimao de uma resposta mdia:

X h

1
65,4
17,6

Interpretao: podemos afirmar com 95% de confiana, que para valor de populao
igual a 65,4 e renda igual a 17,6, a venda mdia est entre 185,29 e 196,92.
Importante: os consultores da empresa consideram este intervalo preciso para seus
objetivos.

52

Intervalo de predio: desejam predizer as vendas para duas novas cidades com
as seguintes caractersticas:
Cidade A: Populao (Xh1)=65,4

Renda (Xh2)=17,6

Cidade B: Populao (Xh1)=53,1

Renda (Xh2)=17,7

Cidade A

As duas cidades apresentam


caractersticas dentro dos
padres da amostra estudada.

Cidade B

Interpretao: as vendas esto dentro dos intervalos acima. A preciso dos


intervalos deixa desejar. Intervalos mais precisos seriam necessrios, pode-se
pensar em outras variveis regressoras para entrar no modelo. Observe que
valor de R2 alto no significa boas predies.

53

Medidas Remediadoras
Usar modelo apropriado
Usar transformaes ( na varivel resposta ou na varivel preditora (quando
os efeitos so curvelneos, reduo do efeito de interao)

NOTA: fazer lista de exerccios nmero 6.

54

Você também pode gostar