Você está na página 1de 11

INF 162 Prof.

Luiz Alexandre Peternelli


1
CAPTULO 9 - Regresso linear e
correlao
Veremos nesse captulo os seguintes assuntos nessa ordem:
Correlao amostral
Regresso Linear Simples
Regresso Linear Mltipla
Correlao Amostral
Serve para estudar o comportamento conjunto de duas variveis quantitativas
distintas. Ou, em outras palavras, mede o grau de associao entre duas variveis
aleatrias X e Y.
OBS.: no h, nesse caso, preocupao em apresentar alguma forma funcional entre as
variveis, se houver.
Exemplos: (apresentados em aula)
Para o estudo do comportamento conjunto de duas variveis poderiam ser
usados:
a) O Diagrama de disperso
Representao grfica do conjunto de dados. Nada mais do que a representao
dos pares de valores num sistema cartesiano. Veja exemplo a seguir.
Em sntese trs situaes marcantes poderiam acontecer:
Se, quando uma das variveis cresce, a outra, em mdia, tambm cresce,
dizemos que entre as duas variveis existe correlao positiva, tanto mais
forte quanto mais perto de uma reta imaginria os pontos estiverem;
Se, quando uma das variveis cresce, a outra, em mdia, tambm
decresce, dizemos que entre as duas variveis existe correlao negativa,
tanto mais forte quanto mais perto de uma reta imaginria os pontos
estiverem;
Se os pontos estiverem dispersos, sem definio de direo, dizemos que a
correlao muito baixa, ou mesmo nula. As variveis nesse caso so ditas
no correlacionadas.
b) O coeficiente de correlao
um valor numrico, uma medida, para o grau de associao entre duas
variveis.
Se for observada uma associao entre as variveis quantitativas (a partir de um
diagrama de disperso, por exemplo), muito til quantificar essa associabilidade.
INF 162 Prof. Luiz Alexandre Peternelli
2
Existem muitos tipos de associao possveis, e aqui iremos apresentar o tipo de
relao mais simples, que o linear. Iremos julgar o quanto a nuvem de pontos do
diagrama de disperso se aproxima de uma reta.
Sejam duas amostras relativas s variveis X e Y, dadas a seguir:
X
i
X
1
X
2
!
X
n
Y
i
Y
1
Y
2
!
Y
n
O coeficiente de correlao entre os valores de X e Y dado por:
( )
( ) ( )
1 r 1 - ,
.
1
.
1
1

,

XY

Y X
XY
Y X
XY
XY
SQD SQD
SPD
n
SQD
n
SQD
n
SPD
Y V X V
Y X V O C
r
em que:

,
_

,
_


n
i
n
i
i
n
i
i
i i XY
n
Y X
Y X SPD
1
1 1

,
_


n
i
n
i
i
i X
n
X
X SQD
1
2
1 2
e

,
_


n
i
n
i
i
i Y
n
Y
Y SQD
1
2
1 2
Para o exemplo:
Amostra A 4 8 3 9 7 5
Amostra B 1 5 2 14 3 11
( )( )
36
6
36 36
252
1
1 1

,
_

,
_


n
i
n
i
i
n
i
i
i i AB
n
B A
B A SPD
( )
28
6
36
244
2
1
2
1 2

,
_

n
i
n
i
i
i A
n
A
A SQD
( )
140
6
36
356
2
1
2
1 2

,
_

n
i
n
i
i
i B
n
B
B SQD
INF 162 Prof. Luiz Alexandre Peternelli
3
r
SP
SQD SQD
AB
AB
A B

. ( ) ( )
,
36
28 140
05750
Regresso linear
A anlise de regresso consiste na realizao de uma anlise estatstica com o
objetivo de verificar a existncia de uma relao funcional entre uma varivel
dependente com uma ou mais variveis independentes. Em outras palavras consiste na
obteno de uma equao que tenta explicar a variao da varivel dependente pela
variao do(s) nvel(is) da(s) varivel(is) independente(s).
Para tentar estabelecer uma equao que representa o fenmeno em estudo pode-
se fazer um grfico, chamado de diagrama de disperso, para verificar como se
comportam os valores da varivel dependente (Y) em funo da variao da varivel
independente (X).
O comportamento de Y em relao a X pode se apresentar de diversas maneiras:
linear, quadrtico, cbico, exponencial, logartmico, etc... . Para se estabelecer o
modelo para explicar o fenmeno, deve-se verificar qual tipo de curva e equao de
um modelo matemtico que mais se aproxime dos pontos representados no diagrama
de disperso.
Contudo, pode-se verificar que os pontos do diagrama de disperso, no vo se
ajustar perfeitamente curva do modelo matemtico proposto. Haver na maior parte
dos pontos, uma distncia entre os pontos do diagrama e a curva do modelo
matemtico. Isto acontece, devido ao fato do fenmeno que est em estudo, no ser
um fenmeno matemtico e sim um fenmeno que est sujeito a influncias que
acontecem ao acaso. Assim, o objetivo da regresso obter um modelo matemtico
que melhor se ajuste aos valores observados de Y em funo da variao dos nveis da
varivel X.
No entanto o modelo escolhido deve ser coerente com o que acontece na prtica.
Para isto, deve-se levar em conta as seguintes consideraes no momento de se
escolher o modelo:
-o modelo selecionado deve ser condizente tanto no grau como no aspecto da
curva, para representar em termos prticos, o fenmeno em estudo;
-o modelo deve conter apenas as variveis que so relevantes para explicar o
fenmeno;
Como foi dito anteriormente, os pontos do diagrama de disperso ficam um
pouco distantes da curva do modelo matemtico escolhido. Um dos mtodos que se
pode utilizar para obter a relao funcional, se baseia na obteno de uma equao
estimada de tal forma que as distncias entre os pontos do diagrama e os pontos da
curva do modelo matemtico, no todo, sejam as menores possveis. Este mtodo
denominado de Mtodo dos Mnimos Quadrados (MMQ). Em resumo por este
mtodo a soma de quadrados das distncias entre os pontos do diagrama e os
respectivos pontos na curva da equao estimada minimizada, obtendo-se, desta
forma, uma relao funcional entre X e Y, para o modelo escolhido, com um mnimo
de erro possvel.
INF 162 Prof. Luiz Alexandre Peternelli
4
MODELO LINEAR DE 1 GRAU (Regresso Linear Simples)
O modelo estatstico para esta situao seria:
i i i
e X Y + +
1 0

em que:

i
Y valor observado para a varivel dependente Y no i-simo nvel da varivel
independente X.

0
constante de regresso. Representa o intercepto da reta com o eixo dos Y.

1
coeficiente de regresso. Representa a variao de Y em funo da
variao de uma unidade da varivel X.

i
X i-simo nvel da varivel independente X ( ) n i , , 2 , 1 !

i
e o erro que est associado distncia entre o valor observado Y
i
e o
correspondente ponto na curva, do modelo proposto, para o mesmo nvel i de X.
Para se obter a equao estimada, vamos utilizar o MMQ, visando a
minimizao dos erros. Assim, tem-se que:
i i
X e
1 0

i
Y
elevando ambos os membros da equao ao quadrado,
[ ]
2
1 0
2
i i
X e
i
Y
aplicando o somatrio,
[ ]



n
i
i
n
i
i
X e
1
2
1 0
1
2

i
Y (1)
Por meio da obteno de estimadores de
0
e
1
, que minimizem o valor obtido
na expresso anterior (1), possvel alcanar a minimizao da soma de quadrados
dos erros.
Para se encontrar o mnimo para uma equao, deve-se deriv-la em relao
varivel de interesse e igual-la a zero. Derivando ento a expresso (1) em relao a
0
e
1
, e igualando-as a zero, poderemos obter duas equaes que, juntas, vo
compor o chamado sistemas de equaes normais. A soluo desse sistema fornecer:
( )

n
x
x
n
y x
y x
i
i
i i
i i
2
2
1

=
x
xy
SQD
SPD
e X Y
1 0


Uma vez obtidas estas estimativas, podemos escrever a equao estimada:
i i
X Y
1 0

+
Exemplos:
INF 162 Prof. Luiz Alexandre Peternelli
5
1) Para verificar se existe relao linear de primeiro grau entre umidade relativa
(UR) do ar de secagem de sementes e a germinao das mesmas, um pesquisador
realizou um experimento com 4 valores diferentes para a %UR do ar, obtendo-se
os seguintes dados (dados hipotticos)
% UR 20 30 40 50
% germinao 94 96 95 97
a) Verificar se existe efeito da UR do ar de secagem na % de germinao. Usar =
5%.
b) Qual seria a % de germinao esperada quando UR =45 %?
c) Como poderia ser apresentada, num relatrio tcnico, a equao de regresso
ajustada para esse exemplo?
R.: a)
0

=92,7;
1

=0,08. F =3,55; t =1,88. b) 95,5 %


2) Foi realizado uma anlise de regresso para investigar a existncia de ralao
linear simples entre a temperatura superficial de uma estrada (X) medida em graus
F e a deformao da pavimentao (Y) medida segundo uma tcnica especial.
Baseado nas seguintes informaes pede-se:
n =20;
i
y =12,75;

2
i
y =8,86;
i
x =1478;

2
i
x =143215,8; e
i i
y x =
1083,67
a) Calcule as estimativas dos parmetros da regresso. Apresente a equao ajustada
num grfico;
b) Use a equao para estimar qual deformao haveria na pavimentao quando a
temperatura superficial fosse de 85 graus F.
c) Qual seria a mudana esperada na deformao da pavimentao para uma
mudana de 1
o
F na temperatura superficial?
d) Suponha que a temperatura seja medida em graus C ao invs de graus F. Qual
seria a nova equao ajustada resultante? Lembre-se: C =5(F 32)/9.
e) Qual seria a mudana esperada na deformao da pavimentao para uma
mudana de 1
o
C na temperatura superficial?
Exerccio Proposto
Os dados a seguir provm de um experimento para testar o desempenho de
uma mquina industrial. O experimento utilizou uma mistura de leo diesel e gs,
derivados de materiais destilados orgnicos. O valor da capacidade da mquina em
cavalo vapor (HP) foi coletado a diversas velocidades medidas em rotaes por
minuto (rpm 100).
X Y X Y X Y X Y
22,0 64,03 15,0 46,85 18,0 52,90 15,0 45,79
20,0 62,47 17,0 51,17 16,0 48,84 17,0 51,17
18,0 54,94 19,0 58,00 14,0 42,74 19,0 56,65
16,0 48,84 21,0 63,21 12,0 36,63 21,0 62,61
14,0 43,73 22,0 64,03 10,5 32,05 23,0 65,31
12,0 37,48 20,0 62,63 13,0 39,68 24,0 63,89
X =velocidade Y =capacidade
INF 162 Prof. Luiz Alexandre Peternelli
6
Admitindo-se que as variveis X e Y esto relacionadas de acordo com o
modelo
i i 1 0 i
e X Y + + , pede-se:
(a) Obter a equao ajustada e traar seu grfico. Mostre tambm o diagrama de
disperso;
(b) Calcule o coeficiente de determinao e interprete;
(c) Verifique que

n
1 i
i
0 e ;
(d) Verifique que

n
1 i
n
1 i
i i
Y

Y ;
(e) Interprete a estimativa obtida para
1
;
(f) Determine a estimativa de Y para X =15,5.
COEFICIENTE DE DETERMINAO
O coeficiente de determinao, tambm conhecido como R
2
, ou simplesmente r
2
para o caso de regresso linear simples, fornece uma informao auxiliar ao resultado
da anlise de varincia da regresso (apresentado a seguir), como uma maneira de se
verificar se o modelo proposto adequado ou no para descrever o fenmeno.
O R
2
obtido por:
SQTotal
g SQ
R
Re
2

O valor de R
2
varia no intervalo de 0 a 1. Valores prximos de 1 indicam que o
modelo proposto adequado para descrever o fenmeno.
O R
2
indica a proporo (ou porcentagem) da variao de Y que explicada
pela regresso, ou quanto da variao na varivel dependente Y est sendo
explicada pela varivel independente X.
TESTE DE HIPTESE NA REGRESSO LINEAR SIMPLES
Aps ajustar uma equao de regresso devemos verificar sua adequabilidade,
por meio de testes de hipteses para os parmetros do modelo e/ou a construo de
intervalos de confiana. Para tal intento precisamos da pressuposio adicional de que
os erros tenham distribuio normal.
Como temos dois parmetros no modelo
i i i
e X Y + +
1 0
, poderamos realizar
os seguintes testes:
a) H
0
:
1
=
1
*
versus H
a
:
1

1
*
b) H
0
:
0
=
0
*
versus H
a
:
0

0
*
Em cada caso a estatstica do teste e as concluses seriam:
INF 162 Prof. Luiz Alexandre Peternelli
7
a) t
calc
=
)

1
*
1 1

, onde
x
SQD
V
2
1



regra de deciso: Se | t
calc
| t
(/2, n-2)
rejeita H
0
b) t
calc
=
)

0
*
0 0

, onde

,
_

+
x
SQD
X
n
V
2
2
0
1
)


regra de deciso: Se | t
calc
| t
(/2, n-2)
rejeita H
0
OBS.:
2
=estimativa da varincia dos erros =
2
Re
n
s SQ
=
2

n
SPD SQD
xy y

Um caso especial muito importante seria: H
0
:
1
=0 versus H
a
:
1
0. Essas
hipteses esto relacionadas com a significncia da regresso. No rejeitar H
0

equivalente a concluir que no h relao linear entre X e Y. Por outro lado, se H
0
:
1
=0 for rejeitado indicaria que X importante para explicar a variabilidade em Y. Veja
ilustraes apresentadas em aula.
De maneira alternativa poderamos testar a significncia da regresso pelo
mtodo da Anlise de Varincia (ANOVA).
O mtodo da ANOVA consiste em fazer uma partio da variabilidade total da
varivel resposta Y em outros componentes de acordo com o modelo e o teste a ser
feito. Assim a seguinte identidade pode ser verificada:
2 2 2
)

( )

( ) (

+ Y Y Y Y Y Y
i i i
,
ou, em outra palavras,
SQTotal =SQRegresso +SQResduo.
Onde
SQTotal =variao total em Y =SQD
Y
SQRegresso =variao em Y explicada pela regresso ajustada =
1

SPD
XY
de modo que
SQResduo =SQRes =variao no explicada pela regresso =SQD
Y
-
1

SPD
XY
Baseado nessa identidade o seguinte quadro pode ser montado:
FV GL SQ QM F
Regresso 1 SQReg QMReg =SQReg
s QM
g QM
Re
Re
Resduo, ou
Independente da
Regresso
n 2 SQRes
QMRes =
2
Re
n
s SQ
-
Total n 2 SQTotal
A estatstica F obtida no quadro acima serve para testar a significncia da
regresso, ou seja, testar H
0
:
1
=0 versus H
a
:
1
0.
regra de deciso: Se F
calc
F
(, 1, n-2)
rejeita H
0
INF 162 Prof. Luiz Alexandre Peternelli
8
OBS.: Para H
0
:
1
=0 temos que (t
calc
)
2
=F
calc
A equao estimada obtida, apenas estabelece uma relao funcional, entre a
varivel dependente e a varivel independente, para representar o fenmeno em
estudo. Portanto a simples obteno da equao estimada no responde ao
pesquisador se a variao da varivel independente influencia significativamente na
variao da varivel dependente.
Para se responder a esta pergunta, necessrio realizar um teste estatstico para
as estimativas dos coeficientes da equao de regresso estimada. Um teste que pode
ser realizado para verificar tal fato o teste F da anlise de varincia. Portanto,
necessrio realizar uma anlise de varincia dos dados observados, em funo do
modelo proposto.
O quadro para a anlise de varincia para a regresso do seguinte tipo:
FV GL SQ QM F
Regresso P SQReg
p
g SQRe
QMInd
gr QM Re
Independente da
Regresso
n 1 p SQInd
p n
SQInd
1
-
Total n 1 SQTotal
em que:
- p =n
o
de coeficientes de regresso (no inclui o
0
)
- n =n
o
de observaes.
As frmulas para a obteno das somas de quadrados total e da soma de
quadrados do independente da regresso so as mesmas, tanto para o modelo linear de
1
o
grau quanto para o de 2
o
grau, as quais so dadas a seguir:
n
Y
Y SQTotal
n
i
i
n
i
i
2
1
1
2

,
_

SQIndependente da Regresso =SQTotal - SQRegresso


J a soma de quadrados para a regresso varia de acordo com o modelo em teste.
Assim tem-se que, para o modelo linear de 1
o
grau, a soma de quadrados da regresso
obtida por:
n
Y
X Y Y gresso SQ
n
i
i
n
i
i i
n
i
i
2
1
1
1
1
0

Re

,
_





Para o modelo linear de 2
o
grau, a soma de quadrados da regresso dada por:
INF 162 Prof. Luiz Alexandre Peternelli
9
SQ gresso Y Y X Y X
Y
n
i
i
n
i i
i
n
i i
i
n
i
i
n
Re
" " "
+ +

_
,


0
1
1
1
2
2
1
1
2
As hipteses estatsticas para o teste F, so as seguintes:
0 ... :
2 1 0

p
H , o que significa dizer que as p variveis
independentes no exercem influncia na varivel dependente, segundo o modelo
proposto.
0 :
i a
H , para pelo menos um i, o que significa dizer que pelo menos uma
das p variveis independentes exerce influncia na varivel dependente, segundo o
modelo proposto.
O valor de F da anlise de varincia, deve ser comparado, com o valor de F
tabelado ( )
tab
F , o qual se obtm na tabela da distribuio F de acordo com o nvel de
significncia do teste, e o nmero de graus de liberdade para a regresso e
independente da regresso, ou seja:
( ) p n p F F
tab
1 ;

.
A regra decisria para o teste F :
- Se
tab
F F Rejeita-se H
0
ao nvel de significncia que foi realizado o teste.
Pode-se inferir que o modelo proposto adequado para descrever o fenmeno.
- Se <
tab
F F No rejeita-se H
0
ao nvel de significncia que foi realizado o
teste. Pode-se inferir que o modelo proposto no adequado para descrever o
fenmeno.
Exerccios Propostos:
1) (questo de prova do II/2000) Para estudar a relao entre Y (nmero total de horas
necessrias montagem da parte de uma estrutura) e X (nmero total de operaes
de furar e rebitar), registraram-se os dados da tabela abaixo.
estudo A B C D E F G H I
X 236 80 127 445 180 343 305 488 170
Y 5,1 1,7 3,3 6,0 2,9 5,9 7,0 9,4 4,8
Para facilitar seus clculos considere as seguintes informaes:

i
i
x =2374;

i
i
y =46,1;

i
i
x
2
=786368;

i
i
y
2
=279,41;

i
i i
y x =14512,6
tambm, SPD
xy
=2352,4444; SQD
x
=160159,5556
Pede-se:
a) Obter a equao de regresso ajustada para o modelo Y
i
=
0
+
1
x
i
+
i
R.: Y

=1,271 +0,0146X
b) Interpretar as estimativas obtidas dos parmetros da regresso.
c) Calcular o coeficiente de determinao para o modelo ajustado. Faa a
interpretao apropriada para esse resultado. R.: 79,9%
d) A anlise de varincia (ANOVA) da regresso pode ser resumida no seguinte
quadro
INF 162 Prof. Luiz Alexandre Peternelli
10
F.V. g.l. SQ QM F
Regresso 1 34,59 34,59
Resduo 7 8,68 1,24
Total 8 43,27
Uma maneira de verificar a significncia da regresso ajustada por meio da
ANOVA apresentada acima. Apresente a hiptese a ser testada pela ANOVA e
realize o teste apropriado (use =5%) para testar essa hiptese.
e) Se fosse concludo que podemos considerar
1
=0, como deveria ser reescrito o
modelo ajustado? J ustifique.
Regresso linear mltipla
A regresso mltipla envolve trs ou mais variveis, ou seja, uma nica
varivel dependente (Y) e duas ou mais variveis independentes ou explanatrias ou
covariveis ou regressoras (X
i
, i =1, 2, ...). A teoria uma extenso da anlise de
regresso linear simples. De modo similar a anlise tem por objetivo estabelecer uma
equao que possa ser usada para predizer valores de Y para valores dados das
diversas variveis independentes. A finalidade das variveis independentes adicionais
melhorar a capacidade de predio em confronto com a regresso linear simples. A
tcnica de clculo bastante complicada e pode ser facilitada com o auxlio de
lgebra de matrizes.
O modelo
+ + + + +
k k
x x x Y #
2 2 1 1 0
chamado de modelo de regresso linear mltipla com k variveis regressoras. Os
parmetros
i
(i =1 a k) so chamados de coeficientes de regresso parciais.
Veremos dois exemplos envolvendo regresso linear mltipla.
MODELO LINEAR DE 2 GRAU
O modelo estatstico para esta situao seria:
i i i
e X X + + +
2
2 1 0

i
Y
em que:

i
Y valor observado para a varivel dependente Y no i-simo nvel da varivel
independente X.

0
constante de regresso.

1
coeficiente de regresso.

2
coeficiente de regresso.

i
X i-simo nvel da varivel independente X ( ) n i , , 2 , 1 !

2
i
X i-simo nvel da varivel independente X, elevado ao quadrado
INF 162 Prof. Luiz Alexandre Peternelli
11

i
e o erro que est associado distncia entre o valor observado Y
i
e o
correspondente ponto na curva para o mesmo nvel i de X.
Utilizando o MMQ, no modelo de 2 grau, chegar-se- ao seguinte sistema de
equaes normais, para se obter as estimativas de
2 1 0
, e :

'

+ +
+ +
+ +






n
i
n
i
i i
n
i
i
n
i
i i
n
i
n
i
i i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i
X X X X Y
X X X X Y
X X n Y
1 1
4
2
3
1
1
2
0
1
2
1 1
3
2
2
1
1
0
1
1
2
2
1
1 0
1






Uma vez obtidas estas estimativas, podemos escrever a equao estimada:
2
2 1 0

i i i
X X Y + +