Você está na página 1de 10

Anlise de Regresso

Notas de Aula


Universidade de So Paulo
Faculdade de Arquitetura e Urbanismo
Estatstica Aplicada
2
Modelos de Regresso

Modelos de regresso so modelos matemticos que relacionam o comportamento de uma
varivel Y com outra X. Quando a funo f que relaciona duas variveis do tipo f (X) = a + b X
temos o modelo de regresso simples. A varivel X a varivel independente da equao
enquanto Y = f (X) a varivel dependente das variaes de X. O modelo de regresso
chamado de simples quando envolve uma relao causal entre duas variveis. O modelo de
regresso multivado quando envolve uma relao causal com mais de duas variveis. Isto ,
quando o comportamento de Y explicado por mais de uma varivel independe X
1
, X
2
, ....X
n
.

Os modelos acima (simples ou multivariados) simulam relacionamentos entre as variveis. Esse
relacionamento poder ser do tipo linear (equao da reta ou do plano) ou no linear (equao
exponencial, geomtrica, etc.). A anlise de regresso compreende, portanto quatro tipos bsicos
de modelos;
- linear simples;
- linear multivariado;
- no linear simples;
- no linear multivariado.

Para que serve determinar a relao entre duas variveis?
1 - Para realizar previses sobre o comportamento futuro de algum fenmeno da realidade. Neste
caso extrapola-se para o futuro as relaes de causa-efeito j observadas no passado entre as
variveis. Pode-se, por exemplo, prever a populao futura de uma cidade simulando a
tendncia de crescimento da populao no passado.
2 - Pesquisadores interessados em simular os efeitos sobre uma varivel Y em decorrncia de
alteraes introduzidas nos valores de uma varivel X tambm usam este modelo. Por exemplo:
de que modo a produtividade (Y) de uma rea agrcola alterada quando se aplica certa
quantidade (X) de fertilizante sobre a terra. No exemplo acima o pesquisador seleciona n
pedaos de terra x
1
, x
2
, x
3
,....x
n
, aos quais so aplicadas quantidades definidas de fertilizante. Em
seguida, medem-se as quantidades colhidas em cada pedao de terra y
1
, y
2
, y
3
, ....yn, obtendo
assim pares de valores (x
1
,y
1
) (x
2
,y
2
), ......(xn, yn) que podem ser plotados em um grfico
cartesiano chamado de diagrama de disperso.


Diagrama de Disperso

Ao se plotar num grfico cartesiano os pares de informao referente a cada observao obtemos
uma nuvem de pontos definidos pelas coordenadas x e y de cada ponto. Essa nuvem, por sua
vez, definir um eixo ou direo que caracterizar o padro de relacionamento entre X e Y. A
regresso ser linear se observada uma tendncia ou eixo linear na nuvem de pontos cartesianos.
A relao entre as variveis ser direta (ou positiva) quando os valores de Y aumentarem em
decorrncia da elevao dos valores de X . Ser inversa (ou negativa) quando os valores de Y
variarem inversamente em relao aos de X. A figura 1 mostra o diagrama de disperso
referente as variveis X e Y. O diagrama mostra uma relao direta entre as variveis, ou seja: o
crescimento de Y est diretamente ligado ao crescimento de X.





Universidade de So Paulo
Faculdade de Arquitetura e Urbanismo
Estatstica Aplicada
3

Figura 1

x y
____________
30 430
21 335
35 520
42 490
37 470
20 210
8 195
17 270
35 400
25 480



Modelos de Regresso Linear
Regresso o processo matemtico pelo qual derivamos os parmetros a e b de uma funo
f (X). Estes parmetros determinam as caractersticas da funo que relaciona Y com Xque
no caso do modelo linear se representa por uma reta chamada de reta de regresso. Esta reta
explica de forma geral e teoricamente a relao entre X e Y. Isto significa que os valores
observados de X e Y nem sempre sero iguais aos valores de Xe Y estimados pela reta de
regresso. Haver sempre alguma diferena, e essa diferena significa;

(1) que as variaes de Y no so perfeitamente explicadas pelas variaes de X ou;
(2) que existem outras variveis das quais Y depende ou;
(3) que os valores de X e Y so obtidos de uma amostra especfica que apresenta distores em
relao a realidade.

Esta diferena em estatstica chamada de erro ou desvio.

O processo de regresso significa, portanto, que os pontos plotados no grfico so definidos,
modelados ou regredidos, a uma reta que corresponde menor distncia possvel entre cada
ponto plotado e a reta. Em outras palavras, busca-se reduzir ao mnimo possvel os somatrios
dos desvios entre Y e Y. Veja a figura 2 abaixo.


Y = + X equao da reta a partir dos dados coletados

Y = a + b X equao da reta a partir das estimativas


Universidade de So Paulo
Faculdade de Arquitetura e Urbanismo
Estatstica Aplicada
4


Figura 2



x y x.y x
2
Projeo


30 430 12.900 900 409,21


21 335 7.035 441 321,57


35 520 18.200 1.225 457,91


42 490 20.580 1.764 526,07


37 470 17.390 1.369 477,38


20 210 4.200 400 311,83


8 195 1.560 64 194,98


17 270 4.590 289 282,62


35 400 14.000 1.225 457,91


25 480 12.000 625 360,52


Somas 270 3.800 112.455 8.302


b = 9,7381


a = 117,0702 Y = 117,07 + 9,74 x



Universidade de So Paulo
Faculdade de Arquitetura e Urbanismo
Estatstica Aplicada
5
Mtodo dos Mnimos Quadrados

o mtodo de computao matemtica pelo qual se define a curva de regresso. Esse mtodo
definir uma reta que minimizar a soma das distncias ao quadrado entre os pontos plotados (X,
Y) e a reta (X,Y). Pelo mtodo dos mnimos quadrados calculam-se os parmetros a e b da
reta que minimiza estas distncias ou as diferenas (ou o erro) entre Y e Y. Esta reta chamada
de curva de regresso.


(1) Erro = E = (Y- Y) Diferena entre o valor levantado Y (na amostra) e
o estimado Y(pela reta de regresso)
(2) E
1
2
+ E
2
2
+ E
3
2
+ ..... + E
n
2
= Mnimo Objetivo do modelo de regresso

(3) Erro Total = (Y-Y)
2
Hiptese de trabalho

(4) Y = a + bX Equao da reta de regresso que minimiza o erro

Substituindo (4) em (3)

(5) (Y- a - bX)
2



Para que a soma dos quadrados dos erros tenha um valor mnimo, devem-se aplicar os conceitos
de clculo diferencial com derivadas parciais. Como as incgnitas do problema so os
coeficientes "a" e "b" estrutura-se um sistema de duas equaes. Assim aplicando os conceitos
acima referidos monta-se o sistema de equaes normais que permitir extrair os valores de a e
b,


e
------ = - 2 (Y- a - bX)
a

- 2 Y + 2 a + 2 bX

Y = a + bX

(6) Y = Na + b X Equao Normal

Y + b X
(7) a = ------------------ N tamanho da amostra
N

(8) XY = a X + b X
2
Equao Normal

N XY - X. Y
(9) b = ---------------------------
a X
2
- X
2


Universidade de So Paulo
Faculdade de Arquitetura e Urbanismo
Estatstica Aplicada
6
Os valores a e b acima correspondem aos parmetros da equao de regresso que minimiza as
diferenas entre os valores de Y (levantados) e os de Y (estimados pela regresso). Portanto, o
problema de fitting (ajustar) uma reta que melhor se adeque nuvem de dados se reduz em
calcular os parmetros a e b da equao de regresso.


GRAU DE UTILIDADE DA RETA DE REGRESSO

A reta de regresso que se obtm atravs do mtodo dos mnimos quadrados apenas uma
aproximao da realidade, ela um modo til para indicar a tendncia dos dados. Mas at que
ponto a reta de regresso obtida til para avaliar a realidade? Duas medidas podem indicar o
quanto til ou aproximado da realidade a reta:
erro padro da estimativa;
coeficiente de determinao

Erro Padro da Estimativa

O erro padro da estimativa S
e
mede o desvio mdio entre os valores reais de Y e os valores
estimados Y. Ele informa de modo aproximado a extenso do erro entre os valores obtidos das
estimativas e os valores de Y fornecidos pela amostra. S
e


medido na unidade de Y. O que se
busca conseguir o menor valor possvel de S
e
.
Pode-se interpretar o S
e
como um desvio padro dos resduos, pois assumindo que estes resduos
so "normalmente distribudos", pode-se dizer ento que 68% dos pontos (plotados) encontram-
se dentro de 1 desvio padro:

-1 S
e
1;

e que 95% dos pontos encontram-se dentro de 2 desvios padro:

-2 S
e
2.

Sendo os desvios normalmente distribudos a frmula de S
e
obtida da definio da varincia da
amostra S
e
2
, com n-2 graus de liberdade:


(Y Y)
2
S
e
2
=
-----------------------
=
N - 2




(Y Y)
2
S
e

= N 2




Ao se ajustar a reta se espera que ela explique o conjunto de dados coletados. Se os dados
estivem todos contidos numa reta teremos uma reta de regresso coincidente com os dados

Universidade de So Paulo
Faculdade de Arquitetura e Urbanismo
Estatstica Aplicada
7
levantados. Nesse caso a somatria dos desvios ao quadrado ser zero e, o ajuste da reta ser
completo. A reta de regresso explica perfeitamente a relao entre X e Y.

O erro padro existir sempre que o poder de explicao da reta no for completo. O valor do
erro significa ento que existem outros fatores que interferem no comportamento de Y alm da
varivel X.


Coeficiente de Determinao

Ao se analisar a reta de regresso observamos que os pontos (xi, yi) esto distribudos acima e
abaixo da mesma. Na Figura 3 relacionamos cada ponto (Y), com o seu valor estimado (Y - a
reta de regresso) e com o valor mdio de Y (Y* -reta paralela ao eixo X). Como podemos
observar a diferena entre o valor de Y e o valor de Y* (valor mdio de Y) o desvio total do
ponto em relao a sua mdia.

A soma dos desvios ao quadrado de todos os pontos em relao a mdia de Y chamada de
Variao Total. Isto :

(Y Y*)
2

A diferena entre o valor de um ponto Y (xi, yi) e seu valor estimado Y' (xi,yi) isto a
distancia entre o ponto Y e a reta de regresso, chamada de Variao No Explicada pela reta
de regresso. Isto :

(Y Y)
2

J a diferena entre o valor Y (estimativa de Y) situado sobre a reta de regresso e o valor
mdio de Y* (situado sobre a reta paralela ao eixo x) conhecida como Variao Explicada
pela reta de regresso. Isto :

(Y Y*)
2

Conforme mostra a Figura 3,



Variao Total = Variao Explicada + Variao no Explicada



Universidade de So Paulo
Faculdade de Arquitetura e Urbanismo
Estatstica Aplicada
8


Figura 3


y
i
Y
Variao no Explicada
Y
y
i

Variao Explicada
Y*
y*
Y= a+ bX

x
i

Conclui-se que:

(Y Y*)
2
=

(Y Y)
2
+ (Y Y*)
2


O Coeficiente de Determinao r
2
Definido pela seguinte relao:

(Y Y*)
2
Variao Explicada
(Y Y*)
2
=
_______________________
= r
2
=
(Y Y*)
2
Variao Total





CLCULO DO COEFICIENTE DE DETERMINAO


Variao
x y Projeo Explicada No explicada Total
30 430 409,21 853,48 432,04 2.500
21 335 321,57 3.413,93 180,33 2.025
35 520 457,91 6.069,21 3.855,77 19.600
42 490 526,07 21.337,07 1.301,20 12.100
37 470 477,38 9.483,14 54,49 8.100
20 210 311,83 4.646,74 10.369,96 28.900
8 195 194,98 34.234,14 0,00 34.225
17 270 282,62 9.483,14 159,23 12.100
35 400 457,91 6.069,21 3.353,01 400
25 480 360,52 379,33 14.274,58 10.000
Mdia y 380 Soma 95.969,39 33.980,61 129.950
b 9,74
a 117,07 Coeficiente de Determinao 0,7385

F observado 22,5939


Universidade de So Paulo
Faculdade de Arquitetura e Urbanismo
Estatstica Aplicada
9
O coeficiente de determinao deve ser interpretado como a proporo de variao total da
varivel dependente Y que explicada pela variao da varivel independente X. Tomando o
exemplo acima se pode concluir que 73,85 % das variaes de Y so explicadas pela variao de
X.


Coeficiente de Correlao

O coeficiente de determinao igual ao quadrado do coeficiente de correlao. Assim a partir
do valor do coeficiente de determinao podemos obter o valor do coeficiente de correlao. No
exemplo acima para um coeficiente de determinao r
2
= 0,738 obtemos o coeficiente de
correlao, r = 0,85.

O coeficiente de determinao sempre positivo, enquanto que o coeficiente de correlao pode
admitir valores negativos e positivos. Valores de r igual ou prximos de 1 ou 1 indica que exige
uma forte relao entre as variveis: no primeiro caso a relao direta, enquanto que no
segundo a relao inversa. Valores prximos de Zero, significa que existe pouco
relacionamento entre as variveis.

Portanto,

-1 r +1


O coeficiente de determinao indica o quanto a reta de regresso explica o ajuste da reta,
enquanto que o coeficiente de correlao deve ser usado como uma medida de fora da relao
entre as variveis


Resumindo:

- Os valores de r esto limitados entre

-1 r +1

- O coeficiente de correlao tem um valor nico para a populao ou amostra.
- Coeficiente de correlao padroniza dentro dos horizontes acima as variaes da covarincia
- Por isso o coeficiente de correlao pode ser expresso:

Cov (X,Y)
r
X,Y
= onde,

X

Y

X
desvio padro da varivel X

Y
desvio padro da varivel Y
Cov (X,Y) Covarincia de X e Y



Universidade de So Paulo
Faculdade de Arquitetura e Urbanismo
Estatstica Aplicada
10
Erro Padro do Coeficiente b, (S
b
)

O erro padro do coeficiente b indica o grau de aproximao entre o coeficiente b da equao de
regresso e o coeficiente da populao. Essa variao existe porque embora os dados sejam
retirados da populao h sempre variaes entre os dados da amostra e os dados da populao.
A frmula abaixo mede a diferena entre b e :


S
2
b
S
b
S
b
= S
2
b
= ------------------ = ---------------------
(n-1) x Var (x) (n-1) x Var (x)

Pela frmula acima se pode concluir que o erro padro do coeficiente b:
diretamente proporcional ao erro padro da estimativa S
e
, e;
e inversamente proporcional ao valor do desvio padro de x e o tamanho da amostra menos 1.

Você também pode gostar