Você está na página 1de 46

Anlise de Regresso e Correlao

Prof. Victor Hugo Lachos Davila Departamento Estatstica Universidade Estadual de Campinas, (UNICAMP-IMECC) Campinas, Brasil

Analise de Regressao e Correlacao p. 1/2

Objetivos

Estudar a relao linear entre duas variveis quantitativas. Veja alguns exemplos: Tempo de prtica de esportes e ritmo cardaco;

Analise de Regressao e Correlacao p. 2/2

Objetivos

Estudar a relao linear entre duas variveis quantitativas. Veja alguns exemplos: Tempo de prtica de esportes e ritmo cardaco; Resultado da produo e tempo do processo;

Analise de Regressao e Correlacao p. 2/2

Objetivos

Estudar a relao linear entre duas variveis quantitativas. Veja alguns exemplos: Tempo de prtica de esportes e ritmo cardaco; Resultado da produo e tempo do processo; Nmero de cliente e vendas; e

Analise de Regressao e Correlacao p. 2/2

Objetivos

Estudar a relao linear entre duas variveis quantitativas. Veja alguns exemplos: Tempo de prtica de esportes e ritmo cardaco; Resultado da produo e tempo do processo; Nmero de cliente e vendas; e Tempo de estudo e nota na prova;

Analise de Regressao e Correlacao p. 2/2

Objetivos

Estudar a relao linear entre duas variveis quantitativas. Veja alguns exemplos: Tempo de prtica de esportes e ritmo cardaco; Resultado da produo e tempo do processo; Nmero de cliente e vendas; e Tempo de estudo e nota na prova; Sob dois pontos de vista:
Explicitando a forma dessa relao: regressao.

Quanticando a fora dessa relao: correlacao.

Analise de Regressao e Correlacao p. 2/2

Exemplo 1

O gerente de uma cadeia de supermercados deseja desenvolver um modelo com a nalidade de estimar as vendas mdias semanais (em milhares de dlares) Y - Vendas semanais; e X - Nmero de clientes. Estas variveis foram observadas em 20 supermercados escolhidos aleatriamente.
X Y X Y 907 11,20 679 7,63 926 11,05 872 9,43 506 6,84 924 9,46 741 9,21 607 7,64 789 9,42 452 6,92 889 10,08 729 8,95 874 9,45 794 9,33 510 6,73 844 10,23 529 7,24 1010 11,77 420 6,12 621 7,41

Analise de Regressao e Correlacao p. 3/2

Diagrama de disperso

Analise de Regressao e Correlacao p. 4/2

Diagrama de disperso

Vendas semanais

6
400

10

11

500

600

700

800

900

1000

Numero de clientes

Analise de Regressao e Correlacao p. 4/2

razovel supor que a mdia da varivel aleatria Y , est relacionada com X pela seguinte relao E(Y |X = x) = Y |x = 0 + 1 x onde o e 1 , so respectivamente, o intercepto e a inclinao da reta e recebem o nome de coecientes de regresso.

Analise de Regressao e Correlacao p. 5/2

razovel supor que a mdia da varivel aleatria Y , est relacionada com X pela seguinte relao E(Y |X = x) = Y |x = 0 + 1 x onde o e 1 , so respectivamente, o intercepto e a inclinao da reta e recebem o nome de coecientes de regresso. O valor real de Y ser determinado pelo valor mdio da funo linear (Y |x ) mais um termo que representa um erro aleatrio,

Analise de Regressao e Correlacao p. 5/2

razovel supor que a mdia da varivel aleatria Y , est relacionada com X pela seguinte relao E(Y |X = x) = Y |x = 0 + 1 x onde o e 1 , so respectivamente, o intercepto e a inclinao da reta e recebem o nome de coecientes de regresso. O valor real de Y ser determinado pelo valor mdio da funo linear (Y |x ) mais um termo que representa um erro aleatrio, Y = Y |x + = 0 + 1 x + , onde o erro aleatrio.

Analise de Regressao e Correlacao p. 5/2

Modelo de Regresso Linear Simples

Um modelo de regresso linear simples (MRLS) descreve uma relao entre uma varivel independente (explicativa ou regressora) X e uma varivel dependente (resposta) Y , nos termos seguintes:
(1)

Y = 0 + 1 X + ,

onde 0 e 1 so constantes (parmetros) desconhecidas e o erro aleatrio.

Analise de Regressao e Correlacao p. 6/2

Suposies do MRLS
(i) E() = 0 V ar() = 2 (desconhecido). (ii) Os erros so no correlacionados (iii) A varivel explicativa X controlada pelo experimentador. (iv) N (0, 2 )

Analise de Regressao e Correlacao p. 7/2

Suposies do MRLS
(i) E() = 0 V ar() = 2 (desconhecido). (ii) Os erros so no correlacionados (iii) A varivel explicativa X controlada pelo experimentador. (iv) N (0, 2 ) Se (i)-(iv) se vericarem, ento a varivel dependente Yi uma v.a. com distribuio normal com varincia 2 e mdia Yi |xi , sendo E(Y |Xi = x) = Yi |x = 0 + 1 x.

Analise de Regressao e Correlacao p. 7/2

Estimao dos parmetros do MRLS

Suponha que tem-se n pares de observaes (x1 , y1 ), . . . , (xn , yn ).

Analise de Regressao e Correlacao p. 8/2

Estimao dos parmetros do MRLS

Suponha que tem-se n pares de observaes (x1 , y1 ), . . . , (xn , yn ). A gura mostra uma representao grca dos dados observados e um candidato para a linha de regresso.

Analise de Regressao e Correlacao p. 8/2

Ao utilizar o modelo (1), possvel expressar as n observaes da amostra como:


(2)

yi = 0 + 1 xi + i , i = 1, . . . , n.

E a soma de quadrados dos desvios das observaes em relao linha de regresso :


n n

Q=

2 = i

(yi 0 1 xi )2 .

Analise de Regressao e Correlacao p. 9/2

Os estimadores de mnimos quadrados (EMQ) de 0 e 1 denotados por 0 e 1 devem satisfazer as seguintes equaes: Q |0 ,1 = 2 0 Q |0 ,1 = 2 1
n

i=1 n

(yi 0 1 xi ) = 0, (yi 0 1 xi )xi = 0.

i=1

Analise de Regressao e Correlacao p. 10/2

Aps simplicar as expresses anteriores, tem-se:


n n

(3)

0 + 1
i=1 n

xi =
i=1 n

yi xi y i .
i=1

0
i=1

xi + 1 x2 = i

As equaes (3) recebem o nome de equaes normais de mnimos quadrados.

Analise de Regressao e Correlacao p. 11/2

A soluo dessas equaes fornece os EMQ, 0 e 1 , dados por: 0 = y 1 x.


n
n x i=1 n y i=1

1 =

i=1

xi y i
n i=1

n
n x 2

x2 i

i=1

n x

n y

onde x =

i=1

ey=

i=1

Analise de Regressao e Correlacao p. 12/2

Portanto, a linha de regresso estimada ou ajustada : y = 0 + 1 x e estima a mdia da varivel dependente para um valor da varivel explicativa X = x, Y |x . Note que cada par de observaes satisfaz a relao: yi = 0 + 1 xi + ei , i = 1, . . . , n

onde ei = yi yi recebe o nome de resduo.

Analise de Regressao e Correlacao p. 13/2

Notaes especiais no MRLS

n x

2 n

Sxx

=
i=1 n

(xi x) =
i=1

x2 i

i=1

=
i=1 n

x2 n2 , x i
n x n y i=1

Sxy

=
i=1 n

(xi x)(yi y ) =
i=1

(xi x)yi =
i=1

xi yi

i=1

=
i=1 n

xi yi ny , x
n y 2 yi i=1 2 n

Syy

=
i=1

(yi y ) =
i=1

(yi y )yi =

i=1

=
i=1

2 yi n2 . y

Os EMQ de 0 e 1 em termos da notao acima so: 0 = y 1 x, Sxy 1 = . Sxx

Analise de Regressao e Correlacao p. 14/2

Exemplo de aplicao

Sxx

=
i=1 n

x2 n()2 = 11306209 20(731, 15)2 = 614603 x i xi yi n()() = 134127, 90 20(8, 8055)(731, 15) = 5365, 08 x y
i=1 n 2 yi n()2 = 1609, 0971 20(8, 8055) = 51, 3605. y i=1

Sxy

Syy

As estimativas dos parmetros do MRLS so:

Sxy 5365, 08 1 = = = 0, 00873; 0 = y 1 x = 8, 8055(0, 00873)(731, 15) = 2, 423. Sxx 614603 Portanto, a linha de regresso ajustada ou estimada para esses dados so: y = 2, 423 + 0, 00873x.

Analise de Regressao e Correlacao p. 15/2

Vendas semanais

6
400

10

11

500

600

700

800

900

1000

Numero de clientes

Analise de Regressao e Correlacao p. 16/2

Estimao de 2
Os resduos, so empregados na estimao de 2 . A soma de quadrados residuais ou soma de quadrados dos erros, denotado por SQR :
n n

ei = y i y i

SQR =
i=1

e2 = i
i=1

(yi yi )2

Pode-se demonstrar que o valor esperado da soma de quadrados dos residuais SQR, dado por: E(SQR) = (n 2) 2

Analise de Regressao e Correlacao p. 17/2

Portanto, 2 = SQR = QM R (Quadrado medio residual), n2 um estimador no viciado de 2 , Uma frmula mais conveniente para o clculo da SQR dada por: SQR = Syy 1 Sxy .

Analise de Regressao e Correlacao p. 18/2

Exemplo

Com os dados do exemplo, feita a estimao da varincia 2 . Nesse caso, Syy = 51, 3605, Sxy = 5365, 08 e 1 = 0, 00873. Portanto, a estimativa de 2 para o exemplo 1. 2 SQR Syy 1 Sxy = = n2 n2 51, 3605 (0, 00873)(5365, 08) = 0, 2513. = 20 2

Analise de Regressao e Correlacao p. 19/2

Teste de hipteses sobre 1


Suponha que se deseje testar a hiptese de que a inclinao igual a uma constante representada por 1,0 . As hipteses apropriadas so: H0 : 1 = 1,0 , vs H1 : 1 = 1,0 A estatstica T = 1 1,0 2 /Sxx ,

tem distribuio t-Student com n 2 graus de liberdade sob H0 : 1 = 1,0 . Rejeita-se H0 se |Tobs | > t1/2, n2 .

Analise de Regressao e Correlacao p. 20/2

Teste de hipteses sobre 0

H0 : 0 = 0,0 , vs H1 : 0 = 0,0 A estatstica T = 2[ n 1 0 0,0 +


x2 ] Sxx

que tem distribuio t-Student com n 2 graus de liberdade. Rejeitamos a hipteses nula se |Tobs | > t1/2, n2 .

Analise de Regressao e Correlacao p. 21/2

Teste de signicncia do MRLS

H0 : 1 = 0, vs H1 : 1 = 0, Deixar de rejeitar H0 : 1 = 0 equivalente a concluir que no h nenhuma relao linear entre X e Y.

Analise de Regressao e Correlacao p. 22/2

Se H0 : 1 = 0 rejeitado, implica que X tem importncia ao explicar a variabilidade de Y

Analise de Regressao e Correlacao p. 23/2

Exemplo

Teste de signicncia para o MRLS para os dados do exemplo 1, com = 0, 05. As hipteses so H0 : 0 = 0, vs H1 : 0 = 0

Analise de Regressao e Correlacao p. 24/2

Exemplo

Teste de signicncia para o MRLS para os dados do exemplo 1, com = 0, 05. As hipteses so H0 : 0 = 0, vs H1 : 0 = 0 Do exemplo tem-se: 1 = 0, 00873, n = 20 Sxx = 614603, 2 = 0, 2512, De modo que a estatstica de teste, : Tobs = 1 2 /Sxx = 0, 00873 0, 2513/614603 = 13, 65.

Analise de Regressao e Correlacao p. 24/2

Exemplo

Teste de signicncia para o MRLS para os dados do exemplo 1, com = 0, 05. As hipteses so H0 : 0 = 0, vs H1 : 0 = 0 Do exemplo tem-se: 1 = 0, 00873, n = 20 Sxx = 614603, 2 = 0, 2512, De modo que a estatstica de teste, : Tobs = 1 2 /Sxx = 0, 00873 0, 2513/614603 = 13, 65.

Como Tobs = 13, 65 > t0,975,18 = 2, 101, rejeita-se a hiptese H0 : 1 = 0.

Analise de Regressao e Correlacao p. 24/2

Adequao do modelo de regresso

Anlise residual,

Analise de Regressao e Correlacao p. 25/2

Adequao do modelo de regresso

Anlise residual, Coeciente de determinao

Analise de Regressao e Correlacao p. 25/2

Adequao do modelo de regresso

Anlise residual, Coeciente de determinao Os resduos de um modelo de regresso so denidos como ei = yi yi , i = 1, . . . , n

onde yi uma observao real de Y e yi o valor correspondente estimado atravs do modelo de regresso.

Analise de Regressao e Correlacao p. 25/2

Adequao do modelo de regresso

Anlise residual, Coeciente de determinao Os resduos de um modelo de regresso so denidos como ei = yi yi , i = 1, . . . , n

onde yi uma observao real de Y e yi o valor correspondente estimado atravs do modelo de regresso. Resduos padronizados ei , di = QM R i = 1, . . . , n

Analise de Regressao e Correlacao p. 25/2

Adequao do modelo de regresso

Anlise residual, Coeciente de determinao Os resduos de um modelo de regresso so denidos como ei = yi yi , i = 1, . . . , n

onde yi uma observao real de Y e yi o valor correspondente estimado atravs do modelo de regresso. Resduos padronizados ei , di = QM R i = 1, . . . , n

Analise de Regressao e Correlacao p. 25/2

Analise de Regressao e Correlacao p. 26/2

Grco de resduos do exemplo 1

Analise de Regressao e Correlacao p. 27/2

Coeciente de Determinao

A quantidade: SQR R =1 SQT


2 n

onde, SQT =
determinacao

i=1

(Yi Y )2 , recebe o nome de coeciente de

que usado para julgar a adequao do modelo de regresso. Pode ser interpretado como a proporo da variabilidade presente nas observaes da varivel resposta Y, que explicada pela varivel independente X no modelo de regresso.

Analise de Regressao e Correlacao p. 28/2

Exemplo
Para os dados dos supermercados do exemplo1, determinar R2 .

Analise de Regressao e Correlacao p. 29/2

Exemplo
Para os dados dos supermercados do exemplo1, determinar R2 . Da denio tem-se: R2 = 0, 912

Analise de Regressao e Correlacao p. 29/2

Exemplo
Para os dados dos supermercados do exemplo1, determinar R2 . Da denio tem-se: R2 = 0, 912 Esse resultado signica que o modelo ajustado explicou 91,2% da variao na varivel resposta Y (vendas semanais). Isto , 91,2% da variabilidade de Y explicada pela varivel regressora X (nmero de clientes).

Analise de Regressao e Correlacao p. 29/2

Você também pode gostar