Você está na página 1de 5

REGRESSO LINEAR SIMPLES PARTE 2

4. INFERNCIAS EM ANLISE DE REGRESSO A reta de regresso calculada pode ser encarada como uma estimativa da relao real, porm desconhecida, que existe entre as duas variveis na populao. Logo, os coeficientes a e b servem como estimativas pontuais dos dois parmetros da populao correspondente, A e B, e a equao yc = a + bx + uc a uma estimativa da relao populacional yi = A + Bx. Por que existe disperso? Porque no existe um relacionamento perfeito entre as duas variveis na populao. H outras variveis que influenciam os valores da varivel dependente que no entram na anlise de regresso. Por que essas outras variveis no estariam includas no estudo? a) Com influncia provavelmente pequena de cada uma dessas variveis, o custo da incluso supera o benefcio; b) Um ou dois fatores geralmente respondem por quase toda a variao da varivel dependente; c) O nmero de variveis explanatrias potenciais muito grande, dificultando os clculos. Essa disperso significa que h muitas equaes de regresso diferentes, que poderiam concebivelmente ser obtidas. Para cada valor de x, haver muitos valores possveis de y. Supe que h uma distribuio de ys potenciais que segue a lei normal, que chamada distribuio condicional (isto , dado x). A distribuio condicional igual ao valor mdio de y na populao. Para esse particular x, y = + x estimada por yc = a + bx. 4.1. As premissas do modelo de regresso linear 1. Tem os parmetros a e b lineares. No pode ser b2, a, etc. 2. Para cada valor de x existe um grupo de valores de y. Estes grupos de valores de y tm distribuio normal com o mesmo desvio padro. 3. X, a varivel independente, no estocstica; fixa em amostras repetidas; portanto se faz anlise condicionada ao valor de X! 4. As mdias das distribuies normais de y pertencem reta de regresso.

5. O valor esperado dos desvios nulo, pois a varincia mnima. E(UiXi) = 0. Alguns valores de Y esto acima e outros abaixo da mdia (reta). Os resduos so, portanto, positivos e negativos. 6. Homocedasticidade. Dado um valor de X, a varincia dos desvios constante e igual varincia da populao; isto , todos os desvios tm a mesma varincia para todas as observaes de X. Var (UiXi) = 2; Na heterocedasticidade, Var (UiXi) = 2i. 7. Ausncia de autocorrelao serial entre os resduos. Cov (Ui,Uj Xi, Xj) = 0. Os resduos so independentes da varivel independente. Se isto no existe, Yt depender de Xt e de Ut-1. 8. E (Ui,Xi) = 0. Sem covarincia entre U e X, pois U representa outras variveis explicativas. Ento se h esta correlao, outras variveis esto influenciando X. 9. n > k; Ou seja, o nmero de observaes tem que ser maior que o nmero de variveis independentes. 10. Var (X) deve ser positiva definida, isto , X tem que variar na amostra. 11. No pode haver erro ou vis na especificao do modelo. 12. Ausncia de multicolinearidade. Para modelos mltiplos. 13. Os resduos devem ter distribuio normal. A partir de tais premissas, tem-se que responder seguinte questo: Quo til a reta de regresso? A resposta estar baseada em duas medies importantes: a) O erro padro da estimativa; e b) O coeficiente de determinao r2. Estas estatsticas medem a eficincia dos estimadores, isto a preciso com que a reta estar prxima dos valores observados de y. A menor varincia que definir tal preciso. 4.2. Erro padro da estimativa Quo precisas so as diversas estimativas de regresso? Devemos lembrar que os estimadores so funo dos dados amostrais e variam, portanto, de amostra para amostra. Assim, genericamente, o erro padro o desvio padro da distribuio dos estimadores em diversas amostragens. A determinante principal da preciso a quantidade de disperso na populao: quanto maior a disperso, menor a preciso das estimativas. A disperso pode ser calculada pela frmula, que a raiz quadrada da varincia:

Se2 =

(yi yc)2 i=1 n-2 (yi yc)2 i=1 n-2


n

SSE

n-2

Se =

SSE=SQR SQUARE SUM OF ERRORS; SOMA DOS QUADRADOS DOS RESDUOS A razo para (n k) [(n 2) uma forma especfica] que perdemos k (nmero dos parmetros estimados) graus de liberdade ao calcular as duas constantes a e b na equao de regresso. Portanto, k = graus de liberdade, isto , restries impostas ao total de observaes. Lembre-se que uma reta necessita de pelo menos dois pontos; logo, para os pontos a e b so necessrios duas das observaes (quaisquer). O uso de yc em lugar de y decorre de querermos usar a reta de regresso como centro, ou ponto de referncia, para medir a disperso em relao reta. Se os dados observados estiverem, por exemplo, contidos numa reta, se obter uma reta estimada coincidente com estes pontos observados e s e, a soma dos quadrados dos desvios ser igual a zero e a explicao da reta ajustada completa. Portanto, o valor de se a parte no explicada pela regresso. O clculo do erro padro se baseia na hiptese de disperso uniforme, que supe que as distribuies condicionais dos valores de y tenham desvios padres iguais. Este erro padro o desvio padro da distribuio de pontos em torno da reta de regresso. Com dois estimadores lineares e no-viesados, escolhe-se o de menor varincia (em torno da mdia). Ser o mais eficiente. 4.3. Coeficiente de Determinao, r2 Uma medida til, associada reta de regresso, o grau em que as predies baseadas na equao de regresso superam as predies baseadas no valor mdio de y. O Coeficiente de Determinao pode ser definido como o grau de ajuste da reta estimada ao conjunto de dados. Quo bem o modelo se ajusta ao conjunto de dados. Esta comparao pode ser analisada pela figura abaixo:

Poder de Explicao de r2
yi
i

Variao no Explicada

= a + bx

Variao Total Variao Explicada

xi
onde: Variao Total: a distncia entre o valor mdio de y e o valor observado de cada y; o somatrio do quadrado dos desvios das observaes y com relao ao valor da mdia y das mesmas observaes y, isto , (yi ymdio )2 sua medida estatstica. Variao no-explicada: a distncia entre os valores estimados pela reta e os valores observados de y; o somatrio do quadrado dos desvios das observaes y com relao aos valores estimados pelo modelo de regresso, isto , ( yi yc )2 sua medida estatstica. Variao explicada: a distncia entre o valor mdio de y e os valores estimados pelo modelo para cada y; o somatrio do quadrado dos desvios dos valores estimados pelo modelo de regresso yc com relao ao valor mdio de y, isto , (yc ymdio)2 sua medida estatstica. Conclui-se, ento que [Variao total = variao explicada + variao noexplicada]. A percentagem de variao explicada, r2, a razo da variao explicada sobre a variao total. Note a diferena entre os conceitos de variao e varincia, j que varincia = variao/gl. A variao total tambm conhecida pela expresso TSS=STQ (TOTAL SQUARE SUM =SOMA TOTAL DOS QUADRADOS). A variao no explicada o que j vimos acima como erro padro da estimativa (SSR=SQR). Resta a variao explicada, que tratada como SQE=ESS (SOMA DOS QUADRADOS EXPLICADA=EXPLAINED SUM OF SQUARE).

r r r

variao explicada = variao total

( yc y ) yi y

variao total - variao no explicada variao total

variao no explicada ( = 1 = 1 variao explicada

yc y

yi yc )

2 2

A medida r2 reflete at que ponto os valores de y esto relacionados com os de x. Se r 2 = 0, ento b = 0 e o valor mdio de y a melhor projeo para qualquer valor de x. O coeficiente de determinao r2 indica a proporo da variao total na varivel dependente y que explicada pela variao da varivel independente x. Se r2 prximo de 1, isso significa que a variao explicada responde por uma grande percentagem da variao total. Se r2 = 0,81, por exemplo, indica que aproximadamente 81% da variao em y est relacionada com a variao de x e que 19% no explicado por x. O fato de r2 no estar prximo de zero sugere que a equao melhor que a mdia de y como preditor. 4.4. Usando o Excel As funes estatsticas EPADYX e RQUAD. EPADYX (srie y; srie x) d como resultado o valor do erro padro da estimativa s e da reta de regresso linear. RQUAD (srie y; srie x) d como resultado o valor do coeficiente de determinao r 2 da reta de regresso linear.

Você também pode gostar