Você está na página 1de 20

Notas sobre Regresso, Preparadas por L. A.

Bertolo

Correlao e Regresso
Notas preparadas por L.A. Bertolo

ndice
Termos bsicos e conceitos ...................................................................................................................1 Regresso simples ................................................................................................................................5 Regresso Mltipla ..............................................................................................................................13 Terminologia de Regresso ..................................................................................................................20 Frmulas de Regresso .......................................................................................................................21

Termos Bsicos e conceitos


1. Um grfico de espalhamento (scatter plot) uma representao grfica da relao entre duas ou mais variveis. Num grfico de espalhamento de duas variveis x e y, cada ponto no grfico um par x-y. 2. Ns usamos regresso e correlao para descrever a variao em uma ou mais variveis. A. A variao a soma dos desvios quadrados de uma varivel de sua mdia. Variao = xx
Exemplo1: Preos de vendas de casas e ps quadrados Preos de venda de casas (eixo vertical) v. ps quadrados para uma amostra de 34 casas em Setembro de 2005 em St. Lucie County.

B. A variao o numerador da varincia de uma amostra: Varincia = xx N1

C. Ambas, a variao e a varincia, so medidas da disperso de uma amostra. 3. A covarincia entre duas variveis aleatrias uma medida estatstica do grau para o qual as duas variveis se movem juntas. A. A covarincia captura quanto uma varivel diferente da sua mdia quando a outra varivel for diferente da sua mdia. B. Uma covarincia positiva indica que as variveis tendem a se moverem juntas; uma covarincia negativa indica que as variveis tendem a se moverem em direes opostas. C. A covarincia calculada como a razo da co-variao pelo tamanho da amostra menos um:

Covarincia =
onde N o tamanho da amostra xi a i-sima observao da varivel x, a mdia das observaes da varivel x, yi a i-sima observao da varivel y, e a mdia das observaes da varivel y.

x x y y N1

D. O valor real da covarincia no significante porque ele no afetado pela a escala das duas variveis. Isto o porqu de se calcular o coeficiente de correlao para tornar algo interpretvel da informao da covarincia. E. O coeficiente de correlao, r, uma medida da intensidade da relao entre ou dentre as variveis. Clculo:

Notas sobre Regresso, Preparadas por L. A. Bertolo

r=

r=

x x y y N1 x x y y N1 N1
Desvio de x x - xMdio -1,50 -0,50 -3,50 -4,50 6,50 -6,50 -9,50 8,50 1,50 9,50 0,00 Desvio Quadrado de x (x - xMdio)2 2,25 0,25 12,25 20,25 42,25 42,25 90,25 72,25 2,25 90,25 374,50

Nota: A correlao no implica que um causa o outro. Podemos dizer que duas variveis X e Y esto correlacionadas, mas no que X causa Y ou que Y causa X, na mdia eles simplesmente esto relacionados ou associados um com o outro.

Observao 1 2 3 4 5 6 7 8 9 10 Soma Clculos xMdio= yMdio= s2x= s2y= r=


i.

x 12 13 10 9 20 7 4 22 15 23 135 135/10 416/10 374,5/9 = = =

y 50 54 48 47 70 20 15 40 35 37 416 13,5 41,6 41,611 260,267

Desvio de y y - yMdio 8,40 12,40 6,40 5,40 28,40 -21,60 -26,60 -1,60 -6,60 -4,60 0,00

Desvio Quadrado de y (y - yMdio)2 70,56 153,76 40,96 29,16 806,56 466,56 707,56 2,56 43,56 21,16 2342,40

Produto dos desvios (x - xMdio)(y - yMdio) -12,60 -6,20 -22,40 -24,30 184,60 140,40 252,70 -13,60 -9,90 -43,70 445,00

2.342,4/9 =

(445/9)/((41,611)1/2(260,267)1/2) = 49,444/(6,451*16,133) = 0,475


O tipo de relao est representada pelo coeficiente de correlao: r =+1 correlao perfeitamente positiva +1 >r > 0 relao positiva r = 0 nenhuma relao 0 > r > 1 relao negativa r = 1 correlao perfeitamente negativa

ii.

Voc pode determinar o grau de correlao observando o grfico de espalhamento. Se a relao para cima existe correlao positiva. Se a relao para baixo existe correlao negativa.

2 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso, Preparadas por L. A. Bertolo

iii. O coeficiente de correlao est limitado por 1 e +1. Quanto mais prximo o coeficiente estiver de 1 ou +1, mais forte a correlao. iv. Com a exceo dos extremos (isto , r = 1,0 ou r = -1), ns no podemos realmente falar acerca da intensidade de uma relao indicada pelo coeficiente de correlao sem um teste estatstico de significncia. v. As hipteses de interesse a respeito da correlao da populao, , so: Hipteses Nulas H0: = 0 =/ 0
Exemplo 2, continuao No exemplo anterior, r = 0,475 N = 10 , = , , = = , ,

Em outras palavras, no existe correlao entre as duas variveis


Hipteses Alternativas variveis vi. O teste estatstico est t-distribudo com n-2 graus de liberdade: Ha:

Em outras palavras, h uma correlao entre as duas

vii. Para tomar uma deciso, compare a estatstica-t calculada com a estatstica-t crtica para os graus de liberdade apropriados e nvel de significncia.
Problema Suponha o coeficiente de correlao como 0,2 e o nmero de observaes como 32. Qual o teste estatstico calculado? Isto uma correlao significante usando um nvel de significncia de 5%? Soluo Hipteses: = 0 H0: Ha: 0 Estatstica-t calculada:

Graus de liberdade = 32-1 = 31 O valor-t crtico para um nvel de significncia de 5% e 31 graus de liberdade 2,042. Ento, no existe correlao significante (1,11803 cai entre os dois valores crticos de 2.042 e +2.042). Problema Suponha o coeficiente de correlao como 0,80 e o nmero de observaes como 62. Qual o teste estatstico calculado? Isto uma correlao significante usando um nvel de significncia de 1%? Soluo Hipteses: H0: = 0 Ha: 0 Estatstica-t calculada:

, ,

= 1,11803

= 9,42809
Notas sobre Regresso, Preparadas por L. A. Bertolo

O valor-t crtico para um nvel de significncia de 1% e 11 observaes 3,169. Ento, a hiptese nula rejeitada e conclumos que existe correlao significante.

3 de 22

Notas sobre Regresso, Preparadas por L. A. Bertolo

F. Um valor afastado (outlier1) um valor extremo de uma varivel. O valor afastado deve ser bem grande ou bem pequeno (onde grande e pequeno so definidos relativamente ao restante da amostra). i. Um valor afastado deve afetar a estatstica da amostra, tanto quanto um coeficiente de correlao. possvel para um valor afastado afetar o resultado, por exemplo, tal que conclumos que existe uma relao significante quando de fato no existe nenhuma ou concluir que no existe relao quando de fato h uma relao. ii. O pesquisador deve exercitar o julgamento (e cuidado) quando decidir se inclui ou exclui uma observao. G. Correlao espria uma aparncia de uma relao quando de fato no existe relao. Valores afastados podem resultar numa correlao espria . i. O coeficiente de correlao no indica uma relao causal. Certos itens dados podem estar altamente correlacionados, mas no necessariamente um resultado de uma relao causual. ii. Um bom exemplo de uma correlao espria a cada de neve e os preos de aes em Janeiro. Se fizermos uma regresso histrica dos preos de aes versus o total de cada de neve em Minnesota, obteremos uma relao estatstica significante especialmente para os meses de Janeiro. Desde que no existe uma razo econmica para esta relao, este seria um exemplo de correlao espria.

Regresso Simples
1. Regresso a anlise da relao entre uma varivel e alguma outra varivel(s), assumindo uma relao linear. Tambm referida como regresso dos mnimos quadrados e mnimos quadrados ordinrios (ordinary least squares - OLS). A. O propsito explicar a variao numa varivel (isto , como uma varivel difere do seu valor mdio) usando a variao em uma ou outras mais variveis. B. Suponha que queremos descrever, explicar, ou predizer porque uma varivel difere de sua mdia. Seja a isima observao desta varivel representada como Yi, e seja n indicando o nmero de observaes. A variao nos Yi's (os quais queremos explicar) :

Variao = do Y

y y

= SS

C. O princpio dos mnimos quadrados que a linha de regresso determinada minimizando a soma dos quadrados das distncias verticais entre os valores reais de Y e os valores previstos de Y.

Uma observao extrema que est bem separada do restante dos dados. Em anlise de regresso, nem todos os valores outlying tero uma influncia na funo de ajuste. Estes outlying com respeito a seus valores X (alavancagem alta), e aqueles com valores Y que no so consistentes com a relao de regresso para outros valores (resduos altos) espera-se que sejam influentes. Para testar a influncia de tais valores usada a estatstica Cook 4 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso, Preparadas por L. A. Bertolo

Uma linha um ajuste atravs dos pontos XY tal que a soma dos resduos quadrticos (isto , a soma dos quadrados da distncia vertical entre as observaes e a linha) seja minimizada. 2. As variveis numa relao de regresso consistem de variveis dependentes e variveis independentes. A. A varivel dependente a varivel cuja variao est sendo explicada pela(s) outra(s) varivel(s). Tambm referida como varivel explicada, a varivel endgena, ou a varivel prevista. B. A varivel independente a varivel cuja variao usada para explicar aquelas da varivel dependente. Tambm referida como a varivel explicativa, a varivel exgena, ou a varivel previsvel. C. Os parmetros numa equao de regresso simples so a inclinao (b1) e o intercepto (b0): yi = b0 + b1 xi + i onde yi a i-sima observao da varivel dependente, xi a i-sima observao da varivel independente, b0 um intercepto. b1 o coeficiente de inclinao, i um resduo para a i-sima observao.

D. A inclinao, b1, a variao em Y para uma variao de uma unidade em X. A inclinao pode ser positiva, negativa, ou zero, calculados como:

Sugesto: Pense na linha de regresso como a mdia da relao entre a varivel independente e a varivel dependente . O resduo representa a distncia de quanto um valor observado da varivel dependente (i.e., Y) est longe da relao mdia como descrito pela linha de regresso.

b =

Ento Suponha que:

Uma frmula atalho para o coeficiente de correlao:

y y x x = 1.000 x x = 450

N = 30

b =

, ,

y y x x N 1 = x x N1 x xy N = x x N
b

Se isto realmente um atalho ou no depende do mtodo de realizar os clculos: manualmente, usando o Microsoft Excel, ou usando uma calculadora.

E. O intercepto, b0, a interseco da linha com o Y- em X=0. O intercepto pode ser positivo, negativo ou zero. O intercepto calculado como:

3. A regresso linear assume o seguinte:

b = y b x

Notas sobre Regresso, Preparadas por L. A. Bertolo

5 de 22

Notas sobre Regresso, Preparadas por L. A. Bertolo

A. Uma relao linear existe entre as variveis, dependente e independente. Nota: se a relao no linear, pode ser possvel transformar uma ou ambas variveis de modo que exista uma relao linear. B. A varivel independente no est correlacionada com os resduos; isto , a varivel independente no aleatria. C. O valor esperado do termo distrbio zero; isto , E(i)=0 D. H uma varincia constante do termo distrbio; isto , os temos distrbio ou resduo so todos extrados de uma distribuio com uma varincia idntica. Em outras palavras, os termos distrbios so homoscedsticos. [Uma violao disto referida como heteroscedasticidade.]

Exemplo 1, continuaao:
Exemplo 1, continuao: Preos de vendas (eixo vertical) versus ps quadrados para uma amostra de 34 casas venda em Setembro de 2007 em St. Lucie County.

E. Os resduos so distribudos independentemente; isto , o resduo ou distrbio para uma observao no est correlacionado com aquele de outra observao. [Uma violao disto referida como auto-correlao.] F. O termo distrbio (a.k.a. resduo, a.k.a. error term) normalmente distribudo.

4. O erro padro da estimativa, SEE, (tambm referido como o erro padro do resduo ou erro padro da regresso, e freqentemente indicado como se) o desvio padro dos valores previstos da varivel dependente ao redor da linha de regresso estimada. 5. Erro padro da estimativa (SEE) =

= =

SEE =

Onde SSResidual a soma dos erros quadrticos; ^ indica o valor predito ou estimado da varivel ou parmetro; e

y =

o xi; o valor esperado de y, dado a relao mdia estimada entre x e y.

b x o ponto na linha de regresso correspondente a um valor da varivel independente ,

6 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso, Preparadas por L. A. Bertolo

A. O erro padro da estimativa ajuda-nos calibrar o "ajuste" da linha de regresso; isto , quo bem temos descrito a variao na varivel dependente. i. Quanto menor o erro padro, melhor o ajuste. ii. O erro padro da estimativa uma medida da proximidade dos valores estimados (usando a regresso estimada), os y 's, esto dos valores reais, os Y's. iii. Os is (a.k.a. os termos distrbios; a.k.a. os resduos) so as distncias verticais entre o valor observado de Y e aquele previsto pela equao, os y ' iv. Os is esto nos mesmos termos (unidades de medidas) que os Ys (p.ex, dollars, pounds, billions) 6. O coeficiente de determinao, R2, a porcentagem da variao da varivel dependente (variao dos Yi's ou a soma dos quadrados total, SST) explicada pela varivel independente(s). A. O coeficiente de determinao calculado como:

Exemplo 2, continuao: Considere as seguintes observaes sobre X e Y:

Observao 1 2 3 4 5 6 7 8 9 10 Soma

x 12 13 10 9 20 7 4 22 15 23 135

y 50 54 48 47 70 20 15 40 35 37 416

A linha de regresso estimada : Yi = 25,559 + 1,188 xi E os resduos so calculados como:


Observao 1 2 3 4 5 6 7 8 9 10 x 12 13 10 9 20 7 4 22 15 23 y 50 54 48 47 70 20 15 40 35 37 ^y 39,82 41,01 37,44 36,25 49,32 33,88 30,31 51,70 43,38 52,89 y-^y 10,18 12,99 10,56 10,75 20,68 -13,88 -15,31 -11,70 -8,38 -15,89 0,00 e 103,63 168,74 111,51 115,56 427,66 192,65 234,40 136,89 70,22 252,49 1.813,77
2

R =

Portanto, SSResidual = 1.813,63/8 = 226,70 1/2 SEE = (226,70) = 15,06

B. Um R2 de 0,49 indica que as variveis independentes explicam 49% da variao da varivel dependente.

Notas sobre Regresso, Preparadas por L. A. Bertolo

7 de 22

Notas sobre Regresso, Preparadas por L. A. Bertolo

Exemplo 2, continuao Continuando o exemplo de regresso anterior, podemos calcular o R .


2

x 12 13 10 9 20 7 4 22 15 23
R R
2

y 50 54 48 47 70 20 15 40 35 37 416

(y - yMdio)2 70,56 153,76 40,96 29,16 806,56 466,56 707,56 2,56 43,56 21,16 2.342,40

^y 39,82 41,01 37,44 36,25 49,32 33,88 30,31 51,70 43,38 52,89 416,00
ou

y-^y 10,18 12,99 10,56 10,75 20,68 -13,88 -15,31 -11,70 -8,38 -15,89 0,00

(^y - yMdio)2 3,17 0,35 17,31 28,62 59,60 59,60 127,46 102,01 3,17 127,46 528,75

103,63 168,74 111,51 115,56 427,66 192,65 234,40 136,89 70,22 252,49 1.813,77

= 528,77/ 2.342,40 = 22,57%

= 1 (1.813,63/2.342,40) = 1 0,7743 = 22,57%.

7. Um intervalo de confiana um intervalo de valores de coeficientes de regresso para um dado valor estimado do coeficiente e um dado nvel de probabilidade. A. O intervalo de confiana para um regresso coeficiente

calculado como:

Ou

<

<

onde tc um valor-t crtico para o nvel de confiana selecionado. Se existirem 30 graus de liberdades e um nvel de confiana 95%, o tc 2,042 [tomado de uma tabela-t]. B. A interpretao do intervalo de confiana que ele um intervalo que acreditamos que incluir o parmetro verdadeiro ( 1 b s no caso acima) com nvel de confiana especificado. 8. Quando o erro padro da estimativa (a variabilidade dos dados ao redor da linha de regresso) subir, a confiana se alarga. Em outras palavras, quanto mais variveis forem os dados, menos confiante voc ficar quando estiver usando o modelo de regresso para estimar o coeficiente. 9. O erro padro do coeficiente uma raiz quadrada da razo da varincia da regresso pela variao da varivel independente:

x x

A. Teste de hipteses: uma varivel explicativa individual i. Para testar hiptese do coeficiente de inclinao (isto , para ver se a inclinao estimada igual a um valor hipottico, b0, Ho: b = b1, calculamos a estatstica t-distribuda:

8 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso, Preparadas por L. A. Bertolo

1 1
1

ii. O teste estatstico tdistribudo com Nk1 graus de liberdade (nmero de observaes (N), menos o nmero de variveis independentes (k), menos um). B. Se a estatstica-t maior que o valor-t crtico para o apropriado grau de liberdade, (ou menor que o valor-t crtico uma inclinao negativa) podemos dizer que o coeficiente de inclinao diferente do valor hipottico, b1. C. Se no existir relao entre a varivel dependente e uma varivel independente, o coeficiente de inclinao, b1, ser zero. Nota: A frmula para o erro padro do coeficiente tem a variao da varivel independente no denominador, no a varincia. A varincia = variao / n-1.

Uma inclinao zero indica que no existe variao em Y para uma dada variao em X Uma inclinao zero indica que no existe relao entre Y e X. D. Para testar se uma varivel independente explica a variao na varivel dependente, a hiptese que testada se a inclinao zero: Ho: b1 = 0 b1 0

versus a alternativa (que voc conclui se voc rejeitar a nula, Ho): Ha:

Esta hiptese alternativa referida como uma hiptese bilateral. Isto significa que rejeitamos a nula se a inclinao observada diferente de zero em uma das duas direes (positiva ou negativa). E. Existem hipteses na economia que se referem ao sinal da relao entre as variveis dependente e as independentes. Neste caso, a alternativa direcional (> ou <) e o teste-t unilateral (usa somente uma cauda da distribuio-t). No caso de uma alternativa unilateral, existe somente um valor-t crtico.

Notas sobre Regresso, Preparadas por L. A. Bertolo

9 de 22

10

Notas sobre Regresso, Preparadas por L. A. Bertolo

Exemplo 3: Testando a significncia de um coeficiente de inclinao Suponha que o coeficiente de inclinao estimado seja 0,78, o tamanho da amostra seja 26, o erro padro da coeficiente seja 0.32, e o nvel de significncia seja 5%. A inclinao diferente de zero? O teste estatstico calculado : tb =

= 2,4375

Os valores-t crticos so = 2,060

Rejeitar H0

Falha para rejeitar H0

Rejeitar H0

Portanto, rejeitamos a hiptese nula, concluindo que a inclinao diferente de zero.

10. Interpretao dos coeficientes. A. O intercepto estimado interpretado como o valor da varivel dependente (o Y) se a varivel independente (o X) tomar um valor zero. B. O coeficiente estimado de inclinao interpretado como a variao na varivel dependente para uma dada variao de uma unidade na varivel independente. C. Quaisquer concluses respeito da importncia de uma varivel independente na explicao de uma varivel dependente exige determinar a significncia estatstica se o coeficiente inclinar. Simplesmente olhando para a magnitude do coeficiente de inclinao no indica esta matria de importncia da varivel. 11. Previso usar regresso envolve fazer predies acerca da varivel dependente baseado nas relaes mdias observadas na regresso estimada. A. Valores preditos so valores da varivel dependente baseado nos coeficientes de regresso estimados e uma predio acerca dos valores das variveis independentes. B. Para uma regresso simples, o valor de Y predito como:
Exemplo 4 Suponha que voc estimou um modelo de regresso com as seguintes estimativas: y = 1,50 + 2,5 X1 Alm disso, voc tem valores projetados para a varivel independente, X1=20. O valor projetado para y 51,5: y = 1,50 + 2,50 (20) = 1,50 + 50 = 51,5

10 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso, Preparadas por L. A. Bertolo

11

y =

b0 + bi xp

onde y um valor previsto da varivel dependente, e xp um valor previsto da varivel independente (input). 12. Uma anlise de tabela de varincia (tabela ANOVA) um resumo das explicao da variao da varivel dependente. A forma bsica da tabela ANOVA como segue: Fonte de variao Regresso (Explicada) Graus de Liberdade 1 Soma dos quadrados Soma das regresses ao quadrado (SSRegresso) Soma dos resduos ao quadrado (SSResidual) Soma dos quadrados total (SSTotal) Mdia Quadrtica Regresso Quadrtica Mdia = SSRegresso+/1 Erro quadrtico mdio = SSResiduo+/N-2

Erro (no explicado) Total

N2 N1

Exemplo 5 Fonte de variao Regresso (Explicada) Erro (no explicado) Total R2 = 5.050/5.650 = 0,8938 ou 89,38% SEE = (600/28)1/2 = (21.429)1/2 = 4,629

Graus de Liberdade 1 28 29

Soma dos quadrados 5.050 600 5.650

Mdia Quadrtica 5050 21.429

Notas sobre Regresso, Preparadas por L. A. Bertolo 11 de 22

12

Notas sobre Regresso, Preparadas por L. A. Bertolo

Regresso Mltipla
1. Regresso mltipla a anlise de regresso com mais do que uma varivel independente. A. O conceito de regresso mltipla idntico daquele da anlise de regresso simples exceto que duas ou mais variveis independentes so usadas simultaneamente para explicarem as variaes da varivel dependente. y = b0 + b1x1 + b2x2 + b3x3 + b4x4 B. Numa regresso mltipla, a meta minimizar a soma dos erros quadrticos. Cada coeficiente de inclinao estimado enquanto se mantm as outras variveis constantes.
Ns no representamos a regresso mltipla graficamente porque ela exigiria grficos que esto em mais do que duas dimenses.

2. O intercepto na equao de regresso tem a mesma interpretao que ela tinha sob o caso linear simples o intercepto um valor da varivel dependente quando todas as variveis independentes so iguais a zero. 3. O coeficiente de inclinao um parmetro que reflete a variao na varivel dependente para uma unidade de variao na varivel independente. A. Os coeficientes de inclinaes (os betas) so descritos como o movimento na varivel dependente para uma variao de uma unidade de variao na varivel independente mantendo
Uma inclinao com qualquer outro nome O coeficiente de inclinao a elasticidade da varivel dependente com respeito varivel independente. Em outras palavras, a derivada primeira da varivel dependente com respeito varivel independente.

todas as constantes.

outras

variveis

independentes

B. Por esta razo, os coeficientes betas numa regresso linear mltipla, so algumas vezes chamados de betas parciais ou coeficientes parciais de regresso. 4. Modelo de Regresso: Yi = b0 + b1 x1i + b2 x2i + i onde:

bj a coeficiente de inclinao da j-sima varivel dependente; e xji a i-sima observao da j-sima varivel. A. Os graus de liberdade para o teste de um coeficiente de inclinao so N-k-1, onde n um nmero de observaes da amostra e k um nmero de variveis independentes. B. Na regresso mltipla, as variveis independentes podem estar correlacionadas umas com as outras, resultando em estimativas menos confiveis. Este problema referido como multi-colinearidade. 5. Um intervalo de confiana para uma inclinao da regresso de populao numa regresso mltipla um intervalo centrado na inclinao estimada:

ou

A. Este o mesmo intervalo usado na regresso simples para o intervalo de um coeficiente de inclinao. B. Se este intervalo contm zero, conclumos que a inclinao no estatisticamente diferente de zero.

<

<

6. As hipteses do modelo da regresso mltipla so como segue: A. Uma relao linear existe entre as variveis, dependente e independente.

12 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso, Preparadas por L. A. Bertolo

13

B. As variveis independentes no esto correlacionadas com os resduos; isto , a varivel independente no aleatria. Alm disso, no existe relao linear entre duas ou mais variveis independentes. [Nota: isto ligeiramente modificado das hipteses do modelo de regresso simples.] C. O valor esperado do termo distrbio zero; isto , E(i)=0 D. H uma varincia constante do termo distrbio; isto , os termos distrbio ou resduo so todos extrados de uma distribuio com uma varincia idntica. Em outras palavras, os termos distrbios so homoscedsticos. [Uma violao disto referida como heteroscedasticidade2.] E. Os resduos so distribudos independentemente; isto , o resduo ou distrbio para uma observao no est correlacionado com aquele de outra observao. [Uma violao disto is referida como auto-correlao.] F. O termo distrbio (a.k.a. resduo, a.k.a. error term) normalmente distribudo. G. O resduo (a.k.a. termo distrbio, a.k.a. error term) o que no explicado pelas variveis independentes. 7. Numa regresso com duas variveis independentes, o resduo para a i-sima observao : i =Yi (b

0 + b 1 x1i + 2 b x2i) =

8. O erro padro da estimativa (SEE) o erro padro do resduo:

= df =

9. Os graus de liberdade, df, so calculados como:

1=Nk1= N k+1

A. Os graus de liberdade so o nmero de pedaos de informaes independentes que so usadas para estimar os parmetros de regresso. No clculo dos parmetros de regresso, usamos os seguintes pedaos de informaes: A mdia da varivel dependente. A mdia de cada uma das variveis independentes. B. Ento, se a regresso uma regresso simples, usamos os dois graus de liberdade na estimao da linha de regresso. se a regresso uma regresso mltipla com quatro variveis independentes, usamos cinco graus de liberdade na estimao da linha de regresso. 10. Previso (Forecasting) usando regresso envolve fazer predies acerca da varivel dependente baseadas nas relaes mdias observadas na regresso estimada.

Em estatstica, uma seqncia ou um vetor de variveis aleatrias heteroscedstico (heteroskedastistic) se as variaveis aleatrias tiverem varincias diferentes. O conceito complementar chamado homocedasticidade (homoscedasticity). (Nota: A ortografia alternativa homo- ou heteroskedasticity igualmente correta e tambm usada freqentemente). O termo significa "varincia diferindo" e vem do Grego "hetero" ('diferente') e "skedastios" ('disperso'). Quando usar algumas tcnicas estatsticas, tais como mnimos quadrados ordinrios (ordinary least squares - OLS), vrias hipteses so geralmente feitas. Uma delas que o termo erro tenha uma varincia constante. Isto ser verdadeiro se as observaes do termo erro forem assumidas serem extradas de distribuies idnticas. Heteroscedasticidade uma violao desta hiptese. Por exemplo, o termo erro poder variar ou aumentar com cada observao, de certa forma este o caso freqente com medidas de seo cruzada ou sries temporais. Heteroscedasticidade freqentemente estudada como parte da econometria, que freqentemente lida com dados exibindo ela. Com o advento de erros padres robustos permitindo-nos fazer inferncia sem especificar o segundo momento condicional do termo erro, testar a homoscedasticidade condicional no to importante quanto no passado. O econometricista Robert Engle ganhou o 2003 Nobel Memorial Prize for Economics pelos seus estudos sobre anlise de regresso na presena de heteroscedasticidade, que conduziu sua formulao da tcnica de modelagem ARCH (Auto Regressive Conditional Heteroscedasticity).
Notas sobre Regresso, Preparadas por L. A. Bertolo 13 de 22

14

Notas sobre Regresso, Preparadas por L. A. Bertolo

A. Valores Preditos so valores da varivel dependente baseados na regresso estimada dos coeficientes e uma predio acerca dos valores das variveis independentes. B. Para uma regresso simples, o valor de y previsto como: y = b 0 + b 1x 1 + b 2 x 2 onde y o valor previsto da varivel dependente, b i o parmetro estimado, e x i o valor previsto da varivel independente C. Quanto melhor for o ajuste da regresso (isto , quanto menor for o SEE), mais confiantes estamos nas nossas predies.

Exemplo 6: Usando informao da anlise de varincia Suponha que estamos estimando com o modelo de regresso mltipla que tem cinco variveis independentes usando uma de 65 observaes. Se a soma dos resduos quadrticos 789, qual o erro padro da estimativa? Soluo Dado: SSResidual = 789 N = 65 k=5 SEE =

= 13,373

Cuidado: O intercepto estimado e todas as inclinaes estimadas so usadas na predio do valor da varivel dependente, mesmo se uma inclinao no for estatisticamente significantemente diferente de zero.

Exemplo 7: Calculando um valor projetado (forecasted) Suponha que voc est estimando um modelo de regresso com as seguinte estimativas: ^Y = 1,50 + 2,5 X1 0,2 X2 + 1,25 X3 Alm disso, voc tem os valores previstos para as variveis independentes: X1=20 X2=120 X3=50 Qual o valor previsto de y?

Soluo
O valor previsto para Y 90: ^Y = 1,50 + 2,50 (20) 0,20 (120) + 1,25 (50) = 1,50 + 50 24 + 62,50 = 90 11. A estatstica-F uma medida de quo bem um conjunto de variveis independentes, como um grupo, explica a variao na varivel dependente. A. A estatstica-F calculada como:

F=

B. A estatstica-F pode ser formulada para testar todas as variveis independentes como um grupo (a aplicao mais comum). Por exemplo, se existirem quatro variveis independentes no modelo, as hipteses so: H0:

b1 = b2 = b3 = b4 = 0

Ha: no mnimo um bi 0 C. A Estatstica-F pode ser formulada para testar subconjuntos de variveis independentes (para ver se elas tem poder de explicao incremental (incremental explicativa power). Por exemplo se existirem quatro variveis independentes no modelo, um subconjunto poderia ser examinado: H0: Ha: b1=b4=0 b1 ou b4 0

12. O coeficiente de determinao, R2, a porcentagem da variao da varivel dependente explicada pelas variveis independentes.

14 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso, Preparadas por L. A. Bertolo

15

R =

R =

0<R2<1

A. Por construo, R2 varia de 0 a 1,0 B. O R2-ajustado uma alternativa a R2:

i. O R2-ajustado menor que ou igual a R2 (igual a somente quando k=1). ii. Adicionando variveis independentes ao modelo o R2 aumentar. Adicionar variveis independentes ao modelo pode aumentar ou diminuir o R2-ajustado (Nota: R2-ajustado pode ser at negativo). iii. O R2-ajustado no tem a explicao clara do poder explicativo que o R2 tem. 13. O propsito da tabela da Anlise da Varincia (ANOVA) atribuir a total variao da varivel dependente ao modelo de regresso (a fonte de regresso na coluna 1) e os resduos (a fonte de erro da coluna 1). A. SSTotal a total variao de Y ao redor de sua mdia ou valor mdio (a.k.a. soma dos quadrados total) e calculada como SS onde a mdia de Y. = y y

R =1

1 R

B. SSResidual (a.k.a. SSE) a variabilidade isto no explicada pela regresso e calculada como: SS = SSE = y y = e

onde

Y o valor da varivel dependente usando a equao de regresso.

C. SSRegression (a.k.a. SSExplicada) a variabilidade que explicada pela equao de regresso e calculada como SSTotal SSResidual. SS

y y

D. MSE o erro quadrtico mdio, ou MSE = SSResidual / (N k - 1) onde k o nmero de variveis independentes na regresso. E. MSR a regresso quadrtica mdia, MSR =SSRegresso / k

Notas sobre Regresso, Preparadas por L. A. Bertolo 15 de 22

16

Notas sobre Regresso, Preparadas por L. A. Bertolo

Tabela de Anlise da Varincia (ANOVA)

Fonte
Regresso Erro (no explicado) Total R2 =

df Graus de Liberdade k Nk-1 N1

SS Soma dos quadrados SSRegresso SSResidual SSTotal

SS/df Mdia Quadrtica MSR MSE

=1

F=
14. Variveis Dummy so variveis qualitativas que tomam os valores zero ou um. A. A maioria das variveis independentes representa um fluxo contnuo de valores. Entretanto, Alguma vezes a varivel independente de natureza binria (ela ou ON ou OFF). B. Estes tipos de variveis so chamadas variveis dummy e aos dados atribudo um valor de "0" ou "1". Em muitos casos, voc aplica o conceito de varivel dummy para quantificar o impacto de uma varivel qualitativa. Uma varivel dummy uma varivel dicotmica; isto , ela toma um valor de um ou zero. C. Use uma varivel dummy a menos que o nmero de classes (p.ex., se tem trs classes, use duas variveis dummy), caso contrrio voc cair numa varivel dummy "emboscada" (multicolinearidade perfeita hiptese da violao [2]). D. Uma varivel dummy interativa uma varivel dummy (0,1) multiplicada por uma varivel para criar uma nova varivel. A inclinao desta nova varivel diz-nos a inclinao incremental. 15. Heteroscedasticidade uma situao em que a varincia dos resduos no constante em todas as observaes. A. Uma hiptese da metodologia da regresso que a amostra extrada da mesma populao, e que a varincia dos resduos constante nas observaes; em outras palavras, os resduos so homoscedsticos. B. Heteroscedasticidade um problema porque os estimadores no tem a menor varincia possvel, e portanto o erro padro dos coeficientes no sero corretos. 16. Auto-correlao uma situao em que os termos de resduos esto correlacionadas unscom os outros. Isto ocorre freqentemente em anlises de sries temporais. A. Auto-correlao aparece geralmente em dados de sries temporais. Se o lucro do ano passado foi maior, isto significa que o lucro deste ano pode ter uma probabilidade maior de ser alto do que ser baixo. Isto um exemplo de auto-correlao positiva. Quando um ano bom for sempre seguido por uma ano ruim, isto um exemplo de auto-correlao negativa. B. Auto-correlao um problema porque os estimadores no tem a menor varincia possvel e portanto oerro padro dos coeficientes no seriam corretos. 17. Multicolinearidade um problema de alta correlao entre ou dentre duas ou mais variveis independentes. A. Multicolinearidade uma problema porque i. A presena da multicolinearidade pode causar distores no erro padro e pode conduzir a problemas com teste significncia dos coeficientes individuais, e ii. Estimativas so sensveis s variaes nas observaes da amostra ou da especificao do modelo. B. Se existir multicolinearidade, estamos mais aptos a concluir que uma varivel no importante. C. Multicolinearidade est provavelmente presente em certo grau na maioria dos modelos econmicos. Multicolinearidade perfeita nos proibir de estimar os parmetros de regresso. O caso ento realmente a um dos graus.

16 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso, Preparadas por L. A. Bertolo

17

18. O significado econmico dos resultados de uma estimao de regresso focaliza principalmente nos coeficientes de inclinao. A. Os coeficientes de inclinao indicam a variao da varivel dependente para uma variao de uma unidade na varivel independente. Esta inclinao pode ser ento interpretada como uma medida da elasticidade; isto , a variao em uma varivel corresponde a uma variao em outra varivel. B. possvel ter significncia estatstica, apesar de que no tenha significncia econmica (p.ex., retornos anormais significantes associados com um anncio, mas estes retornos no so suficientes para cobrirem custos de transaes).
Para Testar o papel de uma nica varivel na explicao da variao da varivel dependente Testar o papel de todas as variveis na explicao da variao da varivel dependente Estimar a variao na varivel dependente para uma variao de uma unidade na varivel independente Estimar a varivel dependente se todas as variveis independentes tomarem um valor zero use a estatstica-t. a estatstica-F.

o coeficiente de inclinao. o intercepto.

Estimar a porcentagem das variaes explicadas das variveis dependentes pelas variveis independentes Prever o valor da varivel dependente dados os valores estimados da varivel independente(s)

o R2.

A equao de regresso, substituindo os valores estimados da varivel independente(s) na equao.

Notas sobre Regresso, Preparadas por L. A. Bertolo 17 de 22

18

Notas sobre Regresso, Preparadas por L. A. Bertolo

Regresso terminologia
Analysis of varincia ANOVA Autocorrelao Coefficient of determination Confidence interval Correlation coeficiente Covariance Covariation Cross-sectional Degrees of freedom Dependent varivel Explained varivel Explanatory varivel Forecast Estatstica-F Heteroskedasticity Homoskedasticity Invarivel dependente Intercept Least squares regresso Mean square error Mean square regresso Multicollinearity Regresso mltipla Negative correlao Ordinary least squares Perfect negative correlao Perfect positive correlao Positive correlao Predicted valor R2 Regresso Residual Scatterplot se SEE Simple regresso Slope Slope coeficiente Spurious correlao SSResidual SSRegression SSTotal Standard error da estimate Sum of squares error Sum of squares regresso Sum of squares total Time-series t-statistic Varincia Variao

Frmulas de Regresso
Variao = xx

Varincia =

Covarincia =

Correlao r =
Regresso
yi = b0 + b1 xi + i

y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + i

b =

b =y b x

18 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso, Preparadas por L. A. Bertolo

19

Testes e intervalos de confiana SEE = S


1

1 1
1

y b bx N2

y y N2

e N2

x x

y y Regresso quadrtica mdia MSR k k F= = = SS Erro mdio quadrtico MSE y y Nk1 Nk1
Previso
< < +

SS

y = b 0 + b 1x 1 + b 2 x 2

Anlise de Varincia y y SS
SS

= SS = SSE = y y = e

y y

SS y y Regresso quadrtica mdia MSR k k F= = = SS Erro mdio quadrtico MSE y y Nk1 Nk1

Regresso
Notas sobre Regresso, Preparadas por L. A. Bertolo 19 de 22

20

Notas sobre Regresso, Preparadas por L. A. Bertolo

yi = b0 + b1 xi + i y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + i

20 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Você também pode gostar