Você está na página 1de 19

Anlise de Regresso

1.1 Introduo

Cp a

Anlise de regresso uma tcnica de modelagem utilizada para analisar a relao entre uma varivel dependente (Y) e uma ou mais variveis independentes X1, X2, X3,..., Xn. O objetivo dessa tcnica identificar (estimar) uma funo que descreve, o mais prximo possvel, a relao entre essas variveis e assim podermos predizer o valor que a varivel dependente (Y) ir assumir para um determinado valor da varivel independente X. Exemplos de relao entre variveis so o consumo em relao taxa de inflao; a produo de leite e temperatura ambiente; a resistncia de um material e sua composio qumica; o nmero de peas com defeitos e a experincia; receita e gasto com publicidade e etc. O modelo de regresso poder ser escrito genericamente como: Y = f ( X 1, X 2, X 3,..., Xn ) + , onde o termo representa uma perturbao aleatria na funo, ou o erro da aproximao. O nmero de variveis independentes varia de uma aplicao para outra, quando se tem apenas uma varivel independente chama-se Modelo de Regresso Simples, quando se tem mais de uma varivel independente chama-se de Modelo de Regresso Mltipla. A forma da funo f ( .) tambm varia, podendo ser representada por um modelo linear, polinomial ou at mesmo uma funo no linear. A figura abaixo mostra um modelo linear para representar a relao entre a produo de leite e o ndice pluviomtrico de um municpio.
Produo de Leite x ndice Pluviomtrico y = 0.8x + 8.9
R2 = 0.7853 35 30 25 20 20 22 24 26 28 30

Prof. Cludio Serra, Esp.

Por sua vez, os dados somente de exportao de carne de frango podero ser representados por um modelo polinomial conforme mostrado na figura abaixo.

Exportaes de carne de frango


2,500 2,000 1,500 1,000 500 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 y = 1.5329x3 - 25.198x2 + 157.04x + 79.16 R2 = 0.9914

1.2 Regresso Linear Simples


Este modelo utilizado quando existe uma relao linear entre a varivel independente e a varivel dependente (neste caso apenas uma). A funo que expressa esse modelo ser dada pela forma abaixo:
34

Yi = b0 + b1 X i + ,

32 30 28 26 24 22 20 20 22 24 26 28 30

O grfico acima uma representao desse modelo. Verifica-se pelo mesmo que nem todos os pontos tocam a reta, e essa diferena o erro ( ), que pode ter sido ocasionado por um erro de leitura dos dados; uma venda abaixo do preo real de mercado; uma produo abaixo do esperado por uma estiagem no comum; retrao do consumo por uma subida inesperada na taxa de juros; e assim vai. Mas supe-se que em mdia esses erros tendem a se anular, ou seja: E( i ) = 0 Uma vez escolhido o modelo de regresso, deve-se estimar seus parmetros, neste caso os coeficientes da equao da reta, b0 , b1 . Isso pode ser feito a partir da aplicao do Mtodo dos Mnimos Quadrados. Tirando a mdia sobre a equao acima, temos:
Y = b0 + b1 X

uma vez que a mdia dos erros zero.

Prof. Cludio Serra, Esp.

Subtraindo as duas equaes temos:


Yi Y = (b0 b0 ) + (b1 )( X i X ) + i

Chamando de y e x as diferenas centradas nas mdias, (Yi Y ) e ( X i X ) respectivamente, temos que:


y i = b1 xi + i

ou ainda,

i = y i b1 xi

Fazendo a soma dos quadrados dos erros, 2 2 ( i ) = ( yi b1 xi )

( )
i

= y i2 2b1 xi y i + b12 xi2

como b1 uma constante, 2 ( i ) = yi2 2b1 xi yi + b12 xi2 Como o objetivo estimar uma equao que minimize os erros, devemos ento derivar a equao acima em relao a b1 e igualar a zero. E como no se tem os verdadeiros valores e sim uma amostra , ou seja o valor a ser determinado um estimador do verdadeiro valor populacional, a nova nomenclatura para b1 ser b1 . Com isso temos:
0 = xi y i + 2b1 xi2 2

Que pode ser reescrita como: xi y i b1 = xi2


E o estimador bo , pode ser calculado a partir de: bo = Y b1 X

Sendo que a equao de estimativa ser dada por:


Y = bo + b1 X

Prof. Cludio Serra, Esp.

Exemplo 1 Regresso Linear Simples


Em uma determinada regio do pas foram coletados os ndices pluviomtricos e a produo de leite do tipo c. SabendoProduo de Leite ndice se que existe uma previso para o Anos C (1.000.000 pluviomtrico prximo ano de um ndice litros) (mm) pluviomtrico de 24mm determine 1970 26 23 ento a produo de leite dessa regio. 1971 25 21 1972 31 28 1973 29 27 1974 27 23 1975 31 28 1976 32 27 1977 28 22 1978 30 26 1979 30 25

Resoluo

1970 1971 1972 1973 1974 1975 1976 1977 1978 1979
Soma Mdia

Y 26 25 31 29 27 31 32 28 30 30

X 23 21 28 27 23 28 27 22 26 25

y
-2.9 -3.9 2.1 0.1 -1.9 2.1 3.1 -0.9 1.1 1.1 0 0

x
-2 -4 3 2 -2 3 2 -3 1 0 0 0

y2
8.41 15.21 4.41 0.01 3.61 4.41 9.61 0.81 1.21 1.21 48.9 4.89

x2
4 16 9 4 4 9 4 9 1 0 60 6

xy
5.8 15.6 6.3 0.2 3.8 6.3 6.2 2.7 1.1 0 48 4.8

289 250 28.9 25

xi y i , assim b = 48 = 0.8 b1 = 1 xi2 60


e bo = Y b1 X , que bo = 28 ,9 0.8.25 = 8,9

Assim a equao pode ser escrita como:


Y = 8.9 + 0.8 X

Prof. Cludio Serra, Esp.

Mas ser que a equao do exemplo foi bem estimada, ou melhor, ser que ela representa bem a relao entre as variveis? Uma maneira de avaliar atravs da diferena entre os valores amostrais reais (Y) e os valores estimados ( Y ), essa diferena damos o nome de resduo. Continuando o exemplo,

Continuao do exemplo 1
1970 1971 1972 1973 1974 1975 1976 1977 1978 1979
Soma Mdia

Y 26 25 31 29 27 31 32 28 30 30
289 28.9

X 23 21 28 27 23 28 27 22 26 25
250 25

y
-2.9 -3.9 2.1 0.1 -1.9 2.1 3.1 -0.9 1.1 1.1 0 0

x
-2 -4 3 2 -2 3 2 -3 1 0 0 0

y2
8.41 15.21 4.41 0.01 3.61 4.41 9.61 0.81 1.21 1.21 48.9 4.89

x2
4 16 9 4 4 9 4 9 1 0 60 6

xy
5.8 15.6 6.3 0.2 3.8 6.3 6.2 2.7 1.1 0 48 4.8

Y
27.3 25.7 31.3 30.5 27.3 31.3 30.5 26.5 29.7 28.9 289 28.9

Y- Y
-1.3 -0.7 -0.3 -1.5 -0.3 -0.3 1.5 1.5 0.3 1.1 0 0

(Y- Y )2
1.69 0.49 0.09 2.25 0.09 0.09 2.25 2.25 0.09 1.21 11 1

Podemos perceber que as diferenas (Y- Y ) so relativamente pequenas. Uma anlise mais cuidadosa pode ser feita atravs da aplicao de testes estatsticos, nesse caso ANOVA (teste de varincia) e teste t-Student. Comearemos pela ANOVA, para tanto vamos precisar montar a tabela abaixo:

Tabela ANOVA
Soma dos Quadrados Graus de Liberdade (g.l.) Quadrados Mdios (QM)
2 2 SQE= b1 xi SQR= Y Y

Teste F

SQT=

Obs: O grau de liberdade em relao ao SQE devido a termos apenas uma varivel independente; Em relao a SQT, os graus devem ser iguais a varincia amostral, ou seja, n-1 (onde n o nmero da elementos da amostra); E o grau de liberdade para SQR seria dado pela diferena entre este, ou seja n-2.

1 n-2 n-1

SQE/g.l. SQR/g.l. SQE/g.l + SQR/g.l.

SQEmed/SQRmed

2 i

Onde, Soma dos quadrados dos totais de y centrado


SQT = y i2

Soma dos quadrados explicados 2 2 SQE = Yi 2 = b1 xi2 = b1 xi2

Prof. Cludio Serra, Esp.

Soma dos quadrados dos resduos


SQR = Y Y

Um outro parmetro utilizado constantemente o coeficiente de determinao, R 2, que explica percentualmente a relao entre as variveis do problema.
R2 = SQE SQT

Continuao do exemplo 1 - ANOVA


Tabela ANOVA
Soma dos Quadrados Graus de Liberdade (g.l.) Quadrados Mdios (QM) Teste F

SQE=38.4 SQR=11.0 SQT=49.4

1 8 7

38.4 1.38 7.06

27.83

Agora que j temos o valor de F, precisamos testar a hiptese nula que as varincias so diferentes, ou seja, Ho = 1 2 Adotaremos um nvel de significncia () de 5%. Com esse valor e os nmeros de graus de liberdade, acha-se na tabela um valor crtico de 5.32. Como o F calculado maior que o F crtico ento se rejeita a hiptese Ho, o que tambm quer dizer que as varincias so iguais, e conseqentemente o modelo de regresso vlido.

Prof. Cludio Serra, Esp.

Exemplo 2 Resoluo do Exemplo 1 via Excel Resoluo


A varivel dependente (Y) ser o ndice Produo de Leite x ndice pluviomtrico, sendo a produo de leite Pluviomtrico tipo c a varivel independente (X). 35 O grfico dos dados do exemplo 1 30 pode ser visto ao lado. Pelo grfico o 25 20 ajuste linear pode ser possvel, mas talvez 20 22 24 26 28 30 um ajuste polinomial seria mais indicado, mas de qualquer forma, ser testado um ajuste linear. Ser utilizada a ferramenta Regresso do software Excel, que pode ser acionado pelo seguinte caminho: Ferramenta Anlise de Dados Regresso. Em Intervalo Y de entrada: devemos selecionar na planilha o conjunto de clulas da varivel dependente. Por sua vez, em Intervalo X de entrada: devemos selecionar na planilha o conjunto de clulas da varivel independente. Nesta janela, tambm podemos selecionar as opes relativas aos resduos. Uma vez selecionado as clulas, basta clicar no boto de Ok que sero gerados os dados na planilha.

Para o exemplo em questo, podemos destacar das tabelas geradas, as seguintes informaes: Na estatstica padro: R-quadadro = 0.7852 Na Anova: gl total =9 F=29.25

Prof. Cludio Serra, Esp.

E por fim: Interseo 8.9 Varivel X1 0.8 Assim a equao do modelo poder ser escrita como:

Y = 8.9 + 0.8 X 1i
O resultado mostrado graficamente abaixo. Ento para um ndice de 24mm a produo de leite seria de 28.1 milhes de litros de leite. importante ressaltar que o ajuste no foi to bom, seria importante verificar um novo modelo.

Uma outra maneira de fazer essa anlise, porm sem as mesmas informaes seria utilizar o recurso de Adicionar Linha de Tendncia... No menu Grfico da barra de menu do Excel. Selecionado o modelo Linear, clicamos na aba Opes e marcamos as opes: Exibir equao no grfico e Exibir valor do R-quadrado no grfico.

No se esquea, para inserir uma Linha de tendncia o grfico deve estar selecionado previamente.
Produo de Leite x ndice Pluviomtrico y = 0.8x + 8.9
R2 = 0.7853 35 30 25 20 20 22 24 26 28 30

Prof. Cludio Serra, Esp.

Exemplo 2 Srie Temporal da Produo de Carne de Frango no Brasil (1989-2003)


De acordo com a Associao Brasileira de Exportadora dos Produtores e Exportadores de Frango, ABEF, a produo brasileira de carne de frango (em mil toneladas) para o mercado interno e externo no perodo de 1989 a 2003 dada pela tabela abaixo:
Ano 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 Mercado Interno 1,811 1,968 2,200 2,351 2,710 2,930 3,617 3,483 3,812 4,262 4,755 5,070 5,486 5,917 5,921 Exportao 244 299 322 372 433 481 429 569 649 612 771 907 1,249 1,600 1,922 Total 2,055 2,267 2,522 2,727 3,143 3,411 4,050 4,052 4,461 4,875 5,526 5,977 6,736 7,517 7,843

Fonte: ABEF - Associao Brasileira dos Produtores e Exportadores de Frangos (www.abef.com.br).

Resoluo
O primeiro passo para avaliar se os dados podem ser ajustados por um modelo linear plotar suas variveis em um grfico.
Prod.de carne de frango 10,000 8,000 6,000 4,000 2,000 0 5 10 15 20

Pelo grfico percebe-se uma tendncia que a relao entre a produo de carne de frango (varivel dependente, Y) e o tempo (varivel independente, X) seja

Prof. Cludio Serra, Esp.

dado por uma equao linear. Para determinar essa equao ser utilizado o software Excel. No Excel ser utilizada a ferramenta Regresso que um mdulo do Suplemento Anlise de Dados.

Acionando-se essa ferramenta, o passo seguinte ser preencher a caixa de dilogo da Regresso conforme os dados. Onde na opo Intervalo Y de Entrada dever ser colocado o valor da varivel dependente, e na opo Intervalo X de Entrada, dever ser colocado os valores da varivel independente.

Prof. Cludio Serra, Esp.

10

Aps o preenchimento das caixas de dilogo basta pressionar o boto de Ok, e o resultado aparecer em uma nova planilha. A figura abaixo mostra o resultado para o exemplo em questo.

Dessa planilha se destacam os seguintes valores: Na estatstica padro: R-quadadro = 0.9687 Na Anova: gl total =14 F=403.251 E por fim: Interseo 1146,99 Varivel X 416,30 Assim a equao do modelo poder ser escrita como:

Y = 1146,99 + 416,30 X 1i
Pode-se agora plotar os dados dos valores verdadeiros com os valores do modelo. Tambm se pode fazer prognstico para valores futuros. Por exemplo, para o ano de 2004 o modelo prev uma produo de 7.807 toneladas de carne de frango.
Regresso Linear
Prod.Carne e Frango

10000.00 8000.00 6000.00 4000.00 2000.00 0.00


1 3

13

11

Prof. Cludio Serra, Esp.

15

11

Uma outra maneira de fazer essa anlise, porm sem as mesmas informaes seria utilizar o recurso de Adicionar Linha de Tendncia... no Menu Grfico da barra de menu do Excel. Selecionado o modelo Linear, clica-se na aba Opes e marca-se as opes: Exibir equao no grfico e Exibir valor do R-quadrado no grfico.

No se esquea, para inserir uma Linha de tendncia o grfico deve estar selecionado previamente.
Produo brasileira de carne de frango milhes de toneladas
9 8 7 6 5 4 3 2 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 Fonte: ABEF (www.abef.com .br). Ano

y = 416.3x + 1147 R2 = 0.9688

Prof. Cludio Serra, Esp.

Milhes de toneladas

12

1.3 Regresso Linear Mltipla


Em algumas situaes mais do que uma varivel independente (X1,X2,...,Xn) pode ser necessria para predizer o valor da varivel independente (Y). O modelo matemtico para esse caso dado abaixo:
Yi = b0 + b1 X i + b2 X 2i + ... + bk X ki + i

Que para as n observaes poder se escrito da forma:


Y1 = b0 + b1 X 1 + b2 X 21 + ... + bk X k 1 + 1 Y2 = b0 + b1 X 2 + b2 X 22 + ... + bk X k 2 + 2

...

Yn = b0 + b1 X n + b2 X 2 n + ... + bk X kn + n

...

...

...

...

...

...

Que forma na realidade um sistema linear, que podermos escrever na forma de matriz como:

Prof. Cludio Serra, Esp.

13

Y1 1 X1 X2 Xk1 b1 1 Y 1 X X X b 2 2 2 k2 2 2 = .+ . . . . . . . . . Y 3 1 Xn X2n Xk bkn k


Que escrevendo ainda em outra em sua forma mais compacta temos: Y = bX + O estimador para b ser dado por:
1 b = ( X ' X ) ( X 'Y )

Pela equao acima, h necessidade que o produto XX, tenha uma matriz inversa, o que implica na condio obrigatria que nenhuma coluna da matriz X seja combinao linear das outras.

Prof. Cludio Serra, Esp.

14

Exemplo 3 Manuteno do caminho


Uma agroindstria quer saber o custo de manuteno de seus caminhes durante o corrente ano, para tanto foram coletadas informaes de quilometragem e tempo do caminho. A tabela abaixo nos mostra esses valores.

Custo de Quilometragem (x1000) Manuteno


832 73 647 553 Resoluo 467 373 Nesse caso ser feito diretamente anlise sem plotar o grfico. O procedimento no software Excel : Ferramenta Anlise de Dados Regresso. No campo 283 Intervalo X de Entrada deve ser preenchida com a faixa de valores das variveis 189 independentes, que nesse caso so a quilometragem e o tempo do caminho. 96
Da planilha de resultados se destacam os seguintes valores: Na estatstica padro: R-quadadro = 0.99 Erro padro: 2.106 Na Anova: gl total =8 F=56501.23 E por fim: Interseo 17.73 Varivel X1 4.06 e X2 98.507 Assim a equao do modelo poder ser escrita como:

6 7 9 11 13 15 17 18 19

Y = 17.73 + 4.06 X1i + 98.507 X 2i


Prof. Cludio Serra, Esp. 15

Assim para um caminho com 5 anos com quilometragem de 10.000 milhas, o custo de manuteno ser de $550.89.

1.4 Regresso No Linear


Nem sempre a relao entre a varivel independente (X) e a varivel dependente (Y) possui uma relao linear, em certos casos essa relao no-linear. A figura abaixo mostra algumas dessas formas. Nesses casos, pode-se atravs de mudanas de variveis resolver o problema utilizando basicamente as equaes j mencionadas nesse material. Para os interessados nesses procedimentos sugere-se a leitura das referncias indicadas no final do texto. Para efeito de demonstrao da Regresso-Linear ser utilizado o Excel atravs do seu recurso de Tendncia, todavia conforme j mencionado, esse no d informaes estatsticas sobre o ajuste.

Exemplo 4 Srie Temporal da Produo de Carne de Frango no Brasil (1989-2003)


De acordo com a Associao Brasileira de Exportadora dos Produtores e Exportadores de Frango, ABEF, a produo brasileira de carne de frango (em mil toneladas) para o mercado interno e externo no perodo de 1989 a 2003 dada pela tabela abaixo:

Prof. Cludio Serra, Esp.

16

Ano 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003

Mercado Interno 1,811 1,968 2,200 2,351 2,710 2,930 3,617 3,483 3,812 4,262 4,755 5,070 5,486 5,917 5,921

Exportao 244 299 322 372 433 481 429 569 649 612 771 907 1,249 1,600 1,922

Total 2,055 2,267 2,522 2,727 3,143 3,411 4,050 4,052 4,461 4,875 5,526 5,977 6,736 7,517 7,843

Fonte: ABEF - Associao Brasileira dos Produtores e Exportadores de Frangos (www.abef.com.br).

Resoluo
Nesse exemplo ser avaliada somente a produo para o mercado externo, o grfico que representa essa produo ao longo do ano pode ser visto logo abaixo.
Produo para o mercado interno de carne de frango
2,500 2,000 1,500 1,000 500 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Dados reais

Analisando o grfico acima, verificase que o ajuste linear talvez no seja o melhor modelo para representar esses dados. Assim, escolhe-se dentre os provveis o modelo polinomial de 3o grau.

Prof. Cludio Serra, Esp.

17

Alm disso, na aba Opes marca-se as caixas Exibir equao no grfico e Exibir valor de R-quadrado no grfico. Com isso feito o resultado pode ser visto na figura seguinte. Repare na qualidade do ajuste, o valor do coeficiente de determinao foi de 0.99.
Produo para o mercado interno de carne de frango
2,500 2,000 1,500 1,000 y = 1.5329x3 - 25.198x2 + 157.04x + 79.16 R2 = 0.9914 Dados reais Ajuste Polinomial

Assim, pode-se ento 500 estimar a produo para o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 mercado externo de carne de frango para 2004. O valor previsto por esse modelo d ordem de 2419.87, pelo site da ABEF (www.abef.com.br) verificou-se que essa associao previa 2115, e a exportao real em 2004 foi de 2470.

Prof. Cludio Serra, Esp.

18

Rebanho bovino brasileiro efetivo por estado


(Mil cabeas)
Regies Norte RO AC AM RR PA AP TO Nordeste MA PI CE RN PB PE AL SE Prof. Cludio Serra, Esp. BA 1990 13,317 1,719 400 637 6,182 70 4,309 26,190 3,900 1,974 2,621 956 1,345 1,966 891 1,030 11,505 1991 15,362 2,826 404 648 346 6,626 71 4,441 26,669 3,949 2,046 2,625 966 1,315 1,952 961 1,047 11,808 1992 15,847 2,774 409 640 349 6,990 62 4,624 26,912 3,931 2,029 2,602 930 1,320 1,923 959 1,058 12,160 1993 17,067 3,286 445 689 7,435 73 5,139 22,527 4,020 1,982 2,098 566 859 1,271 802 908 10,022 1994 17,966 3,470 465 747 286 7,539 86 5,374 22,825 4,102 2,054 2,186 646 975 1,349 822 815 9,877 1995 19,183 3,928 471 806 282 8,058 93 5,544 23,174 4,162 2,135 2,266 722 1,054 1,362 834 797 19 9,841

Você também pode gostar