Você está na página 1de 18

1 FACULDADE SO JUDAS TADEU CURSO CINCIAS CONTABEIS

ALUNOS: PAULO SERGIO DA ROSA FERNADO ILHA

ANALISE DE REGRESSO

PORTO ALEGRE, 30 DE MAIO 2012

2 Sumrio Introduo....03 1. Analise de Regresso...04 2. Regresso Linear Simples............................................................................06 3. Regresso Linear Mltipla...........................................................................09 4. Pressupostos na Analise de Regresso.........................................................13 5. Mtodos de seleo de variveis..................................................................15 6. Analise de dados recorrendo ao SPSS.........................................................16 7. Analise de dados recorrendo ao EVIEWS...................................................16 8. Concluso.....................................................................................................17 Referencias bibliogrficas................................................................................18

3 Introduo: A anlise de regresso pode ser utilizada para investigar e modelar o relacionamento existente entre as diversas variveis de um processo, sendo baseada na idia relativamente simples de se empregar uma equao para expressar o relacionamento entre estas variveis. Neste trabalho procuramos apresentar a anlise de regresso voltada para a pesquisa cientifica destacando sua importncia, utilizao, as regresses lineares simples e mltiplas, os pressupostos, os mtodos de seleo de variveis e a analise de dados recorrendo aos sistemas SPSS e EVIEWS.

4 1. Analise de Regresso Para a tomada de decises existe uma necessidade cada vez maior de se prever e descrever o comportamento de determinadas variveis (dados), ao estudar as relaes entre estas variaes o pesquisador conseguir resolver com agilidade e eficincia os problemas pertinentes a sua pesquisa cientifica. So utilizadas duas tcnicas neste estudo a REGRESSO e a CORRELAO que so basicamente implementadas para compreender a analise de dados amostrais e a partir deles obter informaes sobre a natureza deste relacionamento e se duas ou mais variveis so relacionadas. A analise de regresso utilizada com o propsito de previso nas reas de negcios empresariais e em pesquisas acadmicas. Ela busca descrever e determinar uma funo matemtica sobre o comportamento de determinada varivel chamada de dependente, tendo como base os valores de uma ou mais variveis independentes. A analise de correlao tem como objetivo mensurar o grau de relacionamento entre as variveis. O objetivo da analise de regresso a estimao de dados (valores) da varivel dependente que foi selecionada pelo pesquisador com base nos valores das variveis independentes (valores conhecidos) ou fixados por ele. De maneira geral a varivel dependente no pode ser controlada pelo pesquisador, por outro lado as independentes podem ser controladas, esta a premissa para a utilizao da regresso. A seguir seguem exemplos onde podem ser empregados quando se deseja utilizar a tcnica da analise de regresso: a) Estimar as vendas de veculos usados e novos (varivel dependente) a partir dos gastos com propaganda (varivel independente). b) Estabelecer relao entre as variaes na macroeconomia (cambio, taxa de juros, renda e etc.), e o resultado do exerccio de organizao (lucros ou prejuzos). c) Descobrir quais os dados do parecer da empresa de auditoria independente que impactaram no preo das aes da companhia. d) Estimar salrios de uma companhia a partir do tempo de casa, nmero de horas e assiduidade do funcionrio. Observao: Os exemplos apresentados acima envolvem uma varivel independe e outros mais de uma.

5 Quando a situao problema apresenta (prev) uma varivel dependente e uma nica independente denominada REGRESSO SIMPLES. Quando a situao problema apresenta (prev) uma varivel dependente e mais de uma independente denominada REGRESSO MULTIPLA. possvel se elaborar grficos com duas variveis, este grfico denominado diagrama de disperso, que permite analisar o comportamento destas variaes, a analise deste diagrama pode sugestionar a relao funcional entre as duas variveis, onde se pode ser exemplificado em uma reta, uma curva exponencial dentre outras. Segue grfico que tem forma linear onde a relao sugerida entre as variveis Y e X:
700

.
600

. .

. .

500

. . . .

. .

Y
400

. . . . . . . .

. .
300

. . .

. . .

. .

200

100 2 4 6 8 10 12 14 16

X
Grfico: Diagrama de disperso com reta linear.

Importante: Quando a relao funcional entre as variveis linear surge regresso linear. A analise multivariada que permite analisar a relao existente entre uma nica varivel dependente e duas ou mais independentes e fazer projees a partir desta descoberta podemos chamar de regresso linear mltipla.

6 A equao ou modelo de regresso a combinao linear de variveis independentes usados coletivamente para prover a varivel dependente. Uma generalizao seria a regresso linear mltipla, cujo modelo estatstico dado por: Y= + X + 2 X2 + ..........+n + Xn + Onde, Y: varivel dependente, X1, X2......Xn: So as variveis independentes. , , 2.......n: So os parmetros de regresso. : o termo que representa o resduo ou erro da regresso. O termo o coeficiente linear, representa o valor da interseco da reta de regresso com o eixo Y quando X igual a zero. Os termos , 2, n so os chamados coeficientes angulares. Os modelos de regresso apresentam os seguintes pressupostos bsicos: a) Y a varivel aleatria b) A esperana matemtica dos resduos nula, ou seja a mdia dos resduos nula. c) A varincia de (termos de erro) constante e igual a (condio de homoscedasticidade dos resduos). d) Os resduos so independes entre si. e) Os resduos tm distribuio normal.

2. Regresso Linear Simples Constitui uma tentativa de estabelecer uma equao matemtica linear (linha reta) que descreva o relacionamento entre duas variveis. Da mesma forma como usamos a mdia para resumir uma varivel aleatria, a reta de regresso usada para resumir a estimativa linear entre duas variveis aleatrias (Lapponi, 1997, p.344). Existem formas diversas de utilizao de equaes de regresso: a) Estimar valores de uma varivel, com base em valores conhecidos da outra.

7 b) Em situaes em que as duas variveis medem aproximadamente a mesma coisa, mas uma delas relativamente dispendiosa, ou difcil de lidar, enquanto que a outra no. c) Explicar valores de uma varivel em termos da outra, ou seja, confirmar uma relao de causa e efeito entre duas variveis. d) Predizer valores futuros de uma varivel. Ex: Aplicar testes para avaliar o sucesso de um ingressante na escola ou no emprego. 2.2. A Equao Linear (a reta de regresso) Principais caractersticas: 1) O coeficiente angular da reta dado pela tangente da reta e se denomina b. 2) A cota da reta em determinado ponto o coeficiente linear denominado a, que o valor de Y quando X=0. Frmula: Y = a + bX Nesse modelo se verifica que: (Lapponi, p. 345) 1) 2) 3) 4) Para um valor Xi podem existir um ou mais valores de Yi amostrados. Para esse mesmo valor Xi se ter apenas um valor projetado Yi . Para cada valor de Xi existir um desvio di (ou erro ei) dos valores de Yi . Sempre teremos observaes que no so pontos da reta.

2.3 Determinao de equao matemtica Na regresso, os valores y so preditos com base em valores dados ou conhecidos de x. A varivel y chamada varivel dependente, e a varivel x, varivel independente. Que critrio devemos aplicar para obter os valores dos coeficientes a e b? Existem 2 critrios (Lapponi, p.345):
1)

Ajustar um reta horizontal de valor igual mdia dos valores de y, isto , Y , Ajustar uma reta que divida os pontos observados de forma que a soma dos

pois a mdia uma reta de regresso com b = 0.


2)

desvios seja nula. No entanto, a simples soma dos desvios leva compensao dos desvios positivos e negativos, como j se viu no clculo da varincia. 2.4 O mtodo dos mnimos quadrados

8 O critrio encontrar os coeficientes a e b da reta de regresso que minimizem a soma dos quadrados dos desvios. (Lapponi, p. 346) Caractersticas importantes: 1) 2) A soma dos desvios verticais dos pontos em relao reta zero. A soma dos quadrados desses desvios mnima (isto , nenhuma outra reta

daria menor soma de quadrados de tais desvios). Simbolicamente, o valor que minimizado :

d
Onde: yi = valor observado de y

= ( yi yc )

yc = o valor calculado de y utilizando-se a equao de mnimos quadrados com o valor de x correspondente a yi. Os coeficientes so calculados pelas frmulas abaixo. Tendo presente que Cov(x,y) = rxy x y, o coeficiente b ser igual a estas quatro frmulas possveis: Fatos importantes da equao de regresso: 1) 2) 3) Trata-se de uma mdia Seria muito arriscado extrapolar essa equao para fora do mbito dos dados A reta de regresso tem a interessante propriedade de passar sempre pelo

ponto (x, y).


n( xy ( ) x)=(y n( ) x ) x (
2

b=

)
2

Cov (x y , = = Var (x )

rxy X Y r 2

Y xy X

a=

y b x = Y bX
n

9 Uma vantagem adicional destas vrias formas de clculo que com os mesmos dados possvel calcular as duas possveis retas de regresso linear, permutando as variveis de dependente (Y) para independente (X) e vice-versa, tendo presente que: 1)
2)

O valor do coeficiente b obtido como resultado da diviso da covarincia O valor do coeficiente a obtido como resultado da subtrao da mdia da

das duas variveis aleatrias pela varincia da varivel independente. varivel dependente menos o produto do coeficiente b pela mdia da varivel independente. 3) Isto poder indicar o sentido da relao causa-efeito ou explanatria. Minimizar a soma dos quadrados dos desvios no garante que se tenha obtido a melhor reta ajustada, apenas uma propriedade desejada de ajuste de reta. (Lapponi, p. 346) O mtodo de ajuste dos mnimos quadrados prefervel por que: 1) 2) 3) 4) Obtm as melhores estimaes, isto , as estimativas no tero Oneram os desvios maiores, fato desejvel que evita grandes desvios. Permite realizar testes de significncia na equao de regresso. A reta de regresso passa pelo ponto formado pelos valores das mdias das tendenciosidade.

duas sries de observaes.

3. Regresso linear mltipla A regresso mltipla envolve trs ou mais variveis, portanto, estimadores. Ou seja, ainda uma nica varivel dependente, porm duas ou mais variveis independentes (explanatrias). A finalidade das variveis independentes adicionais melhorar a capacidade de predio em confronto com a regresso linear simples. Isto , reduzir o coeficiente do intercepto, o qual, em regresso, significa a parte da varivel dependente explicada por outras variveis, que no a considerada no modelo. Mesmo quando estamos interessados no efeito de apenas uma das variveis, aconselhvel incluir as outras capazes de afetar Y, efetuando uma anlise de regresso mltipla, por 2 razes:

10 a) Para reduzir os resduos estocsticos. Reduzindo-se a varincia residual (ERRO PADRO DA ESTIMATIVA), aumenta a fora dos testes de significncia; b) Para eliminar a tendenciosidade que poderia resultar se simplesmente ignorssemos uma varivel que afeta Y substancialmente. Uma estimativa tendenciosa quando, por exemplo, numa pesquisa em que se deseja investigar a relao entre a aplicao de fertilizante e o volume de safra, atribumos erroneamente ao fertilizante os efeitos do fertilizante mais a precipitao pluviomtrica. O ideal obter o mais alto relacionamento explanatrio com o mnimo de variveis independentes, sobretudo em virtude do custo na obteno de dados para muitas variveis e tambm pela necessidade de observaes adicionais para compensar a perda de graus de liberdade decorrente da introduo de mais variveis independentes. 3.1 Modelo matemtico A equao da regresso mltipla tem a forma seguinte: Yc = a + b1x1 + b2x2 + ... + bkxk, onde: a = intercepto do eixo y; bi = coeficiente angular da i-sima varivel; k = nmero de variveis independentes.

ou, como define WONNACOTT (1981, p. 326): Yi = + xi + zi + ei

interpretado geometricamente como o coeficiente angular do plano, na medida em que nos deslocamos na direo do eixo dos Xs, mantendo Z constante: , assim, o feito marginal da varivel X sobre Y. o coeficiente do plano na medida em que nos movemos na direo do eixo dos Zs, mantendo X constante: , assim, o efeito marginal da varivel Z sobre Y. Enquanto uma regresso simples de duas variveis resulta na equao de uma reta, um problema de trs variveis implica num plano, e um problema de k variveis implica em um hiperplano.

11 Tambm na regresso mltipla, as estimativas dos mnimos quadrados so obtidas pela escolha dos estimadores que minimizam a soma dos quadrados dos desvios entre os valores observados Yi e os valores ajustados Yc. 3.2 Comparao entre regresso simples e mltipla Suponha uma investigao sobre os benefcios de um sistema de irrigao em determinada regio. Ao considerar-se uma regresso simples para se estimar o volume da safra (Y) em funo dos ndices pluviomtricos (r) de vrios anos, encontrou-se a seguinte equao: Y = 60 1,67r Erro padro do coeficiente b = 4,0 O coeficiente negativo estaria indicando que a chuva (ndice pluviomtrico) reduz a safra, sugerindo que h algo errado. Ao acrescentar-se a varivel temperatura (t), efetuou-se uma regresso mltipla representada pela equao: Y = 60 + 5,71r + 2,95t Erro padro dos coeficientes: b1 = 2,68 e b2 = 0,69 A precipitao pluviomtrica tem, de fato, o efeito esperado de aumentar a safra, os outros fatores permanecendo iguais (isto , quando a temperatura constante). Enquanto a regresso mltipla enfatiza e isola a relao direta e a regresso simples no o faz; ao invs disso, o coeficiente de regresso simples reflete os efeitos tanto diretos como indiretos (em nosso exemplo, o efeito direto positivo da precipitao pluviomtrica sobre a safra, e seu efeito negativo indireto o aumento do ndice pluviomtrico leva reduo da temperatura, que provoca uma reduo na safra). 3.3 Variveis binrias (0-1) 3.3.1. Incluso de Variveis Binrias Imagine uma investigao sobre a relao entre a aquisio de ttulos do governo (B) e a renda nacional (Y). Observaes anuais realizadas mostram que a relao dos ttulos em funo da renda acusa dois padres distintos um para o tempo de guerra e outro para o tempo de paz. A relao normal de B para Y (reta inferior) est sujeita a uma mudana para cima (reta superior) durante o perodo de guerra (ver figura abaixo). Dessa forma, B deve ser relacionado com Y e com outra varivel a guerra (W).

12

Yc = a + b1.X + b2.D Se D = 0: Yc = a + b1.X Se D = 1: Yc = (a+b2) + b1.X

Y W no representa uma srie completa de valores, mas apenas dois: fixamos em 1 o seu valor para todo o perodo de guerra e em 0 para os anos de paz (W uma varivel do tipo 0-1 ou varivel muda ou ainda varivel DUMMY ou binria). E(B) = 0 + Y + W Onde: W = 0, para os anos de paz W = 1, para os anos de guerra E(B) = 0 + Y E(B) = 0 + Y +

3.3.2. Tendenciosidade Causada pela Excluso da Varivel Muda Pela anlise da figura, pode-se observar que o fato de ignorarmos uma varivel favorece a tendenciosidade e aumenta a varincia residual. Se deixarmos de calcular a regresso mltipla, incluindo a varivel muda guerra, e calcularmos erroneamente a regresso simples de B sobre Y, ela acusar coeficiente angular demasiadamente grande, provocando uma tendenciosidade para cima, causada pelo fato de os anos de guerra acusarem ligeira tendncia para serem anos de renda elevada. Assim, as vendas mais altas de ttulos, que deveriam ser atribudas em parte poca de guerra, seriam erroneamente atribudas renda somente. 3.4 Quantos regressores devem ser repetidos?

13 Somente a teoria estatstica clssica no nos proporciona orientao absolutamente firme para aceitar H0: a aceitao deve basear-se tambm em julgamento extra-estatstico. Assim, se existe uma crena a priori de que a varivel ndice pluviomtrico, por exemplo, afeta o nvel de colheita, esta varivel deve ser mantida, mesmo que o teste confirmasse fracamente a hiptese H0 de que no haveria influncia. S se for igual a zero ou negativo que os resultados estatsticos contradizem nossa crena a priori, A crena a priori desempenha papel chave, no s na especificao inicial de quais regressores devem permanecer na equao, mas tambm na deciso sobre que regressores devem ser abandonados luz da evidncia estatstica, assim como na deciso sobre como o modelo eventualmente ser utilizado. Isso levou alguns estatsticos a sugerirem o nvel de 1% para variveis duvidosas, mantendo o nvel de 5% para as outras variveis que j se esperava afetarem Y. 3.5. Regresso e analise da varincia (ANOVA) H trs casos principais de aplicao da regresso mltipla: a) Regresso padro: a regresso somente sobre valores numricos. b) Anlise da varincia (ANOVA): equivale somente regresso sobre variveis mudas. c) Anlise da covarincia (ANOCOVA): a regresso sobre variveis mudas e variveis numricas. Em resumo, a regresso padro o instrumento mais poderoso quando a varivel independente, X, numrica. J a anlise da varincia adequada quando a varivel independente um conjunto de categorias no-ordenadas. 4. Pressupostos na analise de regresso A seguir apresentaremos os pressupostos requeridos para analise de regresso, a aplicao apropriada de um procedimento estatstico depende do cumprimento desse conjunto de pressupostos. a) Normalidade dos resduos b) Homoscedasticidade dos resduos c) Linearidade dos coeficientes d) Ausncia de autocorrelao serial nos resduos e) Multicolinariedade entre as variveis independentes

14

a) Normalidade dos resduos: O conjunto dos resduos produzidos em todo o intervalo das observaes deve apresentar a distribuio normal (normalidades dos resduos), indicando, assim, que os casos amostrados se dispem normalmente em toda a extenso da populao. b) Homoscedasticidade dos resduos: O conjunto de resduos referentes a cada observao de X deve ter varincia constante ou homognea em toda a extenso das variveis independentes, isto a disperso de Y em relao s observaes de X deve manter consistncia ou ser constante em todas as dimenses desta varivel, esta caracterstica pode ser definida como homoscedasticidade, ou seja, disperso homognea das ocorrncias de Y em relao a cada observao de X. c) Linearidade dos coeficientes: Representa o grau em que a variao na varivel dependente associada com a varivel independente de forma estritamente linear. A variao da varivel explicada se dar em proporo direta com a variao da varivel explanatria. De outra maneira a relao acima pode ser representada matematicamente por uma funo de primeiro grau. d) Ausncia de autocorrelao serial nos resduos: Pressupe que a correlao entre os resduos, ao longo do espectro das variveis independentes, zero. Isto implica em que o efeito de uma observao de dada varivel X nulo sobre as observaes seguintes. e) Multicolinariedade entre as variveis independentes: Na Regresso Simples: Quando os valores de X acusam pequena (ou nenhuma) variao, o efeito de X sobre Y j no pode ser sensivelmente investigado. Mas se o problema predizer Y ao invs de investigar a dependncia de Y em relao a X a concentrao dos valores de X a que no ter mesmo influncia, desde que limitemos nossa predio a este mesmo pequeno intervalo de valores de X. Nestes casos, nosso melhor ajustamento para Y no ser uma reta, mas antes um ponto (X, Y). Na Regresso Linear Mltipla: O melhor ajustamento para Y, neste mesmo contexto, no um plano, mas sim uma reta. Quando duas variveis independentes X e Z so colineares, ou quase colineares (isto , altamente

15 correlacionadas), temos o problema da multicolinearidade (no caso de 2 variveis, apenas colinearidade).

5. Mtodos de seleo de variveis Ser tratado a seguir os trs mtodos utilizados para a escolha da variveis e seu uso mais freqente, pois na maioria das pesquisas , existe um grande nmero de variveis independentes disponveis que podem ser escolhidas para a incluso na equao de regresso. a) Especificao confirmatria b) Abordagem combinatria c) Mtodos de busca seqencial

a) Especificao confirmatria: O conjunto de variveis completamente especificado pelo pesquisador, ele tem o poder absoluto sobre a equao que resultar de sua seleo e fica responsvel pelo lanamento das variveis de acordo com sua vontade, especificao ou necessidade. b) Abordagem combinatria: Nesse mtodo, todas as possveis combinaes de variveis independentes so examinadas, e aquela varivel estatstica mais preditiva identificada, na verdade utilizada a metodologia da tentativa e erro, com busca generalizada por todas as possveis combinaes de variveis, um mtodo bastante trabalhoso, s com ajuda de computadores os procedimentos se tornam viveis. c) Mtodos de busca seqencial: Estimam a varivel estatstica primeiramente com um conjunto de variveis independentes e, a partir dele, acrescentam ou eliminam variveis at alcanar a melhor medida dentro do critrio utilizado. c.1 Adio de forward e eliminao de backward: So processo de tentativa e erro. c.2 Estimao de stepwise: Chamado por etapas passo a passo, possibilita examinar a contribuio adicional de cada varivel independente ao modelo, pois cada varivel considerada incluso antes do desenvolvimento da equao.

16

6. Analise de dados recorrendo ao SPSS

O SPSS um software apropriado para a elaborao de anlises estatsticas de matrizes de dados. O seu uso permite gerar relatrios tabulados, grficos e disperses de distribuies utilizadas na realizao de anlises descritivas e de correlao entre variveis. Os principais tpicos que so utilizados na analise de dados so:

Manipulao de Arquivos de Dados abrir e guardar matrizes de dados; Edio de Dados Criar e editar matrizes de dados; Transformao de Dados recodificar variveis e criar novas variveis a partir de clculos com as variveis j existentes;

Seleo de Casos seleo de casos para realizao da anlise; Anlise Descritiva dos Dados tabelas de freqncia, medidas de tendncia central e disperso;

Anlise de Correlao entre Variveis testa a independncia entre variveis e a intensidade da correlao entre elas.

7. Analise de dados recorrendo ao EVIEWS

Assim como o SPSS o EVIEWS um software estatstico a principal sua principal vantagem a liberdade de trabalho que ele proporciona ao pesquisador, no se prendendo a mtodos de seleo de variveis, a outra vantagem sua facilidade de operacionalizao e deixa o pesquisador mais vontade nas suas estimaes, cabe ressaltar que o software no o astro principal ele dever servir apenas como coadjuvante do pesquisador.

Concluso: Entendemos que ao a utilizarmos um mtodo de analise de regresso voltado para a pesquisa cientifica deve-se dar importncia ao o que realmente interessa, ou seja, o pesquisador deve dominar ou pelo menos ter conhecimento do tema escolhido.

17 O acesso a tcnicas avanadas no se justifica se o pesquisador no utilizar a analise de regresso de forma correta, o objetivo principal atender os propsitos da pesquisa e suas necessidades. Importante lembrar que mesmo com conhecimentos variados disponveis em diversos softwares existentes no mercado o que realmente faz a diferena a interpretao dos resultados, ela fundamental para que o trabalho no caia em lugar comum, ou seja, saber o real motivo dos levantamentos e para que a pesquisa esta sendo efetuada.

Referncias Bibliogrficas:

CORRAR, Luiz J. e PAULO, Edilson e FILHO, Jos Maria Dias. Analise Multivariada. So Paulo: Atlas, 2009.

18

REGRESSO LINEAR SIMPLES - Erudito www.erudito.fea.usp.br/.../REGRESSO%20LINEAR%20SIMPLES-... Pgina visitada em 27/05/12. ANLISE DE DADOS RECORRENDO AO SPSS 11.5 ... docentes.ismt.pt/~m_pocinho/manual_SPSS.pdf Pgina visitada em 27/05/12. REGRESSO LINEAR MLTIPLA - Erudito www.erudito.fea.usp.br/.../445/.../Regresso%20Mltipla_Dummy.do... Pgina visitada em 27/05/12.

Você também pode gostar