Você está na página 1de 7

Anlise de Regresso e Correlao

Foi j estudado a forma de descrever um conjunto de observaes de uma s varivel. Quando se consideram observaes de duas ou mais variveis surge um novo ponto. O estudo das relaes porventura existentes entre as variveis. A Anlise de regresso e correlao, compreende a anlise de dados amostrais para saber se e como as duas ou mais variveis esto relacionadas uma com a outra numa populao. A anlise de regresso estuda o relacionamento entre uma varivel chamada a varivel dependente e outras variveis chamadas variveis independentes. Este relacionamento representado por um modelo matemtico, i.e., por uma equao que associa a varivel dependente com as variveis independentes. Este modelo designado por modelo de regresso linear simples se define uma relao linear entre a varivel dependente e uma varivel independente. Se em vez de uma, forem incorporadas vrias variveis independentes, o modelo passa a denominar-se modelo de regresso linear mltipla. A anlise de correlao dedica-se a inferncias estatsticas das medidas de associao linear que se seguem: coeficiente de correlao simples: mede a fora ou grau de relacionamento linear entre duas variveis coeficiente de correlao mltiplo: mede a fora ou grau de relacionamento entre uma varivel dependente e um conjunto de outras variveis. As tcnicas de anlise de correlao e regresso esto intimamente ligadas.

Correlao e Regresso Simples

S vamos falar de correlao e regresso linear simples, i.e., no caso de uma varivel dependente (Y) e uma varivel independente (X).

Exemplos: 1. Relao entre o peso e a altura de um homem adulto. A varivel dependente o peso e a varivel independente a altura. 2. A relao entre o preo do vinho e o montante da colheita em cada ano. Aqui a varivel dependente o preo do vinho e a varivel independente o montante da colheita.

Para estudar estas relaes recorre-se a uma amostra e utiliza-se a anlise de correlao e regresso simples. Note, que para os exemplos anteriores pode suceder que dois homens adultos tenham a mesma altura e pesos diferentes e vice-versa, no entanto em mdia quanto maior for a altura maior ser o peso; do mesmo modo a colheitas iguais podem corresponder preos diferentes e vice-versa, no entanto em mdia quanto maior for a colheita menor ser o preo do vinho. essa variao em mdia que vai ser estudada. A correlao (entre X e Y) positiva quando os fenmenos variam no mesmo sentido (primeiro caso apresentado no exemplo 1), a correlao (entre X e Y) negativa quando os fenmenos variam em sentido inverso (segundo caso apresentado no exemplo 1).

Diagramas de disperso

Os dados para a anlise de regresso e correlao provm de observaes de variveis emparelhadas, isto significa que cada observao origina dois valores, um para cada varivel, com estes valores constri-se o digrama de disperso.

v ariv e l Y

v ariv e l X

A regresso linear simples constitui uma tentativa de estabelecer uma equao matemtica linear (linha recta) que descreva o relacionamento entre duas variveis. Note-se que nem todas as situaes so bem aproximadas por uma equao linear. Atravs dos diagramas de disperso pode-se ver se uma relao linear parece razovel ou no. Recorrendo anlise do diagrama de disperso pode-se tambm concluir se o grau de correlao forte ou fraca, conforme o modo com se situem os pontos em redor de uma linha recta imaginria que passa

atravs de um enxame pontos. A correlao tanto maior quanto mais os pontos se concentram, com pequenos desvios, em relao a essa recta.

Determinao da Recta de Regresso Consideremos uma recta arbitrria, y=0+1x, desenhada no diagrama. A xi chamamos valor da varivel explicativa ou independente e imagem de xi pela recta y=0+1x chamamos valor predito, que denotamos por y i , yi o valor da varivel resposta ou dependente. A diferena entre yi e y i , i.e., d i = y i y i a distncia vertical do ponto linha recta. Se consideramos a soma dos quadrados dos desvios anteriores, i.e.,

D = d i2
i =1

obtemos uma medida do desvio total dos pontos observados recta estimada. A medida anterior depende da recta considerada, ou seja depende de 0 e 1. Assim, podemos escrever

D( 0 , 1 ) = d i2 = ( y i y i ) 2
i =1 i =1

ou ainda, D( 0 , 1 ) = d i2 = ( y i ( 0 + 1 x)) 2 .
i =1 i =1 n n

Pretendemos ento os valores de 0 e 1 que minimizem D(0, 1), i.e., pretendemos o valor mnimo de D(0, 1). Um modo de estimar os coeficientes 0 e 1 determinar o mnimo da funo D(0,1) em relao a 0 e 1 e resolver as equaes normais. Temos ento que:
D( 0 , 1 ) = d i2 = ( y i 0 1 x) 2
i =1 i =1 n n

donde
n D( 0 , 1 ) = 2( y i 0 1 x1 ) 0 i =1
n D( 0 , 1 ) = 2 xi ( y i 0 1 x1 ) 1 i =1

Os valores de b0 e b1 para os quais a funo D(0,1) apresenta um valor mnimo so obtidos igualando as equaes anteriores a zero, i.e., resolvendo as equaes normais. Assim,
n n n y i nb0 b1 xi = 0 2 ( y i 0 1 x1 ) = 0 i =1 i =1 i =1 n n n n 2 2 ( y x x x 2 ) = 0 y x b 0 x b1 x1 = 0 0 i 1 1 i i i i i ~ =1 i i =1 i =1 i =1 n n y i b1 xi i =1 b0 = i = 2 n n n n n x y b x x n n 2 i i 1 i i i =1 i =1 i =1 i =1 b1 xi = xi y i n i =1 i =1

(5.1)

__________ 2 n n n n 2 1 n x x = x y +1 x b1 i i i i n i yi n i =1 i =1 i =1 i =1 i =1

__________ n n n n xi y i xi y i i =1 i =1 b = i =1 2 1 n n n xi2 xi i =1 i =1

Temos ento que

b0 =

y
i =1

b1 xi
i =1

e b1 =

n xi y i xi y i
i =1 i =1 i =1

n n x xi i =1 i =1
n 2 i

ou
n xi y i n 2 x y n x n x
i =1 2 i 2 i =1 n n

b0 = y b1 x e b1 =

,
2

so as solues dos sistema inicial sendo alm disso os valores de 0 e 1 que minimizam
D(0,1).

Este mtodo conhecido pelo mtodo dos mnimos quadrados, uma vez que estamos a minimizar uma funo quadrtica.

A melhor recta, no sentido dos mnimos quadrados, que melhor se ajusta aos dados do diagrama de disperso dada por: y=b0 + b1x.

Qualidade do ajustamento

Uma medida til associada recta de regresso, o grau com que as predies baseadas na equao de regresso, superam as predies baseadas em y . Isto , se as predies baseadas na recta no so melhores que as baseadas no valor mdio de Y ( y ), ento no adianta dispormos de uma equao de regresso. Para a observao yi a diferena em relao ao valor mdio y conhecida por desvio total e pode decompor-se numa soma de parcelas:
y) ( yi 242 = ( yi 242 y) 1 3 1 3 4 4
Desvio Total

Desvio exp licado pelo modelo

Desvio no exp licado ou resduo

)2 ( y4 yi3 1i 24

Considerando todas as observaes (xi, yi), i01,...,n, obtemos a variao total:


2 2 2 ( yi y ) = ( yi y ) + ( yi yi ) i =1 14243 Variao Total Variao exp licado pelo modelo i =1 14243 n n n

Variao no exp licado

i =1 14243 4 4

O coeficiente de determinao R2 uma medida do poder explicativo do modelo utilizado. D a proporo da variao da varivel dependente, Y, que explicada em termos lineares pela varivel independente, X, i.e., a proporo da variao de Y explicada pelo modelo. variao explicada = variao total (y
n i

y) 2 y) 2

R2 =

(y
i =1

i =1 n

Na prtica, a y i + b xi y i ny 2
i =1 i =1 n n

R2 =

y
i =1

2 i

ny 2

Tem-se que 0R21 a proporo da variao de Y explicada pelo modelo no mximo 1 e no mnimo 0. Se R21 significa que grande parte da variao de Y explicada linearmente por X (modelo adequado).

Se R20 o modelo no adequado aos dados. 1- R2 a proporo de variao de Y no explicada pela varivel X, resultante de factores no includos no modelo.

O coeficiente de determinao pode ser utilizado como uma medida da qualidade do ajustamento ou como medida da qualidade de confiana depositada na equao de regresso como instrumento de preciso. A R = R 2 d-se o nome de coeficiente de correlao simples. uma medida do grau de associao linear entre as variveis X e Y.

Tendo-se que

-1R1 Se R>0 ento as duas variveis tendem a variar no mesmo sentido; em mdia uma aumento da varivel X provoca um aumento da varivel Y; Se R<0 ento as duas variveis tendem a variar em sentido negativo; em mdia um aumento da varivel X provoca uma diminuio da varivel Y; R=1 ou R=-1 indicam a existncia de uma relao linear perfeita entre X e Y, positiva ou negativa, respectivamente; R=0 indica a inexistncia de uma relao linear entre X e Y, podendo, no entanto, existir uma relao no linear entre elas.

Observaes: 1. Um modelo de regresso linear no d respostas exactas; assim, para um determinado valor de x da varivel X espera-se, em mdia, que y = b1 x + b0 ; 2. A estimao, ou previso, de uma varivel com base em valores conhecidos da outra deve ser cautelosa! No deve ser feita qualquer extrapolao dessa recta para valores fora do mbito dados. O perigo de extrapolar para fora do mbito dos dados amostrais que a mesma relao possa no mais se verificar. 3. A existncia de correlao nada diz sobre a natureza da relao causal que porventura exista entre as variveis. Ao interpretar um coeficiente de correlao deve ter-se presente, que uma valor elevado de R no significa que X seja causa de Y ou Y seja causa de X. A anlise de regresso apenas indica qual o relacionamento matemtico pode existir, se existir algum; a lgica de uma relao causal deve provir de teorias externas ao mbito da Estatstica.

Note-se que a n pontos observados teoricamente possvel ajustar uma infinidade de curvas. No estudo feito, apenas foi possvel abordar o modelo de regresso linear simples. No entanto, como j vimos, o modelo o modelo linear nem sempre o mais adequado; a representao grfica dos dados por vezes sugere que estes so melhor ajustados por outras curvas do que por uma recta. portanto necessrio, em primeiro lugar, fixar o modelo que melhor se adapta s observaes. Outros exemplos possveis, alm do modelo dado Y=b0+b1X: Y = b0 + b1 X + b2 X 2

Y = ab x , ....

Alm do tipo de curva, outro factor importante na anlise de regresso, o nmero de variveis envolvidas. Em muitos problemas prticos, em vez de ser considerada apenas uma varivel independente, do interesse estudar a relao entre uma varivel e um conjunto de variveis Anlise de Regresso Mltipla.

Y = b0 + b1 X 1 + b2 X 2 p + b3 X 3
Trata-se de uma anlise mais complexa e que ca fora do programa da disciplina.

Você também pode gostar