Escolar Documentos
Profissional Documentos
Cultura Documentos
Regressão
Regressão
Foi j estudado a forma de descrever um conjunto de observaes de uma s varivel. Quando se consideram observaes de duas ou mais variveis surge um novo ponto. O estudo das relaes porventura existentes entre as variveis. A Anlise de regresso e correlao, compreende a anlise de dados amostrais para saber se e como as duas ou mais variveis esto relacionadas uma com a outra numa populao. A anlise de regresso estuda o relacionamento entre uma varivel chamada a varivel dependente e outras variveis chamadas variveis independentes. Este relacionamento representado por um modelo matemtico, i.e., por uma equao que associa a varivel dependente com as variveis independentes. Este modelo designado por modelo de regresso linear simples se define uma relao linear entre a varivel dependente e uma varivel independente. Se em vez de uma, forem incorporadas vrias variveis independentes, o modelo passa a denominar-se modelo de regresso linear mltipla. A anlise de correlao dedica-se a inferncias estatsticas das medidas de associao linear que se seguem: coeficiente de correlao simples: mede a fora ou grau de relacionamento linear entre duas variveis coeficiente de correlao mltiplo: mede a fora ou grau de relacionamento entre uma varivel dependente e um conjunto de outras variveis. As tcnicas de anlise de correlao e regresso esto intimamente ligadas.
S vamos falar de correlao e regresso linear simples, i.e., no caso de uma varivel dependente (Y) e uma varivel independente (X).
Exemplos: 1. Relao entre o peso e a altura de um homem adulto. A varivel dependente o peso e a varivel independente a altura. 2. A relao entre o preo do vinho e o montante da colheita em cada ano. Aqui a varivel dependente o preo do vinho e a varivel independente o montante da colheita.
Para estudar estas relaes recorre-se a uma amostra e utiliza-se a anlise de correlao e regresso simples. Note, que para os exemplos anteriores pode suceder que dois homens adultos tenham a mesma altura e pesos diferentes e vice-versa, no entanto em mdia quanto maior for a altura maior ser o peso; do mesmo modo a colheitas iguais podem corresponder preos diferentes e vice-versa, no entanto em mdia quanto maior for a colheita menor ser o preo do vinho. essa variao em mdia que vai ser estudada. A correlao (entre X e Y) positiva quando os fenmenos variam no mesmo sentido (primeiro caso apresentado no exemplo 1), a correlao (entre X e Y) negativa quando os fenmenos variam em sentido inverso (segundo caso apresentado no exemplo 1).
Diagramas de disperso
Os dados para a anlise de regresso e correlao provm de observaes de variveis emparelhadas, isto significa que cada observao origina dois valores, um para cada varivel, com estes valores constri-se o digrama de disperso.
v ariv e l Y
v ariv e l X
A regresso linear simples constitui uma tentativa de estabelecer uma equao matemtica linear (linha recta) que descreva o relacionamento entre duas variveis. Note-se que nem todas as situaes so bem aproximadas por uma equao linear. Atravs dos diagramas de disperso pode-se ver se uma relao linear parece razovel ou no. Recorrendo anlise do diagrama de disperso pode-se tambm concluir se o grau de correlao forte ou fraca, conforme o modo com se situem os pontos em redor de uma linha recta imaginria que passa
atravs de um enxame pontos. A correlao tanto maior quanto mais os pontos se concentram, com pequenos desvios, em relao a essa recta.
Determinao da Recta de Regresso Consideremos uma recta arbitrria, y=0+1x, desenhada no diagrama. A xi chamamos valor da varivel explicativa ou independente e imagem de xi pela recta y=0+1x chamamos valor predito, que denotamos por y i , yi o valor da varivel resposta ou dependente. A diferena entre yi e y i , i.e., d i = y i y i a distncia vertical do ponto linha recta. Se consideramos a soma dos quadrados dos desvios anteriores, i.e.,
D = d i2
i =1
obtemos uma medida do desvio total dos pontos observados recta estimada. A medida anterior depende da recta considerada, ou seja depende de 0 e 1. Assim, podemos escrever
D( 0 , 1 ) = d i2 = ( y i y i ) 2
i =1 i =1
ou ainda, D( 0 , 1 ) = d i2 = ( y i ( 0 + 1 x)) 2 .
i =1 i =1 n n
Pretendemos ento os valores de 0 e 1 que minimizem D(0, 1), i.e., pretendemos o valor mnimo de D(0, 1). Um modo de estimar os coeficientes 0 e 1 determinar o mnimo da funo D(0,1) em relao a 0 e 1 e resolver as equaes normais. Temos ento que:
D( 0 , 1 ) = d i2 = ( y i 0 1 x) 2
i =1 i =1 n n
donde
n D( 0 , 1 ) = 2( y i 0 1 x1 ) 0 i =1
n D( 0 , 1 ) = 2 xi ( y i 0 1 x1 ) 1 i =1
Os valores de b0 e b1 para os quais a funo D(0,1) apresenta um valor mnimo so obtidos igualando as equaes anteriores a zero, i.e., resolvendo as equaes normais. Assim,
n n n y i nb0 b1 xi = 0 2 ( y i 0 1 x1 ) = 0 i =1 i =1 i =1 n n n n 2 2 ( y x x x 2 ) = 0 y x b 0 x b1 x1 = 0 0 i 1 1 i i i i i ~ =1 i i =1 i =1 i =1 n n y i b1 xi i =1 b0 = i = 2 n n n n n x y b x x n n 2 i i 1 i i i =1 i =1 i =1 i =1 b1 xi = xi y i n i =1 i =1
(5.1)
__________ 2 n n n n 2 1 n x x = x y +1 x b1 i i i i n i yi n i =1 i =1 i =1 i =1 i =1
__________ n n n n xi y i xi y i i =1 i =1 b = i =1 2 1 n n n xi2 xi i =1 i =1
b0 =
y
i =1
b1 xi
i =1
e b1 =
n xi y i xi y i
i =1 i =1 i =1
n n x xi i =1 i =1
n 2 i
ou
n xi y i n 2 x y n x n x
i =1 2 i 2 i =1 n n
b0 = y b1 x e b1 =
,
2
so as solues dos sistema inicial sendo alm disso os valores de 0 e 1 que minimizam
D(0,1).
Este mtodo conhecido pelo mtodo dos mnimos quadrados, uma vez que estamos a minimizar uma funo quadrtica.
A melhor recta, no sentido dos mnimos quadrados, que melhor se ajusta aos dados do diagrama de disperso dada por: y=b0 + b1x.
Qualidade do ajustamento
Uma medida til associada recta de regresso, o grau com que as predies baseadas na equao de regresso, superam as predies baseadas em y . Isto , se as predies baseadas na recta no so melhores que as baseadas no valor mdio de Y ( y ), ento no adianta dispormos de uma equao de regresso. Para a observao yi a diferena em relao ao valor mdio y conhecida por desvio total e pode decompor-se numa soma de parcelas:
y) ( yi 242 = ( yi 242 y) 1 3 1 3 4 4
Desvio Total
)2 ( y4 yi3 1i 24
i =1 14243 4 4
O coeficiente de determinao R2 uma medida do poder explicativo do modelo utilizado. D a proporo da variao da varivel dependente, Y, que explicada em termos lineares pela varivel independente, X, i.e., a proporo da variao de Y explicada pelo modelo. variao explicada = variao total (y
n i
y) 2 y) 2
R2 =
(y
i =1
i =1 n
Na prtica, a y i + b xi y i ny 2
i =1 i =1 n n
R2 =
y
i =1
2 i
ny 2
Tem-se que 0R21 a proporo da variao de Y explicada pelo modelo no mximo 1 e no mnimo 0. Se R21 significa que grande parte da variao de Y explicada linearmente por X (modelo adequado).
Se R20 o modelo no adequado aos dados. 1- R2 a proporo de variao de Y no explicada pela varivel X, resultante de factores no includos no modelo.
O coeficiente de determinao pode ser utilizado como uma medida da qualidade do ajustamento ou como medida da qualidade de confiana depositada na equao de regresso como instrumento de preciso. A R = R 2 d-se o nome de coeficiente de correlao simples. uma medida do grau de associao linear entre as variveis X e Y.
Tendo-se que
-1R1 Se R>0 ento as duas variveis tendem a variar no mesmo sentido; em mdia uma aumento da varivel X provoca um aumento da varivel Y; Se R<0 ento as duas variveis tendem a variar em sentido negativo; em mdia um aumento da varivel X provoca uma diminuio da varivel Y; R=1 ou R=-1 indicam a existncia de uma relao linear perfeita entre X e Y, positiva ou negativa, respectivamente; R=0 indica a inexistncia de uma relao linear entre X e Y, podendo, no entanto, existir uma relao no linear entre elas.
Observaes: 1. Um modelo de regresso linear no d respostas exactas; assim, para um determinado valor de x da varivel X espera-se, em mdia, que y = b1 x + b0 ; 2. A estimao, ou previso, de uma varivel com base em valores conhecidos da outra deve ser cautelosa! No deve ser feita qualquer extrapolao dessa recta para valores fora do mbito dados. O perigo de extrapolar para fora do mbito dos dados amostrais que a mesma relao possa no mais se verificar. 3. A existncia de correlao nada diz sobre a natureza da relao causal que porventura exista entre as variveis. Ao interpretar um coeficiente de correlao deve ter-se presente, que uma valor elevado de R no significa que X seja causa de Y ou Y seja causa de X. A anlise de regresso apenas indica qual o relacionamento matemtico pode existir, se existir algum; a lgica de uma relao causal deve provir de teorias externas ao mbito da Estatstica.
Note-se que a n pontos observados teoricamente possvel ajustar uma infinidade de curvas. No estudo feito, apenas foi possvel abordar o modelo de regresso linear simples. No entanto, como j vimos, o modelo o modelo linear nem sempre o mais adequado; a representao grfica dos dados por vezes sugere que estes so melhor ajustados por outras curvas do que por uma recta. portanto necessrio, em primeiro lugar, fixar o modelo que melhor se adapta s observaes. Outros exemplos possveis, alm do modelo dado Y=b0+b1X: Y = b0 + b1 X + b2 X 2
Y = ab x , ....
Alm do tipo de curva, outro factor importante na anlise de regresso, o nmero de variveis envolvidas. Em muitos problemas prticos, em vez de ser considerada apenas uma varivel independente, do interesse estudar a relao entre uma varivel e um conjunto de variveis Anlise de Regresso Mltipla.
Y = b0 + b1 X 1 + b2 X 2 p + b3 X 3
Trata-se de uma anlise mais complexa e que ca fora do programa da disciplina.