Você está na página 1de 52

CORRELAO E REGRESSO

Permite avaliar se existe relao entre o comportamento de duas ou mais variveis e em que medida se d tal interao.

Grfico de Disperso
A relao entre duas variveis pode ser analisada atravs de um grfico de disperso. A reta de tendncia plotada a partir da distribuio dos pares x,y pode indicar correlao linear positiva, negativa ou inexistncia de correlao.

CORRELAO LINEAR
40 30 20 c 10 0 0 2 4 6 8 10

Quando duas variveis (x e y) so dispostas em um diagrama de disperso e seus pares se localizam prximos a uma reta, chama-se tal relao de linear. OBS: Este grfico tambm til para identificar a existncia de valores aberrantes.

Coeficiente de Correlao de Pearson


O coeficiente de correlao de Pearson pode ser visto como a razo entre a covarincia de duas variveis pelo produto dos desvios-padro de cada uma delas A covarincia a soma do produto das diferenas entre a varivel x1 e a sua mdia na distribuio xm (ou seja, x), pela diferena entre a varivel y1 e a sua mdia na distribuio ym (ou seja, y).

Coeficiente de Correlao de Pearson


Este coeficiente pode variar de -1 a +1 e mostra a intensidade da relao linear entre as duas variveis estudadas.

r=

xm )( y1 ym ) n 1 2 2 ( x1 xm ) . ( y1 ym ) n 1 n 1
1

(x

r (rho) no possui dimenso, isto , no depende da unidade de medida das variveis X e Y.

COMO INTERPRETAR UMA CORRELAO

O Sinal da Correlao
Uma correlao positiva (0 < r < 1) indica que as duas variveis tendem a aumentar ou diminuir simultaneamente
40 30 20 c 10 0 0 2 4 6 8 10

O Sinal da Correlao
Uma correlao negativa (-1 < r < 0) diz que quando uma varivel tende a aumentar de valor a outra tende a diminuir e vice-versa.

40 30 20 c 10 0 0 2 4 6 8 10

O valor "1" ou -1 indica uma relao linear perfeita.


200
0 0 5 10 15 20

160
-40

120
-80

80
-120

40
-160

0 0 5 10 15 20
-200

40 30 20 c 10 0 0 2 4 6 8 10

O valor "0" indica que no existe relao linear entre as variveis.

Proposta de Classificao:

O Quadrado da Correlao (R2):


Mostra o percentual da varincia de uma das variveis que pode ser explicado a partir do valor da outra (coeficiente de determinao).
40 30 20 c 10 0 0 2 4 6 8 10

R = 0,8975

Exemplo de Correlao
O ngulo de inclinao do fundo marinho situado logo aps a linha da mar baixa est relacionado com o dimetro mdio (em phi) do sedimento de fundo?

LANDIM, P. M. B. 1998. Anlise Estatstica de Dados Geolgicos. Ed. UNESP, So Paulo, 226p

r = - 0,79

CORRELAO NEGATIVA FORTE: indica que quanto maior a inclinao do fundo, menor sero os valores de phi (portanto maior ser o tamanho dos gros)

R2 = 0,62 (Coeficiente de Determinao)


Cerca de 62% da variabilidade da inclinao da zona ps-praia pode ser descrita (ou explicada) pela variabilidade do dimetro mdio dos sedimentos e vice-versa. O restante (38%) pode ser explicado por outros fatores no medidos, como por exemplo, profundidade da lmina d'gua, altura das ondas, ngulo de aproximao das ondas, etc.

Cuidado
importante lembrar que o conceito de correlao refere-se a uma associao numrica entre duas variveis, no implicando necessariamente numa relao de causa-efeito. Portanto, mesmo que duas variveis apresentem-se matematicamente relacionadas, no significa que deva existir uma relao lgica entre elas.

Coeficientes de correlao matematicamente significativos (mas no explicativos) podem ser obtidos quando:

mudanas em outras variveis causam mudanas tanto na varivel x quanto em y. A relao observada entre duas variveis aleatria e a correlao uma coincidncia que no se repete.

O Valor da Probabilidade (p):


Toda a correlao apresenta uma probabilidade de ter ocorrido devido ao acaso. Quando p<.05, considera-se que a correlao estatisticamente significativa, ou seja, apresenta 95% de probabilidade de no ser fortuita. Caso contrrio, rejeita-se a correlao.

TESTE DE SIGNIFICNCIA Para verificar se o valor encontrado de r tem significado estatstico, ou seja, se a correlao que ele est indicando estatisticamente vlida, pode-se utilizar o Teste T unicaudal.
Ho = as variveis x e y no so correlacionadas H1 = as variveis x e y so correlacionadas

Teste T unicaudal para Correlao

t = r.

n 2 2 1 r

O valor calculado de t comparado com os valores crticos da distribuio de t de Student (Tabela). Usar n - 2 graus de liberdade. A Ho rejeitada (portanto, existe correlao) quando t calculado maior que o t crtico para o nvel de significncia escolhido (alpha = 0,05)

Cuidado
No confunda o nvel de significao (p) e a magnitude de um coeficiente de correlao (valor de r). O nvel de significao apenas nos indica a probabilidade da correlao ser diferente de zero. Uma vez garantido que tal probabilidade inferior a 0.05, todas as interpretaes devem ser feitas em termos de magnitude do prprio coeficiente de correlao. A melhor estratgia consiste em calcular R2 (coeficiente de determinao) e considerar este valor (multiplicado por 100) como a percentagem de varincia comum s duas variveis.

REGRESSO

Permite estimar o comportamento de uma varivel (var. dependente - y) em relao uma outra varivel (var. independente - x) atravs de uma funo linear, logartmica, exponencial ou polinomial.

Modelo de Regresso Linear


Este o modelo mais comum para descrever a relao entre uma varivel explanatria (x) e uma varivel dependente (y). O modelo faz as seguintes suposies, em ordem decrescente de importncia:

o valor mdio da varivel resposta uma funo linear de x a varincia da varivel dependente constante (ou seja, a mesma para todos os valores de x) a variao aleatria da varivel dependente para qualquer valor fixo de x segue uma Distribuio Normal, e estes termos de erro so independentes

Modelo de Regresso

Exemplo de distribuio que respeita as trs suposies do modelo de regresso linear

Exemplo de distribuio que no respeita as trs suposies do modelo de regresso linear

Reta de Ajustamento ou Linha de Regresso


40 30 20 c 10 0 0 2 4 6 8 10

a linha que melhor se ajusta a distribuio dos pares (x,y), ou seja aquela na qual a somatria de todos os desvios verticais dos valores observados em relao a reta mnima.

Equao da Reta de Regresso

y = a + b.x + e
y = valor previsto da varivel dependente a = coeficiente linear (valor de y quando x = 0 , ou seja, interceptor do eixo y) b = coeficiente de regresso ou angular (medida de inclinao da reta) e = erro aleatrio ou resduo

Coeficiente de Regresso (b)

y = a + b.x
Mede a quantidade de mudana esperada na varivel dependente (eixo y) para cada unidade de mudana da varivel independente (eixo x). O sinal deste coeficiente indica o sentido de relacionamento (correlao positiva ou negativa)

Calculo dos coeficientes a e b da Reta de Regresso

n. ( x. y ) ( x)( y ) b= 2 2 n x ( x)

a = ym b.xm

Equao da Reta de Regresso


9

y = 2x + 1
6 3 0 0 1 2 3

TERMO
Representa toda a fonte de variabilidade em Y no explicada por X. Quanto menor seu valor, ou seja, o resduo ou o erro, melhor ser a modelagem de Y a partir de X. Valor de alto pode estar significando que outras variveis devem ser incorporadas ao modelo a fim de explicar o comportamento de Y.

Variao explicada e no explicada


Ao ajustar uma equao de regresso aos dados, na maioria das vezes o valor observado de y no corresponde exatamente ao valor predito de y, a esta diferena chamamos de resduos ou variao residual.

yres = yi y i

yres = yi y i

A soma dos quadrados dos resduos pode ser interpretada como uma medida da variao no explicada pelo modelo de regresso

Anlise dos Resduos


Para verificar a adequao do ajuste da reta pode-se construir o grfico dos resduos padronizados: dados observados (eixo x) versus resduos padronizados (eixo y) Se os pontos estiverem distribudos dentro do intervalo [-2,2], considera-se que o modelo est bem ajustado. Espera-se que menos de 5% dos resduos se posicionem fora do intervalo [-2.2]

Teste de Significncia da Regresso

A disperso da variao aleatria y pode ser medida atravs da soma dos quadrados dos desvios em relao a sua mdia y . Essa soma de quadrados ser denominada Soma de Quadrados Total (SQTotal). A SQT pode ser dividida em:

SQRegresso = variao dos valores de Y em torno de sua mdia explicada pela regresso SQResduo = diferena entre os valores de Y determinados e Y estimados (variao residual no explicada pela regresso)

Teste de Significncia da Regresso

Para testar a significncia da regresso, atravs da Anlise de Varincia, pode-se empregar a distribuio F de FischerSnedecor, sintetizada no quadro abaixo:

QM representa Quadrado Mdio, obtido pela diviso da Soma de Quadrados por seus respectivos graus de liberdade. F o valor do coeficiente calculado pela distribuio Fischer-Snedecor. Se Fcalculado > F tabelado [1,(n-2)], rejeita-se H0 e conclui -se que a regresso

Interpolao x Extrapolao
importante distinguir a consistncia dos modelos considerando-se a diferena entre: interpolao: predio dentro da amplitude dos dados amostrados extrapolao: predio fora da amplitude dos dados.

Regresso em dados espacializados


Exemplo: Distribuio de clupeideos (sardinhas, arenques,) versus profundidade

Gertjan de Graaf. 2003. Geographic Information Systems in Fisheries Management and Planning. Technical manual FAO FISHERIES TECHNICAL PAPER 449. http://www.fao.org/docrep/006/y4816e/y4816e0i.htm

EXEMPLO DE RESULTADO
- EXCEL Estatstica de regresso R mltiplo R-Quadrado R-quadrado ajustado Erro padro Observaes
ANOVA gl Regresso Resduo Total SQ MQ F F de significao 1 7,87621158 7,87621158 35,53525762 1,3706E-06 31 6,870994481 0,221644983 32 14,74720606

0,730808875 0,534081612 0,519051986 0,470791868 33

O R2 ajustado uma correo do R2, levando em conta o nmero de graus de liberdade envolvidos na SQT e na SQR

Mede a disperso dos valores observados em relao a equao da reta

F crtico(1,31; 0,05) = 5,57


Interseo VAR 1 Coeficientes Erro padro Stat t 3,049559748 0,126613295 24,08562031 -0,129152869 0,02166578 -5,961145663 valor-P 1,24319E-21 1,3706E-06

Coeficiente linear (a) = 3,04 Coeficiente de regresso (b) = -0,129 (significativo) Equao da reta: y1 = 3,04 0,129*x1

REGRESSO LINEAR SIMPLES


5 4

VAR 5

3 2 1 0 -5 0 5 10 15

VAR 1

y = -0,1292x + 3,0496

Ajuste de linha
5,00 4,00 3,00 2,00 1,00 0,00 -4 -2 0 VAR 1 2 4 6 8 10 12

VAR 5

VAR 5

Previsto(a) VAR 5

Anlise de Resduos
Observao 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Previsto(a) VAR 5 2,275 2,920 3,308 1,629 3,179 2,791 2,404 2,920 2,920 2,662 1,629 1,887 2,404 3,437 2,920 2,016 3,308 2,662 2,275 1,758 2,533 2,404 2,404 2,662 2,016 2,016 2,275 2,275 2,662 2,404 2,920 2,016 1,758 Resduos -0,155 0,470 0,302 0,091 -1,379 0,419 0,186 0,330 -0,060 -0,342 -0,059 -0,387 0,286 0,623 -0,940 0,274 0,242 0,648 -0,445 -0,068 -0,113 0,576 -0,564 -0,182 0,814 0,394 -0,495 -0,055 0,058 -0,044 -0,110 -0,376 0,062 Resduos padro -0,334 1,013 0,652 0,197 -2,975 0,904 0,402 0,711 -0,130 -0,738 -0,127 -0,836 0,618 1,344 -2,029 0,591 0,523 1,398 -0,960 -0,147 -0,244 1,243 -1,217 -0,393 1,756 0,850 -1,067 -0,118 0,125 -0,095 -0,238 -0,812 0,134 Resduos padro -2,975 -2,029 -1,217 -1,067 -0,960 -0,836 -0,812 -0,738 -0,393 -0,334 -0,244 -0,238 -0,147 -0,130 -0,127 -0,118 -0,095 0,125 0,134 0,197 0,402 0,523 0,591 0,618 0,652 0,711 0,850 0,904 1,013 1,243 1,344 1,398 1,756

REGRESSO MULTIPLA

A regresso mltipla usada para testar dependncias cumulativas de uma nica varivel dependente em relao diversas variveis independentes.

onde, a, b1, b2 ... bu so denominados de parmetros da regresso mltipla ou coeficiente de regresso parcial, v substitui , e denominado de resduo.

Embora seja multivariada no sentido de que mais de uma varivel medida simultaneamente em cada observao, trata-se na realidade de uma tcnica univariada, pois o estudo apenas em relao variao da varivel dependente Y.

Uma das mais importantes aplicaes da anlise de regresso mltipla a escolha, entre diversas variveis independentes, daquelas mais teis na previso de Y. Nestes casos, o mtodo de regresso passo a passo (stepwise multiple regression) o mais usado. Cada varivel isolada e mantida constante enquanto as variveis restantes variam sistematicamente, sendo observados os seus efeitos sobre a varivel dependente.Este modelo de seleo de variveis pode ser do tipo forward (mais comum) ou backward.

RECOMENDAES a) as relaes entre as variveis devem ser lineares; b) evitar um nmero inferior de casos em relao ao nmero de variveis consideradas,sendo recomendado que tal relao seja da ordem de 10 a 20 vezes superior; c) evitar variveis independentes redundantes, isto , que tenham um alto coeficiente de correlao entre si (multicolinearidade);

APLICAES DA ANLISE DE REGRESSO Verificar a intercalibrao de equipamentos Converter unidades de medidas Completar falhas em sries temporais ou espaciais Avaliar desvios (anomalias) nos padres de distribuio Prever o comportamento de processos ou fenmenos difceis de serem medidos

EXEMPLO DE RESULTADO
- EXCEL RESUMO DOS RESULTADOS Estatstica de regresso R mltiplo 0,812 R-Quadrado 0,659 R-quadrado ajustado 0,610 Erro padro 0,424 Observaes 33 ANOVA gl Regresso Resduo Total 4 28 32 Coeficientes 2,95828333 -0,129318601 -0,018784995 -0,046214912 0,208755177 SQ 9,717350801 5,02985526 14,74720606 Erro padro 1,363608188 0,021286823 0,056277554 0,207270439 0,067034521 F F de significao MQ 2,4293377 13,524 2,94784E-06 0,179637688

Interseo VAR 1 VAR 2 VAR 3 VAR 4

Stat t 2,169452601 -6,075054115 -0,333791959 -0,222969141 3,114144371

valor-P 0,0387 1E-06 0,741 0,8252 0,0042

RESULTADOS DE RESDUOS Observao 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Previsto(a) VAR 5 2,067 2,985 3,487 1,793 3,307 3,180 2,350 2,863 2,834 2,206 1,965 1,816 2,555 3,529 2,481 2,241 3,259 3,060 1,790 1,703 2,531 2,825 2,233 2,558 1,868 2,352 2,127 2,202 2,949 2,215 2,869 1,818 1,633 Resduos 0,053 0,405 0,123 -0,073 -1,507 0,030 0,240 0,387 0,026 0,114 -0,395 -0,316 0,135 0,531 -0,501 0,049 0,291 0,250 0,040 -0,013 -0,111 0,155 -0,393 -0,078 0,962 0,058 -0,347 0,018 -0,229 0,145 -0,059 -0,178 0,187 Resduos padro 0,134 1,022 0,311 -0,183 -3,801 0,076 0,606 0,977 0,065 0,286 -0,996 -0,798 0,341 1,340 -1,264 0,124 0,735 0,632 0,101 -0,032 -0,281 0,391 -0,990 -0,197 2,426 0,145 -0,876 0,045 -0,579 0,367 -0,149 -0,448 0,471 Resduos padro -3,801 -1,264 -0,996 -0,990 -0,876 -0,798 -0,579 -0,448 -0,281 -0,197 -0,183 -0,149 -0,032 0,045 0,065 0,076 0,101 0,124 0,134 0,145 0,286 0,311 0,341 0,367 0,391 0,471 0,606 0,632 0,735 0,977 1,022 1,340 2,426

EXEMPLO DE RESULTADO
- STATISTICA -

REGRESSO MTODO STANDARD


Regression Summary for Dependent Variable: VAR 5 R= ,81174396 R= ,65892826 Adjusted R= ,61020372 F(4,28)=13,524 p<,00000 Std.Error of estimate: ,42384 Beta Std.Err. B Std.Err. t(28) of Beta of B 2,96 1,36 2,17 -0,73 0,12 -0,13 0,02 -6,08 -0,04 0,12 -0,02 0,06 -0,33 -0,03 0,12 -0,05 0,21 -0,22 0,36 0,12 0,21 0,07 3,11
Coeficientes usados para construir a equao da reta

N=33 Intercept VAR 1 VAR 2 VAR 3 VAR 4

REGRESSO MTODO FORWARD STEPWISE


Regression Summary for Dependent Variable: VAR 5 R= ,81076323 R= ,65733702 Adjusted R= ,63449282 F(2,30)=28,775 p<,00000 Std.Error of estimate: ,41042 Beta Std.Err. B Std.Err. t(30) of Beta of B 2,552037 0,187408 13,61758 -0,749058 0,107019 -0,132378 0,018913 -6,99933 0,351551 0,107019 0,201339 0,061291 3,28496

N=33 Intercept VAR 1 VAR 4

y = 2,55 0,13*VAR1 + 0,20*VAR4

Você também pode gostar