Escolar Documentos
Profissional Documentos
Cultura Documentos
AULA5 Regressao
AULA5 Regressao
Permite avaliar se existe relao entre o comportamento de duas ou mais variveis e em que medida se d tal interao.
Grfico de Disperso
A relao entre duas variveis pode ser analisada atravs de um grfico de disperso. A reta de tendncia plotada a partir da distribuio dos pares x,y pode indicar correlao linear positiva, negativa ou inexistncia de correlao.
CORRELAO LINEAR
40 30 20 c 10 0 0 2 4 6 8 10
Quando duas variveis (x e y) so dispostas em um diagrama de disperso e seus pares se localizam prximos a uma reta, chama-se tal relao de linear. OBS: Este grfico tambm til para identificar a existncia de valores aberrantes.
r=
xm )( y1 ym ) n 1 2 2 ( x1 xm ) . ( y1 ym ) n 1 n 1
1
(x
O Sinal da Correlao
Uma correlao positiva (0 < r < 1) indica que as duas variveis tendem a aumentar ou diminuir simultaneamente
40 30 20 c 10 0 0 2 4 6 8 10
O Sinal da Correlao
Uma correlao negativa (-1 < r < 0) diz que quando uma varivel tende a aumentar de valor a outra tende a diminuir e vice-versa.
40 30 20 c 10 0 0 2 4 6 8 10
160
-40
120
-80
80
-120
40
-160
0 0 5 10 15 20
-200
40 30 20 c 10 0 0 2 4 6 8 10
Proposta de Classificao:
R = 0,8975
Exemplo de Correlao
O ngulo de inclinao do fundo marinho situado logo aps a linha da mar baixa est relacionado com o dimetro mdio (em phi) do sedimento de fundo?
LANDIM, P. M. B. 1998. Anlise Estatstica de Dados Geolgicos. Ed. UNESP, So Paulo, 226p
r = - 0,79
CORRELAO NEGATIVA FORTE: indica que quanto maior a inclinao do fundo, menor sero os valores de phi (portanto maior ser o tamanho dos gros)
Cuidado
importante lembrar que o conceito de correlao refere-se a uma associao numrica entre duas variveis, no implicando necessariamente numa relao de causa-efeito. Portanto, mesmo que duas variveis apresentem-se matematicamente relacionadas, no significa que deva existir uma relao lgica entre elas.
Coeficientes de correlao matematicamente significativos (mas no explicativos) podem ser obtidos quando:
z
mudanas em outras variveis causam mudanas tanto na varivel x quanto em y. A relao observada entre duas variveis aleatria e a correlao uma coincidncia que no se repete.
TESTE DE SIGNIFICNCIA Para verificar se o valor encontrado de r tem significado estatstico, ou seja, se a correlao que ele est indicando estatisticamente vlida, pode-se utilizar o Teste T unicaudal.
Ho = as variveis x e y no so correlacionadas H1 = as variveis x e y so correlacionadas
t = r.
n 2 2 1 r
O valor calculado de t comparado com os valores crticos da distribuio de t de Student (Tabela). Usar n - 2 graus de liberdade. A Ho rejeitada (portanto, existe correlao) quando t calculado maior que o t crtico para o nvel de significncia escolhido (alpha = 0,05)
Cuidado
No confunda o nvel de significao (p) e a magnitude de um coeficiente de correlao (valor de r). O nvel de significao apenas nos indica a probabilidade da correlao ser diferente de zero. Uma vez garantido que tal probabilidade inferior a 0.05, todas as interpretaes devem ser feitas em termos de magnitude do prprio coeficiente de correlao. A melhor estratgia consiste em calcular R2 (coeficiente de determinao) e considerar este valor (multiplicado por 100) como a percentagem de varincia comum s duas variveis.
REGRESSO
Permite estimar o comportamento de uma varivel (var. dependente - y) em relao uma outra varivel (var. independente - x) atravs de uma funo linear, logartmica, exponencial ou polinomial.
o valor mdio da varivel resposta uma funo linear de x a varincia da varivel dependente constante (ou seja, a mesma para todos os valores de x) a variao aleatria da varivel dependente para qualquer valor fixo de x segue uma Distribuio Normal, e estes termos de erro so independentes
Modelo de Regresso
a linha que melhor se ajusta a distribuio dos pares (x,y), ou seja aquela na qual a somatria de todos os desvios verticais dos valores observados em relao a reta mnima.
y = a + b.x + e
y = valor previsto da varivel dependente a = coeficiente linear (valor de y quando x = 0 , ou seja, interceptor do eixo y) b = coeficiente de regresso ou angular (medida de inclinao da reta) e = erro aleatrio ou resduo
y = a + b.x
Mede a quantidade de mudana esperada na varivel dependente (eixo y) para cada unidade de mudana da varivel independente (eixo x). O sinal deste coeficiente indica o sentido de relacionamento (correlao positiva ou negativa)
n. ( x. y ) ( x)( y ) b= 2 2 n x ( x)
a = ym b.xm
y = 2x + 1
6 3 0 0 1 2 3
TERMO
Representa toda a fonte de variabilidade em Y no explicada por X. Quanto menor seu valor, ou seja, o resduo ou o erro, melhor ser a modelagem de Y a partir de X. Valor de alto pode estar significando que outras variveis devem ser incorporadas ao modelo a fim de explicar o comportamento de Y.
yres = yi y i
yres = yi y i
A soma dos quadrados dos resduos pode ser interpretada como uma medida da variao no explicada pelo modelo de regresso
A disperso da variao aleatria y pode ser medida atravs da soma dos quadrados dos desvios em relao a sua mdia y . Essa soma de quadrados ser denominada Soma de Quadrados Total (SQTotal). A SQT pode ser dividida em:
SQRegresso = variao dos valores de Y em torno de sua mdia explicada pela regresso SQResduo = diferena entre os valores de Y determinados e Y estimados (variao residual no explicada pela regresso)
Para testar a significncia da regresso, atravs da Anlise de Varincia, pode-se empregar a distribuio F de FischerSnedecor, sintetizada no quadro abaixo:
QM representa Quadrado Mdio, obtido pela diviso da Soma de Quadrados por seus respectivos graus de liberdade. F o valor do coeficiente calculado pela distribuio Fischer-Snedecor. Se Fcalculado > F tabelado [1,(n-2)], rejeita-se H0 e conclui -se que a regresso
Interpolao x Extrapolao
importante distinguir a consistncia dos modelos considerando-se a diferena entre: interpolao: predio dentro da amplitude dos dados amostrados extrapolao: predio fora da amplitude dos dados.
Gertjan de Graaf. 2003. Geographic Information Systems in Fisheries Management and Planning. Technical manual FAO FISHERIES TECHNICAL PAPER 449. http://www.fao.org/docrep/006/y4816e/y4816e0i.htm
EXEMPLO DE RESULTADO
- EXCEL Estatstica de regresso R mltiplo R-Quadrado R-quadrado ajustado Erro padro Observaes
ANOVA gl Regresso Resduo Total SQ MQ F F de significao 1 7,87621158 7,87621158 35,53525762 1,3706E-06 31 6,870994481 0,221644983 32 14,74720606
O R2 ajustado uma correo do R2, levando em conta o nmero de graus de liberdade envolvidos na SQT e na SQR
Coeficiente linear (a) = 3,04 Coeficiente de regresso (b) = -0,129 (significativo) Equao da reta: y1 = 3,04 0,129*x1
VAR 5
3 2 1 0 -5 0 5 10 15
VAR 1
y = -0,1292x + 3,0496
Ajuste de linha
5,00 4,00 3,00 2,00 1,00 0,00 -4 -2 0 VAR 1 2 4 6 8 10 12
VAR 5
VAR 5
Previsto(a) VAR 5
Anlise de Resduos
Observao 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Previsto(a) VAR 5 2,275 2,920 3,308 1,629 3,179 2,791 2,404 2,920 2,920 2,662 1,629 1,887 2,404 3,437 2,920 2,016 3,308 2,662 2,275 1,758 2,533 2,404 2,404 2,662 2,016 2,016 2,275 2,275 2,662 2,404 2,920 2,016 1,758 Resduos -0,155 0,470 0,302 0,091 -1,379 0,419 0,186 0,330 -0,060 -0,342 -0,059 -0,387 0,286 0,623 -0,940 0,274 0,242 0,648 -0,445 -0,068 -0,113 0,576 -0,564 -0,182 0,814 0,394 -0,495 -0,055 0,058 -0,044 -0,110 -0,376 0,062 Resduos padro -0,334 1,013 0,652 0,197 -2,975 0,904 0,402 0,711 -0,130 -0,738 -0,127 -0,836 0,618 1,344 -2,029 0,591 0,523 1,398 -0,960 -0,147 -0,244 1,243 -1,217 -0,393 1,756 0,850 -1,067 -0,118 0,125 -0,095 -0,238 -0,812 0,134 Resduos padro -2,975 -2,029 -1,217 -1,067 -0,960 -0,836 -0,812 -0,738 -0,393 -0,334 -0,244 -0,238 -0,147 -0,130 -0,127 -0,118 -0,095 0,125 0,134 0,197 0,402 0,523 0,591 0,618 0,652 0,711 0,850 0,904 1,013 1,243 1,344 1,398 1,756
REGRESSO MULTIPLA
A regresso mltipla usada para testar dependncias cumulativas de uma nica varivel dependente em relao diversas variveis independentes.
onde, a, b1, b2 ... bu so denominados de parmetros da regresso mltipla ou coeficiente de regresso parcial, v substitui , e denominado de resduo.
Embora seja multivariada no sentido de que mais de uma varivel medida simultaneamente em cada observao, trata-se na realidade de uma tcnica univariada, pois o estudo apenas em relao variao da varivel dependente Y.
Uma das mais importantes aplicaes da anlise de regresso mltipla a escolha, entre diversas variveis independentes, daquelas mais teis na previso de Y. Nestes casos, o mtodo de regresso passo a passo (stepwise multiple regression) o mais usado. Cada varivel isolada e mantida constante enquanto as variveis restantes variam sistematicamente, sendo observados os seus efeitos sobre a varivel dependente.Este modelo de seleo de variveis pode ser do tipo forward (mais comum) ou backward.
RECOMENDAES a) as relaes entre as variveis devem ser lineares; b) evitar um nmero inferior de casos em relao ao nmero de variveis consideradas,sendo recomendado que tal relao seja da ordem de 10 a 20 vezes superior; c) evitar variveis independentes redundantes, isto , que tenham um alto coeficiente de correlao entre si (multicolinearidade);
APLICAES DA ANLISE DE REGRESSO Verificar a intercalibrao de equipamentos Converter unidades de medidas Completar falhas em sries temporais ou espaciais Avaliar desvios (anomalias) nos padres de distribuio Prever o comportamento de processos ou fenmenos difceis de serem medidos
z z z z z
EXEMPLO DE RESULTADO
- EXCEL RESUMO DOS RESULTADOS Estatstica de regresso R mltiplo 0,812 R-Quadrado 0,659 R-quadrado ajustado 0,610 Erro padro 0,424 Observaes 33 ANOVA gl Regresso Resduo Total 4 28 32 Coeficientes 2,95828333 -0,129318601 -0,018784995 -0,046214912 0,208755177 SQ 9,717350801 5,02985526 14,74720606 Erro padro 1,363608188 0,021286823 0,056277554 0,207270439 0,067034521 F F de significao MQ 2,4293377 13,524 2,94784E-06 0,179637688
RESULTADOS DE RESDUOS Observao 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Previsto(a) VAR 5 2,067 2,985 3,487 1,793 3,307 3,180 2,350 2,863 2,834 2,206 1,965 1,816 2,555 3,529 2,481 2,241 3,259 3,060 1,790 1,703 2,531 2,825 2,233 2,558 1,868 2,352 2,127 2,202 2,949 2,215 2,869 1,818 1,633 Resduos 0,053 0,405 0,123 -0,073 -1,507 0,030 0,240 0,387 0,026 0,114 -0,395 -0,316 0,135 0,531 -0,501 0,049 0,291 0,250 0,040 -0,013 -0,111 0,155 -0,393 -0,078 0,962 0,058 -0,347 0,018 -0,229 0,145 -0,059 -0,178 0,187 Resduos padro 0,134 1,022 0,311 -0,183 -3,801 0,076 0,606 0,977 0,065 0,286 -0,996 -0,798 0,341 1,340 -1,264 0,124 0,735 0,632 0,101 -0,032 -0,281 0,391 -0,990 -0,197 2,426 0,145 -0,876 0,045 -0,579 0,367 -0,149 -0,448 0,471 Resduos padro -3,801 -1,264 -0,996 -0,990 -0,876 -0,798 -0,579 -0,448 -0,281 -0,197 -0,183 -0,149 -0,032 0,045 0,065 0,076 0,101 0,124 0,134 0,145 0,286 0,311 0,341 0,367 0,391 0,471 0,606 0,632 0,735 0,977 1,022 1,340 2,426
EXEMPLO DE RESULTADO
- STATISTICA -