Você está na página 1de 29

Universidade Federal Rural do Rio de Janeiro

CPGA-Solos

Análise Multivariada Aplicada as Ciências Agrárias

CORRELAÇÃO

A análise de correlação tem como objetivo determinar


o grau de relacionamento entre duas variáveis, isto é,
a covariabilidade entre elas.
Não é necessário que uma variável seja dependente e
a outra independente.

Carlos Alberto Alves Varella


Novembro-2006
O coeficiente de correlação
• O coeficiente de correlação entre variáveis
aleatórias contínuas é:

X  X Y  Y    xy Cov X ,Y 


 xy  
x y x y V X  V Y 

• O quadrado do coeficiente de correlação é


igual ao coeficiente de determinação.

0  r 2  1 e 1  rxy  1

Página 2 10/09/2019
A análise de correlação procura obter as
variáveis que conjuntamente têm efeito sobre o
fenômeno.
• A correlação pode ser:
• positiva; negativa; nula.
• O coeficiente de correlação mede a relação linear entre duas
variáveis.

parabólica hiperbólica retilínea

Modelo linear de 20 grau

Relação entre Efeito da


penetração de compactação do
raízes e produção solo
de feijão

Página 3 10/09/2019
Partindo-se do modelo linear Y=Xb+e,
podemos obter a equação de regressão:

Ŷi  bˆ 0 + bˆ 1 X i
• A correlação entre valores preditos e
observados é feita pela seguinte fórmula:

ˆ
b X Y c
' '
SQregressã o
rYˆY  
Y Y c
'
SQtotal
2
• Neste caso da regressão Y deve ser o efeito  n

devido a X, isto é, Y é a variável dependente   Yi 
do efeito de X, independente. c   i 1 
n
Página 4 10/09/2019
O coeficiente de correlação múltipla () também é
estimado pela raiz quadrada da relação entre as somas
de quadrados da regressão e total:

ˆ
b X Y c
' '
SQregressã o
Ri1, 2., p  
Y Y c
'
SQtotal
• O quadrado do coeficiente de correlação múltipla (R2)
é o coeficiente de determinação múltipla;
• A equação de regressão é:

Yˆi  bˆ0 + bˆ1 X 1i + bˆ2 X 2i +  + bˆ pi

Página 5 10/09/2019
De maneira geral o coeficiente de
correlação é:
 X i  X Yi  Y 
n

Cov X ,Y  
Rxy   i 1

V  X  V Y  n 2  
 X i  X     Yi  Y  
n
2

 i 1   i 1 

• No programa computacional MATLAB é calculada com


o comando corrcoef:
>> cor=corrcoef([x Y]); %variavel X versus variavel Y x= Y=

cor = 2 10
4 12
1.0000 0.9925 6 15
0.9925 1.0000 8 17
10 21

Página 6 10/09/2019
Matriz de correlação
• A matriz de correlação entre as variáveis X1,
X2, ... , Xp é:

  11  12  1 p 
 
  21  22  2 p 
 
    
 
  p 1  p 2   pp 

• A matriz é simétrica
 ij   ji
Página 7 10/09/2019
Estimativa da matriz de correlação (C)
r11 r12  r1 p 
 
 r21 r22  r2 p 
C
    
 
rp1 rp 2  rpp 

• Essa matriz contem as correlações simples entre as variáveis em


estudo.

Página 8 10/09/2019
Aplicações da matriz de correlação
• Valores altos indicam presença de multicolinearidade;
• Valor igual a um indica multicolinearidade perfeita;
• Quando a correlação for alta:

rij  0 ,80 ou rij  0 ,80


• Podemos retirar do modelo uma das variáveis do par
altamente correlacionado;
• A retirada dessas variáveis resolve o problema de
aplicação do método dos mínimos quadrados.

Página 9 10/09/2019
Multicolinearidade perfeita
• Dizemos que existe multicolinearidade perfeita
quando existem na matriz X, colunas linearmente
dependentes. Neste caso o determinante de X’X é
igual a zero:
X X 0
'

• Não é possível inverter a matriz X’X;


• Impossível obter a estimativa de parâmetros pelo
método dos mínimos quadrados.
• A retirada de variáveis de pares altamente
correlacionados pode resolver o problema.

Página 10 10/09/2019
Conseqüências da multicolinearidade
• Frequentemente a matriz X apresenta alta
multicolinearidade, mas não perfeita.
• As principais conseqüências são:
• Variâncias e covariâncias muito elevadas, isto é, as
estimativas podem ter erros elevados;
• Mascara a influência de variáveis importantes no
fenômeno. O problema pode ser da amostragem.
• Os coeficientes obtidos para o modelo variam muito
de amostra para amostra.
• A adição de algumas observações altera o resultado.

Página 11 10/09/2019
Coeficiente de determinação
múltipla (R2)
• O coeficiente de determinação múltipla é
definido por:
bˆ ' X 'Y  c
SQregressã o
R 
2

Y Y c
'
SQtotal
• Mostra a proporção da soma de quadrados
total que é “explicada” pela regressão
múltipla. Note que R2 varia entre zero e um.

0  R 1 2

Página 12 10/09/2019
Teste de significância para o
coeficiente de determinação múltipla

• Um teste F deve ser feito no coeficiente de


determinação múltipla

n  p  1 R2
F  , F   p , n  p  1
p 1 R 2

• Este mesmo teste é aplicado para o coeficiente


de correlação múltipla.

Página 13 10/09/2019
Coeficiente de determinação múltipla
corrigido para grau de liberdade

• O coeficiente de determinação múltipla é corrigido devido que


seu valor não diminui com a inclusão de novas variáveis, mesmo
que estas não tenham nenhuma relação com a variável
independente.
n 1
R  1
2

n  p 1

1  R , em que :
2

R 2  coeficiente corrigido para grau de liberdade;
n  número de onservações;
p  número de variáveis;
R 2  coeficiente de detreminação múltipla

Página 14 10/09/2019
Considerações sobre o coeficiente
de determinação corrigido
• O coeficiente corrigido sempre é menor
que o não corrigido;
• O coeficiente corrigido pode ser
negativo.
R R 2 2

R R 
2 2 p
n  p 1
1 R 
2

Página 15 10/09/2019
Coeficiente de variação
• O coeficiente de variação é um indicador da qualidade do
ajustamento do modelo;
• O resultado é tanto melhor quanto menor for o coeficiente de
variação;
• É normalmente apresentado em porcentagem de variação.
• QMR é erro de (modelagem+amostragem+acaso)=erro puro
s
CV  ,
Y
s  QM Re síduo  erro
Y  valor médio da variável dependente Y

Página 16 10/09/2019
Coeficiente de correlação parcial
• A correlação parcial é a correlação entre duas
variáveis quaisquer quando o efeito de outras
variáveis são mantidos constantes.
• É usado para capturar o efeito de variáveis
sobre os pares correlacionados;
• Esclarece se a relação entre duas variáveis é
uma correlação simples ou tem origem na
causa-efeito.

Página 17 10/09/2019
Calculo do coeficiente de correlação
parcial
• A correlação parcial entre as variáveis Xi
e Yj é rij.m, onde m representa as
variáveis mantidas constantes.
• O algoritmo para cálculo apresenta três
etapas.

Página 18 10/09/2019
Primeira etapa: cálculo da matriz de
correlação
r11 r12  r1 p 
 
 r21 r22  r2 p 
C
    
 
rp1 rp 2  rpp 
r1234 p  correlação entre 12 quando todas
as demais são considerad as cons tan tes;
r124  correlação entre 12 quando 4
é considerad a cons tan te;
Página 19 10/09/2019
Segunda etapa: obter a inversa C-1

c11 c 12
 c 1p

 21 22 2p 
1  c c  c 
C 
    
 
c p1 c p 2  c pp 

• No programa computacional MATLAB:


invcor=inv(corrcoef([X Y]));

Página 20 10/09/2019
Terceira etapa: Aplicar a expressão
ij
c
rijm  
ii jj
c c
• No programa computacional MATLAB:

i=1; j=2;
r1234=-invc(i,j)/sqrt(invc(i,i)*invc(j,j))

Página 21 10/09/2019
Teste de significância para o
coeficiente de correlação parcial

n  v  r 2

F , F  1; n  v 
ij .m

1 r 2
ij .m

• n= número de observações;
• v= número de variáveis (v=m+2).

• Este mesmo teste é aplicado para o


coeficiente de determinação parcial.

Página 22 10/09/2019
Interpretação do coeficiente de
correlação parcial

• Sejam as variáveis:
• X1 notas em matemática
• X2 notas em estatística
• X3 notas em pesquisa operacional
• X4 notas em processamento de dados

Página 23 10/09/2019
• X1 notas de matemática
• X2 notas de estatística

r12.4=0,875 •

X3
X4
notas
notas
de
de
pesquisa operacional
processamento de dados

• Representa o coeficiente de correlação


parcial entre as notas de matemática e
estatística, para os estudantes com a
mesma nota em processamento de
dados. Na obtenção desse índice as
notas em pesquisa operacional não
foram consideradas (3).

Página 24 10/09/2019
• X1 notas de matemática
• X2 notas de estatística

r12.34=0,824 •

X3
X4
notas
notas
de
de
pesquisa operacional
processamento de dados

• Coeficiente de correlação entre as notas


de matemática e estatística, para os
estudantes que obtiveram as mesmas
notas em pesquisa operacional e
processamento de dados.

Página 25 10/09/2019
Exemplo de aplicação
• As vaiáveis são X1, X2, X3 e X4 e total de
observações é 64. Foi obtida a seguinte
matriz de correlação:

c=

1.0000 0.3597 0.5749 0.4109


0.3597 1.0000 0.4630 0.3050
0.5749 0.4630 1.0000 0.2702
0.4109 0.3050 0.2702 1.0000

Página 26 10/09/2019
Cálculo da inversa da matriz de
correlação

• No programa computacional MATLAB


invc=inv(c);

invc =

1.6765 -0.0981 -0.7987 -0.4432


-0.0981 1.3378 -0.5002 -0.2326
-0.7987 -0.5002 1.6838 0.0258
-0.4432 -0.2326 0.0258 1.2461

Página 27 10/09/2019
Cálculo de r12.34, r13.24 e r14.23
• No programa computacional MATLAB

i=1;j=2;
r1234=-invc(i,j)/sqrt(invc(i,i)*invc(j,j));
i=1;j=3;
r1324=-invc(i,j)/sqrt(invc(i,i)*invc(j,j));
i=1;j=4;
r1423=-invc(i,j)/sqrt(invc(i,i)*invc(j,j));

r1234 = r1324 = r1423 =

0.0655 0.4754 0.3066

Página 28 10/09/2019
Teste de significância para o
coeficiente de correlação parcial
• Neste caso temos que n=62 e v=4,
visto que v=m+2
n=62; m=2; v=m+2;
F1234=(n-v)*r1234^2/(1-r1234^2); %F calculado
F1324=(n-v)*r1324^2/(1-r1324^2); %F calculado
F1423=(n-v)*r1423^2/(1-r1423^2); %F calculado

F1234 = F1324 = F1423 =

0.2499 16.9325 6.0185


Ftab1234= finv(0.95,1,n-v);%F tabelado
Ftab1234 =

4.0069
Página 29 10/09/2019