Você está na página 1de 11

1

CORRELAÇÃO

Olá, amigos!
Trataremos hoje de um assunto que, possivelmente, é novidade para muita gente. A
chamada correlação já foi cobrada nessa prova do Fiscal da Receita, até o ano de 1998. Desde
então, saiu do programa para retornar exatamente agora!
Fazendo uma análise das alterações trazidas pelo Edital no tocante à Estatística, diríamos
que o programa ficou reduzido. Saíram dois assuntos que constavam expressamente nos últimos
editais: Medidas de Assimetria e Medidas de Curtose.
Ocorre que, para resolvermos questões de Assimetria e de Curtose, precisávamos
conhecer mais duas teorias implícitas no programa: Medidas separatrizes e Momentos
Estatísticos. Estes assuntos, repito, não constavam de forma expressa no Edital, mas eram
cobrados do mesmo jeito, por conta das questões de Assimetria e Curtose.
Com isso, podemos dizer que já não nos será necessário estudar quatro assuntos antes
exigidos: Assimetria, Curtose, Medidas Separatrizes e Momentos Estatísticos.
Em contrapartida, incluíram no programa um único novo assunto, que foi a Correlação, da
qual falaremos a seguir. Diria que foi um bom negócio essa troca, sobretudo em função do
tempo – extremamente exíguo – que nos restou até o dia da prova.
Pois bem! Deixemos de demora, e passemos ao que interessa!
Primeira informação: Correlação é um assunto muito fácil.
E do que trata a Correlação?
Do seguinte: usaremos a Correlação sempre que estivermos trabalhando com duas ou
mais de duas variáveis, e quisermos descobrir se existe algum tipo de relação entre elas.
Dito de forma bem simples: usaremos a Correlação se quisermos saber se há uma inter-
relação de influência – algum tipo de associação – entre uma variável e outra.
Suponhamos que eu esteja trabalhando as seguintes duas variáveis – grau de
escolaridade e número de livros que a pessoa possui.
Será que é possível afirmar que existe uma relação de alguma espécie entre elas? Ora,
usando apenas o senso comum, possivelmente nós responderíamos que existe sim: somos, a
priori, levados a crer que pessoas com um nível mais elevado de escolaridade tenham também
um maior número de livros na sua estante. Não é verdade?
Mas a estatística não trabalha com o senso comum, nem com suposições, mas com dados
numéricos, coletados em pesquisa! Assim, usando a Estatística, nós poderemos responder, a
partir dos números da pesquisa, se há ou não há alguma espécie de relação entre duas (ou
mais) variáveis.
É aí que surge o cálculo da Correlação, a qual será um valor numérico, oscilando sempre
entre -1 e 1, conforme veremos adiante. Ok?
Pois bem! Consideremos que foram entrevistadas cinco pessoas (A, B, C, D, E), e a cada
uma delas foram feitas essas duas perguntas:
 Durante quantos anos você freqüentou as salas de aula? e
 Quantos livros você tem em sua biblioteca em casa?
Adotaremos duas letras para designar essas duas variáveis. Chamaremos os anos
escolares de Xi, e os livros em casa de Yi.
Daí, anotando-se as respostas dos entrevistados, encontramos o seguinte:
2
Anos escolares Livros em casa
Xi Yi
5 10
8 30
10 45
12 50
15 75

Esses são os valores extraídos da pesquisa, para as nossas duas variáveis!


E agora, como fazemos para saber, estatisticamente, se há uma associação entre o
número de anos escolares e o número de livros que a pessoa tem em casa? Usando a equação
do Fator de Correlação Linear de Pearson, que é a seguinte:

n.∑ X i .Yi − ( ∑ X i ).( ∑Yi )


rX ,Y =
[n.∑ X i − (∑ X i ) 2 ].[ n.∑Yi − (∑Yi ) 2 ]
2 2

Ai, meu Deus do céu! E agora? Vou ter que decorar esse monstro?

Calma! Antes que você desista de ler o restante desta aula, vamos tentar simplificar a
nossa vida. Ok? Para isso, abriremos um parêntese para falar a respeito de Covariância, de
Variância e de Desvio Padrão.

# Covariância, Variância e Desvio Padrão:

Como vocês já devem ter estudado, o Desvio Padrão e a Variância são, ambas, Medidas
de Dispersão. Ou seja, são medidas utilizadas quando desejamos saber o quão próximos ou
quão afastados estão os elementos de um conjunto, em relação a um determinado referencial (a
média aritmética do conjunto). Lembrados disso?

Pois bem! Todavia, há algumas variáveis que fornecem uma análise mais apurada da
realidade caso sejam estudadas em conjunto. Por exemplo, suponhamos que nós dispomos das
seguintes informações: uma pessoa A tem peso de 80kg e a pessoa B tem peso de 120kg. Ora,
sem conhecermos essas pessoas, apenas sabendo o seu peso, não há como tentarmos imaginar
como seria o físico de cada um. Concordam? Precisaríamos conhecer uma outra informação
adicional. Qual? A altura dessas pessoas.

Aí sim, conhecedores deste par de informações – o peso e a altura –, ficaria bem mais
fácil dizermos qualquer coisa acerca do aspecto físico daquelas pessoas. Assim, podemos
também na estatística trabalhar com a análise conjunta de duas variáveis. Inclusive, teremos
condições de avaliar a dispersão dos diversos conjuntos de pares de informações que coletarmos,
em relação ao par que representa a média das duas variáveis.

Essa medida de dispersão conjunta de duas variáveis é justamente a Covariância!

Em suma: enquanto o Desvio Padrão e a Variância são medidas de dispersão usadas para
uma única variável, a Covariância será usada como medida de dispersão para duas variáveis!

E o cálculo da Covariância é o seguinte:

Cov ( x, y ) =
∑( Xi − X ).( Yi −Y )
n

Esta acima é a fórmula tradicional da Covariância!


3
Percebamos que o numerador da fórmula contempla justamente os desvios dos elementos
Xi e Yi, em relação às suas respectivas médias X e Y .

Daí, o entendimento da Covariância é mesmo esse: nos dirá se os pares de informação


(Xi, Yi) coletados na pesquisa estão próximos ou afastados do par que representa a média das
variáveis ( X , Y ).

Ocorre, meus amigos, que existe um jeito ainda mais fácil de calcularmos essa
Covariância. Sim. Precisaríamos apenas desenvolver algebricamente a fórmula tradicional que
aprendemos acima (não vamos fazer isso aqui!), e chegaríamos ao seguinte formato:

Cov ( x, y ) =X .Y −X .Y

Onde: X .Y =
∑Xi .Yi ; X =
∑Xi ; Y =
∑Yi ; e n é o número de pares de
n n n
informações!

Daí, consideremos que estamos diante de uma tabela, representando duas variáveis com
os seguintes valores:
Xi Yi
1 2
2 4
3 6
4 8
5 10

A primeira coisa a fazermos será complementar a tabela, de maneira a chegarmos ao


seguinte formato:
Xi Yi Xi.Yi Xi2 Yi2
... ... ... ... ...

Certo? Preenchendo os valores das novas colunas, com os seus respectivos somatórios,
teremos:
Xi Yi Xi.Yi Xi2 Yi2
1 2 2 1 4
2 4 8 4 16
3 6 18 9 36
4 8 32 16 64
5 10 50 25 100
15 30 110 55 220

Agora ficou muito fácil calcular a covariância, usando apenas esses valores dos
somatórios. Vamos lá. Pela definição resumida, teremos que: Cov ( x, y ) =X .Y −X .Y .

Daí, a primeira parcela será calculada assim: X .Y =


∑Xi .Yi =
110
= 22
n 5

Teremos ainda que as médias de X e Y serão dadas por:

X =
∑ Xi =
15
=3 e Y =
∑Yi = 30 = 6
n 5 n 5

Finalmente, teremos:  Cov(x,y)=22-(3).(6)  Cov(x,y)=4,0  Resposta!


4
Acerca da covariância, só nos resta conhecer agora suas propriedades. E será facílimo
memorizá-las de imediato, uma vez que são as mesmas do Desvio Padrão.
Senão, vejamos:
I) A covariância não é influenciada por operações de soma e subtração.
Ou seja: Cov (X± B, Y± D) = Cov (X, Y) , onde B e D são constantes!
II) A covariância é influenciada por operações de produto e divisão, tal qual o desvio
padrão.
Ou seja: Cov(AX, CY) = A.C. Cov(X, Y) , onde A e C são constantes!

Pronto! Só isso! Veremos adiante que talvez venhamos a utilizar essas propriedades numa
questão de prova!
Agora que sabemos calcular a covariância, e que conhecemos suas propriedades,
passemos a falar da variância e do desvio padrão. Como calcularemos essas duas medidas de
dispersão, se estivermos em frente a uma tabela igual a que trabalhamos acima. Vejamos.
Caso a prova nos traga a tabela seguinte:
Xi Yi
1 2
2 4
3 6
4 8
5 10

... nosso primeiro passo será complementá-la, de modo a que fique com o seguinte
formato:
Xi Yi Xi.Yi Xi2 Yi2
... ... ... ... ...

Preenchendo os valores das novas colunas, com os seus respectivos somatórios, teremos:
Xi Yi Xi.Yi Xi2 Yi2
1 2 2 1 4
2 4 8 4 16
3 6 18 9 36
4 8 32 16 64
5 10 50 25 100
15 30 110 55 220

Agora, deveremos nos lembrar de como se faz o cálculo da Variância (S2), para as
variáveis Xi e Yi. Teremos que:

S 2
X =
∑( Xi − X ) 2
e S 2
Y =
∑(Yi −Y ) 2

n n
Ocorre que esses cálculos também podem ser simplificados! Se desenvolvêssemos
algebricamente as fórmulas acima (não o faremos!), chegaríamos aos seguintes resultados:

S2X = X 2 − X ( ) 2
e S 2Y = Y 2 − Y ( ) 2

Onde: X 2
=
∑X 2
; Y 2
=
∑Y 2
e n é número de pares de informações.
n n
Dito de outra forma, a Variância é a média dos quadrados menos o quadrado da média!
5
Viram? Pois bem! Vamos calcular, para os valores da nossa tabela, as variâncias de Xi e
de Yi. Teremos:

Xi Yi Xi.Yi Xi2 Yi2


1 2 2 1 4
2 4 8 4 16
3 6 18 9 36
4 8 32 16 64
5 10 50 25 100
15 30 110 55 220

 X =
∑ Xi = 15 = 3 e Y =
∑Yi = 30 = 6
n 5 n 5

Daí:  S2X = X 2 − X ( ) 2
 S X =
2  55 
 5
 − ( 3) = 11 − 9 = 2 e
2

 S 2Y = Y 2 − Y( ) 2
 S Y =
2  220 
 5 
 − ( 6 ) = 44 − 36 = 8
2

Agora, resta-nos dar uma lembrada em algumas propriedades da Variância. Vejamos:


I) A Variância não é influenciada por operações de soma e subtração.
Ou seja: S2(X± B) = S2(X) , onde B é uma constante!
II) A Variância é influenciada por operações de produto e divisão, de sorte que a nova
variância será igual à anterior, multiplicada ou dividida pelo quadrado da constante!
Ou seja: S2(AX) = A2. S2(X) , onde A é uma constante!
III) Propriedade da Variância de Duas Variáveis (Xi e Yi). Teremos:
 S2(X+Y)= S2(X) + S2(Y) + 2.Cov(X,Y) e
 S2(X-Y)= S2(X) + S2(Y) – 2.Cov(X,Y)

Poderemos, eventualmente, utilizar alguma dessas propriedades, sobretudo as duas


últimas!
Pronto! E agora, a respeito do Desvio Padrão, o que devemos saber sobre ele?
Ora, basta sabermos que o Desvio Padrão é a raiz quadrada da Variância.
Assim, teremos:

 S X = S 2 X = X 2 − (X ) 2 e S X = S 2 X = X 2 − (X ) 2

# Juntando os Pedaços:
O objetivo agora é retornarmos ao assunto da nossa aula de hoje: Correlação!
Vimos, no início, que a fórmula da Correlação é, a princípio, meio assustadora! Ficará bem
mais fácil agora. Vejamos:

n.∑ X i .Yi − ( ∑ X i ).( ∑Yi )


rX ,Y = é o mesmo que:
[n.∑ X i − (∑ X i ) 2 ].[ n.∑Yi − (∑Yi ) 2 ]
2 2
6
Cov ( X , Y )
rX ,Y =
S X .S Y
Ou seja, a Correlação entre as variáveis X e Y será igual à Covariância de X e Y, dividida
pelo produto dos Desvios Padrões de ambas.
Só isso! Façamos um exemplo. Suponhamos que a prova nos trouxe a seguinte tabela:
Xi Yi
1 2
2 4
3 6
4 8
5 10

Já sabemos que deveremos complementá-la, com as seguintes colunas:


Xi Yi Xi.Yi Xi2 Yi2
1 2 2 1 4
2 4 8 4 16
3 6 18 9 36
4 8 32 16 64
5 10 50 25 100
15 30 110 55 220

Cov ( X , Y )
Agora, é só lembrarmos da fórmula reduzida da Correlação: rX ,Y =
S X .S Y
E calcularmos pedaço por pedaço! Teremos:

 Calculando a Covariância: Cov ( x, y ) =X .Y −X .Y .

X .Y =
∑Xi .Yi =
110
= 22 ; X =
∑ Xi = 15 = 3 ; e Y = ∑Yi = 30 = 6
n 5 n 5 n 5

Logo: Cov(x,y)=22-(3).(6)  Cov(x,y)=4,0

 Calculando as Variâncias de X e de Y:

 S2X = X 2 − X ( ) 2
 S X =
2  55 
 5 
 − ( 3) = 11 − 9 = 2 e
2

 S 2Y = Y 2 − Y ( ) 2
 S Y =
2  220 
 5 
 − ( 6 ) = 44 − 36 = 8
2

 Calculando os Desvios Padrões de X e de Y:

 SX = S 2X ⇒ SX = 2 e

 SY = S 2 Y ⇒ SX = 8

 Calculando a Correlação:
Cov ( X , Y ) 4 4 4
rX ,Y = ⇒ rX ,Y = = = = 1,0
S X .S Y 2. 8 16 4

Pronto! Calculamos a Correlação! E agora, como interpretaremos esse resultado?


7
Da seguinte forma:
Se r=1 ⇒ Correlação positiva perfeita
Se r=0,75 ⇒ Correlação positiva forte
Se r=0,50 ⇒ Correlação positiva média
Se r=0,25 ⇒ Correlação positiva fraca
Se r=0 ⇒ Correlação linear inexistente
Se r=-0,25 ⇒ Correlação negativa fraca
Se r=-0,50 ⇒ Correlação negativa média
Se r=-0,75 ⇒ Correlação negativa forte
Se r=-1 ⇒ Correlação negativa perfeita

Pelo quadro acima, vemos que haverá Correlação positiva e correlação negativa!
Será dita positiva quando aumentando o valor de uma variável aumentará também o da
outra. Ou ainda quando diminuindo o valor da primeira, diminui também o da segunda. Ou seja,
teremos correlação positiva quando as duas variáveis oscilarem sempre no mesmo sentido.
Neste nosso exemplo, encontramos uma correlação positiva perfeita! Viram? De sorte que
as duas variáveis estão perfeitamente relacionadas e ambas oscilam sempre na mesma direção
(se uma aumentar, a outra aumenta; se uma diminuir, a outra diminui).
A correlação será dita negativa quando houver uma relação entre as varáveis, mas estas
oscilarão em sentido contrário. Ou seja, aumentando uma, diminuirá a outra, e vice-versa.
A pergunta agora é: por que esse fator de correlação é chamado de linear?
A resposta é simples, e vem com a explicação de um gráfico, chamado Diagrama de
Dispersão.
Senão, vejamos: se nós criarmos um gráfico, com a variável Xi na horizontal e a variável
Yi na vertical, e em seguida marcarmos (com pontos) os pares de respostas correspondentes,
seguindo a tabela dos resultados da pesquisa, teremos:

Yi
10
9
8
Xi Yi
1 2 7
2 4 6
3 6
4 8 5
5 10 4
3
2
1

1 2 3 4 5 Xi
8
Observem que, neste nosso caso, o gráfico resultou precisamente em uma reta! Isso
significa que a correlação linear é perfeita! Como esta reta, vista da esquerda para a direita, está
subindo, significa que o sinal da correlação é positivo!
Quanto mais um Diagrama de Dispersão se afastar do desenho de uma reta, mais
distante de 1 será o valor da Correlação.
E caso o Diagrama resulte em uma reta, a qual, vista da esquerda para a direita, esteja
descendo, teremos um caso de correlação negativa!
O fato é que a Correlação jamais será maior que 1 ou menor que -1. Oscilará sempre
neste intervalo.
Antes de passarmos à resolução de questões de provas passadas, convém comentarmos
que existe uma propriedade da Correlação, que vale a pena ser vista. É a seguinte:
“A Correlação não é influenciada (não se altera) por operações de soma, subtração,
produto ou divisão.” Ou seja: r(AX± B, CY± D) = r(X,Y)
Penso que já estamos aptos a resolver algumas questões de provas passadas sobre
Correlação. Vamos a elas.

(AFTN-96) Considere a seguinte tabela, que apresenta valores referentes às variáveis x


e y, porventura relacionadas:
Valores das variáveis x e y relacionadas
X y x2 y2 xy
1 5 1 25 5
2 7 4 49 14
3 12 9 144 36
4 13 16 169 52
5 18 25 324 90
6 20 36 400 120
21 75 91 1.111 317

Marque a opção que representa o coeficiente de correlação linear entre as variáveis x e


y.
a) 0,903
b) 0,926
c) 0,947
d) 0,962
e) 0,989

Sol.: Veja que a tabela apresentada pela prova já foi exatamente aquela que facilita a nossa
Cov ( X , Y )
vida! Vamos calcular, pedaço por pedaço, o valor do r, lembrando-nos que: rX ,Y =
S X .S Y
Teremos:

 Calculando a Covariância: Cov ( x, y ) =X .Y −X .Y .

X .Y =
∑Xi .Yi =
317
= 52 ,83 ; X =
∑ Xi = 21 = 3,5 ; e Y = ∑Yi = 75 = 12 ,5
n 6 n 6 n 6

Logo: Cov(x,y)=52,83-(3,5).(12,5)  Cov(x,y)=9,08

 Calculando as Variâncias de X e de Y:
9

 S2X = X 2 − X ( ) 2
 S X =
2  91 
6 
 − ( 3,5) = 15,16 −12 ,25 = 2,91 e
2

 S 2Y = Y 2 − Y ( ) 2
 S Y =
2  1111 
 6
 − (12 ,5) = 185 ,16 −156 ,25 = 28 ,91

2

 Calculando os Desvios Padrões de X e de Y:

 SX = S 2X ⇒ SX = 2,91 e

 SY = S 2 Y ⇒ SX = 28 ,91

 Calculando a Correlação:
Cov ( X , Y ) 9,08 9,08 9,08
rX ,Y = ⇒ rX ,Y = = = = 0,989  Resposta!
S X .S Y 2,91 . 28 ,91 84 ,128 9,172

Caso alguém aí prefira mesmo memorizar aquela fórmula maior, e aplicá-la, vai chegar
exatamente ao mesmo resultado. Façamos isso.

n.∑ X i .Yi − ( ∑ X i ).( ∑Yi )


 rX ,Y =
[n.∑ X i − (∑ X i ) 2 ].[ n.∑Yi − (∑Yi ) 2 ]
2 2

6 x317 − 21 x75 (1902 −1575 ) 327


Daí: rX ,Y = = =
[6 x91 − ( 21) ].[ 6 x1111 − (75 ) ]
2 2
[546 − 441 ].[ 6666 − 5625 ] 105 x1041

327 327
rX ,Y = = = 0,989  Resposta!
109305 330 ,61

E aí? Tem um bom?


Tem, sim! Vejamos essa próxima questão:

(BACEN-98) Duas variáveis aleatórias X e Y têm coeficiente de correlação linear igual a


0,8. O coeficiente de correlação linear entre as variáveis 2x e 3x é:
a) 0,8
b) 0,53
c) 0,27
d) 0,32
e) 0,4

Sol.: Essa aqui é para ninguém zerar na prova! Claro! Bastava que nos lembrássemos da
propriedade da Correlação, que vimos acima.
Ora, se r(X,Y)=0,8  significa que r(2X,3Y)=0,8 também!
Ou seja, mesmo que multipliquemos (ou dividamos, somemos ou diminuamos) a variável
X (ou a variável Y) por qualquer constante, então a correlação não muda!
Daí: r(2X,3Y)=0,8  Resposta!

(BACEN-94) O coeficiente de correlação linear entre x e y é r. Se y=4-2x, então:


10
a) r=1
b) 0<r<1
c) r=0
d) -1<r<0
e) r=-1

Sol.: Essa também foi muito fácil! Reparemos que as duas variáveis, X e Y, estão relacionadas
entre si por uma equação. Alguém reconhece que tipo de equação é essa?
Equação de uma reta! Claro!
E se o diagrama de dispersão resulta numa reta, não teremos dúvida de concluir que a
correlação é perfeita! Só resta descobrir se o sinal da correlação é positivo ou negativo.
Para isso, basta uma análise muito breve.
Sabemos que a correlação é positiva se uma variável aumentar e a outra também; ou se
uma variável diminuir e a outra também.
Será negativa se as variáveis oscilarem em sentidos opostos: uma aumentar e a outra
diminuir (e vice-versa).
Daí, se a equação fornecida foi a seguinte: y=4-2x, podemos fazer uma pequena tabela
de valores:
 Se x=0  y=4-2.(0)  y=4
 Se x=1  y=4-2.(1)  y=2
 Se x=2  y=4-2.(2)  y=0
E assim por diante. Ou seja, enquanto o X aumenta, o Y diminui.
Conclusão: Teremos que r=-1  Resposta!

Dever de Casa
Vou deixar uma questãozinha para vocês brincarem em casa. É a seguinte:
(AFC-94) A tabela abaixo apresenta o número de unidades produzidas (P) por 10 operadores de
uma fábrica e o número de unidades produzidas com defeitos (D).
Operador Produção Defeituosa
(i) (Pi) (Di)
2 94 4
3 98 5
4 106 6
5 114 7
6 107 6
7 93 5
8 98 6
9 88 4
0 103 7
10 95 5

Da tabela foram obtidos os seguintes valores:

∑Pi =996 ; ∑Pi 2


=99752 ; ∑( Pi −P ) 2 =550 ,4

∑Di =55 ; ∑Pi 2


=313 ; ∑( Di −D ) 2 =10 ,5

∑Pi .Di =5543 ; ∑( Pi −P ).( Di −D ) =65

O coeficiente de correlação entre P e D é:


a) -0,855 b) -0,731 c) 0,0000 d) 0,855 e) 0,731
É isso! Por hoje é só!
Procurarei outras questões de Correlação, e as resolveremos numa próxima aula. Ok?
11
Um forte abraço a todos! E fiquem com Deus!