Você está na página 1de 12

CORRELAO Aqui me tens de regresso

O assunto Correlao fez parte, acompanhado de Regresso, do programa de Auditor Fiscal, at 1998, desaparecendo a partir do concurso do ano 2000 para agora retornar sozinho. Mesmo sabendo que Regresso no faz mais parte do programa, devemos, pelo menos, entender a diferena entre Correlao e Regresso, que so assuntos prximos, mas no so a mesma coisa. A CORRELAO mede a fora, a intensidade ou grau de relacionamento entre duas ou mais variveis. A REGRESSO fornece uma equao que descreve esse relacionamento em termos matemticos. Para um modelo linear simples podemos encontrar essa equao (chamada de equao

da reta ajustante e igual a: Y = + X ) pelo Mtodo dos Mnimos Quadrados e atravs dessa equao poder estimar valores no observados da varivel Y. Os valores de (coeficiente angular da reta) e de (intercepto) sero calculados com base nas observaes de X e de Y. claro que s poderemos estabelecer um modelo de regresso entre duas (regresso simples) ou mais (regresso mltipla) variveis se estas forem dependentes, ou seja, o valor de Y depende do valor de X e nesse caso existe correlao entre X e Y (correlao diferente de zero), pois as variveis se relacionaro. Se as variveis forem independentes, (no h relacionamento entre elas), no existir correlao (correlao nula ou ausncia de correlao) e nesse caso no poderemos estabelecer um modelo de regresso. A Correlao entre duas variveis pode ser: 1) POSITIVA (Correlao Direta) Quando, para valores altos de uma varivel

correspondero valores altos para outra e para valores baixos de uma, associaremos tambm valores baixos para outra. Nesse caso, o valor do Coeficiente de Correlao entre X e Y ( xy ) estar entre 0 (exclusive) e 1 (inclusive), ou seja, 0 < xy 1 . Quando xy = 1, dizemos que a Correlao entre X e Y Direta e Perfeita. Assim, para cada aumento na varivel X, a varivel Y aumentar na mesma proporo. Exemplos de correlao direta: salrio e investimento em poupana (em geral quanto maior for o salrio maior ser o valor poupado); idade e presso arterial (em geral, as pessoas mais idosas tm maior presso arterial); nota em Matemtica e nota em Estatstica (geralmente as pessoas com maior dificuldade em Matemtica, notas baixas, tero maior dificuldade em Estatstica, apresentando tambm, notas baixas); 2) NEGATIVA (Correlao Inversa) Quando as variveis tm sentidos opostos, ou

seja, medida que X aumenta, o valor de Y diminui. Nesse caso, o valor do Coeficiente de Correlao entre X e Y ( xy ) estar entre 1 (inclusive) e 0 (exclusive), ou seja, 1 xy < 0 .
CORRELAO.doc Pedro Bello www.editoraferreira.com.br Pgina 1

Quando xy = 1, dizemos que a Correlao entre X e Y perfeitamente inversa e assim, a cada aumento da varivel X, a varivel Y diminuir na mesma proporo. Um exemplo de Correlao Inversa: considerando automveis de mesmo ano, marca e modelo, quanto maior for a quilometragem do veculo, menor ser o preo de venda. 3) NULA (ausncia de correlao) Quando no possvel estabelecer uma relao entre as variveis X e Y, e nesse caso xy = 0. o que ocorre quando as VARIVEIS forem INDEPENDENTES. Analisando os trs casos possveis com relao Correlao, vemos que o seu coeficiente ( xy ) varia apenas no intervalo de 1 at 1, ou seja, xy = [1; +1]. A Correlao ser forte (positiva ou negativamente) quando estiver prxima de 1 ou de 1, e fraca quando estiver prxima de zero. Abaixo, temos os diagramas de disperso para os trs tipos de correlao descritos anteriormente:

Extrados do livro Estatstica Aplicada Administrao William J. Stevenson Editora Harbra.

CORRELAO.doc

Pedro Bello www.editoraferreira.com.br

Pgina 2

Uma frmula para encontrar o valor do Coeficiente de Correlao Linear Simples dada por: xy = n XY X Y n X
2 2 2 ( X ) n Y 2 ( Y )

, onde n o nmero de pares de observaes.

Mas essa frmula pode ser resumida por: xy =

COV( x, y ) ou seja: x y

a Covarincia entre X e Y dividida pelo produto dos desvios padres de X e de Y. Observe que, na 1 frmula dada, no denominador temos: n X 2 ( X )2 que nada mais do que n x ; e n Y 2 ( Y )2 que nada mais do que n y ; Observe agora que o numerador da 1 frmula :

n XY X Y que nada mais do que n 2 COV ( x, y ) .


Ento, substituindo n XY X Y por n 2 COV ( x, y ) , n Y 2 ( Y )2 por n y teremos: xy =
n 2 COV( x, y ) . n x n y
COV ( x, y ) , que bem mais x y

n X 2 ( X )2 por n x e

Dividindo o numerador e o denominador por n2, fica: xy =

fcil de guardar do que a 1 frmula. Ento, importante saber que a Covarincia entre X e Y nada mais do que a esperana conjunta de X e Y menos o produto das esperanas individuais, ou seja: COV ( x, y ) = E[XY ] E[X] E[Y ] . Provando que as transformaes esto corretas: E[XY] =

XY ; E[X] = X
n n n

e E[Y ] =

Y .
n COV( x, y ) =

Assim, COV( x, y ) =

XY X Y
n n

XY X Y .
n n2

Multiplicando por n2 ambos os membros da igualdade:


XY n 2 COV ( x, y ) = n 2 n

XY
n
2

2 n COV( x, y ) = n XY X Y

A varincia de X dada por:

2 x

1 = X 2 n

( X )2
n

.
1 2 X n

Multiplicando por n2 ambos os membros da igualdade fica: n 2 2 = n 2 x


= n X 2
2 2 2 n x = n X ( X ) n Pedro Bello www.editoraferreira.com.br

( X )2
n

Logo: n

2 x

( X )2

CORRELAO.doc

Pgina 3

2 2 Portanto, o desvio padro de X ser: n x = n X ( X ) 2 2 O mesmo procedimento ser vlido para provar que: n y = n Y ( Y )

Qual das duas frmulas utilizar? xy = n XY X Y n X 2 ( X ) n Y 2 ( Y )


2 2

ou xy =

COV ( x, y ) ? x y

Como j comentado anteriormente, ambas so equivalentes, mas a segunda bem mais fcil de guardar do que a primeira. Para decidir qual das duas usar, depender dos dados fornecidos na questo que for proposta, mas em qualquer uma das duas frmulas o ideal comear calculando o numerador, pois se as variveis forem independentes, a covarincia ser igual a zero e podemos responder que a correlao tambm ser zero, sem necessidade de clculo das varincias de X e de Y, o que j evitar trabalho e perda de tempo. Veja na segunda frmula, xy =
COV( x, y ) , que o denominador ser sempre positivo, x y

pois cada desvio padro a raiz quadrada positiva da varincia (no existe desvio padro negativo). Ora, o produto de dois valores positivos sempre ser positivo. O que ir determinar se a Correlao ser positiva, negativa ou nula, ser a Covarincia, pois se: 1) COV(x,y) > 0 xy = 2) COV(x,y) = 0 xy = 3) COV(x,y) < 0 xy =

+ xy > 0 + 0 xy = 0 + xy < 0 +

E quando a covarincia ser positiva, negativa ou nula? Depender do valor da esperana conjunta e dos valores das esperanas individuais, pois sabemos que: COV ( x, y ) = E[XY ] E[X] E[Y ] Logo, se:
E[XY ] > E[X ] E[Y ] COV ( x, y ) > 0 E[XY ] = E[X ] E[Y ] COV ( x, y ) = 0 E[XY ] < E[X] E[Y ] COV ( x, y ) < 0

Embora o nosso foco principal seja Correlao, importante saber que, quando xy 0 , podemos estabelecer a reta de regresso, dada por: Y = + X . Quando xy > 0 , o valor do coeficiente angular da reta ( ) tambm ser positivo e a reta ter inclinao para cima. Quando xy < 0 , o valor do coeficiente angular da reta ( ) tambm ser negativo e a reta ter inclinao para baixo (veja os diagramas de disperso mostrados anteriormente). CORRELAO.doc
Pedro Bello www.editoraferreira.com.br

Pgina 4

Vejamos um exemplo numrico para melhor entendimento: Abaixo temos uma tabela com as notas obtidas por 10 alunos em Matemtica (varivel X) e Estatstica (varivel Y):
ALUNO A B C D E F G H I J X 6 5 9 10 3 4 8 7 6 2 Y 7 6 10 9 2 3 9 5 6 3

Sem fazer clculo algum, podemos entender que dever haver relao entre essas variveis, ou seja, o aluno que tem dificuldade em Matemtica dever ter dificuldade tambm em Estatstica, que uma disciplina que depende essencialmente da Matemtica. Portanto para valores altos de X teremos associados valores altos em Y e para valores baixos em X valores baixos em Y (correlao direta). Vejamos ento se a covarincia diferente n de zero, n lembrando e E[Y ] = que

COV ( x, y ) = E[XY ] E[X] E[Y ] . Lembrando ainda que: E[XY] =

XY ; E[X] = X

Y .
n

Vamos ento calcular, na tabela dada, esses somatrios:


ALUNO A B C D E F G H I J TOTAL X 6 5 9 10 3 4 8 7 6 2 60 Y 7 6 10 9 2 3 9 5 6 3 60 XY 42 30 90 90 6 12 72 35 36 6 419

Assim, E[XY] =

419 60 60 = 41,9 ; E[X] = = 6 e E[Y ] = =6 10 10 10

Portanto, COV ( x, y ) = 41,9 6 6 COV ( x, y ) = 41,9 36 COV ( x, y ) = 5,9 . Observamos que, como j havamos previsto, h uma correlao direta entre X e Y, pois COV(x,y) > 0 e assim sendo, xy > 0 . Vamos ento avaliar o grau, a fora ou intensidade desse relacionamento calculando o Coeficiente de Correlao entre X e Y. Se tivssemos obtido COV(x,y) = 0 nem calcularamos as varincias, pois se o numerador fosse igual a zero, xy seria igual a zero.

CORRELAO.doc

Pedro Bello www.editoraferreira.com.br

Pgina 5

Precisamos agora, calcular as varincias de X e de Y para obter os seus desvios padres. Completando a tabela anterior com os quadrados de X e de Y, temos:
ALUNO A B C D E F G H I J TOTAL X 6 5 9 10 3 4 8 7 6 2 60
2

Y 7 6 10 9 2 3 9 5 6 3 60

XY 42 30 90 90 6 12 72 35 36 6 419

X2 36 25 81 100 9 16 64 49 36 4 420

Y2 49 36 100 81 4 9 81 25 36 9 430

V [ X] =

( X) 1 2 X n n

(60)2 V[ X] = 1 {420 360} V[ X] = 60 = 6. 1 420 V [ X] = 10 10 10 10 (60)2 V[ Y] = 1 {430 360} V[ Y] = 70 = 7. 1 430 V[ Y ] = 10 10 10 10

V[ Y ] =

( Y ) 1 2 Y n n
xy =

Podemos agora calcular o Coeficiente de Correlao, utilizando a frmula mais simples


COV( x, y ) xy = x y

5,9 6 7

xy =

5,9 42

xy = 0,91039 , o que indica haver

uma forte correlao entre estas variveis. Considerando que o assunto Regresso no faz parte do programa de Auditor Fiscal, mas apenas Correlao, no vamos nos aprofundar no assunto, mas importante saber que, como j dito no incio, a equao de regresso ( Y = + X ) permitir fazermos estimativas para valores que constam e, principalmente, para valores que no constam do conjunto de

observaes. importante notar tambm que, para calcular o valor de (intercepto),


precisaremos calcular primeiro o valor de . Para calcular o da equao, temos a frmula:
n XY X Y . Mas, se j calculamos o valor do Coeficiente de Correlao e os = 2 n X 2 ( X )

valores dos desvios de X e de Y, fica bem mais fcil usar uma frmula equivalente:
= xy y x

7 . No exemplo dado, ser igual a: = 0,91 0,98 6

Conhecendo o valor de , podemos encontrar o valor de fazendo (pelas propriedades


Y X . da mdia): Y = + X = Y X . Ou usar a frmula equivalente: = n

No nosso exemplo, Y = 6 , X = 6 e = 0,98 . Logo: = 6 0,98 6 = 0,12

Assim, a equao da reta de regresso ser dada por: Y = 0,12 + 0,98 X . CORRELAO.doc Pedro Bello Pgina 6 www.editoraferreira.com.br

Com esta equao obteremos as seguintes estimativas para Y em funo do valor de X:


ALUNO A B C D E F G H I J X foi igual a: A estimativa para Y ser: Y = 0,12 + (0,98 6 ) Y = 6,00

6 5 9 10 3 4 8 7 6 2

Y = 0,12 + (0,98 5 ) Y = 5,02 Y = 0,12 + (0,98 9 ) Y = 8,94 Y = 0,12 + (0,98 10 ) Y = 9,92 Y = 0,12 + (0,98 3 ) Y = 3,06 Y = 0,12 + (0,98 4 ) Y = 4,04 Y = 0,12 + (0,98 8 ) Y = 7,96 Y = 0,12 + (0,98 7 ) Y = 6,98 Y = 0,12 + (0,98 6 ) Y = 6,00 Y = 0,12 + (0,98 2) Y = 2,08

Um dos pressupostos bsicos da regresso que o valor esperado dos resduos (diferena entre o valor real e o valor estimado) seja igual a zero. Vamos verificar que isto ocorre no nosso exemplo, pois: Aluno A B C D E F G H I J X 6 5 9 10 3 4 8 7 6 2 Y (real) 7 6 10 9 2 3 9 5 6 3 Y (estimado)
6 5,02 8,94 9,92 3,06 4,04 7,96 6,98 6 2,08

Resduos: Y Y 1,00 0,98 1,06 0,92 1,06 1,04 1,04 1,98 0,00 0,92
0,00

SOMA DOS RESDUOS

Usando a equao que encontramos para a reta, podemos fazer diversas estimativas, como por exemplo, podemos estimar que: a) Um aluno que tirou 1 em Matemtica obteria: Y = 0,12 + (0,98 1) = 1,10 em Estatstica; b) Um aluno que tirou 3,5 em Matemtica obteria: Y = 0,12 + (0,98 3,5 ) = 3,55 em Estatstica; c) Um aluno que tirou 8,5 em Matemtica obteria: Y = 0,12 + (0,98 8,5 ) = 8,45 em Estatstica; CORRELAO.doc
Pedro Bello www.editoraferreira.com.br

Pgina 7

A seguir, vemos o grfico de disperso para os valores observados de X e de Y e os valores estimados pela reta de regresso:
Grfico de Disperso entre a Nota em Estatstica (Y) e a Nota em Matemtica (X)
10

Y = 0,98x + 0,12

Nota obtida em Estatstica

0 0 1 2 3 4 5 6 7 8 9 10

Nota obtida em Matemtica

Neste exemplo, fica difcil buscar valores a estimar porque a varivel nota, em geral, fica limitada entre zero e dez. Vamos utilizar outro exemplo, apenas para fazer estimativas, sendo j fornecidos o Coeficiente de Correlao e a equao de regresso. A tabela abaixo indica as idades (X) e as presses arteriais (Y) de 12 mulheres:
IDADE (X) PRESSO ARTERIAL (Y)

56 42 72 36 63 47 55 49 38 42 68 60 147 125 160 118 149 128 150 145 115 140 152 155

Coeficiente de Correlao: xy = 0,8961 . Isto mostra um forte relacionamento entre as variveis X e Y.

Reta de regresso: Y = 80,78 + 1,138 X

Com base na equao de regresso, quais as estimativas de presso arterial para: a) Uma mulher de 45 anos? b) Uma mulher de 30 anos? c) Uma mulher de 70 anos? RESPOSTAS: a) 132 (131,988); b) 115 (114,9179); c) 160 (160,4381).

CORRELAO.doc

Pedro Bello www.editoraferreira.com.br

Pgina 8

ALGUMAS QUESTES - EXEMPLOS INTERESSANTES SOBRE O ASSUNTO:

Questo 1 [BACEN-98] Duas variveis X e Y tm coeficiente de correlao linear igual a 0,9. Obtendo-se a reta de regresso linear simples de Y sobre X, pode-se dizer que seu coeficiente angular:

(a) (b) (c) (d) (e)

Ser menor que 0,9 Ser maior que 0,9 Poder ser negativo Poder ser nulo Ser positivo

RESPOSTA: LETRA E. Esta extremamente fcil, mas s para comear. claro que, se o

coeficiente de correlao linear for positivo o coeficiente angular tambm ser positivo, pois a reta de regresso ter inclinao para cima.

Questo 2 [IBGE-99] Se X uma varivel aleatria e Y = 5 2X, ento o coeficiente de correlao linear entre X e Y igual a:

(a) (b) (c) (d) (e)

2,5 1,0 0 0,4 1,0

RESPOSTA: LETRA E. Tambm uma questo fcil. Basta ver que, se substituirmos X, na

equao dada, pelos valores 0, 1, 2, 3 por exemplo, vamos obter valores de Y iguais a, respectivamente, 5, 3, 1, 1, ou seja, esses pontos formaro uma reta inclinada para baixo e a cada aumento de 1 unidade em X, teremos uma reduo de 2 unidades em Y, o que nos mostra que h uma relao perfeitamente inversa. Logo o Coeficiente de Correlao s pode ser 1,0.

Questo 3 [SUSEP-94] Se as variveis aleatrias X e Y so tais que Y = 2X, o coeficiente de correlao linear entre X e Y tal que:

(a) (b) (c) (d) (e)

=1 =0 = 1 0<<1 1 < < 0

RESPOSTA: LETRA A. Nem preciso dizer que o raciocnio idntico ao da questo anterior,

com a diferena que, nesta, a cada aumento de 1 unidade em X, teremos um aumento de 2 unidades em Y, o que nos mostrar uma relao perfeitamente direta entre X e Y. Logo o Coeficiente de Correlao s pode ser igual a 1.

CORRELAO.doc

Pedro Bello www.editoraferreira.com.br

Pgina 9

Questo 4 [SUSEP-98] Considere X e Y duas variveis aleatrias com varincias de 4 e 1, respectivamente, e coeficiente de correlao igual a 1/4. A varincia de Z = (X + Y) : (a) 5 (b) 6 (c) 7 (d) 41/8 (e) 21/4 RESPOSTA: LETRA B. Ainda uma questo fcil, mas no to bvia como as anteriores. Veja que, se as varincias de X e Y so, respectivamente, 4 e 1, os desvios padres sero respectivamente 2 e 1. Agora, peguemos aquela frmula do Coeficiente de Correlao em funo COV ( x, y ) . O valor do Coeficiente de da Covarincia dividida pelo produto dos desvios: xy = x y

Correlao (r), foi dado no enunciado e igual a 1/4. Substituindo na frmula, encontraremos o 1 COV( x, y ) 1 = COV( x, y ) = . Agora veja ( pgina 41 do meu livro valor da Covarincia, pois: 4 2 1 2 Estatstica Bsica para Concursos) que a Varincia da soma de duas variveis aleatrias dada por: V[X + Y] = V[X] + V[Y] + 2cov(x,y). A varivel Z definida como sendo a soma das variveis X 1 e Y, logo, V[Z] = V[X + Y] = 4 + 1 + 2 = 4 + 1 + 1 = 6. 2
Questo 5 [AFC-94] A tabela abaixo apresenta o nmero de unidades produzidas (P) por 10 operadores de uma fbrica e o nmero de unidades produzidas com defeitos (D). Operador (i) 1 2 3 4 5 6 7 8 9 10 Produo (Pi) Defeituosa (Di) 94 4 98 5 106 6 114 7 107 6 93 5 98 6 88 4 103 7 95 5

Da tabela foram obtidos os seguintes valores:

Pi
i=1

10

= 996 = 55

Pi
i=1 10 i=1

10

= 99.752
2

(P P)
10 i=1 i 10 i=1

= 550,4
2

(Pi P) (Di D) = 65
10 i=1

Di
i=1

10

Di

= 313

(Di D)

= 10,5

PiDi
i=1

10

= 5.543

O coeficiente de correlao linear entre P e D : (a) 0,855 (b) 0,731 (c) 0,000 (d) 0,731 (e) 0,855

CORRELAO.doc

Pedro Bello www.editoraferreira.com.br

Pgina 10

RESPOSTA: LETRA E. Nesta questo, como so fornecidos os valores de todos os somatrios possveis, fica melhor de usar a primeira frmula dada para encontrar o valor do Coeficiente de n PD P D Correlao entre P e D: PD = e encontrar 0,85503. 2 2 n P 2 ( P ) n D 2 ( D ) Questo 6 [IBGE-2002] X e Y so duas variveis aleatrias com varincias 144 e 64 respectivamente. Assinale o item que NO indica um valor possvel para a covarincia entre X e Y.

(a) (b) (c) (d) (e)

87,5 18,7 0 0,3 100

RESPOSTA: LETRA E. Uma tima questo, muito inteligente e bem bolada.

V[X] = 144 X = 12 ; V[Y] = 64 y = 8 ;

Temos ento que: X y = 96

Sabemos que o Coeficiente de Correlao (xy) varia apenas no intervalo [1; 1] e que
xy = COV ( x, y ) . Logo, temos 2 hipteses: xy = 1 ou xy = 1. x y

Se xy = 1 COV( x, y ) = xy X y COV ( x, y ) = 96 . Se xy = 1 COV( x, y ) = xy X y COV ( x, y ) = 96 .


O nico valor fora desse intervalo 100.

COV( x, y ) = [ 96;96]

Questo 7 [IBGE-2002] Os dados a seguir apresentam os investimentos (em milhares de reais) e os lucros (em milhares de reais) no ano seguinte realizados por cinco empresas escolhidas aleatoriamente: Empresa Investimento Lucro

1 2 3 4 5

10 15 5 12 18

1,5 2,0 0,5 1,5 2,5

O coeficiente de correlao linear amostral destes dados , aproximadamente, igual a: (a) (b) (c) (d) (e) 0,74 0,26 0,48 0,72 0,98

RESPOSTA: LETRA E. Use uma das duas frmulas para calcular o Coeficiente de Correlao

entre o Investimento (X) e o Lucro (Y), e encontre aproximadamente 0,9875.


CORRELAO.doc
Pedro Bello www.editoraferreira.com.br

Pgina 11

Questo 8 O coeficiente de correlao entre duas variveis, X e Y, r = 0,60. Se S x = 1,50 ,

S y = 2 , X = 10 e Y = 20 , determinar as equaes das retas de regresso de: a) Y para X; b) X para Y.


RESPOSTAS:
a) Y para X: = r y x
2 1,20 = 0,80 = 0,60 = 1,50 1,50

= Y X = 20 0,8 10 = 20 8 = 12 . Logo, Y = 12 + 0,8 X

150 , 0,90 = 0,45 = b) X para Y: = r x = 0,60 2 2 y


= X Y = 10 0,45 20 = 10 9 = 1 . Logo, X = 1 + 0,45Y

Questo 9 Com base na questo anterior, calcular: a) O erro padro da estimativa de Y para X, S yx ;

b) O erro padro da estimativa de X para Y, S xy .


RESPOSTAS:

a) S yx = S y 1 r 2 S yx = 2 1 0,60 2 S yx = 2 0,64 S yx = 1,60

, b) S xy = S x 1 r 2 S xy = 15 1 0,60 2 S xy = 1,5 0,64 S xy = 1,20

Questo 10 Se S yx = 3 e S y = 5 , determinar r. RESPOSTA:

S yx = S y 1 r 2 3 = 5 1 r 2 0,60 = 1 r 2 1 r 2 = 0,36 r 2 = 0,64 r = 0,80

Questo 11 Se o coeficiente de correlao entre X e Y 0,50, que percentagem da variao total permanece no-explicada pela equao de regresso? RESPOSTA: O Coeficiente de Determinao, que mede o grau de explicao da varivel Y pela

varivel X, se Y for dependente de X, dado por: r2. A variao no-explicada ser dada por: 1 r2. Logo, se r = 0,50, ento 1 r2 = 1 0,52 = 1 0,25 = 0,75 = 75%.

DESEJO BONS ESTUDOS E EXCELENTE PROVA DE ESTATSTICA A TODOS!


PROFESSOR PEDRO BELLO

CORRELAO.doc

Pedro Bello www.editoraferreira.com.br

Pgina 12