Você está na página 1de 11

Análise de

Correlação e
Regressão Linear
Professor Cleber Giugioli Carrasco
Câmpus Central – Sede: Anápolis – CET
Universidade Estadual de Goiás – UEG
Professor Cleber Carrasco

Análise de Correlação

Em certos problemas, à vezes é preciso estudar a relação entre duas


variáveis. Por exemplo: a pressão arterial poder estar relacionada com a
idade (peso) das pessoas; reclamações de clientes podem estar
relacionada com a qualidade do produto. Dessa forma, surge a
necessidade de estudar a relação entre essas variáveis.

Nesses problemas vamos considerar duas variáveis quantitativas X e


Y e, que cada unidade amostral (indivíduo ou objeto) fornecerá dois
valores numéricos, um referente a variável X e outro a variável Y.

A variável Y é chamada de variável dependente (resposta) e X é


chamada de variável independente (explicativa). Por exemplo: pressão
arterial está relacionada com a idade, então pressão arterial é a variável
dependente (resposta) e idade é a variável independente (explicativa).
Professor Cleber Carrasco

Uma maneira de verificar a relação entre duas variáveis é fazer um


gráfico conhecido como diagrama de dispersão. Esse gráfico permite
visualizar a relação entre duas variáveis. Se X e Y crescem no mesmo
sentido, existe uma correlação positiva entre as variáveis. Se X e Y
variam em sentidos opostos, existe uma correlação negativa entre as
variáveis. Se X cresce e Y varia ao acaso, então não há correlação entre
as variáveis ou ela é nula.
Diagrama de Dispersão - Correlação Positiva
12

10

8
Y

0
0 1 2 3 4 5 6
X
Professor Cleber Carrasco
Diagrama de Dispersão - Correlação Negativa
12

10

Y
6

0
0 1 2 3 4 5 6
X

Diagrama de Dispersão - Correlação Nula


7

4
Y

0
0 1 2 3 4 5 6
X
Professor Cleber Carrasco

Exemplo: Considerando os dados da tabela a seguir, a quantidade de


vitamina C em goiabas liofilizadas* diminui em função do tempo de
armazenamento?
Tempo de Armazenamento
0 15 30 45 60 75 90 105 120 135 150 165
(em dias)
Teor de Vitamina C
780 777 774 772 769 765 762 759 759 757 756 755
(em mg/100g)
*Liofilização: processo de secagem realizado a baixa pressão e a baixa temperatura.
Y (dependente/resposta): Teor de Vitamina C.
X (independente/explicativa): Tempo de armazenamento.
785

780

775
Teor de Vitamina C

770 Correlação Negativa


765

760

755

750
0 20 40 60 80 100 120 140 160 180
Tempo de Armazenamento
Professor Cleber Carrasco

Coeficiente de Correlação

É uma medida do grau de correlação entre duas variáveis. Esse


coeficiente é adimensional e varia entre – 1 e 1, inclusive. O coeficiente
de correlação dado por r, é definido por:

 x i yi  x y
x y
i i

n i i  nxy
r r
  xi   
2
 yi  
2 ou  x 2

 nx 2 .  y i2  ny 2 
 x i  . yi 
i
2 2

 n   n 

Exemplo: Qual o grau de correlação entre a quantidade de vitamina C e


o tempo de armazenamento das goiabas liofilizadas?
Professor Cleber Carrasco

Tempo de Armazenamento
0 15 30 45 60 75 90 105 120 135 150 165
(em dias)
Teor de Vitamina C
780 777 774 772 769 765 762 759 759 757 756 755
(em mg/100g)

x y xy x2 y2
0 780 0 0 608400
15 777 11655 225 603729
30 774 23220 900 599076
45 772 34740 2025 595984
60 769 46140 3600 591361
75 765 57375 5625 585225
90 762 68580 8100 580644
105 759 79695 11025 576081
120 759 91080 14400 576081
135 757 102195 18225 573049
150 756 113400 22500 571536
165 755 124575 27225 570025
990 9185 752655 113850 7031191

x y 990 * 9185
 x i yi  i

n
i
752655 
12
r r = – 0,9831
 x
 x i2   i
 2
  y
. yi2   i
2



113850 
990   
2

 * 7031191 
9185  
2


 12   12 
 n   n 

(correlação negativa)
Professor Cleber Carrasco

Regressão Linear Simples

Muitas vezes a posição dos pontos no diagrama de dispersão sugere


a existência de uma relação funcional entre as duas variáveis. Se os
pontos ficam dispersos em torno de uma reta, é razoável traçar uma reta
entre esses pontos. Esse é o objetivo da regressão linear simples.

40

35

30 reta ajustada
25 ou de
20
mínimos quadrados
Y

15

10

0
0 1 2 3 4 5 6 7 8 9
X
Professor Cleber Carrasco

A determinação dos parâmetros dessa reta é denominada ajustamento. A


reta ajustada ou de mínimos quadrados é representada por Ŷ  â  b̂X ,
onde os parâmetros a e b são estimados pelo método dos mínimos
quadrados, através de:

 x  y 
x y
i i  i

n
i

â  Y  b̂X e b̂ 
 x i 2
x 2
i 
n

Exemplo: Obter a equação da reta de mínimos quadrados (regressão)


para a quantidade de vitamina C e o tempo de armazenamento das
goiabas liofilizadas.
Professor Cleber Carrasco

x y xy x2 y2
0 780 0 0 608400
15 777 11655 225 603729
30 774 23220 900 599076
 x  y 
 x i yi
45 772 34740 2025 595984 i i
60 769 46140 3600 591361 
75 765 57375 5625 585225 â  Y  b̂X e b̂  n
90 762 68580 8100 580644
 x i 2
105
120
759
759
79695
91080
11025
14400
576081
576081 x 2
i 
n
135 757 102195 18225 573049
150 756 113400 22500 571536
165 755 124575 27225 570025
990 9185 752655 113850 7031191

990 * 9185
752655 
b̂  12  0,1587
113850 
990
2

12

â  765,42   0,1587 * 82,50  778,51


990 9185
x  82,5 e y   765,42
12 12

Portanto, a equação da reta de mínimos quadrados (regressão) é igual a:

Ŷ  778,51  0,1587 X
Professor Cleber Carrasco

Tempo de Armazenamento
0 15 30 45 60 75 90 105 120 135 150 165
(em dias)
Teor de Vitamina C
780 777 774 772 769 765 762 759 759 757 756 755
(em mg/100g)

785

780 Ŷ  778,51  0,1587 X


775
Teor de Vitamina C

770

765

760

755

750
0 20 40 60 80 100 120 140 160 180
Tempo de Armazenamento
r = −0,9831

Qual o teor de vitamina C esperado para um tempo de armazenamento


de 50 dias?
Ŷ  778,51  0,1587 * 50  771 (mg/100g)

Você também pode gostar