Você está na página 1de 6

UNIDADE VI: CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

6.1 – INTRODUÇÃO

Correlação e regressão são duas técnicas estreitamente relacionadas que envolvem uma
forma de estimação. A diferença entre essas duas técnicas e o tipo de estimação, estudados
anteriormente, é que as anteriores foram utilizadas para estimar um único parâmetro, enquanto as
técnicas apresentadas agora se referem a estimação de uma relação que possa existir na
população.
A análise de correlação dá um número que resume o grau de relacionamento entre duas
variáveis e, a análise de regressão tem como resultado uma equação matemática que descreve o
relacionamento entre elas. Esta equação é utilizada para estimar ou predizer valores futuros de
uma variável quando se conhece os valores da outra variável. A análise de correlação é útil em
trabalhos exploratórios, ou quando um pesquisador procura determinar quais variáveis são
potencialmente importantes, sendo que o interesse está no grau ou força do relacionamento. Esta
técnica é utilizada quando não há dependência funcional entre as variáveis, embora possam ser
correlacionadas.
Existem situações nas quais interessa estudar o comportamento conjunto de duas
variáveis. Por exemplo, dados de peso e altura de pessoas. Pode haver interesse em estabelecer
em que medida aumenta o peso, quando a altura aumenta. O comportamento conjunto de duas
variáveis quantitativas pode ser observado graficamente através do Diagrama de Dispersão, e
numericamente através do Coeficiente de Correlação.

 O termo CORRELAÇÃO significa até que ponto duas variáveis estão correlacionadas entre si.

7.2 – CORRELAÇÃO

O objetivo do estudo da correlação é a determinação do grau de relacionamento entre


duas variáveis emparelhadas. O termo “correlação” significa “co-relacionamento”, pois indica
até que ponto os valores de uma variável estão relacionados com os da outra.
Se os pontos observados das variáveis, digamos (X, Y) representados num diagrama de
dispersão parecem cair próximos a uma reta, dizemos que temos uma correlação linear.

6.2.1 – DIAGRAMA DE DISPERSÃO

O diagrama de dispersão é um dispositivo gráfico utilizado para verificar o grau de


associação, correlação ou dependência entre duas variáveis. Dizemos que a correlação é positiva
se a tendência é crescente. A correlação é negativa se a tendência é decrescente e é nula se não se
observa tendência alguma. Portanto,

 Correlação Positiva: as variáveis X e Y crescem no mesmo sentido.


 Correlação Negativa: as variáveis X e Y variam em sentidos contrários, ou seja, quando
X cresce, Y em média decresce.
 Correlação Nula: ausência de correlação.
OBS: Correlação positiva entre duas variáveis mostra apenas que essas variáveis crescem no
mesmo sentido. Não indica que aumentos sucessivos em X causam aumentos sucessivos em Y.

Profa. MSc. Gilmara Alves Cavalcanti


Procedimento:
1) Traçar o sistema de eixos cartesianos;
2) Representar uma variável no eixo X e a outra no eixo Y;
3) Colocar os valores das variáveis sobre os eixos e marcar um ponto para cada par de
valores;
 Graficamente a correlação pode se apresentar da seguinte forma:

Correlação Positiva Correlação Negativa Correlação Nula

Y Y Y

X X X

6.2.2 – COEFICIENTE DE CORRELAÇÃO

O coeficiente de correlação tem como objetivo mensurar o grau de correlação entre duas
variáveis. É definido como:

  X  Y 
 XY   
 n 
  r  Corr(X, Y)  ,  1  Corr(X, Y) 1

 X 
2
 X  
2

. Y 
2
 Y 
2


 n 

n 

 Corr (X,Y) = 1  X e Y tem correlação perfeita positiva; OBS1: A correlação é


 Corr (X,Y) = 0  X e Y tem correlação nula, são independentes; mais forte quanto mais
 Corr (X,Y) = – 1  X e Y tem correlação perfeita negativa; próxima for de – 1 ou de
1, nesse caso, os pontos
se aproximam ainda mais
Índice de Correlação Análise de uma reta.
0,75  Corr (X, Y)  1 Correlação Forte OBS2: Um coeficiente de
0,50  Corr (X, Y) < 0,75 Correlação Média correlação linear igual a
| Corr (X, Y) | < 0,5 Correlação Fraca zero não implica em
Corr (X, Y) = 0 Ausência Correlação ausência de relação entre
Corr (X, Y) > 0 Correlação Direta ou Positiva as duas variáveis, e sim
que há uma ausência de
Corr (X, Y) < 0 Correlação Inversa ou Negativa
relação linear entre as
Corr (X, Y) =  1 Correlação Perfeita duas variáveis.

Propriedades do Coeficiente de Correlação:


1. Este coeficiente é adimensional, logo não é afetado pelas unidades adotadas;
2. Apresenta duas propriedades que caracterizam a natureza da relação linear entre as
duas variáveis: uma é o sinal (+ ou –) e a outra é a magnitude;
3. O sinal é o mesmo que o do coeficiente angular de uma reta imaginária que se “ajusta”
aos dados se fossem traçados num diagrama de dispersão;
4. A magnitude indica o quão próximo da reta imaginária estão os pontos individuais;

Profa. MSc. Gilmara Alves Cavalcanti


6.2.3 – COEFICIENTE DE DETERMINAÇÃO (CD): Diz até que ponto a variação de Y é
explicada pela variação de X.
CD(X,Y) = [Corr(X,Y)]2.100

6.3 – REGRESSÃO LINEAR SIMPLES

Muitas vezes estamos interessados em estudar o comportamento conjunto de duas


variáveis, como visto anteriormente. Em outras situações, há interesse em estudar como uma
variável varia em função da outra. Por exemplo, considere a questão de idade e peso das
crianças. Normalmente existe o interesse em estudar como o peso varia em função da idade.
Quando se estuda a variação de uma variável Y em função de uma variável X, diz-se que
Y é a variável dependente (ou resposta) e que X é a variável independente (ou explanatória). No
caso do exemplo, sabe-se que o peso das crianças varia em função da idade. Então, peso é a
variável dependente (ou resposta) e idade é a variável independente (ou explanatória).
Muitas vezes a posição dos pontos no diagrama de dispersão sugere a existência de uma
relação funcional entre duas variáveis. Surge então o problema de determinar uma função que
exprima esse relacionamento, ou seja, tem-se um problema de regressão conforme denominação
introduzida por Fisher. A análise de regressão tem por objetivo descrever através de um modelo
matemático, a relação existente entre duas variáveis, a partir de n observações dessas variáveis.
Portanto, ao imaginar uma relação funcional entre duas variáveis, digamos X e Y,
estamos interessados numa função que explique grande parte da variação de Y por X, ou vice-
versa. Uma parcela, entretanto, permanece em geral sem ser explicada, e será atribuída ao acaso
(erro experimental).
Admita que a variável X seja suposta sem erro, ou seja, não aleatória, enquanto a variável
Y apresenta uma variação residual, a qual é responsável pela dispersão dos pontos experimentais
em torno da equação de regressão. Essa situação corresponde a experimentos em que os valores
de X são pré-fixados pelo experimentador, e por isso será chamada de variável independente
enquanto os valores de Y serão determinados experimentalmente, e Y é dita variável dependente.

Reta de Regressão: Para ajustar uma reta de regressão linear simples aos dados é preciso obter
os coeficientes angular e linear da reta.
  X  Y 
 XY   
 n 
 Coeficiente Angular (b) – dá a inclinação da reta: b 
 X 2

 X2  n
 Coeficiente Linear (a) – é a ordenada do ponto em que a reta corta o eixo das ordenadas.

a  Y  bX
Reta de Regressão: Ŷ  a  bX

A equação da reta de regressão permite calcular os valores de Ŷ para quaisquer valores de X


dentro do intervalo estudado, mesmo que esses valores não existam na amostra (Previsão).
Escolha da Variável Explanatória: Quando os valores de X são fixados a priori ajusta-se a
regressão de Y contra X. Mas nem sempre os valores de X são fixados a priori. Então, pode-se
ajustar a regressão de Y contra X, como a regressão de X contra Y. Para escolher entre as duas
regressões, é razoável identificar a variável que deve ser prevista, conhecido o valor da outra
variável. Ajusta-se a regressão de Y contra X toda vez que se pretende estudar a variação de Y
(prever Y), em função da variação de X.
Profa. MSc. Gilmara Alves Cavalcanti
OBSERVAÇÕES:
 As equações de regressão podem ser úteis quando usadas para predizer o valor de uma
variável, dado um valor determinado da outra variável;
 Só devemos utilizar a equação da reta de regressão se  indica a existência de uma
correlação linear significativa;
 Os dados amostrais emparelhados podem conter um ou mais pontos de influência
(outliers), os quais afetam fortemente o gráfico da reta de regressão;

Exemplo:

Suponha que 5 empresas de seguro de automóveis realizem um estudo para verificar a relação
existente entre o tempo de mercado e a quantidade de clientes atendidos. Sejam as variáveis:
X = número de anos de atendimento ao público e Y = número de clientes atendidos.
Após o levantamento dos dados os resultados abaixo foram observados. Aplique as técnicas de
correlação e regressão para verificar se há algum tipo de relação existente entre as variáveis
estudadas. Analise os resultados e faça previsões para 7 e 10 anos de mercado.

Anos de Atendimento (X) 2 4 5 6 8


Número de Clientes (Y) 48 56 64 60 72
Diagrama de Dispersão (X,Y)

X Y X.Y X2 Y2 80
Número de Clientes

2 48 96 4 2304 60
4 56 224 16 3136
40
5 64 320 25 4096
6 60 360 36 3600 20

8 72 576 64 5184 0
25 300 1576 145 18320 0 2 4 6 8 10
Anos de Atendimento

Diagrama de Dispersão: Correlação positiva entre as variáveis X e Y.

Coeficiente de Correlação: Correlação forte.


  X  Y 
 XY   
 n 
Corr ( X , Y )   0,95
 X 2   2  Y 2 
 X 2  

. Y 
 n 

n 

Coeficiente de Determinação: CD(X,Y)= [Corr(X,Y)]2 = (0,95)2 = 0,9025 = 90,25%

Reta de Regressão:

  X  Y 
 1576  
(25)(300 ) 
 XY    
 n   5   3,8
b 
 X 2
145 
( 25 ) 2
Reta de Regressão Estimada:
 X2  n 5
Ŷ  a  bX  41 (3,8 ).X

a  Y  bX  60  (3,8).(5)  41

Profa. MSc. Gilmara Alves Cavalcanti


Previsões: Se, X = 7 então, Ŷ = 67,6  68.
Se, X = 10 então, Ŷ = 79.

Conclusões: A partir dos resultados observados conclui-se que:


 Diagrama de Dispersão: As variáveis em estudo, anos de atendimento ao público e
número de clientes das 5 Empresas de Seguro de Automóveis, apresentam correlação
positiva entre si, ou seja, ambas crescem no mesmo sentido. Portanto, na medida que
aumenta no número de anos de atendimento (tempo de mercado) aumenta também o
número de clientes atendidos.
 Coeficiente de Correlação: O número de anos de atendimento das 5 empresas está
fortemente correlacionado com a quantidade de clientes atendidos.
 Coeficiente de Determinação: Cerca de 90,25% da variabilidade ocorrida quanto ao
número de clientes é devida à variabilidade decorrida dos anos de atendimento.
 Previsões: Estima-se que em 7 anos de atendimento, as 5 empresas atendem a
aproximadamente 68 clientes, ao passo que, para 10 anos de atendimento é possível
prever que essa estimativa passe a ser de 79 clientes.

LISTA DE EXERCÍCIOS (UNIDADE VI)

Nos exercícios a seguir verifique o comportamento conjunto das variáveis, de forma gráfica e
numérica e ajuste a reta de regressão de modo que se torne possível à realização de previsões
futuras. Para alcançar esse objetivo determine as medidas abaixo e analise os resultados obtidos.
a) Diagrama de Dispersão; d) Ajuste da Reta de Regressão;
b) Coeficiente de Correlação; e) Previsões;
c) Coeficiente de Determinação;

1. Os dados a seguir referem-se ao peso seco e ao peso úmido, em gramas, de glóbulos hepáticos
observados em uma amostra de ratos.
Peso Seco (X) Peso Úmido (Y)
2,0 6,7
2,2 7,7
2,0 6,5
2,2 7,4
1,9 6,1
2,3 7,4

2. Os dado a seguir referem-se a quantidade de procaína hidrolisada, em 10 moles/litro, no


sangue, em função do tempo decorrido após sua administração.
Tempo (min) Quantidade hidrolisada
2 3,5
3 5,7
5 9,9
8 16,3
10 19,3
12 25,7
14 28,2
15 32,6

Profa. MSc. Gilmara Alves Cavalcanti


Profa. MSc. Gilmara Alves Cavalcanti