Você está na página 1de 6

CORRELAÇÃO E REGRESSÃO

Em Estatística, quando estudamos uma variável, nosso interesse está nas medidas de tendência central,
de dispersão, de assimetria e curtose, etc. Com duas ou mais variáveis além destas medidas individuais
também é de interesse conhecer se elas possuem alguma relação entre si, isto é, se valores altos (ou
baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Por exemplo,
podemos verificar se existe associação entre a taxa de desemprego e a taxa de criminalidade em uma
grande cidade, entre a verba investida em propaganda e retorno nas vendas, etc.

Ao estudo da relação entre duas ou mais variáveis denominamos de correlação e regressão. Se o


estudo tratar apenas de duas variáveis tem-se a correlação e a regressão simples, se envolver mais do
que duas variáveis, tem-se a correlação e a regressão múltiplas. A regressão e a correlação tratam
apenas da relação do tipo linear entre duas variáveis.

A análise de correlação fornece um número que resume o grau de relacionamento linear entre as duas
variáveis. Já a análise de regressão fornece uma equação que descreve o comportamento de uma das
variáveis em função do comportamento da outra variável.

DIAGRAMA DE DISPERSÃO

Vamos considerar o seguinte exemplo, envolvendo duas variáveis contínuas:

Um comerciante de temperos está curioso sobre a grande variação nas vendas de loja para loja e acha
que as vendas estão associadas com o espaço nas prateleiras dedicados à sua linha de produto em cada
ponto de venda. Dez lojas foram selecionadas ao acaso através do país e as duas seguintes variáveis
foram mensuradas: (1) total de espaço de frente (comprimento x altura em cm²) dedicados à sua linha
de produtos e (2) total das vendas dos produtos, em reais, no último mês. Os dados são apresentados
na tabela a seguir:

LOCAL ESPAÇO VENDAS


1 340 71
2 230 65
3 405 83
4 325 74
5 280 67
6 195 56
7 265 57
8 300 78
9 350 84
10 310 65

Pela observação da tabela não é fácil perceber se existe ou não relação entre as duas variáveis. Para ter
uma ideia melhor, as variáveis são colocadas no que é denominado de diagrama de dispersão. Uma
das variáveis (X) é representada no eixo horizontal e a outra variável (Y) no eixo vertical, conforme
figura a seguir.

-1-
Uma olhada rápida no diagrama de dispersão mostra a existência de um relacionamento entre as
variáveis, com altos valores de uma das variáveis associados a altos valores da outra variável. Se não
houvesse relacionamento entre elas, os pontos estariam distribuídos ao acaso no gráfico sem mostrarem
alguma tendência.

COEFICIENTE DE CORRELAÇÃO

Apesar do diagrama de dispersão nos fornecer uma ideia do tipo e extensão do relacionamento entre
duas variáveis X e Y, seria altamente desejável ter um número que medisse esta relação. Esta medida
existe e é denominada de coeficiente de correlação. Quando se está trabalhando com amostras o
coeficiente de correlação é indicado pela letra r que é, por sua vez, uma estimativa do coeficiente de
correlação populacional: ρ (rho).

O coeficiente de correlação pode variar de –1,00 a + 1,00. Um coeficiente de correlação r = +1 indica


uma correlação linear positiva perfeita. Neste caso, as duas variáveis serão exatamente iguais em
termos de escores padronizados z, isto é, um elemento apresentando um escore padronizado de 1,5 em
uma das variáveis vai apresentar o mesmo escore padronizado na outra variável. Um coeficiente de
correlação r = –1 indica correlação linear perfeita negativa, com os escores padronizados
exatamente iguais em valores absolutos, diferindo apenas no sinal. Uma correlação de +1 ou –1 é
raramente observada. O mais comum é que o coeficiente fique situado no intervalo entre estes dois
valores. Um coeficiente de correlação r = 0 significa que não existe relação linear entre as duas
variáveis.

Dadas duas amostras, uma da variável X e outra da variável Y, o coeficiente de correlação amostral
poderá ser calculado através de uma das seguintes expressões (Coeficiente de Correlação de
Pearson):
̅ ) ∙ (𝒀𝒊 − 𝒀
∑(𝑿𝒊 − 𝑿 ̅)
𝒓=
̅ )𝟐 ∙ (𝒀𝒊 − 𝒀
√∑(𝑿𝒊 − 𝑿 ̅ )𝟐

𝒏 ∙ ∑ 𝑿𝒊 ∙ 𝒀𝒊 − (∑ 𝑿𝒊 ) ∙ (∑ 𝒀𝒊 )
𝒓=
√[𝒏 ∙ ∑ 𝑿𝟐𝒊 − (∑ 𝑿𝒊 )𝟐 ] ∙ [𝒏 ∙ ∑ 𝒀𝟐𝒊 − (∑ 𝒀𝒊 )𝟐 ]

-2-
PROPRIEDADES DO COEFICIENTE DE CORRELAÇÃO

As propriedades mais importantes do coeficiente de correlação são:

1. O intervalo de variação vai de -1 a +1.


2. O coeficiente de correlação é uma medida adimensional, isto é, ele é independente das
unidades de medida das variáveis X e Y.
3. Quanto mais próximo de +1 for “r”, maior o grau de relacionamento linear positivo entre X e
Y, ou seja, se X varia em uma direção Y variará na mesma direção.
4. Quanto mais próximo de -1 for “r”, maior o grau de relacionamento linear negativo entre X e
Y, isto é, se X varia em um sentido Y variará no sentido inverso.
5. Quanto mais próximo de zero estiver “r” menor será o relacionamento linear entre X e Y.

Um valor igual a zero, indicará ausência apenas de relacionamento linear.

REGRESSÃO LINEAR SIMPLES

O termo regressão foi introduzido em fins do século 19, por Sir Francis Galton, provavelmente
interessado em responder à seguinte indagação: é possível prever a altura de filhos com base nas alturas
dos pais? Após coletar pares de alturas de pais e respectivos filhos, ele verificou que pais altos têm filhos
altos, mas em média não tão altos, o mesmo acontecendo com pais baixos, o que deu a ele a impressão
de que havia uma “regressão” das alturas para um valor médio de altura. Este termo ficou então de uso
corrente, embora provavelmente não seja o mais adequado.

A análise de regressão é uma das técnicas mais utilizadas para investigar e modelar o relacionamento
existente entre as diversas variáveis de um processo. Sua utilização vem se aplicando a cada dia,
principalmente devido ao fato de a análise de regressão ser baseada na ideia relativamente simples de
se empregar uma equação para expressar o relacionamento entre as variáveis de interesse.

A análise de regressão processa as informações contidas em um conjunto de dados de forma a gerar um


modelo que represente o relacionamento existente entre as variáveis de interesse de um processo. De
maneira geral, a análise de regressão pode ser utilizada com vários objetivos, dentre os quais é possível
destacar: descrição, predição, controle e estimação.

O modelo de regressão linear simples é aquele que contém apenas uma variável explicativa. Sua forma
básica é a seguinte:

Yi =  + .Xi + ei, para i = 1, 2, ..., n


onde:
 Yi é a variável dependente;
 Xi é a variável independente ou explicativa;
 ei é o erro aleatório;
  é o coeficiente linear e  é o coeficiente de regressão ou coeficiente angular (declividade).
Ambos são parâmetros desconhecidos e a serem estimados;
 n indica o tamanho da amostra e o índice refere-se à unidade de observação dos valores das
variáveis.

Os parâmetros  e  poderão ser estimados a partir de valores amostrais das variáveis Yi e Xi.

ESTIMAÇÃO DOS PARÂMETROS – MÉTODO DOS MÍNIMOS QUADRADOS

Seja o modelo estatístico de regressão linear

Yi =  + .Xi + ei, para i = 1, 2, ..., n

-3-
onde  e  são parâmetros desconhecidos. Este modelo será estimado por

̂𝒊 = 𝜶
𝒀 ̂ ∙ 𝑿𝒊
̂+𝜷

onde 𝛼̂ e 𝛽̂ são os estimadores de  e , e 𝑌̂𝑖 é o valor predito de Yi para um Xi dado.

O erro estimado é a diferença entre um valor observado Yi e o valor correspondente 𝑌̂𝑖 , estimado pela
reta ajustada.

Os estimadores dos parâmetros  e  são obtidos pelas equações dadas a seguir, que decorrem do
método dos mínimos quadrados, que propositalmente não vamos desenvolver aqui.

𝒏 ∙ ∑ 𝑿𝒊 ∙ 𝒀𝒊 − (∑ 𝑿𝒊 ) ∙ (∑ 𝒀𝒊 ) 𝑺𝒙𝒚
̂=
𝜷 ̂=
𝜷
𝒏 ∙ ∑ 𝑿𝟐𝒊 − (∑ 𝑿𝒊 )𝟐 𝑺𝟐𝒙
ou simplesmente

̂=𝒀
𝜶 ̂ ∙𝑿
̅−𝜷 ̅

Assim, a equação de regressão linear fica da forma:

̂𝒊 = 𝜶
𝒀 ̂ ∙ 𝑿𝒊 , para i = 1, 2, ..., n
̂+𝜷

A figura abaixo mostra como se apresenta o gráfico da reta de regressão para o exemplo do comerciante
de temperos, apresentado anteriormente.

COEFICIENTE DE DETERMINAÇÃO OU EXPLICAÇÃO

Podemos estimar a qualidade de um modelo ajustado através do coeficiente de determinação (R²). Este
coeficiente pode ser calculado através da seguinte equação:

𝒏 ∙ ∑(𝒀𝒊 − 𝒀̂ 𝒊 )𝟐
𝟐
𝑹 =𝟏−
𝒏 ∙ ∑ 𝒀𝟐𝒊 − (∑ 𝒀𝒊 )𝟐

onde n é o número de observações realizadas.

-4-
Outra forma para a determinação de R² é dada por

𝑺𝑸𝑹
𝑹𝟐 =
𝑺𝑸𝑻

onde:
 SQR é a Soma dos Quadrados da Regressão ou soma dos quadrados explicada (variação da
variável resposta que é explicada pelo modelo - de cada um dos valores estimados pelo modelo
subtrai-se o valor da média aritmética dos valores observado, usada acima, eleva-se o resultado
ao quadrado e somam-se os resultados);
 SQE é a Soma dos Quadrados dos Erros ou soma dos quadrados dos resíduos (variação da variável
resposta que não é explicada pelo modelo);
 SQT é a Soma dos Quadrados Total (variação da variável resposta - de cada um dos valores
observados subtrai-se o valor da média aritmética, eleva-se o resultado ao quadrado e somam-
se os resultados), também dada por SQT = SQR + SQE.

INTERPOLAÇÃO E EXTRAPOLAÇÃO

Dizemos que foi feita uma interpolação quando usamos a equação de regressão linear para estimar um
valor de Yi para um valor de Xi pertencente ao intervalo entre o menor e o maior valor entre os Xi
observados na amostra dada.

Dizemos que foi feita uma extrapolação quando usamos a equação de regressão linear para estimar
um valor de Yi para um valor de Xi que não pertence ao intervalo entre o menor e o maior valor entre os
Xi observados na amostra dada.

QUESTÕES DE PROVAS
01. TSE / CONSULPLAN / 2012
Na análise de regressão múltipla foram encontrados:
• soma dos quadrados da regressão: 40.000.
• soma dos quadrados dos erros: 10.000.
Assim, o coeficiente de determinação múltipla (R²) dessa regressão é
a) 0,25. b) 0,80. c) 0,75. d) 0,90.

02. SEAD-AP / FGV / 2010


Se no ajuste de uma reta de regressão linear simples de uma variável Y em uma variável X o coeficiente
de determinação observado foi igual a 0,64, então o módulo do coeficiente de correlação amostral entre
X e Y é igual a:
a) 0,24 b) 0,36 c) 0,50 d) 0,64 e) 0,80

03. SUSEP / ESAF / 2010


A partir de uma amostra aleatória

foram obtidas as estatísticas:


médias:

variâncias amostrais:
covariância:

-5-
Qual a reta de regressão estimada de Y em X?

a)

b)

c)

d)

e)

04. TRT-17 (ES) / CESPE / 2009


Um estudo estatístico foi realizado para avaliar a relação entre o logaritmo do valor pago em um processo
judicial de natureza trabalhista (Y) e o correspondente logaritmo do valor da causa (X). Para o estudo,
foram selecionados ao acaso 301 processos judiciais trabalhistas. Observando-se o par de valores (Xk,Yx)
do k-ésimo processo, k = 1, 2, ..., 301, foram obtidos os resultados apresentados na tabela a seguir.

A partir dessas informações, julgue o item seguinte, considerando um modelo de regressão linear simples
na forma
Yk = a + bXk + ek,
em que a e b são os coeficientes do modelo, {ek} representa uma sequência independente de erros
aleatórios normais com média zero e variância ².
Considerando que o coeficiente a seja nulo, tem-se uma reta de regressão que passa pela origem, na
forma Yk = bXk + ek. Nesse caso, a estimativa de mínimos do coeficiente b será maior que 0,90.
( ) Certo ( ) Errado

05. TCU / CESPE / 2008


Uma agência de desenvolvimento urbano divulgou os dados apresentados na tabela a seguir, acerca dos
números de imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007.

Considerando as informações do texto, julgue o item subsequente.


O coeficiente de correlação linear entre X e Y é inferior a 0,8.
( ) Certo ( ) Errado

RESPOSTAS
01) B 02) E 03) C 04) C 05) E

-6-

Você também pode gostar