Você está na página 1de 44

CORRELAÇÃO LINEAR

Diagrama de dispersão
Coeficiente de correlação linear de Pearson
Coeficiente de determinação
CORRELAÇÃO LINEAR

A correlação mede o relacionamento entre duas variáveis. Procura-se,


então, quantificar o grau em que duas variáveis aleatórias estão
relacionadas.

Para determinar a associação linear entre duas variáveis, temos o


coeficiente de correlação linear. Denominamos  o coeficiente de
correlação linear populacional e r o coeficiente de correlação linear
amostral (estimativa de ).

Correlação populacional  (-1≤≤1)

𝐶𝑂𝑉(𝑋,𝑌)
= 𝜎𝑥 .𝜎𝑦

Lembrando que COV(X,Y) é a covariância entre X e Y, com


COV(X,Y)=E(X.Y)-E(X).E(Y)
COEFICIENTE DE CORRELAÇÃO LINEAR
DE PEARSON
Para determinar a correlação linear amostral r, utilizamos o Coeficiente de
Correlação Linear de Pearson

Correlação linear amostral r (-1≤ r ≤1)

n  xy −  x  y
rxy =
(n  x 2 − ( x) 2 ).(n  y 2 − ( y ) 2 )

Temos que -1 ≤ r ≤ 1, ou seja, seus valores variam de –1 a +1 e fornecem um


nível de associação linear. É importante salientar que o coeficiente não define
relação de causa-efeito.
COEFICIENTE DE CORRELAÇÃO LINEAR
DE PEARSON

Salienta-se que r=0 não implica em ausência de relação entre duas


variáveis, uma vez que pode existir uma relação não linear. Quando r
estiver mais próximo de -1 ou de 1 temos uma correlação linear
significativa forte. Quando r estiver mais próximo de 0 temos uma
correlação fraca ou não linear.
CORRELAÇÃO LINEAR

Podemos obter o diagrama de dispersão para avaliar o grau de correlação.


Quando os pontos pertencem todos a uma reta crescente, temos que r=1.
Caso pertençam a uma reta decrescente, r=-1. Quando estão próximos de
uma reta, os resultados estarão próximos de 1(no caso de crescente) ou de
-1 (no caso de decrescente). Quanto mais próximo de zero, mais baixa é a
correlação linear.
CORRELAÇÃO LINEAR
Métodos para verificar se duas variáveis estão relacionadas e para avaliar a
força da relação

-Análise visual do Diagrama de Dispersão

-Análise do Coeficiente de Pearson (r): somente utilizada no caso de correlação


linear e permite avaliar se a relação é proporcional ou inversamente proporcional

-Análise do Coeficiente de Determinação r2 (valor do coeficiente de Pearson ao


quadrado): o coeficiente de determinação é a razão entre a variação explicada e a
variação total e ele quantifica a capacidade explicativa do modelo estudado, ou
seja, a porcentagem que explica a variabilidade da variável dependente (Y) de
acordo com a variável independente (X). Quanto maior o resultado, mais objetos
são explicáveis. Esse coeficiente é, portanto, uma medida descritiva da qualidade
do ajustamento obtido pela regressão estimada. Ele é importante quando se tem a
intenção de fazer previsões.
EXEMPLO
A variável X representa os gastos com propaganda (em milhões de reais) e a
variável Y representa o montante obtido pela venda dos produtos (em milhões
de reais) de certa companhia em oito anos consecutivos.

a) Determine o gráfico de dispersão


No Excel, selecionar a tabela de dados, em seguida clicar em Inserir e
selecionar a opção “gráfico de dispersão”.
EXEMPLO

b) Determine o coeficiente de correlação linear de Pearson desta situação


EXEMPLO

No Excel: =CORREL(“selecionar valores de X; selecionar valores de Y”)

Conclusão: Há uma forte correlação entre a venda e o valor aplicado em


propaganda, uma vez que r=0,912905 (está próximo de 1)
EXEMPLO
c) Determine qual a proporção do valor de venda que pode ser explicada pelo
valor investido em propaganda (capacidade explicativa do modelo estudado)

Coeficiente de determinação: r2= (0,912905)2=0,833396

No Excel: =RQUAD(“selecionar os valores de y”; “selecionar os valores de x”)

Logo, aproximadamente 83,34% da variação amostral em vendas (y) pode


ser explicada pelo valor investido em propaganda (x).
EXERCÍCIO
Considere X a quilometragem (em 1000 quilômetros) e Y o preço ($) de venda
de carros do ano de 2017 de certa marca.
Usando o Excel, determine o diagrama de dispersão,
calcule o coeficiente de correlação amostral,
determine o coeficiente de determinação e avalie o
quanto o preço de venda é explicado pela
quilometragem do carro.
Resp: Coeficiente de correlação: - 0,9038
Coeficiente de determinação: 0,8169 (cerca de
81,69% da variação do preço de venda é explicado
pela quilometragem do carro)
RESPOSTA DO EXERCÍCIO
TESTE DE SIGNIFICÂNCIA PARA O
COEFICIENTE DE CORRELAÇÃO LINEAR
Uma vez calculado r (coeficiente de correlação da amostra), podemos efetuar um
teste de hipóteses para decidir se o coeficiente de correlação populacional  é
significativo. Em outras palavras, baseado em alguns pares de dados, podemos
fazer uma inferência sobre uma população de todos os pares de dados, ao nível
de significância .

A significância do coeficiente de correlação pode ser avaliada pela estatística t de


Student com n-2 graus de liberdade, sendo n o número de pares amostrados

Variável de teste:
𝑟
tcalc= 2
1−𝑟
𝑛−2
EXEMPLO
A variável X representa os gastos com propaganda (em milhões de reais) e a
variável Y representa o montante obtido pela venda dos produtos (em milhões
de reais) de certa companhia em oito anos consecutivos.

Anteriormente calculamos o coeficiente de correlação amostral que deu


r0,912905.

Teste se esse coeficiente de correlação da amostra fornece evidências


suficientes para concluir que o coeficiente populacional é significativo, ao nível
de 5%.

Resp: Rejeitamos H0. Logo, no nível de significância de 5%, há evidências


suficientes para concluir que há correlação linear significante entre os gastos
com propaganda e as vendas da empresa.
RESOLUÇÃO DO EXEMPLO
1. Parâmetro de interesse: 
2. Ho: =0 e H1: ≠0
𝑟 0,912905
3. tcalc = =  5,48
1−𝑟2 1−0,9129052
𝑛−2 8−2
4. ttab
• Graus de liberdade v=n-2=8-2=6.
• O teste é bilateral com =0,05, logo, procurando na tabela t o encontro de 6
com 0,025, encontramos ttab =2,4469.
Situação:

5. Localizando tcalc =5,48 na figura, concluímos que ele está na região de rejeição
de Ho.
6. Conclusão: Para =5%, há evidências de existência de correlação populacional
significativa entre os gastos com propaganda e as vendas da empresa.
EXERCÍCIO
Considere X a quilometragem (em 1000 quilômetros) e Y o preço ($) de venda
de carros do ano de 2017 de certa marca.

Anteriormente foi calculado o coeficiente de


correlação linear que deu -0,9038.
Teste se esse coeficiente de correlação da
amostra fornece evidência suficiente para
concluir que o coeficiente populacional é
significativo, ao nível de 5%.
Resp: tcalc=-7,32 está na região de rejeição de
Ho. No nível de significância de 5%, há
evidências para concluir que o coeficiente de
correlação populacional é significativo.
RESOLUÇÃO DO EXEMPLO
1. Parâmetro de interesse: 
2. Ho: =0 e H1: ≠0
𝑟
3. tcalc = = −0,9038.
 -7,32
1−𝑟2 1− (−0,9038) 2
𝑛−2 14−2

4. ttab
• Graus de liberdade v=n-2=14-2=12.
• O teste é bilateral com =0,05, logo, procurando na tabela t o encontro de
12 com 0,025 encontramos ttab =2,1788
Situação:

5. Localizando tcalc =-7,32 na figura, concluímos que ele está na região de


rejeição de Ho.
6. Conclusão: Para =5%, há evidências de correlação populacional
significativa entre a quilometragem e o preço de venda.
REGRESSÃO LINEAR
TIPOS DE REGRESSÃO
A análise de regressão consiste em uma análise estatística para verificar a
existência de uma relação funcional entre uma variável dependente com
uma ou mais variáveis independentes. Nesta aula estudaremos o modelo
de regressão simples linear.
REGRESSÃO LINEAR SIMPLES
Na regressão linear simples, a relação entre as variáveis é dada por uma
função de primeiro grau.

Suponha que o diagrama de dispersão de um conjunto de dados seja dado


pela figura a seguir
REGRESSÃO LINEAR SIMPLES
Temos que encontrar a reta que melhor descreve a relação entre x e y.
MÉTODO DOS MÍNIMOS QUADRADOS

Embora muitas retas possam ser desenhadas partindo de um conjunto de dados, a melhor
reta ajustada será aquela para a qual a diferença global entre os valores reais e os valores
preditos de y é mínima. Para isso, utiliza-se o Método dos Mínimos Quadrados Esse
método consiste em uma técnica de otimização matemática que procura encontrar o
melhor ajuste para um conjunto de dados, tentando minimizar a soma dos quadrados das
diferenças entre os valores estimados e os respectivos dados observados. Tais diferenças
são chamadas de erros ou resíduos e serão indicados por 𝑒Ƹ𝑖 .

No método dos mínimos quadrados, minimiza-se σ𝑛𝑖=1 𝑒Ƹ𝑖2


REGRESSÃO LINEAR SIMPLES

O modelo estatístico para a regressão linear simples é dado por:


REGRESSÃO SIMPLES LINEAR

Aplicando o método dos mínimos quadrados, obtém-se a equação


estimada, dada por:

Sendo:
ERRO PADRÃO DE ESTIMATIVA DA
RETA DE REGRESSÃO LINEAR

O erro padrão de estimativa da reta de regressão linear refere-se ao erro


relacionado ao ajuste da reta de regressão linear.

Quanto menor o erro, melhor será este ajuste. Ele é dado por:

^
2
 ( y − y)
Se =
n−2

Obs: n = quantidade de amostras (x,y)


EXEMPLO DE REGRESSÃO LINEAR

Vamos tomar o mesmo exemplo desenvolvido para o estudo de correlação


linear.
A variável X representa os gastos com propaganda (em milhões de reais) e a
variável Y representa o montante obtido pela venda dos produtos (em milhões
de reais) de certa companhia em oito anos consecutivos.

Ao resolvermos esse exercício na parte de correlação, concluímos que existia


uma forte correlação positiva entre a venda e o valor aplicado em propaganda,
uma vez que o coeficiente de correlação obtido (r=0,912905) é um valor próximo
de 1.
EXEMPLO DE REGRESSÃO LINEAR

Nós também fizemos o gráfico de dispersão deste caso e notamos que ele
sugeria uma tendência linear crescente.

Vamos determinar a equação da reta de ajuste por meio da regressão


linear.
EXEMPLO DE REGRESSÃO LINEAR

15,8.1634
3289,8−
𝛽መ1 = 8
15,82
50,7287
32,44− 8

1634 15,8
𝛽መ0 = 8 - 50,7287. 8  104,0608

Logo, a reta de regressão é dada por , , então 𝑦=104,0608


ො + 50,7287x
REGRESSÃO LINEAR NO EXCEL
No Excel, para obter os coeficientes da reta de regressão, basta digitar:

=INCLINAÇÃO (selecionar os valores de Y; selecionar os valores de X):


(acha o valor de “a”, ou seja, o coeficiente angular da reta )

=INTERCEPÇÃO (selecionar os valores de Y; selecionar os valores de X):


(acha o valor de “b”, ou seja, o coeficiente linear da reta))

Logo, a reta de regressão é dada por 𝑦=50,7287x+104,0608



EXEMPLO DE REGRESSÃO LINEAR

Podemos prever valores de y substituindo valores de x.

Valores de previsão são significantes somente para valores de x na faixa


dos dados ou próximos à faixa de dados.

No nosso exemplo, a variação de x está entre 1,4 e 2,6. Vamos prever as


vendas esperadas da empresa para um gasto de 2,5 milhões de reais em
propaganda.

Usando a reta de regressão 𝑦=50,7287x+104,0608,


ො temos:

𝑦=50,7287.
ො (2,5) +104,0608= 230,88255 milhões de reais.
RESOLUÇÃO NO EXCEL

Para prever as vendas esperadas da empresa para um gasto de 2,5 milhões de


reais em propaganda no Excel, basta digitar os valores de X e Y e digitar:

=Previsão(2,5; selecionar os valores de y; selecionar os valores de x)


ERRO PADRÃO ESTIMADO
O erro padrão estimado associado ao ajuste da reta é :

^
2
 ( y − y)
Se =
n−2


Para calcular 𝑌(𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑦 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜), temos que substituir cada valor de X na
equação da reta de regressão obtida, dada por 𝑦=50,7287x+104,0608

Por exemplo, 𝑌෠ 2,4 = 50,7287.2,4 + 104,0608 = 225,80968

635,345326
Se= =10,29032 milhões de reais é o erro padrão da estimativa das
6
vendas para um gasto específico de propaganda.
ERRO PADRÃO ESTIMADO NO EXCEL

No Excel: =EPADYX(“selecionar valores de Y”; “selecionar valores de X”)


IMPORTANTE!
RESUMO VISUAL DO ESTUDO NO EXCEL
a) Construa o gráfico de dispersão
b) Clique sobre o gráfico e observe que na parte superior da tela aparece
Layout Rápido. Selecionar o antepenúltimo gráfico.
RESUMO VISUAL DO ESTUDO NO EXCEL

Observe que o resultado já fornece a reta de regressão e o coeficiente


de determinação R2. Para achar o coeficiente de correlação, basta extrair
a raiz quadrada do coeficiente R2
Neste caso, temos que ter o cuidado de verificar o sinal do coeficiente de
correlação (positivo se a reta de regressão for crescente e negativo se
for decrescente).
INTERPRETAÇÃO DOS COEFICIENTES

Analisando a equação da reta de regressão 𝑦=50,7287x+104,0608,



lembrando que x representa os gastos com propaganda (em milhões de
reais) e a variável Y representa o montante obtido pela venda dos
produtos (em milhões de reais), podemos efetuar as seguintes
interpretações:

✓ um aumento de uma unidade monetária (no caso um milhão de


reais) no investimento em propaganda resulta em um aumento de
aproximadamente 50,73 milhões no montante obtido pela venda dos
produtos

✓ se nenhum investimento em propaganda for realizado, o montante


obtido pela venda dos produtos será de aproximadamente 104,06
milhões de reais.
EXERCÍCIO
Um pesquisador deseja verificar se um instrumento para medir a concentração de
determinada substância está bem calibrado. Para isto, ele tomou 15 amostras de
concentrações conhecidas (X) e determinou a respectiva concentração por meio do
instrumento (Y), obtendo:
EXERCÍCIO

Pede-se:
a) Qual é o coeficiente de correlação?
Resp: + 0,9922 = 0,9961 (como a reta de regressão é crescente, o
coeficiente de correlação é positivo)

b) Com base no coeficiente de correlação, no coeficiente de determinação (R2)


e na reta de regressão, como você avaliaria a eficiência do instrumento?

Resp: como a correlação é forte e R2 está próximo de 100%, considera-se que


o instrumento para medir a concentração encontra-se bem calibrado. Observe
que a reta de regressão está próxima da reta y=x, indicando grande
proximidade entre as medidas.
TESTE DO COEFICIENTE DE DECLIVE
Após ajustar uma equação de regressão, podemos verificar sua
adequabilidade por meio de testes de hipóteses para os parâmetros do
modelo (teste com 0 e com 1).

Um caso especial muito importante seria Ho: 1 =0 versus H1: 1 ≠0 .


Essas hipóteses estão relacionadas com a significância da regressão.
Não rejeitar Ho é equivalente a concluir que não há relação linear entre
X e Y. Por outro lado, se Ho for rejeitada, isso indica que X é
importante para explicar a variabilidade em Y.

A significância da regressão pode também ser avaliada pelo método


de Análise de Variância (ANOVA), conteúdo que ainda será abordado
em nossa disciplina.
TESTE DO COEFICIENTE DE DECLIVE

Faremos o teste para 1 de

Usaremos a estatística de teste t com (n-2) graus de liberdade.


TESTE DO COEFICIENTE DE DECLIVE

Vamos analisar o caso obtido no problema dos gastos com propaganda, cuja
equação da reta de regressão foi dada por 𝑦ො =50,7287x+104,0608,
considerando α=0,05. (Obs: lembrar que o erro padrão estimado foi calculado
anteriormente, obtendo s=10,29032).

1) Ho: 1 = 0
H1: 1 ≠ 0
2) tcalc?

15,82
SSxx=32,44 - = 1,235
8

50,7287
tcalc = 10,29032  5,48
1,235
TESTE DO COEFICIENTE DE DECLIVE
3. ttab

• Graus de liberdade: v=n-2 = 8-2 = 6


• Teste bilateral com =0,05 (a área de cada cauda será de 0,025)
Na tabela t, o encontro de 6 com 0,025 dará ttab = 2,4469

4. Localizando tcalc = 5,48, concluímos que ele está na região de rejeição de


Ho.

5. Conclusão: Para =5%, há evidências de que 1 ≠0, ou seja, da existência


de relação linear.
ESTUDO COMPLETO NO EXCEL

Vamos avaliar os resultados do problema seguinte no Excel.

A variável X representa os gastos com propaganda (em milhões de reais) e a


variável Y representa o montante obtido pela venda dos produtos (em milhões
de reais) de certa companhia em oito anos consecutivos.

Para obter um estudo completo desse exercício no Excel, basta seguir as


etapas:
1) Dados
2) Ferramentas de dados
3) Regressão
4) Selecionar os valores de y, selecionar os valores de x, nível de confiança
de 95%.
ESTUDO COMPLETO NO EXCEL
RESULTADOS OBTIDOS NA AULA:
• Coeficiente de correlação linear: r= 0,912905
• Coeficiente de determinação: r2=0,833396
• Erro padrão estimado: e=10,29032
• Equação da reta de regressão: 𝑦=104,0608
ො + 50,7287x
• No teste para o coeficiente de declive 1 com =5%, encontramos tcalc=5,48, rejeitamos Ho e
concluímos que há relação linear. No estudo do Excel, Valor-P=0,0015 < , logo, rejeitamos Ho

Você também pode gostar