Você está na página 1de 23

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO

DEPARTAMENTO DE ESTATÍSTICA E INFORMÁTICA

Semana 13
Correlação e Regressão Linear Simples

Profª Cristiane Albuquerque


CONTEXTUALIZAÇÃO
Após uma coleta de dados referentes a duas ou mais variáveis para
uma mesma amostra é comum tentar estabelecer uma relação
matemática entre estas variáveis.
A regressão e a correlação são técnicas utilizadas para estimar uma
relação que possa existir na população, enquanto as técnicas
anteriormente estudadas (Medidas de Tendência Central e de
Dispersão: Média, Desvio Padrão, Variância, etc.) servem para
estimar um único parâmetro populacional.
A análise de correlação e regressão compreende a análise de dados
amostrais para saber se, e como, duas ou mais variáveis estão
relacionadas uma com a outra numa população.
Correlação
INTRODUÇÃO
A correlação mede a força, ou grau, de relacionamento entre duas
variáveis; a regressão dá a equação que descreve o relacionamento
em termos matemáticos.
Os dados para análise de regressão e correlação provêm de
observações de variáveis emparelhadas. Na regressão, pressupõe-
se alguma relação de causa e efeito, de explanação do
comportamento entre as variáveis. Ex. a idade e a altura de cada
indivíduo; a alíquota de imposto e a arrecadação; preço e
quantidade.
INTRODUÇÃO
A primeira providência para se determinar a relação é construir um
gráfico em um sistema de coordenadas retangulares obtendo então
o que normalmente é chamado de diagrama de dispersão. Pelo
diagrama, muitas vezes, é possível visualizar a curva que se
aproxima dos pontos da distribuição.
Tomando por exemplo as distribuições:
INTRODUÇÃO
Pode-se notar que:
em (a) não há previsão da curva aproximada;
em (b) a curva é uma parábola ;
em (c) a curva é uma reta e
em (d) a curva é uma hipérbole .

O processo de ajustamento de uma distribuição de variáveis a uma


curva é denominada regressão. A equação de y em função de x, y =
f(x) é denominada equação de regressão de y sobre x.
COEFICIENTE DE CORRELAÇÃO LINEAR
A avaliação quantitativa do ajuste das variáveis a equação de uma
curva é denominada coeficiente de correlação. Este coeficiente
indica o grau em que as duas variáveis se ajustam segundo uma
equação matemática.
Esta definição pode se usada para qualquer curva de regressão,
seja ela linear ou não. Entretanto, no seu uso, é necessário
determinar a equação dessa curva antes de calcular o coeficiente
de correlação linear.

No caso específico de uma regressão linear, outras fórmulas podem


ser usadas para calcular este coeficiente.
COEFICIENTE DE CORRELAÇÃO LINEAR
Entre elas destacamos a fórmula do coeficiente de correlação de
Pearson, que é dada por:

𝑛. 𝑥. 𝑦 − 𝑥 . 𝑦
𝑟=
𝑛. 𝑥2 − 𝑥 2 . 𝑛. 𝑦2 − 𝑦 2

Onde n é o número de pares de observações.


Os limites de 𝑟 são – 1 𝑒 + 1, ou seja, – 1 ≤ 𝑟 ≤ 1, isto é, 𝑟
pertence ao intevalo [−1, +1].
Dizemos que:
 a correlação linear entre X e Y é perfeita positiva, quando 𝑟 = +1;
 a correlação linear entre X e Y é perfeita negativa, quando 𝑟 = −1;
 não existe correlação linear entre X e Y, quando 𝑟 = 0.
COEFICIENTE DE CORRELAÇÃO LINEAR
Geralmente se estabelece uma classificação para a intensidade da
correlação linear, ou seja, qual é a qualidade do ajuste dos dados à
reta de regressão. A classificação é assim constituída:

0 ≤ 𝑟 < 0,3 1, +1] dizemos que existe uma correlação muito


fraca, provavelmente a relação matemática se afasta dos dados.

 0,3 ≤ 𝑟 < 0,6 considerada uma correlação relativamente


fraca.

 0,6 ≤ 𝑟 ≤ 1 os dados são ditos fortemente correlacionados.


COEFICIENTE DE CORRELAÇÃO LINEAR
Exemplo:
A tabela a seguir mostra os dados coletados para as variáveis
x e y bem como os elementos necessários para o cálculo do
coeficiente de correlação linear.
n = 6 =≫ números de pares (x;y), ou seja: (1;3), (2;4,8), ..., (6;13,2).

x y x.y x2 y2
1 3 3 1 9
2 4,8 9,6 4 23,04
3 7,1 21,3 9 50,41
4 9 36 16 81
5 10,9 54,5 25 118,81
6 13,2 79,2 36 174,24
Somas 21 48,0 203,6 91 456,50
COEFICIENTE DE CORRELAÇÃO LINEAR
Exemplo: Usaremos a fórmula da correlação de Pearson.

𝑛. 𝑥.𝑦 − 𝑥 . 𝑦
𝑟= =≫
𝑛. 𝑥2− 𝑥 2 . 𝑛. 𝑦2− 𝑦 2

6 × 203,6 − 21 × 48,0
𝑟= =≫
6 × 91 − 21 2 × 6 × 456,50 − 48 2

1221,6 − 1008 213,6 213,6


𝑟= =≫ 𝑟 = = ∴ 𝑟 = 0,999452
546 − 441 × 2739 − 2304 105 × 435 45675

Conclusão: O valor do coeficiente de correlação linear é r = 0,999452.


Como r > 0 e 0,6 < r < 1, as variáveis x e y são fortemente correlacionadas. Ou seja, a
reta de regressão linear, terá declividade positiva e apresentará um bom ajuste ao
conjunto de pontos da tabela.
Regressão
INTRODUÇÃO
A regressão linear simples constitui uma tentativa de estabelecer
uma equação matemática linear (linha reta) que descreva o
relacionamento entre duas variáveis.
Da mesma forma como usamos a média para resumir uma variável
aleatória, a reta de regressão é usada para resumir a estimativa
linear entre duas variáveis aleatórias (Lapponi, 1997, p.344).

A equação matemática linear que descreve este relacionamento


entre as variáveis é a equação da função do 1º grau, também
conhecida por função afim.
FUNÇÃO AFIM E FUNÇÃO LINEAR
A principal característica dessas funções é que elas variam a uma
taxa constante. Entre as aplicações desse tipo de função, pode-se
citar:
• O movimento retilíneo uniforme;
• A fórmula para conversão de unidades de medida de temperatura
Celsius e Fahrenheit;
• O modelo do ajuste linear nos problemas de modelagem
matemática.
FUNÇÃO AFIM E FUNÇÃO LINEAR
Chama-se função afim a função dada por:
f(x) = ax + b,

onde x é a variável independente, a e b são as constantes, com b


≠0.
O coeficiente angular a tem um importante papel na equação
da reta: ele determina a sua inclinação. O seu sinal (positivo ou
negativo) indica a inclinação da reta.
O valor do coeficiente linear b determina o ponto em que a reta
corta o eixo vertical; isto é, y = b é o intercepto vertical.
É importante observar que uma função linear (f(x) = ax) é um caso
particular da função afim com b = 0.
FUNÇÃO AFIM E FUNÇÃO LINEAR

Embora, em alguns casos, seja essencial a distinção entre função


afim e função linear, muitas vezes, é usada a denominação função
linear para ambos os casos.
Isto se justifica pelo fato de que, em qualquer caso, os gráficos
dessas funções são retas (Ávila, 1995). Para nosso estudo, ambas as
funções serão denominadas por função linear.
REGRESSÃO LINEAR SIMPLES
Há diversas formas de utilização de equações de regressão:

 Estimar valores de uma variável, com base em valores


conhecidos da outra. Em situações em que as duas variáveis
medem aproximadamente a mesma coisa, mas uma delas é
relativamente dispendiosa, ou difícil de lidar, enquanto que a
outra não.
 Explicar valores de uma variável em termos da outra, ou seja,
confirmar uma relação de causa e efeito entre duas variáveis.
 Predizer valores futuros de uma variável. Ex. aplicar testes para
avaliar o sucesso de um ingressante na escola ou no emprego.
REGRESSÃO LINEAR SIMPLES
O processo de regressão linear consiste em determinar a equação da
reta que melhor se ajusta ao conjunto de pontos de uma distribuição.
Neste processo é aconselhável expressar y em função de x obtendo
uma equação do tipo y = a.x + b.
Neste caso, x é a variável independente e y é a variável dependente,
isto é, y é estimado em função de x. A equação obtida é denominada
equação de regressão de y sobre x.

Após o cálculo dos coeficientes a e b, usa-se a equação encontrada


quando se deseja obter valores de y que correspondem a valores de x
que não constam na tabela (interpolação – valores no intervalo da
tabela e extrapolação – valores fora do intervalo da tabela). Veja sobre isto
em: https://integrada.minhabiblioteca.com.br/#/books/9788571440821/cfi/180!/4/4@0.00:0.00
REGRESSÃO LINEAR SIMPLES
Para calcularmos os coeficientes da reta da função linear 𝑌 = a.x + b
[𝑌 é chamado de y chapéu], que melhor se ajusta a uma distribuição
de valores x e y (denominada em Estatística de “reta ótima”),
faremos:
𝑛 𝑥𝑦 − 𝑥 𝑦
𝑎= 𝑒 𝑏 = 𝑦 − 𝑎𝑥
𝑛 𝑥2 − 𝑥 2

Onde:
𝑛 é o tamanho da amostra, ou seja, quantidade de pares (x,y);
𝑥 = somatório dos valores da variável x;
𝑦 = somatório dos valores da variável y;
𝑥2 = somatório do quadrado dos valores da variável x;
𝑥𝑦 = somatório do produto da variável x pela variável y.
𝑥 = média da variável x;
𝑦 = média da variável y.
REGRESSÃO LINEAR SIMPLES - EXEMPLO
Determinar a equação da reta que melhor se ajusta aos pontos da
tabela:
x y
1,0 3,01
2,1 5,21
3,0 7,01
3,5 8,01
3,8 8,61
3,9 8,81
4,0 9,01
6,0 13,01
Somas 27,30 62,68
REGRESSÃO LINEAR SIMPLES - EXEMPLO
Completando a tabela com os valores necessários para os cálculos
de a e de b, temos:

x y x2 xy
1,0 3,01 1,00 3,010
2,1 5,21 4,41 10,941
3,0 7,01 9,00 21,030
3,5 8,01 12,25 28,035
3,8 8,61 14,44 32,718
3,9 8,81 15,21 34,359
4,0 9,01 16,00 36,040
6,0 13,01 32,00 78,060
Somas 27,30 62,68 108,31 244,193
EXEMPLO
A equação da reta que melhor se ajusta aos pontos da tabela é
dada por: 𝑌 = ax + b
O ponto de partida é encontrar os valores dos coeficientes angular
e linear.
Na tabela temos n = 8 pares (x,y), então os valores de a e b, serão:

𝑛 𝑥𝑦 − 𝑥 𝑦 8 × 244,193 − 27,30 × 62,68


𝑎= = ∴𝑎=2
𝑛 𝑥2 − 𝑥 2 8 × 108,31 − 27,30 2

62,68 27,30
𝑏 = 𝑦 − 𝑎𝑥 = −2× ∴ 𝑏 = 1,01
8 8

Assim, a reta de regressão de y sobre x é:a reta ótima será:


𝑌 = 2x + 1,01
EXEMPLO
Caso você queria fazer uma interpolação ou uma extrapolação,
deverá levar em consideração o intervalo da variável independente
(x), que no nosso exemplo é [1,0;6,0].
 Para obter uma interpolação: usar valores dentro do intervalo
[1,0;6,0], como por exemplo, 3,3. Substituindo este valor na
equação de regressão encontrada, teremos:
𝑌 = 2 x 3,3 + 1,01 = 7,61
 Para obter uma extrapolação: usar valores fora do intervalo
[1,0;6,0], como por exemplo, 6,4. Substituindo este valor na
equação de regressão encontrada, teremos:
𝑌 = 2 x 6,4 + 1,01 = 13,81
Atenção: Tenha em mente que no uso de equações de regressão não deve-se extrapolar quando
considerações teóricas ou experimentais demonstrem a impossibilidade de extrapolação. Como
exemplo, notas de uma disciplina cujo intervalo é [0,0;10,0]. NÃO HÁ COMO EXTRAPOLAR.

Você também pode gostar