Semana 13 - Correlao e Regresso Linear Simples

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO
DEPARTAMENTO DE ESTATÍSTICA E INFORMÁTICA
Semana 13
Correlação e Regressão Linear Simples
Profª Cristiane Albuquerque

CONTEXTUALIZAÇÃO
Após uma coleta de dados referentes a duas ou mais variáveis para
uma mesma amostra é comum tentar estabelecer uma relação
matemática entre estas variáveis.
A regressão e a correlação são técnicas utilizadas para estimar uma
relação que possa existir na população, enquanto as técnicas
anteriormente estudadas (Medidas de Tendência Central e de
Dispersão: Média, Desvio Padrão, Variância, etc.) servem para
estimar um único parâmetro populacional.
A análise de correlação e regressão compreende a análise de dados
amostrais para saber se, e como, duas ou mais variáveis estão
relacionadas uma com a outra numa população.
Correlação
INTRODUÇÃO
A correlação mede a força, ou grau, de relacionamento entre duas
variáveis; a regressão dá a equação que descreve o relacionamento
em termos matemáticos.
Os dados para análise de regressão e correlação provêm de
observações de variáveis emparelhadas. Na regressão, pressupõe-
se alguma relação de causa e efeito, de explanação do
comportamento entre as variáveis. Ex. a idade e a altura de cada
indivíduo; a alíquota de imposto e a arrecadação; preço e
quantidade.
INTRODUÇÃO
A primeira providência para se determinar a relação é construir um
gráfico em um sistema de coordenadas retangulares obtendo então
o que normalmente é chamado de diagrama de dispersão. Pelo
diagrama, muitas vezes, é possível visualizar a curva que se
aproxima dos pontos da distribuição.
Tomando por exemplo as distribuições:
INTRODUÇÃO
Pode-se notar que:
em (a) não há previsão da curva aproximada;
em (b) a curva é uma parábola ;
em (c) a curva é uma reta e
em (d) a curva é uma hipérbole .
O processo de ajustamento de uma distribuição de variáveis a uma

curva é denominada regressão. A equação de y em função de x, y =
f(x) é denominada equação de regressão de y sobre x.
COEFICIENTE DE CORRELAÇÃO LINEAR
A avaliação quantitativa do ajuste das variáveis a equação de uma
curva é denominada coeficiente de correlação. Este coeficiente
indica o grau em que as duas variáveis se ajustam segundo uma
equação matemática.
Esta definição pode se usada para qualquer curva de regressão,
seja ela linear ou não. Entretanto, no seu uso, é necessário
determinar a equação dessa curva antes de calcular o coeficiente
de correlação linear.
No caso específico de uma regressão linear, outras fórmulas podem

ser usadas para calcular este coeficiente.
Entre elas destacamos a fórmula do coeficiente de correlação de
Pearson, que é dada por:
𝑛. 𝑥. 𝑦 − 𝑥 . 𝑦
𝑟=
𝑛. 𝑥2 − 𝑥 2 . 𝑛. 𝑦2 − 𝑦 2
Onde n é o número de pares de observações.

Os limites de 𝑟 são – 1 𝑒 + 1, ou seja, – 1 ≤ 𝑟 ≤ 1, isto é, 𝑟
pertence ao intevalo [−1, +1].
Dizemos que:
 a correlação linear entre X e Y é perfeita positiva, quando 𝑟 = +1;
 a correlação linear entre X e Y é perfeita negativa, quando 𝑟 = −1;
 não existe correlação linear entre X e Y, quando 𝑟 = 0.
Geralmente se estabelece uma classificação para a intensidade da
correlação linear, ou seja, qual é a qualidade do ajuste dos dados à
reta de regressão. A classificação é assim constituída:
0 ≤ 𝑟 < 0,3 1, +1] dizemos que existe uma correlação muito

fraca, provavelmente a relação matemática se afasta dos dados.
 0,3 ≤ 𝑟 < 0,6 considerada uma correlação relativamente

fraca.
 0,6 ≤ 𝑟 ≤ 1 os dados são ditos fortemente correlacionados.

Exemplo:
A tabela a seguir mostra os dados coletados para as variáveis
x e y bem como os elementos necessários para o cálculo do
coeficiente de correlação linear.
n = 6 =≫ números de pares (x;y), ou seja: (1;3), (2;4,8), ..., (6;13,2).
x y x.y x2 y2
1 3 3 1 9
2 4,8 9,6 4 23,04
3 7,1 21,3 9 50,41
4 9 36 16 81
5 10,9 54,5 25 118,81
6 13,2 79,2 36 174,24
Somas 21 48,0 203,6 91 456,50
Exemplo: Usaremos a fórmula da correlação de Pearson.
𝑛. 𝑥.𝑦 − 𝑥 . 𝑦
𝑟= =≫
𝑛. 𝑥2− 𝑥 2 . 𝑛. 𝑦2− 𝑦 2
6 × 203,6 − 21 × 48,0
𝑟= =≫
6 × 91 − 21 2 × 6 × 456,50 − 48 2
1221,6 − 1008 213,6 213,6

𝑟= =≫ 𝑟 = = ∴ 𝑟 = 0,999452
546 − 441 × 2739 − 2304 105 × 435 45675
Conclusão: O valor do coeficiente de correlação linear é r = 0,999452.

Como r > 0 e 0,6 < r < 1, as variáveis x e y são fortemente correlacionadas. Ou seja, a
reta de regressão linear, terá declividade positiva e apresentará um bom ajuste ao
conjunto de pontos da tabela.
Regressão
INTRODUÇÃO
A regressão linear simples constitui uma tentativa de estabelecer
uma equação matemática linear (linha reta) que descreva o
relacionamento entre duas variáveis.
Da mesma forma como usamos a média para resumir uma variável
aleatória, a reta de regressão é usada para resumir a estimativa
linear entre duas variáveis aleatórias (Lapponi, 1997, p.344).
A equação matemática linear que descreve este relacionamento

entre as variáveis é a equação da função do 1º grau, também
conhecida por função afim.
FUNÇÃO AFIM E FUNÇÃO LINEAR
A principal característica dessas funções é que elas variam a uma
taxa constante. Entre as aplicações desse tipo de função, pode-se
citar:
• O movimento retilíneo uniforme;
• A fórmula para conversão de unidades de medida de temperatura
Celsius e Fahrenheit;
• O modelo do ajuste linear nos problemas de modelagem
matemática.
Chama-se função afim a função dada por:
f(x) = ax + b,
onde x é a variável independente, a e b são as constantes, com b

≠0.
O coeficiente angular a tem um importante papel na equação
da reta: ele determina a sua inclinação. O seu sinal (positivo ou
negativo) indica a inclinação da reta.
O valor do coeficiente linear b determina o ponto em que a reta
corta o eixo vertical; isto é, y = b é o intercepto vertical.
É importante observar que uma função linear (f(x) = ax) é um caso
particular da função afim com b = 0.
Embora, em alguns casos, seja essencial a distinção entre função

afim e função linear, muitas vezes, é usada a denominação função
linear para ambos os casos.
Isto se justifica pelo fato de que, em qualquer caso, os gráficos
dessas funções são retas (Ávila, 1995). Para nosso estudo, ambas as
funções serão denominadas por função linear.
REGRESSÃO LINEAR SIMPLES
Há diversas formas de utilização de equações de regressão:
 Estimar valores de uma variável, com base em valores

conhecidos da outra. Em situações em que as duas variáveis
medem aproximadamente a mesma coisa, mas uma delas é
relativamente dispendiosa, ou difícil de lidar, enquanto que a
outra não.
 Explicar valores de uma variável em termos da outra, ou seja,
confirmar uma relação de causa e efeito entre duas variáveis.
 Predizer valores futuros de uma variável. Ex. aplicar testes para
avaliar o sucesso de um ingressante na escola ou no emprego.
O processo de regressão linear consiste em determinar a equação da
reta que melhor se ajusta ao conjunto de pontos de uma distribuição.
Neste processo é aconselhável expressar y em função de x obtendo
uma equação do tipo y = a.x + b.
Neste caso, x é a variável independente e y é a variável dependente,
isto é, y é estimado em função de x. A equação obtida é denominada
equação de regressão de y sobre x.
Após o cálculo dos coeficientes a e b, usa-se a equação encontrada

quando se deseja obter valores de y que correspondem a valores de x
que não constam na tabela (interpolação – valores no intervalo da
tabela e extrapolação – valores fora do intervalo da tabela). Veja sobre isto
em: https://integrada.minhabiblioteca.com.br/#/books/9788571440821/cfi/180!/4/4@0.00:0.00
Para calcularmos os coeficientes da reta da função linear 𝑌 = a.x + b
[𝑌 é chamado de y chapéu], que melhor se ajusta a uma distribuição
de valores x e y (denominada em Estatística de “reta ótima”),
faremos:
𝑛 𝑥𝑦 − 𝑥 𝑦
𝑎= 𝑒 𝑏 = 𝑦 − 𝑎𝑥
𝑛 𝑥2 − 𝑥 2
Onde:
𝑛 é o tamanho da amostra, ou seja, quantidade de pares (x,y);
𝑥 = somatório dos valores da variável x;
𝑦 = somatório dos valores da variável y;
𝑥2 = somatório do quadrado dos valores da variável x;
𝑥𝑦 = somatório do produto da variável x pela variável y.
𝑥 = média da variável x;
𝑦 = média da variável y.
REGRESSÃO LINEAR SIMPLES - EXEMPLO
Determinar a equação da reta que melhor se ajusta aos pontos da
tabela:
x y
1,0 3,01
2,1 5,21
3,0 7,01
3,5 8,01
3,8 8,61
3,9 8,81
4,0 9,01
6,0 13,01
Somas 27,30 62,68
REGRESSÃO LINEAR SIMPLES - EXEMPLO
Completando a tabela com os valores necessários para os cálculos
de a e de b, temos:
x y x2 xy
1,0 3,01 1,00 3,010
2,1 5,21 4,41 10,941
3,0 7,01 9,00 21,030
3,5 8,01 12,25 28,035
3,8 8,61 14,44 32,718
3,9 8,81 15,21 34,359
4,0 9,01 16,00 36,040
6,0 13,01 32,00 78,060
Somas 27,30 62,68 108,31 244,193
EXEMPLO
A equação da reta que melhor se ajusta aos pontos da tabela é
dada por: 𝑌 = ax + b
O ponto de partida é encontrar os valores dos coeficientes angular
e linear.
Na tabela temos n = 8 pares (x,y), então os valores de a e b, serão:
𝑛 𝑥𝑦 − 𝑥 𝑦 8 × 244,193 − 27,30 × 62,68

𝑎= = ∴𝑎=2
𝑛 𝑥2 − 𝑥 2 8 × 108,31 − 27,30 2
62,68 27,30
𝑏 = 𝑦 − 𝑎𝑥 = −2× ∴ 𝑏 = 1,01
8 8
Assim, a reta de regressão de y sobre x é:a reta ótima será:

𝑌 = 2x + 1,01
EXEMPLO
Caso você queria fazer uma interpolação ou uma extrapolação,
deverá levar em consideração o intervalo da variável independente
(x), que no nosso exemplo é [1,0;6,0].
 Para obter uma interpolação: usar valores dentro do intervalo
[1,0;6,0], como por exemplo, 3,3. Substituindo este valor na
equação de regressão encontrada, teremos:
𝑌 = 2 x 3,3 + 1,01 = 7,61
 Para obter uma extrapolação: usar valores fora do intervalo
[1,0;6,0], como por exemplo, 6,4. Substituindo este valor na
equação de regressão encontrada, teremos:
𝑌 = 2 x 6,4 + 1,01 = 13,81
Atenção: Tenha em mente que no uso de equações de regressão não deve-se extrapolar quando
considerações teóricas ou experimentais demonstrem a impossibilidade de extrapolação. Como
exemplo, notas de uma disciplina cujo intervalo é [0,0;10,0]. NÃO HÁ COMO EXTRAPOLAR.

Semana 13 - Correlao e Regresso Linear Simples

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Semana 13 - Correlao e Regresso Linear Simples

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO

DEPARTAMENTO DE ESTATÍSTICA E INFORMÁTICA

Profª Cristiane Albuquerque

O processo de ajustamento de uma distribuição de variáveis a uma

No caso específico de uma regressão linear, outras fórmulas podem

Onde n é o número de pares de observações.

0 ≤ 𝑟 < 0,3 1, +1] dizemos que existe uma correlação muito

 0,3 ≤ 𝑟 < 0,6 considerada uma correlação relativamente

 0,6 ≤ 𝑟 ≤ 1 os dados são ditos fortemente correlacionados.

1221,6 − 1008 213,6 213,6

Conclusão: O valor do coeficiente de correlação linear é r = 0,999452.

A equação matemática linear que descreve este relacionamento

onde x é a variável independente, a e b são as constantes, com b

Embora, em alguns casos, seja essencial a distinção entre função

 Estimar valores de uma variável, com base em valores

Após o cálculo dos coeficientes a e b, usa-se a equação encontrada

𝑛 𝑥𝑦 − 𝑥 𝑦 8 × 244,193 − 27,30 × 62,68

Assim, a reta de regressão de y sobre x é:a reta ótima será:

Você também pode gostar