Você está na página 1de 33

Unidade de Ensino: 1.

4
Correlação e regressão linear entre
duas variáveis

Curso de Formação de Oficial da Marinha Mercante

Disciplina: Probabilidade e Estatística


1.4 Correlação e regressão linear entre duas variáveis

Objetivo: Estabelecer a correlação e a regressão linear entre duas variáveis.


1.4 Correlação e regressão linear entre duas variáveis

1.4.1 Ajuste de curvas


1.4.2 O método dos mínimos quadrados e Regressão Linear
1.4.3 Coeficiente de correlação
1.4.1 Ajuste de curvas

O Ajuste de curvas é um método que consiste em encontrar uma curva que se ajuste
a um determinado conjunto de dados.

Exemplo: relacionar altura e peso de pessoas.

Coletar os dados amostrais que mostrem os valores correspondentes.

x1, x2, . . . , xn → variável independente - altura

y1, y2, . . . , yn → variável dependente – peso (variável de resposta)


1.4.1 Ajuste de curvas

Plotar os pares de pontos em um sistema de coordenadas

Diagrama de dispersão – aponta tendências e padrões.

O objetivo é encontrar uma função que seja uma boa aproximação para o conjunto
de dados e que nos permita extrapolar com uma certa margem de segurança.

Extrapolar no sentido de fazer projeções para o futuro e tomar decisões.


1.4.1 Ajuste de curvas

Diferentes tipos de ajuste de curvas: a relação entre duas ou mais variáveis pode ser
linear, não linear ou pode haver nenhuma relação. O tipo de relação e equação a ser
utilizada, geralmente, é sugerida a partir da plotagem dos dados no diagrama de
dispersão (gráfico).

O objetivo é encontrar uma função que tenha uma boa aproximação para o conjunto
de dados e que nos permita extrapolar com uma certa margem de segurança.
1.4.1 Ajuste de curvas

Relação Linear

Para representar a distribuição dos dados com relação linear, a equação utilizada é
uma reta com polinômio de grau 1.
1.4.1 Ajuste de curvas

Relação Quadrática

Se a ordem da função for aumentada para um polinômio de segundo grau.


1.4.1 Ajuste de curvas

Relação Cúbica

Se a ordem da função for aumentada para um polinômio de terceiro grau.


1.4.1 Ajuste de curvas

“Um dos principais objetivos do ajustamento é estimar uma das variáveis (variável
dependente) em função da outra (variável independente). Tal processo de estimação
costuma designar-se regressão.

Se y deve ser estimado em função de x por meio de uma equação, tal equação é
denominada equação de regressão de y sobre x...”

Fonte: Página 370, SPIEGEL. Probabilidade e Estatística – Coleção Schaum.


1.4.1 Ajuste de curvas

Exemplo: Considere Y o valor total arrecadado com as vendas de um certo produto


e X quantidade de produtos vendidos. Se a unidade de um produto custa R$ 0,50,
temos que Y=0,5X. Nesse caso, se conhecermos o valor de X sabemos o valor de Y.
1.4.2 O método dos mínimos quadrados e Regressão Linear

Dizemos que existe uma relação estatística entre duas variáveis x e y se para cada
valor de x existe uma distribuição de probabilidade para y. Nesse caso, y é uma
variável aleatória e para cada valor de x podem existir diferentes valores para y.

Exemplo: A fim de analisar o comportamento dos consumidores 60 famıĺ ias foram


entrevistadas perguntado a renda familiar (x) e gasto com alimentação no último mês
(y). O objetivo é entender a relação entre as variáveis x e y. Para isso os pontos (x,
y) coletado na entrevista forma plotado no plano xy.
1.4.2 O método dos mínimos quadrados e Regressão Linear

Veja que podemos destacar pelo menos duas famıĺ ias com a mesma renda, porém
com diferentes gastos com alimentação no último mês. Isso já indica que a relação
entre x e y não é funcional. Apesar de não ser possıv́ el estabelecer uma relação
funcional entre x e y podemos observar que, em média, quanto maior é a renda da
famıĺ ia maior é o gasto com alimentação.
1.4.2 O método dos mínimos quadrados e Regressão Linear

Gasto com
alimentação

variável
dependente

Variável de
resposta (Y)

Renda familiar - variável independente (x)


1.4.2 O método dos mínimos quadrados e Regressão Linear

O Modelo de Regressão Linear Simples define uma relação estatıś tica entre uma
variável independente X (preditiva) e uma variável dependente Y (resposta) do
modelo. A suposição básica desse modelo é que a média da distribuição de y varia
de forma linear com x, através de uma equação linear. Onde:

ꞵ0 é o coeficiente linear

β1 é o coeficiente angular
1.4.2 O método dos mínimos quadrados e Regressão Linear

Supondo que a relação linear entre as variáveis Y e X é satisfatória, podemos


estimar a linha de regressão e resolver alguns problemas de inferência.

O problema de estimar os parâmetros β0 e β1 é o mesmo que ajustar a melhor reta


em um gráfico de dispersão.

β0 é o coeficiente linear da reta e indica a média da variável resposta ao nível zero.

β1 é o coeficiente angular da reta que indica o acréscimo (ou decréscimo) na média


da variável resposta y quando a variável preditiva x aumenta em uma unidade.
1.4.2 O método dos mínimos quadrados e Regressão Linear

O Método dos Mínimos Quadrados consiste em estimar os parâmetros β0 e β1 de


forma a ajustar a melhor reta em um gráfico de dispersão.

O estimador para β0 e β1 por mı́nimos quadrados é aquele que minimiza a soma


dos quadrados dos erros εi. Isto é, vamos buscar a reta que melhor se ajusta nos
pontos da amostra.

Os valores de β0 e β1 são chamados Estimadores de Mínimos Quadrados (EMQ) e


são dados pelas seguintes equações:
1.4.2 O método dos mínimos quadrados e Regressão Linear

Isso significa que uma famıĺ ia com renda mensal de 3.000


500
gasta com alimentação em média R$ 310,30.
Despesas com alimentação

400
Yi = 10,3 + 0,1Xi + 𝜀
Y = 10,3 + 0,1*(3.000)
310 Y = 310,30.
264

200

100

1.000 2.000 3.000 4.000 5.000


Renda familiar
1.4.3 Coeficiente de correlação e covariância

Coeficiente de correlação e covariância

É uma medida que avalia o quanto a “nuvem de pontos” no diagrama de dispersão


aproxima-se de uma reta. O grau de relação entre duas variáveis pode ser medido
através do coeficiente de correlação linear (r), dado por

r = +1 correlação positiva perfeita entre as variáveis


r = −1 correlação negativa perfeita entre as variáveis
r = 0 não há correlação entre as variáveis
1.4.3 Coeficiente de correlação e covariância

Fraca - Pontos dispersos no entorno da reta traçada


indicam correlação fraca. Ou seja, você até verifica
que há uma correlação, dada a linha que é possível
traçar entre os pontos, porém, os pontos ficam
dispersos e não se avolumam próximo à reta.

Forte - Os pontos estão tão concentrados próximos à


reta, de modo que é possível inferir que há, sim, uma
forte correlação entre os fatores. É possível visualizar
uma mancha gráfica escura próximo à reta.
1.4.3 Coeficiente de correlação e covariância
1.4.3 Coeficiente de correlação e covariância

Qual a diferença entre regressão linear e correlação ?

Correlação mede o grau de dependência


(relação) entre duas variáveis. Utiliza-se o gráfico
de dispersão para medir a intensidade da
relação.

Regressão linear é modelar esses dados de


forma que encontre uma reta que melhor
represente essa relação.
1.4.3 Coeficiente de correlação e covariância

Exercício de fixação

Uma certa peça é manufaturada por uma companhia, uma vez por mês, em lotes
que variam de tamanho de acordo com as flutuações na demanda. A tabela abaixo
contém dados sobre tamanho do lote e número de horas gastas na produção de 10
recentes lotes produzidos sob condições similares. Estes dados são apresentados
graficamente, tomando-se horas-homem como variável dependente ou variável
resposta (Y) e o tamanho do lote como variável independente ou preditora (X).
1.4.3 Coeficiente de correlação e covariância

Tabela 2 - Tamanho de lote e número de horas gastas na produção de cada lote.


1.4.3 Coeficiente de correlação e covariância

Plotando o no gráfico de dispersão, temos:


1.4.3 Coeficiente de correlação e covariância

O gráfico sugere claramente que há uma relação linear positiva entre o tamanho do lote e
o número de horas, de modo que, maiores lotes tendem a corresponder a maiores números de
horas-homem consumidas. Porém, a relação não é perfeita, ou seja, há uma dispersão de
pontos sugerindo que alguma variação no número de horas não é dependente do tamanho do
lote. Por exemplo, dois lotes de 30 unidades (1 e 8) demandaram quantidades um pouco
diferentes de horas. Na figura foi traçada uma linha (reta) de relacionamento descrevendo a
relação estatística entre horas e tamanho do lote. Ela indica a tendência geral da variação em
horas-homem quando há trocas no tamanho do lote.
Observa-se que grande parte dos pontos da figura não cai diretamente sobre a linha de
relacionamento estatístico. A dispersão dos pontos em torno da linha de relacionamento
representa a variação em horas que não é associada ao tamanho do lote, e que é usualmente
considerada aleatória. Relações estatísticas são geralmente úteis, mesmo não tendo uma
relação funcional exata.
Para estimar os parâmetros do modelo é necessário um método de estimação. O método
estatístico utilizado e recomendado pela sua precisão, é o método dos mínimos quadrados
que ajusta a melhor “equação” possível aos dados observados.
1.4.3 Coeficiente de correlação e covariância

Assim, a equação de regressão linear entre X e Y será dada por: Y = 10 + 2 X + ε


Exercício 1

Considere um modelo Y = -13,3248 + 0,5157*X que relaciona gasto com alimentação (Y) e
renda semanal (X) de uma amostra de 40 famílias.

O que a reta de regressão ajustada permite concluir para famílias que ganham R$ 100,00?
Exercício 1

Considere um modelo Y = -13,3248 + 0,5157*X que relaciona gasto com alimentação (Y) e
renda semanal (X) de uma amostra de 40 famílias. O que a reta de regressão ajustada
permite concluir para famílias que ganham R$ 100,00?

Coeficiente de Interseção = -13,3248

Coeficiente de Variável = 0,5157

Y = -13,3248 + 0,5157*X
Y = -13,3248 + 0,5157*(100)
Y = 38,24

O gasto esperado com alimentação para famílias com renda de R$ 100 é de R$ 38,24.
Exercício 2

Uma das ferramentas de análise de dados e de solução de problemas é o diagrama


de dispersão. Tal ferramenta mede a força de correlação linear entre duas variáveis
quantitativas. Observe os gráficos de dispersão a seguir e identifique a intensidade da
correlação descrita na coluna da direita. Assinale a seguir a opção que contém a
sequência CORRETA, de cima para baixo:

a) 3, 4, 2, 1
b) 4, 3, 1, 2
c) 3, 4, 1, 2
d) 4, 3, 2, 1
Exercício 2

Uma das ferramentas de análise de dados e de solução de problemas é o diagrama


de dispersão. Tal ferramenta mede a força de correlação linear entre duas variáveis
quantitativas. Observe os gráficos de dispersão a seguir e identifique a intensidade da
correlação descrita na coluna da direita. Assinale a seguir a opção que contém a
sequência CORRETA, de cima para baixo:

a) 3, 4, 2, 1
b) 4, 3, 1, 2
c) 3, 4, 1, 2
d) 4, 3, 2, 1
Dúvidas?

Você também pode gostar