Escolar Documentos
Profissional Documentos
Cultura Documentos
4
Correlação e regressão linear entre
duas variáveis
O Ajuste de curvas é um método que consiste em encontrar uma curva que se ajuste
a um determinado conjunto de dados.
O objetivo é encontrar uma função que seja uma boa aproximação para o conjunto
de dados e que nos permita extrapolar com uma certa margem de segurança.
Diferentes tipos de ajuste de curvas: a relação entre duas ou mais variáveis pode ser
linear, não linear ou pode haver nenhuma relação. O tipo de relação e equação a ser
utilizada, geralmente, é sugerida a partir da plotagem dos dados no diagrama de
dispersão (gráfico).
O objetivo é encontrar uma função que tenha uma boa aproximação para o conjunto
de dados e que nos permita extrapolar com uma certa margem de segurança.
1.4.1 Ajuste de curvas
Relação Linear
Para representar a distribuição dos dados com relação linear, a equação utilizada é
uma reta com polinômio de grau 1.
1.4.1 Ajuste de curvas
Relação Quadrática
Relação Cúbica
“Um dos principais objetivos do ajustamento é estimar uma das variáveis (variável
dependente) em função da outra (variável independente). Tal processo de estimação
costuma designar-se regressão.
Se y deve ser estimado em função de x por meio de uma equação, tal equação é
denominada equação de regressão de y sobre x...”
Dizemos que existe uma relação estatística entre duas variáveis x e y se para cada
valor de x existe uma distribuição de probabilidade para y. Nesse caso, y é uma
variável aleatória e para cada valor de x podem existir diferentes valores para y.
Veja que podemos destacar pelo menos duas famıĺ ias com a mesma renda, porém
com diferentes gastos com alimentação no último mês. Isso já indica que a relação
entre x e y não é funcional. Apesar de não ser possıv́ el estabelecer uma relação
funcional entre x e y podemos observar que, em média, quanto maior é a renda da
famıĺ ia maior é o gasto com alimentação.
1.4.2 O método dos mínimos quadrados e Regressão Linear
Gasto com
alimentação
variável
dependente
Variável de
resposta (Y)
O Modelo de Regressão Linear Simples define uma relação estatıś tica entre uma
variável independente X (preditiva) e uma variável dependente Y (resposta) do
modelo. A suposição básica desse modelo é que a média da distribuição de y varia
de forma linear com x, através de uma equação linear. Onde:
ꞵ0 é o coeficiente linear
β1 é o coeficiente angular
1.4.2 O método dos mínimos quadrados e Regressão Linear
400
Yi = 10,3 + 0,1Xi + 𝜀
Y = 10,3 + 0,1*(3.000)
310 Y = 310,30.
264
200
100
Exercício de fixação
Uma certa peça é manufaturada por uma companhia, uma vez por mês, em lotes
que variam de tamanho de acordo com as flutuações na demanda. A tabela abaixo
contém dados sobre tamanho do lote e número de horas gastas na produção de 10
recentes lotes produzidos sob condições similares. Estes dados são apresentados
graficamente, tomando-se horas-homem como variável dependente ou variável
resposta (Y) e o tamanho do lote como variável independente ou preditora (X).
1.4.3 Coeficiente de correlação e covariância
O gráfico sugere claramente que há uma relação linear positiva entre o tamanho do lote e
o número de horas, de modo que, maiores lotes tendem a corresponder a maiores números de
horas-homem consumidas. Porém, a relação não é perfeita, ou seja, há uma dispersão de
pontos sugerindo que alguma variação no número de horas não é dependente do tamanho do
lote. Por exemplo, dois lotes de 30 unidades (1 e 8) demandaram quantidades um pouco
diferentes de horas. Na figura foi traçada uma linha (reta) de relacionamento descrevendo a
relação estatística entre horas e tamanho do lote. Ela indica a tendência geral da variação em
horas-homem quando há trocas no tamanho do lote.
Observa-se que grande parte dos pontos da figura não cai diretamente sobre a linha de
relacionamento estatístico. A dispersão dos pontos em torno da linha de relacionamento
representa a variação em horas que não é associada ao tamanho do lote, e que é usualmente
considerada aleatória. Relações estatísticas são geralmente úteis, mesmo não tendo uma
relação funcional exata.
Para estimar os parâmetros do modelo é necessário um método de estimação. O método
estatístico utilizado e recomendado pela sua precisão, é o método dos mínimos quadrados
que ajusta a melhor “equação” possível aos dados observados.
1.4.3 Coeficiente de correlação e covariância
Considere um modelo Y = -13,3248 + 0,5157*X que relaciona gasto com alimentação (Y) e
renda semanal (X) de uma amostra de 40 famílias.
O que a reta de regressão ajustada permite concluir para famílias que ganham R$ 100,00?
Exercício 1
Considere um modelo Y = -13,3248 + 0,5157*X que relaciona gasto com alimentação (Y) e
renda semanal (X) de uma amostra de 40 famílias. O que a reta de regressão ajustada
permite concluir para famílias que ganham R$ 100,00?
Y = -13,3248 + 0,5157*X
Y = -13,3248 + 0,5157*(100)
Y = 38,24
O gasto esperado com alimentação para famílias com renda de R$ 100 é de R$ 38,24.
Exercício 2
a) 3, 4, 2, 1
b) 4, 3, 1, 2
c) 3, 4, 1, 2
d) 4, 3, 2, 1
Exercício 2
a) 3, 4, 2, 1
b) 4, 3, 1, 2
c) 3, 4, 1, 2
d) 4, 3, 2, 1
Dúvidas?