Regressão linear e correlação

INF 162 Prof.
Luiz Alexandre Peternelli
CAPÍTULO 9 - Regressão linear e

correlação
Veremos nesse capítulo os seguintes assuntos, nessa ordem:
• Correlação amostral
• Regressão Linear Simples
• Regressão Linear Múltipla
1. Correlação Amostral
Serve para estudar o comportamento conjunto de duas variáveis quantitativas
distintas. Ou, em outras palavras, mede o grau de associação entre duas variáveis
aleatórias X e Y.
OBS.: não há, nesse caso, preocupação em apresentar alguma forma funcional entre
as variáveis, se houver.
Exemplos:
(apresentados em aula)
Para o estudo do comportamento conjunto de duas variáveis poderiam ser

usados:
1.1. O Diagrama de dispersão

Representação gráfica do conjunto de dados. Nada mais é do que a
representação dos pares de valores num sistema cartesiano. Veja exemplos
apresentados em aula.
Dependendo do gráfico obtido, três situações marcantes poderiam acontecer:
a) Se, quando uma das variáveis “cresce”, a outra, em média, também “cresce”,
dizemos que entre as duas variáveis existe correlação positiva, tanto mais forte
quanto mais perto de uma reta imaginária os pontos estiverem;
b) Se, quando uma das variáveis “cresce”, a outra, em média, também “decresce”,
dizemos que entre as duas variáveis existe correlação negativa, tanto mais forte
quanto mais perto de uma reta imaginária os pontos estiverem;
1
INF 162 Prof. Luiz Alexandre Peternelli
c) Se os pontos estiverem dispersos, sem definição de direção, dizemos que a

correlação é muito baixa, ou mesmo nula. As variáveis nesse caso são ditas não
correlacionadas.
1.2. O coeficiente de correlação

É um valor numérico, uma medida, para o grau de associação entre duas
variáveis.
Se for observada uma associação entre as variáveis quantitativas (a partir de
um diagrama de dispersão, por exemplo), é muito útil quantificar essa associabilidade.
Existem muitos tipos de associação possíveis, e aqui iremos apresentar o tipo de
relação mais simples, que é o linear. Iremos julgar o quanto a nuvem de pontos do
diagrama de dispersão se aproxima de uma reta.
Sejam duas amostras relativas às variáveis X e Y, dadas a seguir:
Xi X1 X2 K Xn
Yi Y1 Y2 K
Yn
O coeficiente de correlação entre os valores de X e Y é dado por:
SPD XY
COˆ V ( X , Y ) n −1 SPD XY
rXY = = = , - 1 ≤ rXY ≤ 1 ,
Vˆ ( X ) ⋅ Vˆ (Y ) SQD X SQDY
.
SQD X .SQDY
n −1 n −1
em que:
 n  n 
n


∑ X i  ∑ Yi 
 i =1 
SPD XY = ∑ X i Yi − i =1
i =1 n
2 2
 n   n 
n
∑ Xi  n
 ∑ Yi 
SQD X = ∑ X i2 −  i =1  e SQDY = ∑ Yi −  i =1 
2
i =1 n i =1 n
exemplo:
Amostra A 4 8 3 9 7 5
Amostra B 1 5 2 14 3 11
 n  n 
n
 ∑ Ai  ∑ Bi 
(36)(36) = 36
SPD AB = ∑ Ai Bi −  i =1  i =1  = 252 −
i =1 n 6
2
2
 n 
 ∑ Ai 
n
SQD A = ∑ Ai −
2  i =1  = 244 −
(36)
2
= 28
i =1 n 6
2
 n 
 ∑ Bi 
n
SQDB = ∑ Bi −
2  i =1  = 356 −
(36)
2
= 140
i =1 n 6
SPAB 36
rAB = = = 0,5750
SQD A . SQD B (28) (140)
2. Regressão linear
A análise de regressão consiste na realização de uma análise estatística com o
objetivo de verificar a existência de uma relação funcional entre uma variável
dependente com uma ou mais variáveis independentes. Em outras palavras consiste na
obtenção de uma equação que tenta explicar a variação da variável dependente pela
variação do(s) nível(is) da(s) variável(is) independente(s).
Para tentar estabelecer uma equação que representa o fenômeno em estudo
pode-se fazer um gráfico, chamado de diagrama de dispersão, para verificar como se
comportam os valores da variável dependente (Y) em função da variação da variável
independente (X).
O comportamento de Y em relação a X pode se apresentar de diversas
maneiras: linear, quadrático, cúbico, exponencial, logarítmico, etc... . Para se
estabelecer o modelo para explicar o fenômeno, deve-se verificar qual tipo de curva e
equação de um modelo matemático que mais se aproxime dos pontos representados
no diagrama de dispersão.
Contudo, pode-se verificar que os pontos do diagrama de dispersão, não vão se
ajustar perfeitamente à curva do modelo matemático proposto. Haverá na maior parte
dos pontos, uma distância entre os pontos do diagrama e a curva do modelo
matemático. Isto acontece, devido ao fato do fenômeno que está em estudo, não ser
um fenômeno matemático e sim um fenômeno que está sujeito a influências que
acontecem ao acaso. Assim, o objetivo da regressão é obter um modelo matemático
que melhor se ajuste aos valores observados de Y em função da variação dos níveis da
variável X.
3
No entanto o modelo escolhido deve ser coerente com o que acontece na

prática. Para isto, deve-se levar em conta as seguintes considerações no momento de
se escolher o modelo:
a) o modelo selecionado deve ser condizente tanto no grau como no aspecto da
curva, para representar em termos práticos, o fenômeno em estudo;
b) o modelo deve conter apenas as variáveis que são relevantes para explicar o
fenômeno;
Como foi dito anteriormente, os pontos do diagrama de dispersão ficam um
pouco distantes da curva do modelo matemático escolhido. Um dos métodos que se
pode utilizar para obter a relação funcional, se baseia na obtenção de uma equação
estimada de tal forma que as distâncias entre os pontos do diagrama e os pontos da
curva do modelo matemático, no todo, sejam as menores possíveis. Este método é
denominado de Método dos Mínimos Quadrados (MMQ). Em resumo por este
método a soma de quadrados das distâncias entre os pontos do diagrama e os
respectivos pontos na curva da equação estimada é minimizada, obtendo-se, desta
forma, uma relação funcional entre X e Y, para o modelo escolhido, com um mínimo
de erro possível.
2.1. Modelo linear de 1º grau (REGRESSÃO LINEAR SIMPLES)

O modelo estatístico para esta situação seria:
Yi = β 0 + β1 X i + ei
em que:
Yi = valor observado para a variável dependente Y no i-ésimo nível da variável
independente X.
β 0 = constante de regressão. Representa o intercepto da reta com o eixo dos Y.
β1 = coeficiente de regressão. Representa a variação de Y em função da variação de

uma unidade da variável X.
X i = i-ésimo nível da variável independente X (i = 1,2,K,n )
ei = é o erro que está associado à distância entre o valor observado Yi e o
correspondente ponto na curva, do modelo proposto, para o mesmo nível i de X.

Para se obter a equação estimada, vamos utilizar o MMQ, visando a
minimização dos erros. Assim, tem-se que:
ei = Yi − β 0 − β1 X i
4
elevando ambos os membros da equação ao quadrado,

ei2 = [Yi − β 0 − β1 X i ]
2
aplicando o somatório,
n n
∑ e = ∑ [Y − β − β1 X i ]
2 2
i i 0 (1)
i =1 i =1
Por meio da obtenção de estimadores de β 0 e β 1 , que minimizem o valor

obtido na expressão anterior (1), é possível alcançar a minimização da soma de
quadrados dos erros.
Para se encontrar o mínimo para uma equação, deve-se derivá-la em relação à
“variável” de interesse e igualá-la a zero. A sua derivada segunda deverá, obviamente,
ser positiva, o que no caso sempre ocorrerá, por se tratar de uma soma de quadrados.
Derivando então a expressão (1) em relação a β 0 e β 1 , e igualando-as a zero,
poderemos obter duas equações que, juntas, vão compor o chamado sistemas de
equações normais. A solução desse sistema fornecerá:
∑x ∑y
∑x y
i i
i i − SPD xy
β̂ 1 = n = e βˆ 0 = Y − βˆ1 X
(∑ xi )2 SQD x
∑x 2
i −
n
Uma vez obtidas estas estimativas, podemos escrever a equação estimada:
Yî = βˆ0 + βˆ1 X i
Exemplos:
1) Para verificar se existe relação linear de primeiro grau entre umidade relativa (UR)
do ar de secagem de sementes e a germinação das mesmas, um pesquisador realizou
um experimento com 4 valores diferentes para a %UR do ar, obtendo-se os seguintes
dados (dados hipotéticos)
% UR 20 30 40 50
% germinação 94 96 95 97
a) Obter as estimativas do β0 e do β1 considerando o modelo proposto;
b) Qual seria a equação ajustada?
c) Qual seria a % de germinação esperada quando UR = 45 %?
OBS.: veremos, mais tarde, como verificar a significância da regressão.
R.: a) β̂ 0 = 92,7; β̂ 1 = 0,08 b) 95,5 %
5
2) Foi realizado uma análise de regressão para investigar a existência de relação linear
simples entre a temperatura superficial de uma estrada (X) medida em graus F e a
deformação da pavimentação (Y) medida segundo uma técnica especial. Baseado nas
seguintes informações pede-se:
n = 20; ∑y i = 12,75; ∑y 2
i = 8,86; ∑x i = 1478; ∑x 2
i =143215,8; e ∑x y
i i =
1083,67
a) Calcule as estimativas dos parâmetros da regressão. Apresente a equação ajustada
num gráfico;
b) Use a equação para estimar qual deformação haveria na pavimentação quando a
temperatura superficial fosse de 85 graus F.
c) Qual seria a mudança esperada na deformação da pavimentação para uma
mudança de 1o F na temperatura superficial?
d) Suponha que a temperatura seja medida em graus C ao invés de graus F. Qual
seria a nova equação ajustada resultante? Lembre-se: C = 5(F – 32)/9.
e) Qual seria a mudança esperada na deformação da pavimentação para uma
mudança de 1o C na temperatura superficial?
Exercício Proposto
Os dados a seguir provêm de um experimento para testar o desempenho de uma
máquina industrial. O experimento utilizou uma mistura de óleo diesel e gás,
derivados de materiais destilados orgânicos. O valor da capacidade da máquina em
cavalo vapor (HP) foi coletado a diversas velocidades medidas em rotações por
minuto (rpm × 100), totalizando 24 pares de valores.
X Y X Y X Y X Y
22,0 64,03 15,0 46,85 18,0 52,90 15,0 45,79
20,0 62,47 17,0 51,17 16,0 48,84 17,0 51,17
18,0 54,94 19,0 58,00 14,0 42,74 19,0 56,65
16,0 48,84 21,0 63,21 12,0 36,63 21,0 62,61
14,0 43,73 22,0 64,03 10,5 32,05 23,0 65,31
12,0 37,48 20,0 62,63 13,0 39,68 24,0 63,89
X = velocidade Y = capacidade
Admitindo-se que as variáveis X e Y estão relacionadas de acordo com o

modelo Yi = β 0 + β1 X i + e i , pede-se:
(a) Obter a equação ajustada e traçar seu gráfico. Mostre também o diagrama de
dispersão;
6
(b) Calcule o coeficiente de determinação e interprete;

n
(c) Verifique que ∑ ê
i =1
i = 0;
n n
(d) Verifique que ∑ Yi = ∑ Ŷi ;
i =1 i =1
(e) Interprete a estimativa obtida para β1;

(f) Determine a estimativa de Y para X = 15,5.
2.2. Coeficiente de determinação

O coeficiente de determinação, também conhecido como R2, ou simplesmente
r2 para o caso de regressão linear simples, fornece uma informação auxiliar ao
resultado da análise de variância da regressão (apresentado a seguir), como uma
maneira de se verificar se o modelo proposto é adequado ou não para descrever o
fenômeno.
O R2 é obtido por:
SQ Re g
R2 =
SQTotal
onde, SQRegressão = β̂ 1 SPDXY, e SQTotal = SQDy.

O valor de R2 varia no intervalo de 0 a 1. Valores próximos de 1 indicam que
o modelo proposto é adequado para descrever o fenômeno.
O R2 indica a proporção (ou porcentagem) da variação de Y que é “explicada”
pela regressão, ou quanto da variação na variável dependente Y está sendo
“explicada” pela variável independente X.
2.3. Teste de hipótese na regressão linear simples

Após ajustar uma equação de regressão devemos verificar sua adequabilidade,
por meio de testes de hipóteses para os parâmetros do modelo e/ou a construção de
intervalos de confiança. Para tal intento precisamos da pressuposição adicional de que
os erros tenham distribuição normal.
Em outras palavras, a equação estimada obtida, apenas estabelece uma relação
funcional, entre a variável dependente e a variável independente, para representar o
fenômeno em estudo. Portanto a simples obtenção da equação estimada não responde
ao pesquisador se a variação da variável independente influencia significativamente
na variação da variável dependente.
7
Para se responder a esta pergunta, é necessário realizar um teste estatístico

para as estimativas dos coeficientes da equação de regressão estimada. Um teste que
pode ser realizado para verificar tal fato é o teste F da análise de variância e/ou o teste
t. Portanto, é necessário realizar uma análise de variância dos dados observados, em
função do modelo proposto.
Como temos dois parâmetros no modelo Yi = β 0 + β1 X i + ei , poderíamos
realizar os seguintes testes:
-
H0: β1 = β1* versus Ha: β1 ≠ β1*
- H0: β0 = β0* versus Ha: β0 ≠ β0*
Em cada caso a estatística do teste e as conclusões seriam:
βˆ1 − β 1* σˆ 2
tcalc = , onde Vˆ ( βˆ1 ) =
Vˆ ( βˆ ) SQD x
1
- regra de decisão: Se | tcalc | ≥ t(α/2, n-2) ⇒ rejeita H0
βˆ 0 − β 0* 1 X2 
tcalc = , onde Vˆ ( βˆ 0 ) = σˆ 2  + 
Vˆ ( βˆ )
0
 n SQD x 
- regra de decisão: Se | tcalc | ≥ t(α/2, n-2) ⇒ rejeita H0
SQ Re s SQD y − βˆ1 SPD xy

OBS.: σˆ 2 = estimativa da variância dos erros = =
n−2 n−2
Um caso especial muito importante seria: H0: β1 = 0 versus Ha: β1 ≠ 0. Essas
hipóteses estão relacionadas com a significância da regressão. Não rejeitar H0 é
equivalente a concluir que não há relação linear entre X e Y. Por outro lado, se H0: β1
= 0 for rejeitado indicaria que X é importante para explicar a variabilidade em Y. Veja
ilustrações apresentadas em aula.
De maneira alternativa poderíamos testar a significância da regressão pelo
método da Análise de Variância (ANOVA).
O método da ANOVA consiste em fazer uma partição da variabilidade total da
variável resposta Y em outros componentes de acordo com o modelo e o teste a ser
feito. Assim a seguinte identidade pode ser verificada:
∑ (Y i − Y ) 2 = ∑ (Yî − Y ) 2 + ∑ (Yi − Yˆ ) 2 ,
ou, em outra palavras,

SQTotal = SQRegressão + SQResíduo,
onde
8
SQTotal = variação total em Y = SQDY

SQRegressão = variação em Y explicada pela regressão ajustada = β̂ 1 SPDXY,
de modo que
SQResíduo = SQRes = variação não explicada pela regressão = SQDY - β̂ 1 SPDXY.
Baseado nessa identidade o seguinte quadro pode ser montado:
FV GL SQ QM F
Regressão 1 SQReg QMReg = SQReg QM Re g
QM Re s
Resíduo, ou n–2 SQRes SQ Re s -
Independente da QMRes = n−2
Regressão
Total n–1 SQTotal
A estatística F obtida no quadro acima serve para testar a significância da

regressão, ou seja, testar H0: β1 = 0 versus Ha: β1 ≠ 0.
- regra de decisão: Se Fcalc ≥ F(α, 1, n-2) ⇒ rejeita H0
OBS.: Se regressão linear simples, e para H0: β1 = 0 temos que (tcalc)2 = Fcalc
exemplo:
Para verificar se existe relação linear de primeiro grau entre umidade relativa (UR) do
ar de secagem de sementes e a germinação das mesmas, um pesquisador realizou um
experimento com 4 valores diferentes para a %UR do ar, obtendo-se os seguintes
dados (dados hipotéticos)
% UR 20 30 40 50
% germinação 94 96 95 97
a) Obter as estimativas do β0 e do β1 considerando o modelo proposto;
b) Obter o quadro da ANOVA para checar a significância da regressão, ou seja,
se existe efeito da UR do ar de secagem na % de germinação. Se necessário
use α = 5%;
c) Realize o teste t para o coeficiente de regressão. Se necessário use α = 5%;
d) Compare os resultados dos itens b e c;
e) Qual seria a % de germinação esperada quando UR = 45 %?
f) Como deveria ser apresentada, num relatório técnico, a equação de regressão
ajustada para esse exemplo?
9
R.: a) β̂ 0 = 92,7; β̂ 1 = 0,08 . Algumas das outras respostas podem ser obtidas no
endereço www.dpi.ufv.br/~peternelli/inf460/materiais.htm.
Exercícios Propostos:
1) (questão de prova do II/2000) Para estudar a relação entre Y (número total de horas
necessárias à montagem da parte de uma estrutura) e X (número total de operações de
furar e rebitar), registraram-se os dados da tabela abaixo.
Estudo A B C D E F G H I
X 236 80 127 445 180 343 305 488 170
Y 5,1 1,7 3,3 6,0 2,9 5,9 7,0 9,4 4,8
Para facilitar seus cálculos considere as seguintes informações:
∑x
i
i = 2374; ∑y
i
i = 46,1; ∑x
i
2
i = 786368; ∑y
i
2
i = 279,41; ∑x y
i
i i = 14512,6
também, SPDxy = 2352,4444; SQDx = 160159,5556

Pede-se:
a) Obter a equação de regressão ajustada para o modelo Yi = β0 + β1xi + εi
R.: Yˆ = 1,271 + 0,0146X
b) Interpretar as estimativas obtidas dos parâmetros da regressão.
c) Calcular o coeficiente de determinação para o modelo ajustado. Faça a
interpretação apropriada para esse resultado. R.: 79,9%
d) A análise de variância (ANOVA) da regressão pode ser resumida no seguinte
quadro
F.V. g.l. SQ QM F
Regressão 1 34,59 34,59
Resíduo 7 8,68 1,24
Total 8 43,27
d.1) Uma maneira de verificar a significância da regressão ajustada é por meio da
ANOVA apresentada acima. Apresente a hipótese a ser testada pela ANOVA e realize
o teste apropriado (use α = 5%) para testar essa hipótese.
d.2) Se fosse concluído que podemos considerar β1 = 0, como deveria ser reescrito o
modelo ajustado? Justifique.
2) Para o exemplo 2 dado no início sobre regressão linear simples (aquele da

temperatura superficial de uma estrada (X) medida em graus F e a deformação da
10
pavimentação (Y), verifique se realmente existe uma relação linear significativa (use
α = 5%) entre X e Y, e reavalie as comclusões obtidas para os itens daquele exercício.
3) Adaptado dos dados existentes em algumas calculadoras de bolso. Um engenheiro

está interessado em avaliar o efeito da temperatura sobre o comprimento de certa peça
metálica. Para isso obteve cinco corpos de prova de mesmo comprimento inicial (certa
unidade de medida) e os submeteu a 5 temperaturas (oC) diferentes. Os dados estão
apresentados abaixo.
Temperatura 10 15 20 25 30
Comprimento 1003 1005 1010 1011 1014
Pede-se: (use α = 5% se necessário)
a) Obter o diagrama de dispersão dos dados;
b) Ajustar a equação de regressão baseado no modelo de uma regressão linear
simples e traçar a reta no diagrama obtido em a;
c) Interpretar as estimativas dos parâmetros obtidas;
d) Checar a significância da regressão por meio da ANOVA;
e) Checar a significância da regressão por meio do teste t;
f) Qual seria o comprimento esperado da peça quando a temperatura for igual a
17oC?
g) Qual seria o comprimento esperado da peça quando a temperatura for igual a
40oC?
h) (Calibração) Qual deve ser a temperatura a ser usada para que o comprimento
da barra atinja 1009 unidades de medida?
Respostas: Realize os cálculos à mão. Depois as compare com os resultados obtidos
no R, e parcialmente apresentados no endereço:
www.dpi.ufv.br/~peternelli/inf460/materiais.htm.
2.4. Regressão linear múltipla

A regressão múltipla envolve três ou mais variáveis, ou seja, uma única
variável dependente (Y) e duas ou mais variáveis independentes ou explanatórias ou
covariáveis ou regressoras (Xi, i = 1, 2, ...). A teoria é uma extensão da análise de
regressão linear simples. De modo similar a análise tem por objetivo estabelecer uma
equação que possa ser usada para predizer valores de Y para valores dados das
diversas variáveis independentes. A finalidade das variáveis independentes adicionais
11
é melhorar a capacidade de predição em confronto com a regressão linear simples. A

técnica de cálculo é bastante complicada e pode ser facilitada com o auxílio de
álgebra de matrizes.
O modelo
Y = β 0 + β 1 x1 + β 2 x 2 + L + β k x k + ε
é chamado de modelo de regressão linear múltipla com k variáveis regressoras. Os

parâmetros βi (i = 1 a k) são chamados de coeficientes de regressão parciais, e podem
ser facilmente obtidos via algebra de matrizes (a ser explicado em sala de aula).
O quadro para a análise de variância para a regressão é do seguinte tipo:
FV GL SQ QM F
Regressão p SQReg SQ Re g QM Re gr
p QMInd
Independente da n–1–p SQInd SQInd -
Regressão n −1 − p
Total n–1 SQTotal
em que:
- p = no de coeficientes de regressão (não inclui o β0 )
- n = no de observações.
As fórmulas (usando-se somatório) para a obtenção das somas de quadrados
total e da soma de quadrados do independente da regressão são as mesmas, tanto para
o modelo linear de 1o grau quanto para o de 2o grau ou outros, as quais são dadas a
seguir:
2
 n 
n
 ∑ Yi 
SQTotal = ∑ Yi −  i =1 
2
i =1 n
SQIndependente da Regressão = SQTotal - SQRegressão
Já a soma de quadrados para a regressão varia de acordo com o modelo em
teste. Assim tem-se que, para o modelo linear de 1o grau, a soma de quadrados da
regressão é obtida por:
2
 n 
n n
 ∑ Yi 
SQ Re gressão = β 0 ∑ Yi + β1 ∑ Yi X i −  i=1 
ˆ ˆ
i =1 i =1 n
Para o modelo linear de 2o grau, a soma de quadrados da regressão é dada por:
12
2
 n 
 ∑ Yi 
n n n
 i =1 
SQ Re gressão = β$ 0 ∑ Yi + β$ 1 ∑ Yi X i + β$ 2 ∑ Yi X 2i −
i =1 i =1 i =1 n
Em geral, para qualquer modelo de regressão poderíamos usar a notação
matricial e, com o auxílio de computadores, obter, passo a passo, os resultados de
interesse. Logicamente, se o interesse for apenas o resultado final, a análise realizada
no computador proverá isso rapidamente. Considere o exemplo dado no final desse
capítulo para o caso de regressão múltipla usando notação matricial.
De modo geral, as hipóteses estatísticas para o teste F, são as seguintes:
- H 0 : β1 = β 2 = ... = β p = 0 , o que significa dizer que as p variáveis independentes
não exercem influência na variável dependente, segundo o modelo proposto.

- H a : β i ≠ 0 , para pelo menos um βi, o que significa dizer que pelo menos uma
das p variáveis independentes exerce influência na variável dependente, segundo o

modelo proposto.
O valor de F da análise de variância, deve ser comparado, com o valor de F
tabelado (Ftab ) , o qual se obtém na tabela da distribuição F de acordo com o nível de
significância do teste, e o número de graus de liberdade para a regressão e
independente da regressão, ou seja:
Ftab = Fα ( p;n − 1 − p ) .
A regra decisória para o teste F é:

- Se F ≥ Ftab ⇒ Rejeita-se H0 ao nível de significância que foi realizado o teste.
Pode-se inferir que o modelo proposto é adequado para descrever o fenômeno.

- Se F < Ftab ⇒ Não rejeita-se H0 ao nível de significância que foi realizado o teste.
Pode-se inferir que o modelo proposto não é adequado para descrever o fenômeno.
Testes parciais (teste t) para cada coeficiente de regressão poderiam ainda ser
realizados, caso seja rejeitada a hipótese de nulidade dos coeficientes de regressão
baseados no teste F da ANOVA. Tais testes serão comentados mais adiante neste
capítulo.
2.4.1. Modelo linear de 2º grau

O modelo estatístico para esta situação seria:
Yi = β 0 + β1 X i + β 2 X i2 + ei ,
13
em que:
Yi = valor observado para a variável dependente Y no i-ésimo nível da variável
independente X.
β 0 = constante de regressão.
β1 = coeficiente de regressão.
β 2 = coeficiente de regressão.
X i = i-ésimo nível da variável independente X (i = 1,2,K,n )
X i2 = i-ésimo nível da variável independente X, elevado ao quadrado
ei = é o erro que está associado à distância entre o valor observado Yi e o
correspondente ponto na curva para o mesmo nível i de X.

Utilizando o MMQ, no modelo de 2º grau, chegar-se-á ao seguinte sistema de
equações normais, para se obter as estimativas de β 0 , β 1 e β 2 :
n n n
∑ i 1∑ 2∑ Xi
Y = n ˆ + βˆ
β X + β ˆ 2
0 i
 i =1 i =1 i =1
 n n n n
∑ Yi X i = βˆ 0 ∑ X i + βˆ1 ∑ X i + βˆ 2 ∑ X i
2 3
 i =1 i =1 i =1 i =1
n n n n
∑ Yi X i = βˆ
0∑ Xi + ˆ
β 1∑ X i + ˆ
β 2∑ Xi
2 2 3 4
 i =1 i =1 i =1 i =1
Uma vez obtidas estas estimativas, podemos escrever a equação estimada:

Yî = βˆ 0 + βˆ1 X i + βˆ 2 X i2
Exemplo:
(Dado em aula)
2.4.2 Modelo Linear Geral

Modelos que envolvem mais de uma variável explicativa (ou modelos
polinomiais com uma ou mais variáveis explicativas).
Para ilustrar esse tópico será usado o exemplo do livro do Werkema e Aguiar,
página 15, a seguir. Veja solução em
www.dpi.ufv.br/~peternelli/inf460/materiais.htm.
14
Exemplo Ilustrativo (Werkema e Aguiar pág. 149) – (exemplo 8.13.2.1 da INF

460)
Uma indústria produz grandes quantidades de Alumina (Al2O3 de elevado teor

de pureza) para a fabricação de alumínio metálico. A matéria prima para a fabricação
de alumina é a bauxita, um mineral com cerca de 55% de óxido de alumínio (Al2O3).
No processo de fabricação da alumina, o teor de Na2O (óxido de sódio)
ocluído no produto é um fator importante do ponto de vista da qualidade da alumina
fabricada. O Na2O é uma impureza e, portanto, é desejável que o seu teor na alumina
seja o mais baixo possível.
Objetivo da indústria: teor de Na2O ≤ 0,42%.
Quer-se avaliar como a razão AP2O3/NaOH e a temperatura de reação afetam
o teor de Na2O final.
Hidróxido de
Sódio. Um dos
reagentes do
Erro aleatório
Modelo proposto:
Y i = β o + β 1 X 1i + β 2 X 2 i + e i
Teor de óxido de
sódio (Na2O) Temperatura
Razão
ocluído na alumina de reação
Al2O3/NaO
 Óxido de alumínio 
 
 Hidróxido de sódio 
 
Presente na bauxita que entra no processo Um dos reagentes do
de produção do alumínio processo
15
Dados: (disponibilizado em www.dpi.ufv.br/~peternelli/inf460/materiais.htm)

Dados utilizados no estudo do Tipo de Relacionamento existente entre a razão
Al2O3/NaOH, a temperatura de reação e o teor de Na2O ocluído na Alumina
Ordem de Teor de Na2O Razão Temperatura
coleta das (%) Al2O3/NaOH (°C)
observações Y X1 X2
1 0,43 0,647 77,1
2 0,39 0,638 78,3
3 0,44 0,651 76,0
4 0,42 0,648 77,9
5 0,43 0,640 74,1
6 0,42 0,643 74,6
7 0,41 0,643 76,0
8 0,46 0,651 73,3
9 0,42 0,650 78,6
10 0,40 0,639 78,7
11 0,39 0,636 77,8
12 0,41 0,641 75,8
13 0,43 0,649 77,3
14 0,39 0,633 76,5
15 0,41 0,645 78,6
16 0,43 0,642 74,7
17 0,40 0,638 75,5
18 0,39 0,635 78,2
19 0,40 0,639 75,9
20 0,40 0,639 76,6
21 0,42 0,645 78,0
22 0,44 0,650 77,2
23 0,40 0,642 78,0
24 0,43 0,648 76,1
25 0,42 0,642 74,6
26 0,39 0,633 77,5
Assim,
Y1 = β o + β 1 X 11 + β 2 X 21 + e1
Y2 = β o + β 1 X 12 + β 2 X 22 + e 2
Y3 = β o + β 1 X 13 + β 2 X 23 + e3
M
Y26 = β o + β 1 X 126 + β 2 X 226 + e 26
Na forma matricial teríamos:
16
Y1  1 X 11 X 21   e1 
Y  1 β0 
 2 = X 12 X 22  β  +
e 
 2 
 M  M   1 M 
     β 2   
Y26  1 X 126 X 226  e
3 x 1  26 
26 x 1 26 x 3 26 x 1
ou seja, Y = Xβ + ε .
Pode-se demonstrar que
βˆ = ( X ' X ) −1 X ' Y
~ ~
699,55 − 893,93 − 1,63  10,770 

= − 893,93 1332,66 0,49 x  6,923 
− 1,63 0,49 0,02  825,160 
ˆ
− 0,9878  β 0 
≅  2,7904  =  βˆ1 
− 0,0051  βˆ 
 2
Assim, o modelo ajustado será:
Yˆ = −0,9878 + 2,7904 X 1 − 0,0051X 2

Baseado nessa equação ajustada as seguintes interpretações poderiam ser
estabelecidas:
• um aumento de uma unidade em X1, com X2 constante ⇒ aumento médio de
2,79% em Y;
• um aumento de um °C em X2, com X1 constante ⇒ redução média de
0,0051% em Y;
• β̂ 0 → sem interpretação pois X1 = 0 ou X2 = 0 não ocorrem, além de, nesse
exemplo, não fazerem sentido.
17
Observe que ainda não foi realizado nenhum teste para verificação da validade
dessa equação ajustada. Portanto, a validade dessas interpretações só se dará após a
análise de resíduos, seguido dos testes estatísticos apropriados.
2.4.2.1. Inferência em regressão múltipla
Suposição: ei são iid ~ N (0;σ 2 )

H 0 : β1 = β 2 = L = β K = 0
H a : pelo menos 1 β i é ≠ 0
QMregressão
Fcalc = ~ F ( K ; n − K − 1) sob H 0
QMresíduo
Se Fcalc ≥ Ftab ⇒ rej. H o p /α

Tabela para obter o Fcalc:
F.V. g.l. SQ QM Fcalc
Regressão k SQRegr QMRegr QMReg/QMRes
Resíduo n-k-1 SQRes QMRes
Total n-1
OBS1: As expressões para os cálculos das SQ e QM são dadas abaixo.
βˆ ' X ' Y −
(∑ Y ) i
2
SQregr n
QM regr = =
K K
SQres Y ' Y − βˆ ' X ' Y
QM res = =
n − K −1 n − K −1
OBS2: Outras fórmulas bastante úteis para o bom entendimento dos cálculos realizados são:
n n n n
SQTotal = ∑ ( yi − y ) 2 ; SQRegressão =
i =1
∑ ( yˆ i − y ) 2 ;SQResíduo =
i =1
∑ ( yi − yˆ i ) 2 = ∑ ei2
i =1 i =1
Exemplos
Exemplo 2.4.2.1.1.
(Exemplo 8.13.2.3.1 da INF 460)
Seja X1 = {1, 2, 3, 4, 5}, X2 = {2, 3, 4, 6, 10} e Y = {12, 16, 18, 21, 24}
Pede-se:
18
a) Considerando o modelo Y = β0 + β1X1 + β2X2 + ε, obtenha o vetor Y e a

matriz X;
b) Obtenha as matrizes X’X e X’y
c) Obtenha as estimativas dos parâmetros, dado a seguinte (X’X)-1
x1 x2
1.2256410 -0.6410256 0.1794872
x1 -0.6410256 1.0256410 -0.4871795
x2 0.1794872 -0.4871795 0.2564103
d) Obtenha a média de y;
e) Obtenha os valores ajustados de y;
f) Usando as fórmulas dadas na observação 2 acima, calcule a SQTotal,
SQRegressão e SQResíduo. Monte o quadro na ANOVA e conclua.
Dica: todas as respostas podem ser obtidas no endereço
www.dpi.ufv.br/~peternelli/inf460/materiais.htm
Adicionalmente poderíamos testar cada coeficiente separadamente utilizando um teste

t.
Ho: βj = 0 vs Ha: βj ≠ 0 j = 0, 1, ..., k
βˆ j
t calc = ~ t (n − K − 1 g.l.)
σˆ C jj
2
onde: ( )
σˆ 2 = QM residuo = Y ' Y − βˆ ' X 'Y / (n − K − 1)
onde Cjj corresponde ao elemento ocupando a posição jj na matriz (X’X)-1, com j
variando de 0 a k.
A regra decisória continua sendo:
Se t calc ≥ t tab ⇒ rejeita − se H 0
Ou avalia-se pelo p-value.

Intervalos de confiança também podem ser obtidos para os coeficientes de
regressão. Um intervalo de 100 (1 – α)% de confiança para βi é dado por:
19
βˆ j − ttab . σˆ 2C jj ≤ β j ≤ βˆ j + ttab σˆ 2C jj
onde:
ttab = tα
,n − k −1
2
2.4.2.2. O Coeficiente de Determinação R 2 e o Coeficiente de Determinação

2
Ajustado R aj
Na regressão linear simples, o coeficiente de determinação é representado por r².

No entanto, para regressão linear múltipla, usamos R², chamado, geralmente,
coeficiente de determinação múltiplos.
O R² informa a quantidade reduzida na variabilidade de Y pelo uso das variáveis
regressoras X1, X2, ..., Xk no modelo. Em outras palavras, o quanto da variação de Y
que é explicada pelo modelo.
O R² é dado por:
SQ regressão SQ resíduo
R2 = =1−
SQtotal SQtotal
É importante notar que um valor grande do R² não implica, necessariamente,
que o modelo de regressão é bom. Ao adicionar uma variável ao modelo, sempre
haverá um incremento no R². Isso ocorre mesmo que a variável incluída seja
significativa estatisticamente ou não.
Ex: (um exemplo numérico será visto oportunamente)
Yi = β o + β 1 X i + ei = r 2 = m
Yi = β o + β 1 X i + β 2 X i2 + ei → R 2 = m + p
Portanto, é possível que modelos com R² elevado forneçam predições de novas

observações ruins ou estimativas de respostas médias ruins.
Uma alternativa para esse problema de interpretação do R² e uso do R² ajustado,
definido por:
SQresíduo
(n − p)  n −1 
Raj2 = 1 − = 1 −  (
. 1 − R 2 )
SQtoal n− p
(n − 1)
20
QM resíduo
ou seja, Raj2 = 1 −
QM total
De modo geral o R² ajustado nem sempre aumenta quando variáveis são
incluídas no modelo. E o mais importante é que o R² ajustado irá diminuir se uma
variável não importante (estatisticamente não significativa) for adicionada ao modelo.
OBS: Quando o R² e o R aj2 forem muito discrepantes, haverá bom indicativo de que termos não
significativos tenham sido adicionados no modelo.
2.4.2.3. Exercícios
Exercício 1. Considere os dados do exemplo 2.4.2.1.1. acima. (correspondente ao

exercício 8.13.2.3.1. da INF 460. Pede-se:
a) Realize a análise de variância supondo o modelo Y = β0 + β1X1 + ε.
b) Realize a análise de variância supondo o modelo Y = β0 + β1X1 + β2X2 + ε, ou
seja, foi incluído a variável X2 no modelo. Observe agora que X2 é não
significativo;
c) Compare os resultados dos coeficientes de determinação
d) Compare os resultados dos coeficientes de determinação ajustados.
e) Discuta sobre os resultados obtidos em c e d.
Respostas: As respostas para esse problema podem ser obtidas no endereço
eletrônico www.dpi.ufv.br/~peternelli/inf460/materiais.htm, na resolução do
exercício 8.13.2.3.1.
21

Regressão linear e correlação

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressão linear e correlação

Enviado por

Direitos autorais:

Formatos disponíveis

INF 162 Prof.

Luiz Alexandre Peternelli

CAPÍTULO 9 - Regressão linear e

Para o estudo do comportamento conjunto de duas variáveis poderiam ser

1.1. O Diagrama de dispersão

c) Se os pontos estiverem dispersos, sem definição de direção, dizemos que a

1.2. O coeficiente de correlação

No entanto o modelo escolhido deve ser coerente com o que acontece na

2.1. Modelo linear de 1º grau (REGRESSÃO LINEAR SIMPLES)

β1 = coeficiente de regressão. Representa a variação de Y em função da variação de

ei = é o erro que está associado à distância entre o valor observado Yi e o

correspondente ponto na curva, do modelo proposto, para o mesmo nível i de X.

elevando ambos os membros da equação ao quadrado,

Por meio da obtenção de estimadores de β 0 e β 1 , que minimizem o valor

Admitindo-se que as variáveis X e Y estão relacionadas de acordo com o

(b) Calcule o coeficiente de determinação e interprete;

(e) Interprete a estimativa obtida para β1;

2.2. Coeficiente de determinação

onde, SQRegressão = β̂ 1 SPDXY, e SQTotal = SQDy.

2.3. Teste de hipótese na regressão linear simples

Para se responder a esta pergunta, é necessário realizar um teste estatístico

- regra de decisão: Se | tcalc | ≥ t(α/2, n-2) ⇒ rejeita H0

- regra de decisão: Se | tcalc | ≥ t(α/2, n-2) ⇒ rejeita H0

SQ Re s SQD y − βˆ1 SPD xy

ou, em outra palavras,

SQTotal = variação total em Y = SQDY

A estatística F obtida no quadro acima serve para testar a significância da

também, SPDxy = 2352,4444; SQDx = 160159,5556

2) Para o exemplo 2 dado no início sobre regressão linear simples (aquele da

3) Adaptado dos dados existentes em algumas calculadoras de bolso. Um engenheiro

2.4. Regressão linear múltipla

é melhorar a capacidade de predição em confronto com a regressão linear simples. A

é chamado de modelo de regressão linear múltipla com k variáveis regressoras. Os

não exercem influência na variável dependente, segundo o modelo proposto.

das p variáveis independentes exerce influência na variável dependente, segundo o

A regra decisória para o teste F é:

Pode-se inferir que o modelo proposto é adequado para descrever o fenômeno.

2.4.1. Modelo linear de 2º grau

X i2 = i-ésimo nível da variável independente X, elevado ao quadrado

ei = é o erro que está associado à distância entre o valor observado Yi e o

correspondente ponto na curva para o mesmo nível i de X.

Uma vez obtidas estas estimativas, podemos escrever a equação estimada:

2.4.2 Modelo Linear Geral

Exemplo Ilustrativo (Werkema e Aguiar pág. 149) – (exemplo 8.13.2.1 da INF

Uma indústria produz grandes quantidades de Alumina (Al2O3 de elevado teor

de produção do alumínio processo

Dados: (disponibilizado em www.dpi.ufv.br/~peternelli/inf460/materiais.htm)

Na forma matricial teríamos:

699,55 − 893,93 − 1,63  10,770 

Yˆ = −0,9878 + 2,7904 X 1 − 0,0051X 2

exemplo, não fazerem sentido.

2.4.2.1. Inferência em regressão múltipla

Suposição: ei são iid ~ N (0;σ 2 )

Se Fcalc ≥ Ftab ⇒ rej. H o p /α

OBS1: As expressões para os cálculos das SQ e QM são dadas abaixo.

a) Considerando o modelo Y = β0 + β1X1 + β2X2 + ε, obtenha o vetor Y e a

Adicionalmente poderíamos testar cada coeficiente separadamente utilizando um teste

Se t calc ≥ t tab ⇒ rejeita − se H 0

Ou avalia-se pelo p-value.

2.4.2.2. O Coeficiente de Determinação R 2 e o Coeficiente de Determinação

Na regressão linear simples, o coeficiente de determinação é representado por r².

Portanto, é possível que modelos com R² elevado forneçam predições de novas

Exercício 1. Considere os dados do exemplo 2.4.2.1.1. acima. (correspondente ao