Regressão linear simples e múltipla

Regressão linear simples
Regressão linear múltipla

Teste aos parâmetros de regressão
Regressão não linear
Regressão
Regressão é um modelo de relação entre uma

variável aleatória dependente Y e uma ou
mais variáveis independentes X1 , X2 , ... , Xn
Regressão linear simples
Y = a + bX + E
Y = a + b1 X1 + b2 X 2 + ⋯ + bn X n + E
Regressão não linear (p.ex., polinomial)
Y = a + b1 X + b2 X + E 2
07-12-2009 N.Sousa, ESAC (c) 2

Amostras correlacionadas e
Coeficiente de Pearson
Pensa-se em regressão quando estamos perante amostras
com duas (ou mais) variáveis, p.ex. X e Y, em que os
valores de X e Y aparentem estar relacionados entre si
Exemplos típicos:
peso e altura de um indivíduo
Espessura do tronco e altura de uma árvore
Coeficiente de Pearson (R) é um indicador do nível de
correlação linear entre duas variáveis:
R = Sxy / SxxSyy
(À frente veremos o significado dos símbolos e como calcular R)
O coeficiente de Pearson oscila entre -1 e +1. R ≈ -1
significa forte anti-correlação, R ≈ +1 forte correlação e
R ≈ 0 ausência de correlação linear entre X e Y
07-12-2009 N.Sousa, ESAC (c) 3
Diagrama de dispersão
As observações (X,Y) podem ser representadas
num diagrama de dispersão:
O objectivo é encontrar uma recta que encaixe,

tanto quanto possível, nas observações
07-12-2009 N.Sousa, ESAC (c) 4
Parâmetros e erro
Y = a + bX + E
Y : variável dependente ou explicada
X : variável independente ou explicativa, cujos
erros de medição assumimos desprezáveis.
Também designada por regressor
a , b : ordenada na origem (ou intersect) e
declive, parâmetros da recta de regressão, a
determinar
E : erro, fonte do carácter aleatório de Y. Como
na anova, assume-se E ~ > IN (0,σ 2 )
07-12-2009 N.Sousa, ESAC (c) 5
Método dos mínimos quadrados
Para estimar os parâmetros
a e b, usamos o método dos
mínimos quadrados
MMQ: “A recta de regressão

será aquela que minimiza a
distância das observações à
recta, segundo o eixo dos yy.”
A recta a azul tem o declive

e a ordenada na origem que
minimizam as distâncias Ei
07-12-2009 N.Sousa, ESAC (c) 6

Escolha de X e Y
Como o MMQ
minimiza a
distância segundo
Y apenas, deve-se
ter cuidado ao
escolher as
variáveis X e Y
Uma escolha
trocada leva a
uma recta
diferente!
07-12-2009 N.Sousa, ESAC (c) 7
Estimativas do MMQ
O MMQ leva às X Y
estimativas (pontuais): x1 y1
MMQ bɶ = Sxy / Sxx
(ver p.ex. Guimarães p.50 e seg. x2 y2 →
ou Montgomery p.395-397) aɶ = y − bɶ ⋅ x
⋮ ⋮
Notação “S”: xn yn
n
Sxx = ∑ i =1 ( xi − x )2 =∑ i xi2 − n x 2
n
Syy = ∑ i =1 ( y i − y )2 =∑ i y i2 − n y 2
n
Sxy = ∑ i =1 ( xi − x )( y i − y ) =∑ i xi y i − n x y
S = σɶ =
2 2 1
∑
n
n − 2 i =1
( y i − ɶ
y i )2
=
1
n−2
S yy − ɶS
b (xy )
07-12-2009 N.Sousa, ESAC (c) 8
Interpretação dos S
As quantidades S medem a dispersão dos dados;

são variabilidades
Sxx: variabilidade dos x, Sxx = (n − 1) ⋅ sx2
Syy: variabilidade dos y, Syy = (n − 1) ⋅ sy2
Sxy: variabilidade cruzada, proporcional a cov(x,y),
co-variância entre x e y: Sxy = (n − 1) ⋅ cov( x, y )
S2: estimativa da variância dos erros E em torno
da recta estimada
Nota: alguns autores usam definições diferentes
para os S. P.ex. Sxx ≡ sc2,x ou Sxx ≡ sx2
07-12-2009 N.Sousa, ESAC (c) 9
IC para os parâmetros de regressão
O MMQ deu-nos estimativas pontuais para a e b

Podemos também construir intervalos de confiança
para estes parâmetros
FACTO 1: sejam a0,b0 os valores reais dos parâmetros
bɶ − b0 aɶ − a0
~ > tn −2 , ~ > tn − 2
S / Sxx S 1
n + x2
Sxx
Do facto 1 temos ICs para a e b com confiança 1 – α :
S
ɶ
ICb : b ± t n − 2 (1 − 2 ) ⋅
α
, ICa : aɶ ± t n − 2 (1 − α2 ) ⋅ S 1
n + x2
Sxx
Sxx
07-12-2009 N.Sousa, ESAC (c) 10
Testes aos parâmetros de regressão
Além dos ICs, podemos também testar hipóteses

sobre os parâmetros:
a : H0: a = a0 vs. H1: a > a0 ou a < a0 ou a ≠ a0
b: H0: b = b0 vs. H1: b > b0 ou b < b0 ou b ≠ b0
As estatísticas de teste são as mesmas que usámos
para construir os ICs, designadamente
bɶ − b0 aɶ − a0
ETb = ~ > tn − 2 , ETa = ~ > tn − 2
S / Sxx S 1
n + Sxx
x2
Nota: S / Sxx e S n1 + Sxxx são usualmente

2

chamados de erro-padrão do declive e ordenada
07-12-2009 N.Sousa, ESAC (c) 11
Qualidade e adequação do modelo
Um modelo, seja de regressão ou qualquer outro, é apenas
uma tentativa de descrição da realidade
Para um modelo em particular, é lógico perguntar se esse
modelo representa bem ou mal a realidade que o inspirou
No caso da regressão, depois de estimados os parâmetros
do modelo, podemos perguntar quão bem a relação obtida,
Y = a + bX + E, se encaixa nos dados de onde originou
Para a regressão linear simples, há dois indicadores da
qualidade do ajuste:
Teste de significância da regressão
Coeficiente de determinação
07-12-2009 N.Sousa, ESAC (c) 12

Significância da regressão
(Teste à precisão do ajustamento)
Um teste muito importante é
H0: b = 0 vs. H1: b ≠ 0
O teste avalia a plausibilidade de haver, de facto, uma
relação linear entre X e Y
Não rejeitar H0 significa que é plausível que b seja nulo, ou
seja, que não haja relação linear entre X e Y:
Y é independente de X, ou...
a relação entre X e Y, a existir, não é linear, i.e. Y ≠ a + bX + E
Rejeitar H0 significa que X tem um papel na explicação de Y
a relação entre X e Y é mesmo linear, ou...
o efeito linear existe, podendo eventualmente o ajuste ser
melhorado adicionando termos não lineares
07-12-2009 N.Sousa, ESAC (c) 13

Significância da regressão - anova
A decomposição da variabilidade de Y em dois termos permite
fazer uma análise de variância para testar a qualidade da regressão
∑i i
( y − y )2
= ∑i i
( ɶ
y − y )2
+ ∑i i i
( y − ɶ
y )2
SQtot = SQreg + SQerro

Tabela anova para a regressão:
Fonte var. SQ GL MQ Estatística de teste
Regressão ɶ
SQreg = bS 1 ɶ
bS ɶ
bS / S 2
~ > F1,n − 2
xy xy xy
Erros SQtot − SQreg n– 2 S2
Total SQtot = Syy n–1
Para a regressão simples, esta anova equivale ao teste ao declive

b = 0 vs b ≠ 0, pelo que escusamos de a fazer (tn2 = F1n). Para a
regressão múltipla, o seu significado já é diferente...
07-12-2009 N.Sousa, ESAC (c) 14
Coeficiente de determinação
Coeficiente de determinação (quadrado do coef. de Pearson) é
outra quantidade que mede a qualidade/adequação do modelo de
regressão S2
R =
2 xy
Sxx Syy
Interpretação de R2: percentagem da variabilidade que é explicada
pela regressão. R2 ≈ 1: bom ajuste do modelo aos dados. R2 ≈ 0:
mau ajuste
Notar que a significância de regressão verifica se há relação linear
entre X e Y. O coeficiente de determinação verifica quanto da
relação entre Y e X pode ser explicada pelo modelo linear
R2 deve ser usado com cautela, dado que pode ser inflacionado
artificialmente adicionando termos não lineares ao modelo. Para
evitar essa inflação, usa-se por vezes um R2 ajustado
Ainda outra maneira de ver se o modelo de regressão é adequado
é fazer uma análise aos resíduos ei = y i − yɶ i
07-12-2009 N.Sousa, ESAC (c) 15
Ausência de ordenada na origem
Por vezes um modelo de regressão faz mais sentido se a = 0.
No entanto, quando estimamos pontualmente a ordenada
na origem, esta só muito raramente será zero.
No caso de um problema fazer mais sentido com a = 0:
Se os dados da amostra forem compatíveis com essa hipótese (i.e. se
o teste a = 0 vs a ≠ 0 não for rejeitado) o declive pode ser estimado
pontualmente pelo MMQ, levando ao modelo:
bɶ = ∑ i xi y i ∑i i
x 2 ɶ +E
→ Y = bX
Se os dados da amostra não forem compatíveis com essa hipótese, o
modelo linear não é adequado ao problema e terá que ser melhorado
07-12-2009 N.Sousa, ESAC (c) 16

Previsão de novas observações
Em geral, um modelo de regressão pode ser usado

com alguma confiança dentro da gama de valores X
que participou para o cálculo dos parâmetros de
regressão
Se sairmos um pouco do intervalo de X, estamos a
extrapolar o modelo. Uma extrapolação para valores
de X pouco afastados do intervalo normalmente não
apresenta problemas
Mas extrapolações para valores longe do intervalo de
X raramente são satisfatórias
Podemos calcular previsões para novas observações
mediante a construção de bandas de previsão
07-12-2009 N.Sousa, ESAC (c) 17
Banda de previsão C
Para um novo valor da variável independente x

podemos prever em que gama de valores esperamos
encontrar y:
Um intervalo de previsão para uma observação futura,
com (1–α) × 100% de confiança, é dado por:
( x − x )2
IPC : yɶ ± tn − 2 ( α2 ) ⋅ S 1 + n1 + Sxx
Interpretação: para um dado x, prevê-se que y

pertença ao intervalo indicado (1–α) × 100% das vezes
A este intervalo chamamos banda de previsão C
07-12-2009 N.Sousa, ESAC (c) 18
Aspeto gráfico de uma banda C
07-12-2009 N.Sousa, ESAC (c) 19

Regressão linear múltipla é um modelo de

relação estatística entre uma v.a. Y e um
conjunto de k regressores, xi
Y = a + b1 X1 + b2 X 2 + ⋯ + bk X k + E
com erros independentes e normalmente
distribuídos E ~ > IN (0,σ 2 )
Tal como no caso da regressão simples,
podemos usar o MMQ para estimar
pontualmente os parâmetros a e bi
07-12-2009 N.Sousa, ESAC (c) 20
Interpretação geométrica da RLM
Procuramos agora o plano que minimiza as distâncias às
observações, segundo o eixo Y
No boneco, o plano é tal que as distâncias a azul são mínimas

A 4+ dimensões,o plano chama-se hiperplano e deixamos de
ter uma imagem gráfica.
07-12-2009 N.Sousa, ESAC (c) 21
Estimativas dos parâmetros de uma
regressão linear múltipla
Seja xim o m-ésimo valor da variável xi. Para estimar os
parâmetros temos de resolver o sistema de equações
aɶ + bɶ1x1 + ⋯ + bɶk xk = y
n
Sxi x j = ∑ (x im − xi )( x jm − x j )
m =1
bɶ1Sx1x1 + ⋯ + bɶk Sx1xk = Sx1y n
Sxi y = ∑ (x im − xi )( y m − y m )
⋮ ⋮ m =1
n
1
bɶ1Sxk x1 + ⋯ + bɶ1Sxk xk = Sxk y S =
2
∑ (y − yɶ m )2
n−k m =1
m
Estes cálculos podem ser feitos manualmente, usando

matrizes de variância-covariância
Na prática, as contas são muito extensas, pelo que se usa
sempre software estatístico (Excel, R, SPSS...)
É necessário é depois compreender os resultados que o
software apresenta!
07-12-2009 N.Sousa, ESAC (c) 22
Significância conjunta da regressão
múltipla – anova
Para uma RLM, o teste anova (ou teste de precisão do
ajustamento) coloca frente-a-frente todos os parâmetros bi
em conjunto e simultaneamente:
Ho: ∀i : bi = 0 vs H1: ∃i : bi ≠ 0
Verifica se é plausível uma relaçãoY = a + b1X1 + b2 X2 + ⋯ + bk Xk + E
Tabela anova:
Fonte var. SQ GL MQ Estatística de teste
Regressão SQreg = ∑ bɶi Sxi y k MQreg MQr / MQe ~ > FGL1,GL 2
Erros SQtot − SQreg n – k – 1 MQerro
Total SQtot = Syy n–1
Cálculos normalmente feitos por software estatístico
07-12-2009 N.Sousa, ESAC (c) 23

Significância individual da regressão
múltipla
Se o modelo, como um todo, é significativo, o próximo passo
é tentar identificar quais as variáveis dependentes Xi que
contribuem para explicar Y
Para isso recorremos ao teste de significância individual dos
parâmetros de regressão:
Ho: bi = 0 vs. H1: bi ≠ 0
bɶi
ETbi = ~ > t n − k −1
S / Sxi xi
Não rejeição de uma H0 significa que a variável independente
correspondente Xi não contribui para explicar a variável
dependente Y, devendo por isso ser retirada do modelo
Rejeição de uma H0 significa que Y depende, pelo menos
linearmente, de Xi
07-12-2009 N.Sousa, ESAC (c) 24

Software: Excel
Estatística de regressão ANOVA
R múltiplo 0,9959 (R Pearson) GL SQ MQ F F de signif
Quadr. de R 0,9919 (R2) Regressão 2 2175,1 1087,6 184,05 0,0007
R2 ajustado 0,9865 (R2 ajust.) Residual 3 17,727 5,909 (Fobs) (Valor prova)
Erro-padrão 2,4308 (S) Total 5 2192,8
Observações 6 (n)
Coeficientes Erro-padrão Stat t valor P 95% inf 95% sup

Interceptar 4,5643 3,5351 1,2911 0,2871 -6,686 15,815
X1 6,8133 0,3647 18,68 0,0003 5,6525 7,974
X2 0,0122 0,5967 0,0205 0,9849 -1,8866 1,9111
Ordenada e Estimativas valor de limite inf limite sup
S / Sx i xi ETobs
regressores de a, b1, b2 prova do IC do IC
ETobs , valor de prova e limites do IC referem-se ao teste à

significância individual dos coeficientes dos regressores
respetivos (p.24)
07-12-2009 N.Sousa, ESAC (c) 25
Software: R
Call:
lm(formula = y ~ x1 + x2) modelo Y = a + b1 X1 + b2 X 2 + E
Residuals: ei = y i − yɶ i
1 2 3 4 5 6
0.56132 -3.07740 2.13379 1.47063 -1.10699 0.01865
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.56432 3.53513 1.291 0.287147
x1 6.81325 0.36473 18.680 0.000335 ***
x2 0.01222 0.59667 0.020 0.984945
--- aɶ, bɶ1, bɶ2 S / Sxi xi ETobs p -value do teste à sig. individual
Signif.codes: 0‘***’ 0.001‘**’ 0.01‘*’ 0.05‘.’ 0.1‘ ’ 1
Residual standard error: 2.431 (S ) on 3 degrees of freedom

2 2
Multiple R-squared: 0.9919,(R ) Adj. R-squared: 0.9865 (R aj.)
F-stat.: 184 (Fobs ) on 2 and 3 DF, p-value: 0.0007269 (α p anova)
07-12-2009 N.Sousa, ESAC (c) 26
Coeficiente de determinação múltipla
Tal como no caso da RLS, na RLM podemos definir

uma quantidade R2 que ateste da qualidade do
modelo
SQreg
R =
2
SQtot
A estatística de teste da anova pode ser escrita
como função de R2 :
R2 / k
F= ~ > Fk ,n − k −1
(1 − R ) /(n − k − 1)
2
07-12-2009 N.Sousa, ESAC (c) 27

Quantos/que regressores usar?
Numa situação prática muitas vezes não sabemos quantos
factores podem influenciar na variável de resposta, Y
A escolha pode ser: partir de um grupo restrito de factores e ir
incluindo mais e mais regressores (Xi s) – método progressivo
Ou, ao invés, incluir todos os regressores de início e retirar os que
não tenham impacto (regressores com hipotese bi = 0 não
rejeitada) – método retrocessivo ou regressivo
A retirada ou inclusão de vários regressores num modelo tem um
impacto global, que não se resume somente ao resultado do teste
individual bi = 0 vs bi ≠ 0
O impacto global pode ser avaliado mediante testes anova à
significância de um conjunto de regressores. (Se esta questão for
relevante para o leitor, pesquisar na literatura por estes testes.)
07-12-2009 N.Sousa, ESAC (c) 28
Regressão não linear
Regressão não linear tenta explicar a variável
independente Y mediante uma relação não linear com
uma ou mais variáveis dependentes Xi
b
Y = a+ +E
X
b
a+ +E
Y = ea + bX + E , Y = e X
Y = a + b1 X + b2 X 2 + ⋯ + bk X k
O cálculo dos coeficientes pode ser feito pelo método
dos mínimos quadrados (funciona sempre, mas requer
software especializado), ou via...
07-12-2009 N.Sousa, ESAC (c) 29
Linearização
Uma regressão não linear pode, por vezes, ser transformada numa linear,
i.e. pode ser linearizada, mediante uma mudança de variável
X =1/ U
b
Y = a+ +E → Y = a + bU + E
X
log
Y = e a + bX + E → ln Y = a + bX + E
( X i )= Xi
Y = a + b1 X + ⋯ + bk X k → Y = a + b1 X1 + ⋯ + bk X k
Com a mudança de variável passamos a ter um modelo linear
Nem todos os modelos são linearizáveis!! Num caso particular deve-se
consultar a literatura para saber se a linearização é possível nesse caso.
Os casos acima são.
Os coeficientes a,b são depois encontrados via RLS/RLM
07-12-2009 N.Sousa, ESAC (c) 30

Regressão linear simples e múltipla

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressão linear simples e múltipla

Enviado por

Direitos autorais:

Formatos disponíveis

Regressão linear simples

Regressão linear múltipla

Regressão é um modelo de relação entre uma

07-12-2009 N.Sousa, ESAC (c) 2

O objectivo é encontrar uma recta que encaixe,

MMQ: “A recta de regressão

A recta a azul tem o declive

07-12-2009 N.Sousa, ESAC (c) 6

As quantidades S medem a dispersão dos dados;

O MMQ deu-nos estimativas pontuais para a e b

Além dos ICs, podemos também testar hipóteses

Nota: S / Sxx e S n1 + Sxxx são usualmente

07-12-2009 N.Sousa, ESAC (c) 12

07-12-2009 N.Sousa, ESAC (c) 13

SQtot = SQreg + SQerro

Para a regressão simples, esta anova equivale ao teste ao declive

07-12-2009 N.Sousa, ESAC (c) 16

Em geral, um modelo de regressão pode ser usado

Para um novo valor da variável independente x

Interpretação: para um dado x, prevê-se que y

07-12-2009 N.Sousa, ESAC (c) 19

Regressão linear múltipla é um modelo de

No boneco, o plano é tal que as distâncias a azul são mínimas

Estes cálculos podem ser feitos manualmente, usando

Cálculos normalmente feitos por software estatístico

07-12-2009 N.Sousa, ESAC (c) 23

07-12-2009 N.Sousa, ESAC (c) 24

Coeficientes Erro-padrão Stat t valor P 95% inf 95% sup

ETobs , valor de prova e limites do IC referem-se ao teste à

Signif.codes: 0‘***’ 0.001‘**’ 0.01‘*’ 0.05‘.’ 0.1‘ ’ 1

Residual standard error: 2.431 (S ) on 3 degrees of freedom

Tal como no caso da RLS, na RLM podemos definir

07-12-2009 N.Sousa, ESAC (c) 27

07-12-2009 N.Sousa, ESAC (c) 30

Você também pode gostar

Signif.codes: 0‘’ 0.001‘’ 0.01‘’ 0.05‘.’ 0.1‘ ’ 1