Você está na página 1de 30

Regressão linear simples

Regressão linear múltipla


Teste aos parâmetros de regressão
Regressão não linear
Regressão

 Regressão é um modelo de relação entre uma


variável aleatória dependente Y e uma ou
mais variáveis independentes X1 , X2 , ... , Xn
 Regressão linear simples
Y = a + bX + E
 Regressão linear múltipla
Y = a + b1 X1 + b2 X 2 + ⋯ + bn X n + E
 Regressão não linear (p.ex., polinomial)
Y = a + b1 X + b2 X + E 2

07-12-2009 N.Sousa, ESAC (c) 2


Amostras correlacionadas e
Coeficiente de Pearson
 Pensa-se em regressão quando estamos perante amostras
com duas (ou mais) variáveis, p.ex. X e Y, em que os
valores de X e Y aparentem estar relacionados entre si
 Exemplos típicos:
 peso e altura de um indivíduo
 Espessura do tronco e altura de uma árvore
 Coeficiente de Pearson (R) é um indicador do nível de
correlação linear entre duas variáveis:
R = Sxy / SxxSyy
(À frente veremos o significado dos símbolos e como calcular R)
 O coeficiente de Pearson oscila entre -1 e +1. R ≈ -1
significa forte anti-correlação, R ≈ +1 forte correlação e
R ≈ 0 ausência de correlação linear entre X e Y
07-12-2009 N.Sousa, ESAC (c) 3
Diagrama de dispersão
 As observações (X,Y) podem ser representadas
num diagrama de dispersão:

 O objectivo é encontrar uma recta que encaixe,


tanto quanto possível, nas observações
07-12-2009 N.Sousa, ESAC (c) 4
Parâmetros e erro
Y = a + bX + E
 Y : variável dependente ou explicada
 X : variável independente ou explicativa, cujos
erros de medição assumimos desprezáveis.
Também designada por regressor
 a , b : ordenada na origem (ou intersect) e
declive, parâmetros da recta de regressão, a
determinar
 E : erro, fonte do carácter aleatório de Y. Como
na anova, assume-se E ~ > IN (0,σ 2 )
07-12-2009 N.Sousa, ESAC (c) 5
Método dos mínimos quadrados
 Para estimar os parâmetros
a e b, usamos o método dos
mínimos quadrados

 MMQ: “A recta de regressão


será aquela que minimiza a
distância das observações à
recta, segundo o eixo dos yy.”

 A recta a azul tem o declive


e a ordenada na origem que
minimizam as distâncias Ei

07-12-2009 N.Sousa, ESAC (c) 6


Escolha de X e Y

 Como o MMQ
minimiza a
distância segundo
Y apenas, deve-se
ter cuidado ao
escolher as
variáveis X e Y
 Uma escolha
trocada leva a
uma recta
diferente!
07-12-2009 N.Sousa, ESAC (c) 7
Estimativas do MMQ
 O MMQ leva às X Y
estimativas (pontuais): x1 y1
MMQ bɶ = Sxy / Sxx
(ver p.ex. Guimarães p.50 e seg. x2 y2 →
ou Montgomery p.395-397) aɶ = y − bɶ ⋅ x
⋮ ⋮
 Notação “S”: xn yn
n
Sxx = ∑ i =1 ( xi − x )2 =∑ i xi2 − n x 2
n
Syy = ∑ i =1 ( y i − y )2 =∑ i y i2 − n y 2
n
Sxy = ∑ i =1 ( xi − x )( y i − y ) =∑ i xi y i − n x y

S = σɶ =
2 2 1

n

n − 2 i =1
( y i − ɶ
y i )2
=
1
n−2
S yy − ɶS
b (xy )
07-12-2009 N.Sousa, ESAC (c) 8
Interpretação dos S

 As quantidades S medem a dispersão dos dados;


são variabilidades
 Sxx: variabilidade dos x, Sxx = (n − 1) ⋅ sx2
 Syy: variabilidade dos y, Syy = (n − 1) ⋅ sy2
 Sxy: variabilidade cruzada, proporcional a cov(x,y),
co-variância entre x e y: Sxy = (n − 1) ⋅ cov( x, y )
 S2: estimativa da variância dos erros E em torno
da recta estimada
 Nota: alguns autores usam definições diferentes
para os S. P.ex. Sxx ≡ sc2,x ou Sxx ≡ sx2
07-12-2009 N.Sousa, ESAC (c) 9
IC para os parâmetros de regressão

 O MMQ deu-nos estimativas pontuais para a e b


 Podemos também construir intervalos de confiança
para estes parâmetros
 FACTO 1: sejam a0,b0 os valores reais dos parâmetros
bɶ − b0 aɶ − a0
~ > tn −2 , ~ > tn − 2
S / Sxx S 1
n + x2
Sxx
 Do facto 1 temos ICs para a e b com confiança 1 – α :
S
ɶ
ICb : b ± t n − 2 (1 − 2 ) ⋅
α
, ICa : aɶ ± t n − 2 (1 − α2 ) ⋅ S 1
n + x2
Sxx
Sxx
07-12-2009 N.Sousa, ESAC (c) 10
Testes aos parâmetros de regressão

 Além dos ICs, podemos também testar hipóteses


sobre os parâmetros:
a : H0: a = a0 vs. H1: a > a0 ou a < a0 ou a ≠ a0
b: H0: b = b0 vs. H1: b > b0 ou b < b0 ou b ≠ b0
 As estatísticas de teste são as mesmas que usámos
para construir os ICs, designadamente
bɶ − b0 aɶ − a0
ETb = ~ > tn − 2 , ETa = ~ > tn − 2
S / Sxx S 1
n + Sxx
x2

Nota: S / Sxx e S n1 + Sxxx são usualmente


2

chamados de erro-padrão do declive e ordenada
07-12-2009 N.Sousa, ESAC (c) 11
Qualidade e adequação do modelo
 Um modelo, seja de regressão ou qualquer outro, é apenas
uma tentativa de descrição da realidade
 Para um modelo em particular, é lógico perguntar se esse
modelo representa bem ou mal a realidade que o inspirou
 No caso da regressão, depois de estimados os parâmetros
do modelo, podemos perguntar quão bem a relação obtida,
Y = a + bX + E, se encaixa nos dados de onde originou
 Para a regressão linear simples, há dois indicadores da
qualidade do ajuste:
 Teste de significância da regressão
 Coeficiente de determinação

07-12-2009 N.Sousa, ESAC (c) 12


Significância da regressão
(Teste à precisão do ajustamento)
 Um teste muito importante é
H0: b = 0 vs. H1: b ≠ 0
 O teste avalia a plausibilidade de haver, de facto, uma
relação linear entre X e Y
 Não rejeitar H0 significa que é plausível que b seja nulo, ou
seja, que não haja relação linear entre X e Y:
 Y é independente de X, ou...
 a relação entre X e Y, a existir, não é linear, i.e. Y ≠ a + bX + E
 Rejeitar H0 significa que X tem um papel na explicação de Y
 a relação entre X e Y é mesmo linear, ou...
 o efeito linear existe, podendo eventualmente o ajuste ser
melhorado adicionando termos não lineares

07-12-2009 N.Sousa, ESAC (c) 13


Significância da regressão - anova
 A decomposição da variabilidade de Y em dois termos permite
fazer uma análise de variância para testar a qualidade da regressão
∑i i
( y − y )2
= ∑i i
( ɶ
y − y )2
+ ∑i i i
( y − ɶ
y )2

SQtot = SQreg + SQerro


 Tabela anova para a regressão:
Fonte var. SQ GL MQ Estatística de teste
Regressão ɶ
SQreg = bS 1 ɶ
bS ɶ
bS / S 2
~ > F1,n − 2
xy xy xy
Erros SQtot − SQreg n– 2 S2
Total SQtot = Syy n–1

 Para a regressão simples, esta anova equivale ao teste ao declive


b = 0 vs b ≠ 0, pelo que escusamos de a fazer (tn2 = F1n). Para a
regressão múltipla, o seu significado já é diferente...
07-12-2009 N.Sousa, ESAC (c) 14
Coeficiente de determinação
 Coeficiente de determinação (quadrado do coef. de Pearson) é
outra quantidade que mede a qualidade/adequação do modelo de
regressão S2
R =
2 xy

Sxx Syy
 Interpretação de R2: percentagem da variabilidade que é explicada
pela regressão. R2 ≈ 1: bom ajuste do modelo aos dados. R2 ≈ 0:
mau ajuste
 Notar que a significância de regressão verifica se há relação linear
entre X e Y. O coeficiente de determinação verifica quanto da
relação entre Y e X pode ser explicada pelo modelo linear
 R2 deve ser usado com cautela, dado que pode ser inflacionado
artificialmente adicionando termos não lineares ao modelo. Para
evitar essa inflação, usa-se por vezes um R2 ajustado
 Ainda outra maneira de ver se o modelo de regressão é adequado
é fazer uma análise aos resíduos ei = y i − yɶ i
07-12-2009 N.Sousa, ESAC (c) 15
Ausência de ordenada na origem
 Por vezes um modelo de regressão faz mais sentido se a = 0.
 No entanto, quando estimamos pontualmente a ordenada
na origem, esta só muito raramente será zero.
 No caso de um problema fazer mais sentido com a = 0:
 Se os dados da amostra forem compatíveis com essa hipótese (i.e. se
o teste a = 0 vs a ≠ 0 não for rejeitado) o declive pode ser estimado
pontualmente pelo MMQ, levando ao modelo:

bɶ = ∑ i xi y i ∑i i
x 2 ɶ +E
→ Y = bX
 Se os dados da amostra não forem compatíveis com essa hipótese, o
modelo linear não é adequado ao problema e terá que ser melhorado

07-12-2009 N.Sousa, ESAC (c) 16


Previsão de novas observações

 Em geral, um modelo de regressão pode ser usado


com alguma confiança dentro da gama de valores X
que participou para o cálculo dos parâmetros de
regressão
 Se sairmos um pouco do intervalo de X, estamos a
extrapolar o modelo. Uma extrapolação para valores
de X pouco afastados do intervalo normalmente não
apresenta problemas
 Mas extrapolações para valores longe do intervalo de
X raramente são satisfatórias
 Podemos calcular previsões para novas observações
mediante a construção de bandas de previsão
07-12-2009 N.Sousa, ESAC (c) 17
Banda de previsão C

 Para um novo valor da variável independente x


podemos prever em que gama de valores esperamos
encontrar y:
 Um intervalo de previsão para uma observação futura,
com (1–α) × 100% de confiança, é dado por:

( x − x )2
IPC : yɶ ± tn − 2 ( α2 ) ⋅ S 1 + n1 + Sxx

 Interpretação: para um dado x, prevê-se que y


pertença ao intervalo indicado (1–α) × 100% das vezes
 A este intervalo chamamos banda de previsão C
07-12-2009 N.Sousa, ESAC (c) 18
Aspeto gráfico de uma banda C

07-12-2009 N.Sousa, ESAC (c) 19


Regressão linear múltipla

 Regressão linear múltipla é um modelo de


relação estatística entre uma v.a. Y e um
conjunto de k regressores, xi
Y = a + b1 X1 + b2 X 2 + ⋯ + bk X k + E
com erros independentes e normalmente
distribuídos E ~ > IN (0,σ 2 )
 Tal como no caso da regressão simples,
podemos usar o MMQ para estimar
pontualmente os parâmetros a e bi
07-12-2009 N.Sousa, ESAC (c) 20
Interpretação geométrica da RLM
 Procuramos agora o plano que minimiza as distâncias às
observações, segundo o eixo Y

 No boneco, o plano é tal que as distâncias a azul são mínimas


 A 4+ dimensões,o plano chama-se hiperplano e deixamos de
ter uma imagem gráfica.
07-12-2009 N.Sousa, ESAC (c) 21
Estimativas dos parâmetros de uma
regressão linear múltipla
 Seja xim o m-ésimo valor da variável xi. Para estimar os
parâmetros temos de resolver o sistema de equações
aɶ + bɶ1x1 + ⋯ + bɶk xk = y
n
Sxi x j = ∑ (x im − xi )( x jm − x j )
m =1
bɶ1Sx1x1 + ⋯ + bɶk Sx1xk = Sx1y n
Sxi y = ∑ (x im − xi )( y m − y m )
⋮ ⋮ m =1
n
1
bɶ1Sxk x1 + ⋯ + bɶ1Sxk xk = Sxk y S =
2
∑ (y − yɶ m )2
n−k m =1
m

 Estes cálculos podem ser feitos manualmente, usando


matrizes de variância-covariância
 Na prática, as contas são muito extensas, pelo que se usa
sempre software estatístico (Excel, R, SPSS...)
 É necessário é depois compreender os resultados que o
software apresenta!
07-12-2009 N.Sousa, ESAC (c) 22
Significância conjunta da regressão
múltipla – anova
 Para uma RLM, o teste anova (ou teste de precisão do
ajustamento) coloca frente-a-frente todos os parâmetros bi
em conjunto e simultaneamente:
Ho: ∀i : bi = 0 vs H1: ∃i : bi ≠ 0
 Verifica se é plausível uma relaçãoY = a + b1X1 + b2 X2 + ⋯ + bk Xk + E
 Tabela anova:
Fonte var. SQ GL MQ Estatística de teste
Regressão SQreg = ∑ bɶi Sxi y k MQreg MQr / MQe ~ > FGL1,GL 2
Erros SQtot − SQreg n – k – 1 MQerro
Total SQtot = Syy n–1

 Cálculos normalmente feitos por software estatístico

07-12-2009 N.Sousa, ESAC (c) 23


Significância individual da regressão
múltipla
 Se o modelo, como um todo, é significativo, o próximo passo
é tentar identificar quais as variáveis dependentes Xi que
contribuem para explicar Y
 Para isso recorremos ao teste de significância individual dos
parâmetros de regressão:
Ho: bi = 0 vs. H1: bi ≠ 0
bɶi
ETbi = ~ > t n − k −1
S / Sxi xi
 Não rejeição de uma H0 significa que a variável independente
correspondente Xi não contribui para explicar a variável
dependente Y, devendo por isso ser retirada do modelo
 Rejeição de uma H0 significa que Y depende, pelo menos
linearmente, de Xi

07-12-2009 N.Sousa, ESAC (c) 24


Software: Excel
Estatística de regressão ANOVA
R múltiplo 0,9959 (R Pearson) GL SQ MQ F F de signif
Quadr. de R 0,9919 (R2) Regressão 2 2175,1 1087,6 184,05 0,0007
R2 ajustado 0,9865 (R2 ajust.) Residual 3 17,727 5,909 (Fobs) (Valor prova)
Erro-padrão 2,4308 (S) Total 5 2192,8
Observações 6 (n)

Coeficientes Erro-padrão Stat t valor P 95% inf 95% sup


Interceptar 4,5643 3,5351 1,2911 0,2871 -6,686 15,815
X1 6,8133 0,3647 18,68 0,0003 5,6525 7,974
X2 0,0122 0,5967 0,0205 0,9849 -1,8866 1,9111
Ordenada e Estimativas valor de limite inf limite sup
S / Sx i xi ETobs
regressores de a, b1, b2 prova do IC do IC

 ETobs , valor de prova e limites do IC referem-se ao teste à


significância individual dos coeficientes dos regressores
respetivos (p.24)
07-12-2009 N.Sousa, ESAC (c) 25
Software: R
Call:
lm(formula = y ~ x1 + x2) modelo Y = a + b1 X1 + b2 X 2 + E

Residuals: ei = y i − yɶ i
1 2 3 4 5 6
0.56132 -3.07740 2.13379 1.47063 -1.10699 0.01865

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.56432 3.53513 1.291 0.287147
x1 6.81325 0.36473 18.680 0.000335 ***
x2 0.01222 0.59667 0.020 0.984945
--- aɶ, bɶ1, bɶ2 S / Sxi xi ETobs p -value do teste à sig. individual

Signif.codes: 0‘***’ 0.001‘**’ 0.01‘*’ 0.05‘.’ 0.1‘ ’ 1

Residual standard error: 2.431 (S ) on 3 degrees of freedom


2 2
Multiple R-squared: 0.9919,(R ) Adj. R-squared: 0.9865 (R aj.)
F-stat.: 184 (Fobs ) on 2 and 3 DF, p-value: 0.0007269 (α p anova)
07-12-2009 N.Sousa, ESAC (c) 26
Coeficiente de determinação múltipla

 Tal como no caso da RLS, na RLM podemos definir


uma quantidade R2 que ateste da qualidade do
modelo
SQreg
R =
2

SQtot
 A estatística de teste da anova pode ser escrita
como função de R2 :
R2 / k
F= ~ > Fk ,n − k −1
(1 − R ) /(n − k − 1)
2

07-12-2009 N.Sousa, ESAC (c) 27


Quantos/que regressores usar?
 Numa situação prática muitas vezes não sabemos quantos
factores podem influenciar na variável de resposta, Y
 A escolha pode ser: partir de um grupo restrito de factores e ir
incluindo mais e mais regressores (Xi s) – método progressivo
 Ou, ao invés, incluir todos os regressores de início e retirar os que
não tenham impacto (regressores com hipotese bi = 0 não
rejeitada) – método retrocessivo ou regressivo
 A retirada ou inclusão de vários regressores num modelo tem um
impacto global, que não se resume somente ao resultado do teste
individual bi = 0 vs bi ≠ 0
 O impacto global pode ser avaliado mediante testes anova à
significância de um conjunto de regressores. (Se esta questão for
relevante para o leitor, pesquisar na literatura por estes testes.)
07-12-2009 N.Sousa, ESAC (c) 28
Regressão não linear
 Regressão não linear tenta explicar a variável
independente Y mediante uma relação não linear com
uma ou mais variáveis dependentes Xi
b
Y = a+ +E
X
b
a+ +E
Y = ea + bX + E , Y = e X

Y = a + b1 X + b2 X 2 + ⋯ + bk X k
 O cálculo dos coeficientes pode ser feito pelo método
dos mínimos quadrados (funciona sempre, mas requer
software especializado), ou via...
07-12-2009 N.Sousa, ESAC (c) 29
Linearização
 Uma regressão não linear pode, por vezes, ser transformada numa linear,
i.e. pode ser linearizada, mediante uma mudança de variável
X =1/ U
b
Y = a+ +E → Y = a + bU + E
X
log
Y = e a + bX + E → ln Y = a + bX + E
( X i )= Xi
Y = a + b1 X + ⋯ + bk X k → Y = a + b1 X1 + ⋯ + bk X k
 Com a mudança de variável passamos a ter um modelo linear
 Nem todos os modelos são linearizáveis!! Num caso particular deve-se
consultar a literatura para saber se a linearização é possível nesse caso.
Os casos acima são.
 Os coeficientes a,b são depois encontrados via RLS/RLM

07-12-2009 N.Sousa, ESAC (c) 30

Você também pode gostar