Regressão
Linear
Prefácio iv
5.7 Estimador de σ2 33
5.8 Análise de Variância (ANOVA) 33
5.9 Diagramas de Dispersão 35
5.10 Intervalos de Confiança 36
5.11 Testes de Hipóteses 36
5.12 Coeficientes de Determinação Parcial 40
5.13 Diagnóstico do Modelo de Regressão Linear Múltipla 41
5.14 Distribuição dos Resíduos 43
5.15 Multicolinearidade 44
5.16 Diagnóstico de Influência 45
5.17 Métodos para Tratar com a Multicolinearidade 52
5.18 Seleção de Variáveis 53
5.19 Interpolações e Extrapolações 57
5.20 Validação dos Modelos de Regressão 61
6 Regressão Polinomial 62
6.1 Introdução 62
6.2 Polinômios Ortogonais com uma Regressora 62
6.3 Exemplos 64
6.4 Regressão Polinomial com mais de uma Regressora 69
Apêndice 82
Bibliografia 85
Prefácio
Este texto tem como objetivo fornecer um material que auxilie na aprendizagem
e aplicações dos modelos de regressão linear. Vários livros e artigos que apresentam
este assunto foram utilizados na composição do texto.
O texto está organizado de modo que nos Capítulos 1 e 2 são apresentados e
ilustrados os modelos de regressão linear simples. Regressão linear simples passando
pela origem e transformações de variáveis são tópicos discutidos nos Capítulos 3 e 4.
No Capítulo 5, são apresentados os modelos de regressão linear múltipla e abordados
diversos tópicos relacionados aos mesmos, dentre eles, diagnóstico de pontos influentes,
implicações e métodos para tratar multicolinearidade e, ainda, alguns métodos de
seleção de variáveis. Por fim, regressão polinomial e variáveis dummy em regressão são
tratadas nos Capítulos 6 e 7, respectivamente. Os resultados das análises estatísticas
apresentadas no decorrer dos capítulos foram obtidos com o auxílio dos recursos
disponíveis no software R.
Visto o texto não se encontrar livre de erros e imperfeições, comentários, críticas
e sugestões são bem-vindos.
sendo ε uma variável aleatória com média zero e variância igual à de Y. Se Y apresentar
distribuição normal, isto é, Y ~ N(µ, σ2), tem-se o modelo simples normal Y = µ + ε
com µ uma constante e ε ~ N(0, σ2). Estimadores não-viciados de µ e σ2 são expressos,
respectivamente, por:
L 1 n 1 n H
y = ∑ yi e S2 = ∑ ( yi − y ) 2 .
n i=1 n − 1 i=1
1 ⎡⎢ ∑ ( xi − x )( yi − y ) ⎤⎥
r= i .
n−1 ⎢ S X SY ⎥
⎢⎣ ⎥⎦
Y = β0 + β1x.
As observações não caem, contudo, exatamente sobre a linha reta, ou seja, existe
uma diferença entre o valor observado e o valor da reta, denominado erro (representado
por ε). Este erro é assumido ser um erro estatístico, isto é, ele é uma variável aleatória
que quantifica a falha do modelo em se ajustar aos dados exatamente. Tal erro pode ser
devido ao efeito de outras variáveis não consideradas, erro de medição, dentre outros.
Desse modo, um modelo mais plausível seria:
yi = β0 + β1xi + εi ( i = 1, ..., n)
125
120
115
110
TEMPO
95
90
85
18 22 26 30 34 38 42
IDADE
∑ yi – n β̂ 0 – β̂1
i=1
∑ xi = 0
i=1
n n
– n β̂ 0 = – ∑ yi + β̂1 ∑ xi
i=1 i=1
n n
β̂ 0 = [ ∑ yi – β̂1
i=1
∑ xi ] / n.
i=1
E, portanto, βˆ 0 = y − βˆ1 x .
∑ xi yi – β̂ ∑ xi – β̂ ∑ xi2 = 0
i=1
0
i
1
i
n n n
⇒ ∑ xiyi = β̂ ∑ xi + β̂ ∑ xi2
i=1
0
i=1
1
i=1
n n n
⇒ ∑ xiyi =
i=1
∑ xi ( y – β̂1 x ) + β̂1
i=1
∑ xi2
i=1
n n n n
⇒ ∑ xiyi = y
i=1
∑ xi – β̂1 x
i=1 i=1
∑ xi + β̂1 ∑ xi 2
i=1
n n n n
⇒ β̂1 = [ ∑ xiyi – y ∑ xi ] / [ ∑ xi2 – x ∑ xi].
i=1 i=1 i=1 i=1
n n n
∑ xi yi − n y x ∑ ( yi − y )( xi − x ) ∑ y (x − x) i i
S xy
Logo, βˆ1 = i =1
n = i =1
n = i =1
n = .
∑x i =1
i
2
− n x2 ∑ (x − x)
i =1
i
2
∑ (x − x)
i =1
i
2 S xx
Giolo, S.R. Análise de Regressão Linear 7
Além dos parâmetros β0 e β1, existe outro parâmetro a ser estimado, a variância
dos erros εi denotada por σ2. Sua importância se deve ao fato de que se esta for
relativamente grande, as variâncias de β̂ 0 e β̂1 também serão grandes, conferindo a
estes estimadores pouca precisão.
Como os erros εi (i = 1, ..., n) são quantidades não observadas, a estimação de σ2
é feita com base nos resíduos que são definidos pela diferença dos valores observados e
preditos pelo modelo, isto é, ei = yi – ŷi . Assim, um estimador não-viciado para σ2 é
dado por:
n n
∑(y − yˆ i ) 2 ∑e
2
i i
S 2 = σˆ 2 = i =1
= i =1
n−2 n−2 .
SQres
= = QMres
n−2
(n − 2) σˆ 2
Como sob o MRLS ~ χ n2−2 segue que a variância de σˆ 2 é dada por:
σ 2
2(σ 2 ) 2
Var(σˆ 2 ) = .
n−2
Para o MRLS com erro normal, a função de verossimilhança fica expressa por:
n
⎡ 1 ⎤
L(β0, β1, σ2) = ∏(2πσ 2 )−1/ 2 exp ⎢− 2 ( yi − β0 − β1xi )2 ⎥
i =1 ⎣ 2σ ⎦
⎡ 1 n ⎤
= (2 πσ 2 )−n/ 2 exp ⎢− 2 ∑ (yi − β0 − β1xi )2 ⎥ .
⎣ 2σ i=1 ⎦
Para obtenção dos estimadores de máxima verossimilhança dos parâmetros β0, β1 e
2
σ , devem ser encontrados os valores que maximizam L ou, equivalentemente, ln(L).
Figura 1.3 Reta de regressão ajustada aos dados do exemplo sobre idade e tempo de reação.
∑ ei = 0.
i=1
[6] A soma dos valores observados yi é igual a soma dos valores ajustados ŷi , ou seja,
n n
∑ yi =∑ yˆi .
i=1 i=1
[7] A reta de regressão obtida por MQ sempre passa pelo centróide ( y , x ) dos dados.
[8] A soma dos resíduos ponderada pelos correspondentes valores da variável regressora
X é sempre igual a zero, isto é,
n
∑ xi ei = 0.
i=1
[9] A soma dos resíduos ponderada pelos correspondentes valores ajustados é sempre
igual a zero, isto é,
n
∑ ŷ ei = 0.
i=1
i
CAPÍTULO 2
Adequação do Modelo de Regressão Linear
2.1 Introdução
Após estimar os parâmetros do MRLS é necessário verificar as seguintes
questões antes de adotá-lo para fazer inferências:
1a) Quão bem este modelo se ajusta aos dados?
2a) As suposições básicas estão satisfeitas? Isto é:
• A variável X é uma variável controlada e não sujeita às variações aleatórias?
• Para cada valor de X, os erros distribuem-se em torno da média, isto é, E(εi) = 0?
• Os erros têm a mesma variabilidade em todos os níveis de X, isto é,V(εi) = σ2?
• Os erros são não correlacionados? Isto é, Cov(εi, εj) = 0 para todo i ≠ j?
Figura 2.1 Diferenças entre os valores observados, ajustados e a média dos y’s.
A partir da Figura 2.1 tem-se, ainda, que (yi – y ) = ( y i – y ) + (yi – y i), para
i = 1,..., n. Logo, a variação total fica expressa por:
n n n
∑ (yi – y ) ∑ ( y i – y ) ∑ (yi – y i) .
2 2 2
= +
i =1 i =1 i =1
∑ (xi – x ) .
2
A SQRegressão pode, também, ser expressa por SQReg = β̂ 21
i =1
Exemplo: Para os dados sobre tempo reação e idade, em que foi ajustado o
modelo ŷi = 80,5 + 0,9xi, tem-se a ANOVA apresentada na Tabela 2.2.
Tabela 2.2 Anova associada ao MRLS ajustado aos dados de idade e tempo reação.
Fonte Variação g.l. S.Q. Q.M. F valor p
Regressão 1 810 810,00 25,9 0,00008
Resíduos 18 563 31,28 ---
Total 19 1373 72,26 ---
R2 = 810/1373 = 0,59 = 59% e r = 0,768.
Atenção deve ser dada, agora, à 2a questão sobre as suposições feitas para os
erros. O uso de um modelo que não satisfaça tais suposições será de pouca utilidade e
acarretará baixa confiabilidade nos seus resultados, pois violações nas suposições
podem produzir um modelo instável no sentido que uma diferente amostra pode levar a
um modelo totalmente diferente e com conclusões opostas.
Para diagnosticar e tratar violações das suposições feitas para os erros, será feito
uso dos resíduos para derivar medidas da qualidade do modelo.
⎛ 1 ( x − x )2 ⎞
Var(ei ) = σ 2 ⎜⎜1 − − i ⎟ n
⎛ 1 ( x − x )( x j − x ) ⎞
Cov(ei , e j ) = −σ 2 ⎜⎜ + i ⎟⎟ .
⎝n S xx ⎠
⎛ 1 ( xi − x ) 2 ⎞ ⎛ 1 ( xi − x )( x j − x ) ⎞
⎜ ⎟⎟ ⎜⎜ + ⎟⎟
Logo, denotando hii = ⎜ n + S e hij = , segue que:
⎝ xx ⎠ ⎝n S xx ⎠
Var (ei ) = σ 2 (1 − hii ) para i = 1, ..., n
Cov (ei , e j ) = −σ 2 hij para i, j = 1, ..., n (i ≠ j ).
MRLS for apropriado, zi segue distribuição aproximada t de Student (ou normal para n
grande). A distribuição não é exata devido ao fato de ei e σˆ 2 não serem independentes.
Giolo, S.R. Análise de Regressão Linear 14
ei
c) Resíduos estudentizados: zi*= em que σˆ (2i ) é o QMRes do MRLS ajustado
σˆ (1 − hii )
2
(i )
sem a i-ésima observação. Assim, sob a hipótese de que o MRLS é adequado e visto
que ei e σˆ (2i ) são independentes, segue que zi* tem distribuição t de Student com (n–1–2)
graus de liberdade.
Para dados em que a variável resposta tem uma sequência natural sobre o tempo,
a suposição de erros não-correlacionados é frequentemente não apropriada. Modelos
para séries temporais tais como o AR, ARMA, ARIMA etc. são utilizados nesses casos.
Para detectar a presença de autocorrelação é possível, além do gráfico citado,
utilizar o teste de Durbin-Watson. As hipóteses consideradas nesse teste são:
n n
d= ∑ (et − e t-1 )2 /
t =2
∑e
t =1
2
t
em que et são os resíduos ordenados no tempo (t = 1, 2, ..., n). A decisão é tomada com
base em valores tabelados (Tabela A6, Montgomery e Peck (1992)). Esta tabela fornece
dois valores críticos: dL e dU e, de modo que:
Giolo, S.R. Análise de Regressão Linear 15
Se, contudo, a hipótese alternativa for Ha: ρc < 0, a estatística de teste utilizada
será d* = 4 – d. A regra de decisão é a mesma, considerando-se d* em vez de d.
d) Gráfico dos resíduos versus regressoras omitidas: claramente tal gráfico só poderá
ser considerado se os níveis da variável omitida forem conhecidos. Qualquer padrão
exibido nesse gráfico, que não o aleatório, indica que o modelo pode ser melhorado
adicionando a nova variável regressora.
e) Gráfico de probabilidade normal dos resíduos: se o interesse for a obtenção de
intervalos de confiança e testes de hipóteses, será necessário supor a normalidade dos
erros. Uma maneira simples de verificar tal suposição é por meio do gráfico de
probabilidade normal dos resíduos, o qual também é útil para a identificação de resíduos
discrepantes.
⎛ ⎡1 x 2 ⎤ ⎞
2⎢ + ⎥
β̂ 0 ∼ N ⎜β
⎜ 0, σ ⎣ n S xx ⎦ ⎠
⎝
β̂1 ∼ N (β1, σ2/Sxx), em que Sxx = ∑(xi – x )2.
i
Giolo, S.R. Análise de Regressão Linear 16
⎛ 1 x2 ⎞
σ ⎜⎜ + ⎟⎟
2
( β̂ 0 – β0) /
Portanto:
⎝ n S xx ⎠ ∼ N(0,1)
σ2
( β̂1 – β1) / ∼ N(0, 1).
S xx
⎛ 1 x2 ⎞
S ⎜⎜ +
2
⎟⎟
Substituindo-se σ2 por seu estimador S2 tem-se: ( β̂ 0 – β0) / ∼ t n-2
⎝ n S xx ⎠
S2
( β̂1 – β1) / ∼ t n-2.
S xx
⎜n S xx ⎟⎠
⎝
⎛ ⎞
I.C.(Y0) = ŷ0 ± t(α/2; n-2) QMres ⎜1 + 1 + ( x0 − x ) ⎟ ,
2
⎜ n S xx ⎟⎠
⎝
com ŷ0 = β̂ 0 + β̂1 x0 e Sxx = ∑(xi – x )2.
i
Para o exemplo:
• a) a estimativa do tempo de reação esperado para um grupo de indivíduos com x = 28
anos submetidos ao teste é de, em média, y = 105,7 minutos com correspondente
intervalo de 95% de confiança de I.C.(E(Y)) = (102,98; 108,43) minutos.
[ ]
102,98 105,7 108,43
• b) a estimativa do tempo de reação para um indivíduo com x0 = 28 anos que irá se
submeter ao teste é também ŷ0 = 105,7 minutos. No entanto, o intervalo de predição
correspondente é de (93,64; 117,46) minutos.
[ ]
93,64 105,7 117,46
Giolo, S.R. Análise de Regressão Linear 18
Figura 2.2 Reta ajustada (––) com bandas de confiança (.....) para E(Y)
e bandas de predição (- - -) para uma futura observação Y.
3.1 Introdução
Em algumas situações é razoável pensar que uma reta passando pela origem
(0,0) deve se ajustar bem aos dados. Um exemplo de tal situação é a de um experimento
químico em que a produção do processo é zero quando a temperatura for zero. Nem
sempre, contudo, tal conclusão óbvia é aplicável em regressão.
Como já foi dito anteriormente, o modelo de regressão é útil para a realização de
interpolações dentro da variação de X usada para ajustar o modelo e não para
extrapolações (valores de x fora da variação observada). Para ilustrar considere o
exemplo mostrado na Figura 3.1.
(a) modelo linear com β0 = 0 (b) modelo linear com β0 ≠ 0 (c) modelo não-linear
Figura 3.1 Exemplo em que três modelos alternativos são ajustados a um conjunto de dados.
E( β̂1 ) = β1
QMres
Var( β̂1 ) = sendo QMres = ∑(yi – y i)2 / (n – 1).
∑i
2
x i
i
Ainda,
a) I.C.(β1) = β̂1 ± tα/2; n-1 [QMres / ∑xi2]1/2
i
Note que o comprimento do I.C. em (b) para x = 0 é zero, pois o modelo assume
que a média em x = 0 é conhecida ser zero. Já no intervalo de confiança em (c), o
comprimento é diferente de zero, pois o erro aleatório em uma futura observação deve
ser levado em consideração.
Em um modelo com intercepto diferente de zero foi visto que:
∑ ( y − y)2
R = SQ Re g =
i
2 i .
SQTotal ∑ (y
i
i − y)2
R (0) = SQ Re g =
i
2 i
.
SQTotal ∑y i
i
2
(∑ yi xi ) 2
∑ ( y − yˆ ) = ∑ ( y − β̂ xi ) 2 = ∑ yi −
2 2
em que i
.
∑x
i i i 1 2
i i i i
i
Um problema ou limitação dessa alternativa de cálculo é que em algumas
situações em que se tenha ∑(yi – y i)2 relativamente grande, R2(0)* pode vir a apresentar
i
valor negativo.
CAPÍTULO 4
Outliers e Transformações de Variáveis
4.1 Introdução
Na literatura, observações atípicas recebem denominações diversas tais como:
outliers, observações discrepantes, observações aberrantes, observações surpreendentes,
observações influentes etc. O uso mais comum tem sido outliers. Como mostrado na
Figura 4.1, tais observações podem encontrar-se:
σ2 ≈ constante nenhuma --
(1o. passo) Ajustar o modelo para vários valores de λ obtendo-se as SQres(λ), isto é a
SQres para cada um dos λ usados. Note que as SQRes(λ) não são comparáveis
diretamente caso seja utilizado os resultados das regressões de Yλ em X porque para
cada λ, a SQRes é medida em uma escala diferente. Para que a comparação das SQRes
seja possível deve-se utilizar para cada λ escolhido:
Y(λ) = (Yλ -1) /( λ y λ−1) para λ ≠ 0
y ln(Y) para λ = 0,
n n
em que y = ln-1[(1/n) ∑ ln y i] = exp[(1/n) ∑ ln y i].
i =1 i =1
λ SQres(λ)
- 2,0 34101,00
- 1,0 986,00
- 0,5 291,60
0,0 134,10
0,5 96,95 *
0,7 98,00
1,0 127,00
SQres(λ)
104,62 SS*
(2o.passo) Calcular I.C. para o λ que nos fornece a menor SQres. Este I.C. é obtido
graficamente calculando-se SS* = SQres(λ)[1 + (tα/2; r / r)], em que r = n – p (n =
tamanho da amostra e p = no de parâmetros estimados). Com o valor obtido em SS*
traçar uma reta paralela ao eixo λ obtendo-se, assim, os limites inferior e superior do
I.C. (Figura 4.2). Caso o I.C. não contenha o valor numérico 1 (um), conclui-se que a
transformação é útil.
Giolo, S.R. Análise de Regressão Linear 26
Obs: Box e Tidwell notaram que este procedimento converge muito rapidamente, sendo
o resultado obtido no 1o estágio freqüentemente satisfatório.
Problemas de convergência podem ocorrer nos casos em que o erro-padrão de σ
for muito grande, ou quando a variação das regressoras for muito pequena comparado às
suas médias. Cuidado deve também ser tomado com erros de arredondamento. Estes
podem levar aos sucessivos valores de α oscilando amplamente.
Obs: Para mais detalhes do método, bem como ilustração, ver Montgomery e Peck (1992).
Como σ2i são raramente conhecidos, são apresentados a seguir dois métodos
para sua obtenção.
1o) Algumas vezes a variância dos erros em um modelo de regressão varia com o nível
de uma variável independente de modo sistemático. Em regressão linear simples, por
exemplo, a relação e os pesos sugeridos podem ser um dos seguintes:
2o) Quando as variâncias dos erros variam com o nível de uma variável independente,
mas não em um padrão regular, os casos são agrupados em pequenos grupos, digamos k
grupos, de acordo com os níveis da variável independente. As variâncias dos resíduos
são calculadas para cada grupo k e toda observação yi em cada grupo recebe um peso o
qual é o recíproco da variância estimada para aquele grupo, isto é, wi = 1/Si2 para i = 1,
2, .., k.
Este é um método aproximado para a atribuição de pesos e pode ser útil quando
a análise de resíduos indica diferenças maiores nas variâncias dos erros.
Na análise gráfica dos resíduos devem ser analisados os gráficos:
( wi )(ei) versus ( wi )( y i ) e/ou
( wi )(ei) versus ( wi )(xi)
para verificar se o uso de Mínimos Quadrados Ponderado (MQP) melhorou o ajuste
corrigindo o problema de desigualdade de variâncias.
CAPÍTULO 5
Regressão Linear Múltipla
5.1 Introdução
A análise de regressão linear múltipla pode ser vista como uma extensão da
análise de regressão linear simples em que, agora, se tem um conjunto de variáveis
independentes. Tratar com diversas variáveis independentes simultaneamente em uma
análise de regressão é, em geral, mais complexo do que com uma única variável
independente (regressora) por algumas das seguintes razões:
• é mais difícil escolher um bom modelo;
• não é possível visualizar graficamente o modelo ajustado na presença de mais do
que duas variáveis independentes (regressoras);
• algumas vezes é difícil interpretar as estimativas dos parâmetros do modelo de
regressão escolhido.
Em geral, o objetivo ao se ajustar um modelo de regressão linear múltipla é o de
predizer a variável resposta por meio das variáveis independentes. Em diversas
situações, predições da variável resposta realizadas por meio de uma única variável
independente são muito imprecisas e, sendo assim, modelos com mais de uma variável
independente serão analisados na tentativa de melhorar tais predições. Dentre um
conjunto possível de variáveis independentes, a intenção é escolher um subconjunto que
produza um bom modelo, isto é, um modelo parcimonioso que forneça estimativas
precisas da variável resposta e que faça sentido prático, uma vez que nem sempre o
modelo escolhido, em termos estatísticos, é aplicável ou faz sentido na prática. O
conhecimento do problema sob análise e a interação com o pesquisador são
imprescindíveis para a escolha do modelo final.
Formalmente, para o ajuste de um modelo de regressão linear múltipla, a
variável resposta e as variáveis independentes, deveriam ser contínuas. Na prática,
contudo, algumas das variáveis independentes (regressoras) podem ser de outra
natureza. As categóricas, por exemplo, são incorporadas ao modelo por meio de
variáveis indicadoras (dummy).
Giolo, S.R. Análise de Regressão Linear 30
pois y’Xβ é um escalar, bem como β’X’y = (y’Xβ)’ também o é. Assim, y’Xβ = β’X’y.
Derivando-se, então, a SQerros em relação a β obtém-se ∂SQerros/∂β = – 2X’y +
2X’Xβ, que igualada a zero e avaliada em β̂, resulta em
β̂ = (X’X)-1X’y,
desde que (X’X) seja possua inversa, fato este que ocorre quando as regressoras forem
linearmente independentes. Analogamente ao que foi visto em regressão linear simples,
o estimador de QM, βˆ , também é estimador de máxima verossimilhança.
⎢ # # " # ⎥
⎢ ⎥
⎣Ck1 Ck 2 " Ck +1,k +1 ⎦
Var( β̂ j ) = σ 2 C j+1, j+1 (j = 0, 1, ..., k) e Cov( β̂ m , β̂ j ) = σ 2 C m +1, j+1 (m, j = 0, 1, ..., k), m ≠ j.
[3] Ainda, assumindo os erros εi (i = 1, .., n) i.i.d. e normalmente distribuídos, segue que
β̂ é também estimador de máxima verossimilhança do vetor de parâmetros β e, desse
modo, βˆ é não-viciado, de mínima variância, consistente e suficiente.
Giolo, S.R. Análise de Regressão Linear 33
5.7 Estimador de σ2
Assim como em regressão linear simples, é possível obter um estimador para σ2
utilizando-se a soma de quadrados dos resíduos dada por:
n n
SQres = ∑ ( y − yˆ ) i i
2
= ∑ ei 2 = e’e = (y – X β̂ )’(y – X βˆ ) = y’y – 2 β̂ ’X’y + βˆ ’X’X β̂ .
i =1 i =1
Como X’X β̂ = X’X (X’X)-1 X’Y = X’y segue que SQres = y’y – βˆ ’X’y,
que possui (n – p) graus de liberdade associados, visto que p parâmetros são estimados
no modelo de regressão. Tem-se, assim, o quadrado médio dos resíduos definido por:
QMres = SQres/(n – p),
em que é possível mostrar que E(QMres) = σ2. Logo, um estimador não-viciado de σ2 é:
σ 2 = S2 = QMres.
De fato,
n n n n n
i) SQtotal = ∑ ( yi − y ) 2 =∑ ( yi2 − 2 yi y + y 2 ) = ∑ yi2 − 2 y ∑ yi + ∑ y 2
i =1 i =1 i =1 i =1 i =1
2
⎛ ⎞ n
∑ ⎜ ∑ yi ⎟
n
n y
= ∑y
i =1
2
i + 2ny i =1 i
n
+ ny = y’y – n y =
2 2
y’y – ⎝ i=1 ⎠ .
n
2
⎛ n ⎞
⎜ ∑ yi ⎟
ii) SQreg = SQtotal – SQres = y’y – n y – (y’y – βˆ ’X’y) = β̂ ’X’y – n y = βˆ ’X’y – ⎝ i=1 ⎠ .
2 2
Total y’y – n y
2
n–1 -- -- --
n = tamanho amostral e p = número de parâmetros.
Giolo, S.R. Análise de Regressão Linear 34
Comentários
• Um valor de R2 grande não implica necessariamente que o modelo ajustado seja útil.
Outros aspectos precisam ser avaliados (suposições, parcimonia e sentido prático do
modelo, dentre outros).
• Adicionar mais variáveis independentes ao modelo pode somente aumentar R2 e
nunca reduzí-lo, pois a SQres não pode tornar-se maior com mais variáveis
independentes e a SQtotal é sempre a mesma para um certo conjunto de dados. Como
R2 pode tornar-se grande pela inclusão de um grande número de variáveis
independentes, é sugerido que se faça uso de uma medida modificada, o coeficiente
de determinação múltiplo ajustado, denotado por R2a, que ajusta R2 dividindo cada
soma de quadrados por seus graus de liberdade associados. Tem-se então:
SQres /(n − p) (n − 1)SQres
R2a = 1 – = 1− .
SQtotal /(n − 1) (n − p)SQtotal
Note que o coeficiente R2a pode tornar-se menor quando uma variável
independente for adicionada ao modelo, pois o decréscimo na SQres pode ser
compensado pela perda de graus de liberdade do denominador (n – p). Se R2 e R2a
diferirem muito um do outro, então existe grande chance de que o modelo tenha sido
superespecificado, isto é, termos que contribuem não significativamente para o ajuste
devem ter sido incluídos desnecessariamente. Avaliar R2 e R2a é, desse modo, de grande
utilidade no processo de seleção de variáveis, especialmente nos casos em que há um
número grande de regressoras disponíveis.
r=+ R2
sendo R2 o coeficiente de determinação múltiplo apresentado anteriormente. Esse
coeficiente é uma generalização do coeficiente de correlação linear simples entre duas
variáveis fornecendo, desse modo, a correlação linear entre Y e o conjunto de variáveis
X1, X2, ...Xk.
Giolo, S.R. Análise de Regressão Linear 35
Y X1 X2
10 2 1
17 3 2
48 4 5
27 1 2
55 5 6
26 6 4
9 7 3
16 8 4
Para esses dados, observe, a partir da Figura 5.1, que o diagrama de dispersão de
Y versus X1 não exibe uma relação aparente entre essas duas variáveis. Já o diagrama de
Y versus X2, indica uma relação linear positiva com inclinação de aproximadamente 8.
Ambos os diagramas conduzem, portanto, a informações errôneas a respeito da relação
existente entre Y e X1, bem como entre Y e X2.
β̂ ∼ NM(β, σ2 (X’X)-1).
Logo,
β̂ j ∼ N(βj , σ2 Cii ) para j = 0, 1, ..., k e i = j + 1
sendo Cii o i-ésimo elemento da diagonal principal da matriz (X’X)-1.
β̂ j − β j
Assim, ∼ t(n – p) para j = 0, 1,..., k e i = j + 1,
σˆ 2Cii
com p o número de parâmetros do modelo ajustado e σ 2 = QMres.
Este estimador tem distribuição normal com média xiβ e variância σ̂ 2 xi’(X’X)-1xi, de
modo que um intervalo de confiança de (1-α)100% para xi’β é dado por:
F = QMreg / QMres
e que, sob H0 tem distribuição F(p – 1; n – p). Se H0 for rejeitada, haverá evidências de que
pelo menos um βj difere de zero.
a) Regressão de Y em X1 b) Regressão de Y em X2
ŷ = – 1,49 + 0,86x1 yˆ = – 23,63 + 0,85x2
F.V. SQ g.l. QM F.V. SQ g.l. QM
Reg 352,27 1 352,27 Reg 381,97 1 381,97
Res 143,12 18 7,95 Res 113,42 18 6,30
Total 495,39 19 --- Total 495,39 19 ---
Giolo, S.R. Análise de Regressão Linear 38
Se H0 não for rejeitada tem-se o modelo reduzido Y = β0 + β1x1 + β2x2. Caso contrário,
o modelo completo Y = β0 + β1x1 + β2x2 + β3x3. A estatística de teste parcial F* para
testar tais hipóteses é expressa por:
SQ E ( X 3 | X 1 , X 2 ) / [(n − 3) − (n − 4)] SQ E ( X 3 | X 1 , X 2 ) / 1
F* = = ∼ F(1; n – 4).
SQres( X 1 , X 2 , X 3 ) / (n − 4) QMres( X 1 , X 2 , X 3 )
Para os dados do exemplo tem-se :
F* = 11,54 / 6,15 = 1,88 (p-valor = 0,189)
t* = – 2,18 / 1,59 = –1,37 (p-valor = 0,189),
o que nos leva a concluir que X3 não contribui significativamente e pode, portanto, ser
removida do modelo de regressão contendo X1 e X2.
O teste F* pode também ser utilizado para testar se um subconjunto de
regressoras pode ser removido do modelo completo. Por exemplo:
a) Podemos desejar testar se X2 e X3 podem ser removidas do modelo contendo X1, X2
e X3. Nesse caso as hipóteses são:
H0: β2 = β3 = 0 versus Ha: β2 ≠ 0 ou β3 ≠ 0.
Em sendo, F* = [(33,17 + 11,54)/2] / [98,41/16] = [44,71/2] / 6,15 = 3,63, para o qual o
p-valor associado à distribuição F2;16 é igual a 0,05, é possível concluir pela rejeição da
hipótese nula.
F.V. SQ g.l. QM
Regressão 396,98 3 132,33
X1 352,27 1 352,27
X2| X1 33,17 1 33,17
X3 | X1, X2 11,54 1 11,54
Resíduos 98,41 16 6,15
Total 495,39 19 ---
A matriz rXX é simétrica, isto é, rij = rji e se rij for próximo de zero, então Xi e Xj
não são altamente correlacionadas. Por outro lado, se rji for próximo de |1|, então Xi e Xj
são altamente correlacionadas.
Logo, E(e) = 0
e Var(e) = Var[(I – H) ε] = (I – H)Var(ε )(I – H)’
= (I – H)σ2I(I – H)’ = σ2(I – H)
pois, (I – H) é simétrica ((I – H) = (I – H)’) e idempotente ((I – H)(I –H)) = (I – H).
Portanto, E(ei) = 0, Var(ei) = σ2(1 – hii), bem como pode ser mostrado que
Cov(ei, ej) = – σ2hij. Ainda, a distribuição dos resíduos é também normal, pois estes são
combinações lineares dos yi’s, que têm distribuição normal. Em síntese:
ei
1) Resíduos padronizados zi =
QMres(1 − hii )
ei
2) Resíduos studentized zi* =
QMres( i ) (1 − hii )
hii corresponde ao i-ésimo componente da diagonal da matriz H = X(X’X)-1X’
QMres(i) corresponde ao QMres do MRLM sem a i-ésima observação.
• Pontos com resíduo e hii grandes são observações possivelmente influentes no ajuste
por MQ.
5.15 Multicolinearidade
Adicional às analises dos gráficos de Xi versus Xj (i ≠ j) e da matriz de
correlações rXX, é possível utilizar outros recursos para diagnosticar a presença de
colinearidade ou multicolinearidade.
Giolo, S.R. Análise de Regressão Linear 44
As raízes características, ou autovalores de rXX , denotadas por λ1, λ2, ..., λk,
podem ser usados para medir a extensão da multicolinearidade. Se existir uma (ou mais)
dependência linear, então uma (ou mais) das raízes características serão pequenas. Auto
valores de rXX são as raízes características da equação | rXX - λI | = 0.
Alguns analistas preferem, no entanto, examinar o número de condição da matriz
rXX dado por:
λmax .
k=
λmin
Geralmente, se k < 100 ⇒ não existem sérios problemas de multicolinearidade,
se 100 < k < 1000 ⇒ moderada a forte multicolinearidade e,
se k >1000 ⇒ severa multicolinearidade.
λmax .
Os índices de condição da matriz rXX são dados por kj =
λj
Exemplo: Seja Y a variável resposta de interesse e X1, ...., X9 as regressoras, de modo
que os autovalores obtidos sejam:
λ1 = 4,2048 λ4 = 1,0413 λ7 = 0,0136
λ2 = 2,1626 λ5 = 0,3845 λ8 = 0,0051
λ3 = 1,1384 λ6 = 0,0495 λ9 = 0,0001.
Assim, k = 42048, o que implica em severa multicolinearidade. Ainda,
k1 = 1,0 k4 = 4,04 k7 = 309,18
k2 = 1,94 k5 = 10,94 k8 = 824,47
k3 = 3,69 k6 = 84,96 k9 = 42048,
e como k7 e k8 > 100 e k9 > 1000, há indícios de multicolinearidade envolvendo as
variáveis X7, X8 e X9.
ri 2 hii
Di = i = 1, .., n,
( p)(1 − hii )
com ri o i-ésimo resíduo studentized, p o número de parâmetros estimados e hii o i-
ésimo elemento da diagonal da matriz H.
Outra versão alternativa da distância de Cook é dada por:
(yˆ − yˆ (i ) )' (yˆ − yˆ ( i ) )
Di = i = 1, ..., n,
p QMres
de modo que Di pode ser interpretada como o quadrado da distância euclidiana (a menos
de pQMres) que o vetor de valores ajustados desloca-se quando a i-ésima observação é
removida.
Belsley, Kuh e Welsch (1980) sugeriram, também, outra estatística que indica o
quanto o coeficiente β̂ j muda, em unidades de desvio-padrão, quando a i-ésima
observação é removida. Esta estatística é dada, para j = 0, 1, ..., p, por:
β̂ j − β̂ j(i)
DFBETAj,i = i = 1, .., n,
S(2i )C j+1, j+1
Pontos de corte para COVRATIOi não são fáceis de serem obtidos. Belsley, Kuh
e Welsh (1980) sugeriram que se COVRATIOi > 1 + (3p/n) ou < 1 – (3p/n), então, a i-
ésima observação deve ser considerada uma possível observação influente. O limite
inferior é somente apropriado quando n > 3p. Os pontos de corte mencionados são mais
apropriados para amostras grandes.
A análise de resíduos evidenciou, como pode ser observado nos gráficos dos
resíduos na Figura 5.2, que a observação 9 causa alguns problemas ao modelo ajustado.
Giolo, S.R. Análise de Regressão Linear 49
Figura 5.5 Valores observados e plano ajustado aos dados de serviços de rotina.
A partir das estimativas dos parâmetros ( β̂1 = 1,498 e β̂ 2 = 0,010) pode-se dizer
que, mantido X1 (quantidade de bebida estocada) constante, há um acréscimo de, em
média, 0,010 minutos no tempo de realização dos serviços de rotina a cada acréscimo de
uma unidade na distância (X2). De forma análoga, há um acréscimo de, em média, 1,498
Giolo, S.R. Análise de Regressão Linear 52
minutos no tempo de realização dos serviços de rotina a cada acréscimo de uma unidade
em X1 (quantidade de bebida estocada), mantido X2 constante.
O intervalo de 95% de confiança para a resposta média em, por exemplo, (x1, x2) =
(8, 275) é dado por I.C.(E(Y))95% = (17,65; 20,79) minutos, sendo ŷ = 19,22 minutos.
regressão ridge é usado para denominar um modelo de regressão em que esse tipo de
estimador é considerado. Para mais detalhes sobre esse assunto ver, por exemplo,
Montgomery e Peck (1992).
1o) o modelo deveria incluir tantas quantas regressoras fossem necessárias para
auxiliar na predição de Y e,
o
2 ) o modelo deveria ser parcimonioso (conter poucas regressoras), visto que a
variância da predição cresce conforme o número de regressoras cresce. Além
disso, quanto mais regressoras existirem no modelo, maior o custo para coleta e
manutenção do modelo.
c) Estatística Cp de Mallows
Mallows propôs um critério que se baseia na SQres. De acordo com esse critério,
deve ser calculado para cada subconjunto das k regressoras, a correspondente SQres e,
então, obter:
Cp = SQres(p) – n + 2p,
σ2
sendo σ2 estimado pelo QMres do modelo com as k regressoras e p o número de
parâmetros em cada modelo.
Para o modelo com todas as regressoras tem-se Cp = p. Geralmente, valores
pequenos de Cp são desejáveis. Modelos de regressão com Cp próximos da linha Cp = p
e abaixo dela são candidatos ao melhor modelo.
ii) Método passo atrás (backward): Esse método começa com todas as k
regressoras no modelo. Um nível de significância α é, então, estabelecido a fim de que
somente regressoras que apresentem significância maior que α possam ser removidas do
modelo. Tem-se, assim:
Passo 1: para cada regressora é calculado a estatística F parcial como se ela fosse a
última regressora a entrar no modelo. A primeira regressora a ser removida do modelo
é aquela que apresentar o menor valor para a estatística F parcial ou, equivalentemente,
o maior p-valor associado a essa estatística tal que p-valor > α pré-estabelecido.
Passo 2 e Passos Subseqüentes: o modelo sem a regressora escolhida no primeiro
passo é ajustado e novas estatísticas F parcias são calculadas. O procedimento usado no
primeiro passo é, então, repetido até que todas as regressoras permanecendo no modelo
apresentem p-valores associados aos testes F parciais menores ou iguais a α.
Nesse procedimento, uma regressora removida em um determinado passo, não
tem a possibilidade de vir a ser incluída em qualquer outro passo subseqüente.
Comentários:
X1
Figura 5.6 Região conjunta de X1 e X2.
Para verificar se uma observação xi = (1, xi1, xi2, ..., xik) pertence à região
conjunta, usa-se o seguinte procedimento baseado nos elementos hii da diagonal da
matriz H. Considere hmáx = maior valor de hii . O conjunto de pontos x que satisfizerem:
x’(X’X)-1x ≤ hmáx
estarão inclusos no elipsóide ou região conjunta definida pelas regressoras. Logo, se o
interesse for o de predizer Y em x0 = [1 x01 x02 .... x0k], a localização desse ponto
relativa ao elipsóide será obtida por h00 = x’0( X’X)-1x0. Se h00 > hmáx, x0 estará fora do
elipsóide. Caso contrário, dentro ou nos limites do elipsóide.
Para cada uma das 16 regressões citadas, foram obtidos: SQres, R2, R2a, QMres e
Cp de Mallows. Os resultados são mostrados na Tabela 5.5. Tem-se, ainda, nas Tabelas
6.6 e 6.7, respectivamente, a matriz de correlações simples e os coeficientes estimados
para cada uma das 16 regressões consideradas.
Tabela 5.5 Resumo de todas as regressões possíveis com o intercepto e sem interações.
no de no de regressoras
regressoras parâmetros no modelo SQres R2p R2a QMres Cp
Nenhuma 1 Nenhuma 2715,76 0 0 226,31 443,14
1 2 X1 1265,68 0,5339 0,4915 115,06 202,55
1 2 X2 906,33 0,6662 0,6359 82,39 142,49
1 2 X3 1939,40 0,2858 0,2209 176,31 315,16
1 2 X4 883,86 0,6745 0,6449 80,35 138,73
2 3 X1 X2 57,90 0,9786 0,9744 5,79 2,68
2 3 X1 X3 1227,07 0,5481 0,4578 122,70 198,10
2 3 X1 X4 74,76 0,9724 0,9669 7,47 5,50
Giolo, S.R. Análise de Regressão Linear 58
essencialmente o mesmo R2. Com base nesse critério, faria pouca diferença na escolha
de um ou outro.
Considerando, agora, o critério de maximizar R2a, que é equivalente a minimizar
o QMres, é possível observar, também a partir da Tabela 5.5, que o modelo com menor
QMres é o que contém as regressoras X1, X2 e X4 (QMres = 5,33). Observe, como
esperado, que o modelo que minimiza o QMres é também o que maximiza R2a. Pode-
se, ainda, observar, desta mesma tabela, que dois outros modelos com três regressoras
(Y em X1, X2 e X3 e Y em X1, X3 e X4) e dois outros modelos com duas regressoras (Y
em X1 e X2 e Y em X1 e X4) apresentam valores para o QMres comparáveis. Se X1 e X2
ou X1 e X4 estiverem no modelo, existe pequena redução no QMres com a adição de
outras regressoras. Por esse critério e, entre os dois últimos modelos mencionados, o
modelo Y em X1 e X2 parece ser mais apropriado por apresentar menor QMres.
Pelo critério de Mallows, observam-se quatro modelos considerados aceitáveis
(modelos com Cp < p = 5). Se outros fatores forem levados em consideração, tais como,
por exemplo, custos e dificuldades na obtenção das medidas, parece ser mais apropriado
escolher o modelo Y em X1 e X2 por este apresentar menor Cp.
Os Quadros 5.3, 5.4 e 5.5 mostram, respectivamente, os resultados dos métodos
de seleção passo à frente, passo atrás e passo a passo aplicados aos dados da Tabela 5.4.
A partir dos resultados, tem-se:
Call:
lm(formula = Y ~ X1 + X2, data = exe5)
Coefficients:
(Intercept) X1 X2
52.5773 1.4683 0.6623
Observe que não existe uma escolha clara da melhor equação de regressão, visto
que cada método sugere, em geral, modelos diferentes. Todos são candidatos ao modelo
final e devem ser analisados quanto suas respectivas adequacidades, pontos influentes,
efeito de multicolinearidade etc.
Com base em uma ponderação dos resultados obtidos quando da utilização dos
critérios e métodos de seleção, parece razoável a indicação de dois modelos como
candidatos ao melhor modelo. São eles, o modelo Y em X1 e X2 seguido do modelo Y
em X1 e X4. Uma análise desses dois modelos quanto a sua adequacidade (análise de
resíduos, pontos influentes, necessidade de interação etc.) certamente auxiliará na
decisão de escolha do modelo final.
Giolo, S.R. Análise de Regressão Linear 61
6.1 Introdução
O modelo de regressão polinomial é um caso especial do modelo de regressão
linear geral Y = Xβ + ε, em que uma, ou mais regressoras, podem estar presentes no
modelo em diversas potencias.
∑ P (x ) P (x ) = 0
i=1
q i s i (q ≠ s; q, s = 0, 1, .., r )
P0 (xi) = 1,
o modelo passa a ser representado por Y = Xα + ε, em que a matriz X é composta de
colunas ortogonais tal que:
⎡ P0 ( x1 ) P1 ( x1 ) " Pr ( x1 ) ⎤
⎢ P ( x ) P ( x ) " P ( x )⎥
⎢ 0 2 1 2 r 2 ⎥
X= ⎢ # # # # ⎥
⎢ ⎥
⎣ P0 ( xn ) P1 ( xn ) " Pr ( xn )⎦
e, portanto, tem-se:
⎡ n 2 ⎤
⎢∑ P0 ( xi ) 0 " 0 ⎥
⎢ i =1 n ⎥
⎢ ⎥
X’X = ⎢
0 ∑
i =1
2
P1 ( xi ) " 0
⎥.
⎢ # # # 0 ⎥
⎢ n ⎥
⎢ 0 0 " ∑ Pr2 ( xi )⎥
⎣⎢ i =1 ⎦⎥
P0 (xi) = 1
⎡x − x⎤
P1 (xi) = λ1 ⎢ i ⎥
⎣ d ⎦
⎡⎛ x i − x ⎞ 2 ⎛ n 2 − 1 ⎞⎤
P2 (xi) = λ2 ⎢⎜ ⎟ − ⎜⎜ ⎟⎟⎥
⎢⎣⎝ d ⎠ ⎝ 12 ⎠⎥⎦
⎡⎛ x i − x ⎞ 3 ⎛ x i − x ⎞⎛ 3n 2 − 7 ⎞⎤
P3 (xi) = λ3 ⎢⎜ ⎟ −⎜ ⎟⎜⎜ ⎟⎟⎥
⎣⎢⎝ d ⎠ ⎝ d ⎠⎝ 20 ⎠⎦⎥
⎡⎛ x i − x ⎞ 4 ⎛ x i − x ⎞ 2 ⎛ 3n 2 − 13 ⎞ 3(n 2 − 1)(n 2 − 9) ⎤
P4 (xi) = λ4 ⎢⎜ ⎟ −⎜ ⎟ ⎜⎜ ⎟⎟ + ⎥
⎢⎣⎝ d ⎠ ⎝ d ⎠ ⎝ 14 ⎠ 560 ⎥⎦
sendo d o espaçamento entre os níveis de X, n o tamanho amostral e λ1, ..., λ4
constantes escolhidas de modo aos polinomiais apresentarem valores inteiros.
Giolo, S.R. Análise de Regressão Linear 64
6.3 Exemplos
6.3.1 Exemplo 1
Considere os dados apresentados na Tabela 6.1 em que se tem uma variável
resposta Y e uma única regressora X, ambas contínuas.
6.3.2 Exemplo 2
Considere, agora, os dados apresentados na Tabela 6.2 de um outro exemplo em
que Y é o custo anual médio de manutenção de um equipamento e X a produção desse
equipamento.
Giolo, S.R. Análise de Regressão Linear 67
Modelo 2
lm(formula = Volume ~ Girth)
Residuals:
Min 1Q Median 3Q Max
-8.0654 -3.1067 0.1520 3.4948 9.5868
Estimate Std. Error t value Pr(>|t|)
(Intercept) -36.9435 3.3651 -10.98 7.62e-12
Girth 5.0659 0.2474 20.48 < 2e-16
Modelo 3
lm(formula = Volume ~ Height + Girth)
Residuals:
Min 1Q Median 3Q Max
-6.4065 -2.6493 -0.2876 2.2003 8.4847
Estimate Std. Error t value Pr(>|t|)
(Intercept) -57.9877 8.6382 -6.713 2.75e-07 ***
Height 0.3393 0.1302 2.607 0.0145 *
Girth 4.7082 0.2643 17.816 < 2e-16 ***
Residual standard error: 3.882 on 28 degrees of freedom
Multiple R-Squared: 0.948, Adjusted R-squared: 0.9442
F-statistic: 255 on 2 and 28 DF, p-value: < 2.2e-16
Modelo 4
lm(formula = Volume ~ Height + Girth + I(Girth^2))
Residuals:
Min 1Q Median 3Q Max
-4.2928 -1.6693 -0.1018 1.7851 4.3489
Modelo 5
lm(formula = Volume ~ Girth + I(Girth^2) + I(Girth^3))
Residuals:
Min 1Q Median 3Q Max
-5.4462 -2.3220 -0.4896 2.0225 7.4458
Modelo 6
lm(formula = Volume ~ Height+I(Height^2)+Girth+I(Girth^2))
Residuals:
Min 1Q Median 3Q Max
-4.3679 -1.6698 -0.1580 1.7915 4.3581
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.955101 63.013630 -0.015 0.988
Height 0.119372 1.784588 0.067 0.947
I(Height^2) 0.001717 0.011905 0.144 0.886
Girth -2.796569 1.468677 -1.904 0.068
I(Girth^2) 0.265446 0.051689 5.135 2.35e-05
Modelo Final
lm(Volume~Height+Gb+I(Gb^2),data=trees)
Residuals:
Min 1Q Median 3Q Max
-4.2928 -1.6693 -0.1018 1.7851 4.3489
Y X1 X2 Y X1 X2
vida efetiva velocidade tipo vida efetiva velocidade tipo
(horas) (rpm) ferramenta (horas) (rpm) ferramenta
18.73 610 A 30.16 670 B
14.52 950 A 27.09 770 B
17.43 720 A 25.40 880 B
14.54 840 A 26.05 1000 B
13.44 980 A 33.49 760 B
24.39 530 A 35.62 590 B
13.34 680 A 26.07 910 B
22.71 540 A 36.78 650 B
12.68 890 A 34.95 810 B
19.32 730 A 43.67 500 B
Fonte: Montgomery e Peck (1992)
0 se ferramenta do tipo A
X2 = 1 se ferramenta do tipo B.
Considerando-se o modelo E(Y| x ) = β0 + β1 x1 + β2 x2 segue que:
para x2 = 0 ⇒ E(Y | x ) = β0 + β1 x1
para x2 = 1 ⇒ E(Y | x ) = (β0 +β2) + β1x1.
Portanto, para o tipo de ferramenta A (x2 = 0), a relação entre a vida efetiva desta
ferramenta e a velocidade do torno é uma reta com intercepto β0 e inclinação β1.
Analogamente, para o tipo B, uma reta com intercepto (β0 + β2) e inclinação β1. Tem-se,
assim, duas retas paralelas, isto é, duas retas com inclinação comum β1 e interceptos
diferentes. Para x1 fixo, o parâmetro β2 expressa a mudança na esperança do tempo de
vida, resultante da mudança da ferramenta do tipo A para a do tipo B. Intervalo de
confiança e teste de hipóteses para β2 são obtidos de forma análoga aos obtidos para os
parâmetros de um modelo de regressão com todas as regressoras quantitativas.
O uso de uma variável indicadora para incoporar uma regressora qualitativa com
dois níveis pode ser generalizada para regressoras qualitativas com mais do que dois
níveis. Considerando-se, por exemplo, três tipos de ferramentas (A, B e C), seriam
necessárias duas variáveis indicadoras para incorporar os três níveis no modelo. Essas
variáveis seriam expressas por:
X21 = 1 se ferramenta tipo A e X22 = 1 se ferramenta tipo B
0 em caso contrário 0 em caso contrário,
em que para as combinações possíveis de X21 e X21 tem-se:
X21 X22
1 0 Ferramenta tipo A
0 1 Ferramenta tipo B
0 0 Ferramenta tipo C.
Giolo, S.R. Análise de Regressão Linear 74
entre os efeitos diferenciais e, desse modo, as variáveis dummy são preferíveis aos
códigos alocados.
7.3.2.1 Alternativa 1
Em vez de usar variáveis indicadoras do tipo 0 e 1, estabelecendo um dos níveis da
variável qualitativa como referência, uma alternativa é usar variáveis indicadoras do
tipo 1 e –1. Nesse caso, a referência deixa de ser um dos níveis da variável qualitativa, e
passa a ser a média da resposta ao se considerar todos os níveis conjuntamente. Os
parâmetros estimados refletem, nesse caso, efeitos diferenciais na resposta média de
cada um dos níveis em relação a média de todos eles conjuntamente. Para uma variável
qualitativa com dois níveis, A e B, a variável dummy fica representada por:
1 se nível A
X2 =
– 1 se nível B.
Já para uma variável qualitativa com três níveis (A, B e C), tem-se:
1 se nível A 1 se nível B
X21 = – 1 se nível C e X22 = – 1 se nível C
0 caso contrário 0 caso contário,
de modo que:
Nível X21 X22
A 1 0
B 0 1
C –1 –1
7.3.2.2 Alternativa 2
Uma outra alternativa seria a de retirar o termo intercepto do modelo de
regressão e usar m variáveis qualitativas do tipo 0 e 1 para representar cada um dos m
níveis da variável. Assim, em um modelo em que a regressora X1 é quantitativa, e a
regressora X2 qualitativa com dois níveis (A e B), tem-se o modelo:
E(Y| x) = β1X1 + β2x21 + β3x22,
com: X21 = 1 se nível A e X22 = 1 se nível B
0 c. c. 0 c. c.
Giolo, S.R. Análise de Regressão Linear 77
Nesse caso, as estimativas dos parâmetros refletem o efeito de cada nível diretamente
sobre a resposta esperada, e não o efeito diferencial em relação a um nível de referência
ou a média dos níveis.
Comentários:
a) A escolha por qualquer uma das três alternativas de variáveis dummy mencionadas,
conduzirá às mesmas conclusões.
b) Como já mencionado no Capítulo 4, não se pode comparar diretamente o coeficiente
de determinação obtido ao se usar o modelo de regressão sem o intercepto (R2(0)) com o
obtido ao se usar o modelo de regressão com o intercepto (R2). Veja Capítulo 4 para
mais detalhes.
7.4.1 Análise 1
Tomando-se m – 1 variáveis dummy do tipo 0 e 1 para representar X2 tem-se o
modelo:
E(Y| x) = β0 + β1x1 + β2x2 +β3 x1x2
em que X2 = 0 se ferramenta A e x1x2 representa a interação entre X1 e X2.
1 se ferramenta B
Os resultados para esse modelo apresentados no Quadro 7.1, mostra evidências
de que a interação entre as regressoras não é significativa (p-valor = 0,1955).
Quadro 7.1 Análise de variância do modelo com interação entre X1 e X2.
Df Sum Sq Mean Sq F value Pr(>F)
X1 1 293.01 293.01 33.2545 2.889e-05
X2B 1 1125.03 1125.03 127.6847 4.891e-09
X1:X2 1 16.08 16.08 1.8248 0.1955
Residuals 16 140.98 8.81
E(Y)
β0 + β2
ˆ = 51,99 – 0,027x1
tipo B: Y
β2
β0
ˆ = 36,986 – 0,027x1
tipo A: Y
X1
Figura 7.2 Representação gráfica das retas ajustadas as ferramentas A e B.
Giolo, S.R. Análise de Regressão Linear 79
7.4.2 Análise 2
Considerando-se, agora, variáveis dummy do tipo 1 e –1 para representar X2, tem-
se o modelo E(Y| x) = β0 + β1x1 + β2x2 +β3 x1x2 sendo X2 = 1 se ferramenta A
–1 se ferramenta B.
em que o parâmetro β0 é, nesse modelo, a média dos interceptos das duas linhas de
regressão na qual, para um valor fixo x1, a ferramenta A e B diferem por β2 unidades
em direções opostas. Os modelos para as ferramentas A e B são mostrados a seguir.
Giolo, S.R. Análise de Regressão Linear 80
E(Y)
β0 + β2
ˆ = 51,99 – 0,027x1
tipo B: Y
β0
média de A + B
β0 – β2
tipo A: Ŷ = 36,986 – 0,027x1
X1
7.4.3 Análise 3
Finalmente, tomando-se variáveis dummy do tipo 0 e 1 no modelo sem
intercepto, tem-se o modelo E(Y| x) = β1x1 + β2x21 + β3x21 + β4 x1x2 , em que:
Figura 7.4 Análise dos resíduos do modelo sem interação e sem intercepto.
APÊNDICE A
A.1 Regressão Polinomial no Pacote Estatístico R
A função poly é usada no pacote estatístico R para obtenção de polinômios
ortogonais. Usando tal função, os polinomiais Pj(xi) são obtidos pelo procedimento de
ortogonalização de Gram-Schmidt que, embora diferente do procedimento apresentado
na Seção 6.2, produz valores preditos exatamente iguais. A função poly pode ser
aplicada às situações em que os níveis de X são, ou não, igualmente espaçados.
Como um exemplo suponha x = (-1 0 1 2) e y = (2 1 2 10) e considere um
polinômio de ordem 2, de modo que:
x1 x2 x3
⎡1 −1 1 ⎤
⎢1 0 0 ⎥⎥
X =⎢ .
⎢1 1 1⎥
⎢ ⎥
⎣1 2 4⎦
a) Comandos no R
> y<-c(2,1,2,10)
> x<-c(-1,0,1,2)
> fit<-lm(y~poly(x,degree=2))
> fit$model
y poly(x, degree = 2).1 poly(x, degree = 2).2
1 2 -0.6708204 0.5000000
2 1 -0.2236068 -0.5000000
3 2 0.2236068 -0.5000000
4 10 0.6708204 0.5000000
> anova(fit)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
poly(x, degree = 2) 2 51.50 25.75 20.6 0.1539
Residuals 1 1.25 1.25
> summary(fit)
Residuals:
1 2 3 4
-0.25 0.75 -0.75 0.25
Giolo, S.R. Análise de Regressão Linear 83
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.750 0.559 6.708 0.0942 .
poly(x, degree = 2)1 5.590 1.118 5.000 0.1257
poly(x, degree = 2)2 4.500 1.118 4.025 0.1550
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
> fit$fitted
1 2 3 4
2.25 0.25 2.75 9.75
Ilustração: Análise dos dados apresentados na Tabela 7.2 usando a função poly.
> x<-c(50,75,100,125,150,175,200,225,250,275)
> y<-c(335,326,316,313,311,314,318,328,337,345)
> fit<-lm(y~poly(x,degree=2))
> fit$model
y poly(x, degree = 2).1 poly(x, degree = 2).2
1 335 -0.49543369 0.52223297
2 326 -0.38533732 0.17407766
3 316 -0.27524094 -0.08703883
4 313 -0.16514456 -0.26111648
5 311 -0.05504819 -0.34815531
6 314 0.05504819 -0.34815531
7 318 0.16514456 -0.26111648
8 328 0.27524094 -0.08703883
9 337 0.38533732 0.17407766
10 345 0.49543369 0.52223297
> summary(fit)
Residuals:
Min 1Q Median 3Q Max
-2.7545455 -1.2034091 -0.0007576 1.1318182 2.7833333
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 324.3000 0.6174 525.262 < 2e-16 ***
poly(x, degree = 2)1 13.4868 1.9524 6.908 0.000230 ***
poly(x, degree = 2)2 32.1173 1.9524 16.450 7.48e-07 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
> plot(fit)
> influence.measures(fit)
dfb.1_ dfb.p..d.2.1 dfb.p..d.2.2 dffit cov.r cook.d hat inf
1 0.2437 -0.38179 0.4024 0.6059 3.7210 0.137564 0.618 *
2 0.2845 -0.34662 0.1566 0.4749 1.6667 0.079949 0.279
3 -0.3564 0.31024 0.0981 -0.4826 1.2050 0.077227 0.183
4 -0.1294 0.06755 0.1068 -0.1808 1.8466 0.012439 0.195
5 -0.2790 0.04857 0.3072 -0.4178 1.5353 0.061672 0.224
6 0.0270 0.00469 -0.0297 0.0404 2.0412 0.000633 0.224
7 -0.0263 -0.01372 0.0217 -0.0367 1.9683 0.000524 0.195
8 0.6366 0.55409 -0.1752 0.8620 0.5205 0.186217 0.183
9 0.4417 0.53827 0.2432 0.7376 1.1702 0.171362 0.279
10 -2.1412 -3.35460 -3.5361 -5.3237 0.0692 2.813453 0.618 *
> summary(influence.measures(fit))
dfb.1_ dfb.p(,d=2)1 dfb.p(,d=2)2 dffit cov.r cook.d hat
1 0.24 -0.38 0.40 0.61 3.72_* 0.14 0.62
10 -2.14_* -3.35_* -3.54_* -5.32_* 0.07 2.81_* 0.62
> fit$fitted
1 2 3 4 5 6 7 8
334.3909 324.6939 317.7924 313.6864 312.3758 313.8606 318.1409 325.2167
9 10
335.0879 347.7545
Giolo, S.R. Análise de Regressão Linear 85
Bibliografia
Belsley, D.A. Kuh, E.; Welsch, R.E.S. (1980). Regression Diagnostics: Identifying Influential
Data and Source of Colinearity. New York: John Wiley & Sons.
Box, G.E.P; Tidwell, P.W.(1962). Transformation of the independent variables. Technometrics,
4:531–550.
Bussab, W.O. (1988). Análise de Variância e de Regressão. 2a edição, São Paulo: Atual.
Charnet, R; Freire, C.L.; Charnet, E.M.R.; Bonvino, H. (2008). Análise de Modelos de
Regressão Linear com Aplicações. 2a edição, Campinas: Ed. da Unicamp.
Cook, R.D. (1979). Influential observations in linear regression. Journal of the American
Statistical Association, 74: 169–174.
Cook, R.D. (1977). Detection of influential observations in regression. Technometrics, 19: 15-
18.
Cook, R.D. and Weisberg, S. (1982). Residuals and Influence in regression. London: Chapman
& Hall.
Draper, N.R.; Smith, H. (1981). Applied Regression Analysis. 2nd edition, New York: John
Wiley & Sons.
Hoaglin, D.C. and Welsch, R.E. (1978). The Hat Matrix in Regression and ANOVA, The
American Statistician, 32, Part 1, pp.17-22.
Hoffmann, R.; Vieira, S. (1977). Análise de Regressão. 2a edição, São Paulo: Atual.
Myers, R.H. (1990). Classical and Modern Regression with Applications. 2nd edition, Boston:
PWS Publishers.
Montgomery, D.C.; Peck, E.A. (1992). Introduction to linear Regression Analysis. 2nd edition,
New York: John Wiley & Sons.
Montgomery, D.C., Peck, E.A.; Vining, G.G. (2003). Introduction to Linear Regression
Analysis, 3rd edition. New York: John Wiley & Sons.
Neter, J.; Wasserman, W.; Kutner, M.H. (1990). Applied Linear Statistical Models. 3rd edition,
Illinois: Richard D. Irwin, Inc.
Kutner, M.H., Nachtsheim, C.J., Neter, J.; Li, W. (2004). Applied Linear Statistical Models. 5th
edition: McGraw-Hill.
Paula, G.P. (2004). Modelos de Regressão com Apoio Computacional. Arquivo pdf disponível
em: (www.ime.usp.br/~giapaula).
Ryan, T.P. (2008). Modern Regression Models, 2nd edition. New York: Wiley.
Siegel, S. (1975). Estatística Não-paramétrica para as Ciências do Comportamento. McGraw-
Hill.
Siegel, S; Catellan Jr, J. (2006). Estatística Não-paramétrica para Ciências do Comportamento.
2a edição, Ed. Artmed.