Apostila ADAIR Curso Regressão Linear e NLinear UFMT

UNIVERSIDADE
FEDERAL DE VIÇOSA
Centro de Ciências
Exatas
Departamento de Estatística
INTRODUÇÃO AOS MODELOS DE REGRESSÃO

LINEAR E NÃO-LINEAR
Prof. Adair José Regazzi

Professor Titular – DET/UFV
Viçosa - Minas Gerais

2010
APRESENTAÇÃO
A presente apostila constitui o material básico utilizado no Curso de Extensão

ministrado na UFV, sob o título Introdução aos Modelos de Regressão Linear e Não-
Linear. Apesar da ênfase principal do curso ser em Modelos de Regressão Não-Linear,
julgamos oportuno apresentar no Capítulo 1, uma breve revisão sobre Modelos de
Regressão Linear, com o objetivo de facilitar o entendimento do Capítulo 2 – Introdução aos
Modelos de Regressão Não-Linear. Além das considerações teóricas, são apresentados
exemplos de aplicação para ilustrar cada um dos procedimentos estatísticos, utilizando-se o
Programa SAS (Statistical Analysis System). Recomendamos aos leitores interessados no
assunto aqui apresentado, consultar a literatura citada para um maior aprofundamento.
O Autor
i
CONTEÚDO Página
CAPÍTULO 1 – Introdução aos Modelos de Regressão Linear 2
1.1. Introdução 2
1.2. Estimadores dos Parâmetros pelo Método dos Mínimos Quadrados 3
1.3. Variâncias e Covariâncias dos Estimadores dos Parâmetros 5
1.4. Análise de Variância da Regressão 6
1.5. Coeficiente de Determinação Múltipla (R2) 8
1.6. Alguns Resultados Importantes 8
1.7. Intervalo de Confiança para um Parâmetro β j 9
1.8. Testes de Hipóteses Lineares 9

1.9. Testes de Hipóteses no Modelo Linear Geral 10
1.10. Modelo sem o Intercepto 12
1.11. Um Problema Exemplo – Uso do Programa SAS (PROC REG) 13
1.12. Um Problema Proposto 31
CAPÍTULO 2 – Introdução aos Modelos de Regressão Não-Linear 32

2.1. Introdução 32
2.2. O Modelo de Regressão Não-Linear 32
2.3. Mínimos Quadrados Não-Lineares 34
2.4. Transformação para um Modelo Linear 35
2.5. Estimação de Parâmetros em um Sistema Não-Linear 43
2.6. Testes de Hipóteses 72
2.6.1. Teste de Wald 72
2.6.2. Teste da Razão de Verossimilhança 76
2.7. Valores Iniciais 79
2.8. Exemplos de Modelos de Regressão Não-Linear 85
2.9. Aplicações – Uso do Programa SAS (PROC NLIN) 87
Referências Bibliográficas 134
Apêndices 136
Tabelas 151
ii
Regressão Linear e Não-Linear Regazzi, A. J.
CAPÍTULO 1
INTRODUÇÃO AOS MODELOS DE

REGRESSÃO LINEAR
(UMA BREVE REVISÃO)
CAPÍTULO 1 – INTRODUÇÃO AOS MODELOS DE

REGRESSÃO LINEAR
1.1. Introdução
Considere uma situação observacional onde os valores yi de uma variável dependente

y (variável resposta) estão relacionados aos valores xji de variáveis independentes (ou
variáveis regressoras ou variáveis exógenas) xj por meio do modelo estatístico
y i = β0 + β1x1i + β 2 x 2i + L + βp x pi + ε i , i = 1, 2, L, n
Neste modelo, as observações xji são consideradas fixas, as constantes β j são parâmetros
desconhecidos que especificam a associação linear entre a variável dependente e as

variáveis independentes e ε i é um erro aleatório responsável pela natureza estocástica da
variável resposta.
Supondo n observações (n > p + 1) , temos as n equações seguintes:
y1 = β0 + β1x11 + β 2 x 21 + L + βp x p1 + ε1
y 2 = β 0 + β1x 12 + β 2 x 22 + L + β p x p2 + ε 2
K K K K K K K
y n = β 0 + β1x1n + β 2 x 2n + L + βp x pn + ε n
De um ponto de vista analítico, é conveniente a representação matricial do modelo

observacional. Neste contexto sejam
⎡ y1 ⎤ ⎡ 1 x11 x 21 L x p1 ⎤ ⎡β 0 ⎤ ⎡ ε1 ⎤
⎢y ⎥ ⎢1 x X 22 L x p2 ⎥⎥ ⎢β ⎥ ⎢ε ⎥
X=⎢ β = ⎢ ⎥,
12 1
Y = ⎢ 2 ⎥, , ε = ⎢ 2⎥
⎢L⎥ ⎢L L L L L⎥ ⎢L ⎥ ⎢L⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣yn ⎦ ⎢⎣ 1 x1n x 2n L x pn ⎥⎦ ⎢⎣βp ⎥⎦ ⎣ε n ⎦
Podemos escrever então: Y = Xβ + ε

Consideremos:
► Erros ε i homocedásticos, isto é, com variância constante, e também com média
nula e não correlacionados.
► Do ponto de vista distribucional vamos impor normalidade.
2
O modelo linear Y = Xβ + ε , onde ε ~ N(φ ; Iσ 2 ) , é definido como modelo linear de

Gauss-Markov-Normal.
O nosso problema consiste em obter a equação ajustada,
ŷ i = βˆ 0 + βˆ 1x1i + βˆ 2 x 2i + L + βˆ p x pi .
Para tanto, devemos estimar o vetor β , que denotaremos por:
⎡βˆ 0 ⎤
⎢ˆ ⎥
β
βˆ = ⎢ 1 ⎥
⎢L⎥
⎢ ⎥
⎢⎣βˆ p ⎥⎦
1.2. Estimadores dos Parâmetros pelo Método dos Mínimos Quadrados
Vimos que: Y = Xβ + ε
ε = Y − Xβ
Escolhemos como estimativa de β um vetor βˆ que minimize

2
SSE(β) = Y − Xβ , onde Y − Xβ é a norma euclidiana do vetor ε .
SSE(β) =|| ε ||2 = ε' ε = ( Y − Xβ)' ( Y − Xβ)

= ( Y '−β' X' )( Y − Xβ)
= Y ' Y − Y ' Xβ − β' X' Y + β' X' Xβ
Sendo as matrizes Y' Xβ e β' X' Y de dimensões 1x1, e sendo uma a transposta da
outra, temos Y ' Xβ = β' X' Y , então:
SSE(β) = Y ' Y − 2β' X' Y + β' X' Xβ)
A função SSE (β) apresenta ponto de mínimo para os valores de β que tornam sua
diferencial identicamente nula.
Seja Z = SSE(β) . Diferenciando Z, vem:
dZ = −2( dβ' ) X' Y + (dβ' ) X' Xβ + β' X' X( dβ)
Sendo ( dβ' ) X' Xβ = β' X' X( dβ) , por serem matrizes de dimensões 1x1, e uma a
transposta da outra, segue-se que:
dZ = −2( dβ' ) X' Y + 2( dβ' ) X' Xβ
dZ = 2( dβ' )( X' Xβ − X' Y )
3
Fazendo dZ ≡ 0 , e como dβ' é arbitrário, X' Xβˆ − X' Y = φ
X' Xβˆ = X' Y (I)
onde βˆ é o vetor dos estimadores dos parâmetros.

As equações de (I), constituem o SISTEMA DE EQUAÇÕES NORMAIS, que nos dá
as estimativas desejadas.
Se X' X é não singular, existe a matriz ( X' X) −1. Pré-multiplicando ambos os membros
de (I) por ( X' X) −1, vem:
( X' X) −1 X' Xβˆ = ( X' X) −1 X' Y
βˆ = ( X' X) −1 X' Y
Alguns resultados:
(i) Y = Xβ + ε ⇒ ε = Y − Xβ
E( Y ) = Xβ e Ŷ = Xβˆ = X( X' X) −1 X' Y = PY
P é a matriz de projeção que transforma o vetor Y no vetor Ŷ que pertence ao espaço

coluna de X.
De Y = Xβˆ + εˆ = Ŷ + εˆ , nota-se que o vetor Y foi decomposto em dois vetores
ortogonais. Tomando-se suas normas, podemos interpretar geometricamente essa partição
através do teorema de Pitágoras.
Y ∈ Vn
Y Ŷ ∈ C( X)
ε̂
εˆ ∈ C ⊥ ( X)
y
Ŷ
C(X)
ε̂ pertence ao complemento ortogonal do espaço coluna de X. Naturalmente Ŷ será

tanto melhor para aproximar Y quanto menor for o comprimento de ε̂ . Assim,
4
SSE(βˆ ) = εˆ ' εˆ = ( Y − Xβˆ )' ( Y − Xβˆ )

SSE(βˆ ) = Y' Y − βˆ ' X' Y
A variância residual é dada por:
SSE(βˆ ) Y' Y − βˆ ' X' Y

σˆ 2 = = .
n − Posto( X) n − p −1
εˆ = Y − Xβˆ = Y − Ŷ (Resíduos ordinários)
⎡ ê1 ⎤ ⎡ ŷ1 ⎤
⎢ ⎥ ⎢ ⎥
ê ŷ
onde, εˆ = ⎢ 2 ⎥ , Ŷ = ⎢ 2 ⎥ , ê i = y i − ŷ i
⎢L⎥ ⎢L⎥
⎢ ⎥ ⎢ ⎥
⎣ê n ⎦ ⎣ ŷ n ⎦
(ii) X' Y − X' Xβˆ = φ
X' ( Y − Xβˆ ) = φ
X' ε̂ = φ
Esta relação matricial significa que, se a matriz X tiver uma coluna de 1’s, então
n n n
∑ êi = 0 e ∑ y i = ∑ ŷ i .
i =1 i =1 i =1
1.3. Variâncias e Covariâncias dos Estimadores dos Parâmetros

A matriz
Cov(βˆ ) = E[(βˆ − β)(βˆ − β)' ] = ( X' X) −1σ 2 é por definição, a matriz de variâncias e
covariâncias dos estimadores dos parâmetros.
Denotaremos por Côv(βˆ ) o estimador da matriz de variâncias e covariâncias do
estimador dos parâmetros, onde
Côv(βˆ ) = ( X' X) −1σˆ 2 , ou ainda, Côv(βˆ ) = ( X' X) −1s 2 .
⎡ V̂(βˆ 0 ) Côv(βˆ 0 , βˆ 1 ) L Côv(βˆ 0 , βˆ p )⎤

⎢ ⎥
ˆ ⎢ V̂(βˆ 1 ) L Côv(βˆ 1, βˆ p ) ⎥
Côv(β) = ⎢ ⎥.
O L
⎢ ⎥
⎢⎣Simétrica V̂(βˆ p ) ⎥⎦
5
Para uma combinação linear dos estimadores dos parâmetros dada por c' β̂ sendo c '
um vetor linha com p + 1 constantes, isto é, c ' = [c 0 c 1 c 2 L c p ] , tem-se que a variância
é dada por:
V(c ' βˆ ) = c' ( X' X) −1c σ 2 . Então, V̂(c' βˆ ) = c' ( X' X) −1c s 2 .
1.4. Análise de Variância da Regressão
Modelo Estatístico:
y i = β 0 + β1x1i + β 2 x 2i + L + βp x pi + ε i , i = 1, 2, L, n
Posto(X) = p + 1
► A soma de quadrados total (não corrigida pela média) é dada por:

n
SQTotal(não corrigida pela média ) = Y' Y = ∑ yi2 , com n graus de liberdade.
i=1
► A soma de quadrados total (corrigida pela média) é dada por:

2
⎛n ⎞
⎜⎜ ∑ y i ⎟⎟
n
2 ⎝ i=1 ⎠
SQTotal (corrigida pela média ) = ∑ y i − , com n - 1 graus de liberdade.
i=1 n
Matricialmente podemos escrever:
⎡ uu' ⎤
SQTotal c = Y' ⎢I − Y
⎣ n ⎥⎦
1
SQTotal c = Y' Y − Y' uu' Y
n
SQTotal c = Y' Y − C
2
⎛n ⎞
⎜⎜ ∑ y i ⎟⎟
1
onde C é a correção dada por C = Y' uu' Y = ⎝
i =1 ⎠
, onde u é um vetor de 1’s de
n n
dimensão n x 1.
[ ]
► SQParâmetr os = Y' X( X' X) −1 X' Y = βˆ ' X' Y , com Posto(X) = p + 1 graus de liberdade.
[ ]
► SQ Re síduo = SSE(βˆ ) = Y' I(n) − X( X' X) −1 X' Y = Y' Y − βˆ ' X' Y ,
com n - Posto(X) = n – p – 1 graus de liberdade.
6
► A soma de quadrados da regressão é dada por:

n
SQ Re gressão = ∑ ( ŷ i − y ) 2
i =1
2
⎛n ⎞
⎜⎜ ∑ ŷ i ⎟⎟
n
2 ⎝ i =1 ⎠
= ∑ ŷ i −
i =1 n
n n
Como ∑ ŷ i = ∑ y i , vem:
i =1 i =1
2
⎛n ⎞
⎜⎜ ∑ y i ⎟⎟
n
SQ Re gressão = ∑ ŷ i2 − ⎝
i =1 ⎠
i =1 n

1
SQ Re gressão = Ŷ' Ŷ − Y' uu' Y
n
1
= ( Xβˆ )' Xβˆ − Y' uu' Y
n
1
= βˆ ' X' Xβˆ − Y' uu' Y . Como, X' Xβˆ = X' Y , então,
n
SQ Re gressão = βˆ ' X' Y − C , com p graus de liberdade.
► Dos resultados anteriores segue que:

SQ Re síduo = SQTotal c − SQ Re gressão , isto é,
SQ Re síduo = [ Y' Y − C] − [βˆ ' X' Y − C] .
O esquema da Análise de Variância da Regressão é apresentado a seguir:
F.V. G.L. S.Q. Q.M. F
QM Re gr
Regressão p βˆ ' X' Y − C QMRe gr
QM Re s
Resíduo n −p −1 Y' Y − βˆ ' X' Y QM Re s
Totalc n −1 Y' Y − C
7
É possível demonstrar que, se os erros εi têm distribuição normal e sob

H: β1 = β 2 = L = βp = 0 , o quociente,
QMRe gr
F= ,
QMRe s
tem distribuição F (central) com p e n − p − 1 graus de liberdade. Então, o valor F assim
obtido é utilizado para testar a hipótese
H : β1 = β 2 = L = βp = 0 vs. A : β j ≠ 0 , para pelo menos um j.
1.5. Coeficiente de Determinação Múltipla ( R 2 )
Para este modelo, o coeficiente de determinação é definido por

2
⎛n ⎞
⎜⎜ ∑ y i ⎟⎟
βˆ ' X' Y − ⎝
i =1 ⎠
n SQ Re gressão SSE
R2 = = = 1− = (ryŷ ) 2
2 SQTotal c SQTotal c
⎛n ⎞
⎜⎜ ∑ y i ⎟⎟
Y' Y − ⎝
i =1 ⎠
n
e mostra a proporção da soma de quadrados total que é “explicada” pela equação de
regressão ajustada. Note que 0 ≤ R 2 ≤ 1 . Para p>1, R2 é o coeficiente de determinação

múltipla. Se p = 1, então R2 = r2 é o coeficiente de determinação simples.
O coeficiente de determinação ajustado ou corrigido para o número de graus de
liberdade, é dado por:
R 2 = R2 −
p
(
(n − p − 1)
1− R2 )
1.6. Alguns Resultados Importantes
Considerando o modelo linear Y = Xβ + ε , em que X tenha posto coluna completo
p + 1 e ε ~ N(φ, Iσ 2 ) , então:
a) Y é normal
Y = Xβ + ε , então Y ~ N( Xβ, σ 2I)
8
b) β̂ é normal
β̂ é uma função linear de Y. Assim, ele é normalmente distribuído:
[
βˆ = ( X' X) −1 X' Y ~ N (β, ( X' X) −1σ 2 ) ]
c) εˆ é normal
εˆ ~ N[φ, σ 2 (I − P)] , com P = X( X' X) −1 X'
d) SSE / σ 2 tem uma distribuição de χ 2 (Central)
Assim (n − p − 1)σˆ 2 / σ 2 ~ χ n2 − p −1
e) β̂ e σ̂ 2 são independentes
1.7. Intervalo de Confiança para um Parâmetro β j
⎛ ⎞
Escolhendo o nível de confiança (1 − α ) , e sendo t 0 ⎜⎜ t 0 = t α ⎟⎟ o quantil de ordem
⎜ ⎟
⎝ 2 ⎠
α
(1 − ) ⋅ 100% da distribuição t de Student com n – p -1 graus de liberdade, o intervalo de
2
confiança para β j é dado por:
IC(β j )1− α : βˆ j ± t 0 s(βˆ j ) , com s(βˆ j ) = V̂(βˆ j ) .
1.8. Testes de Hipóteses Lineares
As estimativas dos erros-padrões das estimativas dos parâmetros são dadas pelas
raízes quadradas dos elementos da diagonal principal da matriz Côv(βˆ ) = ( X' X) −1s 2 . Para
testar a hipótese
H: βj = k vs. A : βj ≠ k (ou A : βj > k ou A : β j < k ) , sendo k uma constante,
podemos utilizar a estatística
9
βˆ j − k
tc =
s(βˆ j )
que tem distribuição t de Student com n − p − 1 graus de liberdade associados à variância
residual s2= σ̂ 2 . Rejeita-se H quando o valor tc não pertencer à região de aceite, uni ou
bicaudal, no nível α definido pela distribuição t(n−p −1) .
Os testes estatísticos em termos de combinações lineares c' β são feitos de modo

análogo ao caso anterior por meio do cálculo da estatística
c' βˆ − k
tc = ~ t (n − p −1)
s(c' βˆ )
em que,
V̂(c' βˆ ) = c' ( X' X) −1c σˆ 2 e s(c ' βˆ ) = V̂(c ' βˆ )
1.9. Teste de Hipótese no Modelo Linear Geral
Consideremos que a hipótese de nulidade a respeito dos valores dos parâmetros seja
constituída por m relações lineares independentes, isto é,
H : C' β = K vs. A : C' β ≠ K ,
onde C' é uma matriz com m linhas e p + 1 colunas e K é um vetor m-dimensional de

constantes conhecidas. Se as m relações lineares assim definidas são independentes, o
posto de C' é igual a m. Note que devemos ter m ≤ p + 1 < n.
É claro que
C' βˆ − K ~ N[C' β − K, C' ( X' X) −1Cσ 2 ]

Agora,
Q = (C' βˆ − K )' [C' ( X' X) −1C] −1(C' βˆ − K )

é tal que
Q
~ χ 2 não central com m graus de liberdade e parâmetro de não-centralidade
2
σ
1
λ= (C' β − K )' [C' ( X' X) −1C] −1(C' β − K ) .
2
2σ
10
Como βˆ e SSE são independentes, Q como função de βˆ também é independente de

SSE. Logo,
Q / mσ 2 Q/m Q
Fc = = = , tem distribuição F(m; n−p −1) central sob H.
SSE /[n − p − 1)σ 2 ] SSE /(n − p − 1) mσˆ 2
Rejeita-se H, ao nível α , quando Fc excede Fα(m; n−p −1) , onde Fα(m; n−p −1) é o quantil
de ordem (1 − α ) ⋅ 100% da distribuição F com m e n – p – 1 graus de liberdade.
Fato: Para m = 1, t2 = F.
OUTRA ALTERNATIVA PARA TESTAR A HIPÓTESE:
H : C' β = K vs. A : C' β ≠ K

Posto (C’) = m
1º Passo:
Ajustar o modelo completo por mínimos quadrados obtendo
SSE(βˆ ) = Y' Y − βˆ ' X' Y

2º Passo:
Faça uma reparametrização e a partir do modelo reduzido sob H : C' β = K , obtenha
~ ~
SSE(β ) , onde SSE(β ) é a soma de quadrados residuais para o modelo reduzido.
3º Passo:
Calcular a estatística Fc:
~
SSE(β ) − SSE(βˆ )
Fc = ~ F(m; n − p − 1).
mσˆ 2
No caso do modelo linear as duas abordagens são equivalentes teórica e
numericamente, pois:
~
SSE(β ) − SSE(βˆ ) = Q .
m = Posto (C’) = número de graus de liberdade do resíduo do modelo reduzido menos
o número de graus de liberdade do resíduo do modelo completo.
11
1.10. Modelo sem o Intercepto
Considere agora o modelo estatístico sem a constante de regressão β 0 , isto é, sem o
intercepto:
y i = β1x1i + β 2 x 2i + L + βp x pi + ε i , i = 1, 2, L, n
Posto (X) = p e β1, β 2 ,L,βp são os parâmetros a serem estimados.
O esquema da Análise de Variância da Regressão é apresentado a seguir:
F.V. G.L. S.Q. Q.M. F
V1
Regressão p β̂' X' Y β̂' X' Y / p = V1
V2
Y' Y − βˆ ' X' Y

Resíduo n−p Y' Y − βˆ ' X' Y = V2
n−p
Totalnc n Y' Y
SSE(βˆ ) Y' Y − βˆ ' X' Y

QMR = σˆ 2 = V2 = =
n − Posto( X) n−p
É possível demonstrar que, se os erros εi têm distribuição normal, sob
V1
H: β1 = β 2 = L = βp = 0 , a estatística F = tem distribuição F central com p e n – p graus
V2
de liberdade.
Para este modelo, sem o intercepto, o coeficiente de determinação múltipla é
redefinido, isto é,
SSE βˆ ' X' Y

R2 = 1− = . Neste caso, R 2 ≠ (ryŷ ) 2 .
SQTotal nc Y' Y
SSE = soma de quadrados residuais

SQTotalnc = soma dos quadrados total não corrigida pela média.
O coeficiente de determinação ajustado é dado por:
R 2 = R2 −
p
(n − p)
(
1− R2 )
12
1.11. Um Problema Exemplo – Uso do Programa SAS (PROC REG)
Na Tabela 1.A, apresentamos os valores de uma amostra de 8 observações das
variáveis y, x1 e x2.
Tabela 1.A – Valores de três variáveis em uma amostra de 8 observações
y x1 x2
0,5 -1 -1
0,6 -1 -1
1,0 -1 1
1,5 -1 1
2,0 1 -1
2,5 1 -1
3,0 1 1
3,5 1 1
Supondo o modelo estatístico y i = β 0 + β1x1i + β 2 x 2i + β 3 x1i x 2i + e i com
e i ~ NIID (0, σ 2 ) , pede-se (usar α = 5%):

1. A equação de regressão ajustada;
2. Fazer a análise de variância da regressão e concluir;
3. Calcular o coeficiente de determinação e interpretá-lo;
4. Teste a hipótese H : C' β = K vs. A : C' β ≠ K , onde
H : β1 − 2β 2 = 0 vs. A : β1 − 2β 2 ≠ 0 , através de:
(a) Teste t
Q (C' βˆ − K )' [C' ( X' X) −1C] −1(C' βˆ − K )

(b) Fc = = (1.a)
mσˆ 2 mσˆ 2
SSE(βˆ )
m = Posto (C’) σˆ 2 =
n − Posto( X)
~
(c) Fc = (1.b)
mσˆ 2
5. Testar a hipótese H : β 2 = 2 e β 3 = 1 vs. A : Não H , ou seja,
⎡β ⎤ ⎡2⎤ ⎡β ⎤ ⎡2⎤
H: ⎢ 2⎥ = ⎢ ⎥ vs. A : ⎢ 2 ⎥ ≠ ⎢ ⎥ , através de
⎣β 3 ⎦ ⎣1⎦ ⎣β 3 ⎦ ⎣ 1⎦
(a) Expressão (1.a);
(b) Expressão (1.b);
6. Calcule o intervalo de confiança para β1 ao nível de confiança de 95%.
13
O programa SAS com as análises de variância da regressão para o modelo completo
e modelos reparametrizados encontram-se a seguir.
UM COMENTÁRIO SOBRE O PROGRAMA SAS
SAS/STAT Volume I e II: Este módulo é composto de procedimentos para estatística

avançada, como análise de variância, análise de regressão, análise multivariada, dentre
outras.
Logo após o SAS ser chamado, o sistema gerenciador de telas do SAS é carregado.
Ele irá mostrar as 3 (ou 2) telas primárias. A tela LOG: Janela de acompanhamento da
compilação e execução de programas, através de mensagens referentes à execução de
comandos ou de erros. Deve-se olhar sempre. A tela EDITOR: Tem a finalidade de edição e
gerência de programas e arquivos. A tela OUTPUT: Saída em nível de relatórios. Estas três
telas estão apresentadas a seguir.
14
A seguir apresentamos a solução para o problema exemplo.
15
DM 'output; clear; log; clear;';
options FORMDLIM='_' nodate nonumber;
/* UM EXEMPLO DE REGRESSAO LINEAR */
data adair;
input x1 x2 y;
z1=2*x1+x2; z2=x1*x2; w=y-2*x2-z2;
cards;
-1 -1 0.5
-1 -1 0.6
-1 1 1.0
-1 1 1.5
1 -1 2.0
1 -1 2.5
1 1 3.0
1 1 3.5
;
proc reg;
model y=x1 x2 z2 / r p i clb clm cli influence;
title ' modelo completo ';
output out=saida p=yhat r=resid student=respad h=leverage rstudent=restud;
proc print data=saida;
run;
proc plot data=saida;
plot resid*yhat / vpos=25 vref=0;
plot respad*yhat / vpos=25 vref=0;
run;
proc reg;
model y=z1 z2;
title ' modelo reduzido 1 ';
run;
proc reg;
model w=x1;
title ' modelo reduzido 2 ';
run;
quit;
16
modelo completo
The REG Procedure

Model: MODEL1
Dependent Variable: y
X'X Inverse, Parameter Estimates, and SSE
Variable Intercept x1 x2 z2 y
Intercept 0.125 0 0 0 1.825

x1 0 0.125 0 0 0.925
x2 0 0 0.125 0 0.425
z2 0 0 0 0.125 0.075
y 1.825 0.925 0.425 0.075 0.38
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 3 8.33500 2.77833 29.25 0.0035

Error 4 0.38000 0.09500
Corrected Total 7 8.71500
Root MSE 0.30822 R-Square 0.9564

Dependent Mean 1.82500 Adj R-Sq 0.9237
Coeff Var 16.88881
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits
Intercept 1 1.82500 0.10897 16.75 <.0001 1.52244 2.12756

x1 1 0.92500 0.10897 8.49 0.0011 0.62244 1.22756
x2 1 0.42500 0.10897 3.90 0.0175 0.12244 0.72756
z2 1 0.07500 0.10897 0.69 0.5291 -0.22756 0.37756
COMENTÁRIOS:
MODELO COMPLETO: y i = β 0 + β1x1i + β 2 x 2i + β 3 x1i x 2i + e i
EQUAÇÃO AJUSTADA: ŷ i = 1,8250 + 0,9250 x1i + 0,4250 x 2i + 0,0750 x1i x 2i
R2=95,64%
Definição de Valor-P (“P-Value”)
Chama-se nível descritivo (ou nível probabilístico ou ainda valor-P) ao menor nível de
significância α , para o qual o resultado observado seria declarado significativo, isto é, para o
qual rejeitaríamos a hipótese que está sendo considerada.
O nível descritivo associado ao resultado de um teste é usualmente muito mais
informativo do que uma simples afirmação sobre se uma dada hipótese deve ou não ser rejeitada
a um determinado nível de significância.
17
modelo completo
The REG Procedure

Model: MODEL1
Output Statistics
Dependent Predicted Std Error

Obs Variable Value Mean Predict 95% CL Mean 95% CL Predict Residual
1 0.5000 0.5500 0.2179 -0.0551 1.1551 -0.4981 1.5981 -0.0500

2 0.6000 0.5500 0.2179 -0.0551 1.1551 -0.4981 1.5981 0.0500
3 1.0000 1.2500 0.2179 0.6449 1.8551 0.2019 2.2981 -0.2500
4 1.5000 1.2500 0.2179 0.6449 1.8551 0.2019 2.2981 0.2500
5 2.0000 2.2500 0.2179 1.6449 2.8551 1.2019 3.2981 -0.2500
6 2.5000 2.2500 0.2179 1.6449 2.8551 1.2019 3.2981 0.2500
7 3.0000 3.2500 0.2179 2.6449 3.8551 2.2019 4.2981 -0.2500
8 3.5000 3.2500 0.2179 2.6449 3.8551 2.2019 4.2981 0.2500
Output Statistics
Std Error Student Cook's Hat Diag Cov

Obs Residual Residual -2-1 0 1 2 D RStudent H Ratio DFFITS
1 0.218 -0.229 | | | 0.013 -0.2000 0.5000 5.9948 -0.2000

2 0.218 0.229 | | | 0.013 0.2000 0.5000 5.9948 0.2000
3 0.218 -1.147 | **| | 0.329 -1.2127 0.5000 1.2818 -1.2127
4 0.218 1.147 | |** | 0.329 1.2127 0.5000 1.2818 1.2127
5 0.218 -1.147 | **| | 0.329 -1.2127 0.5000 1.2818 -1.2127
6 0.218 1.147 | |** | 0.329 1.2127 0.5000 1.2818 1.2127
7 0.218 -1.147 | **| | 0.329 -1.2127 0.5000 1.2818 -1.2127
8 0.218 1.147 | |** | 0.329 1.2127 0.5000 1.2818 1.2127
Output Statistics
-------------------DFBETAS-------------------
Obs Intercept x1 x2 z2
1 -0.1000 0.1000 0.1000 -0.1000

2 0.1000 -0.1000 -0.1000 0.1000
3 -0.6063 0.6063 -0.6063 0.6063
4 0.6063 -0.6063 0.6063 -0.6063
5 -0.6063 -0.6063 0.6063 0.6063
6 0.6063 0.6063 -0.6063 -0.6063
7 -0.6063 -0.6063 -0.6063 -0.6063
8 0.6063 0.6063 0.6063 0.6063
Sum of Residuals 0
Sum of Squared Residuals 0.38000
Predicted Residual SS (PRESS) 1.52000
18
modelo completo
Obs x1 x2 y z1 z2 w yhat resid respad leverage restud
1 -1 -1 0.5 -3 1 1.5 0.55 -0.05 -0.22942 0.5 -0.20000

2 -1 -1 0.6 -3 1 1.6 0.55 0.05 0.22942 0.5 0.20000
3 -1 1 1.0 -1 -1 0.0 1.25 -0.25 -1.14708 0.5 -1.21268
4 -1 1 1.5 -1 -1 0.5 1.25 0.25 1.14708 0.5 1.21268
5 1 -1 2.0 1 -1 5.0 2.25 -0.25 -1.14708 0.5 -1.21268
6 1 -1 2.5 1 -1 5.5 2.25 0.25 1.14708 0.5 1.21268
7 1 1 3.0 3 1 0.0 3.25 -0.25 -1.14708 0.5 -1.21268
8 1 1 3.5 3 1 0.5 3.25 0.25 1.14708 0.5 1.21268
19
modelo completo
Plot of resid*yhat. Legend: A = 1 obs, B = 2 obs, etc.
‚
‚
‚
0.25 ˆ A A A
‚
‚
‚
0.15 ˆ
R ‚
e ‚
s ‚
i 0.05 ˆ A
d ‚
u ‚ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
a ‚
l -0.05 ˆ A
‚
‚
‚
-0.15 ˆ
‚
‚
‚
-0.25 ˆ A A A
‚
Šƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒ
0.5 1.0 1.5 2.0 2.5 3.0 3.5
Predicted Value of y
20
modelo completo
Plot of respad*yhat. Legend: A = 1 obs, B = 2 obs, etc.
‚
‚
S ‚
t 1.147 ˆ A A A
u ‚
d ‚
e ‚
n 0.688 ˆ
t ‚
i ‚
z ‚
e 0.229 ˆ A
d ‚
‚ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
R ‚
e -0.229 ˆ A
s ‚
i ‚
d ‚
u -0.688 ˆ
a ‚
l ‚
‚
-1.147 ˆ A A A
‚
Šˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒ
0.5 1.0 1.5 2.0 2.5 3.0 3.5
Predicted Value of y
21
modelo reduzido 1
The REG Procedure

Model: MODEL1
Sum of Mean
Model 2 8.32600 4.16300 53.51 0.0004

Error 5 0.38900 0.07780

Coeff Var 15.28364
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 1.82500 0.09862 18.51 <.0001

z1 1 0.45500 0.04410 10.32 0.0001
z2 1 0.07500 0.09862 0.76 0.4812
COMENTÁRIOS:
Teste: H : β1 − 2β 2 = 0 vs. A : β1 − 2β 2 ≠ 0
~
Fc = ~ F(m ; n − Posto( X))
mσˆ 2
Modelo Completo: y i = β 0 + β1x1i + β 2 x 2i + β 3 x1i x 2i + e i
Fazendo a reparametrização sujeito a H : β1 − 2β 2 = 0, isto é, H : β1 = 2β 2 , temos que o

modelo reduzido é dado por:
(0,3890 − 0,3800 )
FCalc = = 0,0947 n.s.
1 (0,0950 )
y i = β 0 + 2β 2 x1i + β 2 x 2i + β 3 x1i x 2i + e i
F5% (1; 4) = 7,71
y i = β 0 + β 2 (2x1i + x 2i ) + β 3 x1i x 2i + e i
(n.s. P > 0,05)
ou melhor, Não se rejeita H para α = 5%.
y i = α 0 + α1z1i + α 2 z 2i + ui
OBS: Para m=1, tem-se que F=t2.
com z1i = 2x1i + x 2i e z 2i = x1i x 2i
Existem muitos modelos reduzidos, mas todos conduzem à mesma soma de

quadrado residual. Isto em modelos lineares.
22
modelo reduzido 2
The REG Procedure

Model: MODEL1
Dependent Variable: w
Sum of Mean
Model 1 6.84500 6.84500 1.52 0.2641

Error 6 27.07000 4.51167

Coeff Var 116.38731
Parameter Estimates
Parameter Standard
Intercept 1 1.82500 0.75097 2.43 0.0511

x1 1 0.92500 0.75097 1.23 0.2641
COMENTÁRIOS:
Teste:
H : β2 = 2 e β 3 = 1 vs. A : Não H
⎡β ⎤ ⎡2⎤ ⎡β ⎤ ⎡2⎤
Isto é, H : ⎢ 2 ⎥ = ⎢ ⎥ vs. A : ⎢ 2 ⎥ ≠ ⎢ ⎥
⎣β 3 ⎦ ⎣ 1⎦ ⎣β 3 ⎦ ⎣ 1⎦
~
Fc = ~ F(m ; n − Posto( X))
mσˆ 2
Modelo Completo: y i = β 0 + β1x1i + β 2 x 2i + β 3 x1i x 2i + e i
Fazendo a reparametrização sujeito a H : β 2 = 2 e β 3 = 1 , temos que o modelo

reduzido é dado por:
(27,07000 − 0,38000 )
FCalc = = 140,474 *
2 (0,0950 )
y i = β 0 + β1x1i + 2x 2i + x1i x 2i + e i
F5% (2 ; 4) = 6,94
y i − 2x 2i − x1i x 2i = β 0 + β1x1i + ei
* P < 0,05
ou melhor, Rejeita-se H para α = 5%.
w i = γ 0 + γ1x1i + ui
com w i = y i − 2x 2i − x1i x 2i = y i − 2x 2i − z 2i
23

/* UM EXEMPLO DE REGRESSAO LINEAR */
data adair;
input x1 x2 y;
x3=x1*x2; Programa para o exemplo
cards; anterior usando o comando
-1 -1 0.5 test
-1 -1 0.6
-1 1 1.0
-1 1 1.5
1 -1 2.0
1 -1 2.5
1 1 3.0
1 1 3.5
;
/* TESTES USANDO A OPÇÃO TEST */
proc reg;
model y=x1 x2 x3 /i clb;
test1: test x1-2*x2=0 / print; /* testa beta1 - 2 beta2 = 0 */
test2: test x2=2, x3=1 / print; /* testa beta2=2 e beta3=1 */
test3: test x1=0, x2=0, x3=0 / print; /* testa beta1=beta2=beta3=0 */
test4: test intercept=0 /print; /* testa beta0 = 0 */
run;
quit;
24
The SAS System
The REG Procedure

Model: MODEL1
X'X Inverse, Parameter Estimates, and SSE
Variable Intercept x1 x2 x3 y
Intercept 0.125 0 0 0 1.825

x1 0 0.125 0 0 0.925
x2 0 0 0.125 0 0.425
x3 0 0 0 0.125 0.075
y 1.825 0.925 0.425 0.075 0.38
Sum of Mean
Model 3 8.33500 2.77833 29.25 0.0035

Error 4 0.38000 0.09500

Coeff Var 16.88881
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits
Intercept 1 1.82500 0.10897 16.75 <.0001 1.52244 2.12756

x1 1 0.92500 0.10897 8.49 0.0011 0.62244 1.22756
x2 1 0.42500 0.10897 3.90 0.0175 0.12244 0.72756
x3 1 0.07500 0.10897 0.69 0.5291 -0.22756 0.37756
25
The SAS System
The REG Procedure

Model: MODEL1
Test test1 details
L Ginv(X'X) L' Lb-c
0.625 0.075
Inv(L Ginv(X'X) L') Inv()(Lb-c)
1.6 0.12
Test test1 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 0.00900 0.09 0.7736

Denominator 4 0.09500
The SAS System
The REG Procedure

Model: MODEL1
Test test2 details
L Ginv(X'X) L' Lb-c
0.125 0 -1.575
0 0.125 -0.925
8 0 -12.6
0 8 -7.4
Mean
Numerator 2 13.34500 140.47 0.0002

26
The SAS System
The REG Procedure

Model: MODEL1
Test test3 details
L Ginv(X'X) L' Lb-c
0.125 0 0 0.925
0 0.125 0 0.425
0 0 0.125 0.075
8 0 0 7.4
0 8 0 3.4
0 0 8 0.6
Mean
Numerator 3 2.77833 29.25 0.0035

The SAS System
The REG Procedure

Model: MODEL1
Test test4 details
L Ginv(X'X) L' Lb-c
0.125 1.825
8 14.6
Mean
Numerator 1 26.64500 280.47 <.0001

27

data regrenoi;
input x y;
cards; Exemplo de um modelo de regressão
2 6 linear simples com e sem a constante de
4 10 regressão, isto é, com e sem o intercepto.
6 15
8 20
10 30
;
proc reg;
model y=x; /* Modelo com o intercepto */
run;
proc reg;
model y=x / noint; /* Modelo sem o intercepto */
run;
quit;
Observação: Muito cuidado deve ser tomado na interpretação do R2 em modelos sem

intercepto, isto é, sem a constante β 0 . Pode ocorrer que o valor do coeficiente de
determinação, na versão sem intercepto, domine em muito o valor correspondente ao caso
com intercepto, em modelos equivalentes. Pode-se ter dois modelos (um com intercepto e
outro sem intercepto) absolutamente equivalentes do ponto de vista de previsão, gerando os
mesmos valores preditos com coeficientes de determinação completamente diferentes.
28
The SAS System
The REG Procedure

Model: MODEL1
Sum of Mean
Model 1 336.40000 336.40000 81.39 0.0029

Error 3 12.40000 4.13333

Coeff Var 12.54975
Parameter Estimates
Parameter Standard
Intercept 1 -1.20000 2.13229 -0.56 0.6129

x 1 2.90000 0.32146 9.02 0.0029
29
The SAS System
The REG Procedure

Model: MODEL1
NOTE: No intercept in model. R-Square is redefined.
Sum of Mean
Model 1 1647.29091 1647.29091 480.64 <.0001

Error 4 13.70909 3.42727
Uncorrected Total 5 1661.00000

Coeff Var 11.42771
Parameter Estimates
Parameter Standard
x 1 2.73636 0.12481 21.92 <.0001
30
1.12. Um Problema Proposto (Usar α = 5%)
Exemplo de uma regressão linear múltipla com duas variáveis independentes
Na Tabela 1.B apresentamos os valores de uma amostra de 6 observações das
variáveis y, x 1 e x 2 .
Tabela 1.B – Valores de três variáveis em uma amostra de 6 observações.
y x1 x2
1,5 0 0
6,5 1 2
10,0 1 4
11,0 2 2
11,5 2 4
16,5 3 6
Considerando os dados da Tabela 1.B e o modelo estatístico
y i = β 0 + β1x1i + β 2 x 2i + e i , com e i ~ NIID(0, σ 2 ) , pede-se:
1. A equação de regressão ajustada;
2. A análise de variância da regressão e concluir;
3. O coeficiente de determinação e interpretá-lo;
4. O teste t para cada um dos coeficientes β1 e β 2 ;
5. Testar a hipótese H : β1 − 2β 2 = 0 vs. A : β1 − 2β 2 ≠ 0 , pelo teste t, e também pelo
teste F utilizando as expressões (1.a) e (1.b); (Note que, neste caso: t2=F)
6. Testar a hipótese H : β1 = β 2 = 0 vs. A : Não H , através das expressões (1.a) e
(1.b);
7. Testar a hipótese H : β1 = 4 e β 2 = 2 vs. A : Não H , através das expressões (1.a)
e (1.b);
8. Calcule o intervalo de confiança para β 2 ao nível de confiança de 95%.
31
Regressão Linear e Não-Linear Regazzi, A. J .
CAPÍTULO 2 - INTRODUÇÃO AOS MODELOS DE REGRESSÃO NÃO-LINEAR
2.1. Introdução
Modelos de regressão linear têm aplicações nas mais diversas áreas do
conhecimento. Entretanto, regressão linear não é adequada para todos os problemas porque
em muitas situações a variável resposta e as variáveis regressoras estão relacionadas por
meio de uma função não-linear conhecida. A seguir apresentaremos apenas uma introdução
aos modelos de regressão não-linear. Para o leitor interessado em maiores detalhes, são
referências úteis: RATKOWSKY (1983), GALLANT (1987), BATES & WATTS (1988),
CORDEIRO & PAULA (1989), MYERS (1990), DRAPER & SMITH (1998), SOUZA (1998),
dentre outros.
2.2. O Modelo de Regressão Não-Linear
Seja o modelo de regressão não-linear escrito como:
y i = f(x i , θ0 ) + ε i , i = 1, ... , n (2.a)
onde yi representa a observação da variável dependente, f (x, θ ) é a função esperança ou
função resposta conhecida, xi representa um vetor de observações em k variáveis
[ ]
regressoras ou variáveis exógenas, θ0 = θ10 , θ02 ,L, θp0 ' é um vetor de parâmetros p
dimensional desconhecido e ε i representa o erro experimental suposto NIID com média
zero e variância desconhecida σ 2 . Escreve-se θ 0 para enfatizar que é o verdadeiro, mas
desconhecido valor do vetor de parâmetros; θ é usado para denotar exemplos quando o
vetor de parâmetros é tratado como uma variável, como por exemplo, na diferenciação. Em
modelos de regressão não-linear o número de variáveis exógenas não está diretamente
relacionado ao número de parâmetros.
32
Exemplo:
Seja a função resposta
f(x, θ) = θ1x1 + θ 2 x 2 + θ 4 e θ3x3
O vetor das variáveis exógenas é
⎡x 1 ⎤
⎢ ⎥
x = ⎢x 2 ⎥
⎢⎣ x 3 ⎥⎦
e o vetor de parâmetros é
⎡θ 1 ⎤
⎢ ⎥
θ2
θ =⎢ ⎥
⎢θ 3 ⎥
⎢ ⎥
⎢⎣θ 4 ⎥⎦
Em modelos de regressão não-linear, pelo menos uma das derivadas da função de
resposta com respeito aos parâmetros depende de pelo menos um dos parâmetros. Para
ilustrar este ponto, considere um modelo de regressão linear:
y i = β 0 + β1x1i + β 2 x 2 i + L + βp x p i + ε i
com função resposta
p
f (x i , β ) = β 0 + ∑ β j x ji . Agora
j =1
∂f (x i ,β)
= x ji , j=0,1,…,p
∂β j
onde x0i≡1. Note que no caso linear as derivadas não são funções dos β’s. Considere agora
o modelo não-linear:
y i = f (x i , θ ) + ε i
= e −θx i + ε i
33
para o qual
df (x i , θ)
= − x ie − θx i
dθ
Uma vez que a derivada é uma função de θ, o modelo é não-linear. Nós usamos o símbolo θ
para os parâmetros no modelo não-linear para enfatizar a diferença entre o caso linear e o
não-linear.
2.3. Mínimos Quadrados Não-Lineares
Escreva o modelo de regressão não-linear na forma
y = f(θ 0 ) + ε
onde y tem componentes yi, f (θ 0 ) tem componentes f ( x i ,θ 0 ) e ε tem componentes ε i .
A função de mínimos quadrados para um modelo não-linear é
n
SSE(θ ) = ∑ [y i − f ( x i , θ)]
2
(2.b)
i =1
ou, então em notação de vetor

2
SSE(θ) = y − f (θ)
SSE(θ) = [y − f (θ)] [y − f (θ)]

'
onde y − f (θ ) é a norma euclidiana de y − f (θ ) .
()
O estimador θ̂ de mínimos quadrados de θ 0 é obtido mediante a pesquisa do mínimo (em
Θ, θ 0 ∈ Θ ) da soma de quadrados residuais dada por (2.b).
Por analogia com o modelo linear, como estimador de σ 2 , toma-se
σˆ 2 =
()
SSE θˆ
n−p
n = número de observações
p = número de parâmetros
34
É claro que outra alternativa seria
ˆ
~ 2 = SSE θ
σ
()
n
( )
~ 2 define o estimador de máxima verossimilhança
Neste caso, com erros normais, o par θˆ, σ
( )
de θ0 , σ 2 . No caso do modelo linear, isto faz com que os estimadores dos parâmetros
tenham propriedades ótimas, como por exemplo, variância mínima. No caso não-linear nós
não podemos fazer afirmações gerais sobre as propriedades dos estimadores, exceto para
grandes amostras (que são chamados resultados assintóticos). Por exemplo, propriedades
de não tendenciosidade e variância mínima são obtidas no limite quando o tamanho
amostral for suficientemente grande. Apenas procedimentos aproximados para os testes
estatísticos e intervalos de confiança são aplicados.
2.4. Transformação para um Modelo Linear
Em muitos casos, é importante considerar uma transformação que induza a
linearidade no modelo. Por exemplo, considere o modelo
y i = θ 1e θ 2 x i + ε i (2.c)
onde a função resposta é uma função exponencial. Note que nós podemos linearizar a
função resposta usando logaritmo, e assim reescrever o modelo como
y i = ln θ 1 + θ 2 x i + ε i
= β 0 + β1x i + ε i (2.d)
e usar regressão linear simples para estimar β 0 e β 1 . Entretanto, as estimativas de mínimos
quadrados dos parâmetros em (2.d), em geral, não são equivalentes às estimativas dos
parâmetros no modelo original não-linear. A razão é que os mínimos quadrados no modelo
original não-linear, implica na minimização da soma de quadrados residuais em y, ao passo
35
que no modelo transformado (2.d) nós estamos minimizando a soma de quadrados residuais
em ln y.
Note que em (2.c) a estrutura de erros é aditiva, e por logaritmo não se obtém o
modelo em (2.d). Se a estrutura de erros for multiplicativa, isto é,
y i = θ 1e θ 2 x i ε i (2.e)
então a aplicação do logaritmo será apropriada, uma vez que
ln y i = ln θ 1 + θ 2 x i + ln ε i
y i* = β 0 + β 1 x i + ε i* (2.f)
e se ε i* segue uma distribuição normal, todas as propriedades e inferências associadas ao
modelo de regressão linear padrão poderão ser aplicadas.
Um modelo não-linear que pode ser transformado para uma forma linear equivalente
é dito intrinsecamente linear. Como exemplo temos o modelo (2.e). Contudo a questão gira
em torno da estrutura de erros; a saber, aplicar as suposições padrão nos erros para o
modelo original não-linear ou para o modelo linearizado? Em muitos casos, esta questão
não é fácil de responder.
Vamos considerar a seguir, algumas funções resposta com apenas uma variável
independente e mostrar o gráfico correspondente.
i) Função Potência
y = θ1x θ 2
Considerando a transformação y ′ = log y e x ′ = log x ,a forma linear resultante é dada
por:
y ′ = log θ1 + θ 2 x ′
ou
y ′ = β 0 + β1x ′ , onde β 0 = log θ1
36
Gráficos:
( θ1, θ2, x todos > 0 ) ( θ1, x > 0, θ2 < 0 )

y y
θ2>1 -1<θ2<0
θ2=1 θ2=-1 θ <-1
2
0<θ2<1
x x
ii) Função Exponencial
y = θ1e θ 2 x
Considerando a transformação logarítmica y ′ = ln y , a forma linear resultante é dada
por
y ′ = ln θ1 + θ 2 x
ou
y ′ = β 0 + β1x , onde β 0 = ln θ1
Gráficos:
θ2>0 θ2<0
y y
x x
37
iii) Função Exponencial Inversa
θ2
y = θ1e x
Considerando a transformação logarítmica em y e a transformação inversa em x, isto
1
é, y ′ = ln y e x ′ = , a forma linear resultante é dada por
x
y ′ = ln θ1 + θ 2 x ′
ou
y ′ = β 0 + β1x ′ , onde β 0 = ln θ1
β1 = θ 2
Gráficos:
y y
eβo
θ2>0
θ2<0
eβo
x x
iv) Função Hiperbólica
A verdadeira forma funcional da hipérbole é não-linear nos parâmetros do modelo. A
equação é dada por:
x
y=
θ1 + θ 2 x
38
A forma linearizada envolve a transformação inversa em ambas as variáveis, isto é,
1
y′ = e
y
1
x′ = , e é dada por
x
y ′ = θ 2 + θ1x ′ ou y ′ = β 0 + β1x ′ .
Pode-se verificar facilmente que β 0 = θ 2 e β1 = θ1 . A assíntota que pode ser de interesse
para a análise está indicada pela linha tracejada na figura a seguir.
Gráficos:
Hipérbole com curvatura Hipérbole com curvatura

negativa positiva
y y
1/θ2
θ1>0
θ1<0
1/θ2
x x
Para a função hipérbole dada por
1
y=
θ1 + θ 2 x
39
1
e considerando a transformação inversa em y, isto é, y ′ = , tem-se que a forma linear
y
resultante é dada por
y ′ = θ1 + θ 2 x ′
ou y ′ = β 0 + β1x , onde β 0 = θ1 e β1 = θ 2 .
y
Gráfico:
θ1>0
θ2>0
O ajustamento de um modelo de regressão não-linear requer valores iniciais dos
parâmetros do modelo. Para os modelos intrinsecamente lineares, pode-se usar a regressão
linear na obtenção das estimativas iniciais a serem utilizadas nos métodos iterativos.
Quando transformações tais como as descritas anteriormente são empregadas, os
estimadores de mínimos quadrados β’s têm propriedades de mínimos quadrados com
respeito aos dados transformados e não aos dados originais.
Exemplo 2.1.
BATES & WATTS (1988), usaram o modelo Michaelis-Menten para cinética química
para relacionar a velocidade inicial de uma reação enzimática (y) em função da
concentração de substrato (x), cujos dados estão apresentados na Tabela 2.A. O modelo é
θ 1x i
yi = +ε i
xi + θ 2
40
Tabela 2.A. – Velocidade de reação e concentração de substrato para o experimento com

Puromycin
i xi yi
1 0,02 76
2 0,02 47
3 0,06 97
4 0,06 107
5 0,11 123
6 0,11 139
7 0,22 159
8 0,22 152
9 0,56 191
10 0,56 201
11 1,10 207
12 1,10 200
250
200
Velocidade
150
100
50
0
0 0,5 1 1,5
Concentração
Figura 2.A. – Dispersão dos dados de velocidade da reação versus concentração de
substrato para o experimento com Puromycin
Nós notamos que a função resposta pode ser linearizada facilmente, uma vez que
1 x +θ2 1 θ2 1
= i = +
f(x i ,θ) θ 1x i θ 1 θ 1 xi
= β 0 + β 1u i .
41
Assim, nós somos induzidos a ajustar o modelo linear
y i* = β 0 + β 1u i + ε i
1 1
onde y i* = e ui = . A equação de regressão ajustada pelo método dos mínimos
yi xi
quadrados é (Versão SAS 6.12).
ŷ i* = 0,005107 + 0,000247 ui
0,025 250
0,02 200
Velocidade
-1
0,015 150
Velocidade
100
0,01
50
0,005
0
0 0 0,5 1 1,5
0 10 20 30 40 50 60 Concentração
-1
Concentração
(a) (b)
Figura 2.B. – (a) Dispersão dos dados do inverso da velocidade versus o inverso da
concentração para os dados de puromycin. (b) Curva ajustada na escala
original.
A Figura 2.B (a) mostra a dispersão dos dados transformados yi* e ui com a linha reta
ajustada sobreposta. Como há repetições nos dados, é fácil verificar na Figura 2.A que a
variância dos dados originais é aproximadamente constante, enquanto que a Figura 2.B (a)
mostra que na escala transformada a suposição de variância constante é irreal.
Agora, dado que
1 θ2
β0 = e β1 =
θ1 θ1
nós temos
42
1 θ2
0,005107 = 0,000247 =
θ1 θ1
e assim podemos estimar θ 1 e θ 2 no modelo original como
θˆ 1 = 195,81 e θˆ 2 = 0,0484 1
A Figura 2.B(b) mostra a curva ajustada juntamente com os dados na escala original.
A variância dos pontos repetidos foi distorcida pela transformação, assim fez a baixa
concentração (alta concentração recíproca) dominar o ajuste dos mínimos quadrados, e o
modelo não se ajustou bem aos dados em altas concentrações.
2.5. Estimação de Parâmetros em um Sistema Não-Linear
Seja o modelo de regressão não-linear escrito como
y i = f(x i ,θ 0 ) + ε i i = 1,..., n
cujos termos foram definidos no item 2.2.
Seja a seguinte função resposta
θ 1x
f(x,θ) =
x +θ2
Neste caso, só temos uma variável independente x, e o vetor de parâmetros é
⎡θ 1 ⎤
θ =⎢ ⎥
⎣θ 2 ⎦
O conjunto de respostas observadas e a variável independente para este modelo
encontram-se na Tabela 2.A. A primeira observação tem resposta esperada
0,02 θ 10
f(x 1, θ 0 ) =
0,02 + θ 02
Similarmente, a segunda observação tem resposta esperada
0,02 θ 10
f(x 2 , θ 0 ) = ,
0,02 + θ 02
43
e assim por diante.
Seja agora o modelo de regressão não-linear escrito na forma
y = f(θ 0 ) + ε
em que
⎡y1 ⎤ ⎡ f(x 1,θ) ⎤ ⎡ε 1 ⎤

⎢ ⎥ ⎢ ⎥ ⎢ ⎥
y f(x 2 ,θ) ⎥ ε
y = ⎢ 2⎥, f(θ ) = ⎢ e ε = ⎢ 2⎥
⎢M ⎥ ⎢ M ⎥ ⎢M ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣y n ⎦ ⎣f(x n ,θ) ⎦ ⎣ε n ⎦
()
O estimador θ̂ de mínimos quadrados de θ 0 é obtido mediante a pesquisa do
mínimo (em Θ, θ 0 ∈ Θ ) da soma de quadrados residuais dadas por
SSE(θ ) = ∑ [y i − f ( x i ,θ )] ,
2
ou em notação de vetor
2
SSE(θ ) = y − f (θ )
= [y − f(θ )] [y − f(θ )]
'
Para que possamos entender o processo de derivação para obtenção dos
estimadores de mínimos quadrados, vamos apresentar a notação utilizada para o cálculo de
derivadas de matrizes.
Seja f (θ ) uma função vetor coluna n x 1 de um argumento p dimensional θ , dado por
44
⎡ f1 (θ ) ⎤
⎢ ⎥
⎢ f 2 (θ )⎥
f(θ )=
⎢ M ⎥
⎢ ⎥
f (θ )⎦ 1
n⎣ n
A matriz Jacobiana de f (θ ) é F(θ ) , e é dada por
⎡ ∂f1(θ) ∂f1(θ) ∂f1(θ) ⎤

⎢ ∂θ L
1 ∂θ 2 ∂θp ⎥
⎢ ⎥
⎢ ∂f ( θ ) ∂f2 (θ) ∂f2 (θ) ⎥
∂f ( θ ) ⎢ 2 L
F(θ) = = ∂θ1 ∂θ 2 ∂θp ⎥
∂θ' ⎢ ⎥
⎢ M M M ⎥
⎢ ∂fn (θ) ∂fn (θ) ∂fn (θ) ⎥
⎢ ∂θ L
⎣ 1 ∂θ 2 ∂θp ⎥⎦
n p
Fazendo h′(θ) ser uma função vetor 1xn, onde h ′(θ)=1 [h 1 (θ), h 2 (θ), L, h n (θ)]n , então,
⎡ ∂h1(θ) ∂h 2 (θ) ∂hn (θ) ⎤

⎢ ∂θ L
1 ∂θ1 ∂θ1 ⎥
⎢ ⎥
∂h (θ) ∂h 2 (θ) ∂hn (θ) ⎥
∂h ′(θ) ⎢ 1 L
= ⎢ ∂θ 2 ∂θ 2 ∂θ 2 ⎥
∂( θ ) ⎢ M M M ⎥
⎢ ⎥
⎢ ∂h1(θ) ∂h 2 (θ)
L
∂hn (θ) ⎥
⎢⎣ ∂θp ∂θ p ∂θp ⎥⎦
n p
Se f (θ ) e h′(θ) são como acima, então
∂h′(θ)f (θ) ⎛ ∂f (θ) ⎞ ⎛ ∂h(θ) ⎞

= h′(θ)⎜ ⎟ + f ′(θ)⎜ ⎟
∂θ′ ⎝ ∂θ′ ⎠ ⎝ ∂θ′ ⎠
O estimador de mínimos quadrados θˆ satisfaz a equação
∂SSE(θ)
=∅
∂θ′
Sendo,
∂SSE(θ ) ∂
= [y − f (θ)]′ [y − f (θ)]
∂θ′ ∂θ′
45
∂
= [y − f (θ )]′ [y − f (θ)] + [y − f (θ)]′ ∂ [y − f (θ)]
∂θ′ ∂θ′
⎛ ∂f (θ) ⎞
= 2[y − f (θ)]′ ⎜ − ⎟
⎝ ∂θ′ ⎠
= −2[y − f (θ)]′ F(θ) ,
então deve-se ter
[ ( )] ( )
− 2 y − f θˆ ′F θˆ = φ
( )[ ( )]
− 2F′ θˆ y − f θˆ = φ
( )[ ( )]
F′ θˆ y − f θˆ = φ
⎡ ∂f1(θˆ ) ∂f2 (θˆ ) ∂fn (θˆ ) ⎤

⎢ ˆ L ⎥
⎢ ∂θ1 ∂θˆ1 ∂θˆ 1 ⎥ ⎛ ⎡ y ⎤ ⎡ f θˆ ⎤ ⎞ ⎡0⎤
1 ()
∂fn (θˆ ) ⎥ ⎜ ⎢ ⎥ ⎢ ˆ ⎥ ⎟ ⎢ ⎥
1
⎢ ∂f1(θˆ ) ∂f2 (θˆ )
⎢ ˆ
∂θˆ 2
L ⎥ ⎜ y2
∂θˆ 2 ⎥ ⋅ ⎜ ⎢ ⎥ − ⎢
⎢f2 θ ⎥ ⎟ = ⎢0⎥ ()
⎢ ∂θ 2 ⎢ M ⎥ M ⎥⎟ ⎢M⎥
⎢ M M M ⎥ ⎢ ⎥ ⎢⎜ ⎥ ⎟⎟ ⎢ ⎥
⎢ ∂f1(θˆ ) ∂f2 (θˆ )
⎜ ˆ
∂fn (θˆ ) ⎥ ⎝ ⎣ yn ⎦ ⎣⎢ fn θ ⎦⎥ ⎠ ⎣0⎦ ()
⎢ ˆ L ⎥
⎣⎢ ∂θp ∂θˆ p ∂θˆ p ⎦⎥
Estas equações são não-lineares nos estimadores dos parâmetros e em geral não
apresentam fórmulas explicitas, sendo as estimativas obtidas por meio de processos
iterativos.
Vamos ilustrar por meio do nosso exemplo as etapas realizadas até aqui:
O modelo é dado por y = f(θ 0 ) + ε . A aplicação direta das definições de y e f (θ )
produz
46
⎡ y1 ⎤ ⎡ 76 ⎤
⎢y ⎥ ⎢
47 ⎥⎥
y = ⎢ 2⎥ = ⎢
⎢ M ⎥ ⎢ M ⎥
⎢ ⎥ ⎢ ⎥
⎣ y n ⎦ ⎣200 ⎦
⎡ 0,02 θ1 ⎤
⎢ 0,02 + θ ⎥
⎢ 2⎥
⎡ f (x1, θ)⎤ 0,02 θ1 ⎥
⎢f (x , θ)⎥ ⎢
⎢ 0,02 + θ 2 ⎥
f (θ) = ⎢ 2 ⎥ = ⎢ ⎥
⎢ M ⎥
⎢ ⎥ ⎢ M ⎥
f (
⎣ n ⎦x , θ ) ⎢ ⎥
⎢ 1,10 θ1 ⎥
⎢ ⎥
12 ⎣
1,10 + θ 2 ⎦1
Logo,
∂f (x, θ) ∂ ⎛ θ1 x ⎞ x
= ⎜⎜ ⎟⎟ =
∂θ1 ∂θ1 ⎝ x + θ 2 ⎠ x + θ 2
∂f (x, θ) ∂ ⎛ θ1 x ⎞ − θ1 x
= ⎜⎜ ⎟⎟ =
∂θ 2 ∂θ 2 ⎝ x + θ 2 ⎠ (x + θ )2
2
A matriz Jacobiana de f (θ ) é
⎡ 0,02 − 0,02θ1 ⎤
⎢ 0,02 + θ
⎢ 2 (0,02 + θ2 )2 ⎥⎥
⎢ 0,02 − 0,02θ1 ⎥
⎢ 0,02 + θ
F(θ)= ⎢
2 (0,02 + θ2 )2 ⎥⎥
⎢ ⎥
⎢ M M ⎥
⎢ ⎥
⎢ 1,10 − 1,10θ1 ⎥
⎢ 1,10 + θ
12 ⎣
2 (1,10 + θ2 )2 ⎥⎦ 2
As equações são dadas por
( )[ ( )]
F ' θˆ y − f θˆ = φ
47
⎛ ⎡ 0,02 θˆ 1 ⎤ ⎞
⎜ ⎢ ⎟
⎜ 0,02 + θˆ2 ⎥⎟
⎢ ⎥
⎡ 0,02 0,02 1,10 ⎤ ⎜ ⎡ 76 ⎤ ⎢ ⎟
⎢ 0,02 + θˆ L ⎥ ⎜ ⎢ ⎥ 0,02 θ1 ⎥ ⎟
ˆ
0,02 + θˆ 2 ˆ
1,10 + θ2 ⎢ ⎥
⎢ 2 ⎥ ⎜ ⎢ 47 ⎥ − ⎢ 0,02 + θˆ ⎥ ⎟ = ⎡0⎤
⎢ − 0,02 θ1 ˆ − 0,02 θˆ 1 ˆ
− 1,10 θ1 ⎥ ⎜ ⎢ M ⎥ 2 ⎢ ⎥
L ⎢ ⎥ ⎟ ⎣0⎦
⎢ 2 ⎥ ⎜⎢
(
⎢⎣ 0,02 + θˆ 2
2
) (0,02 + θˆ 2 )2 ( ) ⎥
1,10 + θˆ 2 ⎥⎦ ⎜ ⎣200 ⎦ ⎢
M
⎢ 1,10 θˆ ⎥ ⎟
⎥⎟
⎜ ⎢ 1 ⎥⎟
⎜ ˆ ⎟
⎝ ⎣⎢ 1,10 + θ2 ⎦⎥ ⎠
Resulta que o vetor residual εˆ = y − f (θˆ ) satisfaz F' (θˆ ) εˆ =∅ e é, portanto, ortogonal às
colunas da matriz Jacobiana F(θ ) calculada em θ = θˆ . Em regressão linear F θˆ = X e ()

()
ε̂ ∈ C⊥ (X). A identificação entre X no caso linear e F θ̂ no caso não-linear vale em geral, isto
é, todas as expressões que se obtém no estudo inferência do modelo linear com erros
normais têm uma contrapartida no caso não-linear que se obtém por intermédio da
substituição da matriz X por F θ̂ . ()

Método de Gauss-Newton
Existem vários procedimentos numéricos para resolver problemas de mínimos
quadrados não-lineares. Um método amplamente usado em algoritmos computacionais para
regressão não-linear é a linearização da função não-linear conhecido por método iterativo de
Gauss-Newton. O argumento básico do método de Gauss-Newton é como segue. Suponha
que tenhamos conhecimento de uma aproximação inicial θ̂ 0 para θ̂ . As expansões de
Taylor
( )
f (x i , θ) = f x i , θˆ 0 +
( )(
∂f x i , θˆ 0
θ − θˆ 0 ) (2.g)
∂θ′
das componentes de f (θ ) na vizinhança de θ̂ 0 produzem a aproximação linear
( ) ( )(
f (θ) ≅ f θˆ 0 + F θˆ 0 θ − θˆ 0 )
∂f (θ )
( )
onde F θˆ 0 =
∂θ′ θ = θˆ
0
48
Neste contexto, obtém-se uma analogia perfeita tomando-se o modelo linear aproximante
( ) ( ) ( )
y − f θˆ 0 + F θˆ 0 θˆ 0 = F θˆ 0 θ + u
Assim, o problema de minimizar
SSE(θ) = [y − f(θ)]' [y − f(θ)]
2
= y − f( θ)
passa a ser o de minimizar a função SSE(θ) associada ao modelo anterior, dada por
( )(
SSE(θ) = y − f(θˆ 0 ) - F θˆ 0 θ − θˆ 0 )2
( )
Fazendo-se y − f θˆ 0 = E 0 e θ − θˆ 0 = ∆θˆ 0 , temos que
( )
SSE(θ) = E 0 − F θˆ 0 ∆θˆ 0
2
[ ( ) ][ ( ) ]
SSE(θ) = E 0 − F θˆ 0 ∆θˆ 0 ′ E 0 − F θˆ 0 ∆θˆ 0
( ) ( ) ( )( )
SSE(θ) = E′0E0 − E′0F θˆ 0 ∆θˆ 0 − ∆θˆ ′0F′ θˆ 0 E0 + ∆θˆ ′0F′ θˆ 0 F θˆ 0 ∆θˆ 0
( ) ( )( )
= E′0E0 − 2∆θˆ ′0F′ θˆ 0 E0 + ∆θˆ ′0F′ θˆ 0 F θˆ 0 ∆θˆ 0
Antes de calcular a derivada de SSE(θ) em relação ∆θ̂0 , vamos rever algumas regras
de derivação de matrizes.
Seja a′ um vetor linha n dimensional, x um vetor coluna n dimensional e A uma matriz
qualquer de dimensões nxn. Assim teremos:
∂a′x ∂x ′a
= =a
∂x ∂x
∂x ′A ∂Ax
=A e = A′
∂x ∂x
49
∂x ′Ax ∂x ′Ax
= Ax + A ′x , e se A = A ′ teremos = 2Ax
∂x ∂x
Então a derivada de SSE(θ) em relação a ∆θ̂0 é dada por:
∂SSE(θ)
ˆ
∂∆θ0
( ) ( )( )
= φ − 2 F′ θˆ 0 E0 + 2 F′ θˆ 0 F θˆ 0 ∆θˆ 0
[( )( ) ( ) ]
= 2 F′ θˆ 0 F θˆ 0 ∆θ0 − F′ θˆ 0 E0
∂SSE(θ)
Fazendo = φ , obtemos o Sistema de Equações Normais
∂∆θˆ 0
( )( ) ( )
F′ θˆ 0 F θˆ 0 ∆θˆ 0 = F′ θˆ 0 E0
( )
onde E 0 desempenha o papel de variável dependente y e F θˆ 0 o da matriz X dos modelos
lineares.
Para o nosso exemplo 2.1, tomando-se os valores iniciais
⎡ θˆ 10 ⎤
θˆ 0 = ⎢ ⎥
⎢⎣θˆ 20 ⎥⎦
podemos escrever o sistema de equações normais:
⎡ 0,02 − 0,02 θˆ 10 ⎤
⎢ 2⎥
⎡ 0,02 0,02 1,10 ⎤
ˆ
⎢ 0,02 + θ 20 ( )
0,02 + θˆ 20 ⎥
⎢ 0,02 + θˆ L ⎥ ⎢ 0,02 − 0,02 θˆ 10 ⎥
20 0,02 + θˆ 20 1,10 + θˆ 20 ⎢ ⎥ ⎡θ1 − θˆ 10 ⎤
⎢ ⎥
⎢ − 0,02 θ10ˆ − 0,02 θˆ 10
L
− 1,10 θˆ 10
⎥ ⎢ 0,02 + θˆ 20
⎢
( ˆ
0,02 + θ 20 )2⎥
⎥
⎢ ⎥=
⎢⎣θ 2 − θˆ 20 ⎥⎦
⎢ ⎥
(
⎢⎣ 0,02 + θˆ 20) (0,02 + θˆ 20 )
2 2
( 2
1,10 + θˆ 20 ⎥⎦) ⎢
⎢ 1,10
M M
− 1,10 θˆ 10 ⎥
⎥
⎢ 0,02 + θˆ
⎣⎢ 20 ( )2 ⎥
1,10 + θˆ 20 ⎥⎦
⎛ ⎡ 0,02 θˆ 10 ⎤ ⎞
⎜ ⎢ ⎟
⎜ 0, 02 + ˆ 20 ⎥ ⎟
θ
⎡ 0,02 0,02 1,10 ⎤ ⎜ ⎡ 76 ⎤ ⎢ ⎥
⎢ 0,02 + θˆ L ⎥ ⎢ 0 ,02 θ ⎥⎟
0,02 + θˆ 20 1,10 + θˆ 20 ⎜ ⎢ ⎥ 10 ⎟
⎢ 20 ⎥ ⎜ ⎢ 47 ⎥ − ⎢ 0,02 + θˆ ⎥ ⎟
⎢ − 0,02 ˆ
θ − 0,02 θˆ 10 − 1,10 θˆ 10 ⎥ ⎜ ⎢ M ⎥ ⎢ 20 ⎥
⎢
10 L ⎥ ⎜⎢ ⎢ ⎥⎟
(
⎢⎣ 0,02 + θˆ 20) (
2
0,02 + θˆ 20)2
( 2
) ⎥
1,10 + θˆ 20 ⎥⎦ ⎜ ⎣200 ⎦ ⎢
M
⎢ 1,10 θˆ 10 ⎥ ⎟
⎥⎟
⎜ ⎢ ⎟
⎜ ⎢ 1,10 + ˆ 20 ⎥⎥ ⎟
θ
⎝ ⎣ ⎦⎠
50
( )
Se F θˆ 0 apresentar posto coluna completo, o valor de ∆θ̂ 0 que minimiza SSE(θ) é:
[ ( ) ( )] ( )−1
∆θˆ 0 = F′ θˆ 0 F θˆ 0 F′ θˆ 0 E 0
Agora, uma vez que ∆θ0 = θ − θ 0 , nós podemos definir um vetor
θˆ 1 = θˆ 0 + ∆θˆ 0
como estimativas atualizadas de θ . Nós podemos agora substituir as estimativas
atualizadas θ̂1 em (2.g) (do mesmo modo que foi feito com as estimativas iniciais θ̂ 0 ) e
então produzir um outro conjunto de estimativas atualizadas, digamos, θ̂ 2 , e assim por
diante. Em geral, nós temos para a k-ésima iteração
θˆ k +1 = θˆ k + ∆θˆ k
[ ( ) ( )] ( )
= θˆ k + F′ θˆ k F θˆ k
−1 ˆ
F′ θk Ek (2.h)
onde
( )
F θˆ k =
∂f (θ)
∂θ′ θ = θˆ
k
Ek = y − f θˆ k( )
[
θˆ k = θˆ 1k , θˆ 2k ,L, θˆ pk ]
′
Este processo iterativo continua até a convergência, isto é, até
(θˆ j,k +1− θˆ jk )

< δ, j = 1, 2,L, p
θˆ jk
onde δ é algum número pequeno, digamos 1,0 x 10-6. A cada iteração SSE θˆ k pode ser ( )
avaliada para garantir que foi obtida uma redução neste valor.
Quando o procedimento converge para um vetor de estimativas final, digamos θ̂ , nós
podemos computar o quadrado médio residual
51
n
[ ( )]
∑ y i − f x i , θˆ
2
σˆ = QMR = i =1
2
(2.i)
n−p
como estimador de σ 2 . A estimativa da matriz de covariância assintótica de θ̂ é dada por
( ) [ ( ) ( )]
Côv θˆ = F′ θˆ F θˆ
−1 2
σˆ (2.j)
⎡ V̂ θˆ 1
⎢
( ) ( )
Côv θˆ 1, θˆ 2 ( )
L Côv θˆ 1, θˆ p ⎤
⎥
()
Côv θ = ⎢⎢
ˆ ( )
Côv θˆ 1, θˆ 2 ( )
V̂ θˆ 2 ( )
L Côv θˆ 2 , θˆ p ⎥
M M M ⎥
⎢ ⎥
(
⎢⎣Côv θˆ 1, θˆ p ) (
Côv θˆ 2 , θˆ p ) L ( )
V̂ θˆ p ⎥⎦
()
onde F θ̂ é a matriz Jacobiana de f (θ ) , ou seja, a matriz de derivadas parciais, avaliada na
última iteração com as estimativas de mínimos quadrados θ̂ .
Agora considere o uso do método de Gauss-Newton num modelo de regressão linear.
Tal modelo pode ser escrito como:
y = Xθ + ε
onde X é a matriz nxp das variáveis regressoras, cuja primeira coluna pode ser um vetor de
1’s se a função resposta do modelo inclui um termo constante. A matriz Jacobiana da função
resposta do modelo anterior é F(θ ) = X .
Começando com qualquer conjunto arbitrário de estimativas iniciais dos parâmetros
θ̂ 0 , o próximo vetor de estimativas θ̂1 é:
(
θˆ 1 = θˆ 0 + (X′X )−1 X′ y − Xθˆ 0 )
= θˆ 0 + (X′X )−1 X′y − (X′X )−1(X′X )θˆ 0
= θˆ 0 + (X′X )−1 X′y − I θˆ 0
= θˆ 0 + (X′X )−1 X′y − θˆ 0
= (X′X)−1 X′y
52
O lado direito, usualmente denotado por β̂ , é o estimador de mínimos quadrados θ̂
para um modelo de regressão linear. É óbvio que as estimativas permanecem inalteradas se
o processo iterativo é continuado. Logo, o método de Gauss-Newton, para um modelo
linear, converge para os estimadores de mínimos quadrados numa única iteração utilizando
qualquer vetor inicial θ̂ 0 .
O procedimento básico de Gauss-Newton no caso não-linear pode convergir muito
lentamente em alguns casos, exigindo muitas iterações. Em outros casos ele pode mover na
( )
direção contrária com SSE θˆ k aumentando, ou ele pode não convergir. Várias modificações
no algoritmo básico de Gauss-Newton têm sido propostas para melhorar sua performance.
Uma delas é o uso de incrementos fracionários; isto é, seja ∆θ̂k o vetor de incrementos
( )
padrão em (2.h) e a k-ésima iteração, mas somente se SSE θˆ k +1 < SSE θˆ k ( ) a próxima
( )
iteração continua, e se ocorrer SSE θˆ k +1 > SSE θˆ k ( ) usa-se ∆θˆ k / 2 como vetor de
incrementos. Esta divisão poderia ser usada várias vezes durante uma iteração, se
necessário. Se após um número especificado de tentativas não obtiver uma redução em
( )
SSE θˆ k +1 , o procedimento é encerrado.
Uma outra modificação do algoritmo básico de Gauss-Newton foi desenvolvido por
MARQUARDT (1963). Ele propôs computar o vetor de incrementos na k-ésima iteração de
[F′(θˆ k )F(θˆ k ) + λ Ip ]∆θˆ k = F′(θˆ k )Ek (2.k)
onde λ>0. Note a similaridade com o estimador de regressão de cumeeira (“ridge regression
estimator”). Uma vez que as variáveis regressoras são derivadas de uma mesma função, a
função linearizada pode envolver multicolinearidade; portanto o procedimento como em (2.k)
53
é intuitivamente razoável. MARQUARDT (1963) usou um procedimento de busca para
encontrar um valor de λ que reduziria a soma de quadrados residuais a cada estágio.
Diferentes programas computacionais selecionam λ de diferentes maneiras. Por
exemplo, o Proc NLIN do SAS inicia com λ=10-8. Uma série de tentativas são feitas a cada
iteração com λ repetidamente multiplicado por 10 até
( ) ( )
SSE θˆ k +1 < SSE θˆ k (2.l)
O procedimento também envolve uma redução em λ por um fator de 10 a cada iteração
contanto que (2.l) seja satisfeita. A estratégia é obter λ tanto menor quanto possível de modo
que a soma de quadrados residuais seja reduzida a cada iteração. Este procedimento geral
é freqüentemente chamado de compromisso de Marquardt (“Marquardt compromisse”),
porque o vetor de incrementos produzido pelo seu método está entre o vetor de Gauss-
Newton e a direção do método do gradiente (“steepest descent”).
Temos ainda, dentre outros, o método de Gauss-Newton modificado que é um
procedimento disponível no Proc NLIN do SAS, e encontra-se descrito em SOUZA(1998).
Exemplo 2.2.
BATES & WATTS (1998) usaram o método de Gauss-Newton para o ajuste do
modelo não linear para os dados de puromycin da Tabela 2.A usando os valores iniciais
θˆ 10 = 205 e θˆ 20 = 0,08 . Depois nós discutiremos como esses valores iniciais foram obtidos.
( )
Neste ponto SSE θˆ 0 = 3155 .
Os dados, valores estimados, resíduos e derivadas avaliadas em cada observação
são mostrados na Tabela 2.B.
Para ilustrar como as derivadas são calculadas, note que
∂f (x, θ1, θ 2 ) x
=
∂θ1 x + θ2
54
∂f (x, θ1, θ2 ) − θ1 x
=
∂θ2 (x + θ2 )2
e desde que a primeira observação em x é x1=0,02, nós temos
⎡ ∂f (x i , θ)⎤
Fij = ⎢ ⎥
⎢⎣ ∂θ j ⎥⎦ θ = θˆ
0
x1 0,02
F11 = = = 0,2000
x1 + θ 2 θ = 0,08 0,02 + 0,08
2
− θ1 x1 − (205 )(0,02 )
F12 = = = −410,00
(x1 + θ2 )2 θ1 = 205; θ 2 = 0,08 (0,02 + 0,08 )2
e assim por diante até a última observação em x que é x12=1,10, teremos
x12 1,10
F12,1 = = = 0,9322
x12 + θ 2 θ = 0,08 1,10 + 0,08
2
− θ1 x12 − (205 )(1,10 )

F12,2 = = = −161,95
(x12 + θ2 )2 θ1 = 205;θ 2 =0,08 (1,10 + 0,08 )2
Tabela 2.B – Dados, valores estimados, resíduos e derivadas para os dados de puromycin
em θˆ ′0 = [205 0,08]
i xi yi (
f x i , θˆ 0 ) (
y i − f x i , θˆ 0 ) Fi1 Fi2
1 0,02 76 41,00 35,00 0,2000 -410,00
2 0,02 47 41,00 6,00 0,2000 -410,00
3 0,06 97 87,86 9,14 0,4286 -627,55
4 0,06 107 87,86 19,14 0,4286 -627,55
5 0,11 123 118,68 4,32 0,5789 -624,65
6 0,11 139 118,68 20,32 0,5789 -624,65
7 0,22 159 150,33 8,67 0,7333 -501,11
8 0,22 152 150,33 1,67 0,7333 -501,11
9 0,56 191 179,38 11,62 0,8750 -280,27
10 0,56 201 179,38 21,62 0,8750 -280,27
11 1,10 207 191,10 15,90 0,9322 -161,95
12 1,10 200 191,10 80,90 0,9322 -161,95
55
As derivadas Fij são agora postas na matriz F(θ0 ) e o vetor de incrementos calculado pela
equação
[ ( ) ( )] ( )[
∆θˆ 0 = F′ θˆ 0 F θˆ 0
−1 ˆ
(
F′ θ0 y − f x i , θˆ 0 )]
⎡ 8,03 ⎤
como ∆θˆ 0 = ⎢ ⎥
⎣− 0,017 ⎦
A estimativa atualizada θ̂1 é dada por (2.h), e assim,
⎡205,00⎤ ⎡ 8,03 ⎤ ⎡213,03⎤

θˆ 1 = θˆ 0 + ∆θˆ 0 = ⎢ ⎥+⎢ ⎥=⎢ ⎥
⎣ 0,08 ⎦ ⎣− 0,017 ⎦ ⎣ 0,063 ⎦
( )
A soma de quadrados residuais neste ponto é SSE θˆ 1 = 1206 ,a qual é consideravelmente
( )
menor que SSE θˆ 0 = 3155 . Portanto θ̂1 é adotada como estimativa atualizada de θ , e uma
outra iteração seria efetuada. Utilizando-se o Proc NLIN do SAS (Versão 6.12), o algoritmo
de Gauss-Newton modificado convergiu para θˆ ′ = [212,683725 0,064121], com
()
SSE θˆ = 1195,45 , e assim com n-p=10 graus de liberdade σˆ 2 = 119,5450 de (2.i). Os dados,
valores estimados, resíduos e derivadas avaliadas em cada observação são mostrados na
Tabela 2.C.
Tabela 2.C – Dados, valores estimados, resíduos e derivadas para os dados de puromycin
em θ̂′ = [212,683725 0,064121]
i xi yi ( )
f x i , θ̂ ( )
y i − f x i , θˆ Fi1 Fi2
1 0,02 76 50,5660 25,4340 0,237753 -601,112003
2 0,02 47 50,5660 -3,5660 0,237753 -601,112003
3 0,06 97 102,8109 -5,8109 0,483399 -828,313952
4 0,06 107 102,8109 4,1891 0,483399 -828,313952
5 0,11 123 134,3616 -11,3616 0,631745 -771,657599
6 0,11 139 134,3616 4,6384 0,631745 -771,657599
7 0,22 159 164,6847 -5,6847 0,774318 -579,629219
8 0,22 152 164,6847 -12,6847 0,774318 -579,629219
9 0,56 191 190,8329 0,1671 0,897262 -305,762833
10 0,56 201 190,8329 10,1671 0,897262 -305,762833
11 1,10 207 200,9688 6,0312 0,944919 -172,635734
12 1,10 200 200,9688 -0,9688 0,944919 -172,635734
θˆ 1 x i 212,683725 x i ⎡ ∂f (x i , θ) ⎤
ŷ i = = ; Fij = ⎢ ⎥
x i + θˆ 2 x i + 0,064121 ⎢⎣ ∂θ j ⎥⎦ θ = θˆ
56
O gráfico dos resíduos contra os valores preditos (estimados) é uma importante
técnica de diagnóstico em modelos de regressão. Segundo SOUZA (1998), a versão
padronizada do resíduo é definida via a aproximação linear assintótica,
êi
ûi = (resíduo estudentizado internamente)
σˆ 1 − ĥii
em que
êi = y i − f ( x i , θˆ ) , é o resíduo ordinário
σ̂ é o desvio padrão residual
ĥ ii é o “leverage “ da i-ésima observação, isto é, o i-ésimo elemento da matriz de projeção
( )[ ( ) ( )] ()
que é dada por F θˆ F′ θˆ F θˆ −1 F′ θˆ . O “leverage” ĥii representa a influência da i-ésima
resposta sobre o i-ésimo valor ajustado.
Para o exemplo em questão, os resíduos padronizados foram plotados contra o y
estimado na Figura 2.C. Embora exista um resíduo moderadamente grande, nós julgamos o
ajuste satisfatório.
Resíduos Padronizados
Resposta Estimada
Figura 2.C – Resíduos padronizados versus valores estimados
A matriz de covariância assintótica do vetor θ̂ é, de (2.j):
57
( ) [ ( ) ( )]
Côv θˆ = F′ θˆ F θˆ
−1 2
σˆ
−1
⎡ 5,973644 − 3834,213284 ⎤
=⎢ ⎥ 119,5450
⎣− 3834,213284 4204318,2630 ⎦
⎡ 0,403721 36,8181x10 − 5 ⎤
=⎢ ⎥ ⋅ 119,5450
⎢⎣36,8181x10 − 5 57,36 x10 − 8 ⎥⎦
Portanto os erros padrão assintóticos dos coeficientes são
( ) ( )
s θˆ 1 = V̂ θˆ 1 = 119,5450(0,403721) = 6,9471
e s(θˆ 2 ) = V̂ (θˆ 2 ) = ( )
119,5450 57,36 x10 − 8 = 8,28 x10 − 3
e a correlação entre θ̂1 e θ̂ 2 é
rθˆ ,θˆ =
( )
Côv θˆ 1, θˆ 2
=
36,8181x10 −5 (119,5450 )
= 0,765
1 2
( ) ( )
V̂ θˆ 1 V̂ θˆ 2 [119,5450 (0,403721)][119,5450 (5736 x10 − 8 )]
Utilizou-se o PROC NLIN do SAS para obter as estimativas de mínimos quadrados a
partir dos dados que se encontram na Tabela 2.A. O método numérico empregado foi o
algoritmo de Gauss-Newton modificado. O programa e a saída correspondente encontram-
se a partir da Figura 2.D. (Versão SAS 9.0).
Os valores iniciais para o começo das iterações são
⎡195,81 ⎤
θˆ 0 = ⎢ ⎥
⎣0,04841⎦
valores estes determinados a partir de uma regressão linear.
As estimativas obtidas foram (Versão SAS 6.12, com mais decimais que a 9.0):
⎡212,683725 ⎤
θˆ = ⎢ ⎥
⎣ 0,064121 ⎦
A soma de quadrados residuais é aproximadamente
SSE(θˆ ) = 1195,45
e a estimativa da variância residual é
58
SSE(θˆ )
σˆ 2 = = 119,5450
n−p
Pode-se verificar que o SAS imprime os erros padrões assintóticos s( θˆ j ) com
j = 1, 2,L, p e as correlações entre θˆ j e θˆ j' que denotamos por rθˆ θˆ . Para recuperar a matriz
j j'
de covariância assintótica do vetor θˆ , que denotaremos por
[
Côv(θˆ ) = σˆ 2 F′(θˆ ) F(θˆ )
−1
]
= σˆ 2 Ĉ
em que
[ −1
Ĉ = F′(θˆ ) F(θˆ ) ,]
pode-se usar a seguinte fórmula:
σˆ 2ĉ = s(θˆ j ) s(θˆ , ) rθˆ θˆ

jj ' j j j'
No exemplo temos (estimativas obtidas na Versão SAS 6.12):
σˆ 2 ĉ 11 = (6,9471541928) (6,9471541928) (1)

= 48,26295137
σˆ 2 ĉ 22 = (0,0082809466 ) (0,00828094661) (1)

= 0,000068574
σˆ 2ĉ12 = (6,9471541928 ) (0,0082809466 ) (0,7650836714 )

= 0,044014508
⎡48,26295137 0,044014508⎤
σˆ 2 Ĉ = ⎢ ⎥
⎣0,044014508 0,000068574⎦
Para σˆ 2 = 119,54488 , temos:
59
⎡ 0,403722 36,8183 x 10 −5 ⎤
Ĉ = ⎢ −5 ⎥
⎣36,8183 x 10 57,36 x 10 − 8 ⎦
[ −1
]
onde Ĉ = F′(θˆ ) F(θˆ ) já tinha sido obtida anteriormente. Esta matriz será utilizada na parte
relativa a testes de hipóteses.
Considerando o modelo de regressão não-linear
y i = f (x i , θ ) + ε i , i=1, …, n ,
( )
onde a equação ajustada é dada por ŷ i = f x i , θˆ , podemos estar interessados em determinar
a estimativa de variância da estimativa de um valor médio de y, isto é, Vâr (ŷ i ) . Para isto
vamos usar o Método Delta apresentado a seguir.
O Método Delta
Uma variância aproximada de ŷ i pode ser obtida como segue. Seja,
()
y i = f (θ) , e ŷi = f θˆ ,
onde,
[
θ = θ1,L, θp ′ ]
θˆ = o vetor com as estimativas correspondentes.
Uma aproximação de Taylor de primeira ordem é,
() ( )
f θˆ ≈ f (θ) + f&(θ) θˆ − θ ,
onde f& é um vetor (1xp) das derivadas parciais de primeira ordem avaliadas em θ ,
⎡ ∂f ∂f ⎤
f& = f (1) (θ) = ⎢ ,L, ⎥
⎢⎣ ∂θ1 ∂θp ⎥⎦
() [ ( )]
Sob E θ̂ = θ , segue que E f θˆ ≈ f (θ) .
Assim,
60
[ ( )] { ( ) [ ( )]}
Var f θˆ = E f θˆ − E f θˆ
2
[ (
≈ E f& (θ) θˆ − θ
2
)]
[ ] ( )[ ]
= f&(θ) Var θˆ f&(θ)
′
= f&Ωf&'
A variância aproximada de ŷ i , obtida pelo Método Delta, é estimada por:
Vâr (ŷ i ) ≈ f&ˆΩ

ˆ f&ˆ′ ,
ˆ
onde f& e Ω̂ são as estimativas usadas no lugar dos valores dos parâmetros,
() ()
ˆ = Vâr θˆ = Côv θˆ = σˆ 2 Ĉ , é a estimativa da matriz (pxp) de covariâncias do vetor θ̂ .
Ω
O erro padrão de ŷ i é estimado por s(ŷi ) = Vâr (ŷ i ) .
No caso de previsão, isto é, se desejarmos prever o valor da variável dependente (yi)
para uma nova observação, segue que:
yi é desconhecido
O estimador de yi é ŷ i = f θˆ . ()
O erro de previsão é ŷ i − y i , e uma estimativa do erro de previsão é dada por:
ˆ ˆ &ˆ′
Vâr (ŷ i − y i ) = Vâr (ŷ i − y i ) = σˆ 2 + f&Ω f
Pelo programa SAS esta última quantidade é denominada de erro padrão da
estimativa do valor individual predito de y.
Considerando o exemplo anterior, vamos obter a estimativa para o valor médio de y
para x=0,56 e o erro padrão.
212,683725 x i
ŷ i =
x i + 0,064121
Para x=0,56 ⇒ ŷ = 190,833
61
θ1 x
f (x, θ) =
x + θ2
∂f x 0,56
= ∴ = 0,897262
∂θ1 x + θ2 0,56 + 0,064121
∂f − θ1 x − 212,683725(0,56)
= ∴ = −305,762833
∂θ2 (x + θ2 )2 (0,56 + 0,064121)2
ŷ = 190,833
⎡48,26295137 0,044014508 ⎤ ⎡ 0,897262 ⎤

Vâr (ŷ ) = [0,897262 − 305,762833 ] ⎢ ⎥⎢ ⎥
⎣0,044014508 0,000068574 ⎦ ⎣− 305,762833 ⎦
Vâr (ŷ ) = 21,1158
s(ŷ ) = 21,1158 = 4,5952
Vamos supor que desejássemos predizer o valor de y para x=0,56, considerando isto
como uma nova observação, e também calcular o erro padrão. Neste caso temos:
x=0,56 ⇒ ŷ = 190,833 , como no caso anterior.
O erro padrão da estimativa do valor individual predito de y é:
s(ŷ − y ) = Vâr (ŷ − y ) = σˆ 2 + f&Ω

ˆ ˆ &ˆ ′
f = 119,54488 + 21,1158 = 140,66068 = 11,8600
O R2 NO CASO NÃO-LINEAR
Em modelos de regressão linear que incluem o termo constante β0 (intercepto), o
coeficiente de determinação R2 representa a proporção da variação explicada pelo modelo.
Neste caso, o quadrado do coeficiente de correlação entre os valores observados e preditos
é exatamente o R2. Se o modelo é linear e o termo constante não está presente (sem
intercepto), o R2 é redefinido conforme SEARLE (1971), e muito cuidado deve ser tomado na
sua interpretação, pois ele não é mais igual ao quadrado do coeficiente de correlação entre
62
os valores observados e preditos. Pode ocorrer que o valor do coeficiente de determinação,
na versão sem intercepto, domine em muito o valor correspondente ao caso com intercepto,
em modelos equivalentes.
Segundo SOUZA (1998), no caso de modelo de regressão não-linear, a
adequacidade do ajustamento pode ser medida pelo quadrado do coeficiente de correlação
entre os valores observados e preditos. Esta medida pode ser calculada com a utilização da
fórmula dada a seguir:

Esta igualdade só vai funcionar se o
2
modelo linear aproximante (via a
⎡ ⎛ n ⎞⎛ n ⎞ ⎤ matriz jacobiana) tiver uma coluna
⎢n ⎜⎜ ∑ y i ⎟⎟⎜⎜ ∑ ŷ i ⎟⎟ ⎥ de uns ou de qualquer outra
⎢∑ y i ŷ i − ⎝ i =1 ⎠⎝ i =1 ⎠ ⎥ constante k ≠ 0.
⎢ i =1 n ⎥
⎢ ⎥
( )
2
R 2 = ry ŷ =
⎡
⎣ ⎦ = 1−
SQR
⎞ ⎤⎡ SQTotalc
2
⎛ ⎛ n ⎞ ⎤
2
⎢ ⎜ ∑ yi ⎟ ⎥ ⎢ ⎜⎜ ∑ ŷ i ⎟⎟ ⎥
⎢ n 2 ⎜⎝ ⎟ ⎥ n
⎠ ⎢ ⎝ i =1 ⎠ ⎥
⎢∑ y i − ⎥ ⎢∑ ŷ i −
2
n n ⎥
⎢ i =1 ⎥ ⎢ i =1 ⎥
⎢ ⎥ ⎢⎣ ⎥⎦
⎣ ⎦
em que SQR é a soma de quadrados do resíduo e SQTotalc a soma de quadrados total
corrigida pela média. O que se observa, na prática, é que, em muitos trabalhos de pesquisa,
no caso não-linear o cálculo de R2 não é feito de uma única maneira. Alguns utilizam a
SQR SQR
fórmula R 2 = 1 − (SOUZA, 1998), outros empregam a fórmula R 2 = 1 − ,
SQTotal c SQTotal nc
na qual a SQTotalnc é a soma de quadrados total não corrigida pela média. Com estes
cálculos, às vezes se obtém valores extremamente altos, por exemplo, R2 =99%, mesmo
havendo enorme discrepância entre os valores observados e preditos. O fato é que,
independentemente de haver ou não um termo constante no modelo, o R2 não tem nenhum
significado óbvio no caso de modelos de regressão não-linear, e segundo RATKOWSKY
(1990), ele nunca precisa ser calculado.
Na apostila, em todos os exemplos de regressão não-linear, o R2 foi calculado a partir
do quadrado do coeficiente de correlação entre os valores observados e preditos.
63
Certamente não devemos interpretar este R2 como no caso de regressão linear com
intercepto. Você pode utilizar este R2 mais como uma estatística descritiva, tendo o devido
cuidado na sua interpretação. É importante olhar os valores observados e preditos para ver
se não há muita discrepância, olhar a magnitude da variância residual para decidir se é
suficientemente pequena e utilizar análise de resíduos, dentre outras técnicas de
diagnóstico.
64

/* MODELO MICHAELIS-MENTEN */
Data NAOLINE1;
Input x y;
z=1/y;
w=1/x;
Cards;
0.02 76
0.02 47
0.06 97
0.06 107
0.11 123
0.11 139
0.22 159
0.22 152
0.56 191
0.56 201
1.10 207
1.10 200
;
Proc REG;
model z=w; /* para obter as estimativas iniciais */
title ' Regressao Linear Simples ';
Run;
Proc NLIN Method=Gauss;

Parms a = 195.81
b = 0.04841;
Model y = (a*x)/(x+b);
Title 'Regressao Nao-Linear';
der.a = x/(x+b);
der.b = (-a*x)/((x+b)**2); Não é necessário fornecer as derivadas
Output OUT=Saida p=yhat r=yresid h=leverage student=respad stdp=syhat

stdi=syhati L95M=LIIC U95M=LSIC L95=LIIP U95=LSIP;
Proc PRINT Data=Saida;

Run;
Proc PLOT Data=Saida;

Plot y*x='a' yhat*x='p' / overlay vpos=25;
Plot respad*yhat / vpos=25 vref=0;
Run;
Proc CORR;
Var y;
With yhat;
Run;
Quit;
Figura 2.D – Programa SAS com as saídas apresentadas a seguir
65
VERSÃO SAS 9.0 Regressao Linear Simples
The REG Procedure

Model: MODEL1
Dependent Variable: z
Sum of Mean
Model 1 0.00021232 0.00021232 59.30 <.0001

Error 10 0.00003581 0.00000358

Coeff Var 22.19144
Parameter Estimates
Parameter Standard
Intercept 1 0.00511 0.00070400 7.25 <.0001

w 1 0.00024722 0.00003210 7.70 <.0001
_______________________________________________________________________________________________
COMENTÁRIOS:
θ1 x
y=
x + θ2
1 x + θ2
=
y θ1 x
1 1 θ2 1
= + ⋅ ⇒ z = βo + β1 w
y θ1 θ1 x
ẑ = 0,005107 + 0,000247 w (Estimativas da Versão SAS 6.12)
1
βˆ o = ⇒ θˆ 1 = 195,81
ˆθ1
θˆ
βˆ 1 = 2 ⇒ θˆ 2 = 0,04841
θˆ 1
66
Regressao Nao-Linear
The NLIN Procedure
Dependent Variable y
Method: Gauss-Newton
Iterative Phase
Sum of
Iter a b Squares
0 195.8 0.0484 1920.0

1 210.9 0.0614 1207.9
2 212.5 0.0638 1195.6
3 212.7 0.0641 1195.5
4 212.7 0.0641 1195.4
5 212.7 0.0641 1195.4
NOTE: Convergence criterion met.
Estimation Summary
Method Gauss-Newton
Iterations 5
R 9.867E-6
PPC(b) 4.03E-6
RPC(b) 0.000042
Object 1.149E-8
Objective 1195.449
Observations Read 12
Observations Used 12
Observations Missing 0
NOTE: An intercept was not specified for this model.
Sum of Mean Approx

Model 2 270214 135107 1130.18 <.0001

Error 10 1195.4 119.5
Uncorrected Total 12 271409
Approx
Parameter Estimate Std Error Approximate 95% Confidence Limits
a 212.7 6.9471 197.2 228.2

b 0.0641 0.00828 0.0457 0.0826
Approximate Correlation Matrix

a b
a 1.0000000 0.7650834
b 0.7650834 1.0000000
_____________________________________________________________________________________________
212,683725 x i
ŷ i = (SAS 6.12)
x i + 0,064121
( )
R 2 = ryŷ 2 = (0,98171)2 = 0,9637 ou 96,37%
67
Obs x y z w yhat syhat LIIC LSIC
1 0.02 76 0.013158 50.0000 50.566 3.86335 41.958 59.174

2 0.02 47 0.021277 50.0000 50.566 3.86335 41.958 59.174
3 0.06 97 0.010309 16.6667 102.811 4.80408 92.107 113.515
4 0.06 107 0.009346 16.6667 102.811 4.80408 92.107 113.515
5 0.11 123 0.008130 9.0909 134.362 4.14502 125.126 143.597
6 0.11 139 0.007194 9.0909 134.362 4.14502 125.126 143.597
7 0.22 159 0.006289 4.5455 164.685 3.53083 156.818 172.552
8 0.22 152 0.006579 4.5455 164.685 3.53083 156.818 172.552
9 0.56 191 0.005236 1.7857 190.833 4.59520 180.594 201.072
10 0.56 201 0.004975 1.7857 190.833 4.59520 180.594 201.072
11 1.10 207 0.004831 0.9091 200.969 5.54765 188.608 213.330
12 1.10 200 0.005000 0.9091 200.969 5.54765 188.608 213.330
Obs LIIP LSIP yresid respad leverage syhati
1 24.728 76.404 25.4339 2.48660 0.12485 11.5961

2 24.728 76.404 -3.5661 -0.34865 0.12485 11.5961
3 76.201 129.421 -5.8111 -0.59166 0.19306 11.9425
4 76.201 129.421 4.1889 0.42650 0.19306 11.9425
5 108.308 160.415 -11.3617 -1.12297 0.14372 11.6930
6 108.308 160.415 4.6383 0.45844 0.14372 11.6930
7 139.084 190.285 -5.6847 -0.54936 0.10429 11.4896
8 139.084 190.285 -12.6847 -1.22583 0.10429 11.4896
9 164.407 217.259 0.1671 0.01685 0.17664 11.8600
10 164.407 217.259 10.1671 1.02480 0.17664 11.8600
11 173.651 228.287 6.0313 0.64015 0.25745 12.2606
12 173.651 228.287 -0.9687 -0.10282 0.25745 12.2606
_______________________________________________________________________________________________
68
Plot of y*x. Symbol used is 'a'.

Plot of yhat*x. Symbol used is 'p'.
250 ˆ
‚
‚
‚
‚
‚ a
200 ˆ a a
‚ a
‚
y ‚
‚ p
‚ a
150 ˆ a
‚ a
‚ p
‚ a
‚
‚ a
100 ˆ a
‚
‚
‚ a
‚
‚
50 ˆ a
Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ
0.0 0.2 0.4 0.6 0.8 1.0 1.2
NOTE: 10 obs hidden.
_______________________________________________________________________________________________
69
respad ‚
‚
‚
3 ˆ
‚
‚ A
‚
2 ˆ
‚
‚
‚
1 ˆ A
‚ A
‚ A A
‚
0 ˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒAƒƒƒAƒƒƒƒƒƒƒƒƒƒƒ
‚ A
‚ A A
‚
-1 ˆ A
‚ A
‚
‚
-2 ˆ
‚
Šƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒ
40 60 80 100 120 140 160 180 200 220
yhat
_______________________________________________________________________________________________
70
The CORR Procedure
1 With Variables: yhat

1 Variables: y
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
yhat 12 140.70420 54.47393 1688 50.56611 200.96873

y 12 141.58333 52.96561 1699 47.00000 207.00000
Pearson Correlation Coefficients, N = 12

Prob > |r| under H0: Rho=0
yhat 0.98171
<.0001
_______________________________________________________________________________________________
R2 = (ryŷ ) = (0,98171) = 0,9637

2 2
71
2.6. Testes de Hipóteses
A seguir apresentaremos de uma forma bastante resumida, o Teste de WALD e o
Teste da Razão de Verossimilhança. Maiores detalhes podem ser vistos em SOUZA (1998).
2.6.1. Teste de Wald
Assumindo que os dados seguem o modelo
y = f (θ 0 ) + ε
com ε ∼ N(∅, σ2 I), considere o teste de hipótese
H : h (θ0 ) = φ versus A : h (θ0 ) ≠ φ
com funções paramétricas da forma h (θ) onde h é uma função q dimensional conhecida. A
função h tem componentes hi ( θ) com derivadas parciais de primeira ordem contínuas. No
contexto de testes estatísticos, admitiremos adicionalmente que a matriz Jacobiana H (θ)
com elemento típico ∂hi (θ) ∂θ j , de dimensão qxp, tem posto linha completo para θ = θ0 e
que q<p. A hipótese de normalidade dos resíduos viabiliza o uso das distribuições t e F,
melhorando as aproximações assintóticas em pequenas amostras. Assim,
∂ h ( θ)
H ( θ) =
∂ θ′
ˆ,
Quando H (θ) é avaliada em θ = θˆ nós devemos escrever H
Ĥ = H θˆ()
e em θ = θ 0 escrevemos H, onde H = H θ0 . ( )
Segundo SOUZA (1998), sob determinadas condições de regularidade e n
suficientemente grande, tem-se que:
1. ( ( ( ) ( ))
θˆ ~ N θ0 , σ2 F′ θ0 ⋅ F θ0
−1
).
72
(n − p) σˆ χ 2 (n − p )
2
2. ~
σ 2
3. θˆ e σˆ 2 são independentes.
( ) ()
Em aplicações, substitui-se F θ0 por F θ̂ e σ2 por σ̂2 . Tem-se ainda que:
() ⎡
( ) ( )( ( ) ( )) ( )
h θˆ ~ Nq ⎢h θ0 , σ 2H θ0 F′ θ0 F θ0
⎣
−1 ⎤
H′ θ0 ⎥
⎦
( )[
h′ θˆ H(F′F)−1H′ ]
−1
()
h θˆ
2
σ
( ) ( )
com H = H θ0 e F = F θ0 , tem aproximadamente distribuição de qui-quadrado não central
com q graus de liberdade e parâmetro de não-centralidade.
λ=
( )[
h′ θ0 H(F′F)−1H′ ] h(θ )
−1 0
2σ 2
Assim, temos que o quociente.
( )[
h′ θˆ H(F′F )−1H′ ]
−1
()
h θˆ
qσ 2
(n − p)σˆ 2
(n − p)σ 2
tem distribuição aproximada F de Snedecor com q e n-p graus de liberdade, e parâmetro de
não centralidade λ.
Cancelando alguns termos, temos que
( )[
h′ θˆ H(F′F)−1H′ ] −1
h θˆ( ) ~ F(q , n − p) .
qσˆ 2
Nas aplicações, estimativas Ĥ = H θˆ e Ĉ = F′ θˆ F θˆ () [ ( ) ( )] −1

devem substituir H e (F′F) . Assim,
−1
( ) ( )
testes do tipo H : h θ0 = φ contra a alternativa A : h θ0 ≠ φ são levados a efeito com o uso de
73
W=
[ ]
−1
h′(θˆ ) ĤĈĤ′ h (θˆ )
q σˆ 2
que é o valor da estatística teste de WALD, que tem distribuição aproximada F(q, n - p) sob
a hipótese nula. O procedimento é conhecido como teste de WALD.
O teste de WALD rejeita a hipótese de nulidade quando o valor da estatística teste de
WALD (W) for superior a Fα (q, n − p ) , sendo α o nível de significância.
Para o nosso exemplo, considere a hipótese
H : θ 02 = 0 contra A : θ 02 ≠ 0
Assim,
h ( θ) = θ 2 h (θˆ ) = 0,064121
∂ h (θ )
H (θ ) = = [0 1]
∂θ '
∂ h (θˆ )
Ĥ = = [0 1]
∂ θˆ '
⎡ 0,403722 36,8183 x 10 −5 ⎤ ⎡0⎤

ĤĈĤ = [0
'
1] ⎢ −5 ⎥ ⎢1 ⎥
⎣36,8183 x 10 57,36 x 10 − 8 ⎦ ⎣ ⎦
ĤĈĤ ' = ĉ 22 = 57,36 x 10 −8
σˆ 2 = 119,5450 , n – p = 12-2 = 10
q=1
h′(θˆ ) (ĤĈĤ′)−1 h (θˆ )

W=
q σˆ 2
(0,064121) (57,36 x 10 −8 ) −1 (0,064121)

W=
1 (119,5450 )
W = 59,9598 * (* P< 0,05)
Como F5% (1, 10) = 4,96, rejeita-se a hipótese de nulidade em nível de 5% de probabilidade.
74
No caso de se testar apenas um parâmetro do modelo, resultado análogo pode ser
obtido pela estatística t. Assim o teste estatístico de hipótese do tipo
H : θ0j = θ*j contra A : θ 0j ≠ θ *j , pode ser levado a efeito considerando o quociente
θˆ j − θ*j
tj =
σˆ 2 ĉ jj
que sob H tem distribuição de Student com n - p graus de liberdade. Para o teste bilateral
⎛α ⎞
acima, compara-se o valor absoluto de tj com t ⎜ , n − p ⎟ , que é o quantil de ordem
⎝2 ⎠
⎛ α⎞
⎜1 − ⎟ x 100% da distribuição de Student com n - p graus de liberdade. É importante
⎝ 2⎠
observar que numa tabela bilateral, para obter este quantil entra-se diretamente com α .
No exemplo temos:
H : θ02 = 0 contra A : θ 02 ≠ 0
σˆ 2 = 119,5450 , com n - p= 12 - 2= 10 graus de liberdade.
ĉ jj é o j-ésimo elemento da diagonal de
[
Ĉ = F ' ( θˆ ) F ( θˆ ) ]
−1
ĉ 22 = 57,36 x 10 −8
θˆ 2 0,064121
t2 = =
σˆ 2 ĉ 22 (119,5450 ) (57,36 x 10 − 8 )
t2 = 7,743371* (* P< 0,05)
α = 5% ⇒ t(2,5%, 10) = 2,2281
Assim, rejeita-se a hipótese de nulidade em nível de 5% de probabilidade. Note que neste
caso temos que t2 = W.
75
INTERVALO DE CONFIANÇA
O intervalo de confiança simétrico, em nível de confiança 1 - α é dado por:
θˆ j ± t ⎛ α ⎞
σˆ 2ĉ jj
⎜ ,n − p ⎟
⎝2 ⎠
No exemplo, o intervalo de confiança assintótico para θ 2 , em nível de confiança de 95% é:
θˆ 2 ± t( 0,025 ;10 ) (119,5450) (57,36 x 10−8 ) ,
ou
0,064121 ± 2,2281 (119,5450 ) (57,36 x 10 −8
0,064121 ± 0,018440
Logo, IC(θ2 )0,95 : 0,064121 ± 0,018440
0,045681 ≤ θ 2 ≤ 0,082561
Com base no intervalo de confiança pode-se concluir pela rejeição da hipótese H : θ02 = 0
para α= 5%, pois o mesmo não inclui o valor zero.
2.6.2. Teste da Razão de Verossimilhança
Seja o modelo não-linear
y = f ( θ0 ) + ε
com ε ∼ N (∅, σ2 I). O teste da razão de verossimilhança para a hipótese
( ) ( )
H : h θ0 = φ contra A : h θ0 ≠ φ é dado como segue:
(i) Calcule
θ̂ minimizando SSE(θ) = [y − f (θ)]'[y − f (θ)] e obtenha SSE (θ̂ ) que é a soma de
quadrados residuais para o modelo completo.
76
(ii) Calcule
~ ~
θ minimizando SSE (θ) sujeito à condição h(θ ) = φ , e obtenha SSE ( θ ) que é a soma
de quadrados residuais para o modelo reduzido.
(iii) Calcule a estatística
(SSE (θ~) − SSE (θ̂ )) q

RV =
SSE (θ̂ ) (n − p)
ou ainda
~
SSE ( θ ) − SSE (θˆ )
RV = ,
q σˆ 2
onde q é como definido no teste de WALD, ou ainda, q é igual ao número de graus de
liberdade do resíduo do modelo reduzido menos o número de graus de liberdade do resíduo
do modelo completo.
O teste da razão de verossimilhança rejeita a hipótese h (θ0 ) = φ em nível α ∈ (0,1)
quando RV supera o valor Fα (q, n-p). Diferentemente do caso linear, os valores de RV e W
são em geral distintos. A performance de RV é melhor do que a de W em geral. O problema

~
com RV é essencialmente numérico, pois exige o conhecimento de θ .
Para o nosso exemplo, vamos testar a hipótese H : θ02 = 0 contra A : θ02 ≠ 0 pelo teste
da Razão de Verossimilhança.
No exemplo, a função resposta é
θ 1x
f ( x,θ ) =
x +θ2
Sendo h (θ) = θ2 = 0 , o modelo reduzido é
y i = θ1 + εi , i = 1, 2,L , n ,
77
que coincidentemente é um modelo linear. Ajustando este modelo aos dados da Tabela 2.A,
teremos:
Modelo linear: y = Xθ + ε . Neste caso,
~ ~
∑y
i =1
i
1699
θ =θ1 = = = 141,5833
n 12
2
⎛ n ⎞
⎜⎜ ∑ y i ⎟⎟
~ ~ ⎝ i =1 ⎠ (1699 )2
SQParâmetros ( θ ) = θ' X' y = = = 240550,0833
n 12
n
~ ~
SSE ( θ ) = ∑ εˆ
i =1
2
i = y' y − θ ' X' y = 271409 − 240550,0833 = 30858,9167 , com 11 graus de
liberdade.
Previamente tinha-se
SSE (θˆ ) = 1195,4488 , com 10 graus de liberdade.
Assim, tem-se:
(30858,9167 − 1195,4488 ) 1
RV =
1195,4488 10
RV = 248,1366* (*P < 0,05)
Como F5% (1, 10) = 4,96, rejeita-se a hipótese de nulidade em nível de 5% de probabilidade.
Este valor de RV difere muito do resultado obtido para o teste de Wald.
No caso linear as duas abordagens são equivalentes teórica e numericamente.
Assintoticamente também são equivalentes no caso não-linear, mas definem níveis de
dificuldade numérica distintos nas aplicações. Em pequenas amostras, os resultados
assintóticos aproximam também de modo distinto cada procedimento.
Embora as técnicas de diagnóstico da regressão normal não-linear sejam simples
extensões das técnicas de regressão linear, as interpretações não são diretamente
aplicadas, particularmente em virtude dos resíduos ordinários não terem mais distribuição
78
aproximadamente normal. Isso levou ao desenvolvimento de técnicas específicas de
diagnóstico para os modelos normais não-lineares (vide COOK e TSAI, 1995). Similarmente,
as propriedades das somas de quadrados contidas nas tabelas clássicas de análise de
variância, não são extendidas diretamente para o caso não-linear. Entretanto, alguns
pesquisadores continuam construindo tais tabelas após o ajuste de modelos não-lineares e
utilizam apenas descritivamente os valores obtidos para a estatística F.
2.7. Valores Iniciais
O ajustamento de um modelo de regressão não-linear requer valores iniciais θ̂ 0 dos
parâmetros do modelo. Bons valores iniciais, isto é, valores de θ̂ 0 que estão próximos aos
verdadeiros valores dos parâmetros, minimizam as dificuldades de convergência.
Modificações no método de Gauss-Newton como o compromisso de Marquardt faz com que
o procedimento seja menos sensível à escolha dos valores iniciais, mas é sempre bom
selecionar θ̂ 0 cuidadosamente. Uma escolha ruim poderá causar uma convergência para
um mínimo local da função, e inadvertidamente seríamos forçados a achar que uma solução
ótima tenha sido encontrada.
Em otimização não-linear, uma questão importante é a localização de pontos globais
ou absolutos. Porém, nenhum dos algoritmos existentes pode garantir a convergência para
um ótimo global. Entretanto, uma maneira de tentar prevenir possíveis soluções locais ou
relativas é através da escolha de valores iniciais satisfatórios, já que o ponto para o qual um
procedimento converge depende também da escolha do valor inicial. Para ilustrar este fato,
consideremos o exemplo da Figura 2.E.
79
100
50
75
P1. P2.
25
20
50
15
10
10 5
15
25
50
75
100 P3.
0
100
50 25
50
25 5
10
Figura 2.E – Diferentes pontos de mínimos que podem se originar de diferentes pontos
iniciais
Na Figura 2.E, temos as curvas de nível de uma função quadrática SSE(θ) com dois
mínimos locais θ 1 e θ 2 , e um mínimo global θ 3 , onde SSE (θ 1 ) = 5 , SSE (θ 2 ) = 10 e
SSE (θ 3 ) = 0 , respectivamente. Tomando-se P1, o processo converge para θ 1 . Partindo-se
de P2, o processo converge para outro mínimo local θ 2 . Entretanto, partindo-se de P3,
ocorreu convergência para o mínimo global.
A seguir apresentamos algumas considerações sobre a determinação dos valores
iniciais.
(i) Em algumas situações, pode-se ter informações de experiências anteriores ou de
análises semelhantes, cujas estimativas podem ser usadas para o “chute inicial”.
80
(ii) Em modelos de regressão não-linear, freqüentemente os parâmetros têm algum
significado físico, e isto pode ser útil na obtenção dos valores iniciais. Isto também
pode ser útil para plotar a função resposta para vários valores dos parâmetros para
nos tornar familiar com o comportamento do modelo e como as mudanças nos
valores dos parâmetros afetam este comportamento.
(iii) Em muitas aplicações, a determinação de valores iniciais se simplifica se
considerarmos o comportamento da função resposta quando alguns componentes de
x convergem para zero ou para o infinito. Neste caso, por vezes, é até possível
determinar visualmente alguns dos parâmetros do modelo. Na função Michaelis-
Menten usada para os dados de puromycin, o parâmetro θ 1 é a assíntota da
velocidade da reação, que é, o valor máximo de f quando x → ∞ . Similarmente, θ 2
representa a metade da concentração ou o valor de x tal que, quando a concentração
atinge aquele valor, a velocidade é a metade do valor máximo. Examinado o
diagrama de dispersão na Figura 10.1, sugere que θˆ 10 = 205 e θˆ 20 = 0,08 seriam
valores iniciais razoáveis a serem utilizados nos métodos iterativos.
(iv) Verifique se o modelo de regressão não-linear utilizado admite uma versão linear
competitiva que poderia ser utilizada para obter (facilmente) um valor inicial para os
parâmetros. Uma situação típica de tais circunstâncias é dada pelo modelo
y i = θ1 x θ2 + e i ( x i > 0) com estrutura de erros aditivos. Uma alternativa competitiva
desta formulação seria uma estrutura de erros multiplicativos. Deste modo teríamos
y i = θ1 x iθ2 u i , o que conduziria a regressão linear
log e ( y i ) = log e (θ 1 ) + θ 2 log e ( x i ) + log e (u i ) . Esta regressão fornece valores iniciais
para θ 1 e θ 2 . Outro exemplo é o modelo Michaelis-Menten que foi linearizado
81
tomando-se o recíproco da função resposta, cujas estimativas obtidas foram usadas
como valores iniciais de θ.
(v) Os métodos numéricos não-linear para minimização de SSE(θ) são bem mais
sensíveis aos parâmetros que entram no modelo de regressão não linearmente. Em
modelos exponenciais é mais importante determinar corretamente o sinal destes
parâmetros do que sua magnitude.
(vi) É sempre possível o estudo da superfície SSE(θ) num “grid” de valores de θ. Estes
estudos, em geral realizados com uso intensivo do computador, podem indicar
aspectos interessantes de SSE(θ) como, por exemplo, a existência de mínimos locais.
Como valor inicial, pode-se utilizar o valor mínimo de SSE(θ) no “grid”. O SAS fornece
facilidades para esta pesquisa.
82
Uma observação sobre o Proc NLIN do SAS
Com a sentença PARMS e admitindo cinco parâmetros, os seus possíveis valores
iniciais são mostrados como ilustração:
parms b0=0
b1=4 to 8
b2=0 to 0.6 by 0.2
b3=1 10 100
b4=0 0.5 1 to 4;
Valores Iniciais Possíveis

b0 b1 b2 b3 b4
0 4 0 1 0
5 0.2 10 0.5
6 0.4 100 1
7 0.6 2
8 3
4
A soma de quadrados do resíduo é calculada para cada uma das 1x5x4x3x6=360
combinações dos valores inciais possíveis.
Se escrevermos, por exemplo,
Proc NLIN BEST=10 METHOD=Marquardt;
o OUTPUT apresenta as dez melhores combinações dentre todas as combinações dos
valores iniciais possíveis que produzem as menores somas de quadrados individuais. Com
aquela combinação que apresentar a menor soma de quadrados residual, o programa inicia
o método iterativo. Esta combinação é a iteração de ordem zero.
Note: Convergence Criterion Met Æ dá esta mensagem quando o critério de convergência é
atingido.
83
Segundo SOUZA (1998), Gallant faz o seguinte alerta com respeito à determinação
de θˆ :
O sucesso em termos de convergência para θ̂ não é garantido por qualquer
método. A experiência indica que a falha no processo de convergência (se não
errarmos as derivadas!) depende da distância do valor inicial a resposta correta
e do grau de parametrização da função resposta relativamente ao conjunto de
dados utilizado. Estes problemas estão inter-relacionados no sentido de que
funções respostas mais apropriadas conduzem a uma amplitude maior do raio
de convergência (no espaço paramétrico). Quando a convergência não ocorre,
deve-se tentar encontrar valores iniciais melhores (mais próximos de θ̂ ) ou
utilizar uma função resposta mais parcimoniosa (com menos parâmetros). Uma
boa maneira de verificar a precisão da solução numérica é provocando distúrbios
nas condições iniciais e verificando se os valores iniciais conduzem à mesma
solução.
Embora existam algumas orientações gerais para a determinação de valores iniciais o
processo de escolha é um procedimento essencialmente ad hoc (SOUZA, 1998).
84
2.8. Exemplos de Modelos de Regressão Não-Linear
Certamente um modelo de regressão não-linear é escolhido baseado em
considerações teóricas de um especialista na matéria. Assim, conhecimentos específicos de
química, física ou biologia podem conduzir automaticamente a um modelo para a função
resposta. Muitos modelos de regressão não-linear caem dentro de categorias delineadas
para situações específicas ou ambientais. Nesta seção nós discutiremos alguns desses
modelos.
Talvez a melhor categoria conhecida de modelos não-lineares são os modelos de
crescimento. Estes modelos são usados para descrever o crescimento com mudanças na
variável regressora. Freqüentemente a variável regressora é o tempo. Aplicações típicas são
em biologia, quando plantas e organismos crescem com o tempo, mas há também muitas
aplicações em economia e engenharia. Por exemplo, o crescimento num sistema complexo
sobre o tempo pode freqüentemente ser descrito por um modelo de regressão não linear.
Seja o modelo de crescimento logístico a seguir:
α
y= +ε
1 + β e − (γ x )
Os parâmetros neste modelo têm uma interpretação física simples. Para x=0, y=α/(1+β) é o
nível de y para o tempo (ou nível) zero. O parâmetro α é o valor máximo esperado para a
resposta (assíntota), ou seja, α é o limite para o crescimento quando x→∞. Os valores de β
e γ devem ser positivos.
Outras parametrizações para a função logística apresentada por RATKOWSKY (1983) são:
α
(a) y=
1 + e (β − γ x )
85
1
(b) y=
α + β γx
α
(c) y=
1 + eβ γ x
1
(d) y=
α + eβ γ x
1
(e) y=
α + β e (− γ x )
O modelo de Gompertz dado por
(
y = α e −β e
−γ x )+ε
é um outro modelo de crescimento amplamente utilizado.
O modelo de crescimento de Weibull é
(
y = α − β e −γ x
δ )+ε
Quando x=0, nós temos y=α-β, enquanto que o crescimento limite é α quando x→∞.
Fenômenos produzindo curvas sigmoidais na forma de S são freqüentemente
encontrados na Agricultura, em Biologia, Ecologia, Engenharia e Economia. Essas curvas
começam em algum ponto fixo e crescem monotonicamente até um ponto de inflexão, a
partir daí a taxa de crescimento começa a diminuir até a curva se aproximar de um valor final
chamado de assíntota. Na Tabela 2.D são relacionados alguns modelos usuais com essas
formas, conforme parametrização apresentada por RATKOWSKY (1983).
Tabela 2.D – Alguns modelos do tipo sigmoidal

86
Modelo Componente Sistemático

Gompertz α exp{-exp(β-γx)}
Logístico α/{1+exp(β-γx)}
Richards α/{[1+exp(β-γx)]1/δ }
Morgan-Mercer-Flodin (MMF) (βγ + α x δ ) /( γ + x δ )
Weibull α-βexp(-γxδ)
Fonte: RATKOWSKY (1983)
Nesses modelos o parâmetro α é o valor máximo esperado para a resposta, ou
assíntota. O parâmetro β está relacionado com o intercepto, isto é, com o valor de E(y)
correspondente a x=0. Para todos os modelos da Tabela 2.D esse parâmetro pelo menos
determina o intercepto. O parâmetro γ está relacionado com a taxa média de crescimento da
curva, e finalmente o parâmetro δ, que aparece em alguns modelos, é utilizado para
aumentar a flexibilidade dos mesmos no ajuste dos dados.
Em algumas aplicações a resposta esperada é dada pela solução de um conjunto de
equações diferenciais lineares. Estes modelos são freqüentemente chamados de modelos
de compartimento, e uma vez que reações químicas às vezes podem ser descritas por um
sistema linear de equações diferenciais de primeira ordem, eles têm aplicações freqüentes
em química, engenharia química e farmacocinética. Outras situações específicas, a função
resposta com a solução para a equação diferencial não-linear ou para a equação integral,
não tem solução analítica. Existem técnicas especiais para a modelagem e solução destes
problemas. O leitor interessado pode consultar Bates & Watts (1998).
2.9. Aplicações – Uso do Programa SAS
(Proc NLIN) → Versão 9.0
A seguir apresentamos vários exemplos de ajuste de modelos de regressão não-
linear.
Exemplo 2.9.1. – Modelo logístico
87
Exemplo 2.9.2. – Modelo logístico com outra parametrização
Exemplo 2.9.3. – Curva de crescimento exponencial negativa
Exemplos 2.9.4.(a) e 2.9.4.(b) – A função de Cobb-Douglas
Exemplo 2.9.1.
Vamos apresentar com este exemplo, o ajuste do seguinte modelo estatístico.
α
yi = + εi , i=1,2,…,n
− (β + γ x i )
1+ e
onde a função resposta é a função logística com parâmetros α, β e γ, sendo α>0 e γ>0.
Segundo HOFFMANN & VIEIRA (2006), a função logística foi indicada para o estudo
descritivo do crescimento de populações humanas por Verhulst (1845), que a denominou de
“curva logística”. Ela também tem sido largamente empregada para a representação de
dados empíricos de crescimento de animais e vegetais. Como ilustração, apresentamos na
Figura 2.F, uma possível representação da função logística.
88
α>0
β<0
γ>0
Figura 2.F – Função Logística
Consideremos os dados apresentados na Tabela 2.E.
Tabela 2.E – Resultados Experimentais
Idade (dias) Peso seco das plantas (g/m2)

7 5,94
14 19,50
21 37,81
28 79,44
35 165,94
42 363,00
49 429,50
56 398,75
63 701,06
70 755,50
77 806,81
84 811,06
Vamos obter os valores iniciais que denotaremos por αˆ 0 , βˆ 0 e γˆ 0 a serem utilizados
nos métodos iterativos.
89
1º Passo: Obtenção de α̂ 0
Sejam xA, xB e xC três valores equidistantes de x, isto é, xC-xB=xB-xA=∆x, e yA, yB e yC, os
correspondentes valores de y. Tais valores podem pertencer ou não à amostra de que
dispomos. Se não pertencer, marcamos em um gráfico todos os pontos correspondentes às
observações da amostra, traçamos a curva logística “a olho” e lemos nesse gráfico as
coordenadas de três pontos escolhidos, cujas posições no eixo das abscissas sejam
eqüidistantes. No exemplo selecionamos:
xA=14 yA=19,50
xB=49 yB=429,50
xC=84 yC=811,06
α̂ 0 é dado por:
y B (y A ⋅ y B + y B ⋅ y C − 2 ⋅ y A ⋅ y C )
αˆ 0 =
y B2 − y A ⋅ y C
429,50[(19,50 )(429,50 ) + (429,50 )(811,06 ) − 2(19,50 )(811,06 )]

= = 827,8930
(429,50)2 − (19,50)(811,06)
2º Passo:
Obtenção de βˆ 0 e γˆ 0
Note que a função resposta pode ser linearizada facilmente.
Seja
αˆ 0
yi =
− (b + c x i )
1+ e
90
αˆ 0 − y i yi > 0 e αˆ 0 − y i > 0
e − (b + c x i ) = ,
yi para i = 1,2,L, n
e (b + c x i ) =
yi
αˆ 0 − y i
⎛ yi ⎞
b + c x i = ln⎜⎜ ⎟⎟
⎝ αˆ 0 − y i ⎠
⎛ yi ⎞
Fazendo w i = ln⎜⎜ ⎟⎟ , e ajustando-se o modelo de regressão linear simples
⎝ αˆ 0 − y i ⎠
w i = b + c x i + ei , teremos os valores iniciais b̂ = βˆ 0 e ĉ = γˆ 0 .
Assim, obtivemos,
ŵ i = −5,4437 + 0,1123 x i ,
e o conjunto de valores inciais que foram utilizados no método de Gauss-Newton modificado
são:
αˆ 0 = 827,8930
βˆ 0 = −5,4437
γˆ 0 = 0,1123
A equação ajustada é:
879,241991
ŷ i =
1 + e − (− 4,398587 + 0,086174 x i )
R2=97,2%
O programa e a saída correspondente encontram-se a partir da Figura 2.G. Na Figura
2.H tem-se o exemplo utilizando o método de Marquardt.
Cabe ressaltar que as técnicas mais usuais de diagnóstico em regressão não-linear
são simples adaptações da regressão linear, exceto com relação aos resíduos.
91

Options FORMDLIM='_' NoDate NoNumber;
/* Curva Logistica: Y=a/(1+EXP(-(b+c*x))) */
Data Helida2;
Input X Y;
Z=827.8930-Y; T=Y/Z; W=LOG(T);
Cards;
7 5.94
14 19.50
21 37.81
28 79.44
35 165.94
42 363.00
49 429.50
56 398.75
63 701.06
70 755.50
77 806.81
84 811.06
;
Proc REG;
Model W=X; /* Para obter estimativas iniciais */
Title 'Regressao Linear Simples';
Run;
Proc NLIN BEST=10 Method=Gauss;

Parms a = 827.8930
b = -5.4437
c = 0.1123;
Model Y=a/(1+EXP(-(b+c*x)));/* Não necessita fornecer as derivadas */
Der.a = (1+EXP(-(b+c*x)))**-1;
Der.b = a*((1+EXP(-(b+c*x)))**-2)*EXP(-(b+c*x));
Der.c = a*((1+EXP(-(b+c*x)))**-2)*EXP(-(b+c*x))*x;
OutPut OUT=Saida p=yhat r=yresid student=respad;

Run;

Title 'Alguns dados e resultados';
Run;

Plot respad*yhat / vref=0 vpos=25;
Title 'Analise de Residuo';
Run;
Proc CORR Data=Saida;

Var y;
With yhat;
Title 'Correlacao Linear Simples';
Run;
Quit;
Figura 2.G – Programa SAS com as saídas apresentadas a seguir
92
Regressao Linear Simples
The REG Procedure

Model: MODEL1
Dependent Variable: W
Sum of Mean
Model 1 88.41749 88.41749 626.61 <.0001

Error 10 1.41106 0.14111

Dependent Mean -0.33265 Adj R-Sq 0.9827
Coeff Var -112.92326
Parameter Estimates
Parameter Standard
Intercept 1 -5.44375 0.23119 -23.55 <.0001

X 1 0.11233 0.00449 25.03 <.0001
__________________________________________________________________________________________________
COMENTÁRIOS:
Valores iniciais:
αˆ o = 827,8930
βˆ o = −5,4437
γˆ o = 0,1123
93
The NLIN Procedure

Dependent Variable Y
Grid Search
Sum of
a b c Squares
827.9 -5.4437 0.1123 41775.4
__________________________________________________________________________________________________
The NLIN Procedure

Iterative Phase
Sum of
Iter a b c Squares
0 827.9 -5.4437 0.1123 41775.4

1 870.8 -3.8897 0.0756 38382.6
2 866.8 -4.4502 0.0879 31735.0
3 879.9 -4.3837 0.0858 31621.9
4 879.0 -4.4017 0.0862 31619.4
5 879.3 -4.3980 0.0862 31619.3
6 879.2 -4.3988 0.0862 31619.3
7 879.2 -4.3986 0.0862 31619.3
8 879.2 -4.3986 0.0862 31619.3
Estimation Summary
Method Gauss-Newton
Iterations 8
R 4.02E-6
PPC(c) 2.205E-6
RPC(c) 0.00001
Object 2.77E-10
Objective 31619.28
94
Sum of Mean Approx

Model 3 2850340 950113 270.44 <.0001

Error 9 31619.3 3513.3
Approx
a 879.2 74.9236 709.7 1048.7

b -4.3986 0.6582 -5.8875 -2.9097
c 0.0862 0.0159 0.0501 0.1223
__________________________________________________________________________________________________
The NLIN Procedure

a b c
a 1.0000000 0.5973844 -0.7758801

b 0.5973844 1.0000000 -0.9541891
c -0.7758801 -0.9541891 1.0000000
__________________________________________________________________________________________________
879,2419907
ŷ i = (Estimativas obtidas na Versão SAS 6.12)
1 + e − (− 4,3985875 + 0,0861742 x i )
( )
R 2 = ryŷ 2 = (0,98619 )2 = 0,972 ou 97,2%
__________________________________________________________________________________________________
Alguns dados e resultados
Obs X Y Z T W yhat yresid respad
1 7 5.94 821.953 0.0072 -4.92997 19.326 -13.386 -0.23016

2 14 19.50 808.393 0.0241 -3.72463 34.696 -15.196 -0.26712
3 21 37.81 790.083 0.0479 -3.03956 61.418 -23.608 -0.43107
4 28 79.44 748.453 0.1061 -2.24301 106.133 -26.693 -0.51105
5 35 165.94 661.953 0.2507 -1.38357 176.383 -10.443 -0.20524
6 42 363.00 464.893 0.7808 -0.24740 276.500 86.500 1.68600
7 49 429.50 398.393 1.0781 0.07518 401.022 28.478 0.56310
8 56 398.75 429.143 0.9292 -0.07346 532.115 -133.365 -2.74812
9 63 701.06 126.833 5.5274 1.70972 647.994 53.066 1.06395
10 70 755.50 72.393 10.4361 2.34527 735.630 19.870 0.38200
11 77 806.81 21.083 38.2683 3.64462 794.402 12.408 0.25353
12 84 811.06 16.833 48.1827 3.87500 830.708 -19.648 -0.49887
95
Analise de Residuo
Plot of Y*X. Symbol used is 'a'.

Plot of yhat*X. Symbol used is 'p'.
Y ‚
‚
‚
1000 ˆ
‚
‚
‚ p
800 ˆ a a
‚ a
‚ a
‚ p
600 ˆ
‚ p
‚
‚ a
400 ˆ p a
‚ a
‚ p
‚
200 ˆ p
‚ a
‚ a
‚ p a
0 ˆ a a
‚
Šƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒ
7 14 21 28 35 42 49 56 63 70 77 84
NOTE: 5 obs hidden.
__________________________________________________________________________________________________
96
Analise de Residuo
respad ‚
‚
‚
‚
‚
2 ˆ
‚ A
‚
‚ A
‚ A
‚ A A
0 ˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
‚ AA A A A
‚ A
‚
‚
‚
-2 ˆ
‚
‚ A
‚
‚
‚
-4 ˆ
‚
Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ
0 200 400 600 800 1000
yhat
__________________________________________________________________________________________________
97
Correlacao Linear Simples
The CORR Procedure

1 Variables: Y
Simple Statistics
yhat 12 384.69382 312.53618 4616 19.32564 830.70823

Y 12 381.19250 321.68112 4574 5.94000 811.06000

yhat 0.98619
<.0001
__________________________________________________________________________________________________
( )
R 2 = ryŷ 2 = (0,98619 )2 = 0,972 ou 97,2%
98

Options FORMDLIM='_' Nodate Nonumber;
/* Curva Logistica: Y=a/(1+EXP(-(b+c*x))) */
Data Helida2;
Input X Y;
Cards;
7 5.94
14 19.50
21 37.81
28 79.44
35 165.94
42 363.00
49 429.50
56 398.75
63 701.06
70 755.50
77 806.81
84 811.06
;
Proc NLIN BEST=5 Method=Marquardt;
Parms a = 827 830
b = -5 to -2
c = 0 to 0.2 by 0.05;
Model Y=A/(1+EXP(-(b+c*x))); /* Não é preciso fornecer as derivadas */
Der.a = (1+EXP(-(b+c*x)))**-1;
Der.b = a*((1+EXP(-(b+c*x)))**-2)*EXP(-(b+c*x));
Der.c = a*((1+EXP(-(b+c*x)))**-2)*EXP(-(b+c*x))*x;

Run;

Run;

Run;

Var y;
With yhat;
Run;
Quit;
Figura 2.H – Programa SAS com as saídas apresentadas a seguir
99
The NLIN Procedure

Grid Search
Sum of
a b c Squares
830.0 -5.0000 0.1000 35391.4

827.0 -5.0000 0.1000 35772.9
827.0 -4.0000 0.1000 161649
830.0 -4.0000 0.1000 165179
827.0 -2.0000 0.0500 227171
__________________________________________________________________________________________________
The NLIN Procedure

Method: Marquardt
Iterative Phase
Sum of
Iter a b c Squares
0 830.0 -5.0000 0.1000 35391.4

1 882.0 -4.1603 0.0810 32604.5
2 874.1 -4.4344 0.0872 31640.0
3 879.8 -4.3899 0.0860 31620.1
4 879.1 -4.4004 0.0862 31619.3
5 879.3 -4.3982 0.0862 31619.3
6 879.2 -4.3987 0.0862 31619.3
7 879.2 -4.3986 0.0862 31619.3
8 879.2 -4.3986 0.0862 31619.3
Estimation Summary
Method Marquardt
Iterations 8
R 2.396E-6
PPC(c) 1.314E-6
RPC(c) 6.135E-6
Object 9.84E-11
Objective 31619.28
100
Sum of Mean Approx

Model 3 2850340 950113 270.44 <.0001

Error 9 31619.3 3513.3
Approx
a 879.2 74.9237 709.7 1048.7

b -4.3986 0.6582 -5.8875 -2.9097
c 0.0862 0.0159 0.0501 0.1223
__________________________________________________________________________________________________
The NLIN Procedure

a b c
a 1.0000000 0.5973844 -0.7758803

b 0.5973844 1.0000000 -0.9541890
c -0.7758803 -0.9541890 1.0000000
__________________________________________________________________________________________________
879,2388784
ŷ i = , R 2 = 97,2% . (Versão SAS 6.12)
− (− 4,3986266 + 0,0861751 x i )
1+ e
__________________________________________________________________________________________________
Obs X Y yhat yresid respad
1 7 5.94 19.326 -13.386 -0.23016

2 14 19.50 34.696 -15.196 -0.26713
3 21 37.81 61.418 -23.608 -0.43107
4 28 79.44 106.133 -26.693 -0.51106
5 35 165.94 176.383 -10.443 -0.20525
6 42 363.00 276.500 86.500 1.68600
7 49 429.50 401.022 28.478 0.56310
8 56 398.75 532.115 -133.365 -2.74812
9 63 701.06 647.994 53.066 1.06395
10 70 755.50 735.629 19.871 0.38200
11 77 806.81 794.402 12.408 0.25353
12 84 811.06 830.708 -19.648 -0.49888
__________________________________________________________________________________________________
101
Analise de Residuo

Y ‚
‚
‚
1000 ˆ
‚
‚
‚ p
800 ˆ a a
‚ a
‚ a
‚ p
600 ˆ
‚ p
‚
‚ a
400 ˆ p a
‚ a
‚ p
‚
200 ˆ p
‚ a
‚ a
‚ p a
0 ˆ a a
‚
Šƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒ
7 14 21 28 35 42 49 56 63 70 77 84
NOTE: 5 obs hidden.
__________________________________________________________________________________________________
102
Analise de Residuo
respad ‚
‚
‚
‚
‚
2 ˆ
‚ A
‚
‚ A
‚ A
‚ A A
0 ˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
‚ AA A A A
‚ A
‚
‚
‚
-2 ˆ
‚
‚ A
‚
‚
‚
-4 ˆ
‚
Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ
0 200 400 600 800 1000
yhat
__________________________________________________________________________________________________
103
The CORR Procedure

1 Variables: Y
Simple Statistics
yhat 12 384.69385 312.53615 4616 19.32569 830.70831

Y 12 381.19250 321.68112 4574 5.94000 811.06000

yhat 0.98619
<.0001
__________________________________________________________________________________________________
( )
R 2 = ryŷ 2 = (0,98619 )2 = 0,972 ou 97,2%
104
Exemplo 2.9.2.
Vamos considerar agora o ajuste do seguinte modelo estatístico:
α
yi = + εi , i=1,2,…,n,
1 + β e (− γ x i )
onde a função resposta é a função logística com uma parametrização diferente daquela
apresentada no exemplo 2.9.1.
Consideremos os dados apresentados na Tabela 2.F
Tabela 2.F – Matéria seca total (g/m2) de uma cultura de milho, em períodos de 15 a 135
dias após a emergência.
Dias após a emergência Matéria seca total (g/m2)

15 41,4
30 161,7
45 564,5
60 1288,6
75 1430,1
90 1752,6
105 2354,2
120 2453,4
135 2469,6
Vamos obter os valores iniciais que denotaremos por αˆ 0 , βˆ 0 e γˆ 0 a serem utilizados
nos métodos iterativos.
1º Passo: Obtenção de α̂ 0
Aqui valem as mesmas considerações feitas na obtenção de α̂ 0 do exemplo 2.9.1.
Utilizando os períodos de crescimento de 15, 75 e 135 dias após a emergência da
cultura, calculamos a estimativa inicial α̂ 0 (estimativa assintótica da produção de matéria
seca máxima) como a seguir.
xA=15 yA=41,4
xB=75 yB=1430,1
xC=135 yC=2469,6
105
yB (y A ⋅ yB + yB ⋅ y C − 2 ⋅ y A ⋅ y C )
αˆ 0 =
yB2 − y A ⋅ y C
1430,1[(41,4 )(1430,1) + (1430,1)(2469,6 ) − 2(41,4 )(2469,6 )]

αˆ 0 =
(1430,1)2 − (41,4)(2469,6)
αˆ 0 = 2492,6244
2º Passo: Obtenção de βˆ 0 e γˆ 0
Note que a função resposta pode ser linearizada facilmente
αˆ 0
Seja y i =
1 + b e (− c x i )
⎛ αˆ − y i ⎞ yi > 0 e αˆ 0 − y i > 0
ln⎜⎜ 0 ⎟⎟ = ln b − c x i ,
⎝ yi ⎠ para i = 1, 2,L, n.
⎛ αˆ − y i ⎞
Fazendo w i = ln⎜⎜ 0 ⎟⎟ , e ajustando-se o modelo de regressão linear simples
⎝ yi ⎠
w i = A + B x i + ei , teremos os valores iniciais do seguinte modo:
b̂ = e Â = βˆ 0
ĉ = −B̂ = γˆ 0
Assim obtivemos: ŵ i = 4,819206 − 0,071507 x i . O conjunto de valores iniciais que
foram utilizados no método de Gauss-Newton modificado são:
αˆ 0 = 2492,6244
βˆ 0 = 123,8667
γˆ 0 = 0,071507
A equação ajustada é:
2562,101103
ŷ i =
1 + 36,661442 e (− 0,052927 x i )
R2=97,8%
O programa e a saída correspondente, encontram-se a partir da Figura 2.I.

106

Title 'CURVA LOGISTICA: Y = a/1+b*EXP(-c*X))';
Data FISIOLO1;
Input X Y;
Z=2492.6244-Y; T=Z/Y; W=LOG(T);
CARDS;
15 41.4
30 161.7
45 564.5
60 1288.6
75 1430.1
90 1752.6
105 2354.2
120 2453.4
135 2469.6
;
Proc REG;
MODEL W=X; /* para obter as estimativas iniciais */
Run;
Parms a = 2492.6244
b = 123.8667
c = 0.071507;
Model Y = a/(1+b*EXP(-c*X)); /* não é preciso fornecer as derivadas */
Title 'Regressão Não-Linear';
Der.a=(1+b*EXP(-c*X))**-1;
Der.b=-a*((1+b*EXP(-c*X))**-2)*EXP(-c*X);
Der.c=a*((1+b*EXP(-c*X))**-2)*b*EXP(-c*X)*X;

Run;
Run;

Var y;
With yhat;
Title ' Correlação Linear Simples ';
Run;
Quit;
Figura 2.I – Programa SAS com as saídas apresentadas a seguir
107
CURVA LOGISTICA: Y = a/(1+b*EXP(-c*X))
The REG Procedure

Model: MODEL1
Sum of Mean
Model 1 69.02862 69.02862 339.54 <.0001

Error 7 1.42312 0.20330

Dependent Mean -0.54381 Adj R-Sq 0.9769
Coeff Var -82.91353
Parameter Estimates
Parameter Standard
Intercept 1 4.81921 0.32756 14.71 <.0001

X 1 -0.07151 0.00388 -18.43 <.0001
____________________________________________________________________________________________________
COMENTÁRIOS:
ŵ i = 4,819206 − 0,071507 x i (Versão SAS 6.12)
w i = ln βo − γ x i + ei ⇒ w i = A + B x i + ei
⎛ αˆ − y i ⎞
w i = ln ⎜⎜ o ⎟⎟
⎝ yi ⎠
Valores iniciais;
αˆ o = 2492,6244
ln βˆ o = Â = 4,819206 ⇒ βˆ o = e Â = e 4,819206 = 123,8667
γˆ o = −B̂ = −( −0,071507 ) = 0,071507
108
Regressão Não-Linear
The NLIN Procedure

Iterative Phase
Sum of
Iter a b c Squares
0 2492.6 123.9 0.0715 283647

1 2508.0 66.4094 0.0646 227962
2 2517.5 48.7894 0.0599 200812
3 2536.6 36.0189 0.0542 176073
4 2552.7 37.0445 0.0533 168476
5 2561.2 36.6370 0.0529 168349
6 2562.0 36.6733 0.0529 168347
7 2562.1 36.6589 0.0529 168347
8 2562.1 36.6615 0.0529 168347
9 2562.1 36.6609 0.0529 168347
Estimation Summary
Method Gauss-Newton
Iterations 9
Subiterations 3
Average Subiterations 0.333333
R 2.813E-6
PPC(b) 3.819E-6
RPC(b) 0.000018
Object 1.28E-10
Objective 168347.2
Observations Read 9
Observations Used 9
Sum of Mean Approx

Model 3 24615810 8205270 292.44 <.0001

Error 6 168347 28057.9
____________________________________________________________________________________________________
109
Regressão Não-Linear
The NLIN Procedure
Approx
a 2562.1 170.2 2145.6 2978.6

b 36.6609 20.8712 -14.4092 87.7309
c 0.0529 0.00985 0.0288 0.0770

a b c
a 1.0000000 -0.5088005 -0.7171118

b -0.5088005 1.0000000 0.9387411
c -0.7171118 0.9387411 1.0000000
____________________________________________________________________________________________________
COMENTÁRIOS:
2562,101103
ŷ i = (Versão SAS 6.12)
1 + 36,661442 e (− 0,052927 x i )
( )
R 2 = ryŷ 2 = (0,98903 )2 = 0,978 ou 97,8%
Um engano comumente mantido é a crença de que o R2, a “proporção da variação
explicada“, é usado para decidir se um modelo de regressão não-linear resulta num bom
ajuste aos dados. Somente quando se tem um modelo linear com o termo constante é que o
R2 representa a proporção da variação explicada pelo modelo. Neste exemplo, temos
R2=97,8% e, no entanto, existe uma enorme discrepância entre os valores observados e
preditos.
110
Obs X Y Z T W yhat yresid respad
1 15 41.4 2451.22 59.2083 4.08106 145.79 -104.394 -0.67497

2 30 161.7 2330.92 14.4151 2.66828 301.69 -139.993 -0.98844
3 45 564.5 1928.12 3.4156 1.22836 584.00 -19.504 -0.14524
4 60 1288.6 1204.02 0.9344 -0.06789 1012.19 276.406 2.00765
5 75 1430.1 1062.52 0.7430 -0.29710 1514.04 -83.937 -0.64262
6 90 1752.6 740.02 0.4222 -0.86217 1951.42 -198.823 -1.48932
7 105 2354.2 138.42 0.0588 -2.83363 2244.56 109.641 0.75651
8 120 2453.4 39.22 0.0160 -4.13593 2408.09 45.309 0.33121
9 135 2469.6 23.02 0.0093 -4.67526 2490.11 -20.507 -0.18141
____________________________________________________________________________________________________
111
Analise de Residuo

Y ‚
‚
‚
‚
‚
3000 ˆ
‚
‚
‚ a a
‚ a p
‚ p
2000 ˆ p
‚ a
‚
‚ a
‚ a
‚
1000 ˆ p
‚
‚ p
‚ a
‚ p
‚ p a
0 ˆ a
‚
Šƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒˆƒƒ
15 30 45 60 75 90 105 120 135
NOTE: 2 obs hidden.
112
Analise de Residuo
2 ˆ A
‚
‚
‚
‚
‚
1 ˆ
‚ A
‚
respad ‚
‚ A
‚
0 ˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
‚ A A
‚
‚
‚ A A
‚
-1 ˆ A
‚
‚
‚ A
‚
‚
-2 ˆ
Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ
0 500 1000 1500 2000 2500
yhat
113
Correlação Linear Simples
The CORR Procedure

1 Variables: Y
Simple Statistics
yhat 9 1406 923.99864 12652 145.79410 2490

Y 9 1391 960.35768 12516 41.40000 2470

yhat 0.98903
<.0001
____________________________________________________________________________________________________
( )
R 2 = ryŷ 2 = (0,98903 )2 = 0,978 ou 97,8%
114
Exemplo 2.9.3.

/* EXPONENCIAL NEGATIVA:Y=B0*(1-EXP(-B1*X)) */;

Data manual2;
Input x y @@;
Cards;
020 0.57 030 0.72 040 0.81 050 0.87 060 0.91 070 0.94
080 0.95 090 0.97 100 0.98 110 0.99 120 1.00 130 0.99
140 0.99 150 1.00 160 1.00 170 0.99 180 1.00 190 1.00
200 0.99 210 1.00
;
Proc NLIN Best=10 Method=Marquardt;
Parms b0=0 to 2 by .5
b1=.01 to .09 by .01;
Model y=b0*(1-exp(-b1*x)); /* não é preciso fornecer as derivadas */
der.b0 = 1-exp(-b1*x);
der.b1 = b0*x*exp(-b1*x);
OutPut OUT=saida p=yhat r=yresid student=respad;
Proc Print Data=Saida;

Title ' Alguns dados e resultados ';
Run;

Run;

Var y;
With yhat;
Run;
Quit;
Figura 2.J – Programa SAS e saídas apresentadas a seguir
115
The NLIN Procedure

Grid Search
Sum of
b0 b1 Squares
1.0000 0.0400 0.00140

1.0000 0.0500 0.0168
1.0000 0.0600 0.0552
1.0000 0.0300 0.0666
1.0000 0.0700 0.0973
1.0000 0.0800 0.1365
1.0000 0.0900 0.1708
1.0000 0.0200 0.4193
1.5000 0.0100 0.9757
1.0000 0.0100 2.1653
____________________________________________________________________________________________________
The NLIN Procedure

Method: Marquardt
Iterative Phase
Sum of
Iter b0 b1 Squares
0 1.0000 0.0400 0.00140

1 0.9961 0.0419 0.000580
2 0.9962 0.0420 0.000577
3 0.9962 0.0420 0.000577
4 0.9962 0.0420 0.000577
Estimation Summary
Method Marquardt
Iterations 4
R 2.552E-7
PPC(b1) 1.028E-8
RPC(b1) 6.394E-7
Object 2.56E-10
Objective 0.000577
Sum of Mean Approx

Model 2 17.6717 8.8359 275733 <.0001

Error 18 0.000577 0.000032
116
Approx
b0 0.9962 0.00161 0.9928 0.9996

b1 0.0420 0.000398 0.0411 0.0428
___________________________________________________________________________________________________
The NLIN Procedure

b0 b1
b0 1.0000000 -0.5558957
b1 -0.5558957 1.0000000
____________________________________________________________________________________________________
(
ŷ i = 0,996188 1 − e −0,04195389 x i ) (Versão SAS 6.12)
( )
R 2 = ryŷ 2 = (0,99885 )2 = 0,998 ou 99,8%
117
Obs x y yhat yresid respad
1 20 0.57 0.56573 0.004273 0.89214

2 30 0.72 0.71322 0.006776 1.39399
3 40 0.81 0.81018 -0.000182 -0.03582
4 50 0.87 0.87392 -0.003917 -0.74102
5 60 0.91 0.91581 -0.005814 -1.07358
6 70 0.94 0.94335 -0.003354 -0.61193
7 80 0.95 0.96146 -0.011458 -2.08115
8 90 0.97 0.97336 -0.003358 -0.60986
9 100 0.98 0.98118 -0.001181 -0.21486
10 110 0.99 0.98632 0.003677 0.67044
11 120 1.00 0.98970 0.010296 1.88201
12 130 0.99 0.99193 -0.001926 -0.35272
13 140 0.99 0.99339 -0.003386 -0.62128
14 150 1.00 0.99435 0.005653 1.03850
15 160 1.00 0.99498 0.005022 0.92344
16 170 0.99 0.99539 -0.005393 -0.99221
17 180 1.00 0.99567 0.004335 0.79795
18 190 1.00 0.99584 0.004155 0.76521
19 200 0.99 0.99596 -0.005962 -1.09827
20 210 1.00 0.99604 0.003960 0.72955
____________________________________________________________________________________________________
118
Analise de Residuo
Plot of y*x. Symbol used is 'a'.

Plot of yhat*x. Symbol used is 'p'.
y ‚
‚
‚
‚
‚
1.0 ˆ a a a a a a a a a a a
‚ a a a
‚ a
‚ a
‚ a
‚
0.8 ˆ a
‚
‚ a
‚ p
‚
‚
0.6 ˆ
‚ a
‚
‚
‚
‚
0.4 ˆ
‚
Šƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒƒˆƒƒ
20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210
NOTE: 19 obs hidden.
119
Analise de Residuo
2 ˆ A
‚
‚ A
‚
‚ A B
‚ A C
‚
‚
0 ˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒAƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
‚ A A
‚ A A A
‚ A
respad ‚ A B
‚
‚
‚
-2 ˆ A
‚
‚
‚
‚
‚
‚
‚
-4 ˆ
Šˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒ
0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00
yhat
____________________________________________________________________________________________________
The CORR Procedure

1 Variables: y
Simple Statistics
yhat 20 0.93339 0.11411 18.66778 0.56573 0.99604

y 20 0.93350 0.11329 18.67000 0.57000 1.00000

yhat 0.99885
<.0001
____________________________________________________________________________________________________
( )
R 2 = ryŷ 2 = (0,99885 )2 = 0,998 ou 99,8%
120
Exemplo 2.9.4.(a)

/* EXEMPLO PARA A FUNÇÃO DE COBB-DOUGLAS */
Data cursonli;
Input X Y;
W=LOG(y); Z=LOG(x);
Cards;
0.2 53.6
0.4 69.9
0.6 86.2
0.8 101.0
1.0 110.0
1.2 119.0
1.4 128.0
1.6 132.0
1.8 133.0
2.0 131.0
2.2 129.0
2.4 120.0
;
Proc REG;
Model W=Z;
Title 'Regressao Linear Para Obter Os Valores Iniciais';
Run;
Parms a = 103.526850
b = 0.370535;
Model y=a*x**b;
der.a = x**b;
der.b = a*(x**b)*z;
Title 'Funcao de Cobb-Douglas';
OutPut OUT=Saida p=yhat r=yresid;

Run;

Run;
Proc CORR;
Var y;
With yhat;
Run;
Quit;
Figura 2.K – Programa SAS com as saídas apresentadas a seguir
121
Regressao Linear Para Obter Os Valores Iniciais
The REG Procedure

Model: MODEL1
Sum of Mean
Model 1 0.86279 0.86279 124.57 <.0001

Error 10 0.06926 0.00693

Coeff Var 1.78569
Parameter Estimates
Parameter Standard
Intercept 1 4.63983 0.02410 192.55 <.0001

Z 1 0.37054 0.03320 11.16 <.0001
____________________________________________________________________________________________________
COMENTÁRIOS:
y = a xb
ln y = ln a + b ln x
w i = α o + b z i + ei , ŵ i = 4,639831 + 0,370535 zi (Versão SAS 6.12)
Valores iniciais:
â = e αˆ o = e 4,639831 = 103,526850
b̂ = 0,370535
122
Funcao de Cobb-Douglas
The NLIN Procedure

Iterative Phase
Sum of
Iter a b Squares
0 103.5 0.3705 1018.6

1 105.1 0.3201 915.3
2 104.8 0.3251 914.2
3 104.9 0.3247 914.2
4 104.9 0.3248 914.2
5 104.9 0.3248 914.2
Estimation Summary
Method Gauss-Newton
Iterations 5
R 1.601E-6
PPC(b) 6.861E-7
RPC(b) 8.363E-6
Object 3.49E-10
Objective 914.1644
Sum of Mean Approx

Model 2 150436 75218.1 822.81 <.0001

Error 10 914.2 91.4164
Approx
a 104.9 2.9878 98.2046 111.5

b 0.3248 0.0440 0.2267 0.4228
__________________________________________________________________________________________________
The NLIN Procedure

a b
a 1.0000000 -0.5014737
b -0.5014737 1.0000000
__________________________________________________________________________________________________
ŷ i = 104,8618624 x i0,3247632 (Versão SAS 6.12)
( )
R 2 = ryŷ 2 = (0,93974 )2 = 0,883 ou 88,3%
123
Obs X Y W Z yhat yresid
1 0.2 53.6 3.98155 -1.60944 62.175 -8.5753

2 0.4 69.9 4.24707 -0.91629 77.872 -7.9720
3 0.6 86.2 4.45667 -0.51083 88.832 -2.6320
4 0.8 101.0 4.61512 -0.22314 97.531 3.4685
5 1.0 110.0 4.70048 0.00000 104.862 5.1381
6 1.2 119.0 4.77912 0.18232 111.258 7.7416
7 1.4 128.0 4.85203 0.33647 116.970 11.0300
8 1.6 132.0 4.88280 0.47000 122.154 9.8458
9 1.8 133.0 4.89035 0.58779 126.917 6.0827
10 2.0 131.0 4.87520 0.69315 131.335 -0.3352
11 2.2 129.0 4.85981 0.78846 135.464 -6.4640
12 2.4 120.0 4.78749 0.87547 139.347 -19.3465
____________________________________________________________________________________________________
The CORR Procedure

1 Variables: Y
Simple Statistics
yhat 12 109.55984 24.11326 1315 62.17529 139.34654

Y 12 109.39167 26.54665 1313 53.60000 133.00000

yhat 0.93974
<.0001
____________________________________________________________________________________________________
R2 = (ryŷ ) = (0,93974 ) = 0,8831 ou

2 2
88,31%
124
Exemplo 2.9.4.(b)

/* EXEMPLO PARA A FUNÇÃO DE COBB-DOUGLAS */
Data cursonli;
Input X Y;
W=LOG(Y); Z=LOG(X);
Exemplo para a função de Cobb-Douglas
Cards;
1 1.28 sem a constante
3 50.00
4 110.64
6 425.29
7 756.89
10 2390.85
;
Proc REG;
Model W=Z / NoInt;
Title 'Regressao Linear Para Obter O Valor Inicial';
Run;

Parms b = 3.401677;
Model y=x**b;
der.b=z*(x**b);
Title 'Funcao de Cobb-Douglas';
OutPut OUT=Saida p=yhat r=yresid h=leverage student=t;

Run;

Run;
Proc CORR;
Var y;
With yhat;
Run;
Quit;
Figura 2.L – Programa SAS e saídas apresentadas a seguir
125
Regressao Linear Para Obter O Valor Inicial
The REG Procedure

Model: MODEL1
NOTE: No intercept in model. R-Square is redefined.
Sum of Mean
Model 1 178.51932 178.51932 9265.71 <.0001

Error 5 0.09633 0.01927

Coeff Var 2.83984
Parameter Estimates
Parameter Standard
Z 1 3.40168 0.03534 96.26 <.0001
____________________________________________________________________________________________________
COMENTÁRIOS:
y = xb
ln y = b ln x
w i = b zi
ŵ i = 3,401677 z i (Versão SAS 6.12)
Valor inicial: b̂ = 3,401677
126
The NLIN Procedure

Iterative Phase
Sum of
Iter b Squares
0 3.4017 17553.8
1 3.3808 1631.1
2 3.3803 1622.8
Estimation Summary
Method Gauss-Newton
Iterations 2
R 5.926E-7
PPC 1.227E-9
RPC(b) 0.000148
Object 0.005088
Objective 1622.801
Observations Read 6
Observations Used 6
Sum of Mean Approx

Model 1 6483038 6483038 19974.8 <.0001

Error 5 1622.8 324.6
Approx
b 3.3803 0.00313 3.3722 3.3883
Approximate
Correlation
Matrix
b
b 1.0000000
___________________________________________________________________________________________________
ŷ i = x i3,380278401 (Versão SAS 6.12)
( )
R 2 = ryŷ 2 = (0,99984 )2 = 0,9997 ou 99,97%
127
Obs X Y W Z yhat yresid t leverage
1 1 1.28 0.24686 0.00000 1.00 0.2800 0.01554 0.00000

2 3 50.00 3.91202 1.09861 41.00 8.9982 0.49949 0.00006
3 4 110.64 4.70628 1.38629 108.43 2.2148 0.12298 0.00068
4 6 425.29 6.05277 1.79176 426.94 -1.6510 -0.09246 0.01767
5 7 756.89 6.62922 1.94591 718.90 37.9930 2.17412 0.05910
6 10 2390.85 7.77940 2.30259 2400.37 -9.5211 -1.89829 0.92249
____________________________________________________________________________________________________
The CORR Procedure

1 Variables: Y
Simple Statistics
yhat 6 616.10602 916.16500 3697 1.00000 2400

Y 6 622.49167 912.10585 3735 1.28000 2391

yhat 0.99984
<.0001
____________________________________________________________________________________________________
( )
R 2 = ryŷ 2 = (0,99984 )2 = 0,9997 ou 99,97%
128
Problema Proposto nº1
Um pesquisador estava estudando um determinado fenômeno e apresentou os

seguintes dados para análise:
Concentração de Substrato ( µ M ) Velocidade da Reação (nM/mg/hora)

31,25 53,01
62,50 81,42
125 122,11
250 304,57
500 376,87
1000 414,13
2000 553,46
O pesquisador gostaria de ajustar um modelo apropriado a estes dados para

caracterizar a relação entre a velocidade da reação e a concentração de substrato. Um
modelo padrão para este tipo de fenômeno é o modelo Michaelis-Menten, cuja média da
velocidade da reação, isto é, a função resposta é dada por
θ1
f ( x, θ) = (1)
θ
1+ 2
x
onde x é a concentração de substrato. Um versão mais geral deste modelo é também

algumas vezes considerada, cuja função resposta é
θ1
f ( x, θ) = (2)
θ
1 + ( 2 )θ 3
x
onde o parâmetro θ 3 , algumas vezes chamado de “Hill coefficient”, dá mais flexibilidade em

termos de modelagem. O pesquisador gostaria de responder algumas questões específicas,
as quais podem ser resumidas a seguir:
► É o modelo mais complicado (2) ou o modelo mais simples (1) que parece ser adequado
para descrever os dados?
► Sob o modelo apropriado, eu preciso da estimativa da média da velocidade da reação

máxima.
► Sob o modelo apropriado, eu preciso da estimativa da média da velocidade da reação

que ocorre a uma concentração de substrato de 750 µM .
129
Assumindo que os dados seguem o modelo de regressão não-linear escrito como
y i = f ( x i , θ º ) + ε i , i = 1, 2, L , n
onde a função resposta é f ( x, θ) , com ε i ~ NIID (0, σ 2 ) , faça as análises procurando

responder às questões formuladas pelo pesquisador, da melhor maneira possível.
130
Problema Proposto nº2
Tabela 2.G – Resultados Experimentais
i y x1 x2 x3
1 0,98610 1 1 6,28
2 1,03848 0 1 9,86
3 0,95482 1 1 9,11
4 1,04184 0 1 8,43
5 1,02324 1 1 8,11
6 0,90475 0 1 1,82
7 0,96263 1 1 6,58
8 1,05026 0 1 5,02
9 0,98861 1 1 6,52
10 1,03437 0 1 3,75
11 0,98982 1 1 9,86
12 1,01214 0 1 7,31
13 0,66768 1 1 0,47
14 0,55107 0 1 0,07
15 0,96822 1 1 4,07
16 0,98823 0 1 4,61
17 0,59759 1 1 0,17
18 0,99418 0 1 6,99
19 1,01962 1 1 4,39
20 0,69163 0 1 0,39
21 1,04255 1 1 4,73
22 1,04343 0 1 9,42
23 0,97526 1 1 8,90
24 1,04969 0 1 3,02
25 0,80219 1 1 0,77
26 1,01046 0 1 3,31
27 0,95196 1 1 4,51
28 0,97658 0 1 2,65
29 0,50811 1 1 0,08
30 0,91840 0 1 6,11
Fonte: Gallant (1975d) citado por GALLANT (1987)
Considerando os dados da Tabela 2.G e o modelo de regressão não-linear escrito
como
y i = f ( x i , θ º ) + ε i , i=1,2,…,n
( )
onde a função resposta é f ( x, θ) = θ1x1 + θ2 x 2 + θ 4 e θ3 x 3 , com ei ~ NIID 0, σ2 , pede-se:
131
∂f (x, θ )
1 – As derivadas , j=1,2,…,p.
∂θ j
2 – O programa SAS incluindo:
- Método Gauss-Newton modificado
- Convergência: 10-8
• Usar os seguintes valores iniciais:
⎡ θˆ 10 ⎤ ⎡− 0,04866 ⎤
⎢ˆ ⎥ ⎢
θ 1,03884 ⎥⎥
θˆ 0 = ⎢ 20 ⎥ = ⎢
⎢θˆ 30 ⎥ ⎢ − 0,73792 ⎥
⎢ ⎥ ⎢ ⎥
ˆ
⎣⎢θ 40 ⎦⎥ ⎣ − 0,51362 ⎦
• Pedir os “leverage” ĥii , i = 1,2,…,n.
ĥii é o “leverage” da i-ésima observação, isto é, o i-ésimo elemento da matriz de projeção
que é dada por:
( )[ ( ) ( )] ( )
−1
P = F θˆ F′ θˆ F θˆ F′ θˆ
A matriz de projeção P é conhecida como matriz “hat”, pois transforma y em ŷ . Ela é muito
usual na detecção de pontos mais afastados dos demais. Esses pontos, além de serem
potencialmente aberrantes e influentes, em geral exercem grande influência sobre a matriz
de variâncias e covariâncias.
O elemento ĥii de P representa a influência da i-ésima resposta sobre o i-ésimo valor
ajustado. Logo, como ∑ ĥi

ii = p , supondo que todos os pontos exercem a mesma influência
sobre os valores ajustados, espera-se que ĥii esteja próximo de p . Convém então
n
examinar aquelas observações correspondentes aos maiores valores de ĥii .Hoaglin &
Welsch (1978) citados por CORDEIRO & PAULA (1989) sugerem ĥii ≥ 2p como guia para
n
132
indicar pontos mais afastados. Entretanto, outras medidas de diagnóstico sempre serão
necessárias para confirmar esse primeiro diagnóstico.
• Pedir os resíduos estudentizados
êi
O SAS fornece os resíduos ûi = , que no texto, definimos segundo SOUZA
σˆ 1 − ĥii
(1998) como resíduo padronizado.
3 – Testar as seguintes hipóteses pelo teste de Wald adotando α=5%.
(a) H: θ1 = 0 vs. A : θ1 ≠ 0
∂f (x, θ ) 1 ∂f (x, θ) 1
(b) H: = vs. A : ≠
∂x 3 x 5 ∂x 3 x =1
5
3 =1 3
ou equivalentemente,
1 1
H: θ3 θ 4 e θ 3 = vs. A : θ3 θ 4 e θ 3 ≠
5 5
(c) Teste para a hipótese conjunta
1
H: θ1 = 0 e θ3 θ 4 e θ 3 = vs. A: Não H
5
133
REFERÊNCIAS BIBLIOGRÁFICAS
BATES, D.M., WATTS, D.G. Nonlinear regression analysis and its applications. New York:
Wiley. 1988.
COOK, R. D., TSAI, C. L. Residual in nonlinear regression. Biometrika, 72:23-29, 1985.
CORDEIRO, G.M., PAULA, G.A. Modelos de regressão para análise de dados univariados.
In: 17º COLÓQUIO BRASILEIRO DE MATEMÁTICA. Rio de Janeiro: Instituto de
Matemática Pura e Aplicada do CNPq. 1989. 353p.
DRAPER, N.R., SMITH, H. Applied regression analysis. New York, John Wiley & Sons, Inc.,
3ª ed., 1998. 706p.
GALLANT, A.R. Nonlinear statistical models. New York: John Wiley & Sons, 1987. 611p.
HOFFMANN, R., VIEIRA, S. Análise de regressão – Uma introdução à Econometria. 4ª ed.,
São Paulo: Editora Hucitec, 2006. 378p.
MARQUARDT, D.W. An algorithm for least squares estimation of nonlinear parameters. J.
Soc. Ind. Appl. Math., 2: 431-441, 1963.
MONTGOMERY, D. C., PECK, E. A. Introduction to linear regression analysis. 2ª ed., New
York: John Wiley & Sons, Inc., 1992. 527p.
MYERS, R.S. Classical and modern regression with applications. Boston: PWS - kent
Publishers, 2ª ed., 1990.
RATKOWSKY, D.A. Nonlinear regression modeling – A unified practical approach. Ney York
and Basel: Marcel Dekker, Inc., 1983. 276p.
RATKOWSKY, D.A. Handbook of nonlinear regression models. New York and Basel. Marcel
Dekker, Inc., 1990. 241p.
SAS INSTITUTE INC. SAS/STAT User’s Guide. Version 6, Volume 2, Cary, NC: SAS
Institute Inc., 4ª ed., 1990.

134
SEARLE, S. R. Linear models. New York: John Wiley & Sons, 1971. 532p.
SOUZA, D. G. Algumas considerações sobre regressão não linear. São Paulo, 1986. 122p.
Dissertação (Mestrado em Estatística) – Instituto de Matemática e Estatística,
Universidade de São Paulo.
SOUZA, G.S. Introdução aos modelos de regressão linear e não-linear. Brasília: EMBRAPA-
SPI/EMBRAPA-SEA, 1998. 505p.
135
APÊNDICE 1
UMA BREVE REVISÃO SOBRE MATRIZES
Uma matriz é um arranjo retangular de números (ou letras). Embora seja muito
simplificada, para os propósitos deste capítulo, a definição anterior é suficiente. As
dimensões de uma matriz são especificadas pelo número de linhas e de colunas que ela
⎡1 3⎤
contém. Por exemplo, a matriz A = ⎢ ⎥ , possui dimensão 2 x 2, ou seja, possui duas
⎣2 4 ⎦
linhas e duas colunas.
Genericamente, pode-se representar uma matriz com m linhas e n colunas por:
⎡ a11 a12 L a1n ⎤

⎢a ⎥
⎢ 21 a 22 L a 2n ⎥
A=
⎢ M M M ⎥
⎢ ⎥
⎣ a m1 a m2 L a mn ⎦
Alguns tipos importantes de matrizes são:
Matriz Quadrada: É toda matriz onde o número linhas é igual ao número de colunas,
como por exemplo, a matriz A apresentada anteriormente.
O traço de uma matriz quadrada de ordem n é dado pela soma dos elementos da
diagonal principal. Assim, para
⎡a11 a12 L a1n ⎤

⎢a a 22 L a 2n ⎥⎥
A = ⎢ 21 ,
⎢ M M M ⎥
⎢ ⎥
⎣ a n1 a n2 L a nn ⎦
136
n
temos que: traço (A) = a11 + a 22 + L + a nn = ∑ a ii .
i =1
Exemplo:
⎡ 1 3 15 ⎤
Para A = ⎢⎢4 7 10 ⎥⎥ , traço (A) = 1 + 7 – 2 = 6.
⎢⎣3 1 − 2⎥⎦
Matriz Transposta: Uma matriz A’ é dita transposta de A, se todos os elementos das
colunas (ou linhas) de A’ forem iguais aos elementos das linhas (ou colunas) de A. Por
exemplo,
⎡ 1 2⎤
A' = ⎢ ⎥ é a matriz transposta da matriz A apresentada inicialmente.
⎣3 4 ⎦
Uma matriz A igual a sua transposta se diz simétrica. Por exemplo, a matriz
⎡a b⎤
A=⎢ ⎥ é simétrica
⎣b c ⎦
Sejam m A n e n Bk duas matrizes quaisquer. Neste caso, a transposta do produto
é igual ao produto das transpostas, isto é, (AB)’= B’A’.
Matriz Diagonal: É uma matriz quadrada cujos termos fora da diagonal são todos nulos.
Por exemplo, a matriz
⎡8 0 0⎤
D = ⎢⎢0 4 0⎥⎥ = Diag (8, 4, 5) é diagonal.
⎢⎣0 0 5⎥⎦
Matriz Identidade: Toda matriz quadrada I onde os elementos da diagonal principal são
iguais a 1 e os demais são nulos, é dita matriz identidade. Por exemplo, a matriz I a
seguir.
137
⎡ 1 0 0⎤
⎢ ⎥
I = ⎢ 0 1 0⎥
⎢⎣ 0 0 1⎥⎦
Adição e Subtração de Matrizes
Duas matrizes com as mesmas dimensões podem ser somadas ou subtraídas,
simplesmente adicionando ou subtraindo cada um de seus elementos.
Exemplo:
⎡ 2 3⎤ ⎡ 1 0⎤ ⎡(2 + 1) (3 + 0)⎤ ⎡ 3 3⎤
⎢ 1 4⎥ + ⎢ 0 1⎥ = ⎢ (1+ 0) (4 + 1) ⎥ = ⎢ 1 5⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦
⎡2 3 ⎤ ⎡ 1 0⎤ ⎡(2 - 1) (3 - 0)⎤ ⎡1 3 ⎤
⎢ 1 4 ⎥ - ⎢0 1⎥ = ⎢(1 - 0) (4 - 1) ⎥ = ⎢1 3 ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦
Multiplicação de Matrizes
Duas matrizes podem ser multiplicadas, se e somente se, o número de colunas da
primeira for igual ao número de linhas da segunda matriz.
Exemplo:
⎡ 1 1⎤
⎡ 2 3 1⎤ ⎢ ⎥ ⎡ (2x1+ 3x1+ 1x0) (2x1+ 3x0 + 1x1) ⎤ ⎡ 5 3⎤
⎢ 1 2 3⎥ ⎢ 1 0⎥ = ⎢(1x1+ 2x1+ 3x0) (1x1+ 2x0 + 3x1)⎥ = ⎢ 3 4⎥
⎣ ⎦ ⎢ ⎣ ⎦ ⎣ ⎦
⎣ 0 1⎥⎦
Matriz Inversa
A inversa de uma matriz quadrada A, simbolizada por A-1, é uma matriz tal que o
produto da matriz A pela sua inversa A-1 fornece a matriz identidade. Então, se A-1A = I,
então A-1 é a inversa de A.
Exemplo:
138
⎡ 1 2 1⎤ ⎡ 2 -1 0 ⎤
A = ⎢ 1 4 2⎥ e B = ⎢⎢- 3 3 - 1⎥⎥
⎢ ⎥
⎢⎣0 5 3⎥⎦ ⎢⎣ 5 - 5 2 ⎥⎦
B é a inversa de A, pois BA = I, ou seja:
⎡ 2 - 1 0 ⎤ ⎡ 1 2 1⎤ ⎡ 1 0 0⎤
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
BA = ⎢- 3 3 - 1⎥ ⎢ 1 4 2⎥ = ⎢0 1 0 ⎥ = I
⎢⎣ 5 - 5 2 ⎥⎦ ⎢⎣0 5 3 ⎥⎦ ⎢⎣0 0 1⎥⎦
Um método para determinar a inversa de uma matriz A
(Cofatores de A) '
A−1 = ,
Det(A )
em que,
Det(A) é o determinante da matriz A;
Cofatores de A é a matriz dos cofatores de A.
O cofator do elemento aij é cij = (-1)i+j Dij, onde Dij é o determinante da matriz
resultante após a eliminação da linha i e da coluna j da matriz original A.
⎡ a11 a12 ⎤
O determinante da matriz A = ⎢ ⎥ é dado por:
⎣ a 21 a 22 ⎦
Det(A) = |A| = a11a22 - a12a21
⎡ a11 a12 a13 ⎤

⎢ ⎥
O determinante da matriz A = ⎢ a 21 a 22 a 23 ⎥ pode ser obtido assim:
⎢⎣ a 31 a 32 a 33 ⎥⎦
a11 a12 a13 | a11 a12

Det(A) = |A| = a 21 a 22 a 23 | a 21 a 22
a 31 a 32 a 33 | a 31 a 32
= a11a22a33 + a12a23a31 + a13a21a32 - (a13a22a31 + a11a23a32 + a12a21a33)
139
Exemplo:
⎡ 1 1 1⎤
⎢ ⎥
Obter a inversa da matriz A = ⎢ 2 1 0⎥
⎢⎣ 0 1 1⎥⎦
c11 = (-1)1+1 (1 x 1 - 0 x 1) = 1
c12 = (-1)1+2 (2 x 1 - 0 x 0) = -2
c13 = (-1)1+3 (2 x 1 - 0 x 1) = 2
c21 = (-1)2+1 (1 x 1 - 1 x 1) = 0
c22 = (-1)2+2 (1 x 1 - 1 x 0) = 1
c23 = (-1)2+3 (1 x 1 - 0 x 1) = -1
c31 = (-1)3+1 (1 x 0 - 1 x 1) = -1
c32 = (-1)3+2 (1 x 0 - 2 x 1) = 2
c33 = (-1)3+3 (1 x 1 - 1 x 2) = -1
Então,
⎡ 1 −2 2⎤ ⎡ 1 0 − 1⎤
⎢ ⎥ ⎢ ⎥
Cofatores de A = ⎢ 0 1 − 1⎥ e (Cofatores de A)’ = ⎢− 2 1 2 ⎥
⎢⎣− 1 2 − 1⎥⎦ ⎢⎣ 2 − 1 − 1⎥⎦
O determinante da matriz A, Det(A), pode ser obtido da seguinte maneira:
repetindo-se as duas primeiras colunas da matriz A têm-se:
1 1 1 | 1 1
2 1 0 | 2 1 Det(A) = 1x1x1 + 1x0x0 + 1x2x1 - (1x1x0 + 1x0x1 + 1x2x1)
0 1 1 | 0 1
Efetuando-se os cálculos temos que Det(A) = 3 -2 = 1.
Então, a matriz inversa de A é:
140
⎡ 1 0 − 1⎤ ⎡ 1 0 − 1⎤
−1 1 ' 1⎢ ⎥ ⎢ ⎥
A = ⋅ (Cofatores) = ⎢− 2 1 2 ⎥ = ⎢− 2 1 2 ⎥
Det(A ) 1
⎢⎣ 2 − 1 − 1⎥⎦ ⎢⎣ 2 − 1 − 1⎥⎦
Verificação: A-1A = I
Fato: Nem toda matriz quadrada A tem inversa A-1. As que têm, chamam-se não-
singulares (Det(A) ≠ 0); as que não têm são singulares (Det(A)=0).
Outro Método para o Cálculo de um Determinante
{ }
Seja A uma matriz quadrada de ordem n. O determinante de A = aij para i, j = 1,
2, ... , n, pode ser expandido como
n
Det( A ) = A = ∑ aij ( −1)i + j Mij , para qualquer i, onde Mij é o menor de aij e é o
j =1
determinante da matriz obtida de A, suprimindo-se a i-ésima linha e a j-ésima coluna. Esta
é a expansão de um determinante pelos elementos de uma linha.
Quando o determinante é expandido pelos elementos de uma coluna, temos:
n
Det( A ) = A = ∑ aij ( −1)i + j Mij , para qualquer j.
i =1
Para a matriz
⎡a11 a12 a13 ⎤

A = ⎢⎢a 21 a 22 a 23 ⎥⎥ ,
⎢⎣a 31 a 32 a 33 ⎥⎦
expandindo o determinante pela primeira linha, temos:
141
3
A = ∑ a1j ( −1)1+ j M1j
j =1
a a 23 a a 23 a a 22
= a11( −1)1+1 22 + a12 ( −1)1+ 2 21 + a13 ( −1)1+ 3 21
a 32 a 33 a 31 a 33 a 31 a 32
a a 23 a a 23 a a 22
= a11 22 − a12 21 + a13 21
a 32 a 33 a 31 a 33 a 31 a 32
Exemplo: Para a matriz
⎡ 1 2 1⎤
A = ⎢⎢0 2 3⎥⎥ ,
⎢⎣ 1 3 0⎥⎦
Vamos calcular o determinante expandindo pela segunda linha.
3
A = ∑ a 2 j ( −1) 2 + j M2 j
j =1
= a 21( −1) 2 +1 M21 + a 22 ( −1) 2 + 2 M22 + a 23 ( −1) 2 + 3 M23

2 1 1 1 1 2
= −0 +2 −3
3 0 1 0 1 3
= 0 + 2(1x0 – 1x1) – 3(1x3 – 2x1)
= 2(-1) – 3(1) = -2 -3 = -5.
Posto (“rank”) ou característica de uma matriz m A n
O posto de uma matriz m A n é igual ao número de linhas ou colunas linearmente
independentes, ou ainda, é igual a ordem do maior determinante não nulo da matriz.
Exemplos:
⎡ 1 0 − 1 2⎤
(i) A = ⎢⎢3 1 4 2⎥⎥
⎢⎣5 2 9 2⎥⎦
Posto (A) = 2, pois l3 = 2 l2 – l1 e c3 = 7 c2 – c1
c4 = 2 c1 – 4 c2
142
⎡7 3 ⎤
(ii) B = ⎢ ⎥
⎣4 6⎦
7 3
Det(B) = = 7 x6 − 3 x 4 = 42 − 12 = 30
4 6
Logo, Det(B) ≠ 0. Assim, Posto(B)=2.
Matriz Idempotente
Uma matriz n Qn é idempotente se Q·Q=Q.
Variância Amostral (s2)
A variância amostral mede a dispersão dos dados em torno da média. Ela é dada
pela soma dos quadrados dos desvios em relação à média aritmética dividida pelo
número de graus de liberdade.
Assim, para uma amostra de tamanho n, isto é, y1, y 2 , L , y n , temos que:
n
2 ⎡ n ⎤
∑ (yi − y) ⎢ ( ∑ y i )2 ⎥
SQTotal c i =1 1 ⎢ n 2 i =1 ⎥
s2 = = = ∑y −
n −1 n −1 n − 1 ⎢i =1 i n ⎥
⎢ ⎥
⎣ ⎦
Exemplo: Para y1 = 2, y2 = 3 e y3 = 7, virá:
2 2(12)2
2
SQTotalc = 2 + 3 + 7 − = 62 − 48 = 14
3
14 14
s2 = = = 7.
3 −1 2
143
⎡ y1 ⎤ ⎡ 1⎤
⎢y ⎥ ⎢ 1⎥ n
y= ⎢ 2⎥
, u= ⎢ ⎥ , y' u = ∑ y i
⎢L⎥ ⎢L⎥ i =1
⎢ ⎥ ⎢ ⎥
n ⎣ n ⎦1 n ⎣ 1 ⎦1
y
n
( ∑ y i )2
1
SQTotal c = y' y − y' uu' y = y' y − C , C = i =1
n n
⎡ uu' ⎤
= y' ⎢I(n) − y
⎣1424 n ⎥⎦
3
=Q
= y' Qy
A matriz Q é simétrica e idempotente. Neste caso, temos que, posto(Q) = traço(Q) =
número de graus de liberdade = n-1.
No exemplo, virá:
⎡ 1 0 0⎤ ⎡1 1 1⎤ ⎡ 2 3 − 1 3 − 1 3⎤
Q = ⎢⎢0 1 0⎥⎥
1⎢
− ⎢ 1 1 1⎥⎥ = ⎢− 1 3 2 3 − 1 3⎥
⎢ ⎥
3
⎢⎣0 0 1⎥⎦ ⎢⎣1 1 1⎥⎦ ⎢⎣− 1 3 − 1 3 2 3 ⎥⎦
⎡ 2 3 − 1 3 − 1 3⎤ ⎡ 2 3 − 1 3 − 1 3⎤ ⎡ 2 3 − 1 3 − 1 3⎤
Q ⋅ Q = ⎢⎢− 1 3 2 3 − 1 3⎥⎥ ⎢⎢− 1 3 2 3 − 1 3⎥⎥ = ⎢⎢− 1 3 2 3 − 1 3⎥⎥
⎢⎣− 1 3 − 1 3 2 3 ⎥⎦ ⎢⎣− 1 3 − 1 3 2 3 ⎥⎦ ⎢⎣− 1 3 − 1 3 2 3 ⎥⎦
2 2 2
Traço(Q) = + + =2 e y' Qy = 14
3 3 3
y' Qy 14
Assim, s 2 = = = 7.
n −1 2
144
APÊNDICE 2
1. Norma Euclidiana
⎡ x1 ⎤
⎢x ⎥
A norma de um vetor real x = ⎢ 2 ⎥ é definida como:
⎢L⎥
⎢ ⎥
n ⎣ n ⎦1
x
norma de x = x = x ′ x
1
⎛n ⎞2
= x12 + x 22 + L + x n2 = ⎜⎜ ∑ x i2 ⎟⎟
⎝ i =1 ⎠
⎡2⎤
Exemplo: Para x = ⎢ ⎥ , sua norma é:
⎣3⎦
x = 2 2 + 3 2 = 4 + 9 = 13
x2
3 P=(x1,x2)
d x2
0 1 2 3 x1
x1
∴ 13 é o comprimento do vetor x.
145
▪ Teorema de Pitágoras ⇒ d2 = 22 + 32
d2 = 13 ⇒ d = 13 , que é a distância entre o ponto

P=(2, 3) e a origem O = (0,0).
⎡ 1⎤
⎢2⎥
Para x = ⎢ ⎥ , tem-se que x = 12 + 22 + 22 + 42 = 25 = 5
⎢2⎥
⎢ ⎥
⎣4⎦
Fato: Um vetor está normalizado quando a sua norma for igual a 1. Assim, o vetor
⎛ 1⎞
u = ⎜ ⎟ x ,é a forma normalizada de x (porque u′ u = 1 ).
⎜ x ⎟
⎝ ⎠
Do exemplo anterior, segue que:
⎡ 1⎤
⎢ ⎥
1 2
u = ⎢ ⎥ . Note que u′ u = 1
5 ⎢2⎥
⎢ ⎥
⎣4⎦
2. Forma Quadrática
Se x é um vetor de ordem n com elementos xi para i=1,2,…,n, e se A uma matriz

quadrada de ordem n com elementos aij para i,j=1,2,…,n, isto é,
⎡ x1 ⎤ ⎡a11 a12 L a1n ⎤

⎢x ⎥ ⎢a a L a2n ⎥⎥
x= ⎢ 2⎥
, A = ⎢ 21 22 , então,
⎢L ⎥ ⎢L L L L⎥
⎢ ⎥ ⎢ ⎥
⎣ xn ⎦ ⎣ an1 an2 L ann ⎦
n n
f (x ) = x ′ A x = ∑ ∑ a ij x i x j
i =1j =1
n
= ∑ aii x i2 + ∑ ∑ aij x i x j ,
i =1 i≠ j
é chamada forma quadrática.
Vamos exigir que A seja simétrica. Assim, a ij = a ji , e a forma quadrática x′ A x pode

ser expressa como:
146
n
f (x ) = x ′ A x = ∑ a ii x i2 + 2 ∑ ∑ aij x i x j .
i =1 i< j
Exemplos:
n 2 n
(i) SQTotal (corrigida pela média) = ∑ (y i − y ) = ∑ y i2 − C ,
i =1 i =1
onde,
2
⎛n ⎞
⎜⎜ ∑ y i ⎟⎟
G2
C = Correção = ⎝
i =1 ⎠
=
n n
⎡ y1 ⎤ ⎡ 1⎤
⎢y ⎥ ⎢ 1⎥
Para y = ⎢ 2⎥
e u= ⎢ ⎥ , podemos escrever:
⎢L⎥ ⎢L⎥
⎢ ⎥ ⎢ ⎥
n ⎣ n ⎦1 n ⎣ 1 ⎦1
y
uu′
SQTotalC = y ′ y − y ′ y
n
uu′
= y ′ I(n)y − y ′ y
n
⎡ ⎤
⎢ uu ′ ⎥
= y ′ ⎢I(n ) − ⎥ y = y ′ Q1 y
⎢ 1424 n ⎥
3
⎢⎣ Q1 ⎥⎦
Q1 é uma matriz de ordem n, simétrica e idempotente ⇒ Posto (Q1)=Traço (Q1)=número de

graus de liberdade = n-1.
n
(ii) SQTotal (não corrigida pela média) = ∑ y i2 .
i =1
SQTotal NC = y ′ y = y ′ I(n ) y ,
Número de graus de liberdade = Posto (I(n)) = Traço(I(n)) = n.
(iii) Seja f (x ) = x12 + 4 x 22 + 9 x 32 + 6 x1x 2 + 10 x1x 3 + 14 x 2 x 3
Escrevendo na forma f (x ) = x ′ A x , com A simétrica, tem-se que:
147
⎡ 1 3 5⎤ ⎡ x1 ⎤
f (x ) = x ′ A x = [x1 x 2 x 3 ] ⎢⎢3 4 7⎥⎥ ⎢⎢ x 2 ⎥⎥
⎢⎣5 7 9⎥⎦ ⎢⎣ x 3 ⎥⎦
3. Vetores de Operadores Diferenciais
(i) Escalares
Para λ = 3 x1 + 4x 2 + 9x 3
⎡ ∂λ ⎤ ⎡ ∂ ⎤
⎢ ⎥ ⎢ ⎥
⎢ ∂x1 ⎥ ⎢ ∂x1 ⎥ ⎡3 ⎤
∂λ ⎢ ∂λ ⎥ ⎢ ∂ ⎥
= = λ = ⎢⎢4⎥⎥
∂x ⎢ ∂x 2 ⎥ ⎢ ∂x 2 ⎥
⎢ ∂λ ⎥ ⎢ ∂ ⎥ ⎢⎣9 ⎥⎦
⎢ ⎥ ⎢ ⎥
⎢⎣ ∂x 3 ⎥⎦ ⎢⎣ ∂x 3 ⎥⎦
⎡ x1 ⎤
λ = 3 x1 + 4 x 2 + 9 x 3 = [3 4 9] ⎢⎢ x 2 ⎥⎥ = a′ x .
⎢⎣ x 3 ⎥⎦
Assim,
∂
(a′ x ) = ∂ (x ′ a) = a .
∂x ∂x
(ii) Vetores
Seja x ′ A = [x ′ a1 x ′ a 2 L x ′ a n ] , onde aj é a j-ésima coluna de A. Assim,
∂ (x ′ A ) ⎡ ∂ x ′ a1 ∂ x′ a2 ∂ x ′ an ⎤
=⎢ L = [a1 a 2 L an ] = A .
∂x ⎣ ∂x ∂x ∂x ⎥⎦
∂
Fato: (A x ) ≡ ∂ (A x )′ = ∂ (x′ A ′) = A ′
∂x ∂x ∂x
y Se A for simétrica ⇒ A = A ′
148
Exemplo:
⎡2 6 − 1⎤ ⎡ x1 ⎤ ⎡ 2x1 + 6 x 2 − x 3 ⎤
⎢
Seja A x = ⎢3 − 2 4 ⎥⎥ ⎢⎢ x 2 ⎥⎥ = ⎢⎢ 3 x1 − 2x 2 + 4 x 3 ⎥⎥
⎢⎣3 4 7⎥⎦ ⎢⎣ x 3 ⎥⎦ ⎢⎣ 3 x1 + 4 x 2 + 7 x 3 ⎥⎦
∂
(A x ) = ⎡⎢ ∂ (2x1 + 6x 2 − x 3 ) ∂ (3x1 − 2x 2 + 4x 3 ) ∂ (3x1 + 4x 2 + 7x 3 )⎤⎥
∂x ⎣ ∂x ∂x ∂x ⎦
⎡ 2 3 3⎤
= ⎢⎢ 6 −2 4 ⎥⎥ = A ′
⎢⎣ − 1 4 7⎥⎦
(iii) Formas Quadráticas
f (x ) = x ′ A x , com A simétrica
∂
(x′ A x ) = ∂ (x′ P) + ∂ (Q x ) , para P = A x e Q = x ′ A
∂x ∂x ∂x
= P + Q′
= A x + A′ x
∂
Para A = A ′ ⇒ (x′ A x ) = 2 A x (vetor coluna)
∂x
∂
e (x′ A x ) = 2 x′ A (vetor linha)
∂x ′
Exemplo: f (x ) = x ′ A x = x12 + 4 x 22 + 9 x 32 + 6 x1x 2 + 10 x1x 3 + 14 x 2 x 3
⎡1 3 5⎤ ⎡ x1 ⎤
x ′ A x = [x1 x 2 x 3 ] ⎢⎢3 4 7⎥⎥ ⎢⎢ x 2 ⎥⎥
⎢⎣5 7 9⎥⎦ ⎢⎣ x 3 ⎥⎦
149
⎡ ∂ f (x )⎤
⎢ ∂x ⎥
⎢ 1 ⎥ ⎡ 2x1 + 6 x 2 + 10 x 3 ⎤
∂ f (x ) ⎢ ∂ f (x )⎥ ⎢
= = 6 x1 + 8 x 2 + 14 x 3 ⎥⎥
∂x ⎢ ∂x 2 ⎥ ⎢
⎢ ∂ f (x )⎥ ⎢⎣ 10 x1 + 14 x 2 + 18 x 3 ⎥⎦
⎢ ⎥
⎣ ∂x3 ⎦
⎡ 1 3 5⎤ ⎡ x1 ⎤
∂ f (x )
= 2 ⎢⎢3 4 7⎥⎥ ⎢⎢ x 2 ⎥⎥ = 2 A x .
∂x
⎢⎣5 7 9⎥⎦ ⎢⎣ x 3 ⎥⎦
Temos ainda que:
∂ f (x ) ⎡ ∂ f (x ) ∂ f (x ) ∂ f (x )⎤
=⎢ ⎥
∂x ′ ⎣ ∂x1 ∂x 2 ∂x 3 ⎦
= [2x1 + 6x 2 + 10x 3 , 6x1 + 8x 2 + 14x 3 , 10x1 + 14x 2 + 18x 3 ]
⎡1 3 5⎤
= 2 [x1 x 2 x 3 ] ⎢⎢3 4 7⎥⎥ = 2 x ′ A
⎢⎣5 7 9⎥⎦
Fato:
∂ 2 f (x ) ⎡ ∂ ⎤ ⎡ ∂ f ( x ) ⎤
=
∂x ∂x ′ ⎢⎣ ∂x ⎥⎦ ⎢⎣ ∂x ′ ⎥⎦
⎡ ∂ ⎤
⎢ ∂x ⎥
⎢ 1⎥
⎢ ∂ ⎥ ⎡ ∂ f (x) ∂ f (x) ∂ f ( x) ⎤
= ⎢ ∂x ⎥ ⎢ L ⎥
⎢ L ⎥ ⎣ ∂x1 ∂x 2 ∂x n ⎦
2
⎢ ∂ ⎥
⎢ ⎥
⎣⎢ ∂x n ⎦⎥
⎡ ∂ 2 f (x ) ∂ 2 f (x ) ∂ 2 f (x ) ⎤
⎢ L ⎥
⎢ ∂x1 ∂x1 ∂x1 ∂x 2 ∂x1 ∂x n ⎥
=⎢ M M M M ⎥= 2A
⎢ ∂ 2 f (x ) ∂ f (x )
2
∂ f (x ) ⎥
2
⎢ L ⎥
⎢⎣ ∂x n ∂x1 ∂x n ∂x 2 ∂x n ∂x n ⎥
⎦
Esta é a matriz Hessiana.
150
TABELAS
Tabela 1 – Áreas de uma distribuição norma padrão. Cada casa na Tabela dá a proporção sob a curva inteira entre z=0 e um valor positivo de
z. As áreas para os valores de z negativos são obtidas por simetria.
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4006 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
151
Tabela 2 - Valores de t em níveis de 0,50 a 0,005 de probabilidade (Tabela Bilateral)
Graus de 0,50 0,25 0,10 0,05 0,025 0,01 0,005

liberdade
1 1,00000 2,4142 6,3138 12,7062 25,4517 63,6567 127,3213
2 0,81650 1,6036 2,9200 4,3127 6,2053 9,9248 14,0890
3 0,76489 1,4226 2,3534 3,1825 4,1765 5,8409 7,4533
4 0,74070 1,3444 2,1318 2,7764 3,4954 4,6041 5,5976
5 0,72669 1,3009 2,0150 2,5706 3,1634 4,0321 4,7733
6 0,71756 1,2733 1,9432 2,4469 2,9687 3,7074 4,3168
7 0,71114 1,2543 1,8946 2,3646 2,8412 3,4995 4,0293
8 0,70639 1,2403 1,8595 2,3060 2,7515 3,3554 3,8325
9 0,70272 1,2297 1,8331 2,2622 2,6850 3,2498 3,6897
10 0,69981 1,2213 1,8125 2,2281 2,6338 3,1693 3,5814
11 0,69745 1,2145 1,7959 2,2010 2,5931 3,1058 3,4966
12 0,69548 1,2089 1,7823 2,1788 2,5600 3,0545 3,4284
13 0,69384 1,2041 1,7709 2,1604 2,5326 3,0123 3,3725
14 0,69242 1,2001 1,7613 2,1448 2,5096 2,9768 3,3257
15 0,69120 1,1967 1,7530 2,1315 2,4899 2,9467 3,2860
16 0,69013 1,1937 1,7459 2,1199 2,4729 2,9208 3,2520
17 0,68919 1,1910 1,7396 2,1098 2,4581 2,8982 3,2225
18 068837 1,1887 1,7341 2,1009 2,4450 2,8784 3,1966
19 0,68763 1,1866 1,7291 2,0930 2,4334 2,8609 3,1737
20 0,68696 1,1848 1,7247 2,0860 2,4231 2,8453 3,1534
21 0,68635 1,1831 1,7207 2,0796 2,4138 2,8314 3,1352
22 0,68580 1,1816 1,7171 2,0739 2,4055 2,8188 3,1188
23 0,68531 1,1802 1,7139 2,0687 2,3979 2,8073 3,1040
24 0,68485 1,1789 1,7109 2,0639 2,3910 2,7969 3,0905
25 0,68443 1,1777 1,7081 2,0595 2,3846 2,7874 3,0782
26 0,68405 1,1766 1,7056 2,0555 2,3788 2,7787 3,0669
27 0,68370 1,1757 1,7033 2,0518 2,3734 2,7707 3,0565
28 0,68335 1,1748 1,7011 2,0484 2,3685 2,7633 3,0469
29 0,68304 1,1739 1,6991 2,0452 2,3638 2,7564 3,0380
30 0,68276 1,1731 1,6973 2,0423 2,3596 2,7500 3,0298
40 0,68066 1,1673 1,6839 2,0211 2,3289 2,7045 2,9712
60 0,67862 1,1616 1,6707 2,0003 2,2991 2,6603 2,9146
120 0,67656 1,1559 1,6577 1,9799 2,2699 2,6174 2,8599
∞ 0,67449 1,1503 1,6449 1,9600 2,2414 2,5758 2,8070
152
Tabela 3 - Limites unilaterais de F ao nível de 1% de probabilidade, para o caso de F > 1
n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 20 24 30 40 60 120 ∞
1 4052 5000 5403 5625 5764 5859 5928 5982 6022 6056 6082 6106 6125 6142 6157 6169 6209 6235 6261 6287 6313 6339 6366
2 98,50 99,00 99,17 99,25 99,30 99,33 99,36 99,37 99,39 99,40 99,41 99,42 99,42 99,43 99,43 99,44 99,45 99,46 99,47 99,47 99,48 99,49 99,50
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35 27,23 27,13 27,05 26,98 26,92 26,87 26,83 26,69 26,60 26,50 26,41 26,32 26,22 26,13
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,45 14,37 14,30 14,24 14,20 14,15 14,02 13,93 13,84 13,75 13,65 13,56 13,46
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,96 9,89 9,83 9,77 9,72 9,68 9,55 9,47 9,38 9,29 9,20 9,11 9,02
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,79 7,72 7,66 7,60 7,56 7,52 7,40 7,31 7,23 7,14 7,06 6,97 6,88
7 12,25 9,55 8,45 7,85 8,46 7,19 6,99 6,84 6,72 6,62 6,54 6,47 6,41 6,35 6,31 6,27 6,16 6,07 5,99 5,91 5,82 5,74 5,65
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,74 5,67 5,61 5,56 5,52 5,48 5,36 5,28 5,20 5,12 5,03 4,95 4,86
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,18 5,11 5,05 5,00 4,96 4,92 4,81 4,73 4,65 4,57 4,48 4,40 4,31
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,78 4,71 4,65 4,60 4,56 4,52 4,41 4,33 4,25 4,17 4,08 4,00 3,91
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,46 4,40 4,34 4,29 4,25 4,21 4,10 4,02 3,94 3,86 3,78 3,69 3,60
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,22 4,16 4,10 4,05 4,01 3,98 3,86 3,78 3,70 3,62 3,54 3,45 3,36
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 4,02 3,96 3,90 3,85 3,82 3,78 3,66 3,59 3,51 3,43 3,34 3,25 3,17
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,86 3,80 3,75 3,70 3,66 3,62 3,51 3,43 3,35 3,27 3,18 3,09 3,00
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,73 3,67 3,61 3,56 3,52 3,48 3,37 3,29 3,21 3,13 3,05 2,96 2,87
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,61 3,55 3,50 3,45 3,41 3,37 3,26 3,18 3,10 3,02 2,93 2,84 2,75
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,52 3,46 3,40 3,35 3,31 3,27 3,16 3,08 3,00 2,92 2,83 2,75 2,65
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,44 3,37 3,32 3,27 3,23 3,19 3,08 3,00 2,92 2,84 2,75 2,66 2,57
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,36 3,30 3,24 3,19 3,15 3,12 3,00 2,92 2,84 2,76 2,67 2,58 2,49
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,30 3,23 3,18 3,13 3,09 3,05 2,94 2,86 2,78 2,69 2,61 2,52 2,42
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,24 3,17 3,12 3,07 3,03 2,99 2,88 2,80 2,72 2,64 2,55 2,46 2,36
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,18 3,12 3,07 3,02 2,98 2,94 2,83 2,75 2,67 2,58 2,50 2,40 2,31
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,14 3,07 3,02 2,97 2,93 2,89 2,78 2,70 2,62 2,54 2,45 2,35 2,26
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,09 3,03 2,98 2,93 2,89 2,85 2,74 2,66 2,58 2,49 2,40 2,31 2,21
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 3,05 2,99 2,94 2,89 2,85 2,81 2,70 2,62 2,54 2,45 2,36 2,27 2,17
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 3,02 2,96 2,91 2,86 2,81 2,77 2,66 2,58 2,50 2,42 2,33 2,23 2,13
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,98 2,93 2,88 2,83 2,78 2,74 2,63 2,55 2,47 2,38 2,29 2,20 2,10
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,95 2,90 2,85 2,80 2,75 2,71 2,60 2,52 2,44 2,35 2,26 2,17 2,06
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,92 2,87 2,82 2,77 2,73 2,68 2,57 2,49 2,41 2,33 2,23 2,14 2,03
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,90 2,84 2,79 2,74 2,70 2,66 2,55 2,47 2,39 2,30 2,21 2,11 2,01
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,73 2,66 2,61 2,56 2,52 2,49 2,37 2,29 2,20 2,11 2,02 1,92 1,80
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,56 2,50 2,45 2,40 2,35 2,32 2,20 2,12 2,03 1,94 1,84 1,73 1,60
∞
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,40 2,34 2,29 2,24 2,19 2,16 2,03 1,95 1,86 1,76 1,66 1,53 1,38
6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,24 2,18 2,12 2,07 2,04 1,99 1,88 1,79 1,70 1,59 1,47 1,32 1,00
n1 = número de graus de liberdade do numerador

n2 = número de graus de liberdade do denominador
153
Tabela 4 - Limites unilaterais de F ao nível de 5% de probabilidade, para o caso de F > 1
n1
n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 20 24 30 40 60 120 ∞
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,0 243,9 244,4 245,0 245,9 246,0 248,0 249,1 250,1 251,1 252,2 253,3 254,3
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,42 19,42 19,43 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,50
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,72 8,71 8,70 8,69 8,66 8,64 8,62 9,59 8,57 8,55 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,93 5,91 5,89 5,87 5,86 5,84 5,80 5,77 5,75 5,72 5,69 5,66 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,66 4,64 4,62 4,60 4,56 4,53 4,50 4,46 4,43 4,40 4,36
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,98 3,96 3,94 3,92 3,87 3,84 3,81 3,77 3,74 3,70 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,55 3,52 3,51 3,49 3,44 3,41 3,38 3,34 3,30 3,27 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,25 3,23 3,22 3,20 3,15 3,12 3,08 3,04 3,01 2,97 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,04 3,02 3,01 2,98 2,94 2,90 2,86 2,83 2,79 2,75 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,88 2,86 2,85 2,82 2,77 2,74 2,70 2,66 2,62 2,58 2,54
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,76 2,74 2,72 2,70 2,65 2,61 2,57 2,53 2,49 2,45 2,40
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,66 2,64 2,62 2,60 2,54 2,51 2,47 2,43 2,38 2,34 2,30
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,57 2,55 2,53 2,51 2,46 2,42 2,38 2,34 2,30 2,25 2,21
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,56 2,53 2,50 2,48 2,46 2,44 2,39 2,35 2,31 2,27 2,22 2,18 2,13
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,45 2,43 2,40 2,39 2,33 2,29 2,25 2,20 2,16 2,11 2,07
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,45 2,42 2,39 2,37 2,35 2,33 2,28 2,24 2,19 2,15 2,11 2,06 2,01
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,35 2,33 2,31 2,29 2,23 2,19 2,15 2,10 2,06 2,01 1,96
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,31 2,29 2,27 2,25 2,19 2,15 2,11 2,06 2,02 1,97 1,92
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,28 2,26 2,23 2,21 2,16 2,11 2,07 2,03 1,98 1,93 1,88
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,25 2,23 2,20 2,18 2,12 2,08 2,04 1,99 1,95 1,90 1,84
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,22 2,20 2,18 2,15 2,10 2,05 2,01 1,96 1,92 1,87 1,81
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,26 2,23 2,20 2,18 2,15 2,13 2,07 2,03 1,98 1,94 1,89 1,84 1,78
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,24 2,20 2,17 2,14 2,13 2,10 2,05 2,01 1,96 1,91 1,86 1,81 1,76
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,22 2,18 2,15 2,13 2,11 2,09 2,03 1,98 1,94 1,89 1,84 1,79 1,73
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,20 2,16 2,13 2,11 2,09 2,06 2,01 1,96 1,92 1,87 1,82 1,77 1,71
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,18 2,15 2,12 2,10 2,07 2,05 1,99 1,95 1,90 1,85 1,80 1,75 1,69
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,16 2,13 2,10 2,08 2,06 2,03 1,97 1,93 1,88 1,84 1,79 1,73 1,67
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,15 2,12 2,09 2,06 2,04 2,02 1,96 1,91 1,87 1,82 1,77 1,71 1,65
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,14 2,10 2,07 2,05 2,03 2,00 1,94 1,90 1,85 1,81 1,75 1,70 1,64
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,12 2,09 2,06 2,04 2,01 1,99 1,93 1,89 1,84 1,79 1,74 1,68 1,62
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,04 2,00 1,97 1,95 1,92 1,90 1,84 1,79 1,74 1,69 1,64 1,58 1,51
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,95 1,92 1,89 1,86 1,84 1,81 1,75 1,70 1,65 1,59 1,53 1,47 1,39
∞
120 3,92 3,07 2,68 2,45 2,29 2,17 2,09 2,02 1,96 1,91 1,86 1,83 1,80 1,77 1,75 1,73 1,66 1,61 1,55 1,50 1,43 1,35 1,25
3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,79 1,75 1,72 1,69 1,67 1,64 1,57 1,52 1,46 1,39 1,32 1,22 1,00
n1 = número de graus de liberdade do numerador

n2 = número de graus de liberdade do denominador
154

Apostila ADAIR Curso Regressão Linear e NLinear UFMT

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila ADAIR Curso Regressão Linear e NLinear UFMT

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE

INTRODUÇÃO AOS MODELOS DE REGRESSÃO

Prof. Adair José Regazzi

Viçosa - Minas Gerais

A presente apostila constitui o material básico utilizado no Curso de Extensão

1.8. Testes de Hipóteses Lineares 9

CAPÍTULO 2 – Introdução aos Modelos de Regressão Não-Linear 32

INTRODUÇÃO AOS MODELOS DE

CAPÍTULO 1 – INTRODUÇÃO AOS MODELOS DE

Considere uma situação observacional onde os valores yi de uma variável dependente

desconhecidos que especificam a associação linear entre a variável dependente e as

De um ponto de vista analítico, é conveniente a representação matricial do modelo

Podemos escrever então: Y = Xβ + ε

O modelo linear Y = Xβ + ε , onde ε ~ N(φ ; Iσ 2 ) , é definido como modelo linear de

Para tanto, devemos estimar o vetor β , que denotaremos por:

1.2. Estimadores dos Parâmetros pelo Método dos Mínimos Quadrados

Escolhemos como estimativa de β um vetor βˆ que minimize

SSE(β) =|| ε ||2 = ε' ε = ( Y − Xβ)' ( Y − Xβ)

X' Xβˆ = X' Y (I)

onde βˆ é o vetor dos estimadores dos parâmetros.

de (I) por ( X' X) −1, vem:

( X' X) −1 X' Xβˆ = ( X' X) −1 X' Y

E( Y ) = Xβ e Ŷ = Xβˆ = X( X' X) −1 X' Y = PY

P é a matriz de projeção que transforma o vetor Y no vetor Ŷ que pertence ao espaço

ε̂ pertence ao complemento ortogonal do espaço coluna de X. Naturalmente Ŷ será

SSE(βˆ ) = εˆ ' εˆ = ( Y − Xβˆ )' ( Y − Xβˆ )

A variância residual é dada por:

SSE(βˆ ) Y' Y − βˆ ' X' Y

εˆ = Y − Xβˆ = Y − Ŷ (Resíduos ordinários)

(ii) X' Y − X' Xβˆ = φ

1.3. Variâncias e Covariâncias dos Estimadores dos Parâmetros

Côv(βˆ ) = ( X' X) −1σˆ 2 , ou ainda, Côv(βˆ ) = ( X' X) −1s 2 .

⎡ V̂(βˆ 0 ) Côv(βˆ 0 , βˆ 1 ) L Côv(βˆ 0 , βˆ p )⎤

1.4. Análise de Variância da Regressão

► A soma de quadrados total (não corrigida pela média) é dada por:

► A soma de quadrados total (corrigida pela média) é dada por:

com n - Posto(X) = n – p – 1 graus de liberdade.

► A soma de quadrados da regressão é dada por:

Matricialmente podemos escrever:

► Dos resultados anteriores segue que:

SQ Re síduo = [ Y' Y − C] − [βˆ ' X' Y − C] .

O esquema da Análise de Variância da Regressão é apresentado a seguir:

F.V. G.L. S.Q. Q.M. F

Resíduo n −p −1 Y' Y − βˆ ' X' Y QM Re s

É possível demonstrar que, se os erros εi têm distribuição normal e sob

H : β1 = β 2 = L = βp = 0 vs. A : β j ≠ 0 , para pelo menos um j.

1.5. Coeficiente de Determinação Múltipla ( R 2 )

Para este modelo, o coeficiente de determinação é definido por

regressão ajustada. Note que 0 ≤ R 2 ≤ 1 . Para p>1, R2 é o coeficiente de determinação

Y = Xβ + ε , então Y ~ N( Xβ, σ 2I)

β̂ é uma função linear de Y. Assim, ele é normalmente distribuído:

εˆ ~ N[φ, σ 2 (I − P)] , com P = X( X' X) −1 X'

d) SSE / σ 2 tem uma distribuição de χ 2 (Central)

1.7. Intervalo de Confiança para um Parâmetro β j

IC(β j )1− α : βˆ j ± t 0 s(βˆ j ) , com s(βˆ j ) = V̂(βˆ j ) .

1.8. Testes de Hipóteses Lineares

podemos utilizar a estatística

que tem distribuição t de Student com n − p − 1 graus de liberdade associados à variância

Os testes estatísticos em termos de combinações lineares c' β são feitos de modo

V̂(c' βˆ ) = c' ( X' X) −1c σˆ 2 e s(c ' βˆ ) = V̂(c ' βˆ )

1.9. Teste de Hipótese no Modelo Linear Geral

H : C' β = K vs. A : C' β ≠ K ,

onde C' é uma matriz com m linhas e p + 1 colunas e K é um vetor m-dimensional de