Slides Cap 2

Captulo 2: A Regresso no linear
Trata-se duma generalizao do Modelo Linear :

Y - varivel resposta.
X
1
, X
2
, ..., X
p
- variveis preditoras no aleatrias.
Admite-se que a relao de fundo entre a varivel resposta e as
variveis preditoras da forma:
Y = f (x
1
, x
2
, ..., x
p
;) + ,
onde
R
k
um vector de k parmetros.
f uma funo real no linear
um erro aleatrio aditivo de valor esperado nulo..
J. Cadima (DM/ISA) Modelao Estatstica II 2010-11 76 / 416
A Regresso no linear (cont.)
Uma maneira alternativa de formular o modelo:
E[ Y| X
1
= x
1
, X
2
= x
2
, ..., X
p
= x
p
] = f (x
1
, x
2
, ..., x
p
; ) ,
com os valores de Y a oscilar em torno deste valor esperado atravs
dum erro aleatrio aditivo, , de mdia nula.
Com esta formulao, os preditores X
i
podem ser aleatrios, mas
apenas se modela o valor esperado condicional aos valores
observados dos preditores.
As funes no lineares
partida, f uma funo no linear genrica, mas , em geral,
necessrio admitir algumas condies de regularidade (e.g.,
derivabilidade, etc.) para se poder fazer uma parte do estudo do
modelo.
No que se segue, admite-se que f verica as propriedades que sejam
necessrias.
Tal como na Regresso Linear, admite-se que a forma genrica da
funo f conhecida, cando em aberto a estimao e inferncia
associada ao vector de parmetros, .
Exemplos: f exponencial, f potncia, etc.
A estimao de parmetros
Como na Regresso linear, os parmetros podem ser estimados
sem hipteses ulteriores pelo mtodo dos mnimos quadrados.
Com base em n observaes {(x
1(i )
, x
2(i )
, ..., x
p(i )
, y
i
)}
n
i =1
, toma-se
como estimador de , o vector

que minimiza a soma de quadrados
dos resduos e
i
= y
i
y
i
= y
i
f (x
1(i )
, x
2(i )
, ..., x
p(i )
; ):
min
i =1
_
y
i
f (x
1(i )
, x
2(i )
, ..., x
p(i )
; )
2
.
A obteno dos estimadores

exige algoritmos numricos adequados
e no computacionalmente trivial.
A estimao de parmetros (cont.)
Tal como na Regresso linear, caso se pretenda obter tambm
resultados inferenciais sobre os parmetros ser necessrio exigir
pressupostos adicionais no modelo.
Os pressupostos adicionais na Regresso no linear so anlogos
aos que se exigem na regresso linear: erros aleatrios aditivos
independentes;
de mdia zero;
de distribuio normal; e
de varincias homogneas.
Por outras palavras:
i
N (0,
2
) i = 1, ..., n independentes,
N
n
(0,
2
I
n
)
Regresses linearizadas e regresses no lineares
Por vezes uma relao no linear entre Y e X
1
, X
2
, ..., X
p
, pode ser
transformada numa relao linear entre Y
e X
1
, X
2
, ..., X
p
(onde os
asteriscos indicam uma varivel transformada).
Tais transformaes chamam-se transformaes linearizantes.
Mas a regresso no linear til porque:
H relaes no lineares que no so linearizveis
(fundamentalmente no lineares);
mesmo que a relao de base Y = f (X
1
, ..., X
P
;) seja
linearizvel, estimar os parmetros na relao linearizada no
produz os mesmos resultados que estimar os parmetros na
relao no linear original.
alm disso, diferente admitir que h erros aleatrios aditivos
com as propriedades usuais na relao no linear ou na relao
linearizada, como se exemplicar adiante.
Algumas relaes no lineares importantes
Em aplicaes biolgicas, h muitos tipos de relaes no lineares de
interesse:
Modelos de crescimento;
Modelos de rendimento;
Relaes alomtricas;
etc., etc.
Vamos considerar alguns exemplos de relaes no lineares
frequentes em aplicaes biolgicas, com uma nica varivel
preditora.
Modelo de crescimento exponencial
y = f ( x
..
p = 1
var .
; ,
..
k = 2
param.
) = e
x
, x R
0 1 2 3 4 5
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
x
0
.
5

*

e
x
p
(
1
.
2
5

*

x
)
> 0
0 1 2 3 4 5
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
x
0
.
5

*

e
x
p
(
1
.
2
5

*

x
)
< 0
Modelo exponencial (cont.)
Recordar que
f
(x) a taxa de variao instantnea de f (x).

f
(x)
f (x)
a taxa de variao instantnea relativa de f (x).
Motivao: A relao exponencial a soluo da equao diferencial
y
(x)
y(x)
= ,
y
(x) = y(x)
Ou seja, a relao exponencial vem de admitir que
A taxa instantnea relativa de crescimento de y constante;
Ou, equivalentemente, a taxa instantnea de crescimento de y
proporcional a y.
Parametrizaes alternativas do modelo exponencial
y(x) = e
x
dois parmetros: e .
y(x) = e
k (x)
dois parmetros: e k (k = e = e

).
y(x) = c e
k (x)
trs parmetros: c, e k
Mas h sobreparametrizao: k = e = c e

.
y(x) =
x
dois parmetros: e ( = e
).
Parametrizaes alternativas podem ter vantagens ou desvantagens
no plano da interpretao dos parmetros;
no plano do ajustamento e estudo do modelo.
Parametrizaes alternativas da exponencial (cont.)
y(x) = e
x
- ordenada na origem: y(0) = .
- taxa de variao relativa instantnea: =

y
(x)
y(x)
.
y(x) = e
k (x)
- valor de x onde y toma o valor 1: y() = 1.
k - taxa de variao relativa instantnea: k =

y
(x)
y(x)
.
y(x) =
x
- ordenada na origem: y(0) = .
- aumento de uma unidade em x provoca uma variao

multiplicativa de y em vezes: y(x +1) = y(x).
As vantagens/desvantagens no plano do ajustamento e estudo sero
consideradas adiante.
A linearizao da exponencial
Se > 0, a relao exponencial uma relao linearizvel:
y = e
x
lny = ln + x
y
=
0
+
1
x
que uma relao linear entre y
= lnY e x
(com
0
= ln e
1
= ).
Mas a estimativa de mnimos quadrados para no em geral igual,
no modelo linear e no modelo no linear (nem a de e
so
directamente relacionveis).
Preveno
O modelo
_
y
i
=
0
+
1
x
i
+
i
i = 1, ..., n (y
= lny)
N
n
(0,
2
I
n
)
no equivalente ao modelo
_
y
i
= e
x
i
+
i
i = 1, ..., n
N
n
(0,
2
I
n
)
equivalente a um modelo
_
y
i
= e
x
i
i
i = 1, ..., n
Lognormal
Relao potncia (alomtrica)
y = f ( x
..
p = 1
var .
; ,
..
k = 2
param.
) = x
, x R
+
0 1 2 3 4 5
0
2
4
6
8
1
0
1
2
x
0
.
5

*

x
^
2
y = x
> 1
0 1 2 3 4 5
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
x
0
.
5

*

x
^
(
1
/
2
)
y = x
< 1
Modelo potncia (cont.)
Motivao: A relao potncia surge quando se admite que X e Y so
ambas funes duma terceira varivel (e.g., o tempo t ), e que as taxas
relativas de crescimento de y(t ) e x(t ) so proporcionais:
y
(t )
y(t )
=
x
(t )
x(t )
,
A constante de proporcionalidade o expoente na relao
potncia.
Este modelo tem grande aplicao em problemas de alometria, onde
se estuda a relao entre comprimentos/pesos duma parte e dum todo
de um organismo, ou entre duas diferentes partes dum organismo.
Se = 1 fala-se em isometria: iguais taxas relativas de
crescimento.
Se > 1 fala-se em alometria positiva: a taxa relativa de
crescimento de y maior que a de x.
Se < 1 fala-se em alometria negativa: a taxa relativa de
crescimento menor que a de x.
A linearizao da relao potncia
Se > 0, a relao potncia uma relao linearizvel:
y = x
lny = ln + lnx
y
=
0
+
1
x
que uma relao linear entre y
= lnY e x
= lnx
(com
0
= ln e
1
= ).
De novo, a estimativa de mnimos quadrados para no em geral
igual, no modelo linear e no modelo no linear (nem as de e
so
relacionveis).
Preveno
O modelo
_
y
i
=
0
+
1
x
i
+
i
i = 1, ..., n (y
= lny e x
=lnx)
N
n
(0,
2
I
n
)
no equivalente ao modelo
_
y
i
= x
i
+
i
i = 1, ..., n
N
n
(0,
2
I
n
)
equivalente a um modelo
_
y
i
= x
i

i
i = 1, ..., n
Lognormal
Modelo Logstico
O modelo exponencial irrealista a longo termo.
O modelo de crescimento logstico (Verhulst, 1838) uma alternativa
ao modelo de crescimento exponencial.
O modelo logstico admite a existncia de uma capacidade de
sustentao do meio que limita um crescimento que, de outra forma,
seria exponencial.
Modelo logstico (cont.)
y = f ( x
..
p =1
var .
; , k,
. .
k = 3
param.
) =

1+e
k(x)
, x R
(com , k > 0). A curva logstica um exemplo duma curva sigmide.
0 1 2 3 4 5 6
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
x
1
/
(
1

+

e
x
p
(
4

+

1
.
5

*

x
)
)
)
Relao logstica (cont.)
Motivao: A relao logstica y(x) =

1+e
k(x)
soluo da equao
diferencial:
y
(x)
y(x)
= k
k
y(x),
A equao diferencial correponde a dizer que a taxa relativa de
crescimento de y, em ordem a x, decresce linearmente com y.
Para y(x) 0, a taxa relativa de crescimento de y aproximadamente
constante (k) e a logstica tem um crescimento aproximadamente
exponencial. medida que y cresce, a sua taxa relativa de
crescimento vai-se tornando mais lenta. Para y(x) , a taxa relativa
de crescimento de y aproximadamente nula e a logstica tende a
estabilizar (deixar de crescer).
Propriedades da logstica
y = uma assintota horizontal direita, e
y =0 uma assintota horizontal esquerda.
y(x) uma funo estritamente crescente.
y(x) s toma valores em ]0, [.
diz-se a capacidade de sustentao do meio.
y atinge metade da capacidade de sustentao em x = :
y() =

2
.
y(x) tem:
concavidade para cima se x < ;
concavidade para baixo se x > ;
ponto de inexo em x = .
y
(x) tem mximo e x = , com valor y
() =
k
4
.
y(x) tem simetria em torno do seu ponto de inexo:
y( ) = y( +) 0 .
NOTA: A logstica tem uma certa rigidez.
Os parmetros da logstica
Na forma utilizada,
y(x) =

1+e
k(x)
=
e
k(x)
1+e
k(x)
,
capacidade de sustentao do meio;
vrios signicados:
abcissa do ponto de simetria;
abcissa do ponto de inexo
ponto onde y alcana metade do seu valor mximo;
ponto onde a taxa de crescimento y
(x) mxima.
k taxa relativa de crescimento mxima, correpondente fase de
arranque do crescimento.
Outra parametrizao da logstica
y(x) =

1+e
k x
.
Corresponde a tomar = e
k
.
Modelo Gompertz
O modelo de Gompertz outra alternativa ao modelo de crescimento
exponencial.
No modelo de Gompertz tambm se admite a existncia de uma
capacidade de sustentao do meio que limita um crescimento. A
curva de Gompertz tambm uma sigmide.
No modelo de Gompertz, a taxa relativa de crescimento de y no
constante (como na exponencial), nem decresce linearmente em y
(como na logstica), mas decresce exponencialmente em x.
Modelo Gompertz (cont.)
y = f ( x
..
p =1
var .
; , k,
. .
k = 3
param.
) = e
e
k(x)
, x R
(com , k > 0).
0 2 4 6 8 10
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
x
g
o
m
p
e
r
t
z
(
x
,

a
l
f
a
,

k
,

g
a
m
a
)
= 2
k = 1
= 3
Relao de Gompertz (cont.)
Motivao: A Gompertz y(x) = e
e
k(x)
soluo da equao
diferencial:
y
(x)
y(x)
= k e
k(x)
,
A equao diferencial correponde a dizer que a taxa relativa de
crescimento de y, em ordem a x, decresce exponencialmente com o
aumento de x (que frequentemente representa tempo).
Propriedades da Gompertz
y(x) tem:
No ponto de inexo x = , y atinge menos de metade da
capacidade de sustentao: y() =

e
<

2
.
y
(x) tem mximo em x = , com valor y
() =
k
e
.
y(x) no tem simetria em torno do seu ponto de inexo.
NOTA: A Gompertz tem mais exibilidade que a logstica.
Os parmetros da Gompertz
Na forma utilizada,
y(x) = e
e
k(x)
,
vrios signicados:
abcissa do ponto de inexo;
ponto onde y alcana proporo

1
e
do seu valor mximo;
(x) mxima.
k taxa relativa de crescimento em x = (parmetro de controlo
da velocidade de queda da taxa de crescimento relativa).
O efeito dos parmetros nos grcos
Eis o efeito de variar cada um dos parmetros da Gompertz:
0 2 4 6 8 10
0
1
2
3
4
Gompertz varios alfa
x
y
= 4
= 2
= 1
0 2 4 6 8 10
0
1
2
3
4
Gompertz varios k
x
y
k = 1
k = 2
k = 0.5
0 2 4 6 8 10
0
1
2
3
4
Gompertz varios gama
x
y
= 3
= 5
= 1
Uma propriedade da Gompertz
A Gompertz possui uma propriedade curiosa: qualquer potncia
positiva duma Gompertz ainda uma Gompertz.
De facto,
y(x) = e
e
k(x)
y(x)
e
e
k(x
)
,
com
= +
ln
k
.
Parametrizaes alternativas da Gompertz
y(x) = e
e
k(x)
- capacidade de sustentao do meio.
- abcissa do ponto de inexo.
k - parmetro de controlo da taxa de crescimento.

y(x) = e
e
kx
. (Corresponde a =e
k
)
, k mantm a interpretao anterior;
de interpretao mais difcil que ...

y(x) =
x
. (Corresponde a = e
= e
e
k
e = e
k
).
- capacidade de sustentao do meio.
, - interpretao pouco clara.

F.d.c.s como curvas de crescimento
A funo distribuio cumulativa de qualquer varivel aleatria
contnua, F(x) = P[X x], uma sigmide, com valores entre 0 e 1.
Se F(x;) uma f.d.c., ento
f (x; , k, ,) = F [k(x );]
pode ser usada como curva de crescimento sigmide, sendo
a capacidade de sustentao do meio;
, k, parmetros de controlo do crescimento.
Exemplo. Seja (x) a f.d.c. duma Normal reduzida. A funo
f (x) = [k(x )]
( f.d.c. duma N
_
,
1
k
_
) uma curva de crescimento sigmide.
Modelo de Richards
A tentativa de exibilizar ao mximo curvas de crescimento sigmides
levou proposta da curva de Richards, com 4 parmetros:
y = f ( x
..
p = 1
var .
; , k, ,
. .
k = 4
param.
) =
_
1+( 1)e
k(x)
_ 1
1
, x R
(com , k > 0 e > 1).
2 0 2 4 6 8 10
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
x
r
i
c
h
a
r
d
s
(
x
,

2
,

1
,

3
,

2
)
Relao de Richards (cont.)
Motivao: Generaliza as curvas logstica e de Gompertz:
Quando = 2 tem-se a logstica.
Em limite, quando 1
+
surge a Gompertz.
Para ver este ltimo limite, recorde-se que lim
z+
_
1+
c
z
_
z
= e
c
e repare-se que, ao
tomar o limite em , podemos escrever a curva de Richards como:
_
1+( 1)e
k(x)
_ 1
1
=

_
1+
e
k(x)
1
1
_ 1
1
=

_
1+
c
z
z
,
com z =
1
1
(que tende para + quando tende para 1
+
) e c = e
k(x)
(que
constante em relao ao limite em ). Logo, o limite vem
lim
z+
_
1+
c
z
_
z
=

e
c
= e
c
= e
e
k(x)
,
que a expresso da Gompertz.
NOTA: A maior exibilidade da Richards tem um custo: o nmero
elevado de parmetros.
Propriedades da Richards
y(x) tem:
No ponto de inexo x = , y atinge um valor que controlado
pelo parmetro : y() = k
1/(1)
.
y
(x) tem mximo e x = , com valor y
() = k
/(1)
.
y(x) no tem simetria em torno do seu ponto de inexo.
Os parmetros da Richards
Na forma utilizada,
y(x) =
_
1+( 1)e
k(x)
_ 1
1
,
vrios signicados:
abcissa do ponto de inexo;
(x) mxima.
k parmetro de controlo da taxa de crescimento.
parmetro de controlo da ordenada no ponto de inexo.
O efeito do parmetro
A maior exibilidade da curva de Richards, que permite controlar a
ordenada do ponto de inexo, bem como a forma da curva,
ilustrada neste grco, para trs valores de :
10 5 0 5 10
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
Richards, com alfa=2, k=1, gama=3
x
r
i
c
h
a
r
d
s
(
x
,

2
,

1
,

3
,

2
)
= 5
= 2
= 1.5
Modelo de von Bertalanffy
Nem todos os modelos de crescimento so sigmides.
No modelo de von Bertalanffy, y cresce para uma assntota horizontal
superior, sendo a distncia que falta percorrer dada por uma
exponencial decrescente:
y = f ( x
..
p = 1
var .
; , k,
. .
k =3
param.
) =
_
1e
k (x)
_
, x (k, > 0)
3 4 5 6 7 8 9 10
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
x
v
o
n
B
e
r
t
a
l
a
n
f
f
y
(
x
,

a
l
f
a
,

k
,

g
a
m
a
)
= 2
k = 1
= 3
Modelo von Bertalanffy (cont.)
Tambm um caso particular do modelo Richards, com = 0
(como < 1, a Richards j no tem que ter a forma sigmide).
Motivao: A relao de von Bertalanffy a soluo da equao
diferencial
y
(x) = k [ y(x)] ,
Ou seja, a relao de von Bertalanffy admite que a taxa instantnea
de crescimento de y decresce linearmente com y.
Com muita frequncia, x representa o tempo.
Recordar: A logstica resulta de admitir uma relao semelhante, mas
para a taxa relativa de crescimento.
Propriedades da von Bertalanffy
y = uma assintota horizontal direita
(No h assntota esquerda - recordar o domnio x ).
y(x) s toma valores em [0, [.
y(x) tem concavidade sempre voltada para baixo.
Os parmetros da von Bertalanffy
Na forma utilizada,
y(x) = [1e
k(x)
],
ponto inicial do domnio de x (tempo inicial x
0
).
k parmetro de controlo da taxa de crescimento de y
(A taxa de crescimento inicial lim
x
+
y
(x) = k).
Com frequncia conhecido, uma vez que o valor inicial de x,
que muitas vezes o tempo. Neste caso, o modelo ca reduzido a
dois parmetros: e k.
Utilizao do modelo von Bertalanffy
Utilizado em vrios contextos, como por exemplo:
Nas pescas, o modelo mais frequente para relacionar o
comprimento dum peixe (y) com a sua idade (x).
Os parmetros e k so especcos de cada espcie.
No estudo de fogos orestais usado para descrever a
recuperao da biomassa (y) como funo do tempo (x) aps um
fogo. Neste contexto conhecido por Modelo de Olson ou
monomolecular.
No estudo do crescimento de tumores.
Modelo Michaelis-Menten
Um modelo cujas propriedades qualitativas so semelhantes ao do
modelo von Bertalanffy o modelo de Michaelis-Menten:
y = f ( x
..
p = 1
var .
;
1
,
2
. .
k = 2
param.
) =

1
x
2
+x
, x 0 (
1
,
2
> 0)
0 1 2 3 4 5 6
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
x
x
/
(
2

+

3

*

x
)
O modelo Michaelis-Menten linearizvel
Tomando recprocos, pode linearizar-se a relao
y =

1
x
2
+x
Obtm-se uma relao linear entre Y
=
1
Y
e x
=
1
x
,
com
=

2
1
e
=
1
1
:
1
Y
=

2
1
1
x
+
1
1
Y
,
Propriedades do modelo Michaelis-Menten
y =
1
uma assintota horizontal direita
(No h assntota esquerda - recordar o domnio x 0).
y(x) s toma valores em [0,
1
[.
1
y(x) tem concavidade sempre voltada para baixo.
Parmetros da Michaelis-Menten
Na forma utilizada,
y(x) =

1
x
2
+x
,
1
2
parmetro de controlo da taxa de crescimento de y
(A taxa de crescimento inicial y
(0) =

1
2
).
Parametrizaes alternativas do Michaelis-Menten
y(x) =

1
x
2
+x
1
capacidade de sustentao do meio.
2
parmetro de controlo da taxa de crescimento.
y(x) =
x
1+
x
k
. (Corresponde a k =
2
, =

1
2
)
k capacidade de sustentao do meio;
k parmetro de controlo da taxa de crescimento.

y(x) =
x
+ x
. (Corresponde a =

2
1
e =
1
1
).
1/ - capacidade de sustentao do meio.
- parmetro de controlo da taxa de crescimento.

Utilizao do modelo Michaelis-Menten
Utilizado em vrios contextos, como por exemplo:
No estudo de reaces enzimticas;
Nas pescas, o modelo Beverton e Holt para o recrutamento y
(nmero de peixes numa nova gerao), como funo dos
mananciais (stocks) x de progenitores.
No estudo de rendimentos agrcolas usado para descrever o
rendimento total y (produo por unidade de rea) como funo
da densidade x da cultura (nmero de plantas por unidade de
rea). Neste contexto conhecido por Modelo Shinozaki & Kira.
Modelos de rendimento
Uma classe de modelos utilizada em produes agrcolas (mas no
s) a dos chamados modelos de rendimento, onde se relaciona:
y - rendimento total duma cultura (produo por unidade de rea).
x - densidade da cultura (nmero de plantas por unidade de rea).
Em geral, a produo/planta (y/x) tende a diminuir com o aumento de
densidade, devido concorrncia por recursos.
O rendimento global (y) pode:
aumentar sempre (os chamados modelos assintticos), de que o
modelo Michaelis-Menten exemplo; ou
diminuir a partir de certa altura (os chamados modelos
parablicos).
Modelos de rendimento parablicos
Nos modelos de rendimento parablicos, o rendimento total decresce
para valores mais elevados de x (densidade):
0 5 10 15
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
x
1
.
5

*

x

*

e
x
p
(
x
/
2
)
Exemplos de modelos de rendimento parablico
So exemplos de modelos de rendimento parablicos:
O modelo de Holliday (1960, agricultura, 3 parmetros):
y =
x
+x +x
2
O modelo de Bleasdale & Nelder (1960, agricultura, 4
parmetros):
y = x
_
+x
_
1/
[Nas pescas, Deriso (1980), s com 3 parmetros: = 1].
O modelo de Ricker (1954, pescas, 2 parmetros):
y = xe
x/k
O modelo de Shepherd (1982, pescas, 3 parmetros):
y =
x
1+
_
x
k
_
c
Modelo hiperblico
Relaes em que y decresce medida que x aumenta podem ser
descritas por uma relao de (quase) proporcionalidade inversa:
y = f ( x
..
p = 1
var .
; ,
..
k = 2
param.
) =
1
+ x
, x R ( > 0)
0 1 2 3 4 5 6
0
1
2
3
4
x
1
/
(
0
.
2

+

3

*

x
)
Linearizao do modelo hiperblico
Tomando recprocos, obtm-se uma relao linear entre Y
=1/Y e x:
1
Y
= + x Y
= + x .
Usado na modelao de rendimento por planta (y) vs. densidade da
cultura ou povoamento (x).
Se a relao entre rendimento per capita e densidade segue o modelo
hiperblico, a relao entre rendimento total e densidade segue o
modelo Shinozaki & Kira (Michaelis-Menten).
Estimao de parmetros na regresso no linear
Para estimar os parmetros numa regresso no linear parte-se de
_
Y = f (x,) +
E[] = 0
e de n observaes nas variveis do modelo, {(x
i
, y
i
)}
n
i =1
.
Critrio: minimizar a soma de quadrados dos resduos:
min
S() = min
i =1
e
2
i
= min
i =1
[y
i
f (x
i
,)]
2
= min
y f
2
,
onde
= (
1
,
2
, ...,
k
) o vector dos k parmetros (incgnitas de S);
y vector com as n observaes de Y;
f
vector com os n valores da funo f (x,), dadas as n

observaes dos preditores x
i
e valores para os parmetros .
Visualizao geomtrica do critrio
Vista como funo das p variveis preditoras X
i
, e dados os valores
dos parmetros , o grco de f uma superfcie no linear em R
p+1
:
x
1
x
2
x
3
x
p
R
p+1
Y =f (x,)
(x
1
, y
1
)
(x
3
, y
3
)
(x
2
, y
2
)
(x
n
, y
n
)
y
e
1
e
n
Procura-se o cuja superfcie associada minimiza S() =
n
i =1
e
2
i
.
Visualizao geomtrica alternativa
Em vez do grco de f , pode-se considerar o grco da funo
objectivo S() =y f
2
. funo dos k parmetros :
p
R
k+1
z = S()
z
min
p
Procura-se o mnimo global da funo S().
Estimao dos parmetros
O mnimo global de S() :
um mnimo local no interior do domnio de S; ou
um ponto na fronteira do domnio de S (valores admissveis de ).
Vamos admitir que:
R
k
, sem restries;
f regular (diferencivel em ordem a qualquer
j
).
Condio necessria para que S tenha mnimo local em =
que:
(grad S)
=
= 0
S

j
(
) =0 , j = 1, ..., k .
Estimao dos parmetros (cont.)
S() =
n
i =1
[y
i
f (x
i
,)]
2
Anular as derivadas parciais signica:
S

j
() = 0 , j = 1, ..., k
i =1
[y
i
f (x
i
,)]
f
j
(x
i
,) = 0 , j = 1, ..., k
Designando
e
[y
i
f (x
i
,)] vector dos n resduos;
f
j ()
_
f
j
(x
i
,)
_
vector dos n valores da derivada parcial de f
em ordem a
j
.
Condio para a existncia de ponto crtico de f em :
e
t
j ()
, j = 1, ..., k .
Estimao dos parmetros (cont.)
Podem escrever-se estas k condies numa nica equao matricial.
Seja D
a matriz cujo elemento (i , j ) d

ij
=
f

j
(x
i
,). Ou seja,
A linha i de D
o gradiente de f no ponto (x
i
,) (com i =1, ..., n).
A coluna j de D
o vector f
j ()
(com j = 1, ..., k).
Condio necessria para que haja mnimo local de S() em
que:
D
t
= 0 .
Esta condio signica que o vector dos resduos tem de ser
ortogonal aos k vectores f
j ()
(das derivadas parciais de f ).
Mas cada possvel vector determina quer o vector dos residuos, quer
os vectores das derivadas parciais. Como determinar o vector
que
garante a ortogonalidade desejada? Necessrios mtodos numricos!
Exemplo 1 - Regresso linear mltipla
f (x,) =
0
+
1
x
1
+
2
x
2
+... +
p
x
p
.
Neste caso, as derivadas parciais no dependem de :
_
f

0
(x
i
,) = 1
f

j
(x
i
,) = x
j
(j = 1, ..., p)
Logo, a matriz D
= D no depende de :
D
= D =
_
_
1 x
1(1)
x
2(1)
x
p(1)
1 x
1(2)
x
2(2)
x
p(2)
1 x
1(3)
x
2(3)
x
p(3)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 x
1(n)
x
2(n)
x
p(n)
_
_
= X ,
onde D = X a matriz do modelo do estudo do Modelo Linear.
Exemplo 1 (cont.)
A condio necessria para a existncia de mnimo vem:
D
t
= 0 X
t
[YX
] = 0
X
t
Y = X
t
X
(X
t
X)
1
X
t
Y =
,
como j sabamos do estudo do modelo linear.
Aqui h uma soluo explcita (admitindo que as colunas de X so
linearmente independentes). Para modelos no lineares no assim.
Exemplo 2 Relao potncia
f (x; , ) = x
.
Neste caso, as derivadas parciais dependem de = (, ):
_
f

(x; , ) = x
f

(x; , ) = x
lnx
Logo, a matriz D
de dimenso n2 e depende de , tal como o

vector dos residuos e
:
D
=
_
_
x
1
x
1
lnx
1
x
2
x
2
lnx
2
x
3
x
3
lnx
3
.
.
.
.
.
.
x
n
x
n
lnx
n
_
_
, e
=
_
_
y
1
x
1
y
2
x
2
y
3
x
3
.
.
.
y
n
x
n
_
_
,
Exemplo 2 (cont.)
Logo, a condio necessria vem:
D
t
= 0
_
_
n
i =1
x
i
(y
i
x
i
) = 0
n
i =1
x
i
ln x
i
(y
i
x
i
) = 0
_
n
i =1
y
i
x
i
=
n
i =1
x
2
i
n
i =1
y
i
x
i
ln x
i
=
n
i =1
x
2
i
ln x
i
Este sistema no tem soluo explcita!
O Mtodo de Gauss-Newton na estimao dos
parmetros
Um algoritmo frequentemente usado para estimar os parmetros
numa regresso no linear o de Gauss-Newton:
Passo 1: Escolher uma soluo inicial
[0]
= (
[0]
1
,
[0]
2
, ...,
[0]
k
).
Possibilidades:
utilizar eventuais interpretaes biolgicas dos parmetros
(capacidade de sustentao do meio, ponto de inexo duma
sigmide, etc.) para encontrar bons valores dos parmetros.
caso a relao no linear seja linearizvel, podem utilizar-se os
valores obtidos a partir da relao linearizada
(destransformados).
fazer uma inspeco numrica ad hoc.
Gauss-Newton (cont.)
Passo 2: Linearizar f em torno de
[0]
, utilizando a frmula de Taylor:
f () f (
[0]
) +(grad f )
t
=
[0]
(
[0]
)
f () f (
[0]
) +
f

1
(
[0]
)(
1
[0]
1
) +
f

2
(
[0]
)(
2
[0]
2
) +
+ ... +
f

k
(
[0]
)(
k
[0]
k
)
Passo 3: Aproximar S(), usando a aproximao linear de f .
S() S
[0]
() = Yf(x,
[0]
)
. .
=e
[0]
D
[0]
(
[0]
)
2
= e
[0]
+D
[0]

[0]
. .
sem , apenas
[0]
D
[0]

2
Procuramos o vector =

que minimiza a aproximao S
[0]
().
Repare-se na analogia com o caso linear, em que se procura
minimizar YX
2
. Aqui Y = e
[0]
+D
[0]

[0]
, X = D
[0]
e =.
Passo 4: Minimizar a funo objectivo aproximada, S
[0]
():
=
_
D
[0]
t
D
[0]
_
1
D
[0]
t
_
e
[0]
+D
[0]

[0]
_
,
aproveitando a analogia referida no m do acetato anterior.
Este ltimo vector agora considerado a nova soluo aproximada:
[1]
=
[0]
+
_
D
[0]
t
D
[0]
_
1
D
[0]
t
e
[0]
.
Desencadeia-se agora um processo iterativo que segue os passos
indicados, partindo da nova soluo
[1]
.
Passo 5: Processo iterativo:
Dada uma soluo provisria
[j ]
, linearizar f em torno de
[j ]
:
f () f (
[j ]
) +(grad f )
t
=
[j ]
(
[j ]
)
Usando as observaes {(x
i
, y
i
)}
n
i =1
e esta linearizao, construir
uma nova aproximao da funo objectivo:
S() S
[j ]
() = Yf(x,
[j ]
)
. .
=e
[j ]
D
[j ]
(
[j ]
)
2
Obter uma nova estimativa
[j +1]
:
[j +1]
=
[j ]
+
_
D
[j ]
t
D
[j ]
_
1
D
[j ]
t
e
[j ]
.
Gauss-Newton Critrios de paragem
NOTA: Se, para algum j se vericar D
[j ]
t
e
[j ]
= 0, ter-se-
necessariamente
[j +1]
=
[j ]
da em diante, pelo que a soluo exacta
=
ser a soluo produzida pelo algoritmo.

Em geral, os critrios de paragem podem ser diferentes:
Efectuar um nmero pr-determinado de iteraes.
Quando a modicao
[j ]
[j +1]
fr pequena:
[j ]
[j +1]
abaixo de algum limiar.
Quando a modicao dos resduos e
[j ]
e
[j +1]
fr pequena:
e
[j ]
e
[j +1]

Quando se vericar uma quase ortogonalidade entre o vector
dos resduos e as colunas da matriz D
[j ]
:
D
[j ]
t
e
[j ]

Advertncias sobre o mtodo Gauss-Newton
A convergncia no est garantida.
A soluo inicial
[0]
pode estar demasiado distante do ptimo.
Pode haver no linearidade acentuada em torno de

[j ]
, tornando a
aproximao linear de f pobre. At possvel que
S(
[j +1]
) > S(
[j ]
).
A matriz D
[j ]
pode ter problemas de (quase) multicolinearidade,

comprometendo o clculo de (D
[j ]
t
D
[j ]
)
1
.
Mesmo havendo convergncia, pode ser para um vector
sub-optimal (e.g., um mnimo local que no seja mnimo global).
Distinguir entre
(o mnimo exacto de S()) e

(a soluo nal
do algoritmo).
A estimao de parmetros no
A funo nls (de Nonlinear Least Squares) utiliza uma variante do
mtodo Gauss-Newton para estimar os parmetros duma regresso
no linear pelo mtodo dos mnimos quadrados.
Na sua forma mnima, o comando nls exige dois argumentos:
a formula que indica a relao no linear entre a varivel
resposta Y e os preditores X
1
, ..., X
p
.
o vector start com os valores iniciais dos parmetros da frmula.
Exemplo: Caso se pretenda ajustar um modelo potncia y = x
a
partir de valores iniciais
0
= 3 e
0
= 2, o comando tomaria a forma:
> nls(y ~ alfa*x^beta, start=c(alfa=3, beta=2))
A estimao de parmetros no (cont.)
A modicao do algoritmo Gauss-Newton usada na funo nls o
chamado mtodo de Box-Hartley.
Nesta modicao, a transio do vector
[j ]
de parmetros para o
vector seguinte,
[j +1]
feita a partir da frmula:
[j +1]
=
[j ]
+
_
D
[j ]
t
D
[j ]
_
1
D
[j ]
t
e
[j ]
.
Inicialmente considera-se = 1, o que gera a passagem do mtodo
Gauss-Newton. Mas caso se verique que S
[j +1]
() > S
[j ]
() (ou seja,
que o critrio que se deseja minimizar piorou), so experimentados
valores de correspondentes a metade do anterior, at que a soma
de quadrados residual desa (ou at que atinja um valor mnimo,
que por omisso 1/1024, mas pode ser controlado pelo utilizador).
O critrio de paragem da funo nls do ltimo tipo no acetato 144:
baseia-se no ngulo entre o vector dos resduos no passo em causa
(e
[j ]
) e o hiperplano tangente gerado pelas colunas da matriz D

[j ]
.
Mais concretamente, utiliza o relative offset convergence criterion, dado por
r =
P
D
e
[j ]
k
(I
n
P
D
)e
[j ]
nk
,
onde P
D
indica a matriz de projeco ortogonal sobre o espao gerado pelas colunas
da matriz D
[j ]
. Trata-se duma funo da co-tangente do ngulo entre e

[j ]
e o
hiperplano tangente a f . Valores prximos de zero indicam quase ortogonalidade.
Por omisso, a funo nls considera r <0.00001 como critrio de paragem.
Caso este critrio de paragem no seja atingido, o algoritmo para ao
m dum nmero xo de iteraes (por omisso 50).
Caso se deseje controlar parmetros associados ao critrio de
paragem, pode utilizar-se o argumento control, que aceita como
argumento um vector de novos argumentos.
Entre estes novos argumentos esto:
tol controla o limiar para o critrio de convergncia (acetato
148). Se r < tol, o algoritmo pra.
maxiter controla o nmero mximo de iteraes, aps as quais
o algoritmo pra, mesmo que r ainda exceda o valor tol.
Exemplo: Para repetir o ajustamento do Exemplo anterior, mas
permitindo que se v at 100 iteraes se antes no se tiver vericado
r <110
6
, invoca-se:
> nls(y ~ alfa*x^beta, start=c(alfa=3, beta=2),
+ control=c(tol=1e-6,maxiter=100))
Inferncia na Regresso No Linear
No foram precisas hipteses distribucionais para obter estimadores
de Mnimos Quadrados - tal como no Modelo Linear.
Mas para fazer inferncia estatstica so sempre necessrias
hipteses adicionais.
Vamos introduzir pressupostos adicionais semelhantes aos do Modelo
Linear, admitindo a existncia de erros aleatrios:
aditivos e de mdia zero
Normais
de varincia constante
independentes.
Estas hipteses sobre os erros podem ser sintetizadas usando a
distribuio Multinormal.
A distribuio Multinormal
Seja Y um vector aleatrio n-dimensional. Diz-se que Y tem
distribuio Multinormal, com parmetros dados pelo vector e
a matriz (denida positiva) se a sua funo densidade conjunta fr
dada por:
f
Y
(y) =
1
(2)
n/2
_
det()
e
1
2
(y)
t
1
(y)
, y R
n
Nesse caso, escreve-se: YN
n
(,).
A funo densidade Binormal
x
y
z
Propriedades da distribuio Multinormal
Teorema 3.2 de Modelao Estatstica I
Seja YN
n
(,), ento:
1
E[Y] = e V[Y] =.
2
Distribuies marginais de Y so tambm multinormais.
3
Seja Y = [ Y
t
1
.
.
. Y
t
2
.
.
.
.
.
.Y
t
r
]
t
N
n
(,). Os subvectores Y
i
e Y
j
so independentes se e s se a submatriz de V[Y] =
correspondente fr constituda apenas por zeros.
4
Combinaes lineares das componentes dum vector multinormal
so Normais: a
t
Y N (a
t
, a
t
a).
5
Se C
pn
matriz de caracterstica p n, e a
p+1
um vector
(no-aleatrio), ento CY+a N
p
(C +a, CC
t
).
6
Q = (Y)
t
1
(Y)
2
n
.
Observaes sobre a Multinormal
1
Se Y composto por trs subvectores Y
1
, Y
2
e Y
3
, a alnea 3 do
Teorema implica que Y
1
e Y
2
so independentes se e s se a
matriz V[Y] = fr da forma:
=
_
11
.
.
. 0
.
.
.
13

0
.
.
.
22
.
.
.
23

31
.
.
.
32
.
.
.
33
_
_
2
Na alnea 5 exige-se que car (C) = p n para garantir que
V[Cy+a] = CC
t
seja no singular, isto , que exista [CC
t
]
1
.
Existe uma denio mais geral de distribuio Multinormal,
que aqui no necessria.
O Modelo de Regresso No Linear
Modelo de Regresso No Linear
H n conjuntos de observaes {(x
i
, Y
i
)}, onde:
_
Y
i
= f (x
i
,) +
i
(i = 1, ..., n)
N
n
_
0,
2
I
n
_
,
onde o vector dos n erros aleatrios
i
.
Tendo em conta as propriedades da Multinormal, o que acima se diz
equivale a:
Y
i
= f (x
i
,) +
i
, i = 1, ..., n.
i
Normais.
E[
i
] = 0.
V[
i
] =
2
.
{
i
}
n
i =1
variveis independentes (porque Cov(
i
,
j
) = 0 se i = j ).
Primeiras consequncias
Consequncia:
As observaes da varivel resposta, Y
i
so independentes e:
Y
i
N
_
f (x
i
,),
2
_
i = 1, ...., n
Este resultado decorre das propriedades da Multinormal e traduz-se
na seguintes armao relativa ao vector Y das n observaes Y
i
:
Y N
n
_
f(X,),
2
I
n
_
,
onde f(X,) representa o vector das n mdias f (x
i
,) (i = 1, ..., n).
A inferncia com estimadores MQ
A inferncia baseada nos estimadores de Mnimos Quadrados na
regresso no linear apenas aproximada.
A idea fundamental consiste em:
aproximar a superfcie y = f (x,) pelo seu hiperplano tangente;
utilizar a teoria do Modelo Linear para obter resultados
distribucionais aproximados que permitam a inferncia.
H mais do que uma fonte de aproximao nos resultados
inferenciais, e a qualidade dos mesmos pode ser pobre.
Problemas grandes surgem sobretudo com:
superfcies fortemente no lineares (aproximao linear fraca).
amostras pequenas.
Os estimadores de Mxima Verosimilhana
A introduo dos pressupostos distribucionais adicionais permite
encarar um mtodo alternativo de estimao dos parmetros do
modelo: o mtodo da Mxima Verosimilhana.
Este mtodo vai ter duas vantagens:
produz os mesmos estimadores que o mtodo dos Mnimos
Quadrados.
permite utilizar as propriedades assintticas gerais dos
estimadores de Mxima Verosimilhana, estudados na disciplina
de Complementos de Probabilidades e Estatstica deste
Mestrado.
O Mtodo da Mxima Verosimilhana
Admita-se que temos uma amostra aleatria de n observaes
independentes Y
i
, com distribuio g(y
i
,). Ento a distribuio
conjunta das n observaes :
n
i =1
g(y
i
,) .
Olhando para esta ltima funo como funo dos parmetros , e
considerando as observaes como xas, temos a chamada funo
verosimilhana da amostra:
L(; y) =
n
i =1
g(y
i
,) .
Os estimadores de mxima verosimilhana dos parmetros so
dados pelo vector =

que maximiza a funo verosimilhana.
A funo verosimilhana no Modelo No Linear
No nosso contexto,
recordar que g(y
i
,) a densidade duma N
_
f (x
i
,),
2
_
.
H parmetros , mas tambm
2
.
a funo verosimilhana da amostra :
L(,
2
, y, X) =
n
i =1
1
2
e
1
2
[y
i
f (x
i
;)]
2
2
=
_
1
2
2
_
n
e
1
2
2
n
i =1
[y
i
f (x
i
,)]
2
O logaritmo da funo verosimilhana :
L(, ; y, X) =
n
2
ln(2
2
)
1
2
2
n
i =1
[y
i
f (x
i
,)]
2
=
n
2
ln(2
2
)
1
2
2
S()
Estimadores de mxima verosimilhana (cont.)
Maximizar a verosimilhana equivalente a maximizar a
log-verosimilhana (o logaritmo uma funo crescente).
Mas maximizar a log-verosimilhana (como funo de )
L(; , y, X) =
n
2
ln(2
2
)
1
2
2
S()
equivale a minimizar S().
Logo, na regresso no linear, os estimadores de Mxima
Verosimilhana so os estimadores de Mnimos Quadrados de .
Propriedades dos estimadores MV
Sabemos (da disciplina CPE), que estimadores de mxima
verosimilhana so:
assintoticamente multinormais
assintoticamente centrados (E[
] ).
assintoticamente de matriz de varincias-covarincias I
1
, onde
I
= E[H
]
a matriz de Informao de Fisher, sendo H
a matriz Hessiana
da log-verosimilhana L, no ponto , cujo elemento (j , m) :
_
H
_
(j ,m)
=

2
L

j

m
Estimadores de mxima verosimilhana (cont.)
No nosso contexto,
I
= E[H
] =
1
2
D
t
I
1
=
2
(D
t
)
1
Logo, assintoticamente tem-se
N
k
_
,
2
(D
t
)
1
_
Combinaes lineares dos parmetros
Se (aproximadamente)

N
k
(,
2
(D
t
)
1
) , tem-se, para
qualquer combinao linear dos k parmetros, a
t
=a
1
1
+... +a
k
k
:
(Teorema 3.2, disciplina de Modelao Estatstica I)
a
t
N ( a
t
,
2
a
t
(D
t
)
1
a ) .
Reduzindo a Normal,
a
t
a
t
2
a
t
(D
t
)
1
a
N (0, 1) .
Inferncia Multivariada
(Teorema 8.1, disciplina de Estatstica Multivariada, que garante
que WN
n
(,) Q = (W)
t
1
(W)
2
n
):
Q =
(
)
t
(D
t
)(
2

2
k
.
Subsiste o problema usual: a varincia dos erros
2
desconhecida.
Procuremos um estimador de
2
.
Estimador MV para
2
O estimador de Mxima Verosimilhana para
2
resulta de anular a
derivada parcial de L em ordem a
2
(vista como uma quantidade
nica, e no como um quadrado, e admitindo os xos). Tendo em
conta a expresso da log-verosimilhana (acetato 161), vem:
L

2
(
2
; x, y,) = 0

n
2
2
+
1
2(
2
)
2
S() = 0

2
=
S()
n
.
Mas hbito usar um outro estimador (mltiplo deste), que resulta da
teoria de Mnimos Quadrados e permite associar um resultado
distribucional:

2
=
S(
)
nk
.
Estimador MQ para
2
Linearize-se f em torno do verdadeiro vector dos parmetros, que
neste ponto indicado por =
v
(para diferenciar do que
representa a varivel livre)):
f () f (
v
) +(grad f )
t
=
v
(
v
)
f (
v
) +D
v
(
v
)
sendo D
v
a matriz das derivadas parciais, calculada em =
v
.
Esta linearizao uma primeira fonte de aproximao.
Por analogia com o que se fez no acetato 141, obtm-se, com base
nesta aproximao, uma aproximao funo da soma de
quadrados de resduos, S().
A inferncia (cont.)
Considere esta aproximao soma de quadrados dos resduos:
S() Yf(x,
v
)
. .
=
D
v (
v
)
2
= ( +D
v
v
) D
v
2
,
sendo o vector dos erros aleatrios.
Por analogia com o Modelo Linear, esta funo mnima em:
=
v
+(D
t
v D
v
)
1
D
t
v ,
= D
v
(
v
) = D
v
(D
t
v D
v
)
1
D
t
v = P
D
v
,
sendo P
D
v
a matriz de projeco ortogonal sobre o subespao
gerado pelas colunas da matriz D
v
.
Logo, a aproximao de S() tem mnimo (aproximado):
minS() (I
n
P
D
v
)
2
=
t
(I
n
P
D
v
) .
A inferncia (cont.)
Em Modelao Estatstica I viu-se (Teorema 3.7) que,
XN
n
(0,) X
t
AX
2
tr(A)
se e s se AA =A.
Tomando X = e A=
I
n
P
D
, verica-se a condio, pelo que:

S(
2

2
nk
A inferncia (cont.)
Admitindo a distribuio
2
nk
, ter-se-ia:
E
_
S(
2
_
= nk E
_
S(
)
nk
_
=
2
,
pelo que, tal como na regresso linear, se toma como estimador da
varincia
2
dos erros aleatrios:

2
=
S(
)
nk
.
A inferncia (cont.)
Os resultados distribucionais (aproximados) do acetato 164 signicam,
por analogia com o Modelo Linear, que para qualquer combinao
linear dos k parmetros, a
t
= a
1
1
+a
2
2
+... +a
k
k
(agora volta a
designar o verdadeiro valor dos parmetros), se tem:
a
t
a
t
2
a
t
(D
t
)
1
a
N (0, 1) =
a
t
a
t
_

2
a
t
(D
t
)
1
a
t
nk
.
Mas subsiste um obstculo utilizao prtica deste resultado: a
matriz D
(a matriz das derivadas parciais de f em ordem aos k

parmetros, no ponto ptimo ) desconhecida.
A soluo mais pragmtica do que teoricamente correcta:
substitui-se a matriz desconhecida D
pela matriz conhecida D
.
A inferncia (cont.)
O resultado do acetato anterior permite ( semelhana do que se faz
no Modelo Linear) construir intervalos de conana e efectuar testes
de hipteses para qualquer combinao linear dos parmetros .
Em particular
a
t
= a
1
1
+a
2
2
+... +a
k
k
inclui dois importantes casos particulares:
1
Se a =e
i
(i -simo vector da base cannica de R
k
), ento a
t
=
i
.
2
Se a = e
i
e
j
, ento a
t
=
i
j
.
ICs para combinaes lineares de parmetros
Um intervalo a (1) 100% de conana para a combinao linear
a
t
:
_
a
t
2
;nk

a
t
, a
t
+t
2
;nk

a
t
_
sendo
a
t
=
_

2
a
t
(D
t
)
1
a.
Casos particulares de ICs para a
t
Parmetros individuais (a = e
j
)
Um intervalo a (1) 100% de conana para
j
:
_

j
t
2
;nk

j
,

j
+t
2
;nk

j
_
,
sendo
j
=
_

2
(D
t
)
1
(j ,j )
.
Soma/diferena de parmetros (a = e
i
e
j
)
um intervalo a (1) 100% de conana para
i
j
:
_
(
j
) t
2
;nk

j
, (
j
) +t
2
;nk

j
_
,
com
j
=
_
V[
i
] +

V[
j
] 2

Cov[
i
,

j
].
Teste bilateral a uma comb. linear dos parmetros
Hipteses: H
0
: a
t
= c vs. H
1
: a
t
= c
Estatstica do Teste: T =
a
t

a
t
|H
0

a
t
t
nk
,
(com
a
t
=
_

2
a
t
(D
t
)
1
a).
Nvel de signicncia: Escolher = P[Rejeitar H
0
| H
0
verdade].
Regio Crtica: (Bilateral) Rejeitar H
0
se |T
calc
| > t
2
;nk
.
Concluso: Calcular o valor da estatstica,
T
calc
=
a
t
c

a
t
,
Decidir sobre a rejeio, ou no, de H
0
.
Teste unilateral direito a a
t
Hipteses: H
0
: a
t
c vs. H
1
: a
t
> c
a
t

c

a
t
t
nk
,
_
com
a
t
=
_

2
a
t
(D
t
)
1
a
_
.
Nvel de signicncia: Escolher o nvel de signicncia .
Regio Crtica: (Unilateral direita) Rejeitar H
0
se T
calc
> t
;nk
.
Concluso: Determinar T
calc
para a amostra observada e decidir.
Teste unilateral esquerdo a a
t
.
Hipteses: H
0
: a
t
c vs. H
1
: a
t
< c
a
t

c

a
t
t
nk
,
_
com
a
t
=
_

2
a
t
(D
t
)
1
a
_
.
Nvel de signicncia: Escolher o nvel de signicncia .
Regio Crtica: (Unilateral esquerda) Rej. H
0
se T
calc
<t
;nk
.
Concluso: Determinar T
calc
para a amostra observada e decidir.
p-values
p-value ou valor de prova da estatstica calculada:
probabilidade da estatstica de teste tomar um valor to, ou
mais, extremo que T
calc
, onde a denio de extremo est
associada ao tipo de regio crtica relevante.
Se Regio Crtica unilateral direita, p = P[ T > T
calc
].
Se Regio Crtica unilateral esquerda, p = P[ T < T
calc
].
Se Regio Crtica bilateral, p =2P[ T > |T
calc
| ].
A inferncia no
Existem mtodos para os objectos produzidos pela funo nls,
semelhana do que sucedia com o comando lm na Regresso Linear.
Eis alguns exemplos.
O comando summary aplicado aos dados do Exerccio 6:
> videiras.nls <- nls(Area ~ alfa * NP^beta, start = c(alfa=1,beta=1),
+ data = videiras)
> summary(videiras.nls)
Formula: Area ~ alfa * NP^beta
Parameters:
Estimate Std. Error t value Pr(>|t|)
alfa 1.59338 0.16208 9.831 <2e-16 ***
beta 1.92777 0.04031 47.821 <2e-16 ***
---
Residual standard error: 28.84 on 598 degrees of freedom
Number of iterations to convergence: 7
Achieved convergence tolerance: 2.135e-07
A inferncia no (cont.)
Mais alguns comandos, com os dados do Exerccio 3:
O comando coef devolve os parmetros estimados:
> coef(tamboril.nls)
alfa k gama
105.5746760 0.0744533 -0.2621344
O comando fitted devolve os valores ajustados

y
i
:
> tamboril.nls <- nls(L ~ alfa*(1-exp(-k*(t-gama))),
+ start=c(alfa=90, k=0.1, gama=0), data=tamboril)
> fitted(tamboril.nls)
[1] 9.468993 16.364497 22.765254 28.706763 34.221973 39.341471 44.093649
[8] 48.504863 52.599575 56.400495 59.928703 63.203764
attr(,"label")
[1] "Fitted values"
O comando residuals devolve os resduos:
> residuals(tamboril.nls)
[1] -0.26899251 0.13550320 0.13474570 0.09323733 0.47802733 -0.74147086
[7] 0.30635077 0.49513731 -0.29957518 -1.40049540 0.87129731 0.19623601
attr(,"label")
[1] "Residuals"
Mais comandos, com os dados do Exerccio 6:
O comando vcov devolve a matriz estimada de
varincias-covarincias dos parmetros estimados, ou seja a
matriz
V[
] =
2
_
D
t
_
1
> vcov(videiras.nls)
alfa beta
alfa 0.026270117 -0.006520814
beta -0.006520814 0.001625071
Nota: O valor do erro padro estimado,
2
=
S(

)
nk
dado na listagem
produzida pelo comando summary, com a designao Residual
standard error.
Para obter a matriz D
, cuja coluna j o vector com os n valores da

j -sima derivada parcial de f ,
f

j
, pode executar-se a funo
gradient, que se encontra na componente m dum objecto produzido
pelo comando nls (aqui exemplicada com os dados do Exerccio 3):
> tamboril.nls$m$gradient()
[,1] [,2] [,3]
[1,] 0.0896900 121.2983 -7.155386
[2,] 0.1550040 201.8054 -6.641992
[3,] 0.2156318 270.1355 -6.165436
[4,] 0.2719095 327.6214 -5.723069
[5,] 0.3241494 375.4675 -5.312445
[6,] 0.3726412 414.7612 -4.931283
[7,] 0.4176537 446.4835 -4.577464
[8,] 0.4594365 471.5185 -4.249039
[9,] 0.4982215 490.6625 -3.944171
[10,] 0.5342237 504.6321 -3.661178
[11,] 0.5676428 514.0711 -3.398494
[12,] 0.5986641 519.5578 -3.154653
Inferncia multivariada
J vimos que, assintoticamente,
Q =
(
)
t
(D
t
)(
2

2
k
.
e
S(
2

2
nk
Tem-se independncia entre os resduos (que denem S()) e os
parmetros ajustados, pelo que:
(
)
t
(D
t
)(
)
k
2
F
(k,nk)
.
Regio de conana multivariada
O resultado do acetato anterior serve de base para a denio de
regies de conana multivariadas (aproximadas) para os parmetros
.
Como em situaes anteriores, a matriz (desconhecida) D

substituda pela matriz (conhecida) D
, denindo a regio
(aproximada) a (1) 100% de conana para o vector dos
parmetros :
(
)
t
D
t
) k
2
f
(k,nk)
.
A validade destas regies depende da validade da aproximao linear
de f que esteve na base dos resultados distribucionais anteriores.
Exemplo - os dados do Exerccio 6
1.0 1.2 1.4 1.6 1.8 2.0 2.2
1
.
8
0
1
.
8
5
1
.
9
0
1
.
9
5
2
.
0
0
2
.
0
5
Regioes confianca parametros videiras
0
.9

0
.9
5

0
.9
9

Figura: Regies multivariadas a 90, 95 e 99% de conana (a amarelo) e
intervalos a 95% de conana (a azul) para e
Modelo potncia relacionando a rea e o comprimento da nervura principal
em n = 600 folhas de videira.
Testes multivariados a
Hipteses: H
0
: =
vs. H
1
: =
Estatstica do Teste:
F =
(
)
t
(D
t
)(
)
k
2
F
(k,nk)
, sob H
0
.
0
| H
0
verdade].
Regio Crtica: (Unilateral direita) Rejeitar H
0
se F
calc
> f
;(k,nk)
.
F
calc
=
(
)
t
(D
t
)(
)
k
2
.
Decidir sobre a rejeio, ou no, de H
0
.
Comentrios
As regies de conana multivariadas agora referidas tornam-se
impraticveis para mais do que dois parmetros, embora testes de
hipteses para hipteses nulas simples continuem a ser viveis.
Uma forma alternativa de pensar no problema dam inferncia passa
pelas chamadas funes de pers. Estas funes so tambm teis
no estudo da qualidade da aproximao linear.
Comecemos por recordar um resultado geral de inferncia, j
estudado na disciplina de Complementos de Probabilidades e
Estatstica (e que voltar a ser de grande utilidade no captulo 3 desta
disciplina): o Teorema de Wilks.
A razo de verosimilhanas
Seja (Y
1
, Y
2
, ..., Y
n
) uma amostra aleatria. Seja L(|x) a sua funo
verosimilhana, onde designa um vector de parmetros. Designa-se
razo de verosimilhanas a:
R
n
(x) =
max

0
L(|x)
max
(
0
1
)
L(|x)
onde
0
e
1
designam dois conjuntos alternativos de condies
sobre os valores dos parmetros .
A transformao =2ln(R
n
) utilizada como estatstica de um
teste s hipteses:
H
0
:
0
vs. H
1
:
1
.
Teorema de Wilks
O Teorema de Wilks garante que, sob H
0
(e com certas condies de
regularidade da funo de verosimilhana) tem distribuio
2
q
, onde
q indica o nmero de restries impostas aos parmetros em H
0
:
= 2
_
max
0
L(; x) max
(
0
1
)
L(; x)
_

2
q
.
No contexto da regresso no linear
No contexto do Modelo de Regresso No Linear, vamos considerar
que todos os parmetros menos
j
so livres de variar. E vamos
considerar:
H
0
:
j
= c vs. H
1
:
j
= c .
Assim,
h apenas q = 1 restrio imposta em H
0
;
1
corresponde a todos os k parmetros serem livres.
No contexto no linear (cont.)
Tendo em conta a expresso da log-verosimilhana dos dados
(acetato 161), o mximo de L sob
0
1
atingido em =

:
max

0
1
L(; , y, X) = L(
; , y, X) =
n
2
ln(2
2
)
1
2
2
S(
)
Designando por

H
0
o vector que, tendo
j
= c, minimiza a soma de
quadrados dos resduos S (ateno que, em geral,

i
=

i
), tem-se:
max

0
L(; , y, X) = L(
H
0
; , y, X) =
n
2
ln(2
2
)
1
2
2
S(
H
0
)
Logo, sob H
0
:
=
S(
H
0
) S(
2

2
1
.
Estatstica F
J vimos que, sob H
0
:
=
S(
H
0
) S(
2

2
1
.
e, sempre:
S(
2

2
nk
.
Logo (admitindo a independncia destas duas quantidades), sob H
0
:
F =
S(
H
0
) S(
)

2
F
(1,nk)
.
As funes perl
Dene-se a funo perl associada ao parmetro
j
como:
j
() = sgn(
j
)
S(
) S(
)

2
,
sendo

o vector que minimiza a funo S, admitindo que a j -sima

componente de tem valor
j
= .
Nota: O quadrado de
j
() a funo F do acetato anterior, associada
hiptese nula de que a j -sima componente de tem valor
j
= :
2
(
H
0
) = F
Nota: No ponto
j
=

j
a funo
j
toma valor nulo.
As funes perl no
As funes perl podem ser calculadas no R atravs da funo
profile. Para os dados das folhas de videira:
> profile(videiras.nls)
$alfa Valores de alfa fixados.
tau par.vals.alfa par.vals.beta
1 -2.7089270 1.206595 2.037579 Os valores de beta so os que
2 -2.1636834 1.276421 2.015390 minimizam a soma de quadrados dos
3 -1.6185192 1.350077 1.993249 residuos, dado o valor de alfa.
4 -1.0734452 1.427761 1.971156
5 -0.5288724 1.509617 1.949127
6 0.0000000 1.593382 1.927774
7 0.5030119 1.677148 1.907504
8 0.9954650 1.763212 1.887693
9 1.4882202 1.853534 1.867906
10 1.9810207 1.948267 1.848151
11 2.4738720 2.047615 1.828428
12 2.9667738 2.151794 1.808737
$beta Valores de beta fixados.
tau par.vals.alfa par.vals.beta
1 -2.5869917 2.069996 1.823696 Os valores de alfa minimizam
2 -2.0692432 1.964877 1.844450 a funo S, para os beta dados.
3 -1.5514894 1.864858 1.865242
4 -1.0337303 1.769702 1.886072
5 -0.5159727 1.679186 1.906940
6 0.0000000 1.593382 1.927774
7 0.5150150 1.511914 1.948608
8 1.0308813 1.434300 1.969515
9 1.5467362 1.360494 1.990460
10 2.0625856 1.290317 2.011444
11 2.5784294 1.223597 2.032468
12 3.0942678 1.160174 2.053531
Testes de hipteses a parmetros individuais
As funes de perl esto associadas a distribuies t
nk
.
Hipteses: H
0
:
j
=
vs. H
1
:
j
=
Estatstica do Teste: Sob H

0
,
j
(
) = sgn(
j
)
S(
) S(
)

2
t
nk
,
0
| H
0
verdade].
Regio Crtica: (Bilateral) Rejeitar H
0
se |
calc
| > t
2
;nk
.
calc
, e decidir sobre a
rejeio, ou no, de H
0
.
Intervalos de conana baseados nos pers
As funes perl tambm podem ser usadas para construir intervalos
a (1) 100% de conana para cada parmetro
j
.
Esto nesses intervalos os valores
j
= tais que
t
2
(nk)
<
j
() < t
2
(nk)
.
Nota: Estes intervalos de conana no tm de ser simtricos em
torno do ponto
j
=

j
.
Intervalos de conana baseados em pers no
No , a funo confint (do mdulo MASS), quando aplicada a
objectos criados pela funo nls, constri intervalos de conana
baseados nas funes perl:
> confint(videiras.nls)
Waiting for profiling to be done...
2.5% 97.5%
alfa 1.303000 1.944933
beta 1.848676 2.007429
> confint(videiras.nls, level=0.90)
Waiting for profiling to be done...
5% 95%
alfa 1.346081 1.883653
beta 1.861388 1.994552
Grcos das funes perl, no
Com o mdulo MASS possvel traar grcos dos mdulos das
funes perl e intervalos de conana para os parmetros do modelo:
> par(mfrow=c(2,1))
> plot(profile(videiras.nls))
1.2 1.4 1.6 1.8 2.0
0
.
0
1
.
0
2
.
0
alfa
1.85 1.90 1.95 2.00

0
.
0
1
.
0
2
.
0
beta

Advertncias sobre os grcos de pers
Por omisso, os nveis de conana indicados a tracejado nos grcos
das funes perl so (de dentro para fora) 0.5, 0.8, 0.9, 0.95 e 0.99.
Os mnimos dos mdulos das funes de perl so atingidos quando
o parmetro tem valor igual sua estimativa de mnimos quadrados,
tomando nesse caso o valor zero.
Bates & Watts (1988) chamam a ateno que o grau de curvatura nos
grcos das funes de perl so indicativos do grau de no
linearidade no modelo (as funes perl num modelo linear so
segmentos de recta).
Curvaturas nos grcos de perl geram intervalos de conana que
no so centrados nas estimativas de mnimos quadrados, podendo
ter semi-amplitudes diferentes para cada lado dessas estimativas.
O estudo de resduos
A validao dos pressupostos do modelo tem muitas semelhanas
com o que feito nos modelos lineares.
Tambm nas regresses lineares se podem denir:
resduos usuais: e
i
= y
i
y
i
;
resduos padronizados (standardizados): r
i
=
e
i

1h
ii
, onde h
ii
o
i -simo elemento diagonal da matriz de projeco ortogonal
sobre o subespao gerado pelas colunas da matriz D
.
O estudo de resduos (cont.)
Em particular, so teis grcos de diagnstico do tipo:
resduos e
i
vs. valores ajustados

y
i
, para procurar:
inadequaes da relao esperada;
indicao de varincias no constantes;
observaes atpicas.
qq plots dos resduos padronizados que, a ser vlido o
pressuposto de erros aleatrios normais dever ser
aproximadamente linear.
grcos de resduos vs. ordem de observao, para ver se existe
alguma indicao de dependncia entre erros aleatrios.
grcos de resduos padronizados vs. cada uma das variveis
preditoras individuais, para detectar eventuais relaes no
previstas no modelo.
Grcos de resduos no
Ao contrrio do que sucede nos modelos lineares, os grcos de
resduos tm de ser explicitamente construdos pelos utilizadores,
atravs de comandos como:
> plot(fitted(videiras.nls),residuals(videiras.nls))
> qqnorm(residuals(videiras.nls))
100 200 300 400
1
0
0
5
0
0
5
0
1
0
0
fitted(videiras.nls)
r
e
s
i
d
u
a
l
s
(
v
i
d
e
i
r
a
s
.
n
l
s
)
3 2 1 0 1 2 3
1
0
0
5
0
0
5
0
1
0
0
Normal QQ Plot
Theoretical Quantiles
S
a
m
p
l
e

Q
u
a
n
t
i
l
e
s
Correlaes entre parmetros
til tambm a anlise das correlaes entre os estimadores dos
parmetros. Bates & Watts (1988) salientam que correlaes muito
prximas de 1 podem indicar uma sobreparametrizao do modelo.
Sugerem que se analise correlaes acima de 0.99.
Mas ateno: na regresso no linear frequente que estas
correlaes sejam bastante elevadas, uma vez que as colunas da
matriz D
esto muitas vezes fortemente correlacionadas dada a

natureza das derivadas parciais associadas ao modelo.
Tais correlaes podem ser obtidas com o comando summary dum
objecto nls:
> summary(tamboril.nls, correlation=TRUE)$corr
alfa k gama
alfa 1.0000000 -0.9932596 -0.7740815
k -0.9932596 1.0000000 0.8309578
gama -0.7740815 0.8309578 1.0000000

Slides Cap 2

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Slides Cap 2

Enviado por

Direitos autorais:

Formatos disponíveis

Captulo 2: A Regresso no linear

Trata-se duma generalizao do Modelo Linear :

(x) a taxa de variao instantnea de f (x).

- ordenada na origem: y(0) = .

- taxa de variao relativa instantnea: =

- valor de x onde y toma o valor 1: y() = 1.

k - taxa de variao relativa instantnea: k =

- ordenada na origem: y(0) = .

- aumento de uma unidade em x provoca uma variao

que uma relao linear entre y

concavidade para cima se x < ;

concavidade para baixo se x > ;

(x) tem mximo e x = , com valor y

abcissa do ponto de simetria;

abcissa do ponto de inexo

ponto onde y alcana metade do seu valor mximo;

ponto onde a taxa de crescimento y

concavidade para cima se x < ;

concavidade para baixo se x > ;

(x) tem mximo em x = , com valor y

abcissa do ponto de inexo;

ponto onde y alcana proporo

ponto onde a taxa de crescimento y

- capacidade de sustentao do meio.

- abcissa do ponto de inexo.

k - parmetro de controlo da taxa de crescimento.

, k mantm a interpretao anterior;

de interpretao mais difcil que ...

- capacidade de sustentao do meio.

, - interpretao pouco clara.

concavidade para cima se x < ;

concavidade para baixo se x > ;

(x) tem mximo e x = , com valor y

abcissa do ponto de inexo;

ponto onde a taxa de crescimento y

k capacidade de sustentao do meio;

k parmetro de controlo da taxa de crescimento.

1/ - capacidade de sustentao do meio.

- parmetro de controlo da taxa de crescimento.

vector com os n valores da funo f (x,), dadas as n

a matriz cujo elemento (i , j ) d

de dimenso n2 e depende de , tal como o

ser a soluo produzida pelo algoritmo.

abaixo de algum limiar.

abaixo de algum limiar.

Pode haver no linearidade acentuada em torno de

pode ter problemas de (quase) multicolinearidade,

(o mnimo exacto de S()) e

) e o hiperplano tangente gerado pelas colunas da matriz D

. Trata-se duma funo da co-tangente do ngulo entre e

, verica-se a condio, pelo que:

(a matriz das derivadas parciais de f em ordem aos k

pela matriz conhecida D

, cuja coluna j o vector com os n valores da

o vector que minimiza a funo S, admitindo que a j -sima

Estatstica do Teste: Sob H

1.85 1.90 1.95 2.00

J. Cadima (DM/ISA) Modelao Estatstica II 2010-11 198 / 416

inadequaes da relao esperada;

indicao de varincias no constantes;

esto muitas vezes fortemente correlacionadas dada a

Você também pode gostar