Você está na página 1de 268

Introduo inverso de dados geofsicos

Professor responsvel:
Bruno Yann Nicolas Goutorbe

Material tirado do curso de inverso


da Professora Valria Cristina F. Barbosa

Ano 2014,

2o

semestre

Sumrio

Introduo

lgebra linear

19

Estgios do processo de inverso

65

Inverso linear

91

Estimador de mnimos quadrados ponderados

123

Estimador de mnimos quadrados subdeterminados

135

Regularizao de Tikhonov

147

Inverso no linear

175

A Estatsticas e probabilidades

183

201

Resoluo de problemas no lineares: algoritmos de optimizao

SUMRIO

Captulo 1
Introduo

CAPTULO 1.

INTRODUO

Valria Cristina F. Barbosa


Observatrio Nacional

O Problema Inverso
Teoria da inverso:
Definio: A Teoria da Inverso simplesmente um conjunto de mtodos
matemticos usados para se extrair inferncias teis sobre um conjunto de
medidas observacionais de algum fenmeno fsico.

Fundamental Atribuio da Teoria da Inverso: A principal atribuio da


Teoria da Inverso

lidar com uma importante e fundamental questo

relacionada ao limite da informao que pode ser extrada de qualquer conjunto


de dados. Virtualmente todos os problemas tm dois elementos comuns: os
dados e uma pergunta. Para responder uma pergunta o solucionador do
problema (que pode ser um mtodo de inverso) combina os dados do problema
com algum raciocnio lgico. intuitivo que os dados devem conter informaes
suficientes para responder a pergunta estabelecida caso contrrio, o problema
geofsico est incorretamente formulado, matematicamente, dizemos que o
problema mal-posto (ill posed problem).

O problema inverso em Geofsica: Similarmente, no problema inverso em


geofsica tambm estes dois elementos esto presentes: os dados e uma
pergunta. Os dados geofsicos, geralmente, so entidades fsicas medidas na
Terra. Estas grandezas fsicas podem ser
magnticos,

eletromagnticos,

eltricos;

(2)

(1) campos: gravimtricos,


transmisso

trmica;

(3)

perturbaes elsticas; (4) radiaes nucleares. Por outro lado, a pergunta


geralmente envolve as propriedades fsicas que esto relacionadas s
grandezas fsicas (dados) medidos ou observados da Terra. As propriedades
fsicas, por sua vez, podem ser subdivididas em duas classes: a) propriedades
fsicas que podem ser descritas por parmetros discretos; e b) propriedades
fsicas que devem ser descritas por funes contnuas
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

Valria Cristina F. Barbosa


Observatrio Nacional
A teoria da inverso emprega diferentes tcnicas matemticas para estas
duas classes distintas de parmetros: a) a teoria de equaes matriciais para os
parmetros discretos; e b) a teoria das equaes integrais para as funes
contnuas dos parmetros.
Neste curso iremos abordar apenas a Teoria de Inverso Discreta, ou
seja, parte da teoria da inverso interessada nos parmetros que so
genuinamente discretos ou podem ser adequadamente aproximados como
discretos.

Alm de abordarmos a teoria da inverso na sua forma discreta,

tambm nos limitaremos a trabalhar com dados e questes que podem ser
representados numericamente. Assim, os dados observados consistiro de uma
tabulao de medidas de alguma grandeza fsica coletadas na superfcie da
Terra ou em poo de sondagem. Estes dados chamaremos de dados geofsicos.
A pergunta (questo) que queremos responder ser formulada em termos de
valores numricos de uma propriedade fsica especfica da subsuperfcie da
Terra. Estas propriedades chamaremos de parmetros (na literatura alguns
autores chamam de modelo de parmetros). Ento no problema inverso em
geofsico temos: 1) Dados Observados: que so um conjunto de valores
numricos de alguma grandeza fsica medidos na superfcie da Terra; e

2)

Parmetros desconhecidos: que so valores numricos contendo informaes


sobre alguma propriedade fsica da subsuperfcie da Terra.
Por simplicidade iremos assumir o conhecimento a priori das equaes
que relacionam a grandeza fsica medida na superfcie da Terra (dados
observados) com a propriedade fsica (parmetros). Por exemplo, a lei de
Newton da gravitao estabelece a relao entre o campo gravimtrico (dados
observados) e a densidade da subsuperfcie da Terra (parmetros). Um segundo
exemplo, a lei de Coulomb estabelece a relao entre o campo magntico
estacionrio

(dados

observados)

susceptibilidade

magntica

da

subsuperfcie da Terra (parmetros).

Objetivo Principal: A teoria da inverso, em uma viso ampla, objetiva fornecer


informaes sobre os parmetros numricos desconhecidos
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

de um sistema
2

CAPTULO 1.

INTRODUO

Valria Cristina F. Barbosa


Observatrio Nacional
fsico a partir de dados observados deste sistema.

Naturalmente, h os

parmetros e os dados observados de um sistema fsico esto relacionados


atravs de alguma equao, ou seja, alguma lei fsica.
Podemos dizer

que o problema inverso (inverse problem) geralmente

inicia com os dados conhecidos e uma lei fsica objetivando estimar os


parmetros do sistema fsico (modelo). Portanto o problema inverso se ocupa
em fazer inferncias sobre um sistema fsico a partir de dados observados deste
sistema.
Se existe um problema inverso existe ento um problema direto (forward
problem) que definido como um processo de predizer os resultados das
medidas de uma grandeza fsica (exemplo campo gravimtrico) a partir do
conhecimento do sistema fsico (lei de Newton da gravitao) e dos parmetros
do modelo ou sistema fsico (como por exemplo densidade da subsuperfcie).

Medidas de temperatura em um poo de sondagem: Vamos apresentar um


exemplo simples do fenmeno de variao da temperatura como uma funo da
profundidade no interior da Terra. Vamos assumir que a temperatura cresce
linearmente com a profundidade (z) da Terra. Em outras palavras, a temperatura
Ti est relacionada com a profundidade zi pela lei:

Ti = az i + b
onde a e b so valores numricos constantes.
O problema Direto: Se estabelecermos que a e b so variveis conhecidas do
sistema fsico linear acima (por exemplo a =1 e b= 5), ento podemos resolver o
problema direto simplesmente avaliando a equao acima para qualquer valor
de profundidade zi
O problema Inverso: Suponha que fizemos N medidas de temperatura

[T1, T2 ,..., TN ] em N diferentes profundidades [z1, z2 ,..., z N ] de um poo de sondagem.


Neste caso queremos determinar as variveis a e b do sistema fsico linear
Ti = az i + b . Ento as variveis

a e b so os parmetros do nosso problema

inverso.
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

Valria Cristina F. Barbosa


Observatrio Nacional
Veja ento que este problema inverso consiste em ajustar uma reta a um
conjunto de pontos (dados de temperatura em diferentes profundidades da
Terra).

Por outro lado, o problema direto simplesmente um problema de

avaliao de um polinmio de primeiro grau. Note que neste exemplo o


problema inverso muito mais complexo que o direto e esta observao
quase sempre uma regra nos problemas inversos.

Outros Objetivo da Teoria da Inverso: Embora o principal teoria da inverso


fornecer estimativas dos parmetros de um sistema fsico (modelo fsico), a
Teoria da inverso abrange outros importantes objetivos. Ainda nos casos em
que os parmetros so os nicos resultados desejados existe uma grande
quantidade de informaes relacionadas aos parmetros que podem ser
extradas para auxiliar a determinao da qualidade da soluo estimada do
problema inverso. Algumas informaes so as seguintes:
1) A soluo estimada nica ?
2) A soluo estimada estvel ?
3) Quais so as semelhanas e diferenas entre dois diferentes mtodos
inversos ?

O problema inverso Bem-Posto X Mal-Posto:


J vimos que um problema inverso temos dois elementos: os dados
observados de um sistema fsico (modelo) que so medidas de uma grandeza
fsica e uma pergunta que so os parmetros do sistema fsico (modelo) a serem
estimados. A soluo do problema inverso consiste em estimar os parmetros
de um sistema fsico (modelo) a partir dos dados observados deste sistema. A
soluo do problema inverso equivale a combinao dos dados disponveis com
algum raciocnio lgico objetivando responder a pergunta levantada. Se os
dados contm informao suficiente para responder a pergunta estabelecida
dizemos que o problema est corretamente formulado o que matematicamente
chamamos de problema inverso BEM-POSTO (well posed). Por outro lado, se os
dados NO contm informao suficiente para responder a pergunta
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

10

CAPTULO 1.

INTRODUO

Valria Cristina F. Barbosa


Observatrio Nacional
estabelecida dizemos que o problema est incorretamente formulado o que
matematicamente chamamos de problema inverso MAL-POSTO (ill posed). De
acordo com Hadamard (1902) um problema mal-posto quando sua soluo
NO OBEDECE a pelo menos uma das 3 condies:
1) EXISTNCIA
2) UNICIDADE
3) ESTABILIDADE
Vejamos alguns exemplos muito simples:

(1) N1 e N2 so nmeros naturais. Estime N1 e N2 tal que:


N1 + N2 = 8.3
Este problema matematicamente mal-posto uma vez que NO EXISTE
SOLUO j que todo nmero natural m tem um sucessor que igual a m+1

(2) N1 e N2 so nmeros naturais. Estime N1 e N2 tal que:


N1 + N2 = 10
Neste problema a soluo EXISTE porm, a soluo NO NICA logo
o probelma matematicamente mal-posto. Vejamos as possveis solues deste
sistema fsico:

N1 = 1

N2 = 9

(3) Vamos considerar um sistema fsico qualquer que descrito pela seguinte
equao
0.000001 p = y
em que y o dado observado e p o parmetro a ser estimado deste sistema
fsico. Neste sistema fsico notamos uma componente muito pequena de uma
propriedade fsica (p) est relacionada a grandeza fsica medida (y). Se os

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

11

Valria Cristina F. Barbosa


Observatrio Nacional
dados (y) fossem livres de rudo experimental 1, ou seja, se os dados fossem
DADOS EXATOS, o parmetro exato ser dado por
p exato = y / 0.000001
No entanto, no mundo real os dados observados (medidos) de uma
grandeza fsica esto contaminados por rudo experimental . Ento a equao
deste sistema fsico dever ser reescrita como:
0.000001 p = y +
Note ento que o parmetro a ser estimado dado por

p=

+
0.000001 0.000001

Portanto, em dados com rudo a soluo estimada :

p = pexato + 106

Note que em dados com rudo h uma segunda parcela que uma amplificao
do rudo (106 ).
Neste caso a soluo EXISTE porm uma soluo INSTVEL, logo o
problema matematicamente mal-posto.

Caracterizao do problema mal-posto como aquele em que no h


suficincia de informao:

Um problema mal-posto no sentido de Hadamard (1902) se sua soluo ou


NO EXISTE, OU NO NICA, OU NO ESTVEL. Vimos atravs dos trs
exemplos anteriores que um problema mal-posto no guarda relao com um
problema complexo. Um problema de estimar dois nmeros naturais tal que a
soma seja 8.3 um problema extremamente simples porm mal-posto pois a
soluo no existe. O problema mal-posto tambm no guarda relao com o
grau de quantificao da rea cientfica em que o problema foi formulado. Na
Geologia h inmeros exemplos de problemas mal-postos, e mesmo em reas
muito pouco quantificadas, como a Arqueologia, por exemplo, podemos ter
1

Rudo experimental tudo aquilo que no considerado sinal


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

12

CAPTULO 1.

INTRODUO

Valria Cristina F. Barbosa


Observatrio Nacional
problemas mal-postos e bem-postos. Por exemplo, em uma jazida Paleoltica, ao
desenterrar objetos com forma de ponta de flecha, o arquelogo se coloca o
seguinte problema bem-posto: os habitantes da regio eram caadores ? A
resposta sim e certamente nica j que no razovel supor que nossos
antepassados da Idade da Pedra Lascada necessitavam de produzir armas
para a caa. Por outro lado, ao desenterrar uma urna funerria contendo a
ossada de um homem, o arquelogo se coloca o seguinte problema mal-posto:
os habitantes desta regio acreditavam na existncia de vida aps a morte? A
resposta pode ser sim, j que a existncia de um funeral poderia indicar a
preocupao de preservao do corpo para a vida ps morte, mas a resposta
pode ser no e a urna funerria poderia apenas indicar um ato de higiene
daqueles habitantes. Neste segundo caso a soluo deste problema no
nica.
O que leva um problema ser mal-posto no a complexidade nem o grau
de quantificao, mas a tentativa de se extrair mais informaes do que aquela
contida nos dados do problema. H portanto um desbalanceamento entre as
informaes desejadas e a informaes contidas nos dados observados
(medidos). Em outras palavras, caracteriza-se um problema mal-posto como
aquele em que os dados observados no so suficientes para responder a
informao demandada no problema inverso. Desse modo s h duas maneiras
de transformar um problema mal-posto em bem-posto:
1) Reduzir a demanda de informao
2) Introduzir informao a priori sobre os parmetros a serem estimados.

A Reduo da Demanda de Informao:


A tentativa de se resolver um problema mal-posto despropositada
porque a soluo ou no existe, ou no nica ou no estvel. Nas dcadas
de 60 e 70 houve um verdadeiro boom na geofsica devido ao considervel
aumento

do

volume

dos

dados

geofsicos

coletados

(levantamentos

aerotransportados), aumento do volume dos dados geolgicos (mapeamentos


sistemticos governamentais) e disseminaes dos computadores. Ento os
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

13

Valria Cristina F. Barbosa


Observatrio Nacional
geofsicos comearam a formular problemas envolvendo a resoluo de
sistemas grandes na tentativa de estimar, simultaneamente, a propriedade fsica
e o volume das fontes geolgicas (forma geomtrica).

Na interpretao

geofsica a propriedade fsica de um corpo geolgico e o volume deste corpo


chamada de uma ambigidade clssica, uma vez que h infinitas variaes de
propriedade fsica X volume das fontes geolgicas que podem explicar os dados
geofsicos observados. Em outras palavras, os geofsicos comearam neste
perodo a tentar extrair mais informaes do que aquela contida nos dados
medidos, levando ao aparecimento de problemas mal-postos, caracterizados
principalmente por solues instveis na presena de rudo. Nesta poca os
geofsicos introduziram modelos complexos originando mtodos de inverso que
apenas funcionavam em dados sintticos e sem rudo. Em dados com rudo
esses mtodos no produziam solues nicas e estveis.
Neste perodo foi desenvolvido uma anlise de Backus and Gilbert (1967;
1968) que classificou o problema geofsico inverso, na sua forma mais ampla,
como um problema matematicamente mal-posto. Backus e Gilbert sugeriram
reduzir a demanda de informao ao nvel compatvel com a quantidade de
informao existente nos dados, ou seja, extrair dos dados apenas o que eles
podem resolver. Este conceito de Backus e Gilbert pode ser ilustrado com um
exemplo simples de se estimar dois nmeros N1 e N2 a partir da equao
N1 + N2 = 10
Embora este problema seja muito simples, ele no difere do problema geofsico,
uma vez que uma medida geofsica uma combinao linear ou no linear de
vrios parmetros e o nmero de observaes geofsicas independentes
(nmero de equaes LI) , sempre menor que o nmero de parmetros a
serem estimados. Ento, este problema de estimar N1 e N2 a partir da equao
N1+ N2 =10 pode ser visto como um paradigma do problema geofsico inverso
em que temos apenas uma equao (uma nica observao) para estimar 2
parmetros. Neste problema a soluo NO NICA. Assim seguindo a linha
de Backus e Gilbert para obtermos soluo com unicidade devemos reduzir a
demanda de informao a ser estimada ao nvel compatvel a quantidade de
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

14

CAPTULO 1.

INTRODUO

Valria Cristina F. Barbosa


Observatrio Nacional
informao contida nos dados. Uma possibilidade seria abrir mo de se estimar
N1 e N2 e determinar apenas a mdia destes dois nmeros, o que seria obtido
de modo nico e estvel atravs da equao acima dividindo-se ambos os lados
por dois.
N1+ N2 10
=
2
2
Mdia N1eN2

=5

De um modo geral, esta teoria de Backus e Gilbert de reduo da


demanda de informao a ser extrada dos dados Geofsicos levou a resultados
modestos e de pouca aplicao prtica.
Por outro lado, a segunda abordagem de transformar um problema malposto em bem-posto via a introduo de informao a priori adicional sobre os
parmetros tem permitido o desenvolvimento de mtodos estveis e de grande
aplicabilidade prtica.

A introduo de informao a priori sobre os parmetros a serem


estimados
Tambm na dcada de 60 Tikhonov (1963) classificou como um
problema geofsico inverso como um problema matematicamente mal-posto e
desenvolveu um mtodo chamado de Regularizao de Tikhonov para
transformar um problema mal-posto em bem-posto. O mtodo de Regularizao
de Tikhonov, em uma viso muito simplificada, permite incorporar uma classe
bastante ampla de informaes a priori sobre os parmetros a serem estimados
no problema geofsico inverso. Usando o mesmo problema simples de

se

estimar dois nmeros N1 e N2 a partir da equao


N1 + N2 = 10,
J vimos que este problema matematicamente mal-posto porque admite
vrias possveis solues. Dentro da abordagem de introduo de informaes a
priori sobre os parmetros a serem estimados, vamos transformar este problema
inverso matematicamente mal-posto em um problema bem-posto, ou seja, com
uma nica soluo. Relembrando, o nosso problema consiste em estimar dois
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

15

Valria Cristina F. Barbosa


Observatrio Nacional
nmeros N1 e N2 a partir da equao N1 + N2 = 10. Vimos que a soluo deste
problema existe porm no nica. Vejamos as possveis solues:

N1 =

N2 =

Vejamos agora dois casos distintos em que introduziremos informaes a


priori sobre os parmetros:
Caso 1 de introduo de informao a priori:
Conhecer o valor de um dos parmetros a priori para se estimar o outro.
Exemplo 1 :
Assim, por exemplo, se sabemos que N1=8 ento a estimativa de N2= 2,
desta forma conseguimos uma soluo nica.
Note, no entanto, que neste primeiro caso estamos com uma situao
muito restritiva em que necessitamos o conhecimento a priori do valor de um dos
parmetros para se estimar o outro parmetro. Na verdade, a introduo de
informao a priori objetivando transformar um problema mal-posto em bemposto no se limita a este caso restritivo. Vejamos o segundo caso de introduo
de informao a priori.

Caso 2 de introduo de informao a priori:


Conhecer algumas caractersticas dos parmetros a serem estimados.
Exemplo 2.1:
Usando o mesmo problema simples de se estimar dois nmeros N1 e N2
a partir da equao N1 + N2 = 10, supondo as seguintes informaes a priori.
(1) N1 e N2 so dois nmeros naturais
(2) N1 e N2 esto o mais prximo possvel um do outro

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

10

16

CAPTULO 1.

INTRODUO

Valria Cristina F. Barbosa


Observatrio Nacional

N1 =

N2 =

Veja que a soluo nica e igual a N1=N2=5


Exemplo 2.2:
Usando o mesmo problema simples de se estimar dois nmeros N1 e N2
a partir da equao N1 + N2 = 10, supondo as seguintes informaes a priori.
(1) N1 e N2 so dois nmeros naturais
(2) N1 N2
(3) Um e somente um dos nmeros primo

N1 =

N2 =

Veja que a soluo nica e igual a N1=2 e N2=8


Em resumo observe atravs do segundo caso que a introduo de
informao a priori no significa necessariamente ter-se o conhecimento do
valor verdadeiro dos parmetros que sero estimados. suficiente conhecermos
apenas algumas caractersticas dos parmetros.

A introduo de informao a priori no problema Geofsico Inverso


Na dcada de 70, as poucas tentativas de transformao um problema
mal-posto em bem-posto via

mtodo da regularizao de Tikhonov usavam

informaes adicionais puramente matemticas. De fato, o mtodo da


regularizao de Tikhonov um mtodo matemtico de obteno de solues
estveis atravs da construo de um operador regularizador. De modo
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

11

17

Valria Cristina F. Barbosa


Observatrio Nacional
simplificado, a construo de um operador regularizador reduz-se a um
problema de extremo condicional: Minimizar um funcional estabilizante sujeito a
explicar os dados observados dentro de uma preciso imposta pelos erros
(rudos) que contaminam os dados geofsicos observados.
O funcional estabilizante, ou simplesmente estabilizador, apresenta as
seguintes propiedades matemticas: 1) contnuo; 2) no negativo; 3) definido em
um sub-espao compacto do espao dos parmetros ao qual pertence a soluo
terica. Veja que o funcional estabilizante bastante genrico no sentido de
permitir incorporar uma classe bastante ampla de informaes a priori sobre os
parmetros do problema inverso.

Na geofsica a partir da dcada de 80,

ampliou-se a definio de diferentes funcionais estabilizantes para a introduo


de informao a priori sobre os parmetros de um problema inverso. No entanto,
inicialmente,

os funcionais estabilizantes desenvolvidos e empregados no

mtodo da regularizao de Tikhonov eram interpretados como simples


restries matemticas necessrias para a obteno de solues estveis do
problema geofsico inverso. Um exemplo de um funcional estabilizante
amplamente

empregado

na

geofsica

como

um

simples

procedimento

matemtico de estabilizao da soluo estimada pelo problema geofsico


inverso a norma L2 do vetor de parmetros a ser estimado.
Durante a dcada de 70, a regularizao foi empregada de modo implcito
atravs dos mtodos Ridge Regression (Hoerl and Kennard, 1970) e da
Inversa Generalizada (Braile et al., 1974; Pedersen, 1977). Matematicamente
estes mtodos para a estabilizao da soluo minimizam a norma L2 dos
parmetros a serem estimados sujeito a anomalia geofsica ser ajustada
(explicada) dentro da preciso imposta pelos erros experimentais (rudos). Este
funcional estabilizante conhecido como a Norma Euclideana Mnima dos
parmetros pois impe no sentido dos mnimos quadrados que todos os
parmetros estimados estejam prximos de zero. Note que fisicamente, a
informao introduzida por este funcional estabilizador inconsistente com a
prpria existncia da anomalia geofsica. Isto caracteriza claramente que este

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

12

18

CAPTULO 1.

INTRODUO

Valria Cristina F. Barbosa


Observatrio Nacional
funcional estabilizante (norma L2 dos parmetros) apenas uma ferramenta
matemtica para a estabilizao da soluo do problema geofsico inverso.
O conceito que o mtodo da Regularizao de Tikhonov permite
introduzir, ao problema geofsico inverso, informao a priori sobre as fontes
anmalas causadoras das anomalias geofsicas atravs da definio de
funcionais estabilizantes, somente foi empregado a partir da dcada de 80. Em
outras palavras, para a estabilizao de um problema geofsico inverso os
funcionais estabilizantes empregados pela regularizao de Tikhonov foram
traduzidos em termos de caractersticas geolgicas especficas, representando,
portanto, vnculos geolgicos.

Em resumo, a partir da dcada de 80 os

funcionais estabilizantes empregados pelo mtodo de regularizao de Tikhonov


no eram apenas condies matemticas abstratas mais vnculos geolgicos e
fsicos refletindo as caractersticas dos diferentes ambientes geolgicos.

1) Entregue dia 05/06/2007

Tpico 1: O problema inverso


Tpico 2: Reviso de lgebra linear:
Tpicos (3) Estgios do processo de inverso e (4) Exemplo dos estgios do
processo de inverso
Anexo 1 4: Conceitos Bsicos de Estatstica

2) Trabalho para o Lar:


1) Leitura do Tpico 2: Reviso de lgebra Linear
2) Fazer os exerccios do Tpico 2
3) Recomendaes :
1) Ler Introduo Menke (1984)
2) Ler Captulo 1 Scales et all. (2000)
3) Ler item 1.1 de Aster et al (2003)

Todos os materiais acima foram entregues dia 05/06/07


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 1: O Problema Inverso

13

Captulo 2
lgebra linear

20

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
Reviso de lgebra Linear
J discutimos anteriormente que neste curso iremos abordar apenas a teoria de
inverso discreta, ou seja, a parte da teoria que trabalha com parmetros que so
genuinamente discretos ou podem ser adequadamente aproximados como discretos.
Ento neste curso usaremos alguns conceitos bsicos da lgebra Linear. Vamos
agora apresentar de modo condensado alguns dos principais conceitos de lgebra Linear
que iremos empregar neste curso. Ressalto que o material apresentado a seguir no
significa uma reviso completa de lgebra Linear.
Espao Vetorial Linear
Um dos conceitos mais importantes que iremos utilizar neste curso o conceito de
Espao Vetorial Linear. Em situaes prticas ns estamos bem familiarizados com o
conceito de Espao vetorial linear

porque j trabalhamos com conceitos concretos de

vetores geomtricos no espao fsico tridimensional.


Para discutir vetores geometricamente em um espao 3D escolhemos em primeiro
lugar um sistema de 3 eixos perpendiculares ( x, y , z ). Um vetor representado por uma
reta OP, em que O um ponto na origem do sistema e o ponto P especificado pelas
coordenadas x1 , y1 , z1 . Um vetor geomtrico

( x1 , y1 , z1 ) para indicar as componentes de

pode ser representado como

, ou seja, x1 , y1 , z1 relativo ao sistema de

coordenadas( x, y , z ).
Inicialmente, os matemticos introduziram a idia de usar um par de nmeros para
localizar um ponto em um plano e uma trinca de nmeros para localizar um ponto no
espao tridimensional.

Muito mais tarde, fim do sculo VX, os matemticos e fsicos

comearam a definir que quarto nmeros poderiam localizar um ponto no espao de 4


dimenses e cinco nmeros poderiam localizar um ponto no espao de 5 dimenses e
assim por diante. Embora nossa visualizao geomtrica no se estenda alm do espao
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

21

Valria Cristina F. Barbosa


Observatrio Nacional
3D , no entanto, possvel estender vrias idias alm do espao 3D trabalhando-se com
propriedades analticas ou numricas dos pontos e vetores ao invs das propriedades
geomtricas que requerem uma visualizao. Para tornar esta idia mais precisa vamos a
definio abaixo.

z1

P
x1

= ( x1 , y1 , z1 )
x

y1

Figura 1

Vetores no Espao N: Se N um inteiro positivo, ento N-uplas de coordenadas uma


seqncia de N nmeros reais ( a1 , a2 ,..., aN ). O conjunto de todas as N-uplas

de

coordenadas chamado de espao N e denotado por R .


J vimos anteriormente no estudo do espao tridimensional que a tripla de nmeros
( x1 , y1 , z1 ) na Figura 1 tem duas interpretaes geomtricas: i) pode ser interpretada como
um ponto , em que ( x1 , y1 , z1 ) so as coordenadas deste ponto; ii) pode ser interpretada
como um vetor, em que ( x1 , y1 , z1 ) so as componentes do vetor. Portanto, N-uplas de
coordenadas ( a1 , a2 ,..., aN ).pode tanto ser interpretada como um ponto em RN como tambm
um vetor em RN. bvio que a visualizao geomtrica de um ponto ou vetor em RN
impossvel, no entanto, as propriedades aritmticas de adio de vetores e multiplicao de
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

22

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
vetores por um escalar so propriedades padro em RN. Apresentaremos a seguir estas
propriedades (axiomas) de operao no espao N-dimensional.
Propriedades de operaes Vetoriais no Espao N:
Se u = (u1 , u2 ,...u N ) , v = (v1 , v2 ,...vN ) e w = (w1 , w2 ,...wN ) so vetores no espao R N e k e
so escalares ento
a) A adio comutativa:
u+v = v+u

b) A adio associativa:
u + (v + w ) = (u + v ) + w

c) Existe em R N um nico vetor

0 = (0,0,...,0) tal que:

u+0=u
d) Para cada vetor u R N , existe um nico vetor u R N , tal que:

u + (u ) = 0
e) A multiplicao de um vetor u R N , por escalares uma operao
associativa

( u ) = ( ) u
f) A multiplicao de um vetor u R N , por escalares uma operao
distributiva relativamente adio de escalares

( + ) u = u + u
g) A multiplicao por um escalar uma operao distributiva relativamente
adio vetorial

(u + v) = u + v
h) Existe em R N um nico escalar

1 tal que:

1u=u

Estes axiomas acima nos permite manipular com vetores R N sem a necessidade
de expressa-los em termos de componentes, ou seja, sem a necessidade de
visualizao geomtrica.
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

uma

23

Valria Cristina F. Barbosa


Observatrio Nacional
Espao Vetorial Linear Abstrato
Primeiro descrevemos vetores e espaos vetoriais como entidades geomtricas. Em
seguida, estendemos a idia de vetores e espaos vetoriais alm dos espao 3D e
apresentamos axiomas de operaes vetoriais no espao N-dimensional. Tal axioma
permitiu-nos trabalhar com vetores no espao RN sem requerer o uso de uma visualizao
geomtrica.
No entanto, o conceito de espao vetorial muito mais amplo e definido usando-se
conceitos abstratos da entidade vetor. A este espao vetorial abstrato foi estabelecido um
conjunto de axiomas e se tais axiomas so obedecidos por uma classe de objetos ento
chamaremos este objetos de vetores que pertencem a um espao vetorial linear. Vale
ressaltar que o conceito de vetores como objetos de um espao vetorial abstrato uma
espcie de generalizao do conceito de um vetor at aqui realizado. Estes novos axiomas
que sero apresentados a seguir so abstraes das propriedades importantes dos vetores
em RN, como conseqncia, vetores em RN, automaticamente satisfazem estes axiomas.
Ento, nosso novo conceito de vetores como objetos de um espao vetorial ir incluir
o velho conceito de vetor e vrios outros novos tipos de vetores, dentre eles vrios tipos de
matrizes e funes.
Portanto, a definio de espao vetorial linear abstrato de vetores suficientemente
genrica sendo, portanto, um poderoso instrumento para estender o nosso limitado poder
de visualizao geomtrica a uma ampla variedade de problemas matemticos. Vejamos
agora os axiomas.
Axiomas do Espao Vetorial Linear Abstrato:
Seja V um conjunto arbitrrio e no vazio de objetos em que duas operaes so
definidas adio e multiplicao por escalares (conjunto de nmeros) que formam um corpo
F. Entenda a operao de adio como uma regra que associa a cada par de objetos u e
v em V um objeto u + v , chamado soma de u e v . Entenda a operao de multiplicao

como uma regra que associa a cada escalar k em F e a cada objeto u em V um objeto
k u , chamado de produto escalar ou multiplicao escalar. Se os axiomas a seguir so

satisfeitos por todos os objetos u , v e w em V e todos os escalares k e em F, ento


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

24

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
chamaremos V de espao vetorial e chamaremos todos os objetos ( u , v e w ) em V de
vetores.
a. Se u e v so objetos em V, ento u + v e
b. A adio comutativa: u + v = v + u
c. A adio associativa: u + (v + w ) = (u + v ) + w
d. Existe em V um nico objeto

0 chamado de vetor zero para V tal que:

u+0=u
e. Para cada objeto u em V, existe um objeto

u , em V tal que:

u + (u ) = 0
f. Se k um escalar e u um objeto em V, ento u est em V

g. A multiplicao de um objeto u em V por escalares k e em F, uma

operao associativa ( u ) = ( ) u
h. A multiplicao de um objeto u em V por escalares uma operao

distributiva relativamente adio de escalares: ( + ) u = u + u


i. A multiplicao por um escalar k em F uma operao distributiva
relativamente adio de objetos u e v em V: ( u + v) = u + v
j. Existe em F um nico escalar 1, chamado de identidade de F, tal que:

1 u=u
Dependendo da aplicao, os escalares podem ser nmeros reais ou complexos. Os
espaos vetoriais em que os escalares so nmeros complexos so chamados de
Espao Vetorial Complexo e aqueles em que os escalares so nmeros reais so
chamados de Espao Vetorial Real. Temos ainda um Espao Vetorial Zero que
definido por um nico objeto em V denotado por 0 , e definido para todos os escalares
do corpo F. Se o objeto 0 em V satisfaz os axiomas do espao vetorial abstrato, ento
chamamos de Espao Vetorial Zero

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

25

Valria Cristina F. Barbosa


Observatrio Nacional
Espao Vetorial X Geofsica:
Qual a relao entre o conceito de espao vetorial linear e a geofsica ?
Neste curso iremos apenas abordar a teoria de inverso discreta em que os
parmetros e os dados podem ser adequadamente aproximados como discretos. Portanto,
as medidas observacionais geofsicas consistiro de um conjunto discreto de informaes
numricas que iremos encapsular em um vetor. Alm disso, os parmetros tambm sero
tratados como vetores.
Mais adiante veremos que h uma ampla classe de problemas inversos que podem
ser escritos como um sistema de equaes lineares
Ap = y

em que y o vetor N-dimensional contendo os dados geofsicos observados , p o vetor


M-dimensional dos parmetros e A uma matriz N x M (operador linear). Ento

assumiremos que N medidas foram realizadas em algum experimento geofsico e


trataremos estas N medidas como elementos de um vetor

y RN

parmetros podem ser representados como elementos do vetor

. Similarmente, os

p RM .

H portanto

um operador matricial A que transforma os parmetros p nos dados geofsicos y , i.e.,


mapea o espao dos parmetros P no espao das medidas Y. A soluo do problema
inverso consistir em determinar o vetor de parmetros p que produziu os dados
geofsicos

y . Ns discutiremos mais adiante, que no queremos ajustar (explicar)

perfeitamente (exatamente) os dados observados porque eles sempre contm rudo.


Portanto, procuraremos determinar o vetor de parmetros p que produza um ajuste que
esteja o mais prximo possvel dos dados observados medidos. Mas o que significa
prximo suficiente ? Como podemos medir a proximidade entre dois conjuntos de dados?
A resposta muito simples: atravs da distncia entre dois conjuntos de dados. Em outras
palavras, tanto os nossos conjuntos de dados como de parmetros devem estar definidos
em um espao mtrico.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

26

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
Matrizes

Definio: Uma matriz um array retangular de nmeros reais. Especificamente uma matriz
consiste em NxM nmeros reais dispostos em N linhas e M colunas fornecendo o seguinte
array retangular N x M

( N M )

a 11

a
= 21
M

a
N1

a 12

a 22

M
aN 2

a1 M

a2M
M

a NM

em que

a ij

representa o elemento da i-sima linha e j-sima coluna da matriz A . O

conjunto de todas as NxM matrizes com elementos escalares um espao vetorial


denominado RNxM , com as regras usuais de adio e multiplicao por escalares.
Tamanho da Matriz (size): dado pela especificao do nmero de linhas e nmero de
colunas, ou seja, N x M.
Operaes matriciais:
Se A , B e C so matrizes N x M
(1) Adio de matrizes:
A operao A + B uma adio matricial que realizada somando-se os correspondentes
elementos de A e B .

A+B = C
[

a ij

]+

[ b ij ] = [ c ij ]

Propriedades da Adio Matricial


(1.1) A adio matricial comutativa
A+B = B+A
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

27

Valria Cristina F. Barbosa


Observatrio Nacional
(1.2) A adio matricial associativa

) (

A+ B+C = A+B +C

(2) Multiplicao por um escalar


Se A qualquer matriz N x M e k um escalar, ento kA a matriz obtida pela
multiplicao de cada elemento de A por k.

[ ]

kA kaij

Propriedades:
(2.1) A multiplicao de uma matriz A por escalares k e uma operao associativa

( )

k A = (k )A k a ij

(2.2) A multiplicao de uma matriz A por escalares k e uma operao distributiva


relativamente adio de escalares

(k + ) A = kA + A [k aij + aij ]

(k ) A = kA A [k aij aij ]
(2.3) A multiplicao de uma matriz A por um escalar k uma operao distributiva
relativamente adio de matrizes

[
( )
k (A B ) = kA k B [ka

]
kb ]

k A + B = kA + k B kaij + kbij
ij

ij

(2.4) A multiplicao de uma matriz A por um escalar -1

1 A = A a ij

(3) Multiplicao de matrizes:


Se A uma matriz N x L e B uma matriz L x M, ento o produto A B uma matriz NxM.
O (i,k)-simo elemento do produto A B obtido multiplicando-se a i-sma linha de A pela
k-sima coluna de B

A B

( NxL ) ( LxM )

( NxM )

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

28

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
O elemento

c ik =

c ik

a ij b jk

j =1

a11 a12 L a1L b11 b12 L b1M c11 c12 L c1M


a21 a22 L a2L b21 b22 L b2M c21 c22 L c2M
=
M
M
M M M
M
M
M M


a a L a b b L b c c L c
NL L1
N2
NM
L2
LM N1
N1 N 2
[a11b11 + a12b21 + ...+ a1LbL1 ] [a11b12 + a12b22 + ...+ a1LbL2 ] L [a11b1M + a12b2M + ...+ a1LbLM ]

[a21b11 + a22b21 + ...+ a2LbL1 ] [a21b12 + a22b22 + ...+ a2LbL2 ] L [a21b1M + a22b2M + ... + a2LbLM ]

M
M
M

[a b + a b + ... + a b ] [a b + a b + ... + a b ] L [a b + a b + ... + a b ]


NL L1
N1 12
N 2 22
NL L2
N1 1M
N 2 2M
NL LM
N1 11 N 2 21
Veja ainda que o produto A B pode ser expresso como

A B

( NxL ) ( LxM )

( NxM )

[ a1 a 2 L a L ] B
( NxL )

Em que

aj

= [c

( LxM )

c2 L cM ]
( NxM )

o vetor formado pela j-sima coluna da matriz A e

ck

o vetor formado

pela k-sima coluna da matriz C , sendo expresso como

ck =

L
a j b jk ,
j =1

k = 1,2,..., M

Caso particular:
Multiplicao de uma matriz por vetor
Se A uma matriz N x M e p um vetor M x 1, ento o produto A p um vetor N x 1.
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

29

Valria Cristina F. Barbosa


Observatrio Nacional

A p

( N M ) ( M 1)

y
( N 1 )

cujo i-simo elemento do vetor

yi=

j =1

o vetor

expresso como

a ij p j

Considerando

N 1

y
=

i = 1,2,..., N

aj

o vetor N-dimensional formado pela j-sima coluna da matriz A ento

pode ser expresso como


M

j =1

ajp

Propriedades da Multiplicao de Matrizes:


(3.1) A multiplicao de matrizes obedece a lei distributiva

( )
A (B C ) = A B A C
(B + C )A = B A + C A
(B C )A = B A C A

A B + C = AB + A C

(3.2) A multiplicao de matrizes obedece a lei associativa

(A B ) C = A (B C )

Observaes prticas:

Em geral a lei comutativa da multiplicao de matrizes em que NO vlido

(A B )

BA

Na manipulao de matrizes, os colchetes podem ser removido e as potncias


podem ser combinadas, por exemplo

(B A ) A(A B ) = B A B
2

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

10

30

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

A lei do cancelamento em geral no valida na multiplicao de matrizes. Ento se

A B = 0 onde 0 uma matriz nula isto NO implica A = 0 ou B = 0

Se A uma matriz N x L, B uma matriz L x M e k um escalar ento

( ) ( )

( )

k A B = kA B = A k B

TIPOS ESPECIAIS DE MATRIZES


(1) Matriz Nula: 0
Matriz com todos os elementos zeros. Se A uma matriz N x M , uma matriz Nula
N x M pode ser definida como

A A aij aij = 0
Propriedades da matriz Nula:
A+0 = A
0 A = A
AA = 0
0A = A0 = 0

A lei do cancelamento em geral no valida na multiplicao de matrizes. Ento se

A B = 0 onde 0 uma matriz nula isto NO implica A = 0 ou B = 0

se A B = A C ento A B C = 0 e isto NO implica A = 0 ou B = C


(2) Matriz Transposta:

Se A uma matriz N x M ento a transposta de A uma matriz denominada de

de dimenso M X N cuja i-sima coluna a j-sima linha de A . Se

( N M )

[ ]

[ ]

a i j ento T a j i
A
(M N )

Propriedades da matriz Transposta:

A Transposta da soma de duas matrizes a soma das matrizes


transpostas

(A + B ) = A
T

+ BT

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

11

31

Valria Cristina F. Barbosa


Observatrio Nacional

A transposta da transposta de uma matriz igual a matriz

(A )
T

= A

Se S uma matriz diagonal [veja definio no item (4)] ento a sua


transposta igual a matriz

= S

A transposta do produto de duas matrizes o produto das transpostas na


ordem inversa

(A B ) = B A
T

Se k um escalar ento

(kA ) = kA
T

(3) Matriz Quadrada


uma matriz cujo nmero de linhas igual ao nmero de colunas.

matriz quadrada de ordem N

(N N )

matriz quadrada de ordem M

( M M )

Diagonal principal : Se

uma matriz quadrada chamamos de

(NN )

diagonal principal os elementos

Trao: Se

a ii

, i=1,2,,N.

uma matriz quadrada, ento o trao de

(NN )

(NN )

definido como a soma dos elementos da diagonal principal

()

Tr A =

a
i =1

ii

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

12

32

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
Propriedades do Trao:

( )

( )

Tr A B = Tr B A
(4) Matriz Diagonal

uma matriz quadrada em que todos os elementos fora da diagonal principal so


nulos.

aij = 0 se i j
aij 0 se i = j
(5) Matriz Identidade:

uma matriz diagonal em que todos os elementos da diagonal principal so todos


unitrios.

1 0 L 0
0 1
0
I=
M
O M

0 0 L 1
(6) Matriz Simtrica
uma matriz quadrada tal que

AT = A .
Em outras palavras,

uma matriz simtrica se os elementos da matriz esto

simetricamente dispostos em relao a diagonal principal. Assim por exemplo se a


matriz

simtrica temos que

(NN )

(N N )

a11

a12
=
M

a
1N

a12

a 22

a2 N

a1 N

a2 N
M

a NN

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

13

33

Valria Cristina F. Barbosa


Observatrio Nacional
Neste caso se A simtrica temos

[ ] [ ]

A aij = a ji

Propriedades da matriz simtrica

A uma matriz N x M e A T

Se

A
(

uma matriz simtrica de ordem M e

) (N M )

M N

A
(

A
) (

N M

M N

Se

a sua transposta ento

uma matriz simtrica de ordem N.

(N x N) uma matriz simtrica de ordem N e

uma matriz

qualquer N x M ento

AB

uma matriz simtrica de ordem M

O produto de duas matrizes simtricas em geral NO simtrico. Ento


se

AT = A e B

(A B )

= B

= B

(7) Matriz Anti-simtrica


uma matriz quadrada tal que

AT = A .
Neste caso se A anti-simtrica temos

[ ] [

A aij = a ji

(8) Matriz Ortogonal


Uma matriz

A
(

NN

A
) (

A R N N

NN

=
)

A
(

ortogonal se

NN

A
) (

T = IN

NN

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

14

34

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
De acordo com a definio de matriz inversa que iremos apresentar no tpico 13, se
uma matriz

A(

A R N N

1 =

N N

A
(

ortogonal ento

N N

Propriedades da Matriz Ortogonal:

Cada coluna e cada linha da matriz um vetor ortonormal,

aiT ai = 1
(9) Matriz Real : Todos os elementos so reais
(10) Matriz Complexa: Tem elementos complexos
(11) Matriz Imaginria: Todos os elementos so imaginrios ou nulos
(12) Matriz Hermitiana:
Uma matriz Hermitiana

AH

definida como a complexa conjugada A transposta.

A =A
H

Veja que se

for uma matriz de nmero reais, ento note que a Hermitiana

uma matriz transposta no caso Real.


(13) Matriz Inversa:
Se

uma matriz quadrada de orem N, ( A

R N N

) e se existe uma matriz

A 1 tal que
A A 1 = A 1 A = I N
ento dizemos que:

A matriz

A inversa da matriz

NO SINGULAR, ou seja, a matriz

a matriz

possui inversa

A 1

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

15

35

Valria Cristina F. Barbosa


Observatrio Nacional
Chamamos de Matriz NO SINGULAR uma matriz que possui INVERSA
Chamamos de Matriz SINGULAR uma matriz que NO possui INVERSA

Propriedades

A R N N

1. Se

uma matriz No singular, ento sua inversa NICA

A R N N

2. Se

B R N N

so matrizes No Singular ento o

produto A B sempre No singular cuja inversa expressa como:

(AB) = B A
1

1 1

A R N N

3. Se

(A )

-1

4. Se

uma matriz No singular ento

=A

A n R N N

(A ) = (A )
1

5. Se

para todo n=0,1,2,

A R N N

de zero ento

uma matriz No singular e k qualquer escalar diferente

kA

(kA)

6. Se

A R N N

, em que n=0,1,2,3, , uma matriz No singular ento

tambm uma matriz No singular

1 1
A
k
uma matriz No singular SIMTRICA (ou seja

A T = A ), ento sua inversa A 1 tambm uma matriz SIMTRICA


A R N N

7. Se

A
(

N N

A
) (

NN

uma matriz No singular ORTOGONAL (ou seja,

A
(

N N

A
) (

T = IN

NN

), ento sua inversa

A 1 = A T

tambm uma matriz ORTOGONAL


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

16

36

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
8. Se

A R N N
1

uma matriz No singular DIAGONAL, sua inversa

tambm uma matriz DIAGONAL cujo i-simo elemento da diagonal

expresso como

9. Se A
10. Se

a ii

R N N

A R N M

uma matriz No singular ento

(A ) = (A )
1

uma matriz RETANGULAR ento uma matriz Singular

(No possui inversa).


A utilidade prtica do estudo da matriz inversa resolver um sistema de
equaes lineares que vamos ver mais adiante

FUNO DETERMINANTE:
Estamos todos familiarizados com funes do tipo f(x) =x2 , que associa
um nmero real f(x) com um nmero real da varivel x. Como f(x) e x assumem
apenas valores reais, tais funes so descritas como funes de nmeros
reais de uma varivel real
A funo determinante

det( A )

uma funo de nmero real de

uma varivel matricial. Em outras palavras, a funo determinante associa um


nmero real

det( A )

a uma matriz

A utilidade prtica do determinante servir como uma ferramenta de


avaliao de um sistema linear, vamos ver mais adiante
Propriedades da Funo Determinante:
1. Se

A R N N

a sua transposta ento

det( A T ) = det( A )
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

17

37

Valria Cristina F. Barbosa


Observatrio Nacional
2. Se

A R N N

uma matriz quadrada que contm uma linha ou coluna

com elementos zero, ento

det( A ) = 0
A R N N

3. Se

uma matriz quadrada que contm duas linhas (ou

duas colunas) iguais ento

det( A ) = 0
A R N N

4. Se

uma matriz quadrada cuja i-sima linha (ou i-sima

coluna) um mltiplo da j-sima linha (ou j-sima coluna) ento

det( A ) = 0
A R N N

5. Se

B R N N

e k qualquer escalar ento temos que

as seguintes propriedades

det( k A ) = k

det( A B ) = det( A ) det( B )

Em geral,

det( A )

det( A + B ) det( A ) + det( B )

Importncia do Determinante:
O determinante de uma matriz uma ferramenta prtica para
testarmos se uma matriz possui inversa.

Lema: Uma matriz

A R N N

inversa) se e somente se

uma matriz No Singular (possui

det( A ) 0

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

18

38

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

A R N N

Logo uma matriz

det( A ) = 0

somente se

A R N N

Se

Singular (NO possui inversa) se e

inversa

det( A

) =

uma matriz No Singular, o determinante de sua

1
det( A )

REGRA DE CRAMER:
Se

A R

2 2

uma matriz No Singular, a sua inversa

expressa como:

a 22
1

det( A ) a 21

a 12
a 11

EQUAES LINEARES:
Uma reta no plano x-y pode ser representada pela equao

a1 x + a2 y = b
Uma equao deste tipo chamada de equao linear nas variveis x e y.
Generalizando definimos uma equao linear em M variveis x 1 , x 2 ,..., x

como

sendo:

a 1 x 1 + a 2 x 2 + ,..., + a M x M = b
Onde

a 1 , a 2 ,..., a M

e b so constantes reais e x 1 , x 2 ,..., x

so variveis

desconhecidas.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

19

39

Valria Cristina F. Barbosa


Observatrio Nacional
SISTEMA DE EQUAES LINEARES:
Um sistema de equaes lineares (ou, simplesmente, sistema linear) um conjunto finito
de N equaes lineares nas variveis

x 1 , x 2 ,..., x M

a 11 x 1 + a 12 x 2 + ... + a 1 M x M
a x + a x + ... + a
21 1
22
2
2M x M

a N 1 x 1 + a N 2 x 2 + ... + a NM x M

b1

=
=

b2
M

bN

Este sistema linear apresenta N equaes em M incgnitas.


Em notao matricial um sistema linear pode ser escrito por

( N M ) ( M 1)

a11

a 21
M

a
N1

( N 1)

a12

a 22

M
L

aN 2

a1 M

a2M
M

a NM

x1
x
2
M

xM

b1
b
= 2
M

bN

Quantas solues um sistema linear pode ter ?


Todo sistema de equaes lineares pode:
1) No ter soluo
2) Ter exatamente uma soluo
3) Ter infinitas solues

Para responder a pergunta acima sobre quantas solues um dado sistema pode ter,
vamos introduzir um conceito chamado Sistema Homogneo de Equaes Lineares.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

20

40

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

Sistema Homogneo de Equaes Lineares:


Um sistema linear homogneo expresso como

( N M ) ( M 1)

( N 1)

ou seja,

a 11

a 21
M

a
N1

a 12

a 22

M
L

aN 2

a1 M

a2M
M

a NM

x1
x
2
M

xM

0
0
=
M

0

A soluo do sistema homogneo de equaes (

x = 0

SOLUO TRIVIAL se

SOLUO NO TRIVIAL se

Ax = 0

) chamada de

x 0

Agora responderemos a pergunta formulada anteriormente sobre o nmero solues


que um sistema linear no homogneo pode ter.

Um sistema de equaes lineares

se o sistema homogneo

Ax = 0

Ax = b

tem EXATAMENTE UMA SOLUAO

tem apenas a SOLUO TRIVIAL (

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

x = 0

21

).

41

Valria Cristina F. Barbosa


Observatrio Nacional
Um sistema de equaes lineares
sistema homogneo

Ax = 0

Ax = b

tem INFINITAS SOLUES se o

tem SOLUO NO TRIVIAL ( x 0 ).

Propriedades:

Seja um sistema linear apresentando N equaes lineares em M incgnitas definido


por

( N M ) ( M 1)

( N 1)

Se M > N o sistema linear ter INFINITAS SOLUES. Portanto, um sistema linear


em que o nmero de incgnitas (M) maior que o nmero de equaes (N) tem
infinitas solues.

SISTEMA DE EQUAES LINEARES X GEOFSICA:


Vimos que na geofsica os dados coletados no campo (medidas observacionais de
algum fenmeno fsico) so simplesmente uma tabela de valores numricos que so
armazenados em um vetor. Assim dado um conjunto de N observaes os dados medidos
podem ser representados por

y10
0
y
o
y = 2
M
0
yN
As medidas observacionais so portanto um vetor

yo RN .

Similarmente, os parmetros (varivel desconhecida do nosso problema) tambm


sero um conjunto de M valores numricos que so armazenados em um vetor
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

22

42

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

p1

p
p= 2
M

pM
J vimos que o princpio bsico do problema inverso que h alguma relao fsicomatemtica entre os dados
direto

yo

e os parmetros

p . Esta relao chamaremos de modelo

(forward operator) ou sistema fsico ou relao funcional que nada mais que

relacionam os dados coletados com os parmetros. Assim por exemplo se medirmos a


massa e o volume de um corpo temos dois elementos compondo o vetor

yo ,

ento

podemos dizer que

y10 = massa
y = 0

y2 = volune
o

Se desejamos estimar a densidade deste corpo temos um vetor de parmetros

p com um nico elemento


p = [ p1 = densidade ]
O sistema fsico ou modelo direto, neste caso muito simples. Ele estabelece que a
densidade multiplicada pelo volume igual a massa

o
2

0
1

Em uma situao mais realista temos que os dados e os parmetros esto


relacionados de modo mais complicado. Neste caso simples acima temos apenas uma
equao

o
2

p 1 y 10 = 0

ou seja,

f1 ( y o , p ) = 0
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

23

43

Valria Cristina F. Barbosa


Observatrio Nacional
Em problema mais complexos temos N equaes tal que

f1 ( y o , p ) = 0
f 2 (y o , p ) = 0
M
f N (y o , p ) = 0
Podemos escrever este conjunto de N equaes como uma equao vetorial

f (y o , p ) = 0
ou simplesmente

y o = f (p ).
Estas funes

observados

fi (yo, p) = 0,
pode

fi (yo , p) = 0,

fi (yo , p)
,
p j

ser

i =1,2,...,N
LINEAR

que relacionam os parmetros e os dados

ou

NO

LINEAR.

Se

as

funes

i =1,2,...,N so funes lineares em relao aos M parmetros, ento

i =1,2,...,N e j =1,2,...,M,

NO funo dos parmetros (no

dependem dos parmetros). Neste caso, dizemos que a relao funcional (modelo direto)
entre os parmetros e os dados uma relao linear que pode ser representada por um
sistema de N equaes lineares em M incgnitas escrito em notao matricial como

( N M )

p = yo

( M 1)

( N 1)

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

24

44

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
COMBINAO LINEAR:
Veja que a multiplicao de uma matriz A por um vetor de parmetros p , resultando no
vetor de dados observados

p = yo

( N M )

( M 1 )

( N 1 )

yo ,

pode ser rescrita como

o =

j=1

N 1

em que

aj

um vetor (N x 1) formado pela j-sima coluna da matriz

A . Em outras

palavras, podemos dizer que

y o = a 1 p 1 + a 2 p 2 + a 3 p 3 + ... + a M p M
Ento dizemos que o vetor dos dados observados

vetores

a 1 , a 2 , a 3 ,...,

p 1 , p 2 , p 3 ,..., p M

y o uma COMBINAO LINEAR dos

, que so os M vetores colunas da matriz

so escalares que formam o vetor de parmetros

A, e

p.

INDEPENDNCIA LINEAR:
Dizemos que um conjunto de vetores

a 1 , a 2 , a 3 ,..., a M

LINEARMENTE

INDEPENDENTE (LI) se existirem coeficientes p 1 , p 2 , p 3 ,..., p M TODOS NULOS tal


que

a 1 p 1 + a 2 p 2 + a 3 p 3 + ... + a M p M = 0

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

25

45

Valria Cristina F. Barbosa


Observatrio Nacional
Em outras palavras, os vetores

sistema homogneo,

a 1 , a 2 , a 3 ,..., a M

forma um conjunto LI se o

A p = 0 , admitir apenas a soluo trivial ( p = 0 ); caso contrrio,

estes vetores formam um conjunto LINEARMENTE DEPENDENTE (LD)

Propriedades:

Um conjunto de vetores LI se e somente se NENHUM vetor deste conjunto de


vetores pode ser expresso como uma combinao linear dos outros vetores.

Um conjunto de vetores LD se pelo menos um vetor deste conjunto de vetores


pode ser expresso como uma combinao linear dos outros vetores.

a 1 , a 2 , a 3 ,..., a M

Se um dos vetores

Seja um conjunto de vetores

nulo, o conjunto LD

a 1 , a 2 , a 3 ,..., a M

. Se M > N, ento

este conjunto de vetores LD

Estes conceitos de dependncia e independncia linear que acabamos de discutir


so conceitos fundamentais da lgebra Linear. Veremos que tais conceitos auxiliam no
entendimento de um sistema linear e no estudo de espao vetoriais.

BASE E DIMENSO DE UM ESPAO VETORIAL:


Geralmente, quando pensamos numa linha pensamos em um espao de uma
dimenso, quando pensamos em um plano pensamos no espao de duas dimenses e
quando pensamos no espao ao nosso redor pensamos no espao de trs dimenses.
Para entendermos o que de fato a DIMENSO de um espao vetorial precisamos
primeiro definir a BASE deste espao.
BASE: A base de um espao vetorial um conjunto LI de vetores que geram o espao
vetorial.
Propriedades:

Um conjunto de vetores que constituem uma base de um espao vetorial NO nico.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

26

46

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

O nmero de vetores em uma base NICO, ento se um espao vetorial tem uma
base contendo N vetores qualquer outra base deste mesmo espao vetorial ter N
vetores

DIMENSO:
o nmero de vetores em uma base de um espao vetorial (ex.: o espao vetorial
R2 tem uma base formada por dois vetores, logo a dimenso deste espao 2).

POSTO DE UMA MATRIZ:


Uma matriz

( N M )

A (N x M )

a 11

a
= 21
M

a
N1

a 12

a 22

M
L

aN 2

formada por N vetores linhas (

a1 M

a2M
M

a NM

ri R M , i = 1, 2 ,..., N

r1 = ( a 11

a12

a1 M )

r2 = ( a 21

a 22

a2M )

a NM )

rN = ( a N 1

aN 2

Ou formada por M vetores colunas

c j R N , j = 1, 2 ,..., M

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

27

47

Valria Cristina F. Barbosa


Observatrio Nacional

a11
a12
a
a
c1 = 21 c2 = 22 L cM
M
M


a
N1
aN 2
Podemos ento escrever a matriz

a1M
a
= 2M
M

aNM

A (N x M ) de dois diferentes modos

r1
r
A= 2
M

rN
ou

A = [c1

c2 L cM ]

ESPAO LINHA DE UMA MATRIZ


A

matriz

tem

um

r R M , i = 1, 2 ,..., N

( i

total

linhas,

ou

seja,

vetores

linhas

) em que cada vetor linha tem M elementos.

Ento o espao linha da matriz

pelo conjunto das linhas

A (N x M )

(N x M) aquele subespao de

RM

gerado

. Em outras palavras, so os vetores linha que so LI.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

28

48

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

ESPAO COLUNA DE UMA MATRIZ


A matriz

tem um total e M colunas, ou seja, M vetores coluna

( c j R N , j = 1, 2 ,..., M )

pelo conjunto das colunas de

em que cada vetor coluna tem N elementos.

Ento o espao coluna da matriz

Se

A (N x M )

(N x M) aquele subespao de

RN

gerado

. Em outras palavras, so os vetores colunas que so LI.

(N x M) qualquer matriz, ento o espao linha e o espao coluna tem a

mesma dimenso.
POSTO (RANK) DA MATRIZ

(N X M) :

a dimenso do espao linha (ou do espao coluna) da matriz

. Em outras

palavras, o nmero de vetores linhas (ou vetores colunas) que formam um conjunto LI de
vetores.
Propriedades:

Posto de

= Posto de

AT

POSTO X SISTEMA DE EQUAES LINEARES:


Vamos agora estabelecer a relao entre o posto da matriz

de um sistema no homogneo de equaes lineares


Se

Ap = y o

p1 , p 2 , p 3 ,..., p M
matriz

Ap = yo

(N x M) e a soluo

um sistema de N equaes lineares em M incgnitas

a 1 , a 2 , a 3 ,..., a M

so os vetores colunas da

. Ento podemos dizer que o vetor de dados observados uma combinao

linear dos vetores colunas da matriz

, ou seja,

y o = a 1 p 1 + a 2 p 2 + a 3 p 3 + ... + a M p M
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

29

49

Valria Cristina F. Barbosa


Observatrio Nacional
J vimos que um sistema linear pode: 1) no ter soluo (sistema inconsistente); 2)
ter uma nica soluo; e 3) ter infinitas solues.

Ap = y o

O sistema

[A , y ]
]> r [A ]
o

aumentada

r A,y o

O sistema

[A , y ]
o

M.

inconsistente se e somente se o posto da matriz

MAIOR que o posto da matriz

Ap = y o

tem soluo nica se o posto da matriz aumentada

IGUAL ao posto (r) da matriz

A.

A e igual ao nmero de incgnitas r =

] []

r A, y o = r A = M

O sistema

[A , y ]
o

r < M.

Ap = yo

tem infinitas solues se o posto da matriz aumentada

IGUAL ao posto (r) da matriz

A e MENOR que o nmero de incgnitas

] []

r A,y o = r A < M
POSTO X SISTEMA DE EQUAES LINEARES X SISTEMA HOMOGNEO:
Qual a relao entre a soluo de um sistema no homogneo,
correspondente sistema homogneo,

Ap = 0

Ap = y o , e o

A relao entre estes dois sistemas descrito pela Alternativa de Fredholm que
possibilita responder a questo da existncia e unicidade da soluo do sistema linear
arbitrrio,

Ap = 0

Ap = y o

, atravs do simples estudo do sistema homogneo correspondente,

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

30

50

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
Alternativa de Fredholm: Existe precisamente UMA NICA soluo de

A p = y o se

e somente se a soluo trivial,

homogneo correspondente,

Ap = 0

p =0,

a nica soluo do sistema

Como conseqncia temos a seguinte propriedade:

p = 0 a nica soluo do sistema homogneo A p = 0 se e somente se o posto de


igual ao nmero de incgnitas (M)

[]

rA =M
NORMA DE VETORES:
Vamos agora introduzir a noo de tamanho de um vetor. Em duas dimenses,
medimos o comprimento geomtrico de um vetor via teorema de Pitgoras como sendo (x12
+ x22 )1/2. Antes de definirmos a norma de vetores vamos ao conceito de produto interno (ou
produto escalar) Euclideano.

PRODUTO ESCALAR EUCLIDEANO.


Seja dois vetores

u e v , R N , ento o produto escalar Euclideano definido

como:

u, v = u1v1 + u2v2 + ... + uN vN .


O produto escalar Euclideano pode tambm ser escrito como:

u, v = uT v = u1v1 + u2v2 + ... + uN vN


Propriedades:
Seja trs vetores

u , v e w , R N e k um escalar qualquer ento temos as

seguintes propriedades:

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

31

51

Valria Cristina F. Barbosa


Observatrio Nacional

a)

u, v = v, u

b)

u + v, w = u, w + v, w

c)

k u, v = k u, v

d)

v, v 0
v, v = 0 , ento v = 0

e) Se

NORMA EUCLIDEANA DE UM VETOR


Se o vetor

u R N , ento o comprimento (tamanho) deste vetor expresso

como:

u 2 = u, u
sendo

RN

1/ 2

= (u T u)1/ 2 = u1 + u2 + ... + u N
2

2 1/ 2

2 a norma Euclideana de um vetor ou simplesmente a norma 2 de um

vetor. Portanto

2 fornece o tamanho do vetor

u.

PROPRIEDADES DA NORMA EUCLIDEANA

u 2 0

u 2 = 0 se u = 0

ku 2 = k u

u+v 2 u 2 + v 2

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

32

52

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
DISTNCIA EUCLIDEANA ENTRE DOIS VETORES

RN

v , R N , ento a distncia Euclideana entre u

d (u , v ) = u v

= (u 1 v1 ) 2 + (u 2 v 2 ) 2 + ... + (u N v N ) 2

Seja dois vetores

definida como

Rescrevendo a equao acima temos

d (u , v ) = u v

d (u , v ) = u v

d (u , v ) = u v

d (u , v ) = u v

1/ 2

= u T u 2u T v + vT v

1/ 2

= u T u 2u T v + vT v

= u

2
2

1/ 2

= (u v ) (u v )
T

2 u, v + v

]
2
2

NGULO ENTRE DOIS VETORES


Seja dois vetores

v , R N , ento o ngulo entre u

definido

como

u, v = u

cos =

v 2 . cos

u, v
u 2 v

VETORES ORTOGONAIS
Se dois vetores

u e v , R N , so chamados vetores ortogonais ento

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

33

53

Valria Cristina F. Barbosa


Observatrio Nacional

u, v = 0
uT v = 0
u1v1 + u2v2 + ... + uN vN = 0
CONJUNTO DE VETORES ORTOGONAIS EM UM ESPAO VETORIAL
Um conjunto S de vetores

N
S = {v 1 , v 2 ,..., v M }, em que vi R ,

chamado de conjunto ortogonal se todos os pares de vetores ortogonal, ou seja,

vTi v j = 0 para i j em que i = 1,2,...,M e j = 1,2,...,M


CONJUNTO DE VETORES ORTONORMAIS EM UM ESPAO VETORIAL
Um conjunto S de vetores

N
S = {v 1 , v 2 ,..., v M }, em que vi R ,

chamado de conjunto ortonormal se este conjunto de vetores ortogonal e cada vetor tem
norma 1, ou seja,

vTi v j = 0 para i j em que i = 1,2,...,M e j = 1,2,...,M


e

vTi vi = 1 i = 1,2,...,M
BASE ORTOGONAL: uma base contendo vetores ORTOGONAIS
BASE ORTONORMAL: uma base contendo vetores ORTONORMAIS

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

34

54

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
VETOR GRADIENTE

p1
p
p = 2
parmetros
M

pM

Dado um vetor de

GRADIENTE DOS PARMETROS como um vetor

Ento


p
1

= p 2
M

p M

p R M

(M x 1), definiremos o OPERADOR

p R M

que definido como

um vetor (M X 1) cujo o j-simo elemento a derivada parcial

com relao ao j-simo parmetro p j

p j
Veja que

j = 1,2,..., M

p R M

um vetor operador que deve ser aplicado a um escalar ou

a transposta de um vetor coluna.

Vetor Gradiente Aplicado a um Escalar


Seja Q um escalar ento se aplicarmos o vetor gradiente

p R M

ao escalar

Q obtemos um vetor (M x 1) expresso como

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

35

55

Valria Cristina F. Barbosa


Observatrio Nacional

Q
p
1

Q
p {Q } = p 2
M
Q

p M

, R

Vetor Gradiente Aplicado a um Vetor


Seja um vetor N-dimensional

p R M

ao vetor

aos parmetros

x R

, ento aplicando o operador gradiente

obteremos a primeira derivada do vetor

em relao

p , que definida calculando

p {x }
T

( M 1 )

x R

(1 N )


p
1

= p 2
M

p M

[x 1

( M 1 )

x2

xN

]( N 1 )

O resultado uma matriz

p {x }
T

( M 1 )

(1 N )

x1
p1
x1
p2
M
x1
pM

x2
p1
x2
p2
M
x 2
pM

L
L
L

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

xN
p1
xN
p2
M
xN
pM

(M N )
36

56

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
Ento o vetor operador gradiente aplicado a um vetor gera uma matriz.

p {p }:
T

Caso Especial

( M 1 )

Veja que se
gradiente

p RM

p R M

p {p }
T

(1 M )

p {p }
T

( M 1 )

(1 M )

um vetor de parmetros, ento aplicando o operador

ao vetor

relao aos parmetros

( M 1 )

(1 M )

p R M obteremos a primeira derivada do vetor p

em

p , que a matriz identidade


p
1

= p 2
M

p M

p1
p1
p1
p2
M
p1
pM

[p1

( M 1 )
p2
p1
p2
p2
M
p 2
p M

p2

L
L
L

](1 M )

pM

pM
p1
pM
p2
M
pM
pM

(M M

(M M )

Vetor Gradiente Aplicado a um Vetor que Multiplica uma Matriz


Seja o produto

xT A

em que o vetor

A R N M no funo de p .

x R

funo de

Ento aplicando o operador gradiente

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

e a matriz

p R M

37

ao

57

Valria Cristina F. Barbosa


Observatrio Nacional
vetor

x T A obteremos a primeira derivada do vetor x T A

p , que definida como

p {
( M 1)

xT

(1 N ) ( N M )

No caso especial em que

( M 1 )

( M 1 )

pT

}= p { x }

( M 1)

(1 N )

( N M )

x = p R M temos que

(1 M ) ( N M )

pT

em relao aos parmetros

(1 M ) ( N M )

( M 1 )

pT

(1 M )

( N M )

( N M )

FORMAS QUADRTICAS

At agora mostramos equaes lineares, ou seja, equaes do tipo

a 1 p 1 + a 2 p 2 + ,..., + a M p

= y 1o

Se temos um sistema de equaes lineares com N equaes temos

a 11 p 1 + a 12 p 2 + ... + a 1 M p M

a 21 p 1 + a 22 p 2 + ... + a 2 M p M

a N 1 p 1 + a N 2 p 2 + ... + a NM p M

y 10

=
=
=

y 20
M
y 0N

Este sistema de N equaes lineares em M incgnitas pode ser escrito em notao


matricial como

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

38

58

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

( N M )

p = yo

( M 1)

( N 1)

Note que na forma linear temos funes lineares, ou seja, as M variveis ou


incgnitas ( p 1 , p 2 , p 3 ,..., p M ) so

todas potncia de 1 e no h o produto entre

variveis. Ao contrrio, na forma quadrtica estudamos funes em que as variveis so


potncias de 2 ou produto entre variveis.
A Forma Quadrtica em Duas Variveis
A forma quadrtica em duas variveis (

p1 e p2 ) definida como

ap 12 + 2 bp 1 p 2 + cp 22
Em notao matricial temos

a
p 2 ]
b

[ p1

b p1

c p 2

Note que neste caso simples em que temos duas variveis

p1 e p2 a matriz (2 x 2)

simtrica em que os elementos da diagonal so os coeficientes dos termos quadrticos e


os elementos fora da diagonal so dos coeficiente dos termos que so os produtos entre
variveis.
A Forma Quadrtica em M Variveis
A forma quadrtica em M variveis ( p 1 , p 2 , p 3 ,..., p M ) pode ser escrita em forma
matricial como

[ p1

p2 L

em que

p1
p
2
pM ]
A
M
( M M )

pM

uma matriz simtrica (M X M) que em forma compacta temos


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

39

59

Valria Cristina F. Barbosa


Observatrio Nacional

Q = pTA p
Usando a propriedade que

uma matriz simtrica ento

temos

AT = A

logo

( )p
T

Q = pTA p = pTAT p = Ap
Derivadas de uma Forma Quadrtica
Vamos definir uma forma quadrtica como

Q = xT A x

x RM

em que o vetor

simtrica que no funo de

funo de

( M 1 )

xT

p {
( M 1 )

xT

}= p { x } A
}= 2 p { x } A
T

(1 M ) ( M M ) ( M 1)

( M 1)

(1 M )

( M 1 )

x +

( M M ) ( M 1)

(1 M ) ( M M ) ( M 1)

A R M M

uma matriz

M
p . Ento aplicando o operador gradiente p R

forma quadrtica Q temos

p {

(1 M )

p {
( M 1)

xT

AT

(1 M ) ( M M )

( M 1 )

( M M ) ( M 1 )

Casos Especiais:
(1) No caso especial em que

A = I

temos a forma quadrtica

Q = xT x
Ento aplicando o operador gradiente

p {
( M 1 )

xT

}= 2 p { x }
T

(1 M ) ( M 1 )

p R M

( M 1)

(1 M )

a forma quadrtica acima temos

( M 1 )

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

40

60

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

(2) No caso especial

em que

A I

uma matriz simtrica M x M e

x = p R M temos a seguinte forma quadrtica

Q = p T Ap
Ento aplicando o operador gradiente

(M

p
1 )

Usando a propriedade que

(M

(1 M ) ( M M ) ( M 1 )

p
1 )

( 1 M ) ( M M ) ( M 1 )

p {p } =
( M 1 )

(M

p
1 )

temos

(1 M )

(1 M ) ( M

= 2

Como

= 2

(M

a forma quadrtica acima temos

p
1 )

M ) (M

(3) No caso especial em que

1 )

(M

A = I

= A

p
1 )

= 2

(1 M )

uma matriz simtrica , A

p R M

, ento temos

(1 M )

(M

( M M ) ( M 1 )

M ) (M

( M M ) ( M 1 )

1 )

temos a forma quadrtica a seguinte

forma quadrtica

Q = pT p
Ento aplicando o operador gradiente

(M

(M

p
1 )

p
1 )

(1 M ) ( M 1 )

(1 M ) ( M 1 )

= 2

= 2

p R M

(M

p
1 )

p
( M 1 )

forma quadrtica temos

(1 M )

p
( M 1 )

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

41

61

Valria Cristina F. Barbosa


Observatrio Nacional

Exerccio Terico 1:
1) Se

A R N M

pode ser rescrita como

A = U S V T , em que U

(N x N) e

(M x M) so matrizes ortogonais e S uma matriz diagonal (N X M).


1.1. Ache a transposta de A

1.2. Ache as matrizes


1.3. Ache as matrizes

A T A e AA T e prove que estas matrizes so simtricas

(A A) (AA )
1

(A A )
T

1.4. Mostre que o (i,j)-simo elemento da matriz


M

vk jv j k

j =1

s 2j

em que

v kj

o elemento (k,j) da matriz

A + = AT A

1.6. Ache a matriz

A+ = AT A AT

1.7. Considere que

s1

S =

expresso por

k = 1,2 ...,M

1.5. Ache a matriz

em que

sj

o j-simo elemento da matriz S

AT

S uma matriz diagonal (N X M)

contendo r valores no nulos

r<M =N
s2
O
s

r
0
O

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

42

62

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

0
em que
0

Esta matriz acima pode ser particionada como

S
S = r
0

uma matriz diagonal (r X r). Mostre que a matriz

A R N M

como

= U r S r V rT

Ur = u1 u2...ur

em que a matriz

Vr = v1 v 2 ... v r

pode ser rescrita

uma matriz (N x r) e a matriz

uma matriz (M x r).

S uma matriz diagonal (N X M)

1.8. Considere que

S
r

e M-r valores muito pequenos em que

contendo r valores no nulos

r<M N

. Portanto, esta matriz

pode ser particionada como

Sr

S =0
0

em que S

0
SM r
0

uma matriz diagonal de dimenso r x r composta dos r elementos

No Nulos e S M r uma matriz diagonal de dimenso M-r x M-r composta


dos M-r elementos pequenos ( prximos de zero).
a) Como a matriz

A R N M

b) No caso em que

2) Se

A R N M

pode ser rescrita?

SM r = 0 R M- r

mostre que

uma matriz expressa como

M=3) e que pode ser rescrita como

A = Ur Sr V rT

1
A =
1

A = U S V T em

que

1
1
U

0
0
e

(N=2 e

matrizes ortogonais expressas respectivamente como,


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

43

so

63

Valria Cristina F. Barbosa


Observatrio Nacional

U = 2
2
2

2
2

2 V= 2
2
2 ,

2
2
2
2
0

2 0 0
.
0 0 0

e S uma matriz diagonal contendo apenas um valor no nulo (r=1) S =

2.1. Mostre que a matriz


T

2.2 Mostre que

2.3 Mostre que V

pode ser rescrita como

U = U U
= V

A = Ur Sr V rT

= I

= I

2.4 Mostre que

U r U r = I e U N r U N r = I

2.5 Mostre que

T
r

Vr = I e V

2.6 Mostre que U r U r I

M r

2.7 Mostre que

M r

Ur Ur

2.8 Mostre que

VrV

+U

+ V

N r

M r

3) Se o vetor

(N x 1) definido como

3.2

T
M r

= I
T
M -r

(NN )

= I (M M

U r U N r = 0( N N )

= yo A p

mostre que

3.1

N r

V r V M r = 0 ( M M )

2.10 Mostre que

= I

2.9 Mostre que

M r

e U N r U N r I

VrVr I e V

= y o y o 2pT A T y o + pT A T A p

2
2

}= - 2 A

yo + ATAp

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

44

64

CAPTULO 2.

LGEBRA LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
4) Considere que a matriz

respectivamente iguais a

a funo

Q=

= yo A p

A R 1 2 ,

o vetor

1
=
2

yo

( 1 2 )

em que

1
,
2

(11)

yo R1
=2 e

e o vetor

( 2 1 )

p R2 so

p
= 1 . Considere
p2

um vetor de dimenso 1 definido como

4.1 Represente graficamente esta funo Q no espao de parmetros (p1-p2)

p2
4
3
2
1

-2

-1

p1

-1
-2

4.2 O mnimo da funo Q produzido na questo 4.1 no est representado


por ponto e sim por uma curva de isovalor. Assinale no grfico esta curva
que representa o mnimo de Q.
4.3 Mostre que qualquer par de parmetros

p1 e p 2 que caem sobre o

mnimo da funo Q satisfaz exatamente a equao

Ap = yo . Faa esta

demonstrao usando pelo menos 4 diferentes pares de parmetros.


5) Considerando uma matriz

gradiente: p

Rp

2
2

R R LM

que no funo de

p , calcule o vetor

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 2: Reviso de lgebra Linear

45

Captulo 3
Estgios do processo de inverso

66

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional
Estgios do processo de Inverso
1)

1.1)

A Formulao:

O Problema Geolgico: Caracterizao do problema geolgico. Nesta

etapa defini-se: a) os dados geofsicos, b) a estrutura geolgica e c) os parmetros a


serem estimados.
1.2)

Simplificaes:

Com

base

na

definio

do

problema

geolgico

estabeleceremos hipteses (conjecturas com fundamentos) objetivando estabelecer


simplificaes.
1.3)

Informao a priori: Define-se todas as informaes a priori sobre os

parmetros. Estas informaes podem ser precisas ou no, podem ser quantitativas,
ou semi-quantitativas, ou qualitativas, podem ser geolgicas ou fsicas.
1.4)

Relao Funcional (modelo direto): Aps estabelecermos todos estes

tpicos acima busca-se a transformao do problema geolgico em um problema


matemtico. Para isto iremos construir uma relao funcional
uma relao entre os dados geofsicos

f que estabelece

o
observados y e os parmetros

p do

modelo que sero estimados. Vale ressaltar que a relao funcional (tambm
o
chamada de modelo direto) envolve outras variveis, alm dos dados geofsicos y

(tambm chamados de variveis dependentes do problema) e os parmetros


desconhecidos

p , como por exemplo as variveis independentes ( x ) e

constantes conhecidas ( ) do modelo.

f ( p, x, ) = y o
1.5)

Problema Matemtico: Montagem do sistema de equaes que ser

resolvido. Esta etapa envolve a escolha ou a elaborao do estabilizador matemtico


(regularizador) em concordncia com a informao geolgica disponvel do
problema. O sistema resultante a ser resolvido pode envolver equaes lineares ou
no-lineares.

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

67

Valria Cristina F. Barbosa


Observatrio Nacional
2)

A Construo da soluo: A construo da soluo consiste na elaborao

do algoritmo e na obteno de uma soluo estimada.

3)

Avaliao da soluo estimada:

3.1) Anlise das Limitaes: Todo o mtodo de inverso elaborado ou utilizado


estabelece premissas. Ento devemos analisar quais sero as conseqncias se tais
premissas no refletirem uma informao geolgica de fato.

3.2) Anlise de estabilidade da soluo na presena de rudo

Esta anlise pode

ser feita via diferentes formas. A primeira consiste em analisar a soluo analtica
dos estimadores. A segunda forma fazendo-se uma anlise estatstica (atravs da
matriz de covarincia dos parmetros). A terceira forma anlise de estabilidade da
soluo pode ser feita atravs da realizao de testes numricos controlados com
dados contaminados por diferentes seqncias de rudo.

3.3) Simulao de testes sintticos com dados contaminados com rudo

3.4) Aplicao do mtodo de inverso a dados reais:

A seguir ser apresentado um exemplo muito simples envolvendo os estgios do


processo de inverso

Leia o ANEXO 1 (Conceitos Bsicos de Estatstica)

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

68

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional
Exemplo dos estgios do processo de Inverso:

A Formulao:

1)

O Problema Geolgico:

Dado N observaes de uma anomalia magntica

obtenha um estimador local do campo Normal da terra (IGRF= International


Geomagnetic Reference Field). Tal como na gravimetria que existe uma
representao matemtica para a atrao gravimtrica do elipside de referncia,
existe tambm na magnetometria a representao matemtica da anomalia regional
magntica. O IGRF a representao deste campo regional da Terra, ou seja, a
representao matemtica do campo principal da Terra. Matematicamente o IGRF
representa harmnicos de baixa ordem (de 1 at 10). Geologicamente, acredita-se
que o IGRF represente grande parte do campo geomagntico do ncleo da Terra.
Ento

subtraindo-se o IGRF do Campo magntico Total da Terra teremos, em

princpio, a anomalia magntica da crosta (anomalia magntica que de interesse


para a prospeco).
Simplificaes: Vamos estabelecer como simplificao deste problema que o
IGRF pode ser aproximado por um polinmio de ordem 1. Esta simplificao ser
vlida para reas pequenas onde o campo geomagntico varia linearmente.

Figura 1

nT

IGRF

yoi = axi + b + i

yoi
xi

o
Na Figura 1 os pontos representam as N observaes geofsicas de y .
o
Especificamente, y i representa a i-sima observao medida na coordenada

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

69

Valria Cristina F. Barbosa


Observatrio Nacional
x i . Veja que aproximaremos o dado observado y o i por um polinmio de primeira

ordem. Este problema muito simples e representa um problema de regresso


linear. A reta ajustada (IGRF) conhecida como Regression line cujo o i-esimo
c

elemento y i (dado ajustado ou calculado) definido pela equao

y c i = ax i + b (reta ajustada=IGRF)
ento em cada ponto de medida x i o dado observado (medido)

y o i deve

satisfazer a seguinte equao

y o i = ax i + b + i

em que

representa o resduo no i-simo ponto de medida (Figura 2). O

o
resduo a distncia vertical entre i-sima observao y i e a i-sima observao

ajustada y i (linha de regresso que neste problema representa o IGRF).


resduo

tambm chamado de desajuste misfit ou erro (rudo) .

nT

yoi

IGRF

xi

x
Figura 2

Figura 2
o
Problema Matemtico: veja que se temos apenas uma observao y 1 queremos

que

esta

nica

observao

esteja

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

mais

prximo

possvel

do

ajuste
4

70

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional

y c 1 = ax1 + b. Em outras palavras, queremos que

1 seja

mnimo. Este

problema em notao matemtica :

Minimize

{ 1 } = Minimize

{ y o1 y c1}

Como h N observaes de medidas do Campo magntico Total ento


necessrio uma norma do resduo seja mnima. Se escolhermos a norma L2

nosso problema escrito como:

Min

{Q } =

(y
N

ax i b

i=1

( i )2

i =1

Ou seja, este problema foi formulado como um problema de estimar os


parmetros a e b tal que a soma dos quadrados dos resduos seja mnima.

A Construo da soluo:
Para a construo elaboraremos um algoritmo de minimizao da funo acima,
que conhecido como Mtodo dos Mnimos Quadrados. Matematicamente, a
condio para que a funo Q ter um mnimo no espao dos parmetros ( a, b) :

Q
=0 e
a

Q
=0
b

Q
= 2
a

(y

Q
= 2
b

(y

ax

)x

ax

i=1
N

i=1

Quando igualamos as derivadas acima a zero, no mais temos os parmetros

a e b mas, as estimativas
a e b que so Variveis aleatrias (v.a.) pois so funes
de variveis aleatrias (os dados observados contm rudo experimental que resulta
de uma realizao de um fenmeno aleatrio) ento temos

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

71

Valria Cristina F. Barbosa


Observatrio Nacional

(y

(y

)x


a x i b


a x i b = 0

i=1
N

= 0

i=1

Dividindo as duas equaes por 2 temos

i xi

i=1
N

xi

i=1

i=1

xi = 0

i=1

b N = 0

xi

i=1

xi

+ b

i=1
N

xi =

i=1

y o i xi

i=1

+ b N =

xi

i=1

y oi

i=1

A segunda equao fornece a estimativa do parmetro b que


N

b =

i=1

xi

i=1

Substituindo a estimativa de b na primeira equao do sistema temos:

i= 1

xi

i= 1

i= 1

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

xi

i= 1

xi =

xi

i= 1

72

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional

N
1
a x 2i
N
i =1
N

a =

i =1

xi xi =
i =1

i=1
N

1
N

x2
i

i=1

i =1

y o i xi

1
N

i =1

y o i xi
i =1

1
y i xi
N
o

i=1
N

xi

i=1

xi

i=1

i=1
N

a =

xi

i= 1

xi

i= 1

i= 1
N

2
i

i= 1

xi

i= 1

xi

i= 1

xi

i=1

Chamando x =

de mdia das coordenadas

a =

xi

temos:

xi

i=1

y oix

i=1
N

x2
i

i=1

xi x

i= 1
N

Vamos somar e diminuir o termo


N

a =

xi

i= 1

i= 1

i =1

2
i

i= 1

x x no denominador da equao acima

i= 1

xi x +

xi x

i= 1

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

73

Valria Cristina F. Barbosa


Observatrio Nacional
Veja que multiplicando e dividindo o ltimo termo do denominador por N teremos

N
N

xx=Nx

. Substituindo este termo na equao acima obtemos:

i=1

a =

i= 1

2
i

xi x + N

i xi

i=1

x2 2
i

i=1

i=1

xi

i=1

i=1

i=1

x 2 2 xi x + x 2
i

i=1

2
i

xi x +

i=1

x2

y o i (x i x )

i=1

xi x +

ix

(x i

i=1

i=1

a =

2
i

i=1

2xi x + x

i=1

i=1

i= 1

a =

i= 1

i= 1

a =

xi

(x i

i= 1
N

(x
i= 1

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

74

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional
Avaliao da soluo estimada:

Anlise das Limitaes: Todo o mtodo de inverso elaborado ou utilizado


estabelece premissas. Neste exemplo o mtodo utilizado foi o mtodo dos Mnimos
Quadrados (MQ) que apresenta a seguinte limitao: a reta ajustada (IGRF) no
passar por todos os pontos (dados das observaes geofsicas) precisamente. A
questo : At que ponto esta limitao no interfere na soluo do problema
geolgico ?
Como simplificao deste problema estabeleci que o IGRF pode ser aproximado
por um polinmio de ordem 1. Ento uma das limitaes desta simplificao que o
esta soluo ser valida para reas muito pequenas onde o campo geomagntico
varia linearmente.

Anlise de estabilidade da soluo na presena de rudo:


Esta anlise pode ser feita via trs diferentes formas:
Anlise da estabilidade da soluo na presena de rudo atravs da anlise
da soluo analtica dos estimadores:
A anlise primeira forma de estudo da estabilidade da soluo na presena de
rudo consiste em analisar a soluo analtica dos estimadores. Veja que o estimador
do parmetro

a =

N
i =1
N

(x i
i =1

(x i

)2

Note que no numerador temos os dados observados da anomalia de Campo Total


o
( y i ) . Os dados observados em geofsica contm rudo experimental que resulta

de uma realizao de um fenmeno aleatrio, ou seja, um fenmeno que no h


uma lei determinstica associada e portanto no pode ser previsto exatamente. Ento
a contm as incertezas (rudo) dos dados observados.
o numerador do estimador
a tem o termo
Por outro lado, o denominador do estimador

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

(x
N

i =1

que
9

75

Valria Cristina F. Barbosa


Observatrio Nacional
chamaremos de termo de propagao dos erros. Note que este termo funo do
nmero de observaes N e das variveis independentes

xi que representam a i-

sima coordenada de medida da i-sima observao. Este termo de propagao do


erro pode assumir um valor muito pequeno ou muito grande dependendo da escolha
dos x i (i=1,N). Veja que se os valores dos x i (i=1,N) forem feitos prximos a

x (mdia

xi )

dos

Consequentemente,

ento
este

(x x ) ser muito pequeno.


(x x ) funcionar como um
N

termo

termo

i =1

i =1

AMPLIFICADOR dos erros (rudo experimental) contido nos dados observados em


geofsica. Por outro lado, se os valores dos x i (i=1,N) forem feitos distantes de

(x
N

x , ento o termo
termo

(x
N

i =1

i =1

funcionar

ser muito grande. Consequentemente, este

como

um

ATENUADOR

experimental) contido nas observaes em geofsica

dos

erros

(rudo

o
( y i ). Veja a seguir esta

interpretao geometricamente atravs das Figuras 3-5.

Interpretao Geomtrica
Dados sem Rudo

yoi

x1

x2

Figura 3

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

10

76

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional
Considere duas observaes geofsicas realizadas em x 1 e x 2 . Neste caso em
que considero que as observaes esto SEM RUDO (pontos cinza na Figura 3), a
reta ajustada (reta tracejada) que representa o IGRF ser coincidente com a reta
original (reta contnua).
Agora vamos considerar dois casos distintos ambos com dados observados
contaminados por rudo. No primeiro caso as observaes com rudo (pontos pretos
Figura 4) foram realizadas tendo as duas coordenadas x

e x 2 muito distantes de

x . Notamos que, neste caso (Figura 4) a reta ajustada (reta tracejada) quase
coincidente com a reta original ou terica (reta contnua considerando os dados sem
rudo) e se contaminarmos os dados observados com outra seqncia de variveis
aleatria (seqncia diferente de rudo) constataremos que a reta ajustada ser
tambm, neste caso, quase

coincidente com a reta original caracterizando a

ESTABILIDADE da soluo estimada (estimativa dos parmetros a e b ).

Interpretao Geomtrica caso Estvel

Reta ajustada
caso de dados
com rudo

yoi

Reta original

Dados sem Rudo


Dados com Rudo

x1

x2

Figura 4

No segundo caso considerando dados observados contaminados com rudo, as


observaes com rudo (pontos pretos Figura 5) foram realizadas tendo as duas
coordenadas x1 e x

muito prximas de x . Veja que neste caso (Figura 5) a

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

11

77

Valria Cristina F. Barbosa


Observatrio Nacional
reta ajustada (reta tracejada) completamente distante da reta original ou terica
(reta contnua considerando os dados sem rudo) e se contaminarmos os dados
observados com outra seqncia de variveis aleatria (seqncia diferente de
rudo) constataremos que a reta ajustada ser tambm, neste caso, diferente da reta
original caracterizando a INSTABILIDADE da soluo estimada (estimativa dos
parmetros a e b ).

Interpretao Geomtrica caso instvel

yoi

Reta ajustada
caso de dados
com rudo
Reta original
Dados sem Rudo
Dados com Rudo

x1 x x2

x
Figura 5

Neste problema inverso particular chegamos as seguintes concluses:


1) A estabilidade da soluo, caracteriza-se pelo ngulo formado entre as retas
terica e ajustada e depende das posies dos pontos x i que so as coordenadas
onde as observaes so efetuadas.
2) Este problema inverso permite proceder a um desenho de experimento para
tornar as solues mais estveis, para tanto as observaes (ou seja, as
coordenadas x i onde elas devem estar localizadas) devem ser realizadas o mais
distante de x (mdia dos x ' s )para que a soluo seja a mais estvel possvel.

Neste exemplo de uma simples regresso linear nota-se que o grau de


estabilidade da soluo estimada poderia ser medido atravs do ngulo entre a reta
terica (retas contnuas nas Figuras 4 e 5) e a reta ajustada (retas tracejadas nas
Figuras 4 e 5). Note que a reta terica formada os parmetros verdadeiros que so
os coeficientes a e b considerando dados perfeitos (livres de rudo) e a reta

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

12

78

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional
ajustada formada pelas estimativas

a e b considerando dados com rudo

experimental. Veja que estamos quantificando o grau de estabilidade via o ngulo


formado entre as retas terica e ajustada. Ressalto, no entanto, que este um
problema inverso controlado (sinttico) em que sabemos quem so os parmetros
verdadeiros (os coeficientes a e b que formam a reta terica). Lembre-se que em
uma situao real no sabemos quem so os parmetros verdadeiros do problema
inverso, em outras palavras, ns desconheceramos a reta terica das Figuras 4 e 5.
Vale ressaltar tambm, o carter de extrema simplicidade deste problema inverso em
que temos apenas dois parmetros desconhecidos a serem estimados o que nos
a e b , e um
possibilitou a obteno de uma expresso analtica dos estimadores

estudo analtico da estabilidade da soluo (termo de propagao do erro j


discutido). Esta simplicidade viabilizou a realizao de um desenho de experimento
objetivando a obteno de solues mais estveis.
Ressalto, no entanto, que em problemas reais trabalhamos com problemas
mais complexos: problema envolvendo muitos parmetros, com uma relao
funcional menos simples e com o desconhecimento dos parmetros verdadeiros do
modelo.

Em outras palavras, em problemas mais realistas no obtemos uma

expresso analtica dos estimadores dos M parmetros do modelo o que no nos


permite operacionalizar o estudo sobre a estabilidade da soluo na presena de
rudo atravs da soluo analtica dos estimadores. Mesmo nos casos simples como
a e b ),
este em que obtemos a soluo analtica dos estimadores (

em uma

situao realista nunca conhecemos os parmetros verdadeiros (reta terica), ento


impossvel quantificar a estabilidade da soluo usando a soluo verdadeira tal
como fizemos neste exemplo em que conclumos que a estabilidade da soluo
caracteriza-se pelo ngulo formado entre as retas terica e ajustada.Diante desta
limitao prtica pergunta-se: Como avaliar e/ou quantificar a estabilidade da soluo em

problemas inversos mais realista?


H duas formas de fazermos esta anlise da estabilidade da soluo que no
requer o conhecimento da soluo verdadeira do problema inverso. A primeira

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

13

79

Valria Cristina F. Barbosa


Observatrio Nacional
envolve conceitos estatsticos do estimador2

do parmetro desconhecido p , para

tanto precisaremos estabelecer algumas premissas estatsticas sob o rudo que


contamina os dados observados geofsicos.

A segunda forma de anlise da

estabilidade da soluo envolvem um procedimento prtico que pode ser aplicado a


dados sintticos e reais.

Anlise da estabilidade da soluo na presena de rudo atravs da anlise


estatstica da soluo:
O estudo da estabilidade da soluo pode ser realizado via uma anlise estatstica
atravs da varincia dos parmetros. Como o estimador

uma varivel aleatria

lembramos que no h uma lei determinstica associado a uma v.a. mas uma lei
probabilstica

que a funo densidade de probabilidade (fdp). Tal como num

fenmeno determinsticos, nos fenmenos aleatrios h parmetros que podem ser


empregados para caracterizar a fdp que so a Esperana e a varincia da varivel
aleatria. Ento podemos obter a Esperana de

( E [p ] ) e Varincia de

p ( V [p ] ).

Mas qual o significado fsico destes dois parmetros estatsticos? A Esperana


de uma v.a. representa o centro da distribuio de probabilidade e a Varincia de
uma v.a. mede a disperso de uma v.a. em relao ao seu valor esperado.
Matematicamente, a Esperana de uma varivel aleatria

discreta com valores i

(i=1,N) sendo P ( i ) a funo de probabilidade em i ento a Esperana de :

E ( ) =

N
i =1

i P ( i )

e a Varincia desta varivel aleatria

V ( ) = E ( 2 ) [ E ( )] 2
J vimos anteriormente que, estatisticamente, um bom estimador
o valor esperado do estimador

aquele que

igual ao parmetro p (ou seja, se E [ p ] = p ) e

adicionalmente seja um estimador com varincia pequena. Em outras palavras, luz


2

Estimador p uma funo que uma varivel aleatria porque depende dos dados observados que so

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

14

80

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional
p

da estatstica um bom estimador

deve ser no tendencioso e de varincia

a e
mnima. Ento vamos calcular a esperana e varincia dos estimadores
b deste problema inverso. Para tanto precisamos estabelecer alguma premissas

estatsticas sobre o rudo que contamina os dados (Anexo 3) e tambm sobre as


demais variveis do modelo matemtico.
a e b :
Esperana dos estimadores

Considerando as premissas estatsticas estabelecidas na Figura 6


Premissas estatsticas sobre o rudo que
contamina os dados geofsicos e outras variveis
para calcularmos:
a Esperana dos estimadores
a e
b

Esperana :
Premissas estatsticas 1 1 1 1
Erro aditivo

Erro com mdia nula


variveis independentes sem erros
parmetros no so aleatrios

Figura 6
a
e as propriedades da esperana e varincia (Anexo 2), vamos partir do estimador
N

a =

i= 1
N

i= 1

N
a =

i= 1

i= 1

2
i

i= 1

i= 1

i
N

i= 1
N

i= 1

i= 1
N

1
N

1
N

i= 1

i= 1

i= 1

v.a. porque contm rudo experimental (v.a.)

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

15

81

Valria Cristina F. Barbosa


Observatrio Nacional
N

N
y o i xi

i=1
E [ a ] = E
N

x 2i
N

i=1

N
N

N E
y o i xi E
y oi
xi
xi

i=1
i=1

i=1

i=1
i=1
=
N
N
N
N
N

xi
xi
N E[
x 2i ] E
xi
xi

i=1
i=1

i=1
i=1
i=1

y oi

Usando a premissa 7 que x i no so v.a.


N

xi E [ y o i ]

i=1

E [ a ] =

E[ y
xi

i=1

i=1

x 2i

i=1

i]

i=1
2

xi

o
Usando a premissa 1 que os erros so aditivos temos que y i = ax i + b + i .
o
Ento E [ y i ] = E [ ax i ] + E [ b ] + E [ i ] .

Usando a premissa 8 que os parmetros ( a , b ) no so v.a. e usando a premissa 2


o
que os erros tem mdia nula o que implica E [ i ] = 0 temos que E [ y i ] = ax i + b .
N

(ax
i=1

x 2i

i=1

xi

i=1

E [ a ] =

E [ a ] =

x i (ax i + b )

i=1

ax i 2 + N

i=1

i=1

x 2i

i=1

N a
E [ a ] =

x i 2 + Nb

i=1

i=1
N

xi

i=1

xi

bx i

i=1

+ b)

i=1
2

i=1

i=1

xi

xi a

ax i

x 2i

i=1

i=1

b
i=1

x
i=1

xi

x i Nb

i=1
2

xi

i=1

xi

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

16

82

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional

a N

E [ a ] =

xi 2

i=1

x 2i

i=1

i=1

i=1

xi

xi

E [ a ] = a
Agora vamos achar a Esperana do estimador b . Para tanto, partiremos do
estimador b
N

b =

i=1

xi

i=1

E [ b ] = E

y o i a

i= 1

i= 1

xi

E [ b ] =

E y o i E a

E (N )

( )
N

i= 1

i= 1

xi

ax i + b E [ a ]

i= 1

E ( xi )

i= 1

N
N

a
E [ b ] =

i= 1

xi +

b a
i=1

i= 1

xi
=

bN
N

E [ b ] = b
Obtemos que

E [ a ] = a e E [ b ] = b ento conclumos que os estimadores

a e b so estimadores no tendenciosos.

a e b :
Varincia dos estimadores

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

17

83

Valria Cristina F. Barbosa


Observatrio Nacional

Consideraremos as premissas estatsticas estabelecidas na Figura 7,

as

a dado
propriedades da esperana e varincia (Anexo 2) e partiremos do estimador

por:

a =

N
i =1
N

(x i
i =1

(x i

)2

Considerando a propriedade da varincia V ( c ) = c 2V ( ) (Anexo 2) em que


uma v.a. e c uma constante e a premissa 7 que x i no so v.a. (so constantes)
temos ento que

V [ a ] =

(x i
i =1
N

)2

N
i =1

(x i

x )

Premissas estatsticas sobre o rudo que


contamina os dados geofsicos e outras variveis
para calcularmos:
a Varincia dos estimadores
a e b

Varincia :
Premissas estatsticas 1 1 1 1 1 1
Erro com mdia nula
Erros com varincia constante = 2
Erros no correlacionveis
variveis independentes sem erros
parmetros no so aleatrios

Figura 7
o
Usando a premissa 1 que os erros so aditivos temos que y i = ax i + b + i ,

usando a premissa 7 que x i no so v.a., usando a premissa 8 que os parmetros

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

18

84

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional

( a , b ) no so v.a. e considerando a propriedade da varincia V ( c + ) = V ( ) em


que uma v.a. e c temos que

V ( y o i ) = V ( i )
Usando a premissa 3 que os erros com varincias constantes e igual a
o
seja, V ( y i ) = V ( i ) =

N
i =1

V [ a ] =

(x i x )2

i =1

(x i

(x i
i =1
N

V [ a ] =

N
i =1

(x i x )2 2

, ou

i = 1,... N ento

V [ a ] =

)2

)2

(
x i x )2
i =1
N

Agora vamos achar a Varincia do estimador b . Para tanto,

partiremos do

estimador b
N

b =

i=1

V [ b ] = V

xi

i=1

N
N

i= 1

i= 1

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

xi

19

85

Valria Cristina F. Barbosa


Observatrio Nacional

V (y )
N

V [ b ] =

i= 1

+ ( x ) 2 V [ a ]

V [ b ] =

i= 1

N 2
V [ b ] =
+
N 2

2
V [ b ] =
+
N

V [ b ] =

V [ b ] =

i =1

N
i =1

(x
N

i =1

V [ b ] =

N
i =1

i =1

2
i

i =1

x 2i

)2

(x i

+ N x 2

N
i =1

(x i

2x

V [ b ] =

N
i =1

x 2i
N

2x

i =1

N
i =1

(x i

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

xi + N

(x i

x 2 + N

)2

i =1

)+ N

N
2

)2

)2

)2

2 xi x + x

)2

(x i

(x i

(x i

(x i
i =1

x 2

x 2

+ ( x )2

N
i =1

x2

)2

xi + 2 N

x2

)2

20

86

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional

V [ b ] =

x 2i 2

i =1

V [ b ] =

N
i =1

V [ b ] =
N

N
i =1

N
i =1

(x i

i =1

(x i
i =1
N

N
i =1

xi

+ 2N

x 2i 2 N
N

(x i

x2

)2

x2 + 2N
x

)2

x 2i
x

)2

a e b :
Interpretaes das varincias de

Vimos que

V [ a ] =

N
i =1

(x i x )

2 e

V [ b ] =
N

N
i =1

N
i =1

(x i

x 2i
x

)2

As expresses acima mostram que as varincias dos parmetros so compostas


de suas parcelas:
premissas sobre a varincia dos rudos contidos nas observaes ( 2 )

1)

que reflete as incertezas dos dados medidos


2)

termo de propagao do rudo que no caso da


1

N
i =1

(x i x )

e no caso da V [ b ] este termo

Desejamos que as varincias de

termo

x
N (x x )
N

i =1

i =1

a e

V [a ] este

b sejam mnimas para garantia da

estabilidade da soluo, ento o que fazer, neste exemplo simples:

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

21

87

Valria Cristina F. Barbosa


Observatrio Nacional

Diminuir

1)

: Significa realizar medidas mais precisas o que na

prtica impossvel e veremos mais a frente que no suficiente para garantir a


estabilidade.
2)

Diminuir o termo de amplificao: Veja que vale as mesmas anlise

realizada anteriormente porque os termos de propagao funes do nmero de


observaes N e das variveis independentes x i . Como j dissemos anteriormente,
dependendo da escolha dos x i em relao a x os termos de propagao podem

amplificar ou atenuar os erros das observaes (

).

Tal como j discutimos

anteriormente, se os valores dos x i (i=1,N) forem feitos distantes de x ento o


termo

(x
N

i =1

erros (

ser muito grande funcionando como um ATENUADOR dos

a e b (ESTABILIDADE
) o que implicar numa varincia pequena de

DA SOLUO). Caso contrario, se os valores dos x i (i=1,N) forem feitos prximos


de x ento o termo

(x
N

i =1

AMPLIFICADOR dos erros (

ser muito pequeno funcionando como um

a e
) o que implicar numa varincia grande de

b (INSTABILIDADE DA SOLUO)

Anlise da estabilidade da soluo na presena de rudo atravs de um


procedimento prtico
Na prtica existe um eficiente meio de analisarmos se uma soluo estvel
que pode ser usado para observaes sintticas (dado geofsico simulado) e para
observaes reais (dado geofsico medido) que consiste das seguintes etapas:
1) contamine as suas observaes com uma determinada seqncia de
nmeros pseudo-aleatrios (veja comentrios no Anexo 4);
a e b ) e visualize a
2) aplique o estimador (neste caso so os estimadores

soluo estimada;
3) modifique a semente do gerador de nmeros pseudo-aleatrios;

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

22

88

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional

4) aplique novamente o mesmo estimador, visualize a nova soluo estimada


e;
5) compare as solues estimadas nas etapas (2) e (4). Se elas estiverem
prximas entre si, o problema inverso formulado bem posto e a soluo
estvel. Caso contrrio o problema mal-posto pois a soluo instvel.
Como decidir se as solues esto prximas entre si (soluo estvel) ?

O grau de proximidade entre as solues obtidas do modo acima descrito


estabelecido pelo usurio e depende da incerteza que ele admite para a s soluo
em decorrncia de rudo nos dados. Ao gerar um certo nmero de solues (10 ou
mais), cada uma com uma seqncia de rudo diferente (como explicamos no Anexo
4), o usurio pode inspecionar graficamente essas solues e avaliar se elas esto
dentro da margem de erro aceitvel. Alternativamente, ele pode armazenar todas as
estimativas obtidas para todos os parmetros e fazer uma anlise estatstica,
computando o desvio padro amostral de cada parmetro e verificando se eles esto
dentro do limite de incerteza aceitvel estabelecido pelo usurio. Ento temos que
primeiro estabelecer a priori um limiar aceitvel para a incertezas dos parmetros.
Este limiar o erro mximo permitido para a determinao de cada parmetro. Em
seguida, contamine os dados observados com L seqncias diferentes de nmeros
pseudo-aleatrios com as mesmas caractersticas estatsticas, mudando-se apenas
as L sementes. Desta forma teremos L vetores de observaes com rudo aditivo

yo , k = 1,2,...,L .
k

Posteriormente,

para

cada

um

dos

vetores

yo ( k = 1,2,...,L) , aplique o mesmo estimador obtendo-se, assim, L vetores


k

estimativas

p k (k = 1,2,..., L) e compute para a estimativa de cada parmetro o

desvio padro amostral. Assim, para o j-simo parmetro

s ( p

p j o desvio amostral

) :

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

23

89

Valria Cristina F. Barbosa


Observatrio Nacional
L

k =1

s ( p j ) =

p k
j

L 1

pj
em que

p
(

parmetros

a j-sima estimativa do k-simo vetor de estimativas dos


k

p kj

mdia

amostras

das

estimativas

de

p j k , (k = 1,2,..., L). . Finalmente, compare se o valor do desvio padro amostral

s ( p

) para o j-simo parmetro menor ou igual ao valor o valor estabelecido a

priori do limiar aceitvel para a incertezas dos parmetros. Se for menor, a soluo
considervel estvel em relao a determinao do i-simo parmetro. Esse mesmo
procedimento pode se aplicado a todos os M parmetros ou a grupos selecionados
de parmetros (dependendo do interesse).
Assim por exemplo, se todos os nossos parmetros so M vagarosidades no
interior da Terra poderamos estabelecer que o mximo erro permitido para a
determinao de cada uma das M vagarosidades 0.01 s/m. Suponha que usamos 3
seqncias (L= 3) diferentes de nmeros pseudos-aleatrios, temos portanto 3
o
vetores de observaes com rudo aditivo y ( k = 1,2,3). Suponha que em 3 inverses
k

usando

yo (k = 1,2,3) os valores das estimativas do j-simo parmetro so


k

p j 1 = 0.504 s / m,
p j 2 = 0.497 s / m e
p j = 0.513 s / m . O desvio padro

amostral s ( p j ) para o j-simo parmetro p j

0.0080 s/m.

Assim, a soluo considerada estvel em relao determinao do j-simo


parmetro uma vez que s( p j ) = 0.008 s / m < 0.01 s / m

Tpico 3: Estgios do processo de inverso


Tpico 4: Exemplos dos Estgios

24

90

CAPTULO 3.

ESTGIOS DO PROCESSO DE INVERSO

Valria Cristina F. Barbosa


Observatrio Nacional

Anlise da Unicidade da soluo:


Como vimos anteriormente, a estabilidade no uma grandeza objetiva e sim
uma grandeza semiquantitativa. Portanto, s podemos dizer que uma soluo mais
(ou menos) estvel que outra. Qualquer tentativa de caracterizar a estabilidade em
termos absolutos (afirmar que uma soluo ou no estvel) depende da
conceituao prvia sobre o limiar de erro nas estimativas dos parmetros, a partir
do qual consideramos a soluo estvel. Diferentemente, a unicidade um conceito
matemtico em que s h duas possibilidades: ou a soluo nica ou no.
Vamos neste problema fazer esta analise da unicidade da soluo diretamente via
a expresso analtica dos estimadores. Veja que o estimador do parmetro
N

a =

y o i (x i x

i=1
N

(x
i=1

x
i

Note que se temos apenas uma observao (N=1) o denominador do estimador


do parmetro a zero o que implica na existncia de infinitas possveis solues
(infinitas retas ajustantes) que minimizam o funcional Q no sentido dos mnimos
quadrados (Figura 8). Neste caso temos a no unicidade da soluo.

nT

FALTA DA UNICIDADE da soluo:


IGRF

yo

x1

Figura 8
Tpico 3: Estgios do processo de inverso
Tpico 4: Exemplos dos Estgios

25

Captulo 4
Inverso linear

92

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
INVERSO LINEAR
O problema linear no contnuo:
o
Denominamos as observaes geofsicas de y e os parmetros de p .

Presumiremos que o sistema fsico (modelo) que relaciona os parmetros do


o

modelo aos dados geofsicos observados y , conhecido. Ento podemos


especificar uma funo f que relaciona p aos dados y o .

f ( p) = y

o
J vimos que os dados y e os parmetros p podem ser funes

contnuas do tempo e espao, ou podem ser conjuntos discretos de medidas


observacionais e parmetros, respectivamente. Quando y o e p so funes
contnuas, ento f chamado de operador. Quando

e p so vetores,

chamado de funcional. Independentemente de f ser um operador ou um


funcional, chamo a ateno que atravs de f que estabelecemos uma relao
fsico-matemtica entre os parmetros e os dados observados de um sistema
fsico. Ressalto que f (p) pode envolver a soluo de uma equao diferencial
ordinria ou uma equao diferencial parcial ou a avaliao de uma integral. De
qualquer forma f envolve relaes de causa e efeito obtidas da resoluo de
um sistema de equaes diferenciais advindas da fsica-matemtica (equao
de poisson, equao de Laplace, equaes de Maxwell, equaes da onda).
Iremos adotar a conveno de denominar a relao

de um modelo direto

ou sistema fsico que nada mais que uma ou mais equaes que relacionam
os dados geofsicos observados com os parmetros desconhecidos. Nosso foco
consiste determinar

p a partir de

. Ressalto que o problema

de

no

identificao de modelo que consiste de determinar f a partir de

p e y

abordaremos neste curso.


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

93

Valria Cristina F. Barbosa


Observatrio Nacional
No caso de um sistema linear contnuo, verifica-se que f na equao
acima pode ser sempre expresso como um operador integral linear. Ento a
equao f ( p ) = y

torna-se

(x) =

a ( x , x `) p ( x `) dx `
a

Esta equao acima chamada de equao integral de Fredholm de


primeira espcie, onde

p ( x `)

a funo desconhecida do problema e

representa alguma aspecto da estrutura da Terra ou alguma propriedade fsica


(como por exemplo, resistividade, densidade, velocidade, susceptibilidade
magntica), yo (x) a funo conhecida que representa os dados geofsicos
observados e a funo a ( x , x `) chamada de Kernel que tambm uma
funo conhecida que relaciona os dados observados aos parmetros
desconhecidos p ( x `) . O intervalo de integrao [a, b] pode ser finito ou infinito.
Teoricamente as observaes representadas pela funo

yo (x)

poderia

teoricamente ser conhecida de em um intervalo infinito, mas na prtica apenas


temos medidas geofsicas de yo (x) em um intervalo finito de pontos de medidas.

y o i ( xi ) =

a i ( x i , x `) p ( x `) dx `

Vamos ver abaixo dois exemplos de problemas inversos lineares contnuos


na geofsica.
Exemplos de problemas inversos lineares contnuos na geofsica:

1) Exemplo linear no contnuo em gravimetria:


Considere o problema inverso contnuo de estimar a distribuio de densidades
numa linha de massas p ( x `) situada na profundidade h a partir da anomalia
o
gravitacional vertical y ( x ) (Figura 1). Neste caso o problema direto pode ser

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

94

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
escrito como uma equao integral de Fredholm de primeira espcie

( x ) =

h
[( x

x `)

+ h

]3

/ 2

p ( x `) dx `

y o ( x)

p ( x` )

Figura 1
Como j disse anteriormente iremos trabalhar com problemas inversos
discretos que iremos apresentar mais adiante em notao matricial.

2) Exemplo linear no contnuo em ssmica (tomografia simplificada)


Considere o tempo de transito t de uma onda elstica gerada na fonte F e
registrada no receptor R (geofone). Supe-se que a onda atravessa o corpo
(Terra) ao longo de uma trajetria L do raio, para uma velocidade contnua
v( x, z )

, ento o tempo de trnsito ao longo deste caminho do raio dado pela

integral de linha:
t

1
v ( x , z )

dl

ou ainda

t =

s ( x , z ) dl
L

em que s(x,z) a vagarosidade da onda (slowness). Em geral, o raio atravessa


um corpo segundo uma trajetria curva devido aos efeitos de refrao.
Vamos fazer algumas simplificaes e estabelecer um modelo interpretativo
para transformar este problema contnuo em um problema inverso discreto.
Para tanto vamos apresentar a seguir o problema linear inverso no
domnio discreto.
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

95

Valria Cristina F. Barbosa


Observatrio Nacional
O problema linear em notao matricial:
Existe uma relao funcional entre observaes geofsicas e parmetros
do modelo que o vetor (

), ento a i-sima observao geofsica coletada no

ponto com coordenada x i


y io =

xi, p

).

Portanto, as observaes y

so aproximadas pelo funcional f ( x , p )

avaliado em x = x i . Vale ressaltar que as funes na geofsica so funes


diferenciveis nas proximidades de

p = p o . Ento podemos expandir a funo

f ( xi, p ) em srie de Taylor (veja Apndice - Teorema de Taylor) no entorno do


ponto

p = po :

yio f ( xi , p ) = f ( x, p )

+
x = xi

f ( x, p )
p1

p =p o

f ( x, p )
p2

x = xi

(p1 p1o )

p =p o

x = xi

(p2 p2o )

+ +

f ( x, p )
pm

p =p o

(pm pmo )

(p1 p1o )2 +

...

x = xi
p =po

1 2
f ( x, p )
2 ! p 2
1

x = xi
p =p o

Considerando a funo

f ( xi , p )

linear em relao aos parmetros ( p ) ,

ento as derivadas superior a ordem 1 da funo em relao aos parmetros


so NULAS. Isto significa que
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

96

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

yio f ( xi , p ) = f ( x, p )

f ( x, p )
p1

+
x = xi
p=po

f ( x, p )
p2

x = xi

(p1 p1o )

p=po

x = xi

(p2 p2o )

+ +

(pm pmo ).

f ( x, p )
pm

x = xi

p=po

Na geofsica se

p =0

p=po

a funo

f ( xi , p ) = 0

, ou seja, estamos

tratando com funcionais para os quais:


p = 0 f ( x, p ) = 0

Ento, fazendo p o 0 temos :


yio =

( p1) + f ( x, p )
f ( x, p )
p1
p2
x = xi

Note que as derivadas

( p2 )
x = xi

xi, p

+ +

( pm )
f ( x, p )
pm
x = xi

no dependem de p

que consideramos que f linear em

uma vez

p . Especificamente, o termo

f ( x, p ) x = xi constante, dependendo apenas da posio da i-sima


p j

observao e do j-simo parmetro. Assim esse termo ser designado a ij .


Desse modo temos:

yio = ai 1 p1 + ai 2 p2 + ai 3 p3 + .... + ai M pm.


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

97

Valria Cristina F. Barbosa


Observatrio Nacional
Levando-se

em

conta

que

temos

observaes

geofsicas

( y i , i = 1 ... N ) , ento a equao acima parte de um sistema de


o

equaes lineares. O sistema completo pode ser expresso em notao matricial:

y o = A p,
A

sendo que

a matriz de sensibilidade (N x M), cujo elemento a ij ( ij-simo

coeficiente de sensibilidade) dado por:

aij =

f ( x, p ) x= xi
p j

Exemplos do Problema Inverso Linear Discreto: Em Notao Matricial


J vimos que os N dados geofsicos medidos no campo

y io ,

i = 1,... N representam observaes de alguma grandeza fsica que foram


coletados em pontos discretos (coordenada x i , i = 1,... N ) na superfcie da
o
Terra. Estes dados observados, armazenados em um vetor y (Nx1), esto

relacionados a alguma propriedade fsica da Terra que so os nossos


parmetros desconhecidos a serem estimados p (Mx1). Existe portanto uma

equao

advinda da resoluo de um sistema de equaes diferenciais da

o
fsica-matemtica, que estabelece a relao entre y e p . Esta equao

f chamamos de relao funcional ou sistema fsico ou modelo direto e


representa uma lei DETERMINSTICA que estabelece a relao entre a i-sima
o
observao geofsica ( y i ) medida na coordenada x i e os parmetros a serem

estimados p

y io = f (p , x i )
Se a funo f (p , xi ) uma funo linear em relao aos parmetros (Figura 2)
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

98

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

O problema linear
Funo linear em relao aos parmetros

f( p )

pj

f (p)
= constante
pj
ento, a

(no funo dos parmetros)

(Figura 2)

f (p , xi )
no funo dos parmetros caracterizando um problema
p j

inverso linear. Em outras palavras, um problema inverso linear aquele que a


derivada da f (p , xi ) em relao aos parmetros NO funo dos parmetros.
Do ponto de vista matemtico a funo f (p , xi ) um modelo matemtico
terico onde xi so variveis independentes e p o vetor M-dimensional dos

parmetros deste modelo. Considerado apenas uma nica funo [uma nica
observao (N=1) em x1 = x ] e M parmetros, a primeira derivada desta funo

f (p , x ) com respeito ao j-simo parmetro chamado de coeficiente de


sensibilidade

j para o parmetro

f (p , x )
p j

Fisicamente os coeficientes de sensibilidade so importantes porque eles


indicam a

variao de magnitude da resposta da funo

f (p , x ) devido a

perturbaes nos valores dos parmetros. Em uma situao realista, temos N


observaes e M parmetros o que implica a existncia de N funes f i (p , xi ) ,
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

99

Valria Cristina F. Barbosa


Observatrio Nacional

i = 1,... N

. Neste caso a funo f i (p , xi ) chamada de funo multiresposta

e o coeficiente de sensibilidade

a ij

a primeira derivada da i-sima funo

f i (p , xi ) em relao ao j-simo parmetro pj .

a ij =

f i (p , x i )
p j
f i (p , xi ) , i = 1,... N , e M parmetros pj ,

Como definimos N funes

j = 1,... M ento teremos a definio de uma matriz de sensibilidade


dimenses N x M, cujo i-jsimo elemento

...

...

...

fi
pj

...

fN
pj

f1
pM
f2
pM

...

fi
pM
...

...

f i (p , x i )
p j

...

...

fN fN
p1 p2

...

...

fi
p2

f1
pj
f2
pj
...

...

fi
p1
...

i-sima
linha

...

A=

f1
p2
f2
p2

de

j-sima coluna

Matriz de Sensibilidade A(N x M):

f1
p1
f2
p1

a ij =

...

Veja que a i-sima linha da

fN
pM

Figura 3

matriz de sensibilidade

(Figura 3)

carrega a variao de magnitude (sensibilidade) da funo f i (p , xi ) devido a


perturbaes nos valores dos M parmetros e a j-sima coluna da matriz de
sensibilidade A (Figura 3) a influncia da perturbao do j-simo parmetro
( pj ) nas N funes (N observaes geofsicas)
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

100

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
Exemplo 1 de um problema inverso linear: Regresso linear estimar o IGRF
Este primeiro exemplo j foi anteriormente apresentado consistindo em
estimar o campo geomagntico local da Terra (IGRF) a partir de N observaes
de uma anomalia magntica observada. Como simplificao, presumimos que o
IGRF pode ser aproximado por um polinmio de ordem 1. Na Figura 4 os N
pontos pretos representam as N observaes da anomalia magntica
o
( y i , i = 1,..., N ).

Neste exemplo, existe uma relao funcional f i (p , xi ) entre os dados


observados (vetor y o ) e os parmetros a serem estimados (vetor p ) que esto
relacionados ao IGRF

y oi = f

(p , x i )

nT

IGRF

yoi = axi + b + i

yoi

xi

Figura 4

Como presumimos uma variao linear do campo geomagntico local da Terra


(IGRF), a relao funcional entre a i-sima observao geofsica medida na
coordenada x i e os parmetros a serem estimados vetor p

(p , x i ) =

ax i + b ,

i = 1,..., N

onde N o nmero de observaes realizadas de uma anomalia magntica. A


varivel x i a i-sima coordenada de localizao da medida geofsica e a e b
so os parmetros desconhecidos a serem estimados. Vamos considerar que e
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

101

Valria Cristina F. Barbosa


Observatrio Nacional
a e b so , respectivamente, o primeiro e segundo elementos do vetor de

parmetros p . Desta forma a relao funcional, neste exemplo, pode ser

escrita como

(p , x i ) =

p1 x i + p 2 ,

i = 1,..., N .

Neste problema teremos os seguintes coeficientes de sensibilidade

a i1 =

f i (p , x i )
= xi
p1

a ij :

i =1,...,N

ai 2 =

f i ( p , xi )
= 1, i = 1 ,...,
p 2

Veja que os coeficiente de sensibilidade NO dependem dos parmetros, ento


a funo f i (p , xi ) linear em relao aos parmetros. Neste exemplo ento a
matriz de sensibilidade A (N x M)

x1 1

x2 1

A=
M
M

x N 1
Exemplo 2 de um problema inverso linear discreto em gravimetria:
Este segundo exemplo consiste em transforma o problema linear inverso
contnuo apresentado na Figura 1 em um problema linear inverso discreto.
J vimos que o problema inverso contnuo de estimar a distribuio de
densidades numa linha de massas p(x`) situada na profundidade h a partir da

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

10

102

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
anomalia gravitacional vertical yo(x) (Figura 1), pode ser escrito como uma
o
equao integral de Fredholm de primeira espcie y (x) =

2
[(x x`)

+ h2 ]3 / 2

p(x`)dx`

No discreto faremos algumas simplificaes e estabeleceremos um modelo


interpretativo. Neste problema acima poderamos discretizar a linha de massa
em M prismas finitos. O j-simo prisma tem densidade constante
x 1j

dimenses conhecidas e iguais a

j
2

(Figura 5). Presumiremos que a

densidade constante dentro de um dos prismas e que de um prisma para


outro a densidade possa variar. Presumiremos tambm um nmero finito N de
observaes da anomalia gravimtrica.
A relao funcional deste problema estabelece a relao entre a i-sima
observao da anomalia gravimtrica y o i ( xi ) realizada na superfcie da Terra na
coordenada x i e as densidades dos M prismas que compe o modelo
interpretativo escrita como:
M

i(

xi ) =

x 2j
x1

h
[( x i x j `)

+ h 2 ]3

/ 2

dx `

j =1
Veja que este problema linear em relao aos parmetros (densidades de

cada prisma).

y o i ( xi )
x 1j

x 2j

j-simo prisma

Figura 5
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

11

103

Valria Cristina F. Barbosa


Observatrio Nacional
O problema acima poderia ser escrito como:
M

o
i

ij

j = 1

em que a ij dado por

ij

x
x

j
j

[(

j `)

e representa o i-jsimo elemento da matriz

2
A

3 / 2

dx `

(N x M). Ento em notao

matricial este problema poderia ser escrito como

Ap = yo
Exemplo 3 de um problema inverso linear discreto em ssmica (tomografia
simplificada):
Este terceiro exemplo linear tambm j foi apresentado acima no contnuo e
consiste de uma tomografia ssmica simplificada da Terra. Nosso problema
inverso estimar a variao espacial da vagarosidade das ondas ssmicas, a
partir da medida de tempos de trnsito de uma onda elstica gerada por fontes F
e registrada nos geofones R, ambos localizados na superfcie da Terra.
Presumimos as seguintes simplificaes: 1) conhecemos a forma da Terra que
um quadrado; 2) conhecemos as localizaes Fonte Receptor; 3) eliminamos
o efeito da refrao, logo a onde elstica percorre a distncia F-R em linha reta;
4) presumimos que 9 clulas quadradas so suficientes para descrever a
variao espacial da vagarosidade das ondas ssmicas no interior de Terra e; 5)
presumimos que a vagarosidade constante dentro de uma clula quadrada e
que de uma clula para outra a vagarosidade pode variar.
Neste exemplo, existe uma relao funcional

f i (p ) entre os dados

observados (tempos de transito da onda esltica) e os parmetros a serem


estimados (vetor

p ) que so as vagarosidades das 9 clulas. Vamos


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

12

104

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
estabelecer esta relao funcional f i (p ) . Dado uma fonte F i e um receptor Ri
o tempo de trnsito t i que uma onda elstica leva para percorrer a distncia

F i Ri ser a soma dos tempos pela onda para atravessar cada clula envolvida
no seu percurso. No caso da Figura 6 temos

ti = f

(p )

t i = d i1 p 1 + d i 4 p 4 + d i 5 p 5 + d i 8 p 8
W

Fi

di1
1

di4

di5

di8

Ri

em que

d ij

Figura 6

a distncia que a onda associada a i-sima observao ( t i )

percorre dentro da j-sima clula e p j a vagarosidade da j-sima clula. Veja


que, neste segundo exemplo, podemos escrever que a relao funcional entre a
i-sima observao geofsica (tempo de trnsito t i ) e os parmetros do modelo
de 9 clulas (vetor p ) :

(p ) =

M
j =1

ij

i = 1 ,...,

onde N o nmero de observaes, ou seja, N posies diferentes para o par


Fonte-Receptor, M o nmero de parmetros que so as vagarosidades das 9

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

13

105

Valria Cristina F. Barbosa


Observatrio Nacional

a ij NO dependem

clulas (M=9). Note que os coeficientes de sensibilidade


dos parmetros, uma vez que neste caso

a ij =

f i ( p )
= d ij
p j

Portanto,

a ij depende apenas da distncia que a onda associada a i-sima

observao do tempo de trnsito ( t i ) , que est associado ao par F i Ri , leva


para percorrer a j-sima clula.
Vamos considerar um caso em que temos N=2, ou seja, temos duas
medidas de tempo de trnsito associadas a duas posies diferentes para o par
Fonte-Receptor e M= 9 clulas como mostra a Figura 7.
F1

F2

d23

1 d11

d14
4

d15

d26

d29
7

d18

R1

R2

f 1 ( p )= t1 = d11 p1 + d14 p4 + d15 p5 + d18


fp28( p )= t2 = d23 p3 + d26 p6 + d29 p9
Figura 7

Matematicamente a i-sima linha da matriz de sensibilidade


fi (p ) fi (p )

p2
p1

fi (p )
p3

fi (p )

p9

Neste caso a matriz de sensibilidade ter duas linhas sendo que a primeira linha

[d11

0 0 d14 d15 0 0 d18 0]


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

14

106

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
e a segunda linha

[0

0 d 23

0 0 d 26

0 0 d 29 ] .

Logo a matriz de sensibilidade deste problema (Figura 7) tem dimenses (2 x


9) escrita como:

0 0 d14 d15 0 0 d18 0


d
A = 11

0 d 23 0 0 d 26 0 0 d 29 .
0
O problema linear em notao matricial considerando a presena do rudo
nos dados observados:

Vimos ento que em um problema linear a relao funcional entre os M


parmetros e as N observaes geofsicas pode ser representada por um
sistema de N equaes por M incgnitas:
y o = A p,

Ento a equao acima estabelece que h uma relao determinstica entre os


dados geofsicos observados e os parmetros que dada pela multiplicao da
matriz de sensibilidade A pelo vetor de parmetros p .

Como j discutimos anteriormente, em problemas reais no conhecemos


o
os dados geofsicos y com total preciso, em geral, estes dados contem

componentes aleatrias que no so explicadas pela relao funcional

f ( p , x ) (que so equaes determinsticas).


observao geofsica
experimental)

Ento

para

cada

y io presumimos a existncia de um erro (rudo

que uma varivel aleatria. Conseqentemente, em

problemas reais os dados observados geofsicos

y o so, matematicamente,

constitudos de uma parte determinstica que chamaremos dados ajustado ou


calculado y

(N x 1) e uma parte aleatria aditiva representada pelo vetor

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

15

107

Valria Cristina F. Barbosa


Observatrio Nacional

(N x 1) .

Como j vimos, em um problema linear a componente

determinstica (vetor dos dados ajustados ou calculados)

= A p

Desta forma, matematicamente, no problema linear temos a seguinte equao:

yo = yc +
ou ainda

= Ap +
Nosso problema de estimar os parmetros a partir dos dados geofsicos

o
observados y , neste caso, um problema inverso linear.

No entanto, na

soluo que qualquer problema inverso surgem trs perguntas cruciais:


1) A soluo existe ?
2) Ela nica ?
3) Ela estvel ?
A importncia destas trs perguntas est relacionada a aceitao da soluo
estimada. De acordo com Hadamard (1902) apenas aceitamos a soluo
estimada de um problema inverso se, e somente se, as respostas destas trs
perguntas formuladas forem afirmativas. Em outras palavras, o problema
matemtico chamado de bem-posto, se sua soluo existe, for nica e estvel.
Ento pergunta-se: Ser que o nosso problema bem-posto ? Para
responder a esta pergunta vamos ter uma noo preliminar sobre os conceitos
de existncia, unicidade e estabilidade de uma soluo1 Para tanto, usaremos
conceitos mais genricos em que os dados geofsicos observados e parmetros
sero funes contnuas (vetores seriam um caso particular) e especificaremos
um operador relacionando os dados observados aos parmetros.

1
Mais a diante, estes conceitos sero abordados de modo mais completo para fundamentar a teoria da
regularizao de Tikhonov

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

16

108

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
O problema da Existncia e Unicidade:
Seja p uma funo desconhecida pertencente ao sub-espao F do espao
de P de todos os possveis parmetros e seja uma funo conhecida y
pertencente ao sub-espao mtrico AF de um espao Y de todas as possveis
observaes (Figura 8). Considere A um operador linear que mapea p em y.
Portanto, nosso problema reduz-se a resolver a equao linear dada por

y = Ap
A
AF
y

.p

P
y = A p
A: p

y
Figura 8

Note que um elemento y AF representa um elemento produzido por uma


transformao AP , cujo operador A envolve relaes de causa e efeito obtidas
da resoluo de um sistema de equaes diferenciais da fsica-matemtica
(equao de Poisson, equao de Laplace, equaes de Maxwell, equao da
onda). No entanto, em problemas prticos no conhecemos y com total
preciso, em geral, conhecemos uma medida aproximada yo que contem

componentes aleatrias ( ) que no so explicadas por estas equaes.


Assim a medida y o pode no pertencer ao sub-espao AF (Figura 9).

yo = y +
Neste caso NO EXISTE SOLUO PARA O SISTEMA

y o = Ap , uma vez

que o operado A no definido.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

17

109

Valria Cristina F. Barbosa


Observatrio Nacional

.y

AF

.p

P
Figura 9

A inexistncia de soluo levou ao conceito de Quasesoluo . Para tanto


considere uma projeo de y o no sub-espao AF (Figura 10). Esta projeo y c ,
ser tal que a distncia entre y c e y

AF, ou seja d (y

, y

ser mnima dentre todos os elementos y

) em que d uma mtrica definida no espao Y e

um escalar positivo que tende a zero a medida que y O tende a y c .

yo

p*

yc

F
AF
Q u a s is o lu o

d ( yo , yc ) <

= A p

Figura 10

Agora o operador A definido garantindo a existncia da soluo p*


denominadas de Quasesoluo (Figura 10) . Logo temos que o operador A
mapea p* em y C resultando na equao: y c = A p * .
No entanto, se o sub-espao AF for no convexo (Figura 11) existir
infinitas projees de y o em AF uma vez que h infinitas mtricas d (y c, y O) .
Se h infinitas projees y c h portanto infinitas quasisolues p*. Neste caso a
existncia da soluo foi garantida mas a unicidade da soluo no.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

18

110

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

yo

y 1c
y 3c

A
A

p 1*

p 2*

y 2c

p 3*

AF

E xistncia da soluo porm no h


unicidade

d ( yo , yc ) <

Figura 11

Desta forma temos a primeira condio de UNICIDADE DA SOLUO que


garante a no ocorrncia da situao mostrada na Figura 11.

PRIMEIRA CONDIO DE UNICIDADE DA SOLUO:


Para a garantia da unicidade da soluo temos que garantir a unicidade da
projeo yo no sub-espao AF. Para tanto AF tem que ser CONVEXO (Figura
12). Como o operador A linear se AF convexo ento F convexo tambm.

U n ic id a d e d a s o lu o
P r im e ir a C o n d i o : u n ic id a d e d a p r o je o y

no

subespao AF

yo

p*

yc
Y

AF

SUBESPAO AF CONVEXO

Figura 12
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

19

111

Valria Cristina F. Barbosa


Observatrio Nacional
SEGUNDA CONDIO DE UNICIDADE DA SOLUO:
A segunda condio para a garantia da unicidade da soluo a garantia da
unicidade do operador linear A que deve ser nico um por um. Logo para o
operador A que mapea F em AF h um operador inverso A

que mapea AF

em F (Figura 13). Esta condio implica p* = 0 a nica soluo da equao

A p* = 0
Segunda Condio: unicidade do operador A

yo

p*

yc

A -1

AF

OPERADOR UM POR UM

A p * = 0 implica p * = 0

Figura 13

TERCEIRA CONDIO DE UNICIDADE DA SOLUO:


A terceira condio para a garantia da unicidade da soluo a garantia
da continuidade do operador linear A. A continuidade do operador A leva ao
importante conceito de estabilidade da soluo. Para garantia da continuidade
do operador A o sub-espao F deve ser compacto e convexo. Esta condio ns
veremos mais frente, em detalhes, porque ela introduz um importante conceito
dentro da teoria da inverso o conceito de estabilidade. Por enquanto ficaremos
com o conceito heurstico de estabilidade. Uma soluo estvel se uma
pequena perturbao no espao das observaes (AF) leva a uma pequena
perturbao

no

espao

dos

parmetros

(espao

das

solues

F).

Conseqentemente, uma soluo instvel se uma pequena perturbao no


espao das observaes leva a uma grande perturbao no espao dos
parmetros.
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

20

112

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
Em outras palavras, instabilidade reflete um fato prtico que dois
conjuntos de observaes podem diferir entre si dentro do nvel de rudo
experimental enquanto que os correspondentes conjuntos de parmetros
estimados podem ser completamente diferentes.
A seguir apresentaremos uma exemplificao do conceito de existncia.
Dentro deste exemplo, analisaremos os conceitos de unicidade e estabilidade da
soluo estimada.

Exemplificando a Existncia e Unicidade:


Estimador de Mnimos quadrados:
Vamos considerar o caso particular de um problema inverso linear
discreto, em que temos um vetor N-dimensional de observaes y o e queremos
estimar um vetor M-dimensional de parmetros p . Neste caso particular, o
operador A um operador linear, a relao funcional pode ser escrita em
notao matricial:

= A p

em que A a matriz M x N (matriz de sensibilidade) do operador linear A e


y

chamaremos de vetor N-dimensional dos dados ajustado ou calculado.

Particularizando agora a distncia entre y o e y c como sendo a distncia


Euclideana para garantir a existncia da soluo. Ento queremos encontrar um
vetor de parmetros p tal que y o A p , p F , seja mnimo.
2

A Existncia da soluo: Ento para a garantia da existncia de uma soluo


formulamos um problema de mnimos quadrados:

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

21

113

Valria Cristina F. Barbosa


Observatrio Nacional

min
pF

min
pF

yo A p

(y

2
2

A p

) (y
T

A p = min {Q}
pF

A condio necessria para Q ter um mnimo

p {Q } = 0

)(

p {Q} = p y o A p y o A p

) (

p {Q} = 2 p y o A p y o A p

{p
{Q } = 2 ( I A )(y A p )
{Q } = - 2 A (y A p )

T
p {Q } = 2 p y o p

p {Q } = 0
T

} (y

Ap

- ATyo + A

Igualando

Temos

A p = 0

A T A p = A T y o
p =

-1

yo

Ento a escolha da distncia Euclideana mnima entre y o e y c

garantiu a

existncia de uma soluo p que chamaremos de ESTIMADOR DE MNIMOS

QUADRADOS (MQ), i.e.:


p =

A T A

-1

yo

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

22

114

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
Anlise da Unicidade da soluo:
A soluo p s ser nica se a matriz a ser invertida ( A T A ) for NO
SINGULAR, p 0 (a soluo trivial) a nica soluo do sistema de equaes
A p = 0 (sistema homogneo).

Um meio de avaliarmos se a matriz no

singular atravs do seu determinante. Se o determinante a matriz A T A


diferente de zero ( Det ( A T A )

0)

esta matriz no singular. Um segundo meio

de avaliarmos se uma matriz no singular atravs do seu posto2. Como a


matriz de sensibilidade A N x M, o produto A T A M x M ento, a matriz
A T A deve ter posto M (nmero de parmetros) para ser uma matriz no

singular (

r ( A T A ) = M ).

Como o posto de uma matriz que obtida pelo produto de

duas outras matrizes no mximo igual ao menor posto das matrizes, ento
temos que o posto de A T A min(M,N), presumindo-se que A tem posto
completo, isto seu posto min(M,N). Desta forma para usarmos o estimador
de mnimos quadrados necessrio, embora no suficiente que N M, isto
que o nmero de observaes (N) seja pelo menos igual ao nmero de
parmetros (M). Para garantirmos a unicidade da soluo estimada via
estimador MQ necessrio e suficiente que N M e o posto da matriz A T A seja
igual a M ( r

( A

A ) = M

).

Caso contrrio, se ( A T A ) for singular ento, p 0 Uno a nica


soluo da equao normal

A p = A

a segunda condio

mencionada anteriormente para a unicidade da soluo no satisfeita. Neste

2
posto de uma matriz o nmero de vetores colunas (ou vetores linhas) que formam um conjunto LI de
vetores
Curso de Inverso de Dados Geofsicos
23
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

115

Valria Cristina F. Barbosa


Observatrio Nacional
caso em que no h unicidade da soluo a matriz A T A singular, ento o
seu determinante ( Det ( A T A )

=0)

igual a zero e o seu posto menor que o

nmero de parmetros a serem estimados (

r ( A T A ) < M ).

Vamos supor que a matriz A T A no singular, portanto garantimos a


unicidade da soluo. J falamos anteriormente, que a unicidade da soluo
uma condio necessria, mas no suficiente para afirmarmos que estamos
resolvendo um problema bem-posto. Falta analisar a estabilidade da soluo
estimada (terceira condio mencionada anteriormente) que estudaremos aqui
atravs de uma anlise estatstica.

Anlise da Estabilidade da soluo MQ via anlise estatstica:


Como j abordamos anteriormente, o estudo da estabilidade da soluo
pode ser realizado atravs da varincia dos parmetros, uma vez que o
estimador

uma varivel aleatria. Vamos analisar se o estimador

apresenta varincia mnima. Lembramos que, luz da estatstica um bom


estimador

deve ser no tendencioso e de varincia mnima. Ento vamos

calcular a esperana e varincia do estimador de mnimos quadrados

. Para

tanto precisamos estabelecer alguma premissas estatsticas sobre o rudo que


contamina os dados (veja Anexo 1 do tpico 3) e tambm sobre as demais
variveis do modelo matemtico.

(1) Esperana do estimador MQ ( p ) :


Considerando as premissas estatsticas estabelecidas na Figura 14 e as
propriedades da esperana, temos que

{ p }= E

T
A A

-1

ATyo

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

24

116

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
Premissas estatsticas sobre o rudo que
contamina os dados geofsicos e outras variveis
para calcularmos:
a Esperana do estimador MQ

Esperana :
Premissas estatsticas 1 1 1 1
Erro aditivo

Erro com mdia nula


variveis independentes sem erros
parmetros no so aleatrios

Figura 14

Usando a premissa 1 que os erros so aditivos ( y

{ p }= E

T
A A

-1

AT yC +

{ p }= E

T
A A

-1

A T y C + E A T A

= y c + ) temos

-1

A T

Pela premissa 2 os erros tem mdia nula o que implica E [ ] = 0 ento


E

{ p }= E

-1

Usando a informao que em um problema linear a componente determinstica


(vetor dos dados ajustados ou calculados) y C = A p temos que
E

{ p }= E

{ p }= p

T
A A

-1

ATA p

Vemos ento que o estimador MQ ( p ) NO TENDENCIOSO. De fato, o


estimador MQ no introduz nenhum tipo de informao a priori sobre os
parmetros a serem estimado.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

25

117

Valria Cristina F. Barbosa


Observatrio Nacional
2) Matriz de covarincia do estimador MQ ( p ):
Considerando as premissas estatsticas estabelecidas na Figura 15, as
propriedades da varincia e partindo-se da equao da matriz de covarincia
de um vetor (Anexo 1) temos que

COV

{ p }= E [p E ( p ) ] [p E ( p ) ]

P rem issas esta tstica s sobre o rudo que


con tam ina o s dados g eo fsicos e ou tras va riveis
para ca lcularm os:
a V arincia do estim ador M Q

V a ri n c ia :
P re m issa s e sta tstica s 1 1 1 1

1 1

E rro aditivo
E rro com m dia nula
E rros com varincia constante = 2
E rros n o correlacionveis

variveis indep en dentes sem erros


parm etros no so aleatrios

Usando o resultado anterior e

COV

COV

}=

{ p }= p

= E A T A

{ }
p

-1

[p
T

A y

Figura 15

] [p

p A T A

-1

A y p

o
c
C
= Ap
Usando a premissa 1 que os erros so aditivos ( y = y + ) e y

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

26

118

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional

COV

COV

{ }

( )


p = E A T A

-1

p = E p + A T A

{ }

COV p = E A T A

{ }

-1

( )

Ap + p A T A

-1

-1

A p p + A T A

A A T A

-1

-1

Ap + p

A p

Usando a propriedade de transposio temos :

{ }

COV p = E A T A

-1

A T T A A T A

-1

Usando a premissa 7 que as variveis independentes no so v.a. temos,

{ }

COV p = A T A

-1

{ }

A T E T A A T A

Temos que calcular a esperana de

{ }

E T

-1

que nada mais que a esperana de

uma forma quadrtica (veja Apndice Matriz de Covarincia dos Erros ) que

{ }

E T = cov( ) + E ( ) E ( T )
Pela premissa 2 os erros tem mdia nula o que implica E [ ] = 0 temos que

{ }= cov(

E T

substituindo temos

{ }

COV p = A T A

-1

A TCOV{}A A T A

-1

Usando a premissa 3 que os erros tem varincia constante e a premissa 4 que


os erros no so correlacionveis temos que
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

27

119

Valria Cristina F. Barbosa


Observatrio Nacional

COV

{ } =

{ }

COV p = 2 A T A

COV

{ p }=

2
-1

A T A A T A

A T A

-1

-1

Veja pela equao acima que a covarincia do estimador MQ

COV

{ p } funo

de dois termos:
1)

que a varincia dos erros contidos nas observaes geofsicas

(incerteza dos dados). Se este termo for muito grande (dados muito imprecisos)
conseqentemente a varincia das estimativas dos parmetros [elementos da
diagonal da matriz de covarincia de

{ }

( COV p ) ] ser tambm muito grande,

significando instabilidade da soluo estimada p .

A T A -1
que um termo que independe dos parmetros e sim das

2)

variveis independentes e conseqentemente do problema direto formulado.


Este termo chamaremos de termo de propagao dos erros uma vez que ele
pode funcionar como um amplificador do rudo
soluo estimada

significando instabilidade da

Quando esta amplificao ocorre?


H duas ferramentas para avaliarmos quando o termo de propagao dos

T
erros que para o estimador MQ A A
rudo

-1

funciona como um amplificador do

. A primeira ferramenta, que usaremos agora, a funo

T
determinante da matriz A A e a segunda ferramenta so os autovalores da

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

28

120

CAPTULO 4.

INVERSO LINEAR

Valria Cristina F. Barbosa


Observatrio Nacional
T
matriz A A (veremos mais adiante). Vamos relembra a definio da inversa de
T
uma matriz A A

A T A

-1

1
adj A T A

det A A

Como a covarincia do estimador MQ

COV

{ p }=

A T A

{ p }=

adj A T A

det A T A

-1

ento

COV

Vemos pela equao acima que a amplificao do rudo

ocorrer quando o

A T A for um valor muito pequeno.

determinante da matriz

Estamos aqui

T
usando o determinante da matriz A A como uma ferramenta para testarmos a

estabilidade da soluo de MQ. Na prtica se a matriz


determinante prximo de zero as varincias de

p j

A T A tem um

, j = 1,... M sero valores

muito grandes isto porque ocorrer uma amplificao do rudo contido nos dados
(valores das varincias

do rudo ). Se as varincias de

p j so grandes ento

a soluo do problema instvel.


Aqui estamos usando o determinante para caracterizao de um
problema mal-posto, mais adiante usaremos a decomposio em valores
singulares para fazermos a mesma avaliao.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

29

121

Valria Cristina F. Barbosa


Observatrio Nacional
Apndice Teorema de Taylor

Suponha que f (x) uma funo contnua com primeira e segunda derivadas
o
contnuas. Ento dado um ponto x , podemos escrever f (x) como:

f ( x ) = f ( x o ) + f ( x ) T ( x x o ) +

1
( x x o ) T 2 f ( c )( x x o ).
2

para um ponto c entre x e x o


o
Se x x um valor pequeno, ento podemos aproximar f (x) como

f ( x ) f ( x o ) + f ( x ) T ( x x o ) +

1
( x x o ) T 2 f ( x o )( x x o ).
2

O teorema de Taylor pode ser facilmente adaptada para funes de uma


nica varivel i.e.,
f ( x ) f ( x o ) + f ( x ) T ( x x o ) +

1
( x x o ) T f ( x o )( x x o ).
2

Apndice - Matriz de Covarincia dos Erros

{ } que nada mais que a esperana de

T
Temos que calcular a esperana de E

uma forma quadrtica. Para tanto vamos partir da matriz de covarincia dos
erros:

cov( ) = E

{ [ E ( ) ][ E ( ) ] }
T

{
}
}
) = E { } 2 E { E ( ) }+ E {E ( ) E ( )
) = E { } 2 E ( ) E ( ) + E ( ) E ( )
) = E { } E ( ) E ( )

cov( ) = E T - 2 E ( ) T + E ( ) E ( ) T
cov(
cov(
cov(
logo

{ }=
T

cov(

) + E ( )E (

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 6: Inverso Linear MQ : O problema Linear em notao matricial.

30

122

CAPTULO 4.

INVERSO LINEAR

Captulo 5
Estimador de mnimos quadrados
ponderados

CAPTULO 5.

ESTIMADOR DE MNIMOS QUADRADOS PONDERADOS

Valria Cristina F. Barbosa


Observatrio Nacional
INVERSO LINEAR:
ESTIMADOR DE MNIMOS QUADRADOS PONDERADOS
Muitas vezes as observaes geofsicas no so obtidas com o mesmo
grau de preciso, sendo umas observaes mais precisas que outras. Neste
caso no razovel exigir que a funo ajustante produza a mesma
proximidade a todas as observaes. mais razovel exigir um ajuste melhor
nas observaes geofsicas mais precisas e um ajuste pior nas observaes
geofsicas menos precisas (Figura 1).

Estimador de Mnimos quadrados


Ponderados:

Observaes NAO so obtidas com


o mesmo grau de preciso
DADOS

124

MENOS precisa

y1

y2

funo ajustante

MAIS precisa

x1

x2

Matematicamente, ao invs de minimizarmos a soma dos quadrados dos


resduos, i.e.,

min {Q} min {|| ||2 } min


2

pF

pF

pF

yo A p

min

pF

(y A p) (y A p)
T

minimizaremos a soma dos quadrados ponderados dos resduos

min
p F

{ Q } min

p F

{ i2 w i } min
i =1

p F

i =1

[y

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 7: Inverso Linear MQ Ponderados:

y ci

wi

125

Valria Cristina F. Barbosa


Observatrio Nacional
Em notao matricial temos:

{ Q } min

min

pF

pF

min W
pF

1/ 2

2
2

N N
em que W R
uma matriz diagonal de pesos, de modo que o i-simo

elemento do resduo ( i ) ser ponderado pelo i-simo elemento da diagonal de

Q=

w + w + w + ... + w
2
1

2
2

2
3

2
N

O mtodo dos Mnimos Quadrados Ponderados (MQP) impe que cada


c
elemento do vetor das observaes calculadas ou ajustadas ( y ) deve estar o

prximo ao correspondente elemento do vetor observado ( y

), sendo que o

wi .

grau desta proximidade controlado pela escolha dos pesos


Se todos os elementos que compe o vetor

(anomalia ajustada) devem

estar igualmente prximos aos elementos que compe y

(dados observados)

ento, neste caso, a matriz de peso ser a matriz identidade W

= I e o

mtodo se reduz aos Mnimos Quadrados (MQ) j estudado anteriormente.

min

Q = T W

min

Q = yo yc

p F

W yo yc

p F

como

yc = A p
ento temos

min Q = y A p W y A p

p F
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 7: Inverso Linear MQ Ponderados:

126

CAPTULO 5.

ESTIMADOR DE MNIMOS QUADRADOS PONDERADOS

Valria Cristina F. Barbosa


Observatrio Nacional
A condio necessria para que

tenha mnimo

p {Q } = 0

p {Q } = p y o A p W y o A p

= 0

Para o clculo do vetor gradiente acima, veja na reviso de lgebra linear o item
gradiente de uma forma quadrtica do tipo

Q = xT A x

p {Q } = 2 p y o A p W y o A p = 0

{Q } =

como p ( y

{Q } =

como

oT

(y

oT

(p

) W y

A p = 0

) = 0 , ento temos

- 2

(p

{Q } =

-2 A

(p T A

) W y o A p = 0

) = I , ento temos

- 2 A

W y o A p = 0

W yo + 2 A

W Ap = A

W Ap = 0

W y

Resultando no estimador dos Mnimos Quadrados Ponderados (MQP)

p = A

W A

W y

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 7: Inverso Linear MQ Ponderados:

127

Valria Cristina F. Barbosa


Observatrio Nacional
Anlise da Unicidade da soluo estimada via MQP:
A soluo p s ser nica se a matriz a ser invertida ( AT W A ) for NO
SINGULAR. Um meio de avaliarmos se a matriz no singular atravs do seu
determinante. Se o determinante a matriz
( Det ( AT W A )

0)

AT W A

diferente de zero

esta matriz no singular. Um segundo meio de avaliarmos se

uma matriz no singular atravs do seu posto1. Como a matriz de


sensibilidade A N x M, o produto A T W A M x M ento, a matriz A T W A
deve ter posto M (nmero de parmetros) para ser uma matriz no singular
( r ( AT W

A) =M

). Tal como no estimador MQ, para usarmos o estimador de

mnimos quadrados ponderados necessrio, embora no suficiente que N M,


isto que o nmero de observaes (N) seja pelo menos igual ao nmero de
parmetros (M). Para garantirmos a unicidade da soluo estimada via
estimador MQP necessrio e suficiente que N M e o posto da matriz
A T W A seja igual a M ( r ( A T W A ) = M ).

Caso contrrio, se ( A T W A ) for singular ento, p 0 no a nica


soluo da equao normal

W A p = A

W y

a condio

mencionada anteriormente para a unicidade da soluo no satisfeita. Neste


caso em que no h unicidade da soluo a matriz A T W A singular, ento o
seu determinante igual a zero ( Det ( AT W A )
nmero de parmetros a serem estimados (

=0)

e o seu posto menor que o

r ( A T W A ) < M ).

Vamos supor que a matriz A T W A no singular, portanto garantimos a


unicidade da soluo. J falamos anteriormente, que a unicidade da soluo
uma condio necessria, mas no suficiente para afirmarmos que estamos
resolvendo um problema bem-posto. Falta analisar a estabilidade da soluo
estimada que estudaremos aqui atravs de uma anlise estatstica.
1
posto de uma matriz o nmero de vetores colunas (ou vetores linhas) que formam um conjunto LI de
vetores
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 7: Inverso Linear MQ Ponderados:

128

CAPTULO 5.

ESTIMADOR DE MNIMOS QUADRADOS PONDERADOS

Valria Cristina F. Barbosa


Observatrio Nacional
Anlise da Estabilidade da soluo MQP via anlise estatstica:
Como j abordamos anteriormente, o estudo da estabilidade da soluo
pode ser realizado atravs da varincia dos parmetros, uma vez que o
estimador

uma varivel aleatria. Vamos analisar se o estimador

apresenta varincia mnima. Lembramos que, luz da estatstica um bom


estimador

deve ser no tendencioso e de varincia mnima. Ento vamos

calcular a esperana e varincia do estimador de mnimos quadrados

. Para

tanto precisamos estabelecer alguma premissas estatsticas sobre o rudo que


contamina os dados (veja Anexo 1 do tpico 3) e tambm sobre as demais
variveis do modelo matemtico.

(1) Esperana do estimador MQP ( p ) :


Considerando as premissas estatsticas estabelecidas na Figura 2 e as
propriedades da esperana, temos que

{ p }= E (A

W A

Wyo

Premissas estatsticas sobre o rudo que


contamina os dados geofsicos e outras variveis
para calcularmos:
a Esperana do estimador MQP
(Mnimos Quadrados Ponderados)
Esperana :
Premissas estatsticas 1 1 1 1
Erro aditivo

Erro com mdia nula


variveis independentes sem erros
parmetros no so aleatrios

Usando a premissa 1 que os erros so aditivos ( y

Figura 2
o

= y c + ) e usando a

informao que em um problema linear a componente determinstica (vetor dos


dados ajustados ou calculados) y C = A p temos que
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 7: Inverso Linear MQ Ponderados:

129

Valria Cristina F. Barbosa


Observatrio Nacional

{ p }= E

1
T
A T W ( A p + )
A
W
A

{ p }= E

1
1
T
A T W A p + A T W A A T W
A
W
A

como

(A

W A

W A = I

{ p }= E {p }+ E A

W A

AT W

Usando a premissa 7 que as variveis independentes no so v.a. temos,

{ p }= E {p }+ A

W A

ATW E

{}

Pela premissa 2 os erros tem mdia nula o que implica E [ ] = 0 ento

{ p }= E {p }

Usando a premissa 7 que os parmetros no so aleatrios temos

{ p }= p

Vemos ento que o estimador MQP ( p ) NO TENDENCIOSO. De fato,


o estimador MQP no introduz nenhum tipo de informao a priori sobre os
parmetros a serem estimados. A informao introduzida no espao das
observaes.

2) Matriz de covarincia do estimador MQP ( p ):


Considerando as premissas estatsticas estabelecidas na Figura 3, as
propriedades da varincia e partindo-se da equao da matriz de covarincia
de um vetor (Anexo 1) temos que
COV

{ p }=

E p E ( p )

] [p

E ( p )

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 7: Inverso Linear MQ Ponderados:

130

CAPTULO 5.

ESTIMADOR DE MNIMOS QUADRADOS PONDERADOS

Valria Cristina F. Barbosa


Observatrio Nacional
Premissas estatsticas sobre o rudo que
contamina os dados geofsicos e outras variveis
para calcularmos:
a Varincia do estimador MQP
(Mnimos Quadrados Ponderados)
Varincia :
Premissas estatsticas 1 1 1 1 1
Erro aditivo
Erro com mdia nula
Erros no correlacionveis
variveis independentes sem erros
parmetros no so aleatrios

Usando o resultado anterior e

{ p }=

cov

{ p }= p

E p p

] [p

Usando a premissa 1 que os erros so aditivos ( y


problema linear i.e., y

p = A T W A

como

(A

W A

= yc + ) e a informao que o

= A p ento temos que

AT Wyo

p = A T W A

p = A T W A

Figura 3

AT W (A p + )

AT WAp + AT W A
T

p = p + A T W A

AT W

W A = I

AT W

substituindo o estimador acima na equao da covarincia temos que

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 7: Inverso Linear MQ Ponderados:

131

Valria Cristina F. Barbosa


Observatrio Nacional

1
1



T
T
T
T

cov p = E p + A W A A W p p + A W A A W p

{ }

COV

p = E

{ }

AT W A

A W

T

AT W A

A W

Usando propriedades da transposta temos

COV

{ p }= E A

W A

A T W T W T A A T W A

Usando a premissa 7 que as variveis independentes no so v.a. temos,

COV

{ p }= A

W A

AT WE T

Temos que calcular a esperana de

}W

{ }

E T

A A T W A

que nada mais que a esperana de

uma forma quadrtica (veja Apndice - Matriz de Covarincia dos Erros) que
expressa como

{ }

E T = cov( ) + E ( ) E ( T )
Pela premissa 2 os erros tem mdia nula o que implica E [ ] = 0 ento

{ }

E T = cov( )
Substituindo o resultado acima na expresso obtemos a expresso da matriz de
covarincia do estimador MQP, i.e,

COV

{ p }= A

W A

A T W cov {

}W T

A A T W A

Usando a premissa 4 que os erros no so correlacionveis ( cov( i , j )

=0,

j ), isto significa dizer que a matriz de covarincia dos erros

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 7: Inverso Linear MQ Ponderados:

132

CAPTULO 5.

ESTIMADOR DE MNIMOS QUADRADOS PONDERADOS

Valria Cristina F. Barbosa


Observatrio Nacional

[cov(

) ]

varincia

i2

uma matriz diagonal cujo i-simo elemento da diagonal a

do i-simo elemento do vetor dos resduos (

) ento temos

12

2
2

COV{ } =

2 N N N

2.1) Matriz de covarincia do estimador MQP ( p ) para um caso particular:


Vamos considerar o caso particular em que o i-simo elemento da matriz de
peso W definido como:

wi =

2
i

Em outras palavras, a matriz de peso W foi definida como a inversa da matriz


de covarincia dos erros

[cov(

) ] . Ento podemos dizer que

W = (COV{ } ) -1
Veja que podemos dizer que

COV{ } = W

Portanto, neste caso particular a matriz de covarincia dos parmetros do


estimador p dos MQP

COV

{ p }= A

W A

W A

A T W cov {

}W T

A A T W A

ser simplificada:

COV

{ p }= A

A T W W 1 W T A A T W A

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 7: Inverso Linear MQ Ponderados:

133

Valria Cristina F. Barbosa


Observatrio Nacional
como W

COV
como

COV

(W )

= I

{ p }= A
(A

W A

{ p }= A

W A

W A = I

W A

A T W T A A T W A

temos

-1
Como estamos no caso particular que W = (COV{ } ) temos

COV

{ p }= A

[COV{

] -1 A

Veja que se considerarmos que a varincia dos erros contidos nas observaes
geofsicas (incerteza dos dados) a mesma em todas as observaes, i.e.,

2
i

, i = 1 ,...,

COV{ } =

ento temos que

= 2I

2
Substituindo COV{ } = I temos

COV

{ p }= A

COV

= A

{ p }

COV

{ p }=

A
I

-1

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 7: Inverso Linear MQ Ponderados:

10

134

CAPTULO 5.

ESTIMADOR DE MNIMOS QUADRADOS PONDERADOS

Valria Cristina F. Barbosa


Observatrio Nacional
Veja que a matriz de covarincia dos parmetros do estimador p dos MQP no
caso particular em que COV{ } = W

= 2 I exatamente igual a matriz de

covarincia dos parmetros do estimador p dos MQ, portanto no h melhoria


significativa com a introduo da matriz peso da varincia dos rudos com
relao a estabilidade da soluo estimada. A pequena melhoria que poder
ocorre NO devido a estabilizao da soluo, mas devido a um processo
semelhante a escolha das observaes com maior razo sinal/rudo.

Papel dos Pesos nos Mnimos Quadrados Ponderados:


No mtodo dos Mnimos Quadrados Ponderados (MQP) a matriz diagonal

W R N N define a contribuio relativa de cada erro individual ao erro total


estimado. Para observaes mais precisas desejamos um ajuste melhor, ou
seja, desejamos que os erros i sejam menores. Como minimizaremos a soma
dos quadrados dos erros ponderados, i.e., min{ 1 w 1 + ... +
2

atribuirmos para a i-sima observao um peso


N

Q =

2
i

2
N

w N } , se

w i grande para minimizar

i dever ser pequeno implicando um melhor ajuste. Por

w i o erro

i =1

outro lado, se atribuirmos para a i-sima observao um peso


N

minimizar Q =

2
i

wi

o erro

w i pequeno para

i poder ser grande implicando um pior

i =1

ajuste.
Em resumo, desejamos que o erro i das observaes mais precisas e
menos precisas tenham um peso grande e um peso pequeno, respectivamente,
na quantificao do erro total.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 7: Inverso Linear MQ Ponderados:

11

Captulo 6
Estimador de mnimos quadrados
subdeterminados

CAPTULO 6.

ESTIMADOR DE MNIMOS QUADRADOS

136

SUBDETERMINADOS

Valria Cristina F. Barbosa


Observatrio Nacional

Estimador de Mnimos quadrados Subdeterminados:


O estimador de mnimos quadrados:

(A T A ) -1 A T y o

p =

s pode ser empregado se a matriz a ser invertida ( A T A ) for de posto completo. Como
a matriz de sensibilidade A N x M, o produto A T A M x M. Assim, A T A deve ter
posto M. Como o posto de uma matriz que obtida pelo produto de duas outras
matrizes no mximo igual ao menor posto das matrizes, ento temos que o posto de

A T A min(M,N), presumindo-se que A tem posto completo, isto seu posto


min(M,N).
Desta forma para usarmos o estimador de mnimos quadrados necessrio,
embora no suficiente que N M, isto que o nmero de observaes (N) seja pelo
menos igual ao nmero de parmetros (M). Se o nmero de parmetros for superior ao
nmero de observaes (se M > N), ento o posto de A no mximo igual a N. Neste
caso a deficincia de posto da

ATA

implica infinitas solues para o sistema

Ap = yo.
Veja o exemplo abaixo um sistema subdeterminado (N < M) atravs de um problema
matemtico simples
EXEMPLO:

x + 2y + z = 8

3x + 2y + 2z = 13
Este sistema acima do tipo sub-determinado (N < M), neste caso N=2 e M=3. O
nmero de parmetros Linearmente Independente (LI) M - N = 1. Seja z este
parmetro. O sistema acima pode ento ser reescrito em termos deste parmetro:

x + 2y = 8 - z

3x + 2y = 13 - 2z.
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 09: MQ Subdeterminado

137

Valria Cristina F. Barbosa


Observatrio Nacional

x + 2y = 8 - z

2y = 13 - 2z - 3x
x + (13 - 2z - 3x) = 8 - z -2x = 8 - z - 13 + 2z

2y = 13 - 2z - 3x
2y = 13 - 2z - 3x

- 2x = -5 + z

2y = 13 - 2z - 3x

x = (5 z )
2

2y = 13 - 2z - 3x

-2x = -5 + z

2y = 13 - 2z - 3x
5 z

x
=

2 2

11 z
y =

4 4

A cada valor atribudo a z (qualquer no. real) h uma soluo exata para o sistema
original. Assim se z=3, ento x=1 e y=2 satisfazem exatamente o sistema original.
Desse modo h infinitas solues para este sistema. Para obter uma soluo nica, ou
seja, para transforma este problema mal-posto em um problema bem-posto, preciso
introduzir informaes a priori sobre os parmetros.

Informao a priori introduzida no caso dos mnimos quadrados subdeterminado:

A informao introduzida no caso dos mnimos quadrados subdeterminado,


que a soluo tenha MNIMA NORMA EUCLIDEANA, ou seja, procuraremos:

min

p T p = min

Como qualquer soluo neste caso explica exatamente as observaes, temos N


vnculos da forma:

yo = A p,
Desse modo, o problema formulado como:

min p T p
sujeito a : A p = y o ,
ou ainda

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 09: MQ Subdeterminado

CAPTULO 6.

ESTIMADOR DE MNIMOS QUADRADOS

138

SUBDETERMINADOS

Valria Cristina F. Barbosa


Observatrio Nacional

min p T p
.

o
sujeito a : A p y = 0
Este problema vinculado de minimizar a funo

(p ) = p T p

sujeito a N vnculos

o
o
f p , y = A p y = 0

(1)

pode ser resolvido atravs de dois diferentes mtodos. O primeiro o mtodo direto em
que os vnculos so tratados de modo explicito. O segundo modo de resolver o mtodo
dos multiplicadores de Lagrange que iremos mostrar a seguir.
.

Soluo de um problema de otimizao vinculada


1. Atravs do tratamento explicito dos vnculos
(mtodo direto):
Seja uma funo ( p )
vnculos

de M variveis, cujo mnimo procurado, sujeito a N

f ( p ) = 0 , representado por um sistema de N equaes nas M variveis.

Vamos apresentar agora a soluo deste problema de otimizao vinculada atravs de


um tratamento explcito dos vnculos que chamaremos de mtodo direto. Para tanto
seguiremos os seguintes passos

Passo 1: Formulao do problema de otimizao vinculado

MIN

(p )

sujeito a

f p, y

)=

Este sistema permite, em princpio, explicitar N variveis em termos das demais


variveis, cada equao explicitando uma varivel em termos das outras. Desta forma
o passo 2 consiste em:

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 09: MQ Subdeterminado

139

Valria Cristina F. Barbosa


Observatrio Nacional

Passo 2: Explicitar N variveis em termos das outras N-M variveis:

Se pudermos expressar as N variveis em termos das outras M N de forma explicita,


teremos reduzido de M variveis para um sistema de M N variveis, que so usadas
na expresso a ser minimizada. Desta forma o passo 3 consiste em:

Passo 3: Formulao do novo sistema com N-M variveis a ser minimizado

Para minimizar a

nova funo, agora reduzida para M-N variveis,

toma-se as

derivadas parciais das M-N variveis que restam aps a substituio das N variveis
que foram explicitadas em termos das demais. Desta forma o passo 4 consiste em:

Passo 4: Minimizao do novo sistema para as N - M variveis

Finalmente, estimado as M-N variveis no passo 4 agora teremos de substituir as M


N variveis estimadas na N variveis que forma explicitadas no passo 2. Desta forma o
passo 5 consiste em:

Passo 5: Substituir nas N variveis explicitadas no passo 2 as estimativas das M


N variveis obtidas no passo 4

Exemplo de Soluo MQ via mtodo direto:

Considere um problema linear representado por um sistema de 1 equao


(observao) e 2 incgnitas (parmetros) em que

A = [2

1] e

y o = 2 . Temos

ento N=1 e M=2. Neste exemplo estimaremos os parmetros p1 e p 2 (M=2) atravs


de uma nica equao (N=1) usando-se o vnculo da mnima norma Euclideana dos
parmetros sujeito ao ajuste ser exato, i.e., usaremos a formulao dos Mtodo dos MQ
Subdeterminado:

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 09: MQ Subdeterminado

CAPTULO 6.

ESTIMADOR DE MNIMOS QUADRADOS

140

SUBDETERMINADOS

Valria Cristina F. Barbosa


Observatrio Nacional

Passo 1: A formulao do problema de otimizao vinculado

min p T p

sujeito a : A p y o = 0 .
min p12 + p 22

sujeito a 2 p1 + p 2 2 = 0

Passo 2: Explicitar N variveis em termos das outras N-M variveis:

Neste caso temos N=1 e M=2, ento explicitaremos um nica varivel

p 2 = 2 2 p1

Passo 3: Formulao do novo sistema com N - M variveis a ser minimizado

Como neste caso temos N=1 e M=2, ento formularemos um novo sistema com 1
nica varivel.. Para tanto basta substituir as N variveis explicitadas na equao
que ser minimizada. O novo sistema a ser resolvido, neste caso,

{min

p 12 +

(2

2 p 1 )2

Veja agora que teremos de minimizar a um sistema agora reduzido a uma nica

p1 . Para tanto tomaremos as derivadas parciais em relao

varivel

p1

igualaremos o resultado a zero.

Passo 4: Minimizao do novo sistema para as N - M variveis

p1

{p

2
1

(2

2 p1

)2

}=

2 p 1 + 2 (2 2 p 1 )( 2 ) = 0
2 p
p

+ 8 p

+ 8

4 / 5

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 09: MQ Subdeterminado

141

Valria Cristina F. Barbosa


Observatrio Nacional

Passo 5: Substituir nas N variveis explicitadas no passo 2 as estimativas das M


N variveis obtidas no passo 4

2
4
p 2 = 2 2 p1 = 2 2
=
5
5

2. Atravs do mtodo dos Multiplicadores de Lagrange:


O problema vinculado formulado em (1) pode ser resolvido pelo mtodo direto
em que explicitamos os vnculos. No entanto, um problema surge quando as equaes

f ( p ) = 0 no podem ser rescritas na forma de N variveis explicitadas em termos


das outras M N variveis. Neste caso a teoria dos mutiplicadores de Lagrange fornece
um meio para tratar os vnculos de forma implcita.
Solucionaremos o problema de
MINIMIZAR
SUJEITO A :

(p )
f (p ) = 0 ,

usando o mtodo do multiplicadores de Lagrange.


Para o mnimo da funo

d (

p )=

(p ) existir temos:

dp1 +
dp2 + ... +
dpM = 0
p2
pM
p1

..

As perturbaes dp i, esto, por sua vez ligadas pelos vnculos o que fornece:

dfi (

p )=

f i
f
f
dp1 + i dp2 + ... + i dpM = 0
p1
p2
pM

uma vez que

, i = 1,2,...,N,

..

f i 0 e por conseqncia suas derivadas sero tambm

identicamente nulas.
Agora vamos multiplicar as N equaes acima por N parmetros ainda no
determinados

i , i

= 1,2.N, e somar a equao d (p).

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 09: MQ Subdeterminado

CAPTULO 6.

ESTIMADOR DE MNIMOS QUADRADOS

142

SUBDETERMINADOS

Valria Cristina F. Barbosa


Observatrio Nacional
N

f
f
f
d + i dfi =
+1 1 + 2 2 + ... + N N dp1
p1
p1
p1
i=1
p1

f
f
f

+1 1 + 2 2 + ... + N N

p2
p
2
p
2
p
2

Como

dp2

+ ... = 0

+ i df i ( p ) deve ser nulo para qualquer valor dos


i= 1

multiplicadores de Lagrange

i , i

valores particulares de que

= 1,2.N, ela deve tambm ser nula para os

que cancelam cada termo entre parnteses da

expresso acima. Assim o problema de minimizao vinculada transformado no


problema de minimizao NO vinculada da funo

+ i fi (p )
i= 1

que pode se escrita como tambm escrita como:

=
em que

+ fT ,

so vetores N-dimensionais.

A condio necessria para a existncia de um mnimo da funo no vinculada

(p ) :

= 0,
p j
ou seja,

j = 1 , 2 ..., M

+ f T

f
f
f
=
+ 1 1 + 2 2 + ... + N N = 0 ,
p j
p j
p j
p j
p j
j = 1, 2 ..., M
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 09: MQ Subdeterminado

143

Valria Cristina F. Barbosa


Observatrio Nacional
Exemplo de Soluo MQ via mtodo dos multiplicadores de Lagrange:

Considere um problema linear representado por um sistema de 1 equao


(observao) e 2 incgnitas (parmetros) em que

A = [2

1] e

y o = 2 . Temos

ento N=1 e M=2. Neste exemplo estimaremos os parmetros p1 e p 2 (M=2) atravs


de uma nica equao (N=1) usando-se o vnculo da mnima norma Euclideana dos
parmetros sujeito ao ajuste ser exato, i.e., usaremos a formulao dos Mtodo dos MQ
Subdeterminado:

Passo 1: A formulao do problema de otimizao vinculado

min p T p

sujeito a : A p y o = 0 .
min p12 + p 22

sujeito a 2 p1 + p 2 2 = 0

Passo 2: Transformao do problema de minimizao vinculada no problema


de minimizao NO vinculada usando N multiplicadores de Lagrange

A funo NO vinculada a ser minimizada dada por


N

= +

i fi (p )

i=1

2
2
Neste caso = p1 + p2 e como temos um nico vinculo (N=1) isto ( 2 p1 + p2 2 = 0 )

teremos apenas um nico Multiplicador de Lagrange ( ). De modo que a nova


funo no vinculada a ser minimizada :

= p12 + p 22 + (2 p1 + p 2 2 )

Passo 3: Minimizar a funo no vinculada

Neste exemplo temos dois parmetros

p1 e

p 2 (M=2) ento a condio

necessria para a existncia de um mnimo da funo no vinculada :

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 09: MQ Subdeterminado

CAPTULO 6.

ESTIMADOR DE MNIMOS QUADRADOS

144

SUBDETERMINADOS

Valria Cristina F. Barbosa


Observatrio Nacional

p 1

0 ,

0 ,

e

p 2

logo temos

= 2 p
p1

p 2

= 2 p

Passo 3:

+ 2 = 0,

+ = 0

Expressar as M variveis em termos dos N multiplicadores de

Lagrange

Neste exemplo temos (M=2) apenas um multiplicador de Lagrange (N=1)

p1 = ,

p2 =
2

Passo 4: Estimar os N Multiplicadores de Lagrange


Vamos agora substituir as expresses acima no vnculo do nosso problema

objetivando estimar os N multiplicadores de Lagrange.


O vinculo do nosso problema

2 p1 +

2 = 0

Substituindo na equao acima nos parmetros p1 e p 2 temps

resultando em

4
5

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 09: MQ Subdeterminado

145

Valria Cristina F. Barbosa


Observatrio Nacional

Passo 5: Substituindo os N Multiplicadores de Lagrange nas expresses dos


parmetros obtidos via passo 4:

p 1 = = 5

p = = 2
2
2
5
INTERPRETAO DOS MULTIPLICADORES DE LAGRANGE
O uso dos Multiplicadores de Lagrange pode se interpretado de duas maneiras
equivalentes:

Primeira Interpretao do Mtodo dos Multiplicadores de Lagrange:


As M variveis originais a serem estimadas so expressas em termos dos N
multiplicadores de Lagrange ( i , i = 1,2, , N ) que so introduzidos no sistema
original de N equaes (com M variveis) resultando em um novo sistema agora
com N equaes e N variveis a serem estimadas (os N multiplicadores de
Lagrange). Os multiplicadores so ento estimados e depois substitudos nas
respectivas relaes com as variveis originais.

Segunda Interpretao do Mtodo dos Multiplicadores de Lagrange:


A condio

= 0,
p j

j = 1,2..., M acrescentam M equaes as N equaes do

vnculo, totalizando M+N em M+N variveis a serem estimadas, sendo que M so as


variveis originais do sistema e N so os multiplicadores de Lagrange.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 09: MQ Subdeterminado

10

CAPTULO 6.
146

ESTIMADOR DE MNIMOS QUADRADOS


SUBDETERMINADOS

Captulo 7
Regularizao de Tikhonov

148

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional

Regularizao de Tikhonov:
Transformao de um problema mal-posto em um outro
bem-posto atravs da introduo de informao a priori:
Na prtica, um problema inverso mal posto quando existem infinitas solues
que explicam as observaes geofsicas dentro de uma preciso experimental.
Heuristicamente,

podemos

dizer

que

um

problema

mal

posto

reflete

um

desbalanceamento entre a quantidade de informaes contida nos dados observados e


a quantidade de informaes demandada pelo intrprete na soluo do problema
inverso.
Matematicamente, um problema mal posto (Hadamard, 1962) se a sua soluo
no obedece a pelo menos uma das trs condies:

EXISTNCIA

UNICIDADE

ESTABILIDADE

O problema da Existncia , Unicidade e Estabilidade:


Seja p uma funo desconhecida pertencente ao sub-espao F do espao de P
de todos os possveis parmetros e seja uma funo conhecida y pertencente ao subespao mtrico AF de um espao Y de todas as possveis observaes (Figura 1).
Considere A um operador linear que mapea p em y. Portanto, nosso problema reduzse a resolver a equao linear dada por

y=Ap

(1)

A
AF
y

.p

P
y = A p
A: p

y
Figura 1

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

149

Valria Cristina F. Barbosa


Observatrio Nacional
Note que um elemento y AF representa um elemento produzido por uma
transformao AP, cujo operador A envolve relaes de causa e efeito obtidas da
resoluo de um sistema de equaes diferenciais advindas da fsica-matemtica
(equao de Poisson, equao de Laplace, equaes de Maxwell, equao da onda).
No entanto, em problemas prticos no conhecemos y com total preciso, em geral,
o
conhecemos uma medida aproximada y que contem componentes aleatrias que no
so explicadas por estas equaes. Assim a medida y

pertence ao espao Y porm

pode no pertencer ao sub-espao AF. Neste caso NO EXISTE SOLUO PARA O


O
SISTEMA y = Ap, uma vez que o operado A no definido (Figura 2)
Portanto, estamos violando a primeira condio imposta por Hadarmard para
que um problema seja bem posto: inexistncia da soluo.

.y

AF

.p

P
Figura 2

A inexistncia de soluo levou ao conceito de Quasisoluo. Para tanto


considere uma projeo de y
que a distncia entre y
c

outras palavras, d (y , y

e y
O

no sub-espao AF (Figura 3). Esta projeo y , ser tal


O

ser mnima dentre todos os elementos y AF, em

) em que d uma mtrica definida no espao Y e um


c

escalar positivo que tende a zero a medida que y O tende a y .


Agora o operador A definido garantindo a existncia da soluo p
denominadas de Quasisoluo (Figura 3). Logo temos que o operador A mapea p
em y C resultando na equao:

*
*

y c= A p *.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

150

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional

yo

p*

yc

AF
Q u a s is o lu o

d ( yo , yc ) <

Considere que a distncia entre y

e y

= A p

Figura 3

a distncia Euclideana, ento

buscamos uma estimativa de p que minimize a distncia Euclideana entre y

e y O. A

soluo a estimativa via MQ (Figura 4).

Ap = y
Mnimos quadrados:
yo

AT Ap = AT yo
T
-1 T o
Operador inverso: p = (A A) A y

yc

AF

P
p

F
Figura 4

No entanto se o sub-espao AF for no convexo (Figura 5) existiro infinitas


projees de yo em AF uma vez que h infinitas mtricas d (y
c

, y

) . Se h

infinitas projees y h portanto infinitas quasisolues p . Neste caso a existncia da


soluo foi garantida mas a unicidade da soluo no (Figura 5).

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

151

Valria Cristina F. Barbosa


Observatrio Nacional

A
A

yo
y1c
y 3c

p 1*
p 2*

y2c

p3*

AF

Existncia da soluo porm no h


unicidade

d ( yo , yc ) <

Figura 5

Desta forma temos a primeira condio de UNICIDADE DA SOLUO que


garante que a situao mostrada na figura acima no ocorre.

PRIMEIRA CONDIO DE UNICIDADE DA SOLUO:


Para a garantia da unicidade da soluo temos que garantir a unicidade da
projeo yo no sub-espao

AF.

Para tanto AF tem que ser CONVEXO. Como o

operador A linear se AF convexo ento F convexo tambm (Figura 6).

U n ic id a d e d a s o lu o
P rim e ira C o n d i o : u n ic id a d e d a p ro je o y o n o
subespao AF

yo

p*

yc
Y

AF

SUBESP AO AF CO N VEXO

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

Figura 6
4

152

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional
SEGUNDA CONDIO DE UNICIDADE DA SOLUO:
A segunda condio para a garantia da unicidade da soluo a garantia da
unicidade do operador linear A que deve ser nico um por um. Logo para o operador A
1

que mapea F em AF h um operador inverso A

que mapea AF em F (Figura 7).

Esta condio implica p* = 0 a nica soluo da equao

A p * = 0.

Segunda Condio: unicidade do operador A

yo

p*

yc
Y

A -1

AF

OPERADOR UM POR UM

A p * = 0 implica p * = 0

Figura 7

TERCEIRA CONDIO DE UNICIDADE DA SOLUO:


A terceira condio para a garantia da unicidade da soluo a garantia da
continuidade do operador linear A. A continuidade do operador A leva ao importante
conceito de estabilidade da soluo.
Para entendermos o conceito de estabilidade vamos considerar que o
subespao mtrico AF convexo (logo garantimos a unicidade da projeo de yo no
subespao AF) e que o operador linear A nico e um-por-um (logo garantimos a
c

unicidade do operador linear A que mapea p* em y , portanto p* = 0 a nica soluo


da equao A p = 0). Vamos considerar agora uma pequena perturbao , de modo
*

que ao invs de conhecermos y


c

conhecemos y pertencente ao subespao mtrico

AF, tal que a mtrica d ( y , y ) . Logo o operador A mapea p em y e o mesmo


c

operador A mapea p em y e que a mtrica entre d ( p , p ) .


*

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

153

Valria Cristina F. Barbosa


Observatrio Nacional
Uma soluo INSTVEL se a mtrica entre y
*

ey

tender a zero NO

implica que a mtrica entre p e p tenda a zero (Figura 8). Em outras palavras, uma
soluo instvel quando tender a zero NO implica que tenda a zero.

Conceito de Instabilidade da soluo


Mapeamento descontnuo ===> Instabilidade
yo

A
p*

yc

yc

p*

Y
AF

d ( yc , yc ) <

d ( p* , p* ) <

Figura 8

Neste caso de instabilidade da soluo, o operador linear A nico, um-porum porm descontnuo (Figura 8).
Heuristicamente, falando uma soluo instvel se uma pequena perturbao
no espao da observaes geofsicas leva a uma grande perturbao no espao dos
parmetros (solues).
Por outro lado, se operador linear A nico, um-por-um e contnuo a
c

soluo ESTVEL. Neste caso, no mapeamento contnuo se a mtrica entre y e y


tender a zero, ou seja se tender a zero, implica que a mtrica entre p e p tenda a
*

zero, ou seja implica que tenda a zero (Figura 9). Neste caso, em que o mapeamento
*

contnuo p tende a p . Uma soluo estvel se uma pequena perturbao no

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

154

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional
espao das observaes (AF) leva a uma pequena perturbao no espao dos
parmetros (espao das solues F).
Temos ento um lema: Dado um subespao COMPACTO e CONVEXO F, se o
mapeamento F AF CONTNUO e UM-POR-UM ento o mapeamento inverso
AF F tambm CONTNUO.

M a p e a m e n to c o n t n u o = = > E s ta b ilid a d e
A
yo

yc
Y

AF

0
0

p *

y c

p*

d ( y c , y c )

d ( p * , p * )

p *

p*

S u b e s p a o F c o m p a c to

Figura 9

Concluso: Se o operador linear A contnuo e um-por-um e se o subespao F


que contem a soluo compacto ento temos um problema bem posto.
Heuristicamente, um conjunto compacto um conjunto em que dado qualquer
elemento podemos encontrar outro elemento to prximo do primeiro quanto se queira.
Geometricamente, um conjunto compacto aquele que no h buracos ou
descontinuidades.

Exemplo fsico-geomtrico de um problema bem posto:


Vamos ilustrar um problema bem posto com um exemplo fsico-geomtrico
usando uma fotografia area, em que o centro do sistema ptico est em um avio que
sobrevoa uma regio (Figura 10). Ento temos que:

P (espao de todos os possveis parmetros) a topografia da regio;


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

155

Valria Cristina F. Barbosa


Observatrio Nacional

Y (espao de todas as possveis observaes) o registro fotogrfico;

F (sub-espao do espao P que contm a soluo) o trecho da topografia visvel


quando o centro ptico est na atual posio (localizao do avio);

AF (sub-espao do espao Y que contm as observaes) a imagem de F;

A (operador que mapea F em AF ) o sistema tico;


-1
A (operador inverso AF F ) a definio de alguma propriedade da topografia

(por exemplo cor do solo);

Exemplo fsico-geomtrico de um problema BEM POSTO

AF
Topografia

F
A: F

AF

A o sistema ptico
A-1 a definio de alguma propriedade da
superfcie da topografia
Operador do tipo um por um e contnuo
Note que

Figura 10

o operador A que faz o mapeamento F AF UM-POR-UM isto

porque a cada elemento em F corresponde apenas um elemento em AF. Note tambm


que o operador A que faz o mapeamento F AF contnuo porque se dois elementos
esto prximos em F suas correspondes imagens em AF tambm esto prximas. Alm
disso note que o subespao F um espao compacto, ou seja, no h buracos ou
descontinuidades.
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

156

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional
Conclumos que se o operador A contnuo e um-por-um e se o
subespao F que contem a soluo compacto ento temos um problema bem
posto.

Exemplo fsico-geomtrico de um problema mal posto:


Vamos ilustrar um problema mal posto usando o mesmo exemplo fsicogeomtrico da fotografia area apresentado acima. No entanto, vamos supor que o
avio esteja sobrevoando uma regio com muitas nuvens (Figura 11). Especificamente,
suponhamos agora que haja uma nuvem entre os pontos p1 e p2 ento, neste trecho, a
1
imagem fotogrfica da topografia no foi registrada. Assim as operaes A e A
no
foram definidas em y isto porque y

AF.

Exem plo fsico-geom trico de um problem a MAL POSTO

y1 y y2

y0

AF
y3

y5

Topografia
p2

p1

p0

p3

F
p4

y AF
y 3 AF

p5

inexistncia do operador A

existncia do operador A -1 porm


descontinuo
Figura 11

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

157

Valria Cristina F. Barbosa


Observatrio Nacional
Em outras palavras, houve neste caso a violao da condio de existncia da
soluo (primeira condio de Hadamard). Alm disso, observe que uma pequena
perturbao em torno de y3 leva a grandes perturbaes no espao dos parmetros.
1
Especificamente, uma pequena perturbao para direita de y3 leva atravs de A
a
pontos na topografia a direita de p4, ou seja, a elementos (pontos) afastados de p3. Em
1
outras palavras, neste caso o mapeamento inverso AF F descontnuo (A

descontnua em y3).

Conclumos que neste exemplo no h garantia da existncia do operador A.


Alm disso, quando o operador A existe do tipo um-por-um porm
descontnuo e o subespao F, que contem a soluo,

no compacto (com

buracos e descontinuidades). Ento este segundo exemplo caracteriza um


problema mal posto.

O mtodo da Regularizao de Tikhonov:


Suponhamos que o operador A na equao

Ap =y

(2)

tal que o operador inverso

A-1 no seja contnuo no subespao AF e o subespao F

de possveis solues no seja compacto, logo no h estabilidade da soluo.


Para solucionarmos o problema da instabilidade da soluo, h uma abordagem
desenvolvida por Tikhonov (1963) conhecida como mtodo de Regularizao de
Tikhonov que estabelece condies matemticas para obtermos solues estveis de
modo que uma pequena perturbao nos dados leve a pequenas perturbaes nas
solues estimadas. Esta abordagem baseia-se no conceito de operador regularizador.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

10

158

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional

O conceito de operador regularizador:


Suponhamos que o operador A na equao (2) tal que o operador inverso

A-1

no seja contnuo no subespao AF e o subespao F de possveis solues no seja


compacto. Se o membro do lado direito da equao
AF que difere do exato membro do lado direito
definida no subespao AF, d(y

yT

Ap=y

de um valor

um elemento

, ento se a mtrica,

, y) , bvio que a soluo aproximada p*

da

equao (2) no pode ser definida como a soluo exata desta equao com membro
do lado direito aproximado

(y = y ) , ou seja, conforme a equao: p * = A-1

y. Isto porque se A-1 no um operador contnuo no subespao AF, ento no h


garantia que a soluo obtida a partir de observaes imprecisas y , ou seja a soluo

p * = A-1 y , tenda a soluo exata p*T quando

0.

Para obtermos uma soluo aproximada estvel via mtodo da regularizao de


Tikhonov teremos primeiro que encontrar um operador regularizador.

Para tanto

faremos algumas consideraes preliminares. Vimos que o parmetro numrico

caracteriza o erro no lado direito da equao (2). Naturalmente os operadores


regularizadores

que iremos definir

para buscar uma soluo aproximada estvel

depender de um parmetro chamado de parmetro de regularizao que funo de

. Portanto,

*
definiremos p com o auxlio de um operador regularizador que depende

de um parmetro tendo um valor escolhido de acordo com o erro

no dado inicial y .

Especificamente, este operador ser escolhido de modo que se

0, ou seja, se y

aproximar-se do valor exato

y T , ento a soluo aproximada p*

deve aproximar-se

p* T que estamos procurando para a equao Ap = yT. Sendo


*T
T
que a soluo exata, o elemento p
F , e as observaes exatas, y AF , so
da soluo exata

conectados pela equao Ap

*T

= yT

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

11

159

Valria Cristina F. Barbosa


Observatrio Nacional
Como j abordamos, para solucionarmos o problema da instabilidade da
soluo, h uma abordagem desenvolvida por Tikhonov (1963) conhecida como mtodo
de Regularizao de Tikhonov que estabelece condies matemticas para obtermos
solues estveis. Este mtodo baseia-se na construo de um operador regularizador
T
para a equao (2) na vizinhana de y = y . Um operador R( y, ) chamado de
regularizador para a equao

y=Ap

na vizinhana de

y = yT se duas condies

forem satisfeitas:

(1)

Se na vizinhana de y existir um nmero positivo

) definido para todo > 0 e todo y


T
que d(y,y )

, tal que o operador

AF. Ento existe um valor

R(y,

> 0 tal

e dentro desta regio define-se um operador regularizador

R(y, ).

Mtodo da Regularizao de Tikhonov

y=Ap
No h estabilidade da soluo
Construo de operadores regularizadores:
O operador R(y,) regularizador da equao Ap=y
na vizinhana de y = yT se:
d ( yT , y ) < <
(a) Se existir tal que

yT

y* AF

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

12

160

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional

(2)

Se existe

regularizador
funo

y que satisfaz d(yT, y)

em que o operador

R(y, ) est definido dentro desta regio. Ento existe uma

= (, y) de

existe um nmero ()

e dos dados

tal que a incluso

tal que, para todo

y AF

> 0,

e da inequao

d (yT,y) ()
implique

d (p*T ,p* )
onde

p* = p* () = R( y , () ).

(b) Se existir y que satisfaz

d ( y , y ) < <

Ento posso definir um operador R(y , () ), em


que () >0, tal que

d ( p *, p * () ) < ,
implique

>0

d ( y , y ) < () < ()

em que () ser escolhido de modo que se :

() 0

d ( y, y )

d ( p* , p*() ) 0

p* ()

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

p*
13

161

Valria Cristina F. Barbosa


Observatrio Nacional
Se

d(y ,yT)

regularizao
erro

R(y , ),

dos dados iniciais

do valor exato

podemos com o auxlio de um operador de

escolher o parmetro numrico

de modo que, se

= (, y) conforme o

0 , ou seja, se y

aproximar-se

y T , ento a soluo regularizada da p* = p* () = R(y, ())

aproxima-se da soluo exata

p*T, isto , d (p*T , p* () )

0. Portanto a soluo

*
regularizada p uma soluo estvel.

Esta soluo

p* = p* () = R( y

operador de regularizao

R( y , () ),

, () ),

obtida com o auxlio do

chamada uma soluo regularizada

da equao (2) e o parmetro numrico chamado de parmetro de regularizao.


Em resumo o mtodo de Regularizao de Tikhonov estabelece duas condies.
T
A condio (1) estabelece que existe uma regio em torno do elemento y = y dentro
da qual definimos um operador

R(y, ) chamado de operador de regularizao. Este

operador depende continuamente da varivel


condio (2) estabelece que se o elemento

(parmetro de regularizao).

est dentro desta regio definida pela

condio (1), ento podemos definir um operador de regularizao


depende continuamente da varivel

()

tal que, se

R(y , ())

que

0 , ou seja, se a distncia d

(y, yT) 0, isto implica que 0, isto , d (p*T , p* ()) 0 e


que

por conseqncia

p* () p*T .

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

14

162

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional

O mtodo da Regularizao de Tikhonov:


O mtodo de regularizao de Tikhonov um mtodo de obteno de solues
aproximadas da equao (2) que so estveis sob pequenas perturbaes no membro
do lado direito da equao (dados geofsicos). Este mtodo consiste:
a) na construo de operadores de regularizao ; e
b) na determinao do parmetro de regularizao
tamanho do erro contido nos dados

()

que funo do

(no membro do lado direito da

equao)
Ento o nosso primeiro passo, consiste em construir operadores de
regularizao.

Mtodo de construo de operadores de regularizao:


O mtodo para a construo de operadores de regularizao para a equao (2)
T
baseia-se no princpio variacional. Ns presumiremos que a equao Ap = y , em
que

yT

AF so os dados exatos, tem apenas uma NICA soluo p

*T

Seja H(p) um funcional com as seguintes propriedades:

1)

contnuo;

2)

no negativo,

3)
4)

definido no subespao compacto F1 do espao mtrico F;


*T
em que a soluo exata p
pertence ao domnio de definio de H(p);e

5)

para todo nmero positivo

c, o conjunto de elementos p de F1 para o qual

H(p) c um subconjunto de F1 .
A este funcional

H(p)

apresentando tais propriedades chamaremos de

funcional estabilizante ou simplesmente o estabilizador.


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

15

163

Valria Cristina F. Barbosa


Observatrio Nacional
O mtodo de construo de operador regularizador reduz-se a um problema de
extremo condicional de minimizar o funcional quasimonotnico H(p) sujeito a explicar os
dados observados (geofsicos) dentro do erro

contido nos dados y observados (erro

experimental)

H( p )
inf
p F

sujeito a : A p y

(3)

este problema de difcil soluo. Operacionalmente, torna-se mais fcil solucionarmos


o seguinte problema de extremo condicional:

H( p )
inf
p F

sujeito a : A p y

(4)

=.

Este problema de extremo condicional (equao 4) resolvido via mtodo dos


Multiplicadores de Lagrange. Assim temos o seguinte problema de extremo
incondicional :

INF

p F

A p y

+ ( )H(p) ,

(5)

em que o parmetro de regularizao () determinado da condio

d ( A p* () , y ) =

(6)

*
sendo p () o elemento em F no qual o funcional M

M (p , y ) =

A p y

(p, y)

+ ( )H(p)

(7)

atinge o seu maior limite inferior (inf).

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

16

164

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional
O elemento

p* ()

pode ser considerado como o resultado da aplicao ao

membro do lado direito (y=y) da equao (2) algum operador regularizador R1 que
depende do parmetro de regularizao () :

p* () = R1 ( y , () ),
onde o parmetro numrico

(8)

= () depende do erro .

Chamamos o funcional

H(p)

estabilizador e chamamos o funcional

de funcional estabilizante ou simplesmente o

M (p, y) de funcional suavizante.

Observe a generalidade da condio (5) para obteno de solues estveis:

p e y

A um operador linear ou no linear que realiza um mapea contnuo e um-

so elementos definidos em espaos mtricos;

por-um.

O funcional H(p) sob as condies de ser um funcional estabilizante, isto ,


contnuo, no negativo, definido em um subespao compacto do espao de
parmetros ao qual pertence a soluo terica, um funcional bastante
genrico no sentido de permitir incorporar uma classe bastante ampla de
informaes a priori sobre os parmetros p na soluo de um problema
geofsico.

Note tambm a generalidade do problema (7) que estabelece. Suponha que o


conjunto F de possveis solues da equao (2) um espao mtrico e que

H(p)

um funcional estabilizante definido no conjunto F1 F. Ento temos o seguinte teorema:


Seja

A um operador contnuo que mapea F em AF.

AF e todo parmetro positivo

Para todo elemento

, existe um elemento p* F1

y de

para o qual o funcional

M (p , y ) = d (A p , y ) + H(p)
atinge o seu maior limite inferior:
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

17

165

Valria Cristina F. Barbosa


Observatrio Nacional

,y
inf M (p , y ) = M p

p F1

Veja que p e

so, simplesmente, elementos definidos em espaos mtricos.

Estes elementos podem ser, por exemplo, funes. Considerando os elementos


como os vetores

p e y

p e y o que contm, respectivamente, um nmero finito de

parmetros descrevendo o modelo interpretativo e as observaes em pontos discretos,


ento ao invs de um operador contnuo A, teremos a matriz de sensibilidade
que no caso linear no depende de
(inf) do funcional

H(p)

ponderadas:

H (p

)=

p e, finalmente, ao invs do maior limite inferior

teremos o mnimo de uma funo escalar

ento na equao (4) a norma

A (p ) ,

H (p ) . Tomando

H (p ) , como normas Euclideanas

e a funo

(p p o )T W p (p p o ) ,

e
yo A p

(y o A p )

(9)

W y yo A p ,

ento a condio (5) torna-se:

)(

) (

T
1
MIN {M(p )} = MIN
y o A p Wy y o A p + p p o
( )

em que

po

um vetor de referncia e

WP

) W (p p ) , (10)
T

y so matrizes positivo-

definidas nos espaos de parmetros e observaes, respectivamente. Note que a


funo escalar

H (p ) na equao (9) introduz informaes a priori no espao dos

parmetros e depende somente do vetor

WP

for diagonal ento a funo

po

e da matriz

WP

. Se a matriz

H (p ) ( na equao (9) ) pode ser escrita como:

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

18

166

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional

H (p

)=

(p

i =1

em que

)W
2

W pi , p i e poi
WP

elementos de

pi

so o i-simo valor diagonal e os o i-simos

p e p o respectivamente.

Assim a informao a priori introduzida ao minimizar


uma soluo aproximada

~
p

que esteja o mais prximo possvel de

o grau de proximidade desejada dado pela matriz


de

WP

H (p ) a de buscar

~
impe uma grande proximidade de p a

WP
po

po , sendo que

. Valores altos na diagonal

e viceversa. A soluo geral

da equao (10) obtida tomando o gradiente da funo

M (p ) e igualando o

resultado ao vetor nulo:

{ M (p ) } =

p y o A p

W y y o A p + ( ) p p p o

W p p p o

T
T
T
T T

p {M( p )} = p p A Wy A p 2 p A Wy y o + y o Wy y o +

T
T

T
( ) p p W p p 2 p W p p o + p o W p p o

Calculando os gradientes e igualando o resultado ao vetor nulo temos:


T
T
~
~
2 A Wy A p 2 A Wy y o + 2 ( ) W p p + 2 ( ) W p p o = 0

(12)

T
~
A Wy A p +

(13)

( ) Wp p ( ) Wp p o = A Wy y o
T

Vamos somar nos dois lados da equao o termo

A Wy A p o ento teremos:

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

19

167

Valria Cristina F. Barbosa


Observatrio Nacional

T
T
~
~
A Wy A ( p p o ) + ( ) W p p p o = A Wy ( y o A p o )

Resultando na equao normal:

(A

Wy A + ( ) W p

) (p~ p ) = A
o

Wy y o A p o

Portanto obtemos o estimador genrico:

T
~
p = p o + A Wy A + ( ) W p

-1

A Wy y o A p o

(14)

(15)

(16)

Tomando a identidade matricial:

(C D + I )C = C (D C + I )
m

sendo

(17)

uma matriz com dimenso M x N e

uma matriz com dimenso N x M.

(C D + I )

Pr e ps-multiplicando ambos os lados

D C + I
n

da identidade (17) por

1
, respectivamente, obtemos:

(C D + I ) (C D + I ) C (D C + I ) = (C D + I )
C (D C + I ) = (C D + I ) C
1

)(

C D C + In D C + In

(18)

Podemos reescrever a equao (16):

~
p = po + B yo A po

em que

B = A Wy A + ( ) W p

(19)

-1

vamos colocar em evidncia o termo

A Wy

( ) W p dentro do termo a ser invertido:

T
1

B = A Wy A
W p1 + I m
( )

( ) W p

-1
T

A Wy

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

20

168

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional

B = ( ) W p

1
W p1 + I m
A Wy A

( )

-1
T

A Wy

(20)

Vamos chamar:
T

C = A Wy e
1

D = A
Wp1 .
( )

Agora vamos usar a identidade (18) na equao (20)

B = ( ) W p

Colocando o termo

B = Wp

1
T
A Wy A
W p1 A Wy + I n

( )
T

( ) 1 Wy

-1

para dentro do termo a ser invertido temos:

1
T
A A
W p1 A Wy + I n

( )
T

T
B = W p 1 A A W p 1 A

( ) Wy -1

+ ( ) W y -1

Substituindo a equao 21 em 19 temos:

T
T
~
p = p o + W p 1 A A W p1 A + ( ) Wy -1

] (y
-1

-1

-1

(21)

A po

(22)

As equaes (16) e (22) s so identidades entre si se as matrizes

Wp
e/ou
se

e suas inversas (

Wp

Wy 1 e Wp 1 )

no forem singulares. Note que se

Wy

Wy

forem singulares, ento s a equao (16) pode ser usada. Por outro lado,

Wy 1 e/ou W p 1

forem singulares, ento s a equao (22) pode ser usada. Se

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

21

169

Valria Cristina F. Barbosa


Observatrio Nacional
nem uma das quatro matrizes acima for singular, ento os estimadores genricos (16) e
(22) so idnticos.
Portanto as duas equaes que chamaremos de estimador genrico so:

T
~
p = p o + A Wy A + ( ) W p

-1

A Wy y o A p o

T
T
~
p = p o + W p 1 A A W p1 A + ( ) Wy -1

] (y
-1

A po

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

22

170

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional
Seleo do parmetro de regularizao (selecionando uma boa soluo)
Para a maioria dos problemas lineares em geofsica resolvidos via estimador de mnimos
quadrados resultam em infinitas solues que ajustam os dados. Se considerarmos que os
dados contem rudo no nenhuma explicao para ajustarmos perfeitamente tal ruido, portanto
torna-se evidente que pode haver muitas solues que podem adequadamente ajustar os dados
no sentido que

A p yo

seja bastante pequeno. Na regularizao de Tikhonov


2

A p y o e selecionamos dentre

regularization, consideramos todas as solues com

essas solues aquela que minimiza a norma de p , i.e.,

Minimizar
sujeito

= p

A p y

a :

p
.

(1)

2
Por que selecionamos a soluo de mnima norma dos parmetros dentre aquelas solues que
ajustam adequadamente os dados ? Uma explicao intuitiva que toda a caracterstica
diferente de zero que aparecer na soluo regularizada aumentar a norma de p . Tais
caractersticas aparecem na soluo porque so necessrias para ajustar os dados.
Note que como aumenta, o conjunto de possveis solues tambm aumenta e o
valor mnimo de p

diminui. Ns podemos assim construir uma curva de valores mnimos de

p 2 versus A p y o

,i.e., uma curva relacionada ao problema condicionado acima:


2

2
2

A p yo

Caso particular em que o funcional ajustante


e sua associda norma mnima dos parmetros

A p yo

2
2

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

23

171

Valria Cristina F. Barbosa


Observatrio Nacional
Ns tambm podemos construir uma outra curva considerando o problema

A p y

Minimizar

o
2

sujeito

a :

(2)

Considerando que diminui, o conjunto de possveis solues tambm comea diminuir,


por outro lado o mnimo de A p y

aumemta.
2

p2

A p yo

2
2

Caso particular em que

p 2 =
2

e esta est associda a

A p yo =
2

Uma terceira opo considerara o problema dos minimos quadrados amortecido


(Damped Least-Square) i.e.,

min A p y

o
2

(3)

Este problema (3) surge quando aplicamos o mtodo dos multiplicadores de Lagrange ao
problema (1) em que o parmetro de regularizao. Pode ser mostrado que uma escolha
apropriada de , e os trs problemas acima (1), (2) e (3) resultam na mesma soluo.
Mtodos de escolha de , os quais se baseiam na tarefa de se encontrar () , tal que

p 2 = , so denominados mtodos a priori [problema (2)]. A premissa deste tipo de mtodo,


a de que se tem uma boa informao prvia da soluo a ser estimada. No entanto na maioria
das vezes este dado no disponvel ou ento no suficientemente confivel ou preciso. Em
geral, uma alternativa mais vivel consiste em se empregar mtodos, onde a escolha do
parmetro de regularizao, , seja orientada pela busca de um (), o qual resulte em

= . Este o chamado Princpio da Discrepncia de Morozov (1984). Parte-se do

A p yo
2

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

24

172

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional
pressuposto de que o erro (ou discrepncia) , para (), conseqencia de rudo nos dados
observados, e este corretamente estimado. Sob certas premissas estatsticas para a
contaminao por rudo dos dados experimentais, o erro mdio quadrtico (EMQ) da
seqncia de realizaes da varivel aleatria que contamina as observaes. Logo, dada uma
seqncia

i , i = 1,..., N
N

i=1

o erro mdio quadrtico dado por

2
i

Sob certas premissas estatsticas, o EMQ uma estimativa do desvio padro da varivel
aleatria que contamina as observaes.
Logo, tendo uma estimativa para o desvio padro do rudo a busca da soluo utilizando
o critrio de Morozov pode ser feita utilizando o Algoritmo

Incio
passo 1: k = 0
passo 2: k = 0
passo 3: = desvio padro do rudo dos dados (valor presumido pelo interprete)
passo 4:

~
compute p

= min

p y

o
2

passo 5: Enquanto A p y

>

o
2

i =1

2
i

faa

paso 6: k = k + 1
passo 7: k = k-1 101/10
passo 7:

~
compute p
= min

p y

o
2

Fim Enquanto
Fim
Ns iremos nos concentrar na soluo do problema (3) Mnimos quadrados amortecido.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

25

173

Valria Cristina F. Barbosa


Observatrio Nacional

Curva L
Vamos agora construir um grfico na scala log-log da funo

p 2 versus A p y o .
2

em funo do parametro de regularizao (). Esta curva chamada convenientemente de


curva-L. Esta forma L ocorre porque p 2 uma funo estritamente decrescente com e

A p yo

uma funo estritamente crescente com .


2

Curva-L

()

p2

()

A p yo
2

Curva L genrica em escala n log-log. O funcional estabilizante o Regularizador de


Tikhonov de ordem ZERO,

p 2 ,versus a norma Euclideana dos resduos,

A p yo ,
2

ambos como funes do parmetro de regularizao .

Note que em intervalos da curva-L mais prximos ao eixo vertical, uma variao
pequena de , resulta numa acentuada variao de

p 2 . O mesmo se observa com relao a

A p y o , para intervalos da curva-L mais prximos do eixo horizontal. Portanto, o passo


2

logartmico ameniza o efeito destas variaes bruscas nestes intervalos crticos, tornando a
busca de mais eficiente.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

26

174

CAPTULO 7.

REGULARIZAO DE TIKHONOV

Valria Cristina F. Barbosa


Observatrio Nacional
No grfico, aparece um novo valor de parmetro de regularizao que corresponde
um terceiro mtodo de busca de

, localizado no ponto da curva onde a sua curvatura

mxima. A escolha recai neste ponto, porque onde se d a relao mais equilibrada de
suavidade(estabilidade) ajuste, e onde a diferena no efeito da variao de

reduzido.

Denominado de mtodo de Hansen (1992), ou mtodo da curva-L, no requer nem


conhecimento prvio de nem qualquer informao sobre o erro (ou discrepncia) .
A nitidez do "canto" varia de um problema para outro, mas freqentemente bem
definido. Por esta razo, a curva chamada uma curva L. Portanto alm do princpio da
discrepncia (critrio acima descrito) para escolher o valor de temos o critrio da L-curva em
que o valor de selecionado, , aquele cuja a soluo localiza-se o mais prximo ao canto da
L-curva. Veja alguns exemplos reais de curva L.

funcional estabilizante

funcional estabilizante

Exemplos de Curva - L

Ap yo
2

Ap yo
2

V. A. Morozov. Methods for Solving Incorrectly Posed Problems. Springer Verlag, New York,
1984.
Per Christian Hansen. Analysis of discrete ill-posed problems by means of the Lcurve. SIAM
Review, 34(4):561580, December 1992.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 20: Regularizao de Tikhonov:

27

Captulo 8
Inverso no linear

176

CAPTULO 8.

INVERSO NO LINEAR

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Inverso No Linear
A formulao de um problema inverso requer, obrigatoriamente, a escolha das
variveis que representam os dados observados e os parmetros do modelo. H,
portanto, uma relao funcional entre observaes e parmetros:

yo = f ( x, p )
Alguns problemas geofsicos esta relao funcional
observaes e os

f ( x, p )

entre as

parmetros ( p ) NO LINEAR. Em outras palavras, os

parmetros a serem estimados esto relacionados aos dados geofsicos observados


atravs de relao funcional no linear.
Matematicamente, em um problema no linear pelo menos um dos coeficientes
da matriz de sensibilidade
a ij =

f ( xi , p )
,
p j

funo do parmetro do modelo.


Por simplicidade, considerando que h apenas um parmetro, dizemos que um
problema linear se a derivada da funo f (p) em relao a este nico parmetro
uma constante Figura 1a. Caso contrrio, se a derivada da funo f (p) em relao a
este nico parmetro tambm funo do parmetro ento dizemos que este um
problema NO LINEAR, Figura 1b

O problema no linear
(a)

(b)

Funo linear

Funo no linear

f(p)

f (p)

f ( p)
=
p

constante

f ( p)
= g(p)
p

Figura 1
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 32: Inverso no linear: overview.

177

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
Exemplo de um problema inverso no linear discreto em gravimetria:

o
Considere g
um conjunto de N observaes gravimtricas (Figura 2a),

medidas na superfcie da Terra, produzidas por uma interface separando dois


meios (Figura 2b) homogneos com contraste de densidade

( )

entre eles

conhecido.
(a)
i

mGal

Observaes
Gravimtricas

(x i ,

yi , zi

)
Superfcie da Terra

(km)

(km)

(b)

Meio 1

Interface
separando
dois meios

Meio 2

z (km)

Figura 2
Para estimar o relevo desta interface, discretizamos o domnio do espao

x yz

incluindo toda interface em

prismas retangulares verticais

justapostos cujos topos so coincidentes com a superfcie da Terra (Figura 3b).


Todos os prismas tm dimenses horizontais iguais e conhecidas. As
espessuras dos prismas representam as profundidades da interface a ser
mapeada e so os parmetros a serem estimados (Figura 3b) a partir dos dados
gravimtricos e esto relacionados anomalia gravimtrica vertica l
3a) no i-simo ponto de observao nas coordenadas

x = xi , y = yi

,e

gi (p)

(Figura

z = zi

atravs

da relao
M

g i (p ) =

j f i ( p j ),

i = 1,..., N

j =1

(1)
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 32: Inverso no linear: overview.

178

CAPTULO 8.

INVERSO NO LINEAR

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
em que

o contraste de densidade do j-simo prisma,

espessura do j-simo prisma e

( j ) uma funo que fornece a anomalia

fi p

gravimtrica vertical produzida no i-simo ponto de observao devida ao jsimo prisma com contraste de densidade igual a unidade sendo expressa por
xo j + a + p j

fi ( p j ) =

xo j a 0

z z'

[(x x' ) + (y y' ) + (z z' ) ]


2

sendo a constante gravitacional,

xoj

3
2 2

dxj dy j dz j
(2)

a posio do centro do j-simo prisma, a a

semi-largura (constante) dos prismas elementares ao longo de x e

profundidade da base do j-simo prisma elementar (parmetro a ser estimado).


(a)
i

mGal

(x i ,

yi , zi )

xo j

Earths Surface

(km)

(km)

(b)

Interface

z (km)

gi =

xo j + a + p j

[(x x' ) + (y

xo j a

z z'

y' j

) + (z
2

z' j

)]

3
2 2

dx ' j dy ' j dz ' j

Figura 3

Matematicamente, o problema geofsico inverso de estimar o vetor de


parmetros p , i.e., estimar a interface separando dois meios, na presena de
corpos geolgicos interferentes a partir do vetor dos dados gravimtricos
observados

g o g1o ,L , g No

no linear, isto porque as derivadas da funo

( ) em relao as M espessuras ( p j , j = 1,..., M ) dependem de

fi p

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 32: Inverso no linear: overview.

p j , j = 1,..., M .
3

179

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Mtodos de resoluo de problemas no lineares:

1) Transformao em problemas lineares


2) Mtodos de busca
3) Mtodo do gradiente aceitvel

Transformao em problemas lineares:


A idia fundamental descobrir uma seqncia de transformaes T1, T2,
TN que, so aplicadas equao y o = f ( x, p ) :

{ {

{ { }} }}

T TN TN1...T1 yo ... = T{TN {TN1...{T1{ f (x, p )}}...}}.


Note que aplicamos a seqncia de transformaes T1, T2,TN nos dois lados da
equao. Note ainda que originalmente o lado esquerdo da equao formado pelo
vetor de valores numricos y o que representam os dados geofsicos observados. Como
transformaes aplicadas sobre observaes (nmeros) podem continuar sendo
encaradas como observaes, ento aps a transformao o lado esquerdo da
equao continua sendo constituda por um novo vetor de valores numricos u . As

transformaes aplicadas a

f ( x, p ) (lado direito da equao), por sua vez devem

levar a uma relao linear do tipo:

u = Gq ,
sendo q um vetor de elementos q j esto relacionados com os parmetros originais

p do seguinte modo:
q1 = g1 ( p )
q2 = g 2 ( p )
.
.
.
qR = g R (p ),

note que as funes

g1 , g 2 ,..., g R devem ser tais que permitam obter p a partir de

q .Note que o vetor q tem dimenso R, no necessariamente igual a M.


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 32: Inverso no linear: overview.

180

CAPTULO 8.

INVERSO NO LINEAR

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Exemplo:
Seja um corpo tabular infinito em y (perpendicular ao plano do papel) e semiinfinito em z, tendo largura b, profundidade do topo h e coordenada do centro xo. O prima
uniformemente magnetizado com intensidade m, inclinao i., e declinao (azimute)
d em relao ao eixo y. O campo geomagntico tem inclinao I e azimute D.

xo
x

h
b

A anomalia de campo total produzida por este corpo ao longo de um perfil


paralelo ao eixo x :

H(x)= m p ln ( A) + 2 m q arctan (B),


Sendo:

p = cos i sen d sen I + sen i cos I sen D ,


p = sen i sen I cos i sen d cos I sen D,
h 2 + ( x xo b / 2 )

A=
B=

h 2 + ( x xo + b / 2 )

,e

h b
.
2
h + ( x xo ) b 2 / 4
2

Definindo a primeira transformao T1 como o operador de reduo ao polo:

hb
,
.
T1[ H(x) ] = 2 m arctan 2
2
2

h + (x xo ) b / 4
Definindo a segunda transformao T2 como

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 32: Inverso no linear: overview.

181

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

T1[ H(x) ]
,
2m

hb
,
T2 [ T1[ H(x) ] ] = arctan 2
.
2
2

h + (x xo ) b / 4
T2 [ T1[ H(x) ] ] =

Definindo a terceira transformao T3 como

T3[ T2 [ T1[ H(x) ]


T3

[ T2[ T1[

H(x) ]

] ]=

tan [T2 [ T1[ H(x) ]

]]=

hb
.
2
h2 + (x xo ) b2 / 4

] ],

Note que o lado esquerdo da equao acima um nmero conhecido. Assim a ltima
equao pode ser re-escrita como:

F(x) =

hb
.
2
h2 + (x xo ) b2 / 4

A quarta transformao T4 definida por uma seqncia de manipulaes algbricas


como:

T4 [ T3[ T2 [ T1[ H(x) ]


T4 [F(x)] = h b, ou

] ] ] = T4[F(x)] = [h2 + (x xo )2 b2 / 4]F ,

( )

F h2 + F (x xo )2 F b2 / 4 = h b

( )

F h2 + F x2 2 F x xo + F xo2 F b2 / 4 = h b,

(1)

h b + F b2 / 4 xo h2 + 2 F x xo = F x2.
2

Definiremos agora os novos parmetros:

q1 = h b

(2)

q2 = b2 / 4 xo h2

(3)

q3 = xo

(4)

as novas variveis independentes em cada ponto de observao i que formam a nova


matriz so:
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 32: Inverso no linear: overview.

182

CAPTULO 8.

INVERSO NO LINEAR

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

gi 1 = 1
gi 2 = F i
gi 3 = 2 F i xi
e as observaes transformadas que compem o lado esquerdo da equao como:

ui = F i xi

A equao (1) torna-se:

g i 1 q1 + g i 2 q2 + g i 3 q3

= ui

i = 1,2,....., N

que em forma matricial teremos a equao linear:

u=G q

(5)

sendo:

F1

F2

u=

F N

x12
x2 2
.
.
.
xN 2

1 F1

1 F2
.
.
;G =
.
.

.
.
1 FN

F1 x1
F2 x2
.
.
.
FN x N

q1


e q = q2

q3

A soluo da equao (5) produz diretamente


xo = q3
Da equao (2) temos :

h=

q1
b

(6)

Substituindo a equao (6) em (3) obtemos a equao bi-quadrada:

b 4 4 q2 + xo

)b

4q1 = 0,
2

que depois de resolvida para b permite obter h atravs da equao (6).

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 32: Inverso no linear: overview.

Apndice A
Estatsticas e probabilidades

184

APNDICE A.

ESTATSTICAS E PROBABILIDADES

Valria Cristina F. Barbosa


Observatrio Nacional

Anexo 1:
Conceitos Bsicos de Estatstica
O Rudo experimental:
o
A premissa bsica da teoria da inverso que os dados observados y e os

parmetros desconhecidos p esto relacionadas. Existe portanto uma relao


f (p , y o )

funcional

que representa uma lei DETERMINSTICA advinda da resoluo

de um sistema de equaes diferenciais da fsica-matemtica, de modo que

y o = f (p )
Portanto, atravs de f que estabelecemos uma relao entre os parmetros e
os dados observados de um sistema fsico.

Ressalto que f (p) pode envolver a

soluo de uma equao diferencial ordinria ou uma equao diferencial parcial ou


a avaliao de uma integral. De qualquer forma f envolve relaes de causa e
efeito obtidas da resoluo de um sistema de equaes diferenciais advindas da
fsica-matemtica (equao de Poisson, equao de Laplace, equaes de Maxwell,
equaes da onda). Iremos adotar a conveno de denominar a relao f

de um

modelo direto ou sistema fsico que nada mais que uma ou mais equaes que
relacionam os dados geofsicos observados com os parmetros desconhecidos.
o
No entanto, em problemas prticos no conhecemos y com total preciso, em

o
que contem componentes
geral, conhecemos uma medida aproximada de y

aleatrias que no so explicadas por estas equaes determinsticas

f (p) .

o
Portanto, os dados observados y podem ser aproximados por uma componente

determinstica

f (p , y

) , porm esta proximidade no precisa isto porque h

uma componente aleatria que no so explicadas pelo sistema fsico de


equaes, i.e.:

f (p ) +

ANEXO: Conceitos Bsicos de Estatstica

185

Valria Cristina F. Barbosa


Observatrio Nacional
o
Ento para cada observao geofsica y i presumimos a existncia de um erro

(rudo experimental) i

que uma varivel aleatria (v.a.). Mas o que uma

varivel aleatria ?
Varivel aleatria:
Varivel aleatria uma varivel resultante de uma realizao de um fenmeno
aleatrio.
Fenmeno aleatrio:
Um fenmeno aleatrio um fenmeno emprico em que no h regularidade
determinstica, ou seja, um fenmeno cujo resultado no pode ser previsto
exatamente. Ento, se o fenmeno se repetir, sob condies similares, o resultado
no ser sempre o mesmo.
Experimento aleatrio:
Uma varivel chamada de aleatria

se ela descreve os resultados de um

experimento aleatrio. Um experimento aleatrio qualquer fenmeno aleatrio que


possa ser executado e quando repetido, um grande nmero de vezes sob condies
similares, o resultado que uma v.a. NO pode ser previsto.
Varivel aleatria Discreta:
Seja

uma varivel aleatria. Se o nmero de possveis valores de

numervel, ento
em lista como

uma v.a. discreta, i.e., os valores de

,...,

for finito

podem ser postos

Como dissemos anteriormente, associada a um v.a. NO h leis ou propriedades


determinsticas. No entanto, h propriedades probabilsticas. A cada possvel
resultado

, associaremos um nmero real

de probabilidade de

p ( i ), i = 1,..., N
1)

p ( i ) = P ( = i ) denominado

(ou funo de probabilidade no ponto

).

devem satisfazer as seguintes condies:

p ( i ) 0 , i

ANEXO: Conceitos Bsicos de Estatstica

186

APNDICE A.

ESTATSTICAS E PROBABILIDADES

Valria Cristina F. Barbosa


Observatrio Nacional
N

2)

p ( i ) = 1

i =1

Varivel aleatria Contnua:


Se

uma varivel aleatria contnua, existir uma funo

FDP (funo densidade de probabilidade) de

f ( )

denominada

que satisfaz as seguintes

condies:
1)

f ( i ) 0 ,
+

2)

f ( ) d = 1

Funo de uma varivel aleatria:


Seja

uma varivel aleatria

dizemos portanto que

yo

ento se tenho uma funo

funo de uma v.a. (

) ento

yo

yo = y +

tambm uma

varivel aleatria com FDP e com os parmetros associados a uma v.a. i.e., ter
ento

yo

ter FDP e obedecer a leis probabilsticas como veremos mais adiante.

E( yo ) e V ( yo ) .
Portanto uma Varivel que funo de uma varivel aleatria uma varivel
aleatria.

Estimador e Estimativa :
Seja
parmetro

y o uma

p.

observao de um fenmeno fsico que envolve o

Existe portanto uma relao funcional

uma lei determinstica

f ( p ) que representa

associando a observao do fenmeno fsico com o

parmetro, de modo que

= f ( p)

ANEXO: Conceitos Bsicos de Estatstica

187

Valria Cristina F. Barbosa


Observatrio Nacional
Em geral, em problemas reais, conhecemos uma medida imprecisa de

y o contendo

componentes aleatrias que no so explicadas por estas

equaes determinsticas

f ( p) .

Ento para cada observao deste

o
fenmeno fsico y i presumimos a existncia de um erro (rudo experimental)

i que uma varivel aleatria. Desta forma matematicamente o fenmeno


fsico descrito como

y oi = fi ( p) + i .
Veja que o parmetro (

) deste modelo funo de uma v.a.

Portanto, a funo empregada para obter

i .

chamada de ESTIMADOR de

De acordo com o conceito que acabamos de estabelecer sobre Funo de uma


varivel aleatria , ento o ESTIMADOR de

uma v.a. porque uma funo de

uma varivel aleatria (rudo contido nos dados observados).

Estimador:

uma

funo de uma v.a., sendo portanto uma v.a, que

empregada na obteno de parmetros desconhecidos de um fenmeno fsico.

Estimativa:
denominaremos

o valor real do estimador. portanto um nmero que

Se o estimador uma v.a., ento ele ter FDP e obedecer a leis probabilsticas
como veremos mais adiante.

Parmetros Associados a um Fenmeno Aleatrio:


J vimos que uma v.a. est relacionada a um fenmeno aleatrio (fenmeno nodeterminstico). Vimos que se um experimento aleatrio deste fenmeno for
realizado sob um dado conjunto de circunstncias (condies) no h garantia que o

ANEXO: Conceitos Bsicos de Estatstica

188

APNDICE A.

ESTATSTICAS E PROBABILIDADES

Valria Cristina F. Barbosa


Observatrio Nacional
resultado (v.a.) deste experimento v se reproduzir sob as mesmas condies. No
h, portanto, uma reprodutibilidade determinstica do resultado do experimento.
No entanto, no fenmeno aleatrio o resultado de um experimento que uma v.a.,
h apenas uma lei probabilstica do resultado. Portanto, apesar de no haver uma
lei fsica associada a um fenmeno aleatrio h, no entanto, nmero reais chamados
probabilidades que so determinados por uma funo de probabilidade definida
sobre o espao amostral. Em resumo, associado a uma v.a. h uma funo de
probabilidade (caso discreto) ou FDP (caso contnuo).
Por outro lado, em um fenmeno determinstico, h uma relao determinstica
em que parmetros nos fornecem informaes sobre o fenmeno em questo.
Assim, por exemplo, seja um fenmeno expresso pela relao linear

a e b so

que os parmetros

em

os parmetros desta relao. Note que para

qualquer escolha particular destes parmetros ( a


determinstico (relao linear).

y = ax+ b

e b)

obtemos o fenmeno

Se um fenmeno determinstico descrito

integralmente por seus parmetros ento o inverso tambm vlido, i.e, a simples
anlise dos parmetros de um fenmeno determinstico podemos descrever o
fenmeno. Neste

exemplo,

y
= a representa a declividade da reta havendo
x

portanto uma relao linear entre x e y.


Tal como nos fenmenos determinsticos, nos fenmenos aleatrios h
parmetros que podem ser empregados para caracterizar

a distribuio de

probabilidade. Estes parmetros so Esperana e Varincia de uma v.a.

Esperana de uma Varivel aleatria:


Seja

uma varivel aleatria discreta com valores

p ( i ), i = 1,..., N
Esperana de

a funo de probabilidade em

1 , 2 ,...,
i , i = 1,..., N

. Seja
ento a

dada por:

ANEXO: Conceitos Bsicos de Estatstica

189

Valria Cristina F. Barbosa


Observatrio Nacional

E ( ) =

i =1

p ( i )

E ( ) uma media ponderada dos valores possveis de i , i = 1,..., N


Se

uma varivel aleatria contnua

E ( ) =

f ( ) d

Veja no Anexo 2 as propriedades da Esperana de uma v.a.


Significado Fsico da Esperana de um v.a.
O significado fsico do valor esperado de uma v.a. pode ser feito em analogia ao
conceito de centro de gravidade em mecnica. Se uma unidade de massa for
distribuda

sobre

uma

reta,

em

p ( x i ) representa a massa do ponto x i

pontos

discretos,

x 1 , x 2 ,.., x N

ento

i=1

x i p ( x i ) representa o centro

de gravidade desta distribuio de massa.


Analogamente, a
v.a.

E ( ) representa o centro da distribuio de probabilidade da

Significado da Esperana do rudo que contamina as observaes geofsicas

Suponhamos que uma v.a.


os dados gravimtricos cuja

represente o rudo experimental que contamina

E ( ) = 0

mGal. Isto significa dizer que a maioria do

rudo est distribudo entorno de 0 mGal. Mas o que significa entorno ? Veja que
poderia significar que a maioria do rudo deve estar compreendida entre 0.01 mGal e
-0.01 mGal. Mas poderia tambm significar que a maioria do rudo deveria estar
compreendida entre 1 mGal e -1 mGal. Como distinguir entre estes dois casos
distintos ? H portanto a necessidade de atribuirmos um segundo parmetro para

ANEXO: Conceitos Bsicos de Estatstica

190

APNDICE A.

ESTATSTICAS E PROBABILIDADES

Valria Cristina F. Barbosa


Observatrio Nacional
caracterizar uma distribuio de probabilidade (FDP) de uma v.a.. Este parmetro
a varincia da v.a.

Varincia de uma Varivel Aleatria:


Seja

uma varivel aleatria discreta com valores

Varincia de

1 , 2 ,..., N

, ento a

dada por:

V ( ) = 2 = E[ E( )]

e o desvio padro

( ) a raiz quadrada positiva da varincia V ( )

= V ( )
Veja que usando as propriedades da esperana (Anexo 2) temos que

V ( ) = E[ E ( )]

V ( ) = E 2 2E ( ) + (E ( ) )

( )

V ( ) = E 2 2 E ( ) E ( ) + [E ( )]

( )

V ( ) = E 2 [E ( ) ]
Se uma varivel aleatria contnua

V ( ) = 2 =

( E( ))

f ( )d

Veja no Anexo 2 as propriedades da Varincia de uma v.a.

ANEXO: Conceitos Bsicos de Estatstica

191

Valria Cristina F. Barbosa


Observatrio Nacional
Significado Fsico da Varincia de um v.a.

A varincia mede a disperso de uma v.a., em relao do seu valor esperado. A


analogia com a mecnica, se interpretarmos

E ( x ) como

o centro de gravidade

da unidade de massa distribuda sobre uma reta, em pontos discretos,

x 1 , x 2 ,.., x N
interpretamos

em

V ( x)

E ( ) representa

V ( )

que

p ( x i ) representa

E ( )

massa

do

ponto

xi

ento

como o Momento de inrcia (momento de ordem 2). Se

o centro da distribuio de probabilidade da v.a.

representa o quanto a v.a.

esperado

se dispersa

ento

em relao ao seu valor

Quando dizemos que a varincia de uma v.a pequena, ento esperamos que o
valor da v.a. tende a ser prximo do seu valor esperado (centro da distribuio).

Covarincia:
Seja x e y duas v.a. aleatrias. A definio de Covarincia de x e y

Cov ( x, y ) = E { [x E ( x )] [ y E ( y )]

Cov ( x, y ) = E {xy xE ( y ) E ( x ) y + E ( x ) E ( y )}
Cov ( x, y ) = E ( xy ) 2 E ( x ) E ( y ) + E ( x ) E ( y )
Cov ( x, y ) = E ( xy ) E ( x ) E ( y )
Se x=y ento temos que

Cov ( x, x ) = E [x E ( x )]E [x E ( x )]
Cov ( x, x ) = E [x E ( x )]

Cov ( x, x ) = V ( x )

ANEXO: Conceitos Bsicos de Estatstica

192

APNDICE A.

ESTATSTICAS E PROBABILIDADES

Valria Cristina F. Barbosa


Observatrio Nacional

Correlao:
Seja x e y duas v.a. aleatrias. A definio de Corelao de x e y

Cov ( x, y )
V ( x )V ( y )

( x, y ) =

Vetor Esperana de uma Varivel aleatria:


Seja

uma varivel aleatria discreta com valores

esta v.a. pode ser expressa na forma vetorial como


do vetor esperana de R

1 , 2 ,...,

RN

. Logo

, surgindo o conceito

E ( 1 )
R
E ( ) =
M

E ( N )

Matriz de Covarincia de uma Varivel Aleatria:


Seja

uma varivel aleatria discreta com valores

esta v.a. pode ser expressa na forma vetorial como


do vetor

RN

1 , 2 ,...,

RN

. Logo

. Ento a covarincia

cov( ) = E [ E ( ) ][ E ( ) ]

1 E(1 )

[ E( ) L E( )]
M
cov() = E
1
N
N
1

E( )
N

ANEXO: Conceitos Bsicos de Estatstica

193

Valria Cristina F. Barbosa


Observatrio Nacional

[1 E(1)]2
L [1 E(1)][ k E( k )] L [1 E(1)][ N E( N )]

M
O

cov() = E [1 E(1)][ k E( k )]
[ k E( k )]2
[ k E( k )][ N E( N )]

M
O

[1 E(1)][ N E( N )] L [ k E( k )][ N E( N )] L
[ N E( N )]2
Portanto a covarincia do vetor

RN

cov( ) R N N

uma matriz

Note que a matriz de covarincia uma matriz simtrica cujo k-simo elementos da
diagonal a varincia da k-sima v.a. (

), i.e.,

V ( k ) = E [ k E ( k ) ]

(j,k)-simo elemento fora da diagonal a covarincia entre as variveis


i.e.,

cov( j , k ) = E

{ [

E ( j ) [ k E ( k ) ]

j e

eo

Portanto, poderamos escrever a matriz de covarincia como:

cov(1 , 2 ) L cov(1 , N )
var(1 )

cov(
,
)
var(
)
cov(
,
)

1 2
2
2
N
cov( ) =

M
O

cov( , ) cov( , ) L
var( N )
1
N
2
N

Caso particular:
No caso particular em que as variveis aleatrias
correlacionadas

j e

k , j k

so NO

cov( j , k ) = 0, j k e a varincia constante para todas

as variveis aleatrias e igual a

, i.e.

V ( k ) = 2 , k = 1 ... N

ento neste caso particular a matriz de covarincia expressa como:

ANEXO: Conceitos Bsicos de Estatstica

10

194

APNDICE A.

ESTATSTICAS E PROBABILIDADES

Valria Cristina F. Barbosa


Observatrio Nacional

2 0 L 0

2
0
0
= 2I
cov( ) =

O
M

2
0
0 L

A estimativa e as leis probabilsticas:

J vi mos que Estimador uma funo de uma v.a., sendo portanto uma v.a,
que empregada na obteno de parmetros desconhecidos de um fenmeno
fsico. Vimos tambm que o valor real do estimador, um nmero que
denominaremos de Estimativa ( p ).
Se o estimador p

uma v.a., ento ele ter FDP e os parmetros Esperana

e Varincia.
Veja que se dizemos que

seja igual a

valores. Ento, se

uma estimativa de

uma vez que

, no esperamos que

uma v. a., podendo assumir diferentes

pode assumir diferentes valores surge, por conseqncia,

uma importante questo: Como podemos avaliar se a estimativa


estimativa de

uma boa

? Em outras palavras, Quais so as caractersticas que desejamos que

uma estimativa apresente ? Alm disso, queremos saber como avaliar duas
estimativas, ou seja, dado duas estimativas como podemos decidir qual a melhor
estimativa. Observe que, em geral, no faz sentido dizer que a nossa estimativa

correta isto porque (exceto em testes controlados) no conhecemos os valor

verdadeiro de p . Ento, em situaes realsticas podemos no mximo dizer que uma


estimativa

uma boa estimativa de

. Por isto, temos que estabelecer

critrios de avaliao de uma estimativa. Adicionalmente, tais critrios devem

ANEXO: Conceitos Bsicos de Estatstica

11

195

Valria Cristina F. Barbosa


Observatrio Nacional
estabelecer alguma diretriz para se decidir se uma estimativa deve ser preferida
outra. Vejamos a seguir dois critrios importantes.

Critrios estatsticos para avaliao de uma estimativa:


1) No tendenciosidade:
Seja

p R

um vetor de parmetros desconhecido de um fenmeno fsico.

Em estatstica, a tendenciosidade de um estimador p do parmetro desconhecido


p

definido como a esperana da diferena entre o estimador ( p ) e o parmetro p ,

ou seja

B ( p ) = E [ p p ]
em que

o estimador de p .

Usando as propriedades da Esperana de uma v.a. temos:

B ( p ) = E [ p ] E [ p ]
Lembrando da propriedade

E [c ] = c

em que c uma constante (no uma v.a.) ,

ento temos que

B ( p ) = E [ p ] p
Dizemos que o estimador

um estimador no tendencioso de p , se

E [ p ] = p
o que implica

B ( p ) = 0

A luz da estatstica, diz-se que p uma boa estimativa de p se E [ p ] = p , ou


seja, se p for um estimador NO TENDENCIOSO de p .

Mas ser que sempre desejamos uma estimativa NO Tendenciosa ? Em que


situao devemos abrir mo do critrio de NO tendenciosidade do estimador
Por ltimo perguntamos, se temos dois diferentes estimadores

ANEXO: Conceitos Bsicos de Estatstica

que produzem

12

196

APNDICE A.

ESTATSTICAS E PROBABILIDADES

Valria Cristina F. Barbosa


Observatrio Nacional
estimativas NO tendenciosas do parmetro desconhecido p , ento: como
podemos julgar qual das duas estimativas a melhor estimativa de p ?
Para responder as questes acima formuladas, a estatstica introduziu mais
um critrio de avaliao de uma estimativa que o critrio de no tendeciosidade de
varincia mnima.

2) No tendeciosidade de varincia mnima:


Por definio a varincia de uma v.a. mede a disperso da v.a. em relao ao seu
valor esperado. Estatisticamente, um bom estimador
esperado do estimador
p

aquele que o valor

igual ao parmetro p (ou seja, se E [ p ] = p , ou seja, se

for um estimador no tendencioso de p ) e adicionalmente seja um estimador com

varincia pequena.
Definio de um estimador no tendencioso e de varincia mnima. Seja
p * dois

que
todo

estimadores no tendenciosos de p , ento E [ p ] = p e E [ p *] = p . Dizemos

um estimador no tendencioso de varincia mnima de p se V ( p ) < V ( p *) para

p.

ANEXO: Conceitos Bsicos de Estatstica

13

197

Valria Cristina F. Barbosa


Observatrio Nacional

Anexo 2:
Propriedades da Varincia e Esperana
Propriedade da Esperana:
Seja x , y , x 1 ,...,

x N variveis aleatrias e c uma constante .

E(c) = c
E(cx) = cE( x)
E( x1 + x2 + ... + x N ) = E( x1) + E( x2 ) + ... + E( x N )
E( xy) = E( x)E( y) se x e y forem independentes
Propriedade da Varincia :
Seja

x uma varivel aleatria a varincia de x

V ( x ) = E [ x E ( x )]

portanto

V ( x) = E ( x

) [ E ( x )]

Seja x , y variveis aleatrias e

uma constante .

V (c) = 0
V (cx) = c 2V ( x)
V ( x + y) = V ( x) + V ( y) se x e y forem v.a. independen tes

ANEXO: Conceitos Bsicos de Estatstica

14

198

APNDICE A.

ESTATSTICAS E PROBABILIDADES

Valria Cristina F. Barbosa


Observatrio Nacional

Anexo 3
Premissas Estatsticas padres
1. Erro aditivo
0 No aditivo
1 Aditivo
2. Erro com mdia nula
0 A mdia no nula
1 A mdia nula
3. Erros com varincia constante
0 A varincia no constante
1 A varincia constante
4. Erros no correlacionados
0 Os erros so correlacionados
1 Os erros no so correlacionados
5. Distribuio normal para os erros
0 A distribuio no normal
1 A distribuio normal
6. Conhecimento a priori dos parmetros estatsticos da varivel que descreve os erros
0 A matriz de covarincia dos erros conhecida a menos de um fator constante
multiplicativo
1 A matriz de covarincia dos erros conhecida
7. Variveis independentes sem erro
0 As variveis independentes contm erros
1 As variveis independentes no contm erros
8. Parmetros no aleatrios e no h informao a priori sobre eles
0 Parmetros aleatrios e sem informao a priori
1 Parmetros no aleatrios e sem informao a priori
2 Parmetros aleatrios, normalmente distribudos, com mdia e matriz de covarincia
conhecida
3 Parmetros no aleatrios, mas a informao a priori disponvel subjetiva

ANEXO: Conceitos Bsicos de Estatstica

15

199

Valria Cristina F. Barbosa


Observatrio Nacional

Anexo 4
Contaminao dos dados geofsicos com rudo aleatrio
Some a cada elemento do vetor dos dados observados a realizao de uma
varivel aleatria com uma determinada distribuio (uniforme, Gaussiana, Laplace,
Cauchi) especificando a mdia e o desvio padro. Estas N realizaes de uma
varivel aleatria esto representando o rudo experimental dos dados.

Desse

o
modo, obtm-se o vetor de observaes sintticas com rudo aditivo y . A

realizao da varivel aleatria acima referida pode ser obtida atravs de um


gerador de nmeros pseudo-aleatrios. Existem vrias rotinas em Fortran para gerar
esses nmeros e muitos aplicativos atualmente j dispem de funes internas que
operam com nmeros pseudo-aleatrios. Os nmeros pseudo-aleatrios formam
seqncias que podem ser reproduzidas sempre que se desejar, ao passo que uma
seqncia de nmeros aleatrios nunca se repete. Uma seqncia especfica de
nmeros pseudo-aleatrios depende apenas de uma semente, que um nmero
(em geral inteiro) especificado pelo usurio. Assim, diferentes sementes geram
seqncias diferentes de nmeros pseudo-aleatrios, que podem ser reproduzidas
exatamente, bastando especificar a mesma semente.

ANEXO: Conceitos Bsicos de Estatstica

16

200

APNDICE A.

ESTATSTICAS E PROBABILIDADES

Apndice B
Resoluo de problemas no lineares:
algoritmos de optimizao

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

202

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Inverso No Linear
Mtodos de resoluo de problemas no lineares:
Mtodos de Busca:

f ( p ) onde

Dado uma funo


queremos encontrar p

MTODO DE NELDER-MEAD

p so os parmetros a serem estimados,

tal que f ( p * ) f ( p ), p a vizinhana de p * , ou seja,

buscamos um mnimo local de f ( p ) .


Definio: Simplex um conjunto de vetores (pontos) em um espao Mdimensional.
O algoritmo de Nelder-Mead emprega um simplex de M+1 pontos num espao de M
dimenses. Assim um espao M-dimensional varrido por M+1 vetores. Este simplex,
portanto, capaz de definir um hiperplano da funo f ( p ) , representada como uma
hipersuperfcie num espao M-dimensional. Uma vez que o simplex em um determinado
instante (iterao) representa de modo razovel uma aproximao local de f ( p ) ,
simples obter um ponto que provavelmente produzir valores mais baixos de f ( p ) ,
para tanto, basta procurar este ponto na direo que liga o ponto produzindo o maior
valor de f ( p ) com o centride dos outros pontos. Fazendo isto h uma grande
chance de estarmos descendo a encosta de f ( p ) , representada localmente pelo
simplex.

f(p )

ir

bu
de

sc

f m ax
c e n tr id e

P o n to -te s te
(c o m v a lo r d a fu n o m a is b a ix o )

p a r m e tro

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

203

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Se, no entanto, o novo ponto produzir valores maiores que todo os outros pontos
(com excesso do que produziu o maior valor de f ( p ) ), a interpretao este ponto
est situado na encosta oposta, havendo um mnimo entre eles.

f(p )

P o n to - te s te
D

ir

bu
de

sc

f m ax

c e n tr id e

p a r m e tro

Neste caso o ponto-teste deslocado na direo do centride. Pode ocorrer, no


entanto, que o ponto deslocado na direo do centride produza valores mais altos de
f ( p ) . Neste caso, a interpretao que o ponto-teste original cruzou no s o

mnimo como tambm um mximo:

f(p )

P o n to -te s te d e s lo c a d o
(o d e s lo c a m e n to p ro d u z f(p ) m a io r)

P o n to -te s te

ir

de

bu

sc

f m ax
c e n tr id e
p a r m e tro

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

204

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Neste caso o simplex muito grande, ou seja, ele no mais representa um


hiperplano representando localmente f ( p ) . O simplex, neste caso engloba mximos
e mnimos de f ( p ) . A soluo reduzi-lo drasticamente.
Vejamos agora em detalhes as etapas de uma iterao do algoritmo de NelderMead.

ALGORITMO DE NELDER-MEAD:

Etapa 1: Defino do simplex inicial Defini-se M +1 pontos iniciais distintos,


p o , p1, ..., p M . Desta forma, formamos um hiperpoliedro.

Uma possvel inicializao a seguinte:

p i = p o +k e i
sendo K um escalar e e

i = 1,2,...,M

um vetor onde o i-simo elemento o valor um.


T

e i= 0 0 ... 1

... 0 0

i = 1,2,...,M

Se os parmetros a serem estimados consistirem de grandezas diferentes, como


por exemplo, ngulos, propriedades fsicas, dimenses lineares conveniente definir:

p i = p o + ki e i

i = 1, 2, ... , M

SIMPLEX : ALGORITMO DE NELDER -MEAD

ETAPA 1: Define-se M+1 pontos


iniciais p o , p1 , ..., p M (hiperpoliedro)
P2

P1

P2
Po
P1

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

205

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Etapa 2: Calcula-se a funo em cada vrtice do hiperpoliedro. Define-se para cada


vrtice a seguinte expresso:
fi

= f ( p i ),

i = 0,1,2,..., M

SIMPLEX: ALGORITMO DE NELDER -MEAD

ETAPA 2: Define-se para os M+1


vrtices do hiperpoliedro a expresso:
fi = f ( p i ),

i = 0,1,2,...,M

P22

f(0) = f ( p o ),

P1

= f ( p 1 ),

f(1)

P2
Po

f(2) = f ( p 2 ),
P1

Etapa 3: Define-se o menor e maior valor da funo f i

e os correspondentes valores

associados. Seja p L o ponto do simplex correspondente ao menor valor da funo


f (p L ) . Seja p H o ponto do simplex correspondente ao maior valor da funo f (p H ) .

Neste caso temos que:

f(p

f(p

< f ( p

> f ( p

),
),

i L

i H

i = 0 ,1, 2 ,..., M
i = 0 ,1, 2 ,..., M

Etapa 4: Calcula-se o centride dos pontos do simplex excluindo-se o ponto p H .

pc

O vetor

1
M

i =0
iH

pc corresponde a mdia dos vrtices, ou seja, a mdia dos vetores de

parmetros associados a cada vrtice, excetuando o vrtice p H que corresponde ao


vrtice associado ao maior valor da funo. Assim cada elemento do vetor

pc sero as

mdias das coordenadas.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

206

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

o CENTRIDE

P2

=P L
PC
P

P o =P
H

P1
H
Etapa 5: Reflexo do ponto (vrtice) p em relao ao centride

ponto

pc , obtendo-se o

pR .

REFLEXO
P2

P 1 =P L
PC
P o =P H

P2

P1
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

207

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
A Reflexo do simplex:

p R = pc +

( pc p

),

em que um escalar positivo chamado coeficiente de reflexo (o valor normal para


esta varivel 1). Note que o vetor = ( pc p

Etapa 6: Calcula-se a funo no vrtice

) fornece a direo de declividade.

p R , ou seja, calcula-se f ( pR ) .

H ento 3 possibilidades:

Etapa 6a: f ( p R )

< f ( p

Neste caso o ponto-teste

p R produz um valor da funo menor que o at

agora obtido em todos os pontos do simplex. A direo de reflexo parece


promissora. Ento tentasse expandir o simplex nesta direo.

SIMPLEX: ALGORITMO DE NELDER -MEAD

ETAPA 6: Calcula-se a funo no


vrtice pR ,ou seja, calcula-se f ( pR ) se

ETAPA 6 a:

f ( pR )

< f ( p

Expande-se o simplex

f (p )

pR

pH

pL

A expanso do simplex:

pE = pc + (pR pc ),
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

208

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

em que > 1, um escalar positivo chamado coeficiente de expanso. Note

( p R pc ) = .

que o vetor

EXPANSO

f ( pR ) < f ( p L )

PP2 2

=P L

PC
P

P o =P H

P1
H ento duas possibilidades

f ( p

f ( pE )

Caso 1:

Neste caso o ponto


substituindo

p E incorporado ao simplex (como novo vrtice)

H
o vrtice p , ou seja faz-se p

= p E e retornar-se a

ETAPA 4.

Aps a expanso h duas possibilidades:


Caso 1:

f ( pE )

f ( p

f (p )
pH

pL

pE

pR

Ento Faz-se: pH = pE Go to etapa 4


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

209

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
f ( pE )

Caso 2:

> f ( p

Neste caso a expanso falhou e o ponto

p R incorporado ao simplex

pH

(como novo vrtice) substituindo o vrtice

, ou seja, faz-se

p H = p R e retornar-se a ETAPA 4.
Aps a expanso h duas possibilidades:

f ( pE ) > f ( p L )

Caso 2:

f (p )

pE

pH

pL
pR

Ento Faz-se: pH = pR Go to etapa 4


Etapa 6b:

f ( p

) f ( pR ) < f ( p

) , para alguns i H

Neste caso houve uma ligeira melhora, mas no to boa como a Etapa 6a.

SIMPLEX: ALGORITMO DE NELDER -MEAD

ETAPA 6: Calcula-se a funo no


vrtice pR ,ou seja, calcula-se f ( pR ) se

ETAPA 6 b:
f ( p L ) f ( pR ) < f ( p i ) , para alguns i H

f (p )

pH

pR

pi

pL
O ponto-teste

p R no produz um valor da funo menor que o at agora

L
obtido pelo ponto p

, porm este ponto-teste

p R produz um valor da

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

210

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
funo menor que outros pontos do simplex. Por esta razo o ponto-tese

incorporado ao simplex (como novo vrtice) substituindo o vrtice

seja, faz-se

pH

pR
, ou

p H = p R e retornar-se a ETAPA 4.

ETAPA 6 b:
f ( p L ) f ( pR ) < f ( p i ) , para alguns i H

A direo de reflexo boa por isto

f (p )

pH

pR

pi
pL

Ento Faz-se: pH = pR Go to etapa 4


Etapa 6c:

f ( pR ) > f ( p i ) , i H ou i

Neste caso conclui-se que o simplex est muito grande e o ponto-teste

p R caiu na encosta oposta, cruzando um mnimo. Neste caso a soluo


fazer uma contrao.

ETAPA 6 c: f ( pR) > f ( p i ), i H ou i


A direo de reflexo no boa por
isto faz-se uma CONTRAO

f (p )

pH

pR

pi
pL

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

211

10

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

f ( pR )

Caso 1:

A contrao do ponto

<f ( p

p R do simplex:

Faz-se uma contrao do ponto-teste

ponto

p R do simplex em direo ao

pH

CONTRAO

f ( pR) > f ( p i ), i H oui

P 2P 2

P 1 =P L

(pR pc )

pcontrac
PC
P

P o =P H

P1
p contrac = p c + ( p R p c ),
em

um escalar positivo chamado coeficiente de contrao (0<

< 1).
H ento duas possibilidades:
Caso 1a:

f ( p contrac ) < f ( p R )

Neste caso a contrao funcionou

ento o ponto

p contrac

H
incorporado ao simplex (como novo vrtice) substituindo o vrtice p ,

ou seja, faz-se

p H = p contrac e retornar-se a ETAPA 4.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

212

ALGORITMOS DE OPTIMIZAO

11

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Aps a contrao h duas possibilidades:


Caso 1a:

f ( p contrac ) < f ( p R )

f (p )

pH

pR

pi

pcontrac

pL

Ento Faz-se: pH = pcontrac Go to etapa 4

Caso 1b:

f ( pcontrac ) f ( p R )

Neste caso a contrao falhou. A interpretao que o simplex muito


grande: ponto-teste

contrao

na

p R cruzou um mnimo um mximo, tal que a

direo

de

pH produz

valores

crescentes

para

f ( pcontrac ) . A soluo reduzir (contrair) drasticamente o simplex


na direo de

pL .

Aps a contrao h duas possibilidades:


Caso 1b:

f ( p contrac ) f ( p R )

pcontrac

f(p)

pH

pi

pR

pL

Soluo: CONTRAO DRSTICA


NA DIREO DE pL
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

213

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
A contrao drstica do simplex:

( )

Faz-se uma contrao de todos os pontos p i

12

do simplex em direo ao

L
ponto p , definindo-se assim um novo hiperpoliedro

1
p
2

+p

),

i = 0,1,2,..., M

Drstica contrao (novo hiperpoliedro)

f ( pcontrac ) f ( pR )

P2 P
2

P 1 =P L
po =

p2 =

1 o L
p +p
2

1
p 2 +p L
2

Po

P1
Note que formamos um novo vetor de pontos p i , ento teremos que
retornar a Etapa 2.

Drstica contrao (novo hiperpoliedro)

P2

P 1 =P L

Po

Go to etapa 2

P1

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

214

ALGORITMOS DE OPTIMIZAO

13

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

f ( pR )

Caso 2:

> f ( p

A contrao do ponto

pH do simplex:

Neste caso faz-se uma contrao do ponto p H do simplex em direo

pR .

ao ponto

CONTRAO f ( pR ) > f ( pH )
P2

(pH pc )

P 1 =P L
PC

pcontrac

P o =P H

P1

p contrac = p c + ( p H p c ),
em

um escalar positivo chamado coeficiente de contrao (0<

< 1).
H ento duas possibilidades:
Caso 2a:

f ( p contrac ) < f ( p H )

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

215

14

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
Neste caso a contrao funcionou

ento o ponto

p contrac

H
incorporado ao simplex (como novo vrtice).substituindo o vrtice p ,

ou seja faz-se

p H = p contrac e retornar-se a ETAPA 4.

ETAPA 6 c:

f ( pR ) > f ( p i ) , i

f ( pcontrac ) < f ( pH )

Caso 2a:

f (p )

pH

pR

p contrac

pL

Ento Faz-se: p H = p contrac Go to etapa 4

Caso 2b:

f ( p contrac ) f ( p H )

Neste caso a contrao falhou. A soluo a contrao drstica do


simplex na direo de p L . Proceda como no caso 1b descrito acima.

ETAPA 6 c:
Caso 2b:

f (p )

f ( pR ) > f ( p i ) , i

f ( pcontrac ) f ( pH)
pR

p contrac
pH

pL

Soluo: CONTRAO DRSTICA


NA DIREO DE p L
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

216

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

15

CRITRIOS DE PARADA DO MTODO DE NELDER-MEAD:


O teste de convergncia do mtodo de Nelder-Mead consiste em verificar se a
desigualdade abaixo obedecida.

M + 1

[
M

i=0

f (p ) fM )

1/2

<

em que da ordem de 10-3 - 10-7 e a varivel f M o valor mdio de p i :

fM =

1
M +1

f (p

i=0

Pode ocorrer uma sada prematura quando o simplex cai sobre um patamar
horizontal de f ( p ) . Neste caso, a soluo recomear o processo iterativo com
um novo simplex (definindo-se novos pontos do hiperpoliedro)

VANTAGENS DO MTODO DE NELDER-MEAD:


1) Pode ser aplicado a qualquer funo f ( p ) . Em particular, f ( p ) no
precisa ser contnua ou diferencivel. O mtodo no calcula derivadas, portanto
atende a uma ampla classe de funes.
o
2) A aproximao inicial p no precisa estar prximo do ponto de mnimo

3) Convergncia garantida (para um mnimo local)

DESVANTAGENS DO MTODO DE NELDER-MEAD:

1) Converge para um mnimo local


2) Razo de convergncia lenta. O mtodo no usa derivadas apenas busca o
mapeamento da topografia da funo f ( p )
3) No distingue mnimos locais dos globais
4) Ineficincia computacional. O nmero de iteraes grande, logo avalia-se
vrias vezes a funo f ( p )
5) Convergncia

prematura. Neste caso basta observar se as observaes

estimadas ajustam as observaes observadas.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

217

16

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
MTODO DO PRICE:

uma variante do mtodo de Monte-Carlo, que engloba uma quantidade grande


de algoritmos. Isto porque o algoritmo de Monte-Carlo propriamente dito, apresenta uma
convergncia agonizantemente lenta. Este algoritmo consiste em selecionar ao acaso
i
i
i 1
um ponto p , no espao factvel de parmetros, testar se f ( p ) menor que f ( p ) .

Caso positivo o ponto p


novo ponto p

i +1

i 1

i
i
substitudo por p ; caso contrrio p descartado e um

selecionado ao acaso e o processo repetido. A principal razo

para a convergncia lenta deste algoritmo a falta de memria deste algoritmo, isto ,
o algoritmo pode testar pontos (no espao de parmetros) que j haviam sido
previamente descartados. Portanto, no algoritmo de Monte-Carlo a busca pela
estimativa dos parmetros completamente aleatria, por esta razo classificado
como mtodo de busca aleatria (random search method). Entretanto, este carter
aleatrio da busca do mtodo de Monte-Carlo apresenta a vantagem de promover uma
busca global, ou seja, pode em princpio ser aplicado para obteno de mnimos
globais.
O mtodo de Price tenta atingir o compromisso entre a convergncia rpida e a
busca extensiva, sendo portanto um algoritmo para a otimizao global.
Vejamos agora em detalhes as etapas de uma iterao do algoritmo de Price:

ALGORITMO DO PRICE:

ETAPA 1: Inicializar o valor de L que ser o nmero de pontos em uma busca. O valor
desta varivel deve ser L 2(M+1) em que M o nmero de parmetros a serem
estimados.

ETAPA

2:

Escolher

p o , p 1, ..., p L

fi

pontos

no

espao

de

parmetros

consistentes com os vnculos e calcular a funo em cada ponto

= f ( p i ),

i = 0,1,2,..., L

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

218

ALGORITMOS DE OPTIMIZAO

17

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

pH

ETAPA 3: Determinar

valor da funo

f(p
ETAPA

4:

f (p H )

o ponto (dentre os L pontos) correspondente ao maior

. Neste caso temos que:

< f ( p

Escolher

ao

R 1, R 2 , ..., R M +1 .
(

R 1, R 2 , ..., R M
pc

),

acaso

Calcular

i = 0 ,1, 2 ,..., L

i H

M+1
o

pontos

centride

dentre

pc

os

pontos:

dos

pontos

).

1
M

Determinar o ponto teste

i =1

pT

pT = 2pc R M +1
ETAPA 5: Avaliao do ponto teste

pT

Caso 5.1 Se a posio do ponto teste

pT

NO for consistente com os vnculos,

ento retorne ETAPA 4.

Caso 5.2 Se a posio do ponto teste

pT

for consistente com os vnculos,

ento prossiga para a ETAPA 6

ETAPA 6: Calcule

ETAPA 7:

f (pT )

f ( pT ) > f ( p

. Neste caso o ponto-teste

p T produz um

valor da funo maior que o at agora obtido em todos os pontos. A soluo


abandonar este ponto teste e retornar para a ETAPA 4

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

219

18

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
ETAPA 8:

f ( pT ) < f ( p

).

Neste caso o ponto teste

incorporado (como novo ponto) substituindo


se p

pT

H
o vrtice p , ou seja faz-

= pT ,

ETAPA 9: Testa-se a convergncia:


Caso 9.1 Convergncia NO satisfeita, ento retornar-se a ETAPA 3.
Caso 9.2 Convergncia satisfeita, ento prossiga para a ETAPA 10
ETAPA 10: FIM.
Considere o exemplo abaixo com M=2 e L= 6 [ 2 (M+1) ]
Os 6 pontos de busca esto assinalados por crculos negros. As cruzes
representam potenciais pontos testes. Note como os potenciais pontos-testes
definem uma regio que guarda a caracterstica da regio menor definidas pelos
pontos de busca: alongamento ao longo de uma direo preferencial. Esta a
memria que permite ao algoritmo de Price aumentar sua eficincia em relao ao
mtodo de Monte-Carlo puro. Ao mesmo tempo em que o algoritmo concentra a
busca dos pontos-testes ao longo da regio definida pelos pontos de busca, permite
excurses de pontos relativamente afastados desta regio menor (veja os pontos C
e D na Figura acima).
Observe a diferena em relao ao algoritmo de Nelder-Mead: a reflexo em
relao ao centride no do ponto que produz o maior valor da funo objeto, mas
de um ponto escolhido ao acaso. A escolha do ponto que produz o maior valor da
funo f ( p ) aceleraria a convergncia para um mnimo local, mas perderia a
chance de efetuar uma busca mais exaustiva com a finalidade de encontrar o
mnimo global.
Uma outra diferena importante em relao ao algoritmo de nelder-Mead que
os L pontos de busca formam um simplex que no necessariamente se move como
um nico conjunto no espao de parmetros, ou seja, pode haver quebra do simplex

original em N simplex menores com L1, L2, LN pontos cada um L i = L , de

i =1

modo que alm de mapear o mnimo global, este algoritmo tem a capacidade de
mapear os mnimos locais.
O nmero de pontos-testes potenciais calculado
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 33: Algoritmo de Nelder-Mead (Simplex): Mtodo de busca

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

220

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Inverso No Linear
Mtodos de resoluo de problemas no lineares:
Mtodo do Gradiente Aceitvel:
Conceito Genrico: O mtodo do Gradiente Aceitvel consiste dos passos
apresentados no algoritmo abaixo.

Algoritmo do Mtodo do Gradiente Aceitvel

i =1

Primeira iterao:

Estabelecer uma aproximao inicial

Determinar uma direo aceitvel

tal que a funo

objeto diminua nesta direo no entorno de p i

Obter uma aproximao da prxima iterao


p

i +1=

p i + i ai

em que i um escalar cuja finalidade impedir que o passo

p i = p

i +1

cruze o mnimo da funo-objeto ao longo da direo

Testa-se a convergncia

ai

SIM
END

NO

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 35: Mtodo do Gradiente Aceitvel : Teoria do mtodo da


Mxima Declividade

221

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
Condio de Aceitao: A condio de aceitao de uma direo a

funo objeto na direo a i diminua, no entorno de p

que a

, ou seja a derivada direcional

da funo-objeto Q avaliada em p i seja negativa

[ p {Q }] T

p = pi

ai < 0

Vale ressaltar que a funo-objeto

(1)

pode ser por exemplo a funo minimizada

do estimador Mnimos Quadrado sobredeterminado apresentado no Tpico 06 , i.e,


N

Q =

2
i

= y

A p

2
2

i =1

A p

A p

Podemos ter outras funes-objetos, como por exemplo a funo-objeto minimizada no


estimador Mnimos Quadrado subdeterminado apresentado no item 1 do Tpico 18, i.e.

Q = pT p + yo - A p

ou ainda funo-objeto minimizada no estimador Ridge Regression (Regularizador de


Tikhonov de ordem zero) apresentado tambm no item 2 do Tpico 18, i.e.

Q = pT p +

1
k

0
0
A
p
y

A p y

ou ainda funo-objeto minimizada no estimador Suavidade (Regularizador de Tikhonov


de ordem um) apresentado tambm como um caso particular no item 3 do Tpico 18,
i.e.

Q =

B + A p y

A p y

em que a matriz B o operador discreto de primeiras derivadas.


Ento a condio de aceitao de uma direo a

T
i

que

< 0

(2)

em que
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 35: Mtodo do Gradiente Aceitvel : Teoria do mtodo da


Mxima Declividade

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

222

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

J i = p {Q }

p = pi

(3)

Uma interpretao geomtrica desta condio mostrada na Figura 1 para M=2,


i.e., dois parmetros. Dado o gradiente da funo objeto J
vetores a e b , ortogonais a J

direes compreendidas entre

a e

em p i , obtemos os

e dirigidos em sentido oposto. Veja que todas as


b

no sentido anti-horrio so direes

aceitveis.

Mtodo do gradiente Aceitvel

i+1=

i+

iai

Interpretao geomtrica desta CONDIO DE


ai
ACEITAO DA DIREO

T
i

< 0

p2

Q
Ji

a
b

p1

TEOREMA: A condio necessria e suficiente para que uma direo

direo aceitvel que exista uma matriz R positivo-definida tal que

a i seja um

ai = R i J i ,

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 35: Mtodo do Gradiente Aceitvel : Teoria do mtodo da


Mxima Declividade

223

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
sendo J

o gradiente da funo-objeto

Q a ser minimizada pelo problema inverso

em relao aos parmetros no ponto p i .


Por definio uma matriz positivo-definida se somente se

R x > 0

J vimos que a condio de aceitao de uma direo a


J

<

T
i

a i = R i J i temos que

<

como a matriz R i positivo-definida, i.e.

que a direo

que

substituindo na equao acima

T
i

>

ento mostramos

a i = R i J i como R i positivo-definida, uma direo aceitvel.

Assim no mtodo do gradiente aceitvel a aproximao da iterao i+1 obtida


pela expresso

i + 1

sendo

(4)

a i = R i J i logo,
i + 1

= p

(5)

com a matriz R i positivo-definida.


A equao (5) a equao que define o mtodo do gradiente aceitvel. Os
diversos sub-mtodos da metodologia do gradiente aceitvel so portanto definidos
pelas variveis

e R i da equao (5).

Vamos agora definir os sub-mtodos da metodologia do gradiente aceitvel.


Estes sub-mtodos so
(1) Steepest Descent (mxima declividade)
(2) Newton
(3) Gauss-Newton
(4) Marquardt
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 35: Mtodo do Gradiente Aceitvel : Teoria do mtodo da


Mxima Declividade

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

224

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

(1) MTODO STEEPEST DESCENT (MXIMA DECLIVIDADE)


Steepest Descent um sub-mtodo da metodologia do gradiente aceitvel que
tambm conhecido como mxima declividade. Neste caso,, R i = I e a varivel

no definida. Ento em todas as iteraes a direo a

diminua no entorno de p

seja,

tal que a funo-objeto

igual ao prprio vetor gradiente com sinal negativo, ou

a i = i J i , uma vez que J i = p { Q }

p = pi

J vimos pelo mtodo do gradiente aceitvel que

i+1

= p

Ento considerando o caso particular do mtodo Steepest Descent temos que

i+1

= p

Como o passo

(1.1)

no definido, normalmente procede-se uma busca de linha (line

search) em que a funo-objeto

Q calculada, ao longo da direo a i

, em pontos,

separados por um espaamento, p , pequeno at a funo-objeto avaliada seja


maior que aquela avaliada no ponto anterior. Quando a funo-objeto maior (como o
caso do ponto p

na Figura 1.1) ento passamos do ponto onde

Q mnimo (i.e.,

Q ( p 5 ) > Q ( p 4 ) ). Ento pegamos os 3 ltimos pontos (no exemplo mostrado na


Figura 1.1 estes pontos so p

,p

e p

) e faz-se uma interpolao quadrtica

(ajusta-se uma parbola aos 1.2 ltimos pontos) e obtm-se p

i +1

como o minimante

da parbola ajustada. A Figura 1.2 mostra a parbola ajustada aos 3 ltimos pontos e o
ponto de mnimo p

i +1

O mtodo Steepest Descent converge rapidamente se o gradiente da funoobjeto

Q for

constante ou aproximadamente constante como por exemplo, nas

encostas do vale. No entanto, nas regies onde o gradiente muito varivel, a


convergncia pode ser extremamente lenta, como por exemplo nas funes-objetos
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 35: Mtodo do Gradiente Aceitvel : Teoria do mtodo da


Mxima Declividade

225

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Mtodo do gradiente Aceitvel


Sub-Mtodo: Mxima declividade
p

i+1=

I J

indefinido

Faz-se um LINE SEARCH com

p2
p5

Q
Q(p5 ) > Q(p4 )

p4

p3
p2
p1

Ji

pi

p1

Figura 1.1

p i+1

p2

p5

Figura 1.2

com aspecto de vales alongados. Veja na Figura 1.3 que entre os pontos

i +1

(encosta do vale da funo-objeto

) onde o gradiente praticamente

constante a convergncia rpida para o mnimo. No entanto, ao atingir o fundo do vale


Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 35: Mtodo do Gradiente Aceitvel : Teoria do mtodo da


Mxima Declividade

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

226

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

camos numa regio em que o gradiente muito varivel em direo, o que torna a
convergncia muito lenta como ilustrado na Figura 1.3. Veja que na regio que j
definimos anteriormente como vale de ambiguidade (i.e., regio de possveis solues
que minimizam a funo-objeto)

a convergncia agonizante e chamamos de

convergncia zig-zag ou costura.

Mtodo do gradiente Aceitvel


Sub-Mtodo: Mxima declividade

p2

Convergncia com padro zig-zag

Convergncia Zig-Zag

i +1

p1

Convergncia Agonizantemente Lenta onde o gradiente varivel


Ocorre: na regio de ambiguidade da Funo objeto, problema mal-posto
Figura 1.3
Lembre-se que se nosso problema inverso consiste na minimizao de uma
funo-objeto Q cujo o mnimo no caracterizado por um ponto e sim por uma regio
no espao dos parmetros (como mostramos na Figura 1.3) estamos diante de um
problema mal-posto.
Desta forma, o mtodo Steepest Descent apresentar uma convergncia muito
lenta se o problema for mal-posto por causa do zig-zag na regio de mnimos vale de
ambiguidade (veja a Figura 1.4 a) e apresentar uma convergncia rpida se o
problema for bem-posto (i.e., com um mnimo bem definido como mostra a Figura 1.4b).

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON

Tpico 35: Mtodo do Gradiente Aceitvel : Teoria do mtodo da


Mxima Declividade

227

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Exemplo de convergncia Lenta:


2.5

1.5

0.5

0
1.8

2.2

2.4

2.6

2.8

3.2

3.4

Figura 1.4 a

2.2

Exemplo de convergncia Rpida:

1.8

1.6

1.4

1.2

0.8

0.8

1.2

1.4

1.6

1.8

2.2

Figura 1.4 b
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 35: Mtodo do Gradiente Aceitvel : Teoria do mtodo da


Mxima Declividade

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

228

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Vantagens do mtodo Steepest Descent (mxima declividade)


(1) Convergncia garantida basta achar um passo

suficientemente pequeno

(2) No realiza manipulaes algbricas sofisticadas, como por exemplo, calculo de


Hessiano (matriz de segundas derivadas) e inverso de matrizes.
(3) Convergncia rpida nos locais onde o gradiente constante, por exemplo, na
encosta da funo objeto
(4) Convergncia rpida se o problema inverso consiste na minimizao de uma
funo-objeto Q cujo o mnimo bem definido (problema bem posto)

Desvantagens do mtodo Steepest Descent (mxima declividade)

(1) Convergncia agonizantemente lenta nos locais onde o gradiente da funoobjeto varivel, por exemplo, na regio de ambigidade. Em outras palavras,
a convergncia lenta se o problema inverso consiste na minimizao de uma
funo-objeto Q cujo o mnimo mal definido (problema mal posto)

Alguns sites sobre o MTODO STEEPEST DESCENT

1) Eric Weisstein, World of Mathematics, Wolfram Res., Inc., Champaign, IL


http://mathworld.wolfram.com/MethodofSteepestDescent.html
2) Computational Science Education Project, U.S. Dept. of Energy, Oak Ridge
National Lab, TN
http://csep1.phy.ornl.gov/mo/node17.html
3) David W. A. Bourne, College of Pharmacy, University of Oklahoma, Oklahoma
City, OK
http://www.boomer.org/c/p3/c11/c1104.html
4) Trond Hjorteland, Institute of Theoretical Astrophysics, University of Oslo,
Norway
http://trond.hjorteland.com/thesis/node26.html

5) Institute of Mechanical Engineering of Aalborg University


http://www.ime.auc.dk/people/employees/no/notes/OPT4.pdf
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON

Tpico 35: Mtodo do Gradiente Aceitvel : Teoria do mtodo da


Mxima Declividade

229

10

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Inverso No Linear
Mtodos de resoluo de problemas no lineares:
Mtodo do Gradiente Aceitvel:

(2) MTODO DE NEWTON


O mtodo de Newton tambm classificado como um sub-mtodo do gradiente
aceitvel. O problema inverso no-linear de minimizar uma funo-objeto Q pode ser
resolvido via mtodo de Newton. Este mtodo aproxima a funo-objeto Q

por uma

aproximao de segunda ordem Q ' de Q no entorno do ponto p i .


Para isto vamos expandir a funo objeto em srie de Taylor em torno da i-sima
aproximao considerando os termos at a segunda ordem.

Q ( p )

= Q ( pi ) + J Ti ( p pi ) +

1
( p p i )T i ( p p i )
2

(2.1)

em que

J i = p {Q }

p = pi

(2.2)

H i = p Tp {Q}
Ji

p = pi

(2.3)

o vetor gradiente da funo-objeto Q em relao ao vetor de parmetros ( p )

avaliado no ponto p i , logo um vetor M-dimensional. A matriz H

chamada de

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

230

ALGORITMOS DE OPTIMIZAO

11

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Hessiano da funo-objeto Q avaliado no ponto p i , i.e. uma matriz (M X M) de


derivadas segundas da funo-objeto Q em relao ao vetor de parmetros ( p ).
Veja que o j-simo elemento do vetor gradiente

J i {J i }

=
p = pi

Q
pj

{ }

p = pi

, avaliado no ponto p i

p = pi

e o ij- simo elemento da matriz Hessiana H

H i H ij

Ji

avaliado no ponto p

2 Q
=
pi p j

p = pi

A funo Q ' (equao 2.1) uma aproximao quadrtica da funo objeto

Q e esta aproximao vlida numa vizinhana do mnimo da funo objeto Q .


Vamos considerar uma funo-objeto Q mostrada na Figura 2.1 em linhas contnuas.
Considere que o mnimo desta funo Q

o ponto p * . Assim se a aproximao

situa-se na regio onde a funo-objeto Q pode ser aproximada por uma funo

quadrtica Q ' (mostrada na Figura 2.1 em linhas tracejadas), ento o mnimo de Q ' ,

i+1

, situa-se mais prximo do mnimo, p* ,

da funo-objeto Q , como est

ilustrado na Figura 2.1

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

231

12

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
Mtodo do gradiente Aceitvel
Sub-Mtodo: NEWTON

p2

Q'

i+1

p*

p1
Figura 2.1

O mnimo

da aproximao quadrtica Q ' entorno de p i obtido da

i+1

condio

p {Q ( p )} = 0

{ }

p {Q( p )} = p {Q ( pi )} + p J Ti ( p pi ) + p ( p pi )T J i +
2
como

1
p ( p pi ) T i ( p p i )
2

{ }= 0
{( p p ) }J

p {Q ( p i )} = 0 e p J Ti

p {Q ( p )} = p

temos

+ p ( p p i )T i ( p p i )

T
como p ( p p i ) = I ento

p {Q( p )} = J i + i ( p pi )
Curso de Inverso de Dados Geofsicos
Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

232

ALGORITMOS DE OPTIMIZAO

13

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
Aplicando a condio de mnimo, i.e.,

p {Q ( p )} = 0

temos

J i + i ( p pi ) = 0
i ( p pi ) = J i
( p pi ) = i 1 J i
p = p i
Veja que

o mnimo da aproximao quadrtica

Este mnimo chamamos de p

p i+1 = p i

i+1

, i.e., p

i+1

Q ( p )

entorno do ponto p i .

= p , logo temos que


(2.4)

A equao 2.4 define o mtodo de Newton (tambm chamado de NewtonRaphson), desde que a matriz hessiana i seja uma matriz no-singular (invertvel).
Veja, a equao 2.4 mostra que

o mtodo de Newton um mtodo do gradiente

aceitvel. Lembrando o mtodo do gradiente aceitvel definido pela equao (5), i.e.:

i+1

= p

Comparando a equao acima com a equao 2.4 temos que para o


mtodo de Newton

i = 1

e R =

1
i

Eficincia do Mtodo de Newton X Steepest Descent

Eficncia uma medida relativa de quanto que o mtodo usado consegue


reduzir em uma iterao a funo-objeto. Para termos uma idia da eficincia do

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

233

14

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
mtodo de Newton, tomaremos os limites da medida de eficincia
gradiente aceitvel que usa a direo

do mtodo do

-R J .

4c
e(R ) 1
(1 + c ) 2
sendo

e ( R ) a eficincia do mtodo do gradiente aceitvel que definido como o

decrscimo no valor da funo-objeto.obtido em uma nica iterao.


A constante c o nmero de condio da matriz

que considerando o mtodo de Newton em que R =

R 1 / 2 H R 1 / 2 . Veja
temos que

c = cond R 1 / 2 H R 1/ 2 = cond H 1/ 2 H H 1/ 2 = cond ( I ) = 1

Portanto, como c = 1 no mtodo de Newton temos que a eficincia deste


mtodo mxima isto porque:

e(

) =

4c
4
=
=1
2
(1 + c )
(2)2

J no caso do mtodo Steepest Descent em que R = I neste caso temos que

c = cond R 1 / 2 H R 1/ 2 = cond I 1 / 2 H I 1/ 2 = cond ( H ) ,

ou seja, no mtodo Steepest Descente c o nmero de condio do Hessiano,

c = cond (H ) ,

e(I ) =

logo

eficincia

deste

mtodo

4c
4 cond ( H )
=
2
2
(1 + c )
1 + cond ( H )

Sabemos que um problema inverso usando apenas os dados geofsicos


tipicamente um problema mal-posto, sendo comum encontrarmos sistemas para os
quais o nmero de condio da ordem de 105. Nestes casos, a eficincia do mtodo

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

234

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
Steepest Descente considerando que

c um valor muito grande, i.e, c = 105

15

logo

temos que a eficincia do mtodo Steepest Descente :

e(I ) =

4c
4c
4
=
=
= 4 . 10
2
2
c
(1 + c )
[c ]

Definindo a eficincia entre o mtodo de Newton e o mtodo Steepest Descente


como a razo entre a eficincia entre estes dois mtodos temos que

e(

e(I )

1
4 . 10

= 0 . 25 10

= 25000

Portanto, o mtodo de Newton 25000 vezes mais eficiente que o mtodo


Steepest Descente.

Por que o Mtodo de Newton mais eficiente que o mtodo de Steepest Descent?

Vejamos agora uma explicao para a maior eficincia do mtodo de Newton


quando comparado ao mtodo Steepest Descente. Sabemos que o nmero de condio
de uma matriz definido como a razo entre o maior e o menor autovalor

s max
s min

Ento valores altos para o nmero de condio indica que o menor autovalor
relativamente pequeno. Neste caso a hiper-superfcie Q ( p ) no espao de parmetros
exibir um vale alongado na direo do autovetor associado ao menor autovalor. A
Figura 2.2 ilustra este caso em que temos um autovalor grande associado ao autovetor

v1 (note que este vetor tem direo ortogonal ao vale de ambigidade). Por outro lado,
temos um autovalor pequeno associado ao autovetor

v 2 (note

que este vetor tem

direo aproximadamente paralela ao vale de ambigidade).

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

235

16

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

p2

autovalor pequeno significa vales


2

1.5

v2

v2

0.5

v1
v1

0
0.5

1.5

2.5

3.5

p1

Figura 2.2

Veremos agora o comportamento do passo de Newton, neste caso, em que h


autovalores muito pequenos.
Lembramos que no mtodo de Newton R =

. Agora vamos analisar

matematicamente a matriz Hessiana . Veja uma matriz simtrica, isto porque e


o ij- simo elemento da matriz Hessiana H

igual ao ji-simo elemento desta matriz,

ou seja

{ } { }

H H ij H

ji

2 Q
pi p j

Por definio uma matriz simtrica pode ser decomposta em autovalores da seguinte
forma

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

236

ALGORITMOS DE OPTIMIZAO

17

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

( M

V S V

Vamos agora analisar quem a direo do gradiente aceitvel no mtodo de Newton,


ou seja, vamos analisar quem o vetor

a = R J
como R =

ento vamos analisar quem o vetor

a = 1 J
J

Lembramos que o vetor


Portanto,

o vetor gradiente da funo-objeto a ser minimizada.

um vetor M-dimensional no espao dos parmetros. Sendo um vetor no

espao dos parmetros podemos expandir

em termos dos autovetores

v j (vetores

base que geram o espao dos parmetros).


M

j = 1

Assim a direo do passo no mtodo de Newton dada por

a = 1 J
a = V S V

a = V
Como

VT V = I

a = V

temos que

ou seja, o passo do mtodo de Newton segue a direo dada pelo vetor


M

a =

j =1

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

237

18

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
em que

sj

autovetores

vj

o j-simo autovalor da matriz ,

, portanto

vj

a j-sima coluna da matriz de

o autovetor associado ao j-simo autovalor de .

A equao acima mostra que no mtodo de Newton a direo

a do gradiente

aceitvel (direo em que a funo-objeto a ser minimizada diminui) uma combinao


linear dos autovetores

v1 , v 2 ,..., v M

dimensional dos parmetros) tendo

(vetores base que geram o espao M-

1
s1

s2

,...,

sM

como coeficientes desta

combinao linear.
Observe que se
Newton na direo v
fortuitamente,

for um valor pequeno, ento o

(autovetor associado a

sj

passo do mtodo de

) ser muito grande, a menos que

j tambm seja um valor pequeno.

Notamos que o mtodo de Newton tenta atingir o mnimo da funo-objeto


dando passos largos ao longo dos vales alongados (direo do autovetor associado ao
menor autovalor) e passos pequenos na direo ortogonal a este vale alongado. Isto
explica a eficincia do mtodo de Newton quando comparado ao mtodo Steepest
Descente (ou qualquer outro mtodo do gradiente aceitvel em que R

).

Nestes mtodos, a direo do passo ser oblqua em relao ao vale fazendo com que
a convergncia seja lenta em direo ao mnimo. Lembre-se que no fundo do vale
(regio de ambiguidade) a direo do vetor gradiente muito varivel.
A Figura 2.3 mostra um caso bi-dimensional em que a superfcie Q ( p ) est
representada no espao de parmetros p1 p2 pelas curvas contnuas em preto. Veja
que h um vale alongado na direo do autovetor v

associado a um autovalor,

s2

muito pequeno (note que este vetor tem direo aproximadamente paralela ao vale de
ambigidade). Neste caso bi-dimensional o passo do mtodo de Newton (vetor a )
dado pela soma de duas componentes

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

238

ALGORITMOS DE OPTIMIZAO

19

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

1
a =
s1

2
v1 +

s2

Sub-Mtodo: NEWTON

Passo grande ao longo dos vales alongados


(direo do autovetor associado ao menor autovalor)
p2
a

Q ( p )

v1

v2


a = 1 v 1 + 2 v 2
s1
s2

p1

Figura 2.3
Como neste exemplo da Figura 2.3 os autovalores s 1
pequeno, ento o

grande e

s2

muito

passo do mtodo de Newton (vetor azul) tem uma contribuio

pequena da primeira componente

v 1 (vetor vermelho) e uma grande

s 1

2
contribuio da segunda componente s v 2 (vetor cinza). Portanto no mtodo de
2

Newton os passos so grandes ao longo dos vales alongados (direo do autovetor v 2


associado ao menor autovalor

s2

).

Ao contrrio do mtodo de Newton, o mtodo Steepest Descent no capaz de


perceber uma direo que no seja a direo do menos gradiente. Desta forma nos
locais crticos tais como regies prximas ao mnimo em problemas mal-postos que se
caracterizam por vales alongados (regies de ambiguidade), este mtodo ter

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

239

20

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

convergncia lenta, caracterizando-se por um padro zig-zag de busca, como mostra a


Figura 2.4 (as sucessivas iteraes do mtodo Steepest Descent esto desenhando um
caminho de busca do mnimo da funo objeto mostrado em linha continua preta).

Passos (iteraes) do Mtodo de Newton (caminho cinza)


Passos (iteraes) do Mtodo Steepest Descent (caminho preto)
mostrando a convergencia lenta padro zig-zag

p2

2.5

Mtodo de Newton

Mtodo Steepest Descent

1.5

0.5

padro zig-zag na regio de ambiguidade


1.8

2.2

2.4

2.6

2.8

3.2

3.4

p1

Figura 2.4
Ao contrrio, o mtodo de Newton por incorporar informaes a respeito da curvatura
da funo objeto a ser minimizada (informao dada pela matriz hessiana )
eficiente nas regies de ambigidade e converge rapidamente para um mnimo. A
Figura 2.4 mostra, em linha contnua cinza, que o mtodo de Newton precisou apenas
de duas iteraes para atingir um mnimo da funo-objeto.

Convergncia do Mtodo de Newton nem sempre garantida

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

240

ALGORITMOS DE OPTIMIZAO

21

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Vimos que o mtodo de Newton aproxima a funo-objeto Q (p ) por uma


funo de segunda ordem Q ' ( p ) no entorno de uma aproximao para os parmetros
( ponto p i ). Ento vimos que o mtodo de Newton consiste em achar o mnimo da
aproximao quadrtica Q ' ( p ) em p

p i+1 = p i
em que

Ji

1
i

Este mnimo (equao 2.4) chamamos de

o vetor gradiente da funo-objeto Q (p ) em relao ao vetor de

parmetros ( p ) avaliado no ponto p i ,

J i = p {Q ( p )}

Hessiano da funo-objeto Q (p ) avaliado no ponto p i ,

p = pi

e a matriz H

Hi = p Tp {Q(p )}

p =pi

Vale ressaltar ento que a equao que define o mtodo de Newton requer que a matriz

Hi seja no-singular (invertvel).


Vimos que no mtodo do Steepest Descent h sempre garantia de
convergncia, para isto basta fazer com que o passo,

i ,

seja muito pequeno

(equao 1.1). Ao contrrio, do mtodo do Steepest Descent, no mtodo de Newton a


convergncia do algoritmo para um mnimo nem sempre est garantida e depender da
posio do ponto p

(vetor de parmetros na i-sima iterao).

Ento no mtodo de Newton dependendo da posio do ponto p

haver 3

possibilidades:
(1) Convergncia do Mtodo de Newton Garantida em uma nica iterao: Se p

est

na regio onde a aproximao quadrtica, Q ' ( p ) , virtualmente exata, ou seja,

Q ( p ) Q ' ( p ) . Neste caso, o mnimo

i+1

da aproximao quadrtica

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

241

22

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Q ' ( p ) coincide virtualmente com o mnimo p * da funo-objeto Q (p ) a ser


minimizada. Neste caso, a soluo estimada via mtodo de Newton obtida em uma
nica iterao. A Figura 2.5 mostra, em linha contnua preta, que o mtodo de Newton
precisou apenas de uma nica iterao para atingir um mnimo da funo-objeto
(partindo de p

o mnimo de Q (p ) j p

i+1

Convergncia do Mtodo de Newton Garantida


em uma nica iterao quando
Q ( p ) =

Q( pi )

20

p2

pi

15

10

50

i +1

-50
-

-150

-100

p1

Figura 2.5
(2) Convergncia do Mtodo de Newton Garantida em algumas iteraes: Se p

est

na regio onde a aproximao quadrtica, Q ' ( p ) , uma aproximao razovel da


funo-objeto Q (p ) a ser minimizada, i.e.,

Q( p ) Q( pi ) . Ento neste caso o

mnimo p * da funo-objeto Q (p ) no coincide o mnimo p

i+1

da aproximao

quadrtica Q ' ( p ) . No entanto, como o hessiano Hi (ou seja, avaliado em p i ), pode


ser positivo definido, a aproximao p

i +1

[ obtida como o mnimo de Q ' ( p ) ] a

melhor que a aproximao p i , no sentido da funo-objeto Q ( p i +1 ) [i.e., avaliada no

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

242

ALGORITMOS DE OPTIMIZAO

23

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
ponto p

i +1

] ser menor que a funo-objeto Q ( p i ) [i.e., avaliada no ponto p

]. Isto

ocorre porque o hessiano Hi uma matriz positivo-definida e o mtodo de Newton,


neste caso, se comporta como um mtodo do gradiente aceitvel (i.e., dando passos na
direo menos gradiente).

Convergncia do Mtodo de Newton Garantida


em algumas sucessivas iteraes quando
Q ( p )

Q ( pi )

40

p1

p2 30
20
10
0

p2

p p4

p5

-10
-20
-10

-8

-6

-4

-2

p1

10

Figura 2.6
(3) Convergncia do Mtodo de Newton NO Garantida: Se p

no est na regio em

que a aproximao quadrtica, Q ' ( p ) , no uma aproximao razovel da funoobjeto Q (p ) a ser minimizada. Neste caso a aproximao p

est fora da regio em

que Q (p ) tem um comportamento quadrtico, no havendo garantia que a matriz


hessiana Hi (ou seja, avaliado em p i ) seja positivo-definida. Se o hessiano Hi no
uma matriz positivo-definida (i.e., se Hi for negativa definida teremos autovalores de

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

243

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Hi negativos e se Hi for indefinida a teremos

24

autovalores de Hi positivos e

negativos) o mtodo de Newton, neste caso, no se comporta como um mtodo do


gradiente aceitvel e no apresenta garantia de convergncia para um mnimo.
Neste caso em que a aproximao p

est fora da regio em que Q (p ) tem

um comportamento quadrtico, a existncia de valores singulares pequenos resulta


numa grande instabilidade no calculo das perturbaes

pi

. Veja que a equao

2.4 do mtodo de Newton,

p i+1 = p i

pode ser escrita como


1

p i+1 p i =

o calculo da i-sima perturbao

pi =

pi = pi +1 pi

do mtodo de Newton

Usando a decomposio em valores singulares de uma matriz simtrica temos que

p i = V i S i V i T

Considerando

J = V

p i = Vi S i ViT
i

= ViS

1
i

Ji

temos que

p i = V i S i V i T

Vi

Vi

Ento na i-sima iterao o vetor perturbao

pi

do mtodo de Newton

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

244

ALGORITMOS DE OPTIMIZAO

25

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

j=1

1
=
s1

Se temos autovalores negativos a perturbao

+ ... +
s

pi

M
M

do mtodo de Newton ter

direo contrria ao mnimo da funo e neste caso a funo-objeto Q ( p i +1 ) [i.e.,

avaliada no ponto p

ponto p

i +1

] ser maior que a funo-objeto Q ( p i ) [i.e., avaliada no

].

Se temos autovalores positivos mas pequenos, o mtodo de Newton pode no


convergir isto porque, como a aproximao p

um comportamento quadrtico, a perturbao

est fora da regio em que Q (p ) tem

pi

, i.e. os passos do mtodo de

Newton, sero instveis tanto em mdulo como em direo (Figura 2.7)

Convergncia do Mtodo de Newton No Garantida quando


Q ( p ) Q ( p i )
p2 13

12
11
10
9
8
7
6
5
4
3
-100 -80

-60

-40

-20

20

40

60

80

100

p1
Hessiano pode ser quase-singular resultando na instabilidade no calculo dos passos

Figura 2.7

Vantagem do Mtodo de Newton


A principal vantagem do mtodo de Newton sua alta eficincia, principalmente
quando a funo-objeto a ser minimizada apresenta regies de ambigidade (vale
alongado), o que caracteriza um problema mal-posto. Isto porque o mtodo de Newton

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

245

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

26

a direo de busca do mnimo da funo-objeto carrega informao a respeito da


curvatura desta funo ( H a matriz Hessiana, i.e., matriz de segundas derivadas).

Desvantagem do Mtodo de Newton


(1) dispendioso computacionalmente porque requer avaliao de derivadas
segundas da funo-objeto Q (p ) a ser minimizada
(2) No apresenta garantia de convergncia porque fora da regio de validade da
aproximao quadrtica de Q (p ) por Q ' ( p ) , a matriz Hessiana Hi avaliado
em p i pode no ser positivo-definida.

Como contornar as dificuldade do Mtodo de Newton ?

Para contornar as duas desvantagens apresentadas acima sobre o mtodo de


Newton, diversos mtodos foram propostos como modificaes do mtodo de Newton.
Aqui estudaremos apenas dois destes mtodos:
(1) O mtodo de Gauss-Newton que atenua a primeira vantagem do mtodo de
Newton; e
(2) O mtodo de Marquardt que elimina a segunda desvantagem do mtodo de
Newton,

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

246

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

27

(3) MTODO DE GAUSS-NEWTON

Seja

f ( x , p ) o funcional geofsico ajustante (funo do problema direto) e

Q (p ) a funo-objeto definida na i-sima iterao por


N

Q (p i ) =

[ y lo f l ( p i )] 2

l =1

em que

fl ( p i ) = f ( xl , p )

p = p i , isto a funo ajustante no l-simo ponto

de observao que definido pela coordenada xl , avaliada em p

A derivada da funo-objeto Q (p ) em relao ao j-simo elemento do vetor de


parmetros avaliada em p = p i

Q
p j
Q
p j
como

Q
p j

= 2

[ ylo

l =1

p = pi

= 2

l =1

p = pi

[ ylo f l ( pi )]
f l ( pi )]
p j

y o f ( p )
[ ylo f l ( pi )] l l i
p j
p j

y lo
= 0 temos
p j
N

[ y

= 2
p = pi

o
l

fl ( pi )]

l =1

fl ( pi )
p j

Vamos obter a segunda derivada da funo-objeto Q (p ) e avaliarmos em

p = p i . Para tanto basta derivar a equao acima em relao ao k-simo elemento do


vetor de parmetros, ou seja

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

247

28

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

como

N
ylo f l (pi )
2 f l (pi )
f l (pi )]
2

p j pk

pk
p
k
l =1

2Q
p j pk

= 2

[ ylo

l =1

p =pi

f l (pi )

p
j

y lo
= 0 temos
pk
N

2Q
p j pk

= 2

[ ylo

l =1

p =pi

2 fl (pi )
fl (pi )]
+2
p j pk
l =1

fl (pi ) f l (pi )

pk p j

Lembramos que a derivada segunda da funo-objeto Q (p ) a matriz Hessiana H


(M x M) cujo jk-simo elemento (avaliado na i-sima iterao, i.e., p i ) dado pela
equao acima, i.e.,

hijk

2Q
=
p j pk

= 2

[ ylo

l =1

p =pi

2 fl (pi )
f l (pi )]
+2
p j pk
l =1

No mtodo de Gauss-Newton,

fl (pi )

p
k

fl (pi )

p
j

f ( x , p ) , o funcional geofsico ajustante

(funo do problema direto) aproximado por uma funo linear em p , de modo que
suas derivadas de ordem 2 e superiores so nulas. Em outras palavras, o funcional
geofsico ajustante
ponto p

f ( x , p ) que originalmente era no-linear foi aproximado no

por uma funo linear.

Matematicamente, isto implica que as derivadas da funo

f ( x , p ) de

segunda ordem e ordens superiores so nulas. Como

h ijk

2Q
=
p j p k

= 2
p = pi

l =1

[ y lo

2 f l ( pi )
f l ( p i )]
+2
p j p k

f l ( p i ) f l ( p i )

p k p j


l =1

e o mtodo de Gauss-Newton considera que

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

248

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

29

2 fl (pi )
=0
p j p k
temos ento que no mtodo de Gauss-Newton o jk-simo elemento da matriz Hessiana
definido (avaliado) na i-sima iterao definido

h ijk

2Q
=
p j p k

=2

l =1

p = pi

f l ( p i ) f l ( p i )

p k p j

Vimos anteriormente que no problema linear, por definio a matriz de sensibilidade

(N x M) uma matriz cujo o ij-simo elemento definido por

{ }

A aij =

f i (p )
p j

Ento o jk-simo elemento da matriz Hessiana definido na i-sima iterao no mtodo


de Gauss-Newton que definido

h ijk

2Q
=
p j p k

=2

l =1

p = pi

f l ( p i ) f l ( p i )

p k p j

pode ser escrito como

i
jk

2Q
=
p jpk

= 2

a lk i a lj i

l =1

p = pi

isto porque

f l (pi )
= alk i
e
pk
f l (pi )
= alj i
p j
i

Em outras palavras, alk e


da matriz de sensibilidade

alj i so, respectivamente, os lk-simo e lj-simo elementos

avaliado na i-sima iterao.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

249

30

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
Em notao matricial a equao

h ijk =

2Q
p jpk

= 2

a lk i a lj i

l =1

p = pi

torna-se

H i = 2A iT A i

(3.1)

a matriz de sensibilidade avaliada na i-sima iterao (em p = p i ),

em que A i

akj , definido como

cujo kj-simo elemento,

{ }

Ai akji =

fk (pi )
p j

Vamos agora analisar a derivada primeira da funo-objeto Q (p ) em relao


ao j-simo elemento do vetor de parmetros avaliada em p = p i

Q
p j

[ y

= 2

o
l

f l ( pi )]

l =1

p = pi

f l ( pi )
p j

Lembramos que a primeira derivada da funo-objeto Q (p ) o vetor gradiente J


(M x 1) cujo j-simo elemento (avaliado na i-sima iterao, i.e., p i ) dado pela
equao acima, i.e.,

J ij

Q
=
p j

Como

[ y

= 2
p = pi

o
l

l =1

f l (pi )
= alj i
,
p j

fl ( pi )]

fl ( pi )
p j

i.e., o lj-simo elemento da matriz de sensibilidade

avaliado na i-sima iterao. Ento a equao acima pode ser escrita com

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

250

ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

J ij

Q
=
p j

31

[ y

= 2

fl ( pi )] alj

o
l

l =1

p = pi

Chamando ylo f l (pi ) = yli , ento a equao acima pode ser escrita como

Q
p j

= 2
p =pi

lj

yli

l =1

Em notao matricial a equao a equao acima dada por

J i = 2 A Ti y i

(3.2)

Vamos agora substituir as equaes (3.1) e (3.2) na formulao do mtodo de


Newton [equao (2.4)], ou seja,

p i+1 = p i

1
i

Fazendo a substituio temos

(
A ) (2 A

i +1 =

p i ( 2 A iT A i ) 1 2 A i y i

i +1 =

p i+

1
( A iT
2

yi

p i+1= p i + ( AiT Ai )1 Ai y i

(3.3)

A equao (2.3) a equao do mtodo de Gauss-Newton. Considerando o


calculo da i-sima perturbao

pi = pi +1 pi temos que o mtodo de Gauss-

Newton

pi = ( AiT Ai )1 Ai y i

(3.4)

Note a semelhana em forma da expresso acima com o estimador MQ


sobredeterminado que dado pela equao

p = A T A

-1

A Tyo

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

251

32

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Esta coincidncia de forma tem causado muita confuso indevida na literatura geofsica.
Voltaremos a abordar este ponto aps estudarmos o mtodo de Marquardt.
Em resumo, dado uma funo geofsica no linear o mtodo de Gauss-Newton
substitui esta funo geofsica na i-sima iterao

f ( p i ) por sua expanso em

primeira-ordem entorno de p i , ou seja,

f l (p ) = fl (p i) +

fl
veja que p
1

fl
p1

( p 1 p 1i ) + ... +
p = pi

= a li1
p = pi
i

Em outras palavras, al1 e

fl
e p
M

fl
p M

( p M p iM )
p -pi

i
= a lM
p = pi

alM i so, respectivamente, os l1 -simo e lM -simo

elementos da matriz de sensibilidade

avaliado na i-sima iterao. Logo a equao

acima pode ser escrita como

i
f l ( p ) = f l ( p i ) + ali1 ( p1 p1i ) + ... + alM
( pM p iM )
Veja que a fl ( p ) representa uma aproximao da funo geofsica avaliada

na coordenada de observao x = xl , portanto fl ( p ) = f ( xl , p ) .

Logo a

equao acima uma aproximao de primeira ordem do l -simo elemento da


funo geofsica que define o modelo direto que estabelecemos ser no linear.
Como temos N observaes geofsicas, ento teremos N funes f ( p ) , i.e.,
i
f 1 ( p ) = f 1 ( p i ) + a 11
( p 1 p 1i ) + ... + a 1i M ( p M p iM )

f l (p ) = f l (p i ) +
f

a li1 (

i
p 1 p 1i ) + ... + a lM
( p M p iM )
M

i
( p ) = f N ( p i ) + a Ni 1 ( p 1 p 1i ) + ... + a NM
( p M p iM )

O sistema acima em notao matricial pode ser escrito como

f ( p ) = f ( p i ) + A i (p p i )

(3.5)

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

252

ALGORITMOS DE OPTIMIZAO

33

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
em que

A
( M

T
i
N

=
)

( M

{
p
1 )

( p

(1 N

)}
)

= p i

(3.6)

produzindo desta forma uma aproximao da matriz Hessiano que j deduzimos


como

H i 2A iT A i
Com isto o mtodo de Gauss-Newton atenua a primeira desvantagem do
mtodo de Newton que o gasto computacional para a avaliao da matriz de
segundas derivadas da funo objeto Q ( p ) . Veja que no mtodo de GaussNewton o Hessiano aproximado pela multiplicao de dois Jacobianos ( A
matriz de primeira derivadas )

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 37: Mtodo do Gradiente Aceitvel: Teoria dos mtodos de
Newton e Gauss-Newton:

253

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

34

Inverso No Linear
Mtodos de resoluo de problemas no lineares:
Mtodo do Gradiente Aceitvel:

(4) Teoria do mtodo de Marquardt


O mtodo de Marquardt incorpora a vantagem do mtodo de Gauss-Newton de
no calcular a matriz de derivadas segunda (matriz Hessiana) e sim aproxim-la por

H i 2A iT A i

(4.1)

Ento tal como no mtodo de Gauss-Newton o Hessiano aproximado pela


multiplicao de dois Jacobianos ( A

matriz de primeira derivadas avaliada no ponto

p i ), i.e.,
T
i
(M N )

p {
( M 1 )

( p )}

(1 N )

p = pi

Portanto, tal como no mtodo de Newton, o mtodo de Marquardt atenua a primeira


desvantagem do mtodo de Newton que o elevado gasto computacional para a
avaliao da matriz de segundas derivadas da funo objeto Q ( p ) .

No entanto, no mtodo de Newton h uma segunda desvantagem que a no


garantia de convergncia porque fora da regio de validade da aproximao quadrtica
de Q (p ) por Q ' ( p ) , a matriz Hessiana Hi avaliado em p i pode no ser positivodefinida. Esta segunda desvantagem do mtodo de Newton no foi solucionada pelo
mtodo de Gauss-Newton, porm ser soluciona pelo mtodo de Marquardt.
Portanto, o mtodo de Marquardt soluciona a segunda desvantagem do mtodo
de Newton que a instabilidadde causada pela quase singularidade do Hessiano. Para
tanto o mtodo de Marquardt ir modificar o mtodo de Gauss-Newton garantindo que,

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

254

ALGORITMOS DE OPTIMIZAO

35

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

mesmo para aproximaes p i localizadas fora de regio de validade da convergncia


quadrtica, o inverso do Hessiano (modificado pela estratagema do mtodo de
Marquardt) seja uma matriz positiva definida, no singular e com autovalores grandes.
Desse modo, a estratgia de Marquardt, sempre garante que a direo ai = R i J i seja
uma direo aceitvel no sentido da aproximao p

i +1

(estimativa de p

obtida na

i+1-sima iterao) estar sempre mais prxima do mnimo da funo-objeto


Q( p )

quando comparada a aproximao p i (estimativa de p

obtida na i-sima

iterao).
Lembrando, um importante teorema do tpico 35, a condio necessria e
suficiente para que uma direo a

R positivo-definida tal que

seja um direo aceitvel que exista uma matriz

a i = R i J i . Portanto, a estratgia de Marquardt e

garantir que em cada iterao a matriz

R i seja positiva definida. Como o mtodo de

Marquardt, baseia-se no mtodo de Gauss-Newton que usa

R i = H i 1 2 A iT A i

(4.2)

ento, estratgia de Marquardt consiste em garantir que em todas as iteraes a matriz


simtrica H

1
i

seja uma matriz positiva definida. Para tanto, o mtodo de Marquardt

baseia-se no seguinte teorema:

Teorema: Uma matriz simtrica, fortemente diagonal-dominante e com elementos


diagonais positivos positiva definida.
Portanto a estratgia de Marquardt consiste em garantir que a matriz H

1
i

seja

uma matriz fortemente diagonal-dominante e com elementos diagonais positivos em


todas as iteraes. Mas o que uma matriz fortemente diagonal-dominante ?

Definio de matriz fortemente diagonal-dominante (FDD): Uma matriz simtrica


dita fortemente diagonal-dominante se em cada linha o valor absoluto da diagonal

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

255

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

36

maior do que a soma dos valores absolutos dos elementos no diagonais. Se dizemos
que uma matriz simtrica C (M x M) FDD isto implica que:
M

>

ii

ik

k =1
k i

Devido ao teorema apresentado acima (veja demonstrao deste teorema no


Anexo FDD), h uma importante corolrio que o mtodo de Marquardt faz uso.

Corolrio: Seja H uma matriz simtrica, seja um escalar no negativo e seja P


uma matriz simtrica, FDD e com elementos positivos na diagonal tal que
M

>

ii

ik

. A matriz simtrica C , com elementos cii > 0 definida como

k =1
k i

C = H+ P
ser FDD para valores de suficientemente grandes.

Por exemplo, sejam as matrizes simtricas


2

H = 1
2

1
3
3

2
3

3 e P = 1
1
3

1
3
1

1
3

Veja que a matriz H no FDD. Por outro lado, a note que P FDD. Considere trs

valores diferentes para .

Para

Para

= 1 temos C = H +

=2

P = 2
3

temos C = H +

Para = 3 temos C = H +

4
6

2
6
4

P = 3
4

3
9

11

P= 4
5

4
12

5
9

6
12

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

256

ALGORITMOS DE OPTIMIZAO

37

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
Veja que usando = 1 e = 2 a matriz C

simtrica, com elementos diagonais

positivos ( cii > 0), porm estes valores usados para no foram suficientes para
transformar

C numa

matriz

suficientemente grande,

FDD.

Por

outro

lado,

usando

um

valor

de

= 3 , a matriz C simtrica, com elementos diagonais

positivos ( cii > 0) e FDD.


Pelo teorema apresentado anteriormente se uma matriz simtrica, FDD
(fortemente diagonal-dominante) e com elementos diagonais positivos ento esta matriz
positiva definida. Conclumos ento que a matriz C = H + P , em que = 3

uma matriz positiva definida.

Proposta do mtodo de Marquardt

O mtodo de Marquardt far uso do corolrio acima para obter uma matriz
positiva definida. Para tanto, Marquardt sugeriu a escolha

| h11 |

| h22 |
P =

| h MM

(4.3)

ou seja P uma matriz diagonal cujos elementos diagonais coincidem com o valor
absoluto dos elementos diagonais da matriz Hessiana definida pela equao (4.1) como
sendo dada pela aproximao

H 2A T A .

Veja que no mtodo de Marquardt aplica o corolrio acima descrito. Ento o mtodo de
Marquardt no usar a matriz hessiana H porque, conforme discutimos no mtodo de

Newton, no h garantia desta matriz ser positiva definida levando a no convergncia.


Ao contrrio o mtodo de Marquardt usar a matriz

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

257

38

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

H + P =

h11 + | h11 |

h12

h1 M

h12

h 22 + | h 22 | L
M
O
h2 M

h1 M

h2 M
M

| h MM |

(4.4)

logo a matriz a matriz H + P simtrica, com elementos diagonais positivos,

FDD, dependendo da escolha do parmetro > 0 ser suficientemente grande, e sendo


conseqentemente uma matriz definida positiva.
Recordando a equao geral do gradiente aceitvel

i+1=

em que

p
i

R iJ

(4.5)

(M x 1) o vetor gradiente da funo-objeto Q (p ) ,

Ri

(M x M) uma

matriz positiva definida, ambos avaliados na i-sima iterao, i.e., em p i , e i

um

escalar positivo definido em cada iterao.


Recordando o mtodo de Gauss-Newton usa:

i = 1
e

R i = H i 1 2 A iT A i

levando a equao

p i +1= p i + ( AiT Ai ) 1 A i y i
em que A i

(4.6)

(N x M) a matriz de sensibilidade avaliada na i-sima iterao (em


i

p = p i ), cujo kj-simo elemento, akj , definido como

{ }

Ai akji =

fk (pi )
p j

e y (N x 1) o vetor de resduos na i-sima iterao sendo definido como

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

258

ALGORITMOS DE OPTIMIZAO

39

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

y i = y o y ic
o
em que y o vetor dos dados observados e

y ic o vetor de dados ajustados pelos

parmetros da i-sima iterao em ( i.e., em p = p i ).


O mtodo de Marquardt far uso da matriz positiva definida expressa pela
equao (4.4). Como o mtodo de Marquardt, baseia-se no mtodo de Gauss-Newton
que usa

R i = H i 1 2 A iT A i

ento o mtodo de Marquardt, definir Ri como o inverso do Hessiano modificado para


garantir que Ri seja positiva definida, i.e.:

R i = H i + P

Em resumo o mtodo de Marquardt, est dentro do mtodo gradiente aceitvel


considerando que o passo [modulo do vetor R i J i , equao (4.5)]

i = 1

(4.7)

sendo

R i dado pela inversa da matriz definida na equao (4.4)

R i = H i + Pi

h12
h11 + | h11 |

h12
h22 + | h22 |
=

M
M

h1M
h2 M

K
L
O

h1M
h2 M
M

L | hMM

(4.8)

Assim, substituindo as expresses (4.7) e (4.8) na equao geral do gradiente aceitvel


[equao (4.5)] obtemos a equao do mtodo de Marquardt como

i+1=

(H

Pi

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

(4.9)

259

40

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
Normalizao do mtodo de Marquardt

O mtodo de Marquardt sugeriu o uso de uma normalizao da matriz hessiana


H na equao (4.9). Assim, semelhantemente normalizao da matriz Hessiano

apresentada no mtodo Ridge Regression (Regularizador de Tikhonov de ordem zero),


tambm o mtodo de Marquardt normaliza a matriz Hessiano da seguinte forma:

H= DH D
em que D

[ ]

uma matriz (M x M) diagonal normalizante cujo j-simo elemento d

jj

dado por

[ ]=

D = d

jj

j = 1, 2 ,..., M

1/ 2

jj

Ento veja que a matriz H , da equao (4.9), normalizada

H = DHD

1
h11
1
h 22
O

1
h MM

h11 h12 L h1M

h2M
h21 h22
M
M O M

h
M1 M 2 L hMM

h11

1
h22
O

1
hMM

a matriz acima simtrica expressa como:

H =

h11

h12

h11 h11
h12

h11 h 22
h 22

h11

h 22

h 22

M
h1 M
h11

h MM

h 22

M
h2 M
h 22

h MM

L
L
O
L

h1 M
h11 h MM
h2 M
h 22

h MM

M
h MM
h MM

h MM

Veja ento que a matriz Hessiano normalizada H equivalente a substituir o ij-simo

elemento da matriz H da equao (4.9), por

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

260

ALGORITMOS DE OPTIMIZAO

41

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

h ij

h ij =

h ii

jj

sendo h ij = h ji .
Veja que a matriz Hessiano normalizada H tem todos os seus elementos da diagonal

igual a unidade

H =

h 12

h 11
h 12
h 11

h 22
1

h 22
M

h1 M
h 11

h2M

h MM

h 22

De modo que a matriz

Ri

h1 M
h 11 h MM
h2M

h MM

h 22

h MM

(4.10)

do mtodo de Marquardt dada pela equao (4.8)

que chamamos de inversa da matriz Hessiana modificada, i.e., R i = H i + Pi

normalizada como

R i = H i + I

(4.11)

O efeito da normalizao introduzido e removido da equao (4.9) levando a


expresso final, na i-sima iterao, da equao normalizada do mtodo de Marquardt:

i+1= p

i D

(D

i H

D iJ

(4.12)

J comentamos, anteriormente quanto apresentamos m mtodo de Newton, que a


avaliao da matriz Hessiano,
computacionalmente dispendiosa.

H , (matriz de derivadas de segunda ordem)

A soluo para no calcular precisamente o

Hessiano foi apresentada no mtodo de Gauss-Newton que aproxima o Hessiano pela


expresso

H i 2A iT A i

(4.13)

em que A i (N x M) a matriz de sensibilidade avaliada na i-sima iterao (ou seja

o Jacobiano). Lembrando que o vetor gradiente avaliado na i-sima iterao

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

261

42

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

= 2 A iT y

(4.14)

Substituindo as expresses (4.13) e (4.14) na da equao normalizada do mtodo de


Marquardt [equao (4.12)] obtemos a equao geral do mtodo de Marquardt:

p i + D i D i A iT A i D i + I i

i +1=

D i A iT y

(4.15)

[ ]

em que D (M x M) uma matriz diagonal normalizante cujo j-simo elemento d

jj

dado por

D = [d ] =
jj

i =1

a ij2

j = 1, 2 ,..., M

1/2

Estratgia do mtodo de Marquardt

A estratgia do mtodo de Marquardt consiste na escolha do parmetro

(chamado de parmetro de Marquardt), ao longo das sucessivas iteraes.


O mtodo de Marquardt sugeriu o seguinte procedimento para, iterativamente,
escolher o parmetro :

pi

e faa i = 0.001

(1)

Para a primeira iterao, i=1, estabelea

(2)

Estime

(3)

Se a funo objeto diminuir, ou seja Q ( p i + 1 ) < Q ( p i ) , o mtodo de

pi +1

Marquardt tentar dar passos maiores, para tanto divida i por 10, i.e.,

i+ 1 =

10

incremente a iterao, i.e. faa i = i+1 e retorne ao passo (2)


Se a

funo objeto aumentar, ou seja Q ( p i + 1 ) > Q ( p i ) , o mtodo de

Marquardt tentar dar passos menores, para tanto multiplique i por 10, i.e.,

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

262

ALGORITMOS DE OPTIMIZAO

43

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

i=

10

despreze a estimativa

pi +1 , NO incremente a iterao e retorne ao passo (2)

Interpretao do mtodo de Marquardt

O mtodo de Marquardt consiste na combinao de dois mtodos j


apresentados: (1) Steepest Descent e (2) Gauss-Newton. Para entendermos como o
mtodo de Marquardt funciona vamos interpretar a equao geral do mtodo de
Marquardt quando incrementamos continuamente de zero a infinito.
Da equao geral do mtodo de Marquardt [equao (4.15)] podemos escrever que

p i = D i D i A iT A i D i + I i
ou ainda

p i = D i D i A iT A i D i + I i
em que J

= A

T
i

D i A iT y

DiJ

(4.16)

(4.17)

, vetor gradiente a menos de uma constante (1/2).

Veja que podemos escrever a equao (4.17) como

pi = R iJ

(4.18)
1

em que R i = Di Di A i A i D i + I i Di

Agora iremos analisar a equao (4.18) para os seguinte casos:


Caso (1): Para

Neste caso o termo I i

pi =

I J

domina a matriz

Ri , de modo que

ou ainda

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

263

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

i +1 =

p i

I J

se

44

(4.19)

Assim neste caso em que o mtodo de Marquardt aproxima-se do


mtodo Steepest Descent com mdulo

i muito

escala positivo muito grande). Portanto o passo

pequeno ( i =

pi

i em que

i um

ter, virtualmente, a direo do

1
gradiente negativo com um mdulo infinitesimal e igual a .
i

Caso (2): Para 0


Neste caso o termo Ii anulado na matriz R i , de modo que esta matriz aproxima-se
de:

R i = A iT A i

desta forma

p i = A iT A i
ou ainda

T
i +1= p i A i A i

se

(4.20)

Assim neste caso em que 0 o mtodo de Marquardt aproxima-se do mtodo


Gauss-Newton.

Interpretao Geomtrica do mtodo de Marquardt

Vamos repetir a anlise anterior porm, vamos explorar o mtodo de Marquardt


quando incrementamos (parmetro de Marquartd) continuamente de zero a infinito.
Marquardt mostrou que quando cresce continuamente de zero a infinito, o
ngulo

entre

pi ( = 0) e pi ( = ) varia de

a zero.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

264

ALGORITMOS DE OPTIMIZAO

45

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

Agora vamos apresentar uma interpretao geomtrica da importncia do


parmetro, ,

de Marquartd atravs

Figura (3.1). Vamos partir do ponto

pi

(aproximao inicial). O ponto p i no est na regio de validade da aproximao


quadrtica (funo Q (p )

representada por linhas tracejadas em cinza), como

i = 0.001 (primeira iterao) muito pequeno o mtodo de Marquardt aproxima-se do


mtodo de Gauss-Newton e a direo do passo

pi est

assinalada na Figura 3.1

como um vetor vermelho, que leva a um ponto p j (ponto marrom), produzindo uma

funo objeto Q ( p j ) maior que a produzida em p i . Como Q ( p j ) > Q ( p i ) , ento

o mtodo de Marquardt desprezar o ponto

i=

10

p j e aumentar o parmetro

) forando com que o mtodo de Marquardt comporte-se como

mtodo Steepest Descent. Com o aumento do parmetro , o mtodo de Marquardt


aproxima-se do mtodo Steepest Descent e os passos

pi

nas sucessivas iteraes

sero, aproximadamente, na direo do menos gradiente (vetores verdes) com passos


muito pequenos aproximadamente

. Ento na encosta do vale o mtodo de

Marquardt funciona aproximadamente como o mtodo Steepest Descent descendo o


vale ao longo do menos gradiente. Ao chegar no fundo do vale (ponto p i + 3 na Figura

3.1) , i.e., na regio de ambigidade; se continussemos dando passos

pi

ao longo

do menos gradiente, levar ao ponto tentativo p L que produz uma funo objeto

Q ( p L ) maior que a produzida em p i + 3 . Como Q ( p L ) > Q ( p i + 3 ) , ento o mtodo


de Marquardt despreza o ponto p L , aumenta o parmetro (

i=

10

). Veja,

no entanto, que se o mtodo de Marquardt no ponto p i + 3 (que est na regio de

ambiguidade) continuasse dando passos pequenos ao longo do menos gradiente, i.e.,


continuasse comportando-se como o mtodo Steepest Descent as sucessivas solues
ao longo das sucessivas iteraes descreveriam o padro zig-zag no fundo do vale
vale (curva preenchida em cinza). No entanto, a estratgia do mtodo de Marquardt

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

265

46

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

variar o parmetro ao longo das sucessivas para que ora funcione como o mtodo
Steepest Descent e ora funcione como mtodo de Gauss-Newton. Ento no ponto

p i + 3 a estratgia do mtodo de Marquardt diminuir sucessivamente o valor de


(

i +1

10

) para que o mtodo de Marquardt funcione aproximadamente como o

mtodo de Gauss-Newton. O resultado que o mtodo de Marquardt a partir do ponto

p i + 3 aproxime-se do mtodo de Gauss-Newton j que este ponto est na regio onde a


aproximao quadrtica vlida. Desta forma, o mtodo de Marquardt a partir do ponto

p i + 3 distancia-se do padro zig-zag que o mtodo do Steepest Descent produziria


nesta regio de gradiente varivel (curva preenchida em cinza).

Mtodo do gradiente Aceitvel


Sub-Mtodo: Marquardt

p2
pL
pi+3

pi+4

pj

pi+2
pi+1

Q ( p )

pi

p1

Figura 3.1

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

APNDICE B.

RESOLUO DE PROBLEMAS NO LINEARES:

266

ALGORITMOS DE OPTIMIZAO

47

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
Exemplo comparando o Mtodo de Marquardt com o Mtodo de Gauss-Newton

Veja que tal como o mtodo de Newton o mtodo de Gauss-Newton pode no


convergir isto porque, como a aproximao p

est fora da regio em que Q (p ) tem

um comportamento quadrtico, a perturbao

pi

, i.e. os passos do mtodo de

Newton, sero instveis tanto em mdulo como em direo (Figura 3.2)

Convergncia do Mtodo de Newton No Garantida quando


Q ( p ) Q ( p i )
p2 13

12
11
10
9
8
7
6
5
4
3
-100 -80

-60

-40

-20

20

40

60

80

100

p1
Hessiano pode ser quase-singular resultando na instabilidade no calculo dos passos

Figura 3.2
No entanto, a estratgia de Marquardt garantir que em cada iterao a matriz

Ri seja positiva definida. Especificamente, em todas as iteraes, o mtodo de


Marquardt define R i como o inverso do Hessiano modificado para garantir que R i seja
positiva definida, i.e.

R i = H i + P

. Desta forma, a perturbao

pi

, i.e. os

passos no mtodo de Marquardt, sero estveis tanto em mdulo como em direo.


A Figura 3.3, mostra a mesma funo objeto da Figura 3.2 e a aplicao do mtodo de
Marquardt. Veja que as sucessivas solues (pontos pretos), ao longo das sucessivas

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

267

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica

48

iteraes do mtodo de Marquardt, descrevem um percurso estvel assinalado em linha


contnua preta.

METODO DE MARQUARDT:

Hessiano definidopositivo resultando na estabilidade no calculo dos passos


1
1
1
9
8
7
6
5
0

H garantia de Convergncia
Figura 3.3

Em resumo: O mtodo de Marquardt funciona como o mtodo Steepest Descent


quando o ponto p i no est na regio de validade da aproximao quadrtica e
funciona como o mtodo de Gauss-Newton quando o ponto p i est na regio de

validade da aproximao quadrtica.

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

APNDICE B.
268

RESOLUO DE PROBLEMAS NO LINEARES:


ALGORITMOS DE OPTIMIZAO

Valria Cristina F. Barbosa


Laboratrio Nacional de Computao Cientfica
Anexo FDD

Curso de Inverso de Dados Geofsicos


Programa de Ps-graduao em Geofsica do ON
Tpico 39: Mtodo do Gradiente Aceitvel: Teoria do mtodo de
Marquardt

49

Você também pode gostar