Você está na página 1de 152

Introdução à Identificação de Sistemas

Nestor Roqueiro

Departamento de Automação e Sistemas


Universidade Federal de Santa Catarina

Florianópolis, 2017

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 1 / 152


Sumário

1 Introdução
Introdução
Aspectos gerais

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 2 / 152


Sumário

2 Técnicas de otimização
Introdução
Otimização linear

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 3 / 152


Sumário

3 Identificação com modelos lineares


Introdução
Modelos lineares
Simulação - Predição
Preditor ótimo
Erro de predição
Método das Variáveis Instrumentais (IV)
Mı́nimos Quadrados com Funções de Correlação (COR-LS)
Algoritmos recursivos
Sistemas em malha fechada

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 4 / 152


Sumário

4 Introdução aos modelos estáticos


Introdução
Formulação das funções da base
Funções da base local - global
Parâmetros lineares - não lineares
Extensão da formulação em funções de base
Exemplo de sistema sem dinâmica
Critérios de Avaliação

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 5 / 152


Introdução

”Modelos de sistemas reais são de fundamental importância em


praticamente todas as disciplinas. Os modelos podem ser úteis para a
análise de sistemas, i.e., para obter uma melhor compreensão do sistema.
Os modelos permitem prever ou simular o comportamento de um sistema.
Na engenharia, são necessários modelos para a concepção de novos
processos e para a análise de processos existentes. Técnicas avançadas
para a concepção de controladores, otimização, supervisão, detecção de
falhas e diagnóstico de componentes também são baseadas em modelos de
processos. Uma vez que a qualidade do modelo tipicamente determina um
limite superior na qualidade da solução final do problema, a modelagem é
freqüentemente o gargalo no desenvolvimento de todo o sistema. Como
conseqüência, surge uma forte demanda por esquemas avançados de
modelagem e identificação.”(O.Nelles)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 6 / 152


Linear vs. Não Linear

• Embora existam tendencias a tratar os problemas na área de sistemas


dinâmicos como sendo lineares ou não lineares, esta analise deve ser feita
caso a caso e aplicadas as ferramentas que melhor se adequam ao
problema em questão.

• Como sempre em engenharia, a solução mais simples que atenda os


requisitos é a que deve ser adotada. Portanto é necessário realizar alguns
testes e verificar se o comportamento do sistema a identificar é linear ou
não linear. Em muitos casos testes simples que verifiquem o principio de
superposição podem resolver a questão.

• Se o modelo for utilizado na vizinhança de um ponto de operação uma


medida interessante para minimizar efeitos adversos e/ou dificuldades na
identificação do sistema é utilizar um modelo não linear que
”contenha”um modelo linear como caso particular.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 7 / 152


Predição
A predição a um passo significa que o modelo utiliza as informações de
entradas e saidas passadas ate o instante (k-1) para realizar a predição da
saida no instante (k)

• A predição pode ser feita a varios passos adiante

• Pode ser utilizada uma predição no lugar de um valor medido para


calcular outras predições.
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 8 / 152
Simulação

A simulação utiliza exclusivamente as informações de entradas passadas


ate o instante (k-1) para realizar a predição da saida no instante (k)

A simulação pode ser usada em aplicações de otimização, controle,


detecção de falhas e sensores por software.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 9 / 152


Otimização

A predição ou simulação pode ser utilizada para otimizar um ponto de


trabalho ou uma entrada.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 10 / 152


Analise

Dependendo da estrutura do modelo será possı́vel utilizar-lo para fazer


analise.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 11 / 152


Controle
O modelo do sistema pode ser utilizado para projeto ou na operação do
controlador.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 12 / 152


Detecção de falhas
Quando possı́vel é interessante utilizar o modelo no projeto e operação de
um sistema de detecção de falhas.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 13 / 152


Construção de modelos

• Conhecendo os fenômenos envolvidos podem-se descrever as partes de


um sistema através de equações algébricas e diferenciais que relacionam as
variáveis que o descrevem. A compilação de todas as equações que
representam os diversos fenômenos permite obter um modelo do sistema.
A esta técnica da-se o nome de modelagem. A principio não é necessário
nenhum dado experimental para a construção do modelo

• Se não se conhece o não ha interesse em conhecer os fenômenos


envolvidos na evolução de um sistema e o interesse é conhecer a evolução
de algumas variáveis dependentes em decorrência da mudança de variáveis
independentes, é possı́vel propor uma estrutura matemática com
propriedades desejáveis e ajustar os parâmetros livres a partir de dados
experimentais. A esta forma de obtenção de um modelo da-se o nome de
identificação.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 14 / 152


Modelo verdadeiro

• Não existe um modelo ”verdadeiro”, todos os modelos são descrições


aproximadas da realidade.

• O modelo deve ser escolhido pensando na aplicação, nas ferramentas de


analise e simulação.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 15 / 152


Esquema de identificação

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 16 / 152


Pasos para identificação

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 17 / 152


Escolha das entradas

Esta é uma tarefa de teste e erro realizada com a ajuda de conhecimento


prévio.

A dificuldade da escolha pode depender da natureza do problema.

Em sistemas mecânicos ou elétricos esta tarefa pode ser simples.

No entanto que em sistemas biológicos ou econômicos pode ser mais difı́cil.

Usar todas as entradas pode ser uma solução para problemas de pequeno
porte no entanto para problemas de grande porte será necessário o uso de
de seleção não supervisada (ex. PCA - dados)) o supervisada (precisão do
modelo)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 18 / 152


Escolha dos sinais de excitação

Em identificação usando modelos caixa preta a única fonte de informação


esta nos dados obtidos por medição das variáveis de saı́da como resposta a
excitações nas entradas.

O modelo é um interpolador no domı́nio definido pelas entradas e saı́das


experimentais usadas para a sua determinação.

Depende do conhecimento do problema e da disponibilidade de


instrumentos de medição.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 19 / 152


Escolha da arquitetura do modelo

• Tipo de Problema: estatico, dinâmico.

• Uso: simulação, otimização, controle, detecção de falhas

• Dimensão: Numero de entradas e saı́das

• Restrições: Construção, ajuste, avaliação.

• Restrições de memória: Veı́culos, produtos de massa

• Ajuste: on line, off line

• Experiência do projetista: É necessária ou não

• Ferramentas disponı́veis e Aceitação do usuário.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 20 / 152


Outras considerações

• Validação.

• Parâmetros não ajustáveis por identificação (inicialização, tolerância)

• Modelos: Caixa preta, branca, cinza.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 21 / 152


Sumário

2 Técnicas de otimização
Introdução
Otimização linear

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 22 / 152


Introdução

Podemos caracterizar os problemas que se apresentam em Identificação


como sendo:

• Definição da estrutura do modelo: Qual é a função que relaciona as


entradas com as saı́das.

• Definição dos parâmetros da função escolhida: Que valores dos


parâmetros permitem ajustar um conjunto de dados experimentais.

• Escolha do método numérico para ajustar os parâmetros e,


eventualmente a complexidade do modelo.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 23 / 152


Função objetivo

A escolha dos parâmetros e eventualmente a estrutura do modelo


requerem de uma definição de ”melhor”.

• Aprendizado supervisionado: Este é em geral o caso a tratar quando se


quer escolher uma estrutura dentre um conjunto de estruturas disponı́veis
e o de escolher um conjunto de parâmetros. Neste caso é necessário
definir uma função objetivo e um método para encontrar um extremo.

• Aprendizado não supervisionado: Utilizado quando se quer processar um


conjunto de dados de entrada (clusterização)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 24 / 152


O problema de identificação

ŷ = f (u, θ)
com θ sendo o vetor de parâmetros a determinar.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 25 / 152


As técnicas de otimização
• Vale a pena ler a seção 2.2 Kangaroos no livro de O. Nelles

Para poder decidir se uma solução é melhor do que outra é necessária uma
medida e em otimização usualmente esta é definida a partir de uma
função objetivo I (θ)
Uma boa forma de definir uma medida em identificação é a partir do erro
entre a saı́da do sistema e a saı́da prevista pelo modelo identificado.

e(i ) = y (i ) − ŷ (i )
Assim a medida pode ser definida como:
N
X
I (θ) = e 2 (i )
i =1
Desta forma pode-se definir o problema de mı́nimos quadrados
(LS - dependência linear dos parâmetros)
(NLS - dependência não linear dos parâmetros)
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 26 / 152
As técnicas de otimização
A medida a partir da soma dos quadrados dos erros pode ser melhorada se
cada erro for ponderado por um peso que reflete conhecimento prévio
sobre o sistema (WLS).
N
X
I (θ) = qi e 2 (i )
i =1

E para generalizar ainda mais pode-se propor

N
!1/p
X
I (θ) = qi ke (i )kp
i =1

p = 2 (soma dos erros quadráticos),


p = 1 (soma dos erros absolutos),
p = ∞ (erro máximo)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 27 / 152


Otimização linear
Se a função objetivo é linear nos parâmetros a serem ajustados o problema
é de otimização linear e tem as seguintes propriedades:

• Existe uma única solução ótima e portanto este é o ótimo global.

• A superfı́cie definida pela função objetivo é uma hiperparabola da forma

1 T
2 θ Hθ + h T θ + h0

• Existem muitos algoritmos numéricos estáveis, é possı́vel fazer uma


formulação recursiva e aplicar on line.
Se a função objetivo for a soma dos erros quadráticos com a saı́da do
modelo dependendo linearmente dos parâmetros então
N
X
ŷ = θ1 x1 + θ2 x2 + · · · + θn xn = θi xi , xi = gi (u)
i =1
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 28 / 152
Minimos Quadrados (LS)

O Método de Mı́nimos Quadrados foi desenvolvido por Gauss em 1795.


Supondo que foram obtidas N amostras de entradas e saı́da
{x (i ), y (i )}, i = 1, · · · , N
Definindo então
   
y (1) ŷ (1)
 y (2)   ŷ (2) 
y =  ..  , ŷ =  .. 
   
 .   . 
y (N) ŷ (N)
   
x1 (1) x2 (1) ··· xn (1) θ1
 x1 (2) x2 (2) ··· xn (2)   θ2 
X = .. .. .. , θ= ..
   

 . . .   . 
x1 (N) x2 (N) · · · xn (N) θn

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 29 / 152


Minimos Quadrados (LS) - Exemplos - Polinomios
O exemplo mas simples de uso de minimos quadrados é o ajuste de
polinomios.
m
ŷ (k) = c0 + c1 u(k) + c2 u 2 (k) + · · · + cm u m (k) = ci u i (k)
P
i =0
e(k) = y (k) − c0 − c1 u(k) − c2 u 2 (k) − · · · − cm u m (k)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 30 / 152


Minimos Quadrados (LS) - Exemplos - Polinomios

Neste caso a matriz de regressores e o vetor de parâmetros fica:

1 u(1) · · · u m (1)
   
c0
 1 u(2) · · · u m (2)   c1 
X =  .. .. ..  , = θ  .. 
   
 . . .   . 
1 u(N) · · · u m (N) cm

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 31 / 152


Minimos Quadrados (LS) - Exemplos - Filtros FIR
Outro caso classico é o dos filtros FIR(Finite Impulse Response)

ŷ (k) = b0 u(k) + b1 u(k − 1) + b2 u(k − 2) + · · · + bm u(k − m)


e(k) = y (k) − b0 u(k) − b1 u(k − 1) − b2 u(k − 2) − · · · − bm u(k − m)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 32 / 152


Minimos Quadrados (LS) - Exemplos - Filtros FIR

Neste caso a matriz de regressores e o vetor de parâmetros fica:


   
u(m + 1) u(m) ··· u(1) b0
 u(m + 2) u(m + 1) · · · u(2)   b1 
X = .. .. ..  , = θ  ..
   

 . . .   . 
u(N) u(N − 1) · · · u(N − m) bm

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 33 / 152


Minimos Quadrados (LS) - Exemplos - Filtros IIR
Uma outra forma de modelar sistemas, que veremos mais adiante é atraves
do modelo ARX (Auto Regressive with Exogenous input)
y (k)+a1 y (k −1)+· · ·+an y (k −m) = b0 u(k)+b1 u(k −1)+· · ·+bm u(k −m)
que permite propor um estimador
ŷ (k) = b0 u(k)+b1 u(k −1)+· · ·+bm u(k −m)−a1 y (k −1)−· · ·−an y (k −m)
e calcular um erro
e(k) = y (k)+a1 y (k−1)+· · ·+an y (k−m)−b0 u(k)−b1 u(k−1)−· · ·−bm u(k−m

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 34 / 152


Minimos Quadrados (LS) - Exemplos - Filtros IIR

Os regressores e vetor de parâmetros agora ficam:

 
u(m) ··· u(1) −y (m) ··· −y (1)
 u(m + 1) · · · u(2) −y (m + 1) · · · −y (2) 
X = .. .. .. ..
 

 . . . . 
u(N − 1) · · · u(N − m) −y (N − 1) · · · −y (N − m)
 T
θ= b1 · · · bm a1 · · · am

Tem que se tomar o cuidado de verificar se existe ruı́do nas medições de


saı́da pois neste caso não pode ser tratado como um problema
deterministico.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 35 / 152


Minimos Quadrados (LS) - Calculo dos parâmetros

A saı́da do sistema pode ser escrita como:

ŷ = X θ

e a função objetivo definida como I (θ) = 21 e 2 e com e = y − X θ


Sendo a função objetivo parabólica nos parâmetros,
1
I (θ) = θ T Hθ + hT θ + h0
2
com:
H = XTX
h = −X T y
h0 = y T y

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 36 / 152


Minimos Quadrados (LS) - Calculo dos parâmetros

Para encontrar o extremo:

∂I (θ)
= −X T y − X θ = 0

∂θ
cuja solução é
 −1
θ = XTX XTy

À diferencia entre a saı́da e a saı́da estimada da-se o nome de residuo, que


seria zero em uma situação ideal.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 37 / 152


Minimos Quadrados (LS) - Calculo dos parâmetros

Algumas observações:

Em geral não se realiza o calculo numérico de inversão de uma matriz. Ao


invés disso pode-se:

• Resolver o problema X T X θ = X T y por eliminação Gaussiana ou




decomposição de Cholesky

• Fazendo uma decomposição ortogonal usando Gram-Schmidt,


Householder ou Givens

• Fazendo uma decomposição em valores singulares


Para mais detalhes ver o livro ”Matrix Computations”Golub e Van Loan

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 38 / 152


Minimos Quadrados (LS) - Calculo dos parâmetros

A matriz Hessiana

∂ 2 I (θ)
H= = XTX
∂θ 2
deve ser bem condicionada para que os parâmetros sejam calculados com
precisão. Desta forma deve ser verificado o numero de condição da matriz
que está definido por:

λmax
χ=
λmin

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 39 / 152


Sumário

3 Identificação com modelos lineares


Introdução
Modelos lineares
Simulação - Predição
Preditor ótimo
Erro de predição
Método das Variáveis Instrumentais (IV)
Mı́nimos Quadrados com Funções de Correlação (COR-LS)
Algoritmos recursivos
Sistemas em malha fechada

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 40 / 152


Introdução

Os modelos podem ser classificados em duas classes

• Modelos paramétricos que utilizam um numero finito de parâmetros. Por


exemplo equações diferenciais ou a diferencias.

• Modelos não paramétricos que utilizam um numero infinito de


parâmetros. Por exemplo modelos de resposta ao impulso ou resposta em
freqüência.

Em alguns casos modelos não paramétricos podem ser aproximados ou


estimados a partir de modelos não paramétricos ou dos próprios dados. Por
exemplo um filtro FIR com um numero finito de parâmetros ou uma função
de transferencia obtida a partir da informação de resposta em freqüência.

A proposta deste curso é tratar de modelos paramétricos.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 41 / 152


Casos clássicos

Os casos clássicos de identificação:

• No domı́nio da freqüência usando diagramas de Bode e determinando


polos e zeros de uma função de transferencia.

• No domı́nio do tempo usando a resposta ao degrau e identificando os


parâmetros de um sistema de primeira ordem, primeira ordem com tempo
morto e segunda ordem

serão deixados como exercı́cio extra classe.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 42 / 152


Sinais de excitação

A seleção dos sinais de excitação não é uma tarefa simples devido às
restrições operacionais.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 43 / 152


Sinais de excitação para y (k) = a1y (k − 1) + b1 u(k − 1)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 44 / 152


Modelos lineares
Em um sistema linear deterministico é possı́vel calcular a saı́da y (k)
filtrando a entrada u(k) através de um filtro G (q) onde q esta definido
como operador de deslocamento no tempo discreto q −1 x(k) = x(k − 1).

B̃(q)
y (k) = G (q)u(k) = u(k)
Ã(q)
Tambem pode ser acrescentada uma parcela estocastica filtrando um ruido
branco v (k) com um filtro linear H(q)

C̃ (q)
n(k) = H(q)v (k) = v (k)
D̃(q)
E combinando tem-se:

y (k) = G (q)u(k) + H(q)v (k)


com G (q) = função de transferência de entrada e H(q) = função de
transferência do ruı́do.
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 45 / 152
Modelos lineares
Considerando que ambas as funções de transferencia podem compartir um
denominador comum pode-se escrever o sistema como:

B(q) C (q)
y (k) = u(k) + v (k)
F (q)A(q) D(q)A(q)
ou

B(q) C (q)
A(q)y (k) = u(k) + v (k)
F (q) D(q)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 46 / 152


Modelos lineares - Casos particulares
Existe uma nomenclatura padrão estabelecida no livro de Ljung
considerando diversos casos particulares.
Se A(q) = C (q) = 1 e B(q) = 0 tem-se o modelo AR (autoregressivo)

1
y (k) = v (k)
D(q)

Se A(q) = D(q) = 1 e B(q) = 0 tem-se o modelo MA (media móvel)

y (k) = C (q)v (k)


Se A(q) = 1 e B(q) = 0 tem-se o modelo ARMA (autoregressivo com
media movel)
C (q)
y (k) = v (k)
D(q)
Estes são modelos de series temporais que não levam em consideração
entradas.
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 47 / 152
Modelos lineares - Casos particulares

Ao considerar entradas externas (exogenas) temos:

Se F (q) = D(q) = C (q) = 1 tem-se o modelo ARX (autoregressivo com


entrada exogena)
B(q) 1
y (k) = u(k) + v (k)
A(q) A(q)
Neste caso os denominadores de ambos os filtros são iguais.

Se F (q) = D(q) = 1 tem-se o modelo ARMAX (autoregressivo com media


movel e entrada exogena)

B(q) C (q)
y (k) = u(k) + v (k)
A(q) A(q)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 48 / 152


Modelos lineares - Casos particulares
Estes últimos modelos compartem um denominador comum A(q) e o ruido
é filtrado pela dinamica do sistema antes de influenciar a saı́da.

Por outro lado, se o ruido é um ruido de medida, o modelo é denominado


de modelo de erro de saı́da (OE)

B(q)
y (k) =u(k) + v (k)
F (q)
Uma tabela com os modelos mais comuns é;

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 49 / 152


Simulação - Predição
Quando se calcula a resposta de um modelo considerando que as entradas
são conhecidas e as saı́das do processo real não a esta ação da-se o nome
de simulação.
Se as saidas passadas do processo real são conhecidas e são utilizadas para
calcular a resposta do modelo da-se o nome de predição
Se o interesse é calcular a resposta l passos a frente denomina-se predição
a l − passos
A simulação é um processo puramente determinı́stico pois não se dispõe
de informação alguma sobre o ruı́do que age no processo. Portanto,

ŷ(k) = G (q)u(k)
Pode ser incorporado um ruı́do gerado por computador para melhorar o
comportamento qualitativo da resposta mas não é o ruı́do do processo.

ŷ (k) = G (q)u(k) + H(q)w (k)


Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 50 / 152
Preditor ótimo
O preditor ótimo pode ser deduzido a partir da equação do modelo:

y (k) = G (q)u(k) + H(q)v (k)


Considerando que o modelo recupera toda a informação presente nos
sinais a diferencia entre o modelo e a saı́da do sistema deveria ser um
ruı́do branco.
v (k) = y (k) − ŷ (k|k − 1)
substituindo

y (k) = G (q)u(k) + H(q) (y (k) − ŷ (k|k − 1))

tem-se  
G (q) 1
ŷ (k|k − 1) = u(k) + 1 − y (k)
H(q) H(k)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 51 / 152


Preditor ótimo - ARX

Para um modelo ARX tem-se

G (q) = B(q)/A(q)

e
H(q) = 1/A(q)
e o preditor:

ŷ (k|k − 1) = B(q)u(k) + (1 − A(q)) y (k)

A saı́da do processo contem informação das perturbações e são


incorporadas à predição através do filtro

1 − A(q)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 52 / 152


Preditor ótimo - OE

Para um modelo OE tem-se

G (q) = B(q)/A(q)

e
H(q) = 1
e o preditor:
B(q)
ŷ(k|k − 1) = u(k)
A(q)
Neste caso não é utilizada informação contida na saı́da do processo.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 53 / 152


Preditor ótimo - Um comentario
Se o sistema a ser modelado é um integrador com ruı́do na medição e
considerando G (q) = Kq/(q − 1) a melhor escolha para preditor seria um
modelo OE. No entanto se a estimativa de K não for precisa, e nunca é, A
saı́da predita vai divergir da saı́da do processo com o passar do tempo pois
não é utilizada informação da saı́da medida. Neste caso um modelo ARX
pode fazer uma previsão melhor se a relação sinal/ruı́do for grande, dado
que usa medidas da saı́da real. A desvantagem é que incorpora ruı́do na
previsão de saı́da.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 54 / 152


Erro de predição - Series temporais

O erro de predição usualmente é definido como o erro de predição a um


passo e(k) = y (k) − ŷ (k|k − 1).

Um modelo de serie temporal é usado quando o numero de entradas é


grande e/ou desconhecido como por exemplo em processos sociais. Neste
caso pode ser considerado que a a entrada é um ruido branco e que o
modelo se reduz a:
C (q)
y (k) = H(q)v (k) = v (k)
D(q)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 55 / 152


Autoregressivo - AR

Um modelo de serie temporal muito utilizado é o AR que pode representar


sistemas com oscilações atraves de polos pouco amortecidos. O modelo é
um filtro de ruı́do branco:
1
y (k) = v (k)
D(q)

E a equação a diferencias mostra a parametrização linear do modelo

y (k) = −d1 y (k − 1) − · · · − dm y (k − m) + v (k)

com erro de predição e(k) = D(q)y (k) e considerando uma função


N
e 2 (i ) a estimação de parâmetros pode ser realizada
P
objetivo J =
i =1
usando método de mı́nimos quadrados.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 56 / 152


Autoregressivo - AR

Outra forma é calcular as funções de correlação usando y (k − κ), κ > 0

corryy (κ) = d1 corryy (κ − 1) − · · · − dm corryy (κ − m)


e como as saı́das passadas não dependem do ruı́do no instante atual
E {y (k − κ)v (k)} = 0 eliminando desta forma o sinal de ruı́do do calculo
de parâmetros.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 57 / 152


Modelo com entrada - ARX

O modelo ARX é descrito por A(q)y (k) = B(q)u(k) + v (k)

e o preditor ótimo é

ŷ (k|k − 1) = B(q)u(k) + (1 − A(q))y (k)


que pode ser escrito

ŷ (k|k − 1) = b1 u(k − 1)+ · · · + bm u(k − m)− a1 y (k − 1)− · · · − am y (k − m)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 58 / 152


Modelo com entrada - ARX

O calculo dos parametros pode ser realizado usando o método de mı́nimos


quadrados com a matriz de regressores

 
−y (m) ··· −y (1) u(m) ··· u(1)
 −y (m + 1) · · · −y (2) u(m + 1) · · · u(2) 
X = .. .. .. ..
 

 . . . . 
−y (N − 1) · · · −y (N − m) u(N − 1) · · · u(N − m)

Dado que as medidas da saı́da contem informação do ruı́do, se este não


tiver as propriedades definidas para o modelo ARX as estimativas podem
ter desvio (bias) e não ser consistentes (o desvio não tende a zero com o
aumento das amostras)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 59 / 152


Problema de consistência - ARX

Tem duas forma de contornar o problema de consistência deste modelo.

• Uma é utilizando Variáveis Instrumentais (IV)

• Uma outra é usar funções de correlação dos sinais medidos ao invés dos
próprios sinais.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 60 / 152


Método das Variáveis Instrumentais (IV)
O problema de ajuste de parametros foi definido como a minimização de
e T e com e = y − ŷ = y − X θ

Se o sistema esta perturbado por ruı́do branco não haveria problema e o


próprio sinal de erro seria um ruı́do branco. Se este não for o caso a
proposta é multiplicar a equação do erro por uma matriz Z cujas colunas
não são correlacionadas com e. Ou seja Z T e = 0.

Assim,

ZTe = ZTy − ZT Xθ
e a solução é
 −1
θ̂ = Z T X ZTy

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 61 / 152


Método das Variáveis Instrumentais (IV)

Agora é necessario encontrar uma forma de calcular Z . Se Z T = X T


estamos no caso classico de LS. Mas como X tem regressores
contaminados por ruido X T e 6= 0. Lembrando que
 
−y (m) ··· −y (1) u(m) ··· u(1)
 −y (m + 1) · · · −y (2) u(m + 1) · · · u(2) 
X = .. .. .. ..
 

 . . . . 
−y (N − 1) · · · −y (N − m) u(N − 1) · · · u(N − m)

as variáveis de entrada podem ser escolhidas como variáveis instrumentais


pois não estão contaminadas por ruı́do mas as saı́das não podem ser
utilizadas diretamente. Uma possibilidade seria usar as saidas filtradas
usando como filtro o próprio modelo.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 62 / 152


Método das Variáveis Instrumentais (IV)
Um algoritmo para calcular os parametros pode ser o seguinte:
1. Estime o modelo ARX a partir dos dados medidos {u(k), y (k)}
 −1
θ̂ARX = X T X XTy

2. Simule o modelo
B̂(q)
yu (k) = u(k)
Â(q)
com B̂(q), Â(q) calculados a partir de θ̂ARX .
3. Escolha as seguintes variáveis instrumentais
 
−yu (m) ··· −yu (1) u(m) ··· u(1)
 −yu (m + 1) · · · −yu (2) u(m + 1) · · · u(2) 
Z = .. .. .. ..
 

 . . . . 
−yu (N − 1) · · · −yu (N − m) u(N − 1) · · · u(N − m)

4. Estime os parâmetros θ̂IV = Z T X Z T y e retorne ao passo 2.


−1

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 63 / 152


Mı́nimos Quadrados com Funções de Correlação (COR-LS)

Para evitar o problema de inconsistência podem ser usadas as funções de


correlação ao invés dos próprios sinais. Se,

y (k) = b1 u(k − 1) + · · · + bm u(k − m) − a1 y (k − 1) − · · · − am y (k − m)

for multiplicado por u(k − κ)

u(k − κ)y (k) = b1 u(k − κ)u(k − 1) + · · · + bm u(k − κ)u(k − m)−


−a1 u(k − κ)y (k − 1) − · · · − am u(k − κ)y (k − m)

e somado sobre N − κ amostras (k = κ + 1, . . . , N) podem ser calculadas


as funções de correlação

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 64 / 152


Mı́nimos Quadrados com Funções de Correlação (COR-LS)

N
P
u(k − κ)y (k) =
k=κ+1
N
P N
P
b1 u(k − κ)u(k − 1) + · · · + bm u(k − κ)u(k − m)−
k=κ+1 k=κ+1
N
P N
P
−a1 u(k − κ)y (k − 1) − · · · − am u(k − κ)y (k − m)
k=κ+1 k=κ+1

que pode ser escrita

cor ruy (κ) = b1 cor ruu (κ − 1) + · · · + bm cor ruu (κ − m)−


−a1 cor ruy (κ − 1) − · · · − bm cor ruy (κ − m)

a forma funcional é a mesma e somente foram substituı́dos os sinais pelas


funções de correlação.
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 65 / 152
Modelo ARMAX

Este modelo é mais flexı́vel do que o ARX pois pode ser feita uma
modelagem da influencia do ruı́do, porem se torna não linear nos
parâmetros.

B(q) C (q)
y (k) = u(k) + v (k)
A(q) A(q)
e o preditor ótimo
 
B(q) A(q)
ŷ(k|k − 1) = u(k) + 1 − y (k)
C (q) C (k)
e erro de predição

A(q) B(q)
e(k) = y (k) − u(k)
C (q) C (q)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 66 / 152


Modelo ARMAX
O erro de predição pode ser expresso em forma pseudo-linear fazendo

e(k) = A(q)y (k) − B(q)u(k) + (1 − C (q))e(k)


e para resolver este problema pode ser usado o algoritmo de mı́nimos
quadrados estendido (ELS) que consiste em :
1. Estime
 o modelo ARX A (q) y (k) = B (q) u (k) + v (k) a partir dos
dados u(k), y (k) usando
 −1
θ̂ARX = X T X XTy

2. Calcule os erros de predição deste modelo ARX

eARX (k) = Â (q) y (k) − B̂ (q) u (k)

3. Estime os parâmetros do modelo ARMAX ai , bi e ci por mı́nimos


quadrados aproximando os residuos ARMAX como e(k − i ) ≈ eARX (k − i )
e itere passos 2-3.
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 67 / 152
Método de Minimos Quadrados Recursivo (RLS)

Para aplicações em tempo real é necessário utilizar um conjunto reduzido e


atualizado de amostras das variáveis do sistema. Ou seja, usar dados
dentro de uma janela de tempo.

Um método de calculo dos parâmetros de um sistema que ”corrige”os


valores destes parâmetros usando os últimos dados disponı́veis ao invés de
todo o histórico de dados é o que se denomina um método recursivo.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 68 / 152


Método de Minimos Quadrados Recursivo (RLS)

Para identificação on line de um modelo ARX pode ser utilizado o Método


de Minimos Quadrados Recursivo (RLS).

θ̂(k) = θ̂(k − 1) + γ(k)e(k)

e(k) = y (k) − x T (k)θ̂(k − 1)


com
1
γ(k) = x T (k)P (k−1)x (k)+λ
P(k − 1)x(k)

1
I − γ(k)x T (k) P(k)

P(k) = λ

para dedução do método vide O. Nelles sec. 16.8.1 e 3.2

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 69 / 152


Sistemas em malha fechada

• Correlação entrada-saı́da

• Identificação para controle

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 70 / 152


Sumário

4 Introdução aos modelos estáticos


Introdução
Formulação das funções da base
Funções da base local - global
Parâmetros lineares - não lineares
Extensão da formulação em funções de base
Exemplo de sistema sem dinâmica
Critérios de Avaliação

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 71 / 152


Sistemas multivariáveis

• Modelos estáticos não lineares realizam um mapeamento de p entradas


ui reunidas em um vetor de entrada p-dimensional U = [u1 , u2 , ..., up ] para
r saı́das reunidas em um vetor de saı́da r-dimensional Y = [y1 , y2 , ..., yr ].

• Tal modelo geral é chamado de modelo MIMO (multiple-input


multiple-output)

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 72 / 152


Sistemas multivariáveis

Normalmente, um modelo tipo MIMO é decomposto em r modelos MISO


(multiple-input single-output) diferentes pelas seguintes razões:

• Cada modelo MISO é mais simples do que um modelo global MIMO e,


portanto, mais fácil de entender, validar e aplicar na prática.

• A precisão exigida de cada uma das r saı́das do modelo pode ser


ajustada separadamente. Não há necessidade de uma função objetivo
única que pesa os r erros de saı́da.

• Diferentes arquiteturas de modelos, estruturas e técnicas de otimização


podem ser aplicadas a cada subproblema MISO, o que torna a modelagem
e identificação mais adequada, flexı́vel e poderosa.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 73 / 152


Sistemas multivariáveis

• Em oposição a estas vantagens, um modelo MIMO geralmente oferece


uma velocidade mais rápida de avaliação, isto é, o tempo necessário para
calcular as saı́das do modelo para as entradas dadas.

• Embora pode-se esperar que o modelo de MIMO seja significativamente


mais complexo do que cada um dos modelos MISO, a sua complexidade é
geralmente inferior a r vezes maior.

• Várias partes da estrutura e os parâmetros do modelo são MIMO


tipicamente são úteis para a modelagem de mais do que uma saı́da. Estas
estruturas e parâmetros comuns não podem ser exploradas pelos modelos
MISO separados. Assim, serão abordados apenas modelos MISO e SISO.

• Um modelo MISO estático pode ser descrito pelo seguinte mapeamento


a partir da entrada de p-dimensional para a saı́da unidimensional:
y = f (U)
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 74 / 152
Formulação das funções da base

De todas as realizações possı́veis desta função f (.) quase todas as


alternativas de interesse prático podem ser escritas da seguinte formulação
des f funções da base:
M  
(l) (nl)
X
y= θi Φi U, θi
i =1

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 75 / 152


Formulação das funções da base
M  
(l) (nl)
X
y= θi Φi U, θi
i =1

• A saı́da y é modelada como uma soma ponderada de M funções de base


Φi (.).

(l)
• As funções de base são ponderados com os parâmetros lineares θi , e
eles dependem das entradas U e um conjunto de parâmetros não-lineares
(nl)
reunidos em θi .

• A fim de realizar o mapeamento não linear, as funções de base tem de


ser não-lineares.
(nl)
• Assim, os parâmetros θi de que as funções de base dependem são
necessariamente não-lineares.
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 76 / 152
Formulação das funções da base

Esta é uma rede de funções de base. Cada nó representa uma função de
(nl)
base que depende de seu vetor de parâmetros não-linear θi .
(nl)
Dependendo do modelo especı́fico, o offset θ0 pode existir ou não.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 77 / 152


Formulação das funções da base

• Muitas vezes, os modelos incorporam um parâmetro de compensação (às


vezes chamado de ”viés- offset) que ajusta o ponto de operação.

• Tal deslocamento pode ser incluı́do na formulação de função de base pela


introdução de uma função de base ”dummy”Φi (), que é sempre igual a 1.

(l)
• O correspondente parâmetro linear θ0 implementa o vies.
M  
(l) (nl)
X
y= θi Φi U, θi Φi () = 1
i =1

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 78 / 152


Formulação das funções da base

Geralmente, as funções de base Φi () podem ser de tipo diferente para cada


nó. Se todas as funções de base são do mesmo tipo e diferem apenas em
seus parâmetros de rede é chamada de uma rede neural artificial (RNA)
ou, uma rede neural (NN). Assim, os nós da rede são chamadas neurônios.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 79 / 152


Funções da base local - global
Em geral, as funções de base Φi (.) podem tomar qualquer forma. Em
muitos casos, no entanto, especialmente para sistemas fuzzy e redes
neurais, são escolhidos como funções elementares ou são construı́dos por
funções elementares.
Funções de base unidimensional comuns estão representados na fig.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 80 / 152


Funções da base local - global

• Funções base global contribuem significativamente para a saı́da do


modelo em termos global, ou seja, em uma região de tamanho infinito do
espaço de entrada. Existe comportamento global se uma mudança no
(l)
parâmetro associado linear θi da formulação da função de base influencia
significativamente o resultado do modelo ao longo de um regime
operacional grande.

• Estritamente funções de base global adicionalmente possuem uma


derivada global, enquanto funções de base não estritamente globais têm
uma derivada local.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 81 / 152


Funções da base local - global

• Os modelos com funções de base não estritamente globais podem


construir o comportamento não-linear verdadeiro apenas nas regiões onde
a derivada das funções de base varia de forma significativa; fora dessas
regiões as funções de base são aproximadamente constantes.

• Então, na verdade, modelos com funções de base (não


estritamente)globais operam praticamente localmente, embora as
alterações nos parâmetros lineares resultam em efeitos globais..

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 82 / 152


Funções da base local - global

• Funções de base locais contribuem significativamente para a saı́da do


modelo localmente, ou seja, em uma região de tamanho finito do espaço
de entrada.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 83 / 152


Funções da base local - global

• Comportamento local existe se uma alteração no parâmetro linear


(l)
associado θi da formulação de função de base influencia
significativamente o resultado do modelo apenas em uma pequena região
do espaço de entrada.

• Estritamente funções de base local são exatamente iguais a zero fora da


sua região de ativação (que dizer ter suporte compacto), enquanto funções
de base (não estritamente) locais possuem uma contribuição insignificante.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 84 / 152


Parâmetros lineares - não lineares

(l)
• O modelo é linear em seus parâmetros de ponderação θi .

• Se as funções de base são completamente especificadas, ou seja, os


parâmetros não lineares são determinados de alguma forma, os parâmetros
lineares podem ser estimados por uma técnica de optimização linear,
eficiente, por exemplo, mı́nimos quadrados.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 85 / 152


Parâmetros lineares - não lineares

A matriz de regressão X e vetor de parâmetros θ (l) são

θ0 (l)
   
1 Φ1 (U (1)) ΦM (U (1))
 1 Φ1 (U (2)) ΦM (U (2))  (l)
 θ1
  
(l)
X =  .. .. .. ..  ; θ =  ..
 

 . . . .   . 
1 Φ1 (U (N)) ΦM (U (N)) θM (l)

onde N é o número de amostras de dados utilizados para o treinamento. A


primeira coluna de X e a primeira entrada θ (l) é opcional para as
abordagens que implementam um valor de offset explı́cito. Além disso,
técnicas de selecção de estrutura linear, como por exemplo o método dos
mı́nimos quadrados ortogonais, pode ser utilizado para optimizar a
estrutura do modelo.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 86 / 152


Parâmetros lineares - não lineares

(nl)
A otimização dos parâmetros não-lineares θi é muito mais difı́cil, uma
vez que exige que os sistemas de otimização locais ou globais não lineares.
Portanto, pode ser razoável não otimizar esses parâmetros não-lineares
através de aprendizagem supervisionada, mas determiná-los de forma
diferente. Assim, as seguintes abordagens para a determinação dos
parâmetros não lineares são comumente usadas:

• Técnicas de otimização não-linear,

• Técnicas de aprendizagem não supervisionada, por exemplo, clustering,

• Exploração do conhecimento prévio.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 87 / 152


Parâmetros lineares - não lineares

Os parâmetros não lineares influenciam as funções de base. Tipicamente,


eles especificam as posições das funções de base, no espaço de entrada
gerado por U, e, possivelmente, alguns parâmetros não lineares
determinam a suavidade ou as larguras das funções de base. Assim, os
parâmetros não lineares permitem um ajuste de posições e formas das
funções de base, a fim de tornar o modelo mais flexı́vel. Se é para ser
aplicada optimização não linear a derivada da saı́da do modelo em relação
aos parâmetros é de importância fundamental.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 88 / 152


Parâmetros lineares - não lineares

Isto pode ser visto, considerando por exemplo a soma dos quadrados dos
erros como função de custo :
n n
1X 1X
J= e(i )2 = (y (i ) − ŷ(i ))2
2 2
i =1 i =1

em que N indica o número de medições, e é o erro de modelo, e y e ŷ são


as saı́das do processo e do modelo, respectivamente.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 89 / 152


Parâmetros lineares - não lineares

Para a aplicação de qualquer técnica de otimização baseada no gradiente é


necessário calcular o gradiente da função de custo em relação a cada
parâmetro θ :
n n
∂J X ∂e(i ) X ∂ŷ (i )
= e(i ) =− e(i )
∂θ ∂θ ∂θ
i =1 i =1

Assim, é necessário calcular o gradiente da saı́da do modelo em relação


aos parâmetros ∂ŷ (i )/∂θ.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 90 / 152


Parâmetros lineares - não lineares
As vantagens e desvantagens de diferentes arquiteturas de modelos são
muitas vezes fortemente relacionada com os métodos adequados para a
otimização de parâmetros ou sua determinação.

Uma questão particularmente interessante é saber se é melhor :

• utilização de modelos sem ou com parâmetros não-lineares fixos e


otimizar únicos parâmetros lineares, ou

• otimizar os modelos com parâmetros não-lineares.

Pela experiência problemas de baixa dimensionalidade p < 4, geralmente


podem ser resolvido de forma mais eficiente pela primeira alternativa,
enquanto os problemas de alta-dimensional geralmente requerem a
otimização explı́cita das posições e larguras das funções de base, a fim de
lidar apropriadamente com espaços de entrada esparsamente cobertos e
entradas correlacionadas.
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 91 / 152
Extensão da formulação em funções de base

A formulação em funções de base pode ser estendida para uma estrutura


mais flexı́vel, substituindo cada parâmetro por uma função linear
(tipicamente linearmente parametrizada) Li (.):
n    
(l) (nl)
X
ŷ = Li U, θi Φi U, θi
i =1

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 92 / 152


Extensão da formulação em funções de base

(l)
Dado que Li (.) é linearmente parametrizada, os parâmetros θi podem ser
estimados com técnicas de otimização lineares se as funções de base Φi (.)
são conhecidos. Esta formulação de função de base estendida é a base de
(l)
modelos discutidos mais adiante. No caso mais simples, Li (.) = θi e
voltamos à formulação original.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 93 / 152


Extensão da formulação em funções de base

Outra alternativa é escolher Li (.) como uma função linear de U. Isto leva a
n  
(nl)
X
ŷ = (wi 0 + wi 1 u1 + wi 2 u2 + · · · + wip up ) Φi U, θi
i =1
com
(l)
θi = [wi 0 + wi 1 u1 + wi 2 u2 + · · · + wip up ]T
Assim, as funções de base não são ponderadas com constantes mas com
sub modelos lineares. Em princı́pio, o submodelo Li (.) pode ser escolhido
arbitrariamente complexo.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 94 / 152


Extensão da formulação em funções de base
Qualquer formulação com função de base estendida com Li (.)
parametrizada linear pode ser rescrita na forma de função de base padrão.
Por exemplo,
M.(p+1)  
(l) (nl)
X
ŷ = θ̃i Φ̃i U, θi
i =1
com
Φ̃i (.) = Φi (.) para i = 1, . . . , p
Φ̃i (.) = u1 Φi (.) para i = p + 1, . . . , 2p
Φ̃i (.) = u2 Φi (.) para i = 2p + 1, . . . , 3p
..
.
Φ̃i (.) = up Φi (.) para i = (M − 1) .p + 1, . . . , M.p
Com estas funções de base definidas recentemente Φ̃i (.) a formulação
padrão pode ser recuperada.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 95 / 152


Exemplo de sistema sem dinâmica

A fim de ilustrar o funcionamento das diferentes arquiteturas de modelos


não lineares o seguinte processosem dinâmica SISO será utilizado:
1
y=
0.1 + u
.

Como pode ser observado facilmente derivando a curvatura cresce


fortemente (em valor absoluto) para u → 0.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 96 / 152


Exemplo de sistema sem dinâmica

Pode-se esperar que a maioria das arquiteturas de modelo exigirão mais


parâmetros para descrever a região em torno de u ≈ 0 do que a região em
torno de u ≈ 1.

Se for feita uma aproximação desta função por 100 amostras de dados
distribuı́das igualmente no intervalo [0, 1] não haverá problemas a menos
que o sistema seja perturbado por ruı́do.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 97 / 152


Critérios de Avaliação

Os modelos apresentados serão avaliados de acordo com as seguintes


propriedades:

• comportamento de interpolação: Qual é o caráter da saı́da do modelo


entre amostras de dados de treinamento?

• comportamento de extrapolação: Qual é o caráter da saı́da do modelo


fora a região em que os dados de treino encontram-se?

• Localidade: São as funções de base global, estritamente global, local, ou


estritamente local?

• Precisão: Qual é a precisão do modelo com um determinado número de


parâmetros? Suavidade: Quão suave é o resultado do modelo?

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 98 / 152


Critérios de Avaliação

• A sensibilidade ao ruı́do: O ruı́do provoca um erro de variância, ou seja,


os parâmetros do modelo não podem ser estimados para os (teoricamente)
valores ideais. como o ruı́do afeta o comportamento do modelo?

• otimização de parâmetros: como os parâmetros do modelo lineares e não


lineares podem ser estimados?

• otimização da estrutura: Como pode a estrutura e complexidade do


modelo ser optimizado?

• adaptação on-line: Como o modelo pode ser adaptado em linha, e quão


confiável é a adaptação on-line?

• Velocidade de treinamento: Com que rapidez os parâmetros do modelo


e, possivelmente, o estrutura do modelo podem ser obtidos a partir de
dados?
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 99 / 152
Critérios de Avaliação

• Velocidade de Avaliação: Qual é rapidez com que o modelo pode ser


avaliado, ou seja, qual é o demanda computacional para a avaliação do
modelo para uma dada entrada?

• Crescimento da dimensionalidade: Como o modelo pode ser escalado


para sistemas com dimensões maiores de entrada ?

• Interpretação: Podem os parâmetros do modelo e, possivelmente, a


estrutura do modelo serem interpretados de uma forma a relaciona-los
com as propriedades do processo?

• Incorporação de restrições: podem ser incorporadas facilmente restrições


no modelo?

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 100 / 152
Critérios de Avaliação

• Uso: Quão generalizada é a arquitetura do modelo?

Muitas propriedades dependem da combinação do modelo e da estratégia


de parametrização e não apenas com o próprio modelo.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 101 / 152
Modelos Lineares

• Um modelo linear pode ser capaz de aproximar um processo não-linear,


com precisão razoável, se a sua caracterı́stica não-linear é fraca.

• Um modelo linear é simples, e que possui um pequeno número de


parâmetros.

• Especialmente se apenas muito poucas medições, ruidosas, estão


disponı́veis, um modelo linear pode ser uma boa descrição de um processo
com comportamento não-linear em comparação com outros modelos
não-lineares mais complexos que têm uma variância do erro muito maior.

• Em outras palavras, se os dados disponı́veis são escassos e ruidosos e a


dimensionalidade de entrada é alta, os dados podem não ter
suficientemente informação para estimar modelo mais complexas do que
um linear.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 102 / 152
Modelos Lineares

Um modelo linear pode ser escrito como

ŷ = wi 0 + wi 1 u1 + wi 2 u2 + · · · + wip up
ou
p
X
ŷ = wi ui com u0 = 1
i =0

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 103 / 152
Modelos Lineares
Por exemplo um modelo linear para duas entradas representa um plano.

Para dimensões superiores um modelo linear representa um hiperplano


onde o parâmetro offset w0 determina o valor de ordenada para U = 0, e
os parâmetros de wi , i > 0, determinam a inclinação do hiperplano na
direcção de ui . Na formulação de funções de base as entradas ui são as
funções de base, os coeficientes wi são os parâmetros lineares, e não
existem parâmetros não-lineares.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 104 / 152
Modelos Lineares

Os parâmetros de um modelo linear podem ser estimados por mı́nimos


quadrados com a seguinte matriz de regressão X e vetor de parâmetros θ:
   
1 u1 (1) up (1) w0
 1 u1 (2) up (2)   w1 
X =  .. .. .. ..  ; θ =  .. 
   
 . . . .   . 
1 u1 (N) up (N) wp

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 105 / 152
Modelos Lineares

As propriedades mais importantes de modelos lineares são os seguintes:

• Comportamento de interpolação é linear.

• Comportamento de extrapolação é linear, ou seja, as inclinações ficam


constantes.

• Não existe localidade. Um modelo linear possui uma caracterı́stica


totalmente global.

• A precisão é geralmente baixa. É pior quanto maior for a caracterı́sticas


não linear do processo.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 106 / 152
Modelos Lineares

• Suavidade é alta. A derivada da saı́da do modelo permanece constante


ao longo de toda a faixa de operação.

• A sensibilidade ao ruı́do é muito baixa, já que todas as amostras de


dados de treino são exploradas para estimar alguns poucos parâmetros do
modelo (caracterı́sticas de aproximação global).

• Otimização de parâmetros pode ser realizada muito rapidamente por um


algoritmo de mı́nimos quadrados.

• Otimização da estrutura pode ser realizada de forma eficiente através de


uma técnica de seleção de subconjuntos lineares, como o algoritmo de
mı́nimos quadrados ortogonais.

• Adaptação em linha pode ser realizada de forma eficiente com um


algoritmo de mı́nimos quadrados recursivos
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 107 / 152
Modelos Lineares

• Velocidade de treinamento é rápida. Ela aumenta com complexidade


cúbica ou mesmo apenas com a complexidade quadrada se é explorada a
estrutura Toeplitz da Hessiana X T X .

• Velocidade de avaliação é rápida, já que apenas p multiplicações e


adições são necessárias.

• Crescimento da dimensionalidade é baixa porque o número de parâmetros


aumenta somente linearmente com a dimensionalidade de entrada.

• A interpretação é possı́vel se insights podem ser inferidos a partir dos


parâmetros de deslocamento e inclinação.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 108 / 152
Modelos Lineares

• Incorporação de restrições para a saı́da do modelo e dos parâmetros é


possı́vel se um algoritmo de programação quadrática é usado em vez dos
mı́nimos quadrados.

• Incorporação de conhecimento prévio sobre os valores dos parâmetros


esperados é possı́vel na forma técnica de regularização de regressão.

• O uso é muito grande. Modelos lineares são os modelos padrão.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 109 / 152
Modelos Polinomiais

Polinômios são a extensão clássica simples de modelos lineares. Quanto


maior o grau polinomial mais flexı́vel o modelo se torna. Um polinômio
p-dimensional de grau l é dado por:

p
X X p
p X p
X p
X
ŷ = w0 + wi ui + wi1 i2 ui1 ui2 + · · · + ··· wi1 ···il ui1 · · · uil
i =1 i1 =1 i2 =i1 i1 =1 i2 =il −1

O offset e a primeira soma de descrevem um modelo linear, a segunda


soma descreve os termos de segunda ordem, como u12 , u1 u2 , etc, e a última
soma descreve os termos de ordem l -esima.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 110 / 152
Modelos Polinomiais

Pode-se mostrar que o polinômio p-dimensional de grau l possui

(l + p)!
M= −1
l !p!
termos excluindo o deslocamento (M é o número de funções de base,
M + 1 é o número de parâmetros)
Assim, este polinomial também pode ser expresso como
M
X
ŷ = θ i xi ; x0 = 1
i =0

onde θi xi , i = 0, . . . , M correspondende com o i -esimo termo do modelo.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 111 / 152
Modelos Polinomiais

Por exemplo, um polinómio de segunda grau de três entradas torna:

ŷ = θ0 +θ1 u1 +θ2 u2 +θ3 u3 +θ4 u1 2 +θ5 u1 u2 +θ6 u1 u3 +θ7 u2 2 +θ8 u2 u3 +θ9 u3 2

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 112 / 152
Modelos Polinomiais

Os parâmetros do modelo polinomial podem ser estimados por mı́nimos


quadrados. A matriz de regressão X e o vetor de parâmetros θ para um
modelo polinomial de grau l para p entradas é:

u1 2 (1) up l (1)
   
1 u1 (1) ··· up (1) ··· θ0
 1 u1 (2) ··· up (2) u1 2 (2) ··· up l (2)   θ1 
X = .. .. .. .. .. ; θ= ..
   

 . . . . .   . 
1 u1 (N) · · · up (N) u1 2 (N) · · · up l (N) θM

com M como o número de funções de base.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 113 / 152
Modelos Polinomiais

• É óbvio que o número de parâmetros e, portanto, a complexidade do


modelo cresce fortemente com um aumento do número de entradas p
e/ou grau polinomial l .

• Portanto, mesmo para problemas de tamanho moderado a estimação de


um modelo polinomial completo está além da viabilidade prática, no que
diz respeito tanto ao enorme erro de variância e à alta demanda
computacional.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 114 / 152
Modelos Polinomiais

• Por conseguinte, para quase todos os problemas não-triviais, os modelos


polinomiais podem apenas ser aplicadados em combinação com uma
técnica de selecção de estrutura.

• Estes esquemas de seleção estrutura pode escolher automaticamente os


termos relevantes de um polinômio completo e levar a um modelo
polinomial reduzido com significativamente menos parâmetros.

• Embora a aplicação de técnicas de seleção de estrutura faz com que os


modelos polinomiais sejam poderosos, o grande número de termos em
polinômios completos é um inconveniente grave porque a seleção de
estrutura demanda muito calculo.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 115 / 152
Modelos Polinomiais

• Outra desvantagem dos modelos polinomiais é a sua tendência para


comportamento oscilatório em interpolação e extrapolação, especialmente
quando são usados altos graus.

• Além disso, a extrapolação dos polinómios tende para +∞ ou −∞ como


para modelos lineares, mas com uma velocidade muito mais rápida.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 116 / 152
Modelos Polinomiais

• O comportamento extrapolação é determinado basicamente pelas termos


de mais alta ordem, com enormes derivadas.

• Além disso, a extrapolação também podem ser não monótona e não


estar relacionada com a tendência do modelo no inicio da extrapolação.

• Os pontos fracos de polinômios têm levado ao desenvolvimento de


splines, que são polinômios de baixo grau definidos localmente.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 117 / 152
Modelos Polinomiais

As propriedades dos polinómios pode ser resumido como se segue:

• Interpolação: comportamento tende a ser não-monotônico e oscilatório


para polinômios de alto grau.

• Extrapolação: comportamento tende fortemente para +∞ ou −∞, com


uma taxa determinada pelos termos de mais alta ordem.

• Localidade não existe. Um polinômio possui uma caracterı́stica


totalmente global. A precisão é limitada uma vez que os polinômios de
alto grau não são praticáveis??.

• Suavidade é baixa. A derivada da saı́da do modelo muitas vezes muda


de sinal devido ao comportamento de interpolação oscilatório .

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 118 / 152
Modelos Polinomiais

• A sensibilidade ao ruı́do é baixa, já que todas as amostras de dados de


treino são exploradas para estimar os parâmetros do modelo
(caracterı́sticas de aproximação global). No entanto, isso significa que os
dados de treinamento que forem localmente muito barulhento podem
influenciar significativamente o comportamento do modelo em todos os
regimes de funcionamento.

• Otimização de parâmetros pode ser realizada muito rápido por um


algoritmo de mı́nimos quadrados. No entanto, o número dos parâmetros
aumenta rapidamente com o aumento da dimensionalidade de entrada e /
ou grau polinomial.

• Otimização da estrutura pode ser realizada de forma eficiente por um


algoritmo de mı́nimos quadrados ortogonais. No entanto a seleção
estrutura pode se tornar extremamente lenta para problemas de
alta-dimensional.
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 119 / 152
Modelos Polinomiais

• Velocidade de treinamento é rápida para otimização de parâmetros, mas


diminui consideravelmente para otimização da estrutura.

• Velocidade de avaliação é médio. Os termos de ordem superior podem


ser calculadas a partir dos as de baixa ordem para diminuir cálculos: por
exemplo, u 6 pode ser calculado apenas com uma multiplicação, se u 5 é
conhecido.

• Aumento por dimensionalidade é alta. O número de parâmetros cresce


fortemente com o aumento da dimensão da entrada.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 120 / 152
Modelos Polinomiais

• Interpretação é quase impossı́vel. Somente se o modelo polinomial


corresponde à verdadeira estrutura do processo podem seus valores de
parâmetros ser significativos em algum sentido fı́sico.

• Incorporação de restrições para a saı́da do modelo é possı́vel se for usado


um algoritmo de programação quadrática em vez dos mı́nimos quadrados.
Incorporação de conhecimento prévio dificilmente é possı́vel uma vez que a
interpretação do modelo é muito limitada.

• O usabilidade é alta. Modelos polinomiais são comumente usados dado


que interpolação por polinômios é uma ferramenta padrão ensinada em
matemática.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 121 / 152
Modelos Look Up Table

• Look Up Table de longe são o tipo mais comum de modelos estáticos


não-lineares em implementações no mundo real, pelo menos por problemas
com espaços de entrada uni ou bi dimensionais.

• A razão para isso reside na sua simplicidade e sua extremamente baixa


demanda de avaliação computacional.

• Além disso, na maioria das aplicações onde são utilizadas tabelas de


consulta, o procedimento de ”treinamento”é um mero armazenamento de
dados de treinamento - não são utilizados técnicas de otimização.

• Todas essas caracterı́sticas fazem das tabelas de consulta os modelos do


”estado da arte”para mapeamentos estáticos de baixa dimensionalidade.

• Um campo particularmente importante para a aplicação de tabelas de


consulta é a área automovilistica.
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 122 / 152
Modelos Look Up Table
A razão para a grande quantidade de tabelas de consulta e o imenso
aumento de complexidade ao longo dos últimos anos é principalmente uma
consequência da aplicação de mapeamentos uni e bidimensionais.

As principais razões para a restrição a esses mapeamentos de baixa


dimensionalidade são:

• Mapeamentos uni e bidimensionais podem ser visualizados; aqueles de


dimensão superior não podem.

• Mapeamentos de baixa dimensionalidade podem ser realizado com


look-up tables baseados em grade; aqueles de dimensão superior não
podem, dado que look-up tables sofrem severamente com o crescimento
da dimensionalidade. Então, se as verdadeiras relações são de dimensões
superiores, normalmente são combinados muitas tabelas de consulta de
baixa dimensão de modo aditivo ou multiplicativo.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 123 / 152
Modelos Look Up Table

O segundo ponto pode ser superado pelo uso de modelos mais


sofisticados. A primeira questão, porém, é de caráter fundamental e só
pode ser atendida pela aplicação de modelos interpretáveis ??com
comportamento de extrapolação e interpolação bem compreendidos.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 124 / 152
Modelos Look Up Table Unidimensionais
A parte superior da figura mostra uma tabela look-up unidimensional, com
seis pontos (WI CI ’) para (ct;, W6).

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 125 / 152
Modelos Look Up Table Unidimensionais
Para seis valores de entrada CI a C6 os valores ou as alturas de saı́da
correspondentes WI para W6 são armazenados nesta tabela.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 126 / 152
Modelos Look Up Table Unidimensionais
Muitas vezes, esses valores decorrem diretamente das medidas de entrada
/ saı́da do processo, ou seja, eles representam os dados de treinamento.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 127 / 152
Modelos Look Up Table Unidimensionais
A saı́da do modelo tabela de consulta é determinado pelos pontos mais
próximos tabela a esquerda e a direita da entrada do modelo. E é calculado
a partir da interpolação linear de ambas as alturas correspondentes.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 128 / 152
Modelos Look Up Table Unidimensionais

Assim, para uma tabela look-up unidimensional a saı́da fica:

wleft (cright − u) + wright (u − cleft )


ŷ =
cright − cleft
onde (cleft , wleft ) e (cright , wright ) são os pontos mais próximos para a
esquerda e para a direita de u, respectivamente.

Assim, para u = cleft ⇒ ŷ = wleft e para u = cright ⇒ ŷ = wright .

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 129 / 152
Modelos Look Up Table Unidimensionais

• Para extrapolação, por exemplo, se u não possui nenhum vizinho à


esquerda ou direita, a saı́da não está definida.

• No entanto, qualquer tipo de comportamento de extrapolação pode ser


introduzido artificialmente.

• Normalmente, a altura da tabela é mantida constante para extrapolação.

Para o exemplo na figura isso significa que para u < c1 ⇒ ŷ = w1 e para


u > c6 ⇒ ŷ = w6 .

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 130 / 152
Modelos Look Up Table Unidimensionais

O modelo unidimensional pode ser descrito, no âmbito da funções de base,


pela introdução das funções de base triangular, como mostrado na figura
usando:
M
X
ŷ = wi Φi (u, C )
i =1

onde C = [c1 c2 . . . cM ]T contém os valores de entrada dos M pontos da


tabela.

Os ci representam as posições ou centros das funções de base.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 131 / 152
Modelos Look Up Table Unidimensionais

Sob a hipótese de que estes centros ci são monótona crescentes, as


funções de base podem ser escritas como:

 (u − ci −1 ) / (ci − ci −1 ) para ci −1 ≤ u ≤ ci
Φi (u, C ) = (u − ci +1 ) / (ci − ci +1 ) para ci ≤ u ≤ ci +1
0 outro caso

Note-se que a i-ésima função de base depende apenas dos centros


ci −1 , ci , ci +1 e não em todo o vector. Estas funções de base realizam
interpolação linear de tabela. Estas formam uma partição da unidade, o
que significa que somam 1 para qualquer entrada:
M
X
Φi (u, C ) = 1
i =1

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 132 / 152
Modelos Look Up Table Bidimensionais
A extensão para introduzir espaços de dimensões superiores é feito
classicamente por uma abordagem baseada em grade. A figura mostra os
valores de entrada para pontos de uma tabela bidimensional equidistante
com 10 x 7 pontos. O número de pontos em cada dimensão pode ser
escolhido de forma diferente de acordo com as exigências de precisão e
caracterı́sticas do processo. Em princı́pio, esta abordagem baseada em
grade pode ser estendido para mapeamentos dimensões arbitrárias.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 133 / 152
Modelos Look Up Table Bidimensionais

No entanto, o número de pontos de dados para uma tabela p-dimensional


é:
p
Y
M= Mi
i =1

onde Mi é o número de pontos para a dimensão de entrada i .

Obviamente, o número de pontos de dados M, que é igual ao número de


funções de base, aumenta exponencialmente com o número de entradas p.
Consequentemente, tabelas baseadas em grade tem problema de
dimensionalidade e, portanto, na prática eles não podem ser usados para
problemas com mais de três entradas.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 134 / 152
Modelos Look Up Table Bidimensionais
A saı́da de um modelo bidimensional é determinada pelos pontos mais
próximos ao canto inferior esquerdo, inferior direito, superior esquerdo e
superior direito da entrada do modelo.

Assim, no exemplo da figura o resultado do modelo é:


w2,2 a1,1 + w2,1 a1,2 + w1,2 a2,1 + w1,1 a2,2
ŷ =
a1,1 + a1,2 + a2,1 + a2,2
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 135 / 152
Modelos Look Up Table Bidimensionais

w2,2 a1,1 + w2,1 a1,2 + w1,2 a2,1 + w1,1 a2,2


ŷ =
a1,1 + a1,2 + a2,1 + a2,2
com areas

a1,1 = (u1 − c1,1 ) (u2 − c2,1 )


a1,2 = (c1,2 − u1 ) (u2 − c2,1 )
a2,1 = (u1 − c1,1 ) (c2,2 − u2 )
a2,2 = (c1,2 − u1 ) (c2,2 − u2 )

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 136 / 152
Modelos Look Up Table Bidimensionais

Cada altura wi ,j é ponderada com a área oposta. As equações realizam a


chamada interpolação bilinear ou interpolação de área. A interpolação
linear pura não pode ser realizado dado que, em geral, não pode ser
garantido que todos os quatro pontos ao redor fiquem sobre uma função
linear (um plano). Pelo contrário, a interpolação bilinear pode ser vista
como o ajuste da seguinte função quadrática através de todos os quatro
pontos circundantes:

ŷ = θ0 + θ1 u1 + θ2 u2 + θ3 u1 u2
Este é um polinômio bidimensional restrito de grau 2, onde os termos u1 2
e u2 2 são descartados.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 137 / 152
Modelos Look Up Table Bidimensionais
Com os parametros θ escolhidos apropriadamente o modelo bilineal e o
definido pelo grid são identicos.

Uma propriedade interessante da interpolação bilinear é que ela se reduz a


interpolação linear unidimensional se uma entrada é fixa. Ou seja, todos
os cortes em eixos paralelos, feitos através da superfı́cie da interpolação
são funções lineares. Em contraste, todos os cortes em eixos não paralelos
podes ser descritos por uma função quadrática.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 138 / 152
Modelos Look Up Table Bidimensionais
A tabela bidimensional (e também as de dimensões maiores) pode ser
descrita em uma formulação de funções de base semelhante à tabela uni
dimensional. Uma função de base corresponde a cada ponto na tabela e
possui a mesma dimensionalidade do espaço de entrada. A figura ilustra a
forma destas funções de base para uma tabela 5 x 5.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 139 / 152
Modelos Look Up Table Bidimensionais
Para a formulação de função de base, os parâmetros lineares (altura) tem
de ser re-indexado de modo a que todos wi ,j (i = 1, ..., M1 , j = 1, ..., M2 )
são mapeados para θl (l = 1, ..., M1 M2 ) .

Extensão para mais de duas dimensões de entrada é simples. A regra de


interpolação da área pode ser estendido para uma regra interpolação em
volume e hipervolume.
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 140 / 152
Otimização das alturas
Se os dados de medição não se encontram sobre um grid ou se o número
de pontos armazenados na tabela de consulta é menor do que o número de
amostras de dados disponı́veis, os pontos de tabela têm de ser estimados a
partir dos dados.

A abordagem mais simples para resolver esta tarefa é corrigir as posições


dos pontos (os centros das funções de base), uma vez que estes são os
parâmetros não-lineares, e otimizar as alturas de dados.

Para uma tabela p-dimensional o número de ”alturas”é igual ao número de


pontos armazenados
p
Y
Mi
i =1

onde Mi é o número de pontos para a dimensão de entrada i .

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 141 / 152
Otimização das alturas
As alturas são parâmetros lineares, e que, consequentemente, podem ser
estimados por mı́nimos quadrados. A matriz de regressão e o vetor de
parâmetros são ;
   
Φ1 (u (1) , C ) Φ2 (u (1) , C ) · · · ΦM (u (1) , C ) w1
 Φ1 (u (2) , C ) Φ2 (u (2) , C ) · · · ΦM (u (2) , C )   w2 
X = .. .. ..  ; θ =  ..
   

 . . .   . 
Φ1 (u (N) , C ) Φ2 (u (N) , C ) · · · ΦM (u (N) , C ) wM
onde N é o número de amostras de dados e M é o número de pontos da
tabela. A matriz de regressão X é tipicamente esparsa. Cada linha de X
contém apenas 2p entradas diferentes de zero, onde p é a dimensão do
espaço de entrada.

Se os dados de medição não preenchem todo o espaço de entrada, algumas


funções de base não serão ativadas e X conterá colunas de zeros. Assim, a
matriz de regressão X pode-se tornar singular. A fim de poder resolver o
problema os regressores e seus pesos têm que ser removidos de X e θ.
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 142 / 152
Otimização do grid
A optimização dos centros das funções de base não pode ser realizado
individualmente a fim de manter a estrutura do grid. Na verdade, apenas
têm de ser optimizados
Xp
Mi
i =1

parâmetros não-lineares, isto é, a soma do número de pontos por entrada.


Assim, o número de parâmetros não-lineares só cresce linearmente com a
dimensionalidade do espaço de entrada, enquanto o número de parâmetros
lineares cresce exponencialmente. Isto é devido às limitações impostas
para a estrutura baseada em grade.

Em princı́pio, qualquer técnica de optimização não linear pode ser aplicada


para estimar a grade. Os valores iniciais podem ser determinados pelo
conhecimento prévio (quando disponı́veis) ou podem ser escolhidos de uma
forma equidistante.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 143 / 152
Otimização do grid

Se é usada interpolação linear, os gradientes da função de custo, no que


diz respeito aos centros de função de base, são funções não-contı́nuos e
ainda podem não existir nos centros das funções de base. No entanto, os
esquemas de otimização baseados em gradiente podem ser aplicado ao
ajustar explicitamente o gradiente a zero nos pontos dos centros. Os
gradientes geralmente não são calculados analiticamente pois podem
resultar equações bastante complexas. Técnicas de diferenças finitas
podem ser aplicadas para a aproximação de gradiente e evitar problemas
nos pontos de centro.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 144 / 152
Otimização do grid
Os gradientes de uma tabela unidimensional podem ser calculados como se
segue:
∂ŷ ∂Φi −1 ∂Φi ∂Φi +1
= wi −1 + wi + wi +1
∂ci ∂ci ∂ci ∂ci
uma vez que todas as outras funções de base não dependem de i .
Assume-se que 1 < i < M; para os casos em que i = 1 e i = M e o
primeiro e o último termo, respectivamente, da soma devem ser
descartados. As derivadas das funções de base afetadas são

 0 para ci −2 ≤ u ≤ ci −1
∂Φi −1 2
∂ci =  (u − ci −1 ) /(ci −1 − ci ) para ci −1 ≤ u ≤ ci
0 outro caso
 2
 − (u − ci −1 ) /(ci − ci −1 ) para ci −1 ≤ u ≤ ci
∂Φi 2
∂ci =  − (u − ci +1 ) /(ci − ci +1 ) para ci ≤ u ≤ ci +1
0 outro caso
2

 (u − ci +1 ) /(c i +1 − ci) para ci ≤ u ≤ ci +1
∂Φi +1
∂ci =  0 para ci +1 ≤ u ≤ ci +2
0 outro caso
Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 145 / 152
Otimização do grid

• Para as tabelas de dimensões superiores o cálculo gradiente torna-se


ainda mais complexo dado que mais funções de base são ativadas por uma
amostra e mais casos diferentes têm que ser distinguidos.

• Ao realizar a otimização não-linear da rede, devem ser tomados cuidados


especiais para evitar os seguintes problemas. Durante a optimização dos
centros um pode ultrapassar o outro, ou que pode ser movimentado para
fora da area de significado fı́sico. Estas complicações podem ser evitadas
através da imposição de restrições sobre os problemas de otimização.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 146 / 152
Propriedades dos modelos Look Up Table

• Comportamento de interpolação é linear por partes, e, assim, a saı́da do


modelo não pode ser diferenciada nos pontos dos centros. Este problema
pode ser superado usando ordem de interpolação superiores (ou funções de
base, respectivamente).

• Comportamento extrapolação não existe. No entanto, qualquer tipo


pode ser definido pelo utilizador. Tipicamente, é definido o
comportamento extrapolação constante, ou seja, a altura do centro mais
próximo determina o resultado do modelo.

• Localidade é forte. As funções de base tem suporte estritamente local,


ou seja, eles são diferentes de zero apenas em uma pequena região do
espaço de entrada. Uma amostra de dados de treinamento afeta apenas os
seus pontos vizinhos na tabela.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 147 / 152
Propriedades dos modelos Look Up Table

• A precisão é media dado que são necessários um grande número de


parâmetros para modelar um processo para uma determinada precisão.
Isto é devido ao fato de que os pontos são colocados em uma grade, o que
faz com que o modelo de look-up table menos flexı́vel.

• A suavidade é muito ruim, já que a saı́da do modelo não é sequer


diferenciável.

• A sensibilidade ao ruı́do é muito alta, já que apenas algumas amostras


de dados de treino são exploradas para estimar os parâmetros devido que
as funções base são estritamente locais.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 148 / 152
Propriedades dos modelos Look Up Table

• A otimização de parâmetros de alturas pode ser realizada muito rápido


por um algoritmo de mı́nimos quadrados

• A otimização da estrutura é muito difı́cil de ser realizada. Não existem


métodos padrão para optimizar a estrutura de uma look-up table.

• Adaptação on-line é possı́vel. A fim de evitar dificuldades imprevisı́veis


com a convergência apenas os parâmetros lineares (altura) deve ser
adaptados em linha.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 149 / 152
Propriedades dos modelos Look Up Table

• Velocidade de Treinamento é alta, se apenas as alturas são otimizados.

• Velocidade de avaliação é muito alta, em especial para uma grade


equidistante. Esta é uma das principais razões para a ampla aplicação de
tabelas na prática.

• Crescimento da dimensionalidade é extremamente elevado devido à


abordagem baseada em grade. O número de entradas é, portanto, limitado
a três ou quatro (no máximo).

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 150 / 152
Propriedades dos modelos Look Up Table

• Interpretação é pobre, pois o número de pontos é geralmente alto e


nenhuma significado está associado a eles. No entanto, uma tabela de
consulta pode ser convertida num modelo difuso e, consequentemente,
interpretadas de forma correspondente.

• Incorporação de restrições sobre a grade e sobre as alturas é fácil.

• Tipicamente o número de pontos é tão grande que a ausência de


interpretabilidade não permite que o conhecimento prévio possa ser
incorporado facilmente.

• A usabilidade é muito alta para mapeamentos de baixa dimensionalidade.

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 151 / 152
Comparação

Nestor Roqueiro (UFSC) Introdução à Identificação de Sistemas Florianópolis, 2017 152 / 152