Você está na página 1de 114

INTRODUÇÃO À IDENTIFICAÇÃO DE MODELOS DISCRETOS PARA SISTEMAS DINÂMICOS

Faculdade de Engenharia de Universidade do Porto

Novembro de 2002

A. Paulo G.M. Moreira, Paulo J. G. Costa, Paulo J. Lopes dos Santos

-

1 -

ÍNDICE

1.

MODELOS

4

1.1 - Introdução

4

1.2 – Modelos deterministicos

5

 

1.2.1 – Modelos de entrada-saída

5

1.2.2 – Modelos de estado

7

1.3 – Modelos estocásticos

7

1.3.1 – Modelos de entrada-saída

8

1.3.2 – Modelos de estado

12

1.3.3 – Previsões da saída e erros de previsão em sistemas com perturbações

13

1.4 - Resumo

15

2 - MÍNIMOS QUADRADOS

18

2.1 - Formulação

18

2.2 – Interpretação geométrica

20

2.3 – Interpretação estatística

21

2.3.1 – Teoria geral

21

2.3.2 – Teoria normal

25

2.4 - Resumo

3. MÍNIMOS QUADRADOS NA IDENTIFICAÇÃO DE SISTEMAS DINÂMICOS

30

32

3.1

– Mínimos quadrados ordinários

32

3.2- Variáveis instrumentais

36

3.3- Mínimos quadrados generalizados

39

3.4

- Resumo

41

4- PLANEAMENTO DE EXPERIÊNCIAS DE IDENTIFICAÇÃO

44

4.1 – Condições mínimas para o sinal de excitação

44

4.2 – Sequências binárias pseudo-aleatórias

45

4.3 – Testes de ordem do modelo

48

 

4.3.1 – Métodos baseados na análise dos resíduos

48

4.3.2 –Diagrama de pólos e zeros

49

4.3.3 – Simulação com outro conjunto de dados

50

4.4 – Considerações gerais

5. – EXEMPLO 1: MODELIZAÇÃO E IDENTIFICAÇÃO DE UM ROBOT MÓVEL (INCAL)

50

52

5.1 – Cinemática

53

5.2 - Equações Cinemáticas em Tempo Discreto

54

5.2.1

- Discretização Por Diferenças Avançadas

54

5.2.2

Discretização Por Diferenças Centradas

55

5.2.3

Discretização Exacta

56

5.3 Estimação dos Parâmetros das Equações Cinemáticas

56

5.4 Cinemática em Acção

57

5.5 Dinâmica

59

5.6 Modelo Teórico dos Motores

59

5.7 A Não Linearidade dos Motores

61

5.8 Equações da Dinâmica

62

5.9 Estimação dos Parâmetros das Equações da Dinâmica

63

5.9.1

Outros Estimadores

64

5.10 Resultados da Estimação

- 2 -

64

5.10.1

Experiência I

65

5.10.2 Experiência II

75

5.11 A Incerteza da Estimativa

80

5.12 Estimação dos Parâmetros da Não linearidade Associada aos Motores

86

6 – EXEMPLO 2: MODELO TÉRMICO DE UMA CUBA DE FERMENTAÇÃO

90

6.1 - Modelos deterministicos

90

6.1.1 - Modelo de estrutura variante

92

6.1.2 - Modelo de estrutura fixa

98

6.2 - Modelos estocásticos

101

APÊNDICE A - ESTIMADORES

105

REFERÊNCIAS BIBLIOGRAFICAS

114

- 3 -

1.

MODELOS

1.1 - Introdução

A rápida evolução dos computadores e dos sistemas baseados em microprocessadores possibilitou que hoje em dia possam ser utilizados em larga escala nos sistemas de controlo digital.

processo r(t k ) u(t k ) u(t) y(t) algoritmo de conversor contínuo a controlo
processo
r(t k )
u(t k )
u(t)
y(t)
algoritmo de
conversor
contínuo a
controlo
D/A
controlar
conversor
y(t k )
A/D
Fig. 1.1 - Sistema controlado por um computador digital

Na figura 1.1 pode-se observar um diagrama de blocos de um sistema controlado digitalmente. O sinal y(t) é um sinal contínuo e é a saída do processo. É convertido na forma digital num conversor analógico-digital (A/D). A conversão é comandada por um relógio e é feita nos instantes de amostragem t k . O computador interpreta o sinal convertido como uma sequência de números {y(t k )}, compara-a com a referência {r(t k )} e calcula uma sequência (u(t k )) através de um algoritmo de controlo apropriado. O conversor digital-analógico (D/A) transforma a sequência {u(t k )} num sinal analógico u(t) que comanda o processo. Esta conversão também é sincronizada e, normalmente, u(t) mantém-se constante entre dois instantes de amostragem [1]. Como os algoritmos de controlo só precisam de descrever o processo nos instantes de amostragem, este deve ser modelizado como um sistema discreto. Os sistemas discretos processam sequências de números e, por isso podem ser representados por equações às diferenças. Se uma equação às diferenças relacionar a saída do sistema com as entradas e as saídas, em instantes anteriores, diz-se que o sistema é descrito por um modelo de entrada-saída. Estes modelo são do tipo

y(t k ) = f(y(t k-1 ), y(t k-2 ),…,u(t k ),u(t k-1 ),…,t k )

y(t k ) e P - saídas do sistema

u(t k ) e S - entradas do sistema

- 4 -

(1.1)

Como foram eliminadas todas as variáveis internas do sistema, considera-se que a equação é um

modelo externo. Se as equações às diferenças forem formuladas nos espaços dos estados, obtém-se o

seguinte modelo

x(t k+1 ) = a(x(t k ),u(t k ),t k )

y(t k ) = c(x(t k ),u(t k ),t k )

(1.2)

x(t k ) n - vector de variáveis de estado

y(t k ) P - saídas do sistema

u(t k ) S - entradas do sistema

Como vector x(t k ) é um vector de variáveis internas do sistema, as equações (1.2) constituem um

modelo interno.

Infelizmente, na maioria dos casos as funções f(.), a(.) e c(.) não são lineares. Isto pode tornar os

algoritmos de controlo de tal forma complexos, que a sua implementação prática seja inviável. Para

fugir a este problema, costuma-se linearizar o sistema à volta do seu ponto (ou da sua trajectória) de

funcionamento. Normalmente isto não levanta problemas, pois sendo o objectivo do controlo manter

o sistema num ponto (numa trajectória) de funcionamento predeterminado(a), interessa descrever o

seu comportamento na vizinhança deste(a) ponto (trajectória). Na maioria dos casos, isto pode ser

feito através de modelos lineares [4].

Sendo T o período de amostragem, para se simplificar a notação refere-se o sinal y(t) no instante de

tempo t = k*T = t k , y(t k ), simplesmente como y(k).

1.2 – Modelos deterministicos

1.2.1 – Modelos de entrada-saída

Nos sistemas lineares discretos com uma entrada e uma saída, o modelo (1.1) toma o seguinte aspecto

nb y(k) = - a i (k) y (k-i) + b i (k) u(k-i)

na

i=1

i=0

Se o sistema for invariavelmente no tempo

- 5 -

(1.3)

nb

na y(k) = - a i y (k-i) + b i u(k-i)

(1 .4)

i=1

i=0

Definindo-se q 1 como operador de atraso

q -1 u(k) = u(k-1)

(1.5)

a equação (1.4) pode-se colocar na forma:

A(q -1 ) y(k) = B(q -1 ) u(k)

(1.6)

com

A(q -1 ) =1 +a 1 q -1 +…+a na q -na

B(q -1 ) = b 0 +b 1 q -1 +…+b nb q nb

Se y(k) = 0, k = -1,…,-na e u(k) = 0, k = 0, -1,…,-nb, as transformadas Z das sequências {u(k)} e

{y(k)} são relacionadas por:

z (nb-na) A*(z) y(z) = B*(z) U(z)

Y(z)

U(z) = A*(z)z

B*(z)

-(nb-na) = B(z -1 )

A(z -1 )

= H(z)

(1.7)

(1.8)

A*(z) = z -na A(z -1 ) e B* (z) = z nb B(z -1 )

H(z) será a função de transferência do sistema. O comportamento dinâmico do sistema é determinado

pela localização dos pólos e dos zeros de H(z).

Ao compararem-se as equações (1.6) e (1.8), conclui-se que as relações entre Y(z) e U(z) e entre

{y(k)} e {u(k)} utilizando o operador q -1 , são idênticas . Com base neste facto, utiliza-se por vezes o

operador q -1 quando seria mais correcto utilizar-se z -1 ou vice-versa. No entanto é fácil tirar-se do

se

q -1 deve ser interpretado como operador de atraso unitário ou como inverso da variável da

contexto

transformada z.

- 6 -

1.2.2 – Modelos de estado

A representação dum sistema discreto com uma entrada e uma saída no espaço dos estados e feita a

partir das seguintes equações:

x(k+1) = φ x(k) + Γ u(k)

y(k) = C X(k) + D u(k)

com

y(k) e u(k) escalares

x(k) n

(1 .9)

A utilização do operador q -1 permite calcular um modelo de entrada-saída

x(k) = q -1 φ x(k) + q -1 Γ u (k)

( I – q -1 φ) x(k) = q -1 Γ u(k)

se (I- q -1 φ) for invertivel

x(k) = (I- q -1 φ) -1 q -1 Γ u(k)

e

y(k) = [C(I- q -1 φ) -1 q -1 Γ + D] u(k)

A função de transferência será:

H(z) =

1.3 – Modelos estocásticos

Y(z)

U(z)

= C(I- z -1 φ) -1 z -1 Γ + D = C(z I- φ) -1 Γ + D

(1.13)

(1.10)

(1.11)

(1.12)

Os modelos que até agora foram apresentados, pressupõem que os sistemas são unicamente excitados

por sinais gerados por um controlador. Esses sinais devem ser calculados por forma a garantirem um

determinado comportamento. Na prática, verifica-se que a resposta dos sistemas não é completamente

coincidente com a dos modelos. 0s desvios podem ser devidos a erros de modelização, imprecisões

- 7 -

nos sensores e nos conversores, variações na carga e interacções com o meio ambiente. Nos modelos

lineares este fenómenos podem ser representados como um sinal perturbador na saída do sistema.

y(k) = ¯y (k) + η(k)

η(k) - perturbações

¯y (k) - saída sem perturbações

(1.14)

Na teoria de controlo estocástico, considera-se que as perturbações são processos estocásticos com

média nula e covariância estacionária. O Teorema da densidade espectral [1,3] permite que sejam

modelizadas como sinais de saída de sistemas lineares de fase mínima [3] excitados por ruído branco.

Para descrever esses sistemas, podem-se utilizar modelos de entrada-saída ou modelos de estado.

1.3.1 – Modelos de entrada-saída

Define-se Densidade Espectral φ(e jw ) de um processo estocástico com variância estacionária, como

sendo a transformada de Fourier da sua função de covariância [3]. O Teorema de Densidade Espectral

diz que uma densidade espectral φ(e jw ) pode ser factorizada da seguinte forma

desde que:

φ(e jw ) = H(e jw ) σ 2 H(e - jw )

⇒ φ(q) = H(q) σ 2 H(q)

(1.15)

i) H(q) tenha todos os pólos e zeros no interior do circulo unitário (função de transferência de

um sistema de fase mínima [3])

ii) lim

q→∞

H(q) = 1

Se na equação (1.14) η(k) for um processo estocástico com média nula, covariância estacionária e

densidade espectral H 2 (e jw )σ 2 H 2 (e - jw ), pode-se considerar que η(k) é o sinal de saída de um sistema

1inear com função de transferência:

em que:

*

H 2 (q)=q –( n g2- n f2) G

F

*

η (q) = G η (q -1 )

)

η (q)

F

η (q -1

(1.16)

G η (q -1 ) = 1 + g 1 q -1 + …+g ng2 q -ng2

- 8 -

F η (q -1 ) = 1 + f 1 q -1 +…+f nf2 q -nf2

*

G η (q) = q -ng2 G η (q -1 )

*

F η (q) = q -nf2 F η (q -1 )

excitado por uma sequência de variáveis aleatórias não correlacionadas com média nula e variância σ 2

(ruído branco).

Sendo y(t)¯

gerado por um sistema determinístico com função de transferência:

em que:

H 1 (q) = q –(ng1-nf1) G

*

*

u

(q)

G

u (q -1 )

F u (q) =

F u (q -1 )

G u (q -1 ) = g 0 (u) + g 1 (u) q 1 +…+g ng1 (u) q -ng1

F u (q -1 ) = 1 + f 1 (u) q -1 +…+f (u) nf1 q -nf1

*

G u (q) = q -ng1 G u (q -1 )

*

F u (q) = q -nf1 F u (q -1 )

chegam-se aos seguintes modelos de entrada-saída:

i)

y(k) = B(q -1 )

F(q -1 )

em que:

u(k) + C(q -1 )

D(q -1 ) ε(k)

u(k) - sinal de entrada

ε (k) - ruído branco

B(q -1 ) = G u (q -1 )

F(q -1 ) = F u (q -1 )

- 9 -

(1.18)

(1.17)

C(q -1 ) = G η (q -1 )

D(q -1 ) = F η (q -1 )

ii) A(q -1 ) y(k) = B(q -1 ) u(k) + C(q -1 ) ε(k)

em que:

A(q -1 ) = 1 + a 1 q -1 +…+ a na q -na = F u (q -1 )F η (q -1 )

L(q -1 )

L(q -1 ) = maior divisor comum de F u (q -1 ) e F η (q -1 )

B(q -1 ) = b 0 + b 1 q -1 +…+ b nb q -nb = G u (q -1 ) F η (q -1 )

L(q -1 )

C(q -1 ) = 1 + c 1 q -1 +…+ c nc q -nc = G η (q -1 ) F u (q -1 )

L(q -1 )

(1.19)

conhecidos respectivamente por modelos de Box-Jenkins [2] e Armax.

O modelo Armax interpreta as perturbações como um erro de equação:

A(q -1 ) y(k) = B(q -1 ) u(k) + e(k)

em que:

e(k) - erro de equação

( 1.20 )

O seu nome resulta do facto de ser uma combinação de componentes auto-regressiva (em inglês “Auto Regressive”) A(q -1 )y(k), média móvel (“Moving Average”) e(k) = C(q -1 )ε(k) e de controlo B(q -1 )u(k) (em econometria o sinal de entrada u(k) é conhecido por variável eXogénea).

Se o erro de equação for descrito como um processo auto-regressivo de média móvel,

D(q -1 )e(k) = C(q -1 )ε(k)

em que:

C (q -1 )=1 + c 1 q -1 + …+ c nc q -nc

- 10 -

(1.21)

D(q -1 )=1 + d 1 q -1 + …+ d nd q -nd

obtém-se o seguinte modelo

A(q -1 ) y(k) = B(q -1 ) u(k) +

em que:

A(q -1 ) = F u (q -1 )

B(q -1 ) = G u (q -1 )

C(q -1 )

D(q -1 ) e(k)

C(q -1 ) = F u (q -1 )G η (q -1 ) L(q -1 )

D(q -1 ) = F η (q -1 )

L(q -1 )

L(q -1 ) = maior divisor comum de F u (q -1 ) e F η (q -1 )

(1.22)

As equações (1.18), (1.19) e (1.22) podem ser vistas como casos particulares do modelo geral.

A(q-1) y(k) = B(q -1 ) u(k) +

F(q -1 )

C(q -1 )

D(q -1 ) ε(k)

(1.23)

Embora não seja vulgar utilizar-se todos os polinómios simultaneamente, (1.23) tem a vantagem de

permitir um tratamento unificado para os diversos modelos de entrada-saída [2].

- 11 -

1.3.2 – Modelos de estado

Viu-se atrás que um sistema com perturbações pode ser decomposto em 2 subsistemas:

- Um subsistema excitado pelo sinal de entrada

- Um subsistema excitado por ruído branco.

Se ambos forem descritos no espaço dos estados, obtém-se o seguinte modelo de estado

y(k) = C 1 x (1) (k) + D 1 u(k) + η(k)

(1.24)

η(k) = C 2 x (2) (k) + ε(k)

x (1) (k+1) = φ 1 x (1) (k) + Γ 1 u(k)

x (2) (k+1) = φ 2 x (2) (k) + Γ 2 ε(k)

em que ε(k) = ruído branco com variância σ 2

resultando:

C 1 (qI-φ 1 ) -1 Γ 1 +D 1 = H 1 (q)

(1.25)

C 2 (qI-φ 2 ) -1 Γ 2 +1= H 2 (q)

As equações (1.24) podem ser reescritas na forma:

y(k) = C x(k) + D u(k) + ε(k)

x(k+1) = φ x(t) + Γ u(k) + Kε(k)

(1.26)

Nas equações (1.24) e (1.26) o ruído de estado e o ruído de saída (erro de medida) são linearmente dependentes. Em muitas situações, sabe-se à priori, que os erros de medida são independentes das outras perturbações que afectam o sistema. Nestas condições, uma representação mais natural do sistema poderá ser feita através do seguinte modelo:

x(k+1)=φ x(k) + Γ u(k) + v(k)

- 12 -

(1.27)

em que

y(k) = C x(k) + D u(k) + n(k)

v(t) - ruído branco com variâricia Q

n(t) - ruído branco com variância R

Este representação pode ser convertida na forma (1.26) se

K = APC T (CPC T + R) -1

σ 2 = CPC T + R

(1.28)

em que P é a única matriz simétrica positiva definida que é solução da equação de Riccati [1]:

P = APA T – APC T (CPC T + R) -1 CPA T +Q

1.3.3 – Previsões da saída e erros de previsão em sistemas com perturbações

Se conhecer o estado inicial dum sistema determinístico pode-se prever exactamente o valor das suas

saídas deste que a sequência de entradas {u(k)} seja conhecida. A presença dum termo aleatório

impede que esta previsão possa ser efectuada sem erros em sistemas com perturbações estocásticas.

Nestas situações procura-se minimizar o erro da previsão. Como este erro é uma variável aleatória a

sua minimização tem que ser efectuada num contexto estatístico. Decompondo y(k) nas seguintes

parcelas

y(k)=y ^ (k/k-1)+ê(k/k-1)

(1.29)

em que y (k/k-1) é a previsão de y(k) efectuada no instante k-1 e ê(k/k-1) o respectivo erro de

previsão, pode-se afirmar a previsão será óptima quando ê(k/k-1) for a parte da y(k) que não for

possível prever no instante k-1. Nestas condições diz-se que ê(k/k-1) é a inovação no instante k.

^

Para se obter uma previsão deste tipo a partir de modelos de entrada-saída recorde-se que, neste tipo de modelos, y(k) pode ser decrito por

y(k) = H 1 (q) u(k) + H 2 (q) ε(k)

- 13 -

(1.31)

sendo H 1 (q) e H 2 (q) duas funções de transferência racionais e ε(k) ruído branco. Para que a

perturbação H 2 (q)ε(k) seja estacionária, H 2 (q) tem que ser uma função de transferência estável e o

teorema da densidade espectral impõe que:

i) [H 2 (q)] 1 seja estável

ii)

lim

H 2 (q) = 1

q→∞

Nestas condições, pode-se rescrever (1.31) na forma:

y(k)

H 2 (q) =

1 (q)

H

H 2 (q) u(k) + ε(k)

(1.32)

y(k) – [y(k) - y(k)

H 2 (q) ] = H 1 (q)

H 2 (q) u(k) + ε(k)

y(k) – [1-

y(k) = [1-

1

H

2

(q)

1

H

2

(q)

(q)

] y(k) = H 2 (q) u(k) + ε(k)

1

H

] y(k) +

H (q)

H

2 (q) u(k) + ε(k)

1

Como lim

q→∞

H 2 (q) = 1, então, se, sem perda de generalidade, se considerar n g2 =n g1 =n 2 , ter-se-á

H

2 (q)= 1+g 1 q -1 ++g n2 q

1+f 1 q -1 ++f n2 q

-n2

-n2 [1-

1 (q) ] y(k) = (f 1 -g1)q -1 ++(f n2 -g n2 )q -n2

H

2

1+f 1 q -1 ++f n2 q -n2

= (f 1 -g1)++(f n2 -g n2 )q

1+f 1 q -1 ++f n2 q

-n2

-n2+1

y(k-1)

y(k)=

(1.33)

Pode-se então concluir que [1-

consequentemente,

1

H 2 (q)

] y(k) só depende dos instantes anteriores a k

e que,

^

y (k/k-1)= [1-

1

H

2

(q)

] y(k) +

H (q)

H

2 (q) u(k)

1

(1.34)

pode ser considerado como uma previsão de y(k) efectuada no instante k-1 com erro

- 14 -

^

ê(k/k-1)= y (k/k-1)-y(k)= ε(k)

(1.35)

Como ε(k) é ruído branco não está correlacionado com y(k-j), j=1,,, e u(k-i), i=0, ,. Nestas

condições pode-se afirmar que o erro de previsão é a inovação no instante k sendo y (k/k-1) a melhor

previsão de y(k).

^

Nos modelos de estado

x(k+1) = φ x(t) + Γ u(k) + Kε(k)

y(k) = C x(k) + D u(k) + ε(k)

(1.36)

a previsão óptima pode ser calculada através do filtro de kalman em regime estacionário

x ^ (k+1/k)= φx ^ (k/k-1) + Γu(k)+K[y(k)-Cx ^ (k/k-1)-Du(k)]

y ^ (k/k-1)=Cx ^ (k/k-1)+Du(k)

Pode-se verificar facilmente que

x(k+1)-x ^ (k+1/k)=[φ-KC][x(k)-x ^ (k/k-1)]

(1.37)

(1.38)

o que significa que lim k→∞

todos os valores próprios de φ-KC estejam no interior do círculo unitário. Nestas condições o erro da

previsão tenderá para ε(k) e, consequentemente, esta será óptima

x ^ (k+1/k)=x(k), pois o facto da perturbação ser estacionária assegura que

1.4 - Resumo

Neste capítulo apresentam-se modelos lineares de sistemas discretos.

Principiou-se com o caso determinístico.

estado:

i )

A(q -1 ) y(k) = B(q -1 ) u(k)

Mencionaram-se modelos de entrada-saída e modelos de

ii) y(k) =Cx(k) + Du(k) com x(k+1) = φ x(k) + Γ u(k)

- 15 -

A função de transferência é racional e é dada por

H(q) =

B(q -1 ) A(q -1

)

= C(qI - φ) -1 Γ + D

A localização dos pólos e dos zeros de H(q) determina a dinâmica do sistema. Existe uma infinidade

de modelos que conduzem à mesma função de transferência. Se num modelo de estado não for

possível diminuir o número de variáveis de estado, mantendo-se a função de transferência, diz-se que

é uma representação mínima. As representações mínimas são acessíveis e completamente observáveis.

Uma mudança de coordenadas permite obter um novo modelo no mesmo espaço de estados. Muitas

vezes as variáveis de estado são escolhidas tendo em conta a simplicidade das equações do modelo.

As formas canónicas controlável e observável podem-se obter facilmente a partir dos modelos de

entrada-saída.

Como normalmente os sistemas são perturbados por sinais desconhecidos, nem sempre os modelos

determinísticos são descrições adequadas do seu comportamento. Na teoria estocástica, considera-se

que as perturbações são processos estocásticos com média nula e covariância estacionária. O teorema

da densidade espectral permite descrevê-las como a saída de um sistema linear com função de

transferência H 2 (q) e excitado por ruído branco ε(k). Nestas condições, os sistemas com perturbações

podem ser descritos pelo modelo:

y(k) = H 1 (q) u(k) + H 2 (q) ε(k)

A partir das funções de transferência H 1 (q) e H 2 (q) é fácil obter outros modelos de entrada-saída e

modelos de estado.

A previsão da saída y(k) dum sistema estocástico efectuada no instante k-1 não pode ser efectuada

sem erro. Esta será óptima quando o erro for a parte da saída que não se pode prever no instante k-1.

Nestas condições diz-se que o erro é a inovação no instante k. Nos sistemas descritos por modelos de

entrada-saída a previsão óptima será

e tem um erro

1

H

1 (q)

^

y (k/k-1)= [1- H 2 (q) ] y(k) + H 2 (q) u(k)

^

ê(k/k-1)= y (k/k-1)-y(k)= ε(k)

- 16 -

que sendo uma sequência de ruído branco é impossível de prever no instante k.

Nos sistemas descritos por modelos de estado a previsão óptima será dada pela saída do sistema

x ^ (k+1/k)= φx ^ (k/k-1) + Γu(k)+K[y(k)-Cx ^ (k/k-1)-Du(k)]

y ^ (k/k-1)=Cx ^ (k/k-1)+Du(k)

que não é mais do que o filtro de Kalman em regime estacionário. Tal como no caso anterior o erro de

previsão será uma sequência de ruído branco.

- 17 -

2 - MÍNIMOS QUADRADOS

2.1 - Formulação

Considere-se que um determinado fenómeno é descrito pelo seguinte modelo:

em que x T = [x 1

p

y = x j θ j = x T θ

j=1

(2.1)

x p ] é um vector de variáveis controladas e θ = [θ 1 θ p ] T um vector de parâmetros.

Se θ for desconhecido, pode ser obtido a partir da observação de y para p valores distintos de x e da

resolução do sistema de equações resultante. O valor de θ obtido por este método seria estritamente

preciso se, por um lado, as observações de y e os valores de x utilizados fossem absolutamente

correctos, e se, por outro lado, o fenómeno pudesse ser exactamente descrito pela equação (2.1).

Sabe-se que no mundo real, quer as observações, quer os modelos matemáticos não são mais o que

aproximações da verdade e, por isso, o método descrito nunca poderia conduzir a valores exactos para

os parâmetros.

Um modelo matemático mais realista para o fenómeno considerado será então

 

y m = x T θ + ε m

(2.2)

em que ε m é uma variável aleatória que representa o erro de modelização.

Qualquer observação y poderia ser descrita da seguinte forma:

y

= x T θ + ε m + ε o

(2.3)

sendo ε o , uma variável aleatória que representa os erros de observação (de y e x).

Se se definir uma nova variável aleatória:

- 18 -

ε = ε m +ε o

(2.4)

representando os erros de modelização e de observação, pode-se rescrever (2.3) com o seguinte

aspecto:

y = x T θ + ε

A natureza aleatória de ε não permite um cálculo exacto de θ baseado em observações de y.

No entanto, uma atitude razoável e optimista, é de supor que o conjunto de N observações y 1 , y i , ,y N tenta dar uma informação sobre θ, e que os erros ε 1 , , ε i , , ε N são pequenos nalgum sentido. Neste contexto, os parâmetros podem ser calculados (estimados) minimizando a seguinte função:

N

S = (y i -x i T θ) 2

i=1

(2.6)

isto é, procurando minimizar a soma dos quadrados dos erros.

Em notação matricial ter-se-á:

Donde

onde

sendo

Y = [y 1 ,

X =

S = (Y – X θ) T (Y – X θ)

,

y N ] T

x 11

.

.

.

x N1

x 12

x 1p

.

.

.

x Np

Y=Xθ+E

- 19 -

=

x

1

T

x

.

.

.

N

T

(2.7)

(2.8)

E = [ε 1 , …, ε N ] T

Derivando S relativamente a θ

^

Igualando a zero para θ = θ

dS

dθ

dS

dθ

= -2 X T Y+2X T Xθ

^

= 0 X T X θ

= X T Y

este sistema é conhecido por equações normais

[1 , 3].

(2.9)

(2.10)

Se X T X for invertível, obtém-se uma estimativa única:

^

θ

= (X T X) 1 X T Y

(2.11)

De notar que N p é condição necessária para que X T X seja invertível.

Quando a matriz X T X é singular a estimativa não é única .

2.2 – Interpretação geométrica

O estimador dos mínimos quadrados pode ser objecto duma interpretação geométrica. Segundo esta

^

interpretação, y ^ =Xθ pertence a um espaço S gerado pelas colunas de X. Se se definir um vector

^

^

R Y-Y =Y-Xθ

=

pode-se verificar que este é perpendicular a S:

R T X = (Y-Xθ ) T X = Y T X-θ ^T X T X = X T Y-X T Xθ

^

^

 

(2.12)

= 0

(2.13)

A estimação pelo método dos mínimos quadrados é, portanto, equivalente à projecção do vector das

observações no espaço gerado pelas colunas de X

- 20 -

2.3 – Interpretação estatística

2.3.1 – Teoria geral

Até agora, o método dos mínimos quadrados foi discutido em bases puramente intuitivas. Podem, contudo, ser levantadas várias questões:

- Haverá algum método que nalgum sentido seja melhor do que este?

- O número de parâmetros incluídos no modelo será suficiente?

- Será possível atribuir alguma "precisão" às estimativas obtidas?

Para se responder parcialmente a estas questões, será necessário situar o problema em termos

estatísticos.

Considere-se então o modelo

em que

Y = Xθ + E

(2.14)

Y = [y 1 , …, y N ] T é o vector aleatório das observações

e

E = [ε 1 , …, ε N ] T o vector aleatório que representa os erros.

Seja θ ^ o estimador de mínimos quadrados de θ:

Como θ ^ é uma função das observações, também é um vector aleatório.

Suponha-se agora que E tem um valor esperado nulo e uma matriz covariância σ 2 I, isto é, E é um

vector de variáveis aleatórias não correlacionadas com média nula e variância idêntica.

- 21 -

Teorema 2.1

 

^

Nas

condições

acima

mencionadas,

o

estimador

de

mínimos

quadrados

θ

tem

as

seguintes

propriedades :

i) É uma função linear das observações.

^ ^

ii) E y (θ ) = θ (isto é, θ é não enviesado)

iii) cov (θ ) = (X T X) -1 σ 2

iv) É o melhor estimador linear não enviesado no sentido em que qualquer outro estimador

^

^

linear não enviesado θ

~ terá uma matriz covariância "maior", isto é, cov(θ ~ ) cov(θ )

^

cov(θ ~ ) - cov(θ ) é uma matriz definida positiva.

Demonstração: ver [1].

O teorema 2.1 coloca o método dos mínimos quadrados na classe dos estimadores não enviesados.

Ora, consegue-se provar que dentro desta classe existe um limite inferior para a variância dos

estimadores [1,5]. Esse limite é igual ao inverso da Matriz de informação de Fisher, definida da

seguinte forma:

M = E y {[ dlog p(y,θ) ] T [ dlog p(y,θ)

dθ

dθ

]}

(2.15)

em que p(Y,θ) é a função de densidade de probabilidade do vector aleatório Y.

O conhecimento de família de funções p(Y,θ) numa dada observação, permite ajuizar até que

ponto é que o estimador dos mínimos quadrados é "bom", por simples comparado da sua matriz

covariância com M -1 .

Outra indicação valiosa que se pode obter do Teorema 2.1 é de que quanto maiores forem os

elementos da matriz X, menor será a variância do estimador e portanto maior a "precisão".

As propriedades enunciadas atrás, foram deduzidas na hipótese de os componentes de E

serem não correlacionados e de variância idêntica. Quando tal não acontece, a matriz E(EE T ) deixa de

ser diagonal e toma a forma , em que é semidefinida positiva e, portanto factorizável na forma

= QQ T

(2.16)

A mudança de variavel Y = Q -1 Y transforma este problema no anterior pois sendo,

- 22 -

Y = Xθ + E

(2.17)

cov (E) =

e sabendo-se que,

cov(Y) = cov (Xθ + E) = cov (E) =

ter-se-á,

cov (Y ) = cov(Q -1 Y) = Q -1 cov(Y)Q -T =

= Q -1 cov (E) Q -T = Q -1 Q T

= Q -l Q Q T Q -T = I N

O

operador Q -1 também é conhecido como fi1tro branqueador pois transforma o vector correlacionado

E

noutro não correlacionado.

Este resultado está resumido no seguinte corolário

Corolário 2.1

Seja o modelo Y = Xθ + E, cov(E) = .

O melhor estimador linear de θ é

Demonstraçao: ver [1]

θ ^ = (X T -1 X) -1 X T -1 Y

(2.18)

O estimador definido na equação (2.18) costuma-se designar por mínimos quadrados pesados.

A razão deste nome pode ser ilustrada pelo seguinte exemplo:

- 23 -

Considere-se que no modelo Y

têm variâncias diferentes.

θ + E, os componentes do vector E são não correlacionados e

= X

cov E = =

σ 1 2

0…

0.

.

.

.

0

.

.

.

0

0

.

.

.

2

σ N

(2.19)

A expressão a minimizar é a seguinte:

= (Y

V

- X

θ) T (Y

- X

θ) =

= (Y – X θ) T - 1 (Y - Xθ) =

=(Y-Xθ) T

1

σ

1 2

0…

0.

.

.

.

.

.

0

.

0

0

.

.

.

1

σ

N

2

(Y-Xθ)

(2.20)

N

=

i -x i T θ) 2

(y

σ

2

i

i=1

Esta equação mostra que cada quadrado de soma é pesado pelo inverso de variância do erro

correspondente, dando-se mais peso aos erros que “provavelmente" serão mais pequenos.

- 24 -

Em muitas observações é lícito supor-se que E(EE T ) = σ 2 I N . O problema é que quase sempre se

desconhece o valor de σ 2

Teorema 2.2

Se E(EE T ) = σ 2 I N ,

V = N-p (Y- Xθ ^ ) T (Y-Xθ ^ )

^

1

(2.21)

é um estimador não enviesado da variância σ 2 dos erros onde N é o número de observações e p o

número de parâmetros a estimar.

Demonstração: ver [1]

Corolário 2.2

^

(X T X) 1 V

é um estimador não enviesado da covariância da estimativa de mínimos quadrados

θ ^ =(X T X) -1 X T Y, em que E(EE T ) = σ 2 I N.

Demonstração: ver [1]

2.3.2 – Teoria normal

Como resultado do Teorema do limite Central, é lícito admitir-se uma distribuição normal para os

erros na maioria das aplicações.

Considere-se então o modelo:

Y = X θ + E

(2.22)

onde os erros são normalmente distribuidor com matriz covariância σ 2 I.

Teorema 2.3

O estimador de variância mínima para (2.22) é o dos mínimos quadrados

- 25 -

Demonstração: ver [1]

Este teorema assegura que, em condições que não são demasiadamente restritivas, o estimador dos

mínimos quadrados é o melhor dentro de classe dos estimadores não enviesados.

Outro resultado importante para o caso de erros com distribuição normal é enunciado pelo seguinte

teorema:

Teorema 2.4

Nas condições do teorema 2.3

θ ^ = (X T X) -1 X T Y é um vector aleatório Gaussiano com distribuição:

θ ^ ~ N(θ, ( X T X) -1 σ 2 )

Demonstração: ver [1]

(2.23)

Este resultado e o conhecimento da variância σ 2 dos erros permitem definir um intervalo de

confiança para as estimativas θ ^ , dando-se assim uma resposta à pergunta que foi formulada sobre a

sua precisão. Infelizmente, tal como foi dito atrás, só raramente se sabe o valor de σ 2 . Este problema

pode ser ultrapassado se houver um estimador de σ 2 e se a sua distribuição for conhecida. Ora, através

do teorema 2.2, já se conhece esse estimador. Resta, portanto, calcular a sua distribuição.

Teorema 2.5

Nas condições do teorema 2.3, o vector

R = (Y - Xθ ^ )

(2.24)

tem uma distribuição normal e é independente de θ ^ .

Demonstração: ver [1]

- 26 -

Teorema 2.6

Nas condições do teorema 2.3 a soma normalizada dos quadrados dos resíduos

S(θ ^ ) /σ 2 = R T R/σ 2

(2.25)

tem uma distribuição χ 2 (N-p) (qui quadrado com N-p graus de liberdade) em que N é o número de

observações e p o número de parâmetros do modelo.

Demonstração: ver [1]

De (2.21) e (2.25) pode-se concluir que

^

V = S(θ ^ ) /(N-p)

(2.26)

Finalmente, o seguinte teorema permite a construção de intervalos de confiança quando não se

conhece σ 2 .

Teorema 2.7

Sejam θ ^ i , e P ii , i = 1,

estimador de mínimos quadrados calculado nas condições do teorema 2.3.

p, respectivamente elementos de θ ^

e da diagonal principal de (X T X) -1 dum

z = (θ i - θ ^ i )/

^ P ii V
^
P ii V

(2.27)

tem uma distribuição t de Student com N-p graus de liberdade.

Demonstração: ver [1].

Pare se construir um intervalo de confiança [ θ ^

i

^

min , θ

i máx ] para θ i após uma estimação de parâmetros

feita nas condições do teorema 2.3, deve-se, em primeiro lugar, escolher a “confiança do intervalo”,

isto é, a probabilidade de θ ∈ [ θ ^

i min , θ

^ i máx ].

Seja

p(θ ^

i min ,≤ θ ^

i ≤ θ

^ i máx ) = 1- α

, 0 < α < 1

(2.28)

Sabe-se do teorema 2.7 que z ~ t(N-p), logo é possível calcular-se t α , tal que,

- 27 -

p (-t α z t α ) = 1- α

Substituindo z pelo seu valor tem-se

p(-t α (θ i - θ ^ i )/

^ P ii V
^
P ii V

t α ) = 1 - α ⇔

p(θ ^

^ V P ii
^
V
P ii

i - t α

≤ θ i ≤ θ ^

^ P ii V
^
P ii V

i + t α

)

(2.29)

(2.30)

De (2.28) e (2.29) pode-se concluir que os limites do intervalo de confiança t α são:

^ θ ^ i min = θ ^ i - t α V P ii
^
θ ^ i min = θ ^
i - t α
V
P ii
^
θ ^ i máx = θ ^
i + t α
P ii V

(2.31)

Para se saber qual o número de parâmetros necessários à descrição de uma dada observação, pode-se

recorrer ao seguinte teorema.

Teorema 2.8

Seja o modelo Y = Xθ + E em que os erros são normalmente distribuídos com matriz covariância σ 2 I.

Se os parâmetros θ ∈ ℜ P estiverem sujeitos a q constrições lineares do tipo:

 

Hθ = 0

, H∈ ℜ qxp e q < p

(2.32)

O estimador de variância mínima θ

~ sujeito às constrições

 

Hθ ~ = 0

(2.33)

será

 

~ θ = θ ^ - (X T X) -1 H T (H(X T X) -1 X T ) -1 Hθ ^

(2.34)

em que θ ^ é o estimador de mínimos quadrados sem constrições de θ.

Se se definirem

 

V

1 = (Y - Xθ ~ ) T (Y - Xθ ~ )

(2.35)

- 28 -

então

V 2 = (Y - Xθ ^ ) T (Y - Xθ ^ )

V =V 1 - V 2

i)

V

2

σ

~ χ 2 (q)

ii) V e V 2 são independentes

iii)

t = V

V

2

(N-P)

q

~ F(q, N-p)

sendo F(q, N-p) a distribuição de Fischer q e n-q graus de liberdade e N o número de observações

Demonstração: ver [1]

Corolário 2.3

Sejam o modelo Y = Xθ + E, onde E ~ N(0, σ 2 I), θ ^ (i) o estimador dos mínimos quadrados baseado

num modelo com p i parâmetros e V i a correspondente soma dos quadrados dos resíduos.

V i = (Y - X (i) θ ^

(i) ) T (Y - X (i) θ ^

(i)

).

Considere-se a hipótese nula H o : p 2 > p 1 p onde p é a verdadeira ordem do modelo. Se a

hipótese nula for verdadeira então

Demonstração: ver [1]

i)

V 1 - V 2

2

σ

~ χ 2 (p 2 -p 1 )

ii) V e V 2 são independentes

iii)

t = V 1 -V 2

V

2

n- p 2

p

2 -p 1

~ F (p 2 - p 1 , N-p 2 )

O cálculo sucessivo de estimadores de mínimos quadrados para diferentes números de parâmetros e o

corolário 2.3, permitem saber qual a dimensão mínima do vector de parâmetros para que um modelo

possa descrever adequadamente uma dada observação.

- 29 -

A quantidade de teste t pode ser interpretada como uma medida de redução da soma dos quadrados

dos resíduos quando o número de parâmetros é aumentado. Quando essa redução não for significativa

o aumento do número de parâmetros não traz qualquer benefício ao modelo

2.4 - Resumo

O método dos mínimos quadrados permite obter estimativas dos parâmetros dum modelo linear

através da minimizaçao da soma dos quadrados dos erros. Para que as estimativas sejam únicas, X T X

deve ser uma matriz invertivel. Neste caso, serão dadas por

θ ^ = ( X T X ) -1 X T Y

A

estimação pelo método dos mínimos quadrados é equivalente à projecção do vector das observações

Y

no espaço gerado pelas colunas de X.

Se os erros da observação tiverem média nula e matriz covariância σ 2 I N o estimador de mínimos

quadrados tem as seguintes propriedades:

i) É uma função linear das observações

ii) É não enviesado

iii) cov(θ ^ ) = (X T X) -1 σ 2

iv) É o melhor estimador não enviesado

Quando os erros têm variâncias diferentes ou forem correlacionados, o estimador é enviesado. No

entanto, se for a matriz covariância dos erros, o estimador de mínimos quadrados pesados

θ ^ = (X T -l X) -1 X T -l Y

mantém as propriedades enunciadas.

Se a matriz covariância dos erros for σ 2 I N ,

V = N-p (Y-Xθ ^ ) T (Y-Xθ ^ )

^

1

- 30 -

é um estimador não enviesado de σ 2 .

Para erros normalmente distribuídos com covariância σ 2 I N , o estimador de mínimos quadrados é o de

variância mínima. Nestas condições, θ ^ tem uma distribuição N (θ, (X T X) -1 σ 2 ) e como

^ i )/

z = (θ i - θ

^ P ii V
^
P ii V

~ t(N-p)

em que θ i , θ ^ i , e P ii , i = 1,

(X T X) -1 , é possível construir intervalos de confiança para as estimativas.

p, são, respectivamente, elementos de θ, θ ^

Finalmente, como

e da diagonal principal de

t = V 1 -V 2

V

2

n- p 2

p

2 -p 1

~ F (p 2 - p 1 , N-p 2 )

,p 2 > p 1

em que V 1 e V 2 são as somas dos quadrados dos resíduos de estimadores com p 1 e p 2 parâmetros,

respectivamente, com p 1 >p 2 , pode-se determinar o número de parâmetros que são necessários ao

modelo, aumentando-se o seu número e verificando-se se a redução da soma dos quadrados dos

resíduos é significativa, através dum teste à variável t.

- 31 -

3. MÍNIMOS QUADRADOS NA IDENTIFICAÇÃO DE SISTEMAS DINÂMICOS

3.1 – Mínimos quadrados ordinários

Considere-se um sistema discreto estocástico do tipo

y(k) = B(q -1 ) u(k) + ε(k)

(3.1)

em que { u(k) } e { y(k) } são, respectivamente, as sequências de entrada e de saída, ε(k) ruído branco com variância σ 2 e

 

B(q -1 ) = b o + b 1 q -1 +…+ b nb q -nb

(3.2)

Se se tomar

x(k) = [u(k) u(k-1)

u(k-nb)] T nb+ 1

(3.3)

θ = [b 0 … b nb ] T nb+ 1

 

ter-se-á, para uma observação da saída no instante k,

 
 

y(k) = x T (k)θ + ε(k)

(3.4)

e para N observações

 

Y

= Xθ + E

(3.5)

Y

= [ y(1)

y(N)] T N

X

= [x(l)

x(N)] T N x (nb+1)

E

= [ε 1) … ε(N)] T N

 

Como (3.5) é a equação dos mínimos quadrados, o estimador

- 32 -

θ ^

= (X T X) -1 X T Y

(3.6)

mantém todas as propriedades enunciadas no capítulo anterior.

Veja-se agora o que acontece quando o sistema possui uma dinâmica própria. Para isso, considere-se, em primeiro lugar, o modelo

com

A(q -1 ) y(k) = B(q -1 ) u(k) + ε(k)

A(q -1 ) y(t) = 1 + a 1 q -1 +… + a na q -na

(3.7)

(3.8)

Qualquer observação no instante k é dada pela equação

com

y(k) = x T (k) θ + ε(k)

x(k) = [ -y(k-1)

-y(k-na) u(k)

θ = [a 1

a na

b o … b nb ] na+ nb+ 1

u(k-nb) ] T na+ nb+1

(3.9)

Para N observações, a equação (3.9) pode ser expressa na forma matricial

Y = Xθ + E

(3.10)

onde as definições de X, Y e E são idênticas às da equação ( 3.5).

Esta expressão sugere a aplicação do método dos mínimos quadrados, sendo

θ ^

= (X T X) -1 X T Y

(3.11)

o estimador de θ. Porém, neste caso, como X depende das observações, as propriedades vão ser diferentes.

- 33 -

Teorema 3.1

Se no sistema (3.7) são satisfeitas as seguintes condições

i) o modelo é uma descrição adequada do sistema

ii)

lim

N→∞

1

N

N

u(k)

k=1

e

lim

N→∞

1

N

N

u(k) u(k+τ) τ N existem

k=1

iii) {y(k)} uma sequência limitada

iv) ε(k) ruído branco

v) {u(k)} e {ε(k)} independentes

vi) X T X é uma matriz não singular

então o estimador de mínimos quadrados

θ

^ = (X T X) -l X T Y

(3.12)

é fracamente consistente, isto é , θ ^ prob θ, em que

prob significa "converge em probabilidade".

Demonstração:

sendo

e

θ ^ = (X T X) -1 X T Y

= θ + (X T X) -1 X T E

=

1

N X T X =

1

1

θ +( N X T X) -1