Escolar Documentos
Profissional Documentos
Cultura Documentos
INSTITUTO DE INFORMTICA
PROGRAMA DE PS-GRADUAO EM COMPUTAO
SUMRIO
LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
ABSTRACT
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2 REDES NEURAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
Conceitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1
O que so Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2
Importncia das Redes Neurais . . . . . . . . . . . . . . . . . . . . . . .
2.1.3
Neurnio Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.4
Funes de Ativao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
Processos de Aprendizagem em Redes Neurais . . . . . . . . . . . . . .
2.2.1
Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2
Aprendizado No-supervisionado . . . . . . . . . . . . . . . . . . . . . .
2.2.3
Aprendizado por Retropropagao em Redes de Mltiplas Camadas . . .
2.3
Tarefas Realizadas por Redes Neurais . . . . . . . . . . . . . . . . . . .
2.3.1
Reconhecimento de Padres . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2
Associao de Padres . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.3
Aproximao de Funes . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.4
Filtragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4
Aplicaes de Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1
Processamento Temporal com Redes Neurais . . . . . . . . . . . . . . .
2.4.2
Redes Neurais em Identificao de Sistemas Dinmicos . . . . . . . . . .
16
16
16
17
18
19
21
21
22
22
25
25
26
26
27
28
28
29
3 FILTRO DE KALMAN . . . . . . . .
3.1
Definies Iniciais . . . . . . . . . .
3.1.1
Rudo . . . . . . . . . . . . . . .
3.1.2
Processo Estocstico . . . . . . .
3.1.3
Modelo de Espao de Estados . . .
3.1.4
Estimativa tima . . . . . . . . .
3.1.5
Introduo ao Filtro de Kalman . .
3.2
O Algoritmo do Filtro de Kalman .
32
32
32
33
33
34
35
35
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
3.2.1
No-linearidades e Jacobianas
3.2.2
Fase de Previso . . . . . . . .
3.2.3
Fase de Atualizao . . . . . .
3.3
Filtro de Kalman com Matrizes
3.3.1
Frmulas Utilizando Matrizes .
3.3.2
Limitaes do FK Linear . . .
3.4
Concluses sobre o FK . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
38
39
40
40
41
42
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
44
44
44
44
45
45
46
47
47
48
49
50
50
51
52
53
54
54
5 TRABALHOS CORRELACIONADOS . . . . . . . . . . . . . . . . . . .
5.1
Extenso do Filtro de Kalman com uma Rede Neural . . . . . . . . . . .
5.1.1
Primeiros Trabalhos com RN Prevendo o Erro do FKE . . . . . . . . . .
5.1.2
Neural Extended Kalman Filter . . . . . . . . . . . . . . . . . . . . . . .
5.1.3
Usos do NEKF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.4
Verso do NEKF com Unscented Kalman Filter . . . . . . . . . . . . . .
5.1.5
Estimao No-linear com Unscented Kalman Filter e Redes Neurais . .
5.2
Ajuste de Parmetros do Filtro de Kalman com Redes Neurais . . . . .
5.3
Treinamento de Redes Neurais com Filtro de Kalman Estendido e suas
Variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
56
56
57
58
61
63
63
69
69
70
71
73
74
76
77
79
65
7 EXPERIMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.1
Predio e Filtragem da Srie Catica de Mackey-Glass Acrescida de
Rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.1.1
Configuraes Utilizadas nos Experimentos . . . . . . . . . . . . . . . .
7.1.2
Predio da Srie Sem Rudo . . . . . . . . . . . . . . . . . . . . . . . .
7.1.3
Utilizao do Mtodo Neuro-estatstico com Rudo Pequeno . . . . . . .
7.1.4
Utilizao do Mtodo Neuro-estatstico com Rudo Mdio . . . . . . . .
7.1.5
Utilizao do Mtodo Neuro-estatstico com Rudo Grande . . . . . . . .
7.1.6
Resumo dos Resultados para a Srie Mackey-Glass . . . . . . . . . . . .
7.2
Predio de Srie de Combinao de Senos Acrescida de Rudo . . . . .
7.2.1
Configuraes e Estratgias Utilizadas nos Experimentos . . . . . . . . .
7.2.2
Predio da Srie Sem Rudo . . . . . . . . . . . . . . . . . . . . . . . .
7.2.3
Comparaes Utilizando Rudo Pequeno . . . . . . . . . . . . . . . . . .
7.2.4
Comparaes Utilizando Rudo Mdio . . . . . . . . . . . . . . . . . . .
7.2.5
Comparaes Utilizando Rudo Grande . . . . . . . . . . . . . . . . . .
7.2.6
Resumo dos Resultados da Srie . . . . . . . . . . . . . . . . . . . . . .
7.3
Anlise Prtica sobre o Ajuste dos Parmetros Q e R . . . . . . . . . . .
7.3.1
Anlise Sobre Ajustamento No Otimizado de Parmetros . . . . . . . .
7.3.2
Medidas Estatsticas para a Especificao de Parmetros . . . . . . . . . .
81
81
82
82
83
84
85
87
88
89
89
90
91
93
94
95
95
96
8 CONSIDERAES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . 99
8.1
Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.2
Sugestes de Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . 100
REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
AELB
AR
Auto-regresso
BP
FK
Filtro de Kalman
FKD
FKE
FKED
FKE Disjunto
Interao com Mltiplos Modelos, tcnica que utiliza mltiplos Filtros de Kalman
MD
Minerao de Dados
MEE
MLD
MLP
MMS
MSE
NARX Nonlinear Auto-regressive with Exogenous Input - Modelo Auto-regressivo Nolinear com Entradas Exgenas
NAR
NOE
NDEKF Node-decoupled Extend Kalman Filter - FKE Disjunto, com os pesos acoplados
por ns
NE
Mtodo Neuro-estatstico
NEKF
Neural Extended Kalman Filter - Filtro de Kalman Estendido com rede neural
acoplada
PLE
PST
RBF
RBNN Regular Radial Basis Neural Networks - rede neural de base radial regular
RN
RNA
SOM
TLFN
VAD
LISTA DE FIGURAS
Figura 2.1:
Figura 2.2:
19
Figura 3.1:
37
Figura 4.1:
Figura 4.2:
46
47
58
58
Figura 6.1:
Figura 6.2:
Figura 6.3:
Figura 6.4:
70
71
71
72
Figura 2.3:
Figura 2.4:
Figura 2.5:
Figura 2.6:
Figura 2.7:
Figura 2.8:
Figura 2.9:
Figura 5.1:
Figura 5.2:
Figura 5.3:
Modelo NAR . . . . . . . . . . . . . . . . . . . . .
Modelo NOE sem entradas exgenas . . . . . . . .
Modelo neuro-estatstico sem realimentao da sada
Modelo neuro-estatstico com realimentao da sada
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
21
22
23
28
29
30
31
59
60
60
61
62
64
65
67
68
Figura 6.5:
Figura 6.6:
Figura 6.7:
Figura 7.1:
Figura 7.2:
Figura 7.3:
Figura 7.4:
Figura 7.5:
Figura 7.6:
Figura 7.7:
Figura 7.8:
Figura 7.9:
Figura 7.10:
Figura 7.11:
Figura 7.12:
Figura 7.13:
Figura 7.14:
Figura 7.15:
Figura 7.16:
Figura 7.17:
Figura 7.18:
Figura 7.19:
Figura 7.20:
Figura 7.21:
Figura 7.22:
Figura 7.23:
Figura 7.24:
Figura 7.25:
Figura 7.26:
. . . . . . . . . . . .
do vetor de estados,
. . . . . . . . . . . .
do vetor de estados,
. . . . . . . . . . . .
73
75
76
81
83
83
84
85
85
86
86
87
87
88
90
90
91
91
92
92
93
93
94
94
96
96
97
97
98
LISTA DE TABELAS
Tabela 3.1:
42
Tabela 5.1:
63
Tabela 7.1:
Tabela 7.2:
88
94
RESUMO
O presente trabalho trata da criao de uma nova abordagem para predio de sries
temporais ruidosas, com modelo desconhecido e que apresentam grandes no-linearidades.
O novo mtodo neuro-estatstico proposto combina uma rede neural de mltiplas camadas
com o mtodo estatstico Filtro de Kalman Estendido. A justificativa para a juno dessas abordagens o fato de possurem caractersticas complementares para o tratamento
das peculiaridades das sries descritas. Quanto ao rudo, o FKE consegue minimizar a
sua influncia, trabalhando com a varincia do rudo extrado dos dados reais. Quanto
ao modelo gerador da srie, as redes neurais aproximam a sua funo, aprendendo a partir de amostras dos prprios dados. Grandes no-linearidades tambm so tratadas pelas
RNs. O mtodo neuro-estatstico segue a estrutura do FKE, utilizando a RN como processo preditivo. Com isso, elimina-se a necessidade de conhecimento prvio da funo
de transio de estados. O poder de tratamento de no-linearidades da RN mantido,
utilizando-se a previso desta como estimativa de estado e os seus valores internos para
clculo das jacobianas do FKE. As matrizes de covarincias dos erros de estimativa e
dos rudos so utilizadas para melhora do resultado obtido pela RN. A rede treinada
com um conjunto de dados retirado do histrico da srie, de maneira off-line, possibilitando o uso de poderosas estruturas de redes de mltiplas camadas. Os resultados do
mtodo neuro-estatstico so comparados com a mesma configurao de RN utilizada em
sua composio, sendo ambos aplicados na srie catica de Mackey-Glass e em uma srie
combinada de senos. Ambas sries possuem grandes no-linearidades e so acrescidas de
rudo. O novo mtodo alcana resultados satisfatrios, melhorando o resultado da RN
em todos os experimentos. Tambm so dadas contribuies no ajuste dos parmetros
do FKE, utilizados no novo mtodo. O mtodo hbrido proporciona uma melhora mtua
entre a RN e o FKE, explicando os bons resultados obtidos.
Palavras-chave: Inteligncia artificial, redes neurais artificiais, mtodos estatsticos, Filtro de Kalman Estendido, predio de sries temporais, rudo.
ABSTRACT
This work presents a new forecast method over highly nonlinear noisy time series. The
neural statistical method uses a multi-layer perceptron (NN) and the Extended Kalman
Filter (EKF). The justification for the combination of these approaches is that they possess
complementary characteristics for the treatment of the peculiarities of the series. The EKF
minimizes the influence of noise, working with the variance of the noise obtained from
the real data. The NN approximates the generating models function. High nonlinearities
are also treated by the neural network. The neural statistical method follows the structure
of the EKF, using the NN as the predictive process. Thus, it isnt necessary previous
knowledge of the state transition function. The power of treatment of nonlinearities of
the NN is kept, using forecast of this as estimative of state and its internal values for
calculation of the Jacobian matrix of the EKF. The error estimative covariance and the
noise covariance matrixes are used to improve the NN outcome. The NN is trained offline by past observations of the series, which enable the use of powerfuls neural networks.
The results of the neural statistical method are compared with the same configuration of
NN used in its composition, being applied in the chaotic series of Mackey-Glass and an
sine mistures series. Both series are noisy and highly nonlinear. The new method obtained
satisfactory result, improving the result of the regular NN in all experiments. The method
also contributes in the adjustment of the parameters of the EKF. The hybrid method has
a mutual improvement between the NN and the EKF, which explains the obtained good
results.
13
INTRODUO
14
15
Obteno de menores taxas de erro que uma RN com mesma estrutura atuando
isoladamente;
Maior aplicabilidade que o Filtro de Kalman, no necessitando da funo do modelo
gerador;
Interao do FK com a RN, com cada mtodo passando resultados melhorados para
o outro, a cada passo de predio;
Realismo: receber apenas dados ruidosos para treinamento e medidas; no necessitar conhecer previamente o modelo ideal, parmetros ideais e outras informaes
que no so normalmente disponveis na prtica.
A dissertao est estruturada da seguinte forma: no captulo 2 so mostradas as redes
neurais, utilizadas na criao do novo mtodo, sendo explicadas suas vantagens, o processo de aprendizagem e seus usos; no captulo 3 descrito o Filtro de Kalman, mtodo
no qual este trabalho tambm baseado; no captulo 4 feita a reviso bibliogrfica sobre a predio de sries temporais, comentando e comparando tcnicas; o captulo 5 trata
dos mtodos correlacionados; no captulo 6 o novo mtodo neuro-estatstico apresentado, com a apresentao do modelo e sua explicao formal; o captulo 7 apresenta os
experimentos e resultados e o captulo 8 mostra as consideraes finais, com concluses
e sugestes de trabalhos futuros.
16
REDES NEURAIS
2.1
Conceitos
Para uma melhor compreenso das bases e do funcionamento das RNs, esta seo
abordar os conceitos necessrios para a sua explicao. Sero apresentadas as redes
neurais, com a sua importncia; o funcionamento do neurnio artificial e a definio das
funes de ativao, utilizadas nas RNs.
2.1.1
O estudo de Redes Neurais tem sido motivado pelas diferenas entre o funcionamento
do crebro humano e o de um computador digital tradicional. O crebro humano um
sistema de processamento altamente complexo, no-linear e paralelo por natureza. A
organizao do crebro permite que sejam realizadas certas computaes (como o reconhecimento de padres, controle sensrio-motor e percepo) de maneira mais rpida e
precisa que os mais poderosos computadores. Por exemplo, uma pessoa consegue reconhecer um rosto familiar em uma cena no familiar demorando apenas uma frao de
segundo, enquanto um computador convencional levaria horas ou dias para resolver uma
verso simplificada desse problema. A razo dessa grande capacidade do crebro a habilidade de desenvolver suas prprias regras, moldando os neurnios e criando o que
chamado de "experincia". Os neurnios possuem grande plasticidade, o que permite que
o crebro em desenvolvimento adapte-se ao ambiente.
As redes neurais utilizam caractersticas de adaptao do crebro humano e podem
ser consideradas mquinas para modelar a maneira como o crebro aprende uma tarefa
ou funo. As RNs so constitudas de neurnios artificiais e podem ser construdas com
componentes eletrnicos, ou simuladas com computadores digitais. As RNs alcanam
bom desempenho atravs da interligao macia de neurnios artificiais, utilizando um
processo de aprendizagem sobre eles. Uma RN pode ser definida como um processador
maciamente distribudo e paralelo, constitudo de unidades simples de processamento,
17
As RNs possuem a capacidade de generalizar informaes, calculando sadas adequadas para entradas que no estavam presentes no arquivo de treinamento. As RNs ainda
esto distantes de simularem um crebro humano inteiro e trabalham apenas com subconjuntos de tarefas. Mesmo assim, atualmente as redes neurais j se apresentam com grande
destaque nas atividades que eram h pouco tempo essencialmente do crebro e geram expectativa de grandes avanos nas prximas dcadas. As principais vantagens que o uso de
RNs possibilita so (HAYKIN, 2001a):
No-linearidade As RNs podem ter neurnios lineares ou no-lineares, a rede que possui
ao menos um neurnio no-linear considerada no-linear. A no-linearidade das
RNs de um tipo especial, distribuda por toda a rede;
18
Neurnio Artificial
19
uk = wki xi + bk
(2.1)
i=1
Onde cada entrada (xi ) multiplicada por seu respectivo peso (wki ), formando um
somatrio. O bias acrescido diretamente nesse somatrio, formando o potencial de
ativao do neurnio k. A sada final do neurnio ser a funo de ativao aplicada sobre
esse resultado:
(2.2)
yk = (uk )
2.1.4
Funes de Ativao
20
Figura 2.2: Funes de ativao para um neurnio artificial. (a) Funo de limiar. (b)
Funo linear por partes. (c) Funo logstica. (d) Funo tangente hiperblica
trechos. A funo mostrada na figura 2.2b expressa por:
1 se uk 1
uk
se 1 uk < 1
+
0.5
yk =
2
0 se uk < 1
(2.4)
Funes Sigmides As funes sigmides (em forma de s) so largamente as mais utilizadas e proporcionam um balanceamento entre o comportamento linear e nolinear. Outra vantagem que as funes sigmides so diferenciveis. As funes
sigmides mais utilizadas so:
[Funo Logstica] Limita a entrada no intervalo [0, 1] e descrita pela funo
abaixo, onde exp () a funo exponencial.
(u) =
1
1 + exp (u)
(2.5)
(2.6)
21
2.2
Um processo de aprendizagem em uma rede neural permite que a rede aprenda a partir de observaes do ambiente, em um processo iterativo de ajustes aplicados aos seus
pesos sinpticos, tornando-se apta a exercer sua ao no ambiente (tomada de deciso,
previso, classificao, etc.). O tipo de aprendizagem depende da maneira como os parmetros livres da rede (pesos sinpticos) so alterados. Essa maneira descrita por um
conjunto bem definido de regras, chamado de algoritmo de aprendizagem. Existe uma
grande variedade de algoritmos de aprendizagem, distribudos pelas diferentes tarefas e
aplicaes desejadas para a rede. Esses algoritmos so classificados de acordo com o paradigma de aprendizagem, isto , a maneira como a rede se relaciona com o ambiente. De
acordo com o tipo de ambiente que a rede recebe, os mtodos de aprendizagem podem
ser classificados em dois grandes grupos: aprendizado supervisionado e aprendizado nosupervisionado (HAYKIN, 2001a). Esses dois paradigmas sero mostrados nesta seo.
2.2.1
Aprendizado Supervisionado
O aprendizado supervisionado realiza o treinamento da rede a partir de amostras de entrada e sada do sistema. Um conjunto de amostras rotuladas (entradas com sua respectiva
sada desejada) representa o conhecimento que se possui inicialmente sobre o ambiente e
comumente chamado de professor. A figura 2.3 mostra o diagrama de blocos do modelo
de aprendizado supervisionado. A diferena entre a resposta desejada (fornecida pelo
professor) e a resposta do sistema (RN) alimenta novamente o sistema para aprendizado.
22
Aprendizado No-supervisionado
No aprendizado no-supervisionado, a rede neural aprende diretamente das caractersticas intrnsecas dos dados, sem necessitar de um professor externo ou amostras rotuladas.
A rede aprende diretamente do ambiente, como mostrado na figura 2.4, criando automaticamente novas classes. Diferentemente do aprendizado supervisionado, aqui as amostras
no so rotuladas. A aprendizagem no-supervisionada utilizada em tarefas de classificao e deteco de agrupamentos, onde possvel separar as amostras em grupos,
levando em considerao apenas as proximidades entre seus atributos.
23
Figura 2.5: Modelo de uma rede MLP com duas camadas ocultas
A rede MLP possui a caracterstica de alta conectividade entre os neurnios de uma
camada para a prxima, como mostrado na figura 2.5. A presena dos neurnios das
camadas ocultas capacita a rede a aprender tarefas complexas, extraindo progressivamente
as caractersticas mais importantes dos padres de entrada (HAYKIN, 2001a). Outra
caracterstica importante que cada neurnio possui uma funo de ativao no-linear
(sigmide). Essa no-linearidade pequena, de primeira ordem apenas, podendo ser
diferenciada sempre. Mesmo com uma no-linearidade suave na sada de cada neurnio,
a existncia de vrios neurnios na(s) camada(s) oculta(s) propicia o tratamento de nolinearidades de graus muito maiores.
A eficincia e poder das redes MLP so obtidos devido ao seu uso combinado com
o poderoso algoritmo da retropropagao do erro (backpropagation) (RUMELHART et
al., 1986). O algoritmo da retropropagao derivado da regra delta e funciona atravs
de uma propagao para frente na rede e de uma propagao para trs. Na propagao
para frente, a rede passa o sinal adiante de camada em camada. Esse sinal refere-se s
sadas dos neurnios (depois da funo de ativao). Durante a propagao, os pesos
sinpticos so fixos. Quando o sinal passar pela camada de sada, calculado o sinal
de erro, subtraindo a sada da rede da sada desejada. Na fase da retropropagao o
sinal de erro passado de volta, da camada de sada at a camada de entrada, ajustandose os pesos de acordo com uma parcela da sua contribuio no erro. A "contribuio
de cada peso sinptico no erro" est relacionada com o quanto cada peso deveria ser
ajustado na propagao atual do sinal de entrada atual e calculada pela derivada parcial
do erro em relao a cada peso. A "parcela" de ajuste chamada de taxa de aprendizado
(representada por ) e controla a velocidade com que o aprendizado convergir.
A regra delta funciona ajustando-se o vetor de pesos de acordo com o gradiente do
erro. O erro de um neurnio j, em um instante n definido por:
e j (n) = d j (n) y j (n)
(2.7)
24
Onde y j (n) o valor de sada do neurnio e d j (n) o valor desejado para essa sada.
O gradiente representa a derivada do erro pelos pesos no instante atual. Os pesos so
atualizados no sentido oposto do gradiente (minimizando a derivada do erro pelos pesos).
Essa correo feita de acordo com um parmetro , que determina o "tamanho do
passo" que ser dado no sentido oposto ao gradiente. Ento a equao de atualizao dos
pesos ser:
(2.8)
w (k + 1) = w (k) (E (w))
Onde w (k) o vetor de pesos e w (k + 1) vetor atualizado para o instante posterior.
A funo o gradiente do erro em funo dos pesos. E(w) uma funo de custo,
baseada no erro da rede. Para o ajuste dos pesos da rede, o algoritmo backpropagation
deriva o MSE (erro mdio quadrado) de sada pelo peso a ser ajustado. Visando dar uma
explicao concisa e didtica, ser mostrada uma seqncia de passos em que o sinal de
erro derivado at chegar em um dos pesos da camada de sada:
1. Deriva-se o erro final (MSE) em funo do erro de cada neurnio da camada de
sada, representado por e j (n). O MSE ( (n)) dado por:
(n) =
1
e2 (n)
2 j
(2.9)
(2.11)
(2.13)
(2.14)
25
(n)
u j (n)
(2.16)
Para uma explicao mais detalhada de todo o funcionamento do algoritmo da retropropagao, com demonstraes de cada valor de derivada que foi aqui apresentado,
pode-se consultar (HAYKIN, 2001a).
2.3
As principais tarefas em que so utilizadas redes neurais so tratadas nesta seo: reconhecimento de padres, associao de padres, aproximao de funes e filtragem. As
RNs com sada discreta so utilizadas como classificadores universais e as redes com sada
contnua podem ser usadas como regressores (aproximadores) universais (CYBENKO,
1989) (HAYKIN, 2001a) (ENGEL, 2001). Nas aplicaes de RNs para predio de sries
temporais so utilizadas as tarefas de aproximao de funes e filtragem.
2.3.1
Reconhecimento de Padres
O reconhecimento de padres uma tarefa que aproxima muito as redes neurais dos
seres humanos. Reconhecimento de padres pode ser definido como o processo em que
um conjunto de entradas ou caractersticas (padro) atribudo a uma classe entre um
conjunto definido de classes. O reconhecimento de padres tambm chamado de classificao.
Como exemplos de reconhecimento de padres habilmente realizados por seres humanos, pode-se citar o reconhecimento de rostos familiares em uma multido; reconhecimento de uma pessoa mais envelhecida a partir de cenas dessa pessoa quando mais
jovem ou de caractersticas de parentes; separao de gros de feijo bons dos demais;
identificao de voz no rdio ou telefone; classificao de modelos de carros ou tipos de
26
Associao de Padres
A tarefa de associao de padres representada pelas memrias associativas (TAYLOR, 1956), que so memrias construdas com neurnios artificiais, inspiradas no crebro e que aprendem por associao. A associao pode ser de dois tipos: auto-associao
ou heteroassociao.
Na auto-associao, primeiramente passa-se um conjunto de padres repetidamente
para a rede armazenar. Posteriormente, apresenta-se uma representao parcial ou ruidosa
de um padro e a rede recuperar o padro original. Por exemplo, pode-se armazenar
uma imagem de um rosto e depois apresentar a regio do olho desse rosto ou uma verso
menos ntida da imagem para a rede recuperar a imagem original. Na heteroassociao,
a associao ocorre entre um conjunto de padres e outro conjunto diferente de padres.
Em associao de padres o aprendizado supervisionado. Em uma memria associativa
linear, os neurnios da rede atuaro como combinadores lineares. Sendo a o vetor de
entrada (ndice) e b o vetor de sada (padro recuperado), a relao de entrada e sada ser
dada por:
(2.19)
b = Ma
Onde M a matriz de associao, representando a conectividade da rede. Em uma
memria associativa no-linear, a relao de entrada e sada ser dada por:
b = f [M, a]
(2.20)
Onde f [M, a] uma funo no-linear da relao de associao com a entrada. Uma
memria associativa pode ser comparada com um classificador de padres, onde as categorias de classificao so os vetores armazenados. Um padro apresentado como entrada
ser classificado pela memria em uma dessas categorias, dependendo do critrio de proximidade definido na memria (KOVCS, 2002).
2.3.3
Aproximao de Funes
Uma rede neural MLP, treinada com o algoritmo da retropropagao pode ser usada
como um aproximador de funes de carter geral. O objetivo da aproximao de funes
treinar uma RN para aproximar uma funo com mapeamento de entrada-sada nolinear, representada por:
d = f (x)
(2.21)
27
wok wk j
k
wlixi
(2.22)
Filtragem
A funo dos filtros separar sinais que pertencem a certas classes dos demais. Normalmente extrai-se um tipo de sinal (dominante) em dados onde todos os outros tipos de
sinais so considerados rudo. O rudo pode ser desde erro em sensores at sinais adversos
ao sinal de interesse no ambiente. Existem trs tarefas bsicas para um filtro (HAYKIN,
2001a) (RUSSELL; NORVIG, 2004):
Filtragem Refere-se estimativa do sinal (informao) no tempo n, utilizando-se os dados (ruidosos) obtidos at n (inclusive);
Previso Utilizam-se os dados medidos at o tempo n (inclusive) para estimar informao no tempo futuro n + k, onde k > 0;
Suavizao Utilizam-se no apenas dados medidos at o instante n, mas tambm aps
(dados j filtrados ou estimados). A estimativa feita em um instante atrasado, melhorando a medida ruidosa obtida anteriormente ou recuperando um dado faltante.
Pode-se tambm retroceder em todo o conjunto de dados para melhor-lo (suavizando todos esses dados). Do ponto de vista estatstico, a suavizao mais precisa
que a filtragem, uma vez que j utiliza dados filtrados como entrada.
Na figura 2.6 mostrada uma rede neural funcionando como um filtro previsor. As
entradas (x (n 1) , x (n 2) , , x (n T )) so medidas de instantes anteriores, em um
intervalo finito de T atrasos eqidistantes. O funcionamento da rede como no aprendizado supervisionado pois o sinal no instante n atua como resposta desejada. O sinal de
erro e (n) (diferena entre a sada da rede e o desejado) utilizado para ajustar os pesos
da rede.
A previso realizada pela RN pode ser considerada como uma construo do modelo.
Quanto menor for o erro da rede, melhor ser o desempenho desta rede como modelo do
28
2.4
29
2.4.2
Um sistema dito dinmico quando seu estado varia com o tempo (HAYKIN, 2001a).
A identificao de sistemas consiste em criar uma abordagem experimental para modelar
um processo de dinmica desconhecida. Os passos para a identificao so a seleo de
um modelo, a configurao desse modelo e a sua validao. A identificao de sistemas
dinmicos lineares e sem rudo um problema relativamente simples, podendo ser resolvido por um mtodo algbrico de determinao de parmetros. Quando as medidas so
imprecisas, envolvendo rudos ou incertezas, o problema passa a ser de estimao de parmetros, resolvido por mtodos estatsticos. Porm, se o sistema dinmico for no-linear,
os mtodos estatsticos no dispem de ferramentas muito precisas (KOVCS, 2002).
Uma planta dinmica no-linear pode ter sua identificao baseada em um modelo de
espao de estados (MEE) ou em um modelo de entrada-sada. Um MEE utilizado na
identificao com RNs na forma da figura 2.7. A rede neural da figura 2.7a serve para
estimar o estado. O estado calculado realimenta a entrada do sistema. A funo f (, )
representa a funo real de clculo do estado. A rede da figura 2.7b serve para estimar a
medida. A funo h () representa a funo real de medida. As duas redes mostradas na
figura 2.7 operam em modo sncrono na identificao do sistema.
Figura 2.7: Identificao de sistemas com redes neurais, baseada no modelo de espao de
estados
Quando os sistemas so pouco conhecidos, aplica-se o modelo de entrada-sada. Esse
modelo supe que o sistema seja acessvel somente por meio de suas sadas, no existindo
30
o conceito de estados. A arquitetura da rede neural uma rede de mltiplas camadas alimentada adiante (MLP). Ocorre a realimentao da sada da MLP para a entrada, atravs
de uma linha de atraso de T unidades. A rede tambm recebe uma linha de atraso de
T entradas exgenas. Normalmente utiliza-se o Modelo Auto-regressivo No-linear com
Entradas Exgenas (NARX). Para a simplificao de um sistema de uma nica entrada e
nica sada, o modelo NARX estabelece uma relao entre as sadas passadas e a sada
prevista na seguinte forma:
y (n + 1) = F (y (n) , , y (n T + 1) , u (n) , , u (n T + 1))
(2.23)
(2.24)
(2.25)
Onde y (n + 1) representa a estimativa de sada do modelo, calculada a partir das sadas atrasadas do sistema e das entradas exgenas. O modelo realmente auto-regressivo,
correspondente arquitetura NARX de redes recorrentes chamado na literatura de regresso de NOE (Nonlinear Output Model). A figura 2.9b mostra um modelo NOE de
segunda ordem. O modelo NOE utiliza como entrada as sadas de predies passadas em
vez de utilizar as medidas do sistema real e possui a relao de entrada-sada:
y (n + 1) = F (y (n) , , y (n T + 1) , u (n) , , u (n T + 1))
(2.26)
31
32
FILTRO DE KALMAN
Considerando os exemplos abaixo, podem ser percebidas algumas similaridades (adaptados de (RUSSELL; NORVIG, 2004)):
Uma pessoa observando o aparecimento de um vaga-lume "pisca-pisca" e tentando
adivinhar onde ser a posio em que ele acender a luz novamente;
Um operador de radar da segunda guerra mundial tentando descobrir a posio do
inimigo a partir de um sinal fraco e impreciso que surge a cada 5 segundos na tela;
Um astrnomo tentando descobrir a trajetria dos planetas a partir de um conjunto
de observaes inexatas de ngulos em intervalos irregulares de tempo, medidos de
forma imprecisa.
A semelhana de todos esses casos que se tenta avaliar o estado (posio, velocidade, etc.) de um sistema fsico atravs de observaes ruidosas ao longo do tempo.
Todos os problemas citados podem ser formulados como inferncia em um modelo de
probabilidade temporal. O mtodo do Filtro de Kalman foi criado para resolver esse tipo
de problema. A fsica do movimento ser o modelo de transio de estado e o sistema de
observao (viso, sensores, etc.) ser o modelo de medida. Neste captulo so mostradas
as definies iniciais para entender o Filtro de Kalman, o seu algoritmo e funcionamento
e as diferenas entre o Filtro de Kalman Estendido e o Filtro de Kalman Discreto.
3.1
Definies Iniciais
O Filtro de Kalman (FK) utiliza muitos conceitos que embasam o seu funcionamento e suas aplicaes. Baseado nos trabalhos (KALMAN, 1960) (WELCH; BISHOP,
2001) (HAYKIN, 2001b) (MACHADO, 2003) (HAYKIN, 2001a) (ENGEL, 2005), podese definir que o FK um filtro linear timo, que modela processos estocsticos baseandose na transio de estados e executando predies em dados ruidosos. Para que as definies anteriores sejam mais facilmente entendidas, necessitam-se dos conceitos de estimativa tima, processo estocstico, sistema de transio de estados e rudo. Nesta seo
sero abordados todos esses conceitos para uma melhor compreenso do FK.
3.1.1
Rudo
O rudo representa variaes ou incertezas nos dados. Rudo pode ser definido como o
conjunto das influncias no-sistemticas sobre o comportamento de um sistema, no estando compreendido no modelo determinstico (previsvel) desse sistema (MACHADO,
2003). A presena de rudo pode causar grandes dificuldades para mtodos de predio,
33
que interpretam o rudo como parte integrante dos dados. Muitos mtodos preditivos,
como o caso das redes neurais, apresentam dificuldades em diferenciar o sinal (informao pura) do rudo. Os experimentos apresentados nesta dissertao comprovam essa
dificuldade.
Mesmo que o rudo no seja previsvel, possvel model-lo. Modelagem de rudo
atrai estudos da teoria da probabilidade (GLYMOUR et al., 1996) e normalmente utiliza estatsticas da ocorrncia do rudo, como a varincia (WELCH; BISHOP, 2001). O
modelo mais comum de rudo o rudo branco com distribuio gaussiana. Essa distribuio de rudo utilizada como padro para o Filtro de Kalman e definida pela seguinte
funo:
12
e
f (x, xm , q) = p
(xxm )2
q2
2q2
(3.1)
Processo Estocstico
A idia de modelo matemtico muito utilizada para descrever sistemas fsicos, principalmente nas cincias exatas e engenharias. Um modelo matemtico classificado em
dois tipos: determinstico e estocstico. Chama-se um modelo de determinstico quando
no existe aleatoriedade sobre o comportamento do sistema em um dado instante de tempo
e chama-se de modelo estocstico quando existe aleatoriedade. No modelo determinstico, supe-se que, de posse das mesmas entradas e circunstncias, a sada (comportamento) do sistema ser previsvel. Porm, em sistemas reais, normalmente existem muitas incertezas ou um conjunto de variveis desconhecidas que atribuem caractersticas
aleatrias ao sistema, dificultando a sua passagem para um modelo matemtico determinstico. Esses sistemas podem ser descritos em termos probabilsticos, em funo da
probabilidade de a sada estar entre dois limites definidos, e so chamados de processos
estocsticos.
Um processo estocstico possui duas propriedades fundamentais (HAYKIN, 2001c):
O processo em funo do tempo;
aleatrio, no sentido de que antes de uma transio temporal no possvel prever
com exatido os valores futuros.
Um processo estocstico ser ento uma coleo de Variveis Aleatrias Discretas
(VAD), organizadas em funo do tempo, formando um espao de estados, ou espao
amostral. A descrio do processo no poder ser realizada de forma determinstica, mas
poder ser dada pelos momentos do processo estocstico: primeiro momento (mdia); segundo momento (varincia e funes de covarincia) (MANTOVANI, 2004). Se o tempo
for discreto (exemplo: T = 0, 1, 2, 3, ), tem-se um processo estocstico discreto, porm,
se o tempo for contnuo (exemplo: T = 0 < t < +), tem-se um processo estocstico
contnuo.
3.1.3
Modelo de Espao de Estados (MEE) uma ampla classe de modelos, tambm chamados de Modelos Lineares Dinmicos (MLD), introduzidos por Rudolph Kalman (KAL-
34
MAN, 1960). Esses modelos tm sido muito usados para modelar dados da economia, da
rea mdica, de meteorologia, de cincias do solo, dentre outros. O estado de um sistema
dinmico formalmente definido como o "conjunto de quantidades que assumem toda a
informao sobre o comportamento passado e que necessria para descrever o seu comportamento futuro, exceto pelos efeitos puramente externos que surgem devido entrada
(excitao) aplicada".
Segundo (MORETTIN; TOLOI, 2004), todo modelo de sries temporais de q dimenses possui representao em espao de estados, relacionando um vetor de observaes
Zt e um vetor de rudo vt , atravs de um processo Xt , com p dimenses, chamado de vetor
de estados. Essa representatividade das sries temporais em espaos de estados motiva o
uso da estrutura de estados do Filtro de Kalman para a PST, neste trabalho.
Um MLD possui duas equaes. A Equao 3.2 chamada de equao de processo,
pois calcula o vetor de estados do processo Xt e a Eq. 3.3 chamada de equao de
medida, pois calcula a medida das variveis observveis do processo:
Xt = Gt Xt1 + wt , t = 1, , N
(3.2)
Zt = At Xt + vt
(3.3)
Onde:
Gt a matriz de transio de estado, de ordem (p p);
wt um vetor de rudo, representando o rudo (perturbao) do sistema, de ordem
(p 1), com mdia zero e matriz de covarincia Q;
At a matriz de observao do sistema, de ordem (q p);
vt o vetor rudo da observao, de ordem (q 1), com mdia zero e matriz de
covarincia R;
Os vetores de rudo vt e wt so no-correlacionados entre si e no-correlacionados
com o estado inicial.
Quando os vetores de rudo forem normalmente distribudos, diz-se que o espao de
estados gaussiano. As matrizes A e G so determinsticas, ento se houver variao no
tempo, esta variao ser definida a priori. Quando as matrizes de transio no variam
no tempo o sistema chamado invariante no tempo ou homogneo no tempo. Um caso
especial de sistemas invariantes no tempo so os modelos estacionrios. Nesse caso, alm
de possurem o mesmo sistema de transio, esses modelos seguem uma mesma varincia
em torno de uma mdia (MORETTIN; TOLOI, 2004).
3.1.4
Estimativa tima
35
estimativa de uma maneira tima, necessita-se de uma funo de custo (funo de perda)
para estimativas incorretas. Essa funo deve satisfazer duas condies:
Ser no-negativa
Ser uma funo no-decrescente do erro de estimativa x, definido por:
xk = xk xk
(3.5)
As duas condies so satisfeitas por um erro mnimo quadrado (MSE), definido por:
h
i
h
i
Jk = E (xk xk )2 = E ( xk )2
(3.6)
Onde E representa a funo expectativa. A dependncia da funo de custo Jk no
tempo k salienta a natureza no-estacionria do processo recursivo de estimao.
3.1.5
O Filtro de Kalman (FK) foi proposto por Rudolf Emil Kalman, em 1960, em seu
famoso artigo descrevendo uma soluo recursiva para o problema da filtragem linear de
dados discretos (KALMAN, 1960). Essa primeira verso era usada apenas para problemas
lineares. Na poca, a resoluo de problemas no-lineares era invivel devido ao baixo
poder de processamento dos computadores.
O Filtro de Kalman resolve eficientemente o problema da varincia mnima do erro,
utilizando a abordagem da filtragem tima e prev estados passados, presentes e at estados futuros. Esses estados pertencem a sistemas dinmicos lineares, ou seja, processos
governados por uma equao linear estocstica . No Filtro de Kalman Estendido, os estados pertencem a sistemas dinmicos no-lineares, governados por equao estocstica
no-linear (WELCH; BISHOP, 2001).
O FK pode ser usado para estimativa analtica de problemas, onde estima-se o estado
de um sistema com processo linear e modelos de medidas com incertezas gaussianas. A
funo de densidade de probabilidade (fdp) sobre o vetor de estados uma distribuio
gaussiana inteiramente determinada por seu vetor de mdia e matriz de covarincia. A
fdp define como ser a transio de estados do processo. Essas mdias e covarincias so
atualizadas com o algoritmo do FK.
O Filtro de Kalman (assim como todas suas variantes) aplicado em sistemas que
possuem variveis de estados contnuos, cujas medies (e normalmente tambm o processo) apresentam rudo. Como exemplos desses sistemas pode-se citar: trajetrias de
aeronaves e msseis; acompanhamento de pessoas e automveis; reconstruo da trajetria de partculas; determinao de correntes ocenicas e acompanhamento acstico de
submarinos. Outras exemplos de aplicaes podem se dar em indstrias qumicas, reatores nucleares, ecossistemas vegetais e variveis da economia (RUSSELL; NORVIG,
2004). Em (RUTGEERTS et al., 2005) mostrado um sistema de treinamento para robs
por demonstrao humana. (NYGREN; JANSSON, 2004) mostra a utilizao do FK
para navegao de submarinos. Outra utilizao do FK, para rastreamento de pessoas em
tempo real, mostrada por (GIRONDEL; CAPLIER; BONNAUD, 2004).
3.2
36
(3.7)
(3.8)
O estado do sistema no pode ser medido diretamente, com isso necessrio fazer
estimativas sobre o estado real do sistema. O FK utiliza dois modelos lineares, um para
o processo e outro para a medida. O FK funciona em duas fases. A primeira fase estima
o prximo estado (projeta o estado adiante), com base na funo de transio sobre o
estado anterior (antes da medida), e a segunda fase atualiza a estimativa de estado, com
base na medida no instante atual. A medida do sistema (z (n)), representa um vetor de
variveis observveis e uma funo do estado real x (n). O vetor z (n) depende tambm
de um rudo v (n), chamado de rudo de medida, originado da impreciso do mecanismo
de medida do estado:
(3.9)
z (n) = h [x (n) , v (n)]
A funo de medida determinstica. Na prtica (na execuo do filtro), h representa
a forma como uma estimativa de medida inferida a partir de uma estimativa de estado. O
rudo de medida v (n) tambm considerado gaussiano "branco". A covarincia do rudo
de medida ser dada pela matriz R:
D
(3.10)
37
No-linearidades e Jacobianas
f
w
h
x
h
v
Cada jacobiana representa uma matriz de derivadas parciais de cada uma das sadas
da funo por cada uma das posies do seu vetor de entrada. Por exemplo, a matriz hx
ser constituda das derivadas parciais de cada uma das posies do vetor de sada gerado
pela funo h em relao a cada uma das posies do vetor de estado x. As sadas da
funo representam as linhas da matriz e as posies do vetor de estados representam as
38
z1
1
1
xT
xz21 xz22
z2
xT
1
2
=
(3.11)
.
.
.
.
..
. . ..
x ..
zN
x1
zN
x2
zN
xT
Fase de Previso
A estimativa do vetor de estados atual (Equao 3.7) a priori trata o modelo do processo como sendo determinstico (sem rudo):
x (n|n 1) = f [x (n 1|n 1) , u (n 1) , 0]
(3.12)
(3.13)
f
f
x (n 1|n 1) +
w (n 1)
x
w
(3.14)
Substituindo as Equaes 3.14 e 3.12 na Equao 3.13 , pode-se calcular o erro terico
da estimativa como:
x (n|n 1) =
f
f
x (n 1|n 1) +
w (n 1)
x
w
(3.15)
(3.16)
(3.17)
39
Pode-se perceber que a funo h recebe o valor 0 como rudo, isto , trabalha apenas
com a parte determinstica. O erro da estimativa de medida ser dado por:
z (n|n 1) = z (n) z (n|n 1)
(3.19)
h
h
x (n|n 1) +
v (n)
x
v
(3.20)
Substituindo as Equaes 3.18 e 3.20 na Equao 3.19, pode-se calcular o erro terico
da estimativa de medida:
z (n|n 1) =
3.2.3
h
h
x (n|n 1) +
v (n)
x
v
(3.21)
Fase de Atualizao
(3.25)
Substituindo os erros de estimativa de medida (Eq. 3.19), a Eq. 3.25 resulta em:
T T
h
Szz (n|n 1) = hx xf P (n 1|n 1) xf
x
T T
T
(3.26)
h
h
h
+ hx wf Q (n 1) wf
+
R
(n)
x
v
v
A frmula acima tambm equivalente a:
T
T
h
h
h
h
Szz (n|n 1) =
P (n|n 1)
+
R (n)
x
x
v
v
(3.27)
40
(3.28)
(3.29)
A diferena entre a medida real e a estimativa de medida a priori chamada de inovao e representa a nova informao contida na medida. Essa nova informao no
incorporada toda de uma vez na estimativa de estado, apenas uma parte (combinao
linear) dela utilizada, de maneira tima pelo ganho de Kalman.
Por fim, a covarincia do erro da estimativa a posteriori dada por:
D
E
(3.30)
P (n|n) = x (n|n) x (n|n)T
ou
P (n|n) = P (n|n 1) K (n) Szz (n|n 1) K (n)T
3.3
(3.31)
O Filtro de Kalman foi inicialmente projetado apenas para problemas lineares, servindo para estimar estados de processo controlado, discreto no tempo. A sua equao de
controle (processo) uma equao linear estocstica.
3.3.1
A transio de estados feita de forma linear por meio de multiplicao por matrizes.
A predio do vetor de estados x feita da forma:
x (n) = Ax (n 1) + Bu (n 1) + w (n 1)
(3.32)
Onde A e B so matrizes que caracterizam a dinmica determinstica e linear do processo. A e B representam a funo de transio f.
A funo de medida h tambm substituda pela multiplicao por uma matriz. A
matriz H representa a funo linear de medida:
z (n) = Hx (n) + v (n)
(3.33)
= A,
h
x
= H,
f
w
= I,
h
v
=I
(3.34)
41
E a estimativa de medida:
z (n|n 1) = Hx (n|n 1)
(3.36)
(3.37)
(3.39)
1
HP (n|n 1) HT + R (n)
(3.40)
A atualizao da estimativa de estado permanece da mesma forma, mas pode ser escrita tambm com a substituio da matriz de medida na inovao:
x (n|n) = x (n|n 1) + K (n) (z (n) Hx (n|n 1))
(3.41)
E, por fim, a covarincia a posteriori tambm pode ser escrita em funo das matrizes:
P (n|n) = (I K (n) H) P (n|n 1)
3.3.2
(3.42)
Limitaes do FK Linear
(3.43)
(3.44)
42
Sistema III: Possui rudo com distribuio no-gaussiana. Possui a seguinte equao:
(3.45)
x (n) = 0.9x (n 1) + (w (n))3
Sistema IV: Inclui tanto no-linearidade quanto rudo no-gaussiano. Possui a seguinte equao:
1
x (n) = [x (n 1) + w (n)] 3
(3.46)
Todos os sistemas possuem v (n) e w (n) (rudos de medida e rudos de processo) como
rudos gaussiano branco com mdia zero e desvio padro de 0.5. A nica exceo o sistema I, que possui desvio padro de 0.2 e 1.0 para w (n) e v (n), respectivamente. Os
outros 20 sistemas apresentam distribuies alternativas para os rudos, no-linearidades
nas funes de medidas, correlaes entre os rudos e vrias combinaes dessas caractersticas. A comparao da RN com FKD em cada um dos 4 sistemas feita utilizando
a mdia absoluta do erro de estimao, conforme mostrado na tabela 3.1. A melhora
calculada atravs da diferena percentual do erro do FKD e do erro da RN.
Tabela 3.1: Comparao da RN com o FKD, nos quatro sistemas
Sistema
Erro do FKD
Erro da RN
Melhora da RN
I
II
III
IV
0,267824
0,337429
0,280056
0,266397
0,276415
0,286842
0,249324
0,165234
-3,2%
15%
11%
38%
O sistema I foi o nico que o FKD teve um razovel melhor desempenho. Em todos os outros a RN saiu-se substancialmente melhor. A maior melhora da RN deu-se em
um sistema com w (n) e v (n) idnticos (100% de correlao). Com esses experimentos,
mostra-se que a RN apresentada teve desempenho pouco inferior ao FK quando as hipteses de Kalman so atendidas. Quando as hipteses no so atendidas, a RN mostra
um desempenho bastante superior em todos os casos. Quando as violaes aumentam,
aumenta o grau de melhora no desempenho. O grau de melhora depende do tipo exato e
do grau da violao da hiptese.
3.4
Concluses sobre o FK
As funes f e h (funes da dinmica de estado e de medida, respectivamente) podem na prtica variar com o tempo, de acordo com as caractersticas da maioria dos sistemas reais. Porm, na maioria das aplicaes do FK, essas funes so constantes. Essa
simplificao deve-se principalmente grande dificuldade de se modelar a estatstica de
transio de estado. Ento, descobrir vrios desses modelos ao longo do tempo torna-se
invivel. Essa dificuldade motiva o uso de redes neurais como processo do FK neste trabalho, pois as RN adaptam-se automaticamente a mudanas na funo de transio. A
prpria necessidade de possuir uma funo f definida uma limitao do FK. Essa necessidade limita o campo de aplicaes do FK, no podendo ser utilizado onde o modelo
no conhecido, como na predio de sries temporais. Outra limitao a suposio
que o rudo obedece distribuio gaussiana. Existem tambm limitaes no tratamento de
no-linearidades, sendo que o FKD no as trata e o FKE trata apenas as no-linearidades
de primeira ordem.
43
44
4.1
Conceitos Iniciais
Aplicaes
45
Dada uma srie temporal Y1 , ...,YT , observada nos instantes t1 , ...,tT , os objetivos da
anlise so (MORETTIN; TOLOI, 2004):
Investigar o mecanismo gerador da srie;
Fazer previses de valores futuros da srie;
Descrever o comportamento da srie, observando tendncias, ciclos e variaes e
construindo grficos;
Procurar periodicidades relevantes nos dados.
4.1.4
Procedimentos de Predio
46
4.1.5
Estacionariedade
Uma das suposies mais importantes para caracterizar uma srie temporal se ela
estacionria, isto , se a srie permanece ao redor de uma mdia constante, refletindo
um equilbrio estvel (MORETTIN; TOLOI, 2004) (NUNES, 2003) (MANTOVANI,
2004). Tratando-se de sries reais, a maior parte delas apresenta alguma forma de noestacionariedade. Por exemplo, as sries econmicas apresentam tendncias, que podem
ser positivas ou negativas. O caso mais simples de tendncia quando a srie flutua
em torno de uma reta, nesse caso tem-se uma tendncia linear. Pode-se ter tambm noestacionaridades explosivas, como o exemplo do crescimento de uma colnia de bactrias.
Na figura 4.1 mostrado um exemplo de uma srie no-estacionria, com uma tendncia
linear crescente ao longo de toda a srie, acrescida de mltiplas sub-tendncias lineares
temporrias.
47
da figura 4.1. Pode-se perceber na figura que agora h uma srie estacionria. Na grande
maioria das sries, uma ou duas diferenas so suficientes para obter-se uma srie estacionria(MORETTIN; TOLOI, 2004).
4.2
A tcnica das Mdias Mveis Simples (MMS) consiste em calcular a mdia aritmtica
das r observaes mais recentes da srie, na forma:
Mt =
Yt +Yt1 + +Ytr+1
r
(4.2)
(4.3)
48
Onde h o horizonte de previso (quantidade de instantes a frente), ento Zt (h) representa a previso de Z para o instante t + h. Uma boa escolha da quantidade de termos
utilizada na mdia (r) imprescindvel para o bom desempenho da tcnica de MMS. Se
o valor de r for muito grande, a previso acompanhar lentamente as mudanas de parmetros. Se r for muito pequeno, a reao mudana de parmetro ser muito rpida.
Existem dois extremos:
Se r = 1, ento o valor mais recente da srie utilizado como previso de todos os
valores futuros. Esse tipo de predio chamado de "mtodo ingnuo".
Se r igual ao nmero de valores anteriores, a previso ser a mdia aritmtica de
todos os valores observados. Nesse caso, tem-se uma suavizao muito grande, s
utilizada quando a srie altamente aleatria.
Conclui-se que o valor de r proporcional ao tamanho da aleatoriedade da srie. Um
procedimento adequado selecionar um valor de r que d a melhor previso de um passo
das observaes j obtidas. Isso equivale a encontrar um valor que minimize:
n
S=
2
Zt Zt1 (1)
(4.4)
t=`+1
A tcnica de Alisamento Exponencial Simples (AES) representa uma mdia ponderada, que d pesos maiores s observaes mais recentes da srie. A AES descrita por:
Zt = Zt + (1 ) Zt1
Z 0 = Z1
t = 1, , N
(4.5)
Onde Zt chamado de valor exponencialmente alisado e a constante de alisamento, com 0 1. Expandindo a equao de Zt , tem-se:
Zt = Zt + (1 ) Zt1 + (1 )2 Zt2 +
(4.6)
49
(4.7)
(4.8)
Supondo que a tendncia seja linear, a previso ser feita da seguinte forma (OLIVEIRA, 2002):
Zt (h) = a1,t + a2,t h
a1,t = 2Zt Z t
(4.9)
a2,t =
Zt Z t
1
Onde a1,t estimativa do intercepto (ponto que cruza o eixo das ordenadas) e a2,t a
estimativa da tendncia (inclinao da reta). Da mesma forma que as tcnicas anteriores,
o tambm pode ser calculado a partir da melhor predio de um passo.
50
4.2.4
O Alisamento Exponencial Quadrtico de Brown (AEQB) (BROWN, 1963) semelhante ao AELB, com a diferena que a tendncia se apresenta de forma quadrtica. Ento
tem-se um terceiro alisamento:
Zt = Zt + (1 ) Zt1
Z t = Zt + (1 ) Z t1
Z t = Z t + (1 ) Z t1
t = 2, , N
(4.10)
a2,t = 2 (6 5) Zt 2 (5 4) Z t + (4 3) Z t
2(1)
2
Zt 2Z t + Z t
a3,t = 1
(4.11)
Modelos de Auto-regresso
Os modelos de Auto-Regresso (AR) supem que os valores da srie sejam linearmente relacionados com seus prprios valores defasados. Um modelo auto-regressivo de
ordem k ser chamado de AR(k) e pode ser descrito por:
Zt = w1 Zt1 + w2 Zt2 + + wk Ztk + et
t = 1, 2, , N
(4.12)
Onde:
w so os pesos atribudos a cada uma das observaes passadas;
et o rudo no tempo t;
Zt1 , , Ztk so os valores anteriores da srie utilizados na regresso.
Para que o modelo possa ser aplicado so necessrias as seguintes suposies (MORETTIN; TOLOI, 2004):
et tem mdia zero e varincia e2 ;
Zt , , Ztk so vistos como seqncias de constantes;
As razes do polinmio abaixo so em mdulo menores que um, garantindo a estabilidade do modelo:
k
xk + w j xk j
j=1
(4.13)
51
As estimativas dos pesos w so feitas de acordo com os mnimos quadrados dos erros,
ento tem-se:
n
et2 =
t=k+1
(4.14)
t=k+1
(4.15)
(4.16)
(4.17)
Modelos ARIMA
(4.18)
52
(4.20)
4.3
53
As tcnicas convencionais tambm consistem em procurar dentro de um conjunto limitado de modelos, aqueles que melhor representam os processos geradores das sries.
Cada anlise representa assumir uma estrutura para os dados, modelo e parmetros, testando a validade dessa estrutura repetidas vezes, uma tarefa muito custosa e s vezes
invivel. As RNs apresentam grandes vantagens pois aprendem os padres subjacentes
nos dados, apresentando resultados muito melhores que os mtodos estatsticos tradicionais quando o processo regente dos dados desconhecido, no-linear ou no-estacionrio
(CASTRO, 2001).
A prpria estrutura das sries temporais beneficia o uso de redes neurais. Nas formas
mais clssicas de representao, o clculo do prximo instante de uma srie temporal
descrita por:
T
y (k) =
(4.21)
n=1
Onde:
y (k) o valor atual a ser calculado;
T o nmero de termos anteriores que so considerados no clculo do valor atual;
y (k n) representa cada um dos T valores anteriores da srie;
a (n) o peso dado a cada observao passada;
e (k) o erro do clculo.
O erro assumido ser rudo branco, pelos construtores das tcnicas de regresso linear.
O artigo de (WAN, 1994) indica a existncia de uma no-linearidade na definio acima,
com um mapeamento diferencial em relao a cada um dos termos anteriores. A autoregresso no-linear fica na forma y (k) = g [y (k 1) , y (k 2) , ..., y (k T )] e modela a
srie exatamente, assumindo que a mesma no tenha rudo. A indicao de caractersticas no-lineares nas sries temporais motiva o uso de redes neurais. A rede aproxima
a funo ideal g (). Uma rede MLP (Multi camadas) alimentada adiante, com um nmero suficiente de neurnios, capaz de aproximar uma funo uniformemente contnua
(CYBENKO, 1989) (HAYKIN, 2001a).
A maior parte das RNs utilizadas na rea de sries temporais do tipo alimentada
adiante ou feedforward, com algoritmos derivados do backpropagation. Existem muitas
aplicaes de redes desse tipo em mercados financeiros, mostrando bons resultados, inclusive melhores que o modelo ARIMA. (CORTEZ, 1997) comenta sobre experimentos
em que as RNs obtm melhores resultados que os mtodos lineares, em especial em predies de mais longo prazo. O trabalho comenta que as redes alimentadas adiante, com
conexes de atalho conseguem funcionar como um super conjunto de modelos ARIMA,
pois combinam componentes lineares (gerados pelas conexes de atalho) e no-lineares
(proporcionados pelas camadas intermedirias). O bom desempenho das RNs depende da
estrutura da rede, dos parmetros utilizados e da natureza da srie temporal.
4.3.1
A utilizao de redes neurais na PST tornou-se mais intensa no incio dos anos oitenta,
tendo como principal objetivo completar a lacuna deixada pelos mtodos estatsticos convencionais quanto a sries no-lineares. As primeiras aplicaes foram no mercado financeiro, onde comprovadamente os mtodos de alisamento eram incapazes de prever
54
rpidas e pequenas flutuaes nos valores dos ndices. As primeiras aplicaes de RNs
para prever valores de aes frustaram as grandiosas expectativas existentes, mas aos poucos foram sendo descobertas circunstncias e metodologias que fizeram as redes surgirem
como boas alternativas tambm para esse tipo de aplicao (CORTEZ, 1997).
O interesse de pesquisadores de redes neurais para predio de sries temporais
ainda mais antigo. Em 1964, Ho aplicou uma rede linear adaptativa em estudos de
previso climtica. Mais tarde, em 1987, Lapedes e Farber aplicaram uma rede neural
no-linear para descobrir a relao entre pontos sucessivos de sries temporais geradas
computacionalmente (CASTRO, 2001).
4.3.2
Concursos de PST
4.4
Concluses do Captulo
Os modelos de Box e Jenkins (ARIMA) tiveram frutferas aplicaes nas reas sociais, econmicas, engenharias, comrcio internacional, etc. A grande vantagem desse
mtodo est em previses para curtos espaos de tempo. Os modelos ARIMA so muito
tradicionais e existem muitos estudos mostrando suas vantagens (principalmente comparando com outros mtodos estatsticos mais simples). Existem casos que as tcnicas
simples como MMS e AES so indicadas, como sries estacionrias. A utilizao de um
modelo em detrimento de outro depende muito da aplicao em questo e tambm da rea
de origem dos participantes do projeto.
As redes neurais foram inicialmente pouco valorizadas, situao que foi sendo amenizada devido ao seu grande sucesso em competies para avaliao de desempenho de
mtodos de PST. Mesmo com resultados favorveis das RN, grande parte da literatura
ainda sub-valoriza esses mtodos nas comparaes, devido ao fato de as RN serem pouco
"explicveis" e de que boa parte dos pesquisadores preferem mtodos com extensa teoria sobre seu funcionamento, em detrimento da obteno de melhores resultados. Redes
neurais possuem grandes vantagens em dados de situaes reais, onde o comportamento
do processo desconhecido. As vantagens das RNs so a sua adaptabilidade a modelos desconhecidos, a sries no-estacionrias e com grandes no-linearidades. Uma RN
55
56
TRABALHOS CORRELACIONADOS
Este captulo de trabalhos correlacionados trata principalmente das abordagens hbridas, em que uma rede neural utilizada conjuntamente com um Filtro de Kalman (FKE
ou outra variante). O treinamento de RNs com FK tambm abordado, bem como o uso
de redes para ajustar parmetros do filtro. Ao final, compara-se o presente trabalho com
os demais trabalhos correlacionados.
5.1
Esta seo trata dos trabalhos em que realmente ocorre uma hibridizao entre a rede
neural e o Filtro de Kalman (normalmente o FKE). A RN utilizada como uma extenso
do filtro, tentando prever o erro deste para melhorar os resultados.
5.1.1
O artigo de (VEPA, 1993) lana as idias de uma abordagem hbrida, com uma rede
neural estimando o erro de um Filtro de Kalman Estendido. A aplicao em estimao
da posio de veculos, que um problema com muitas particularidades. A soluo popular baseada na estimao do quatrnio, elemento de um conjunto que representa um
corpo exceto pela propriedade da multiplicao, representado pela soma a + bi + c j + dk,
onde a, b, c e d so nmeros reais. Essa estimativa feita com um FKE. Porm, a predio com FKE somente adequada se a incerteza do sensor de posio puder ser modelada
de maneira muito prxima a um rudo branco ou rudo colorido. Em muitos casos no
possvel modelar dessa maneira.
O trabalho de (VEPA, 1993) utiliza uma abordagem hbrida com um modelo particular
para estimativa de posio. Alm do aprendizado dos pesos, essa abordagem cooperativa
tambm adapta as macro estruturas da RN. A RN acaba sendo moldada em funo do
FKE. A justificativa para utilizao da RN na forma hbrida que o FKE isoladamente
necessita que o modelo no-linear seja diferenciado com a estatstica totalmente conhecida a priori. A arquitetura da RN tambm hbrida. A primeira camada uma rede
retropropagada e a segunda camada propagada adiante. A primeira camada visa representar o estado interno do observador e a segunda, o estado das relaes de sada.
A modelagem hbrida apresenta o seguinte formato, seguindo a estrutura do FKE. A
etapa de previso idntica ao FKE. A etapa de atualizao dividida em dois estgios:
o primeiro estgio idntico atualizao do FKE; o segundo baseia-se numa melhora
da estimativa com uma RN dinmica. Resumindo, esse modelo um FKE com uma RN
para melhorar seus resultados, tentando prever os erros do filtro. A estimativa de prximo
57
O Neural Extended Kalman Filter (NEKF) um modelo que utiliza uma RN para
prever o erro de um FKE, de maneira on-line, com a RN sendo treinada por outro FKE. O
artigo inicial de (STUBBERUD; LOBBIA; OWEN, 1995) mostra um neuro-observador,
que um FKE que tem a atualizao de estados melhorada por uma RN.
Sabe-se que necessrio para o FKE o conhecimento a priori de toda a estrutura
do modelo estatstico, para fazer a estimativa dos estados e clculo das jacobianas. Em
grande parte dos casos reais o modelo parcialmente ou totalmente desconhecido. O
NEKF trata de sistemas parcialmente conhecidos (com funo original f ), com uma funo f que aproxima o sistema real. A diferena entre o sistema real e a aproximao ter
um erro representado por:
(5.2)
k = fk (xk , uk ) fk (xk , uk )
O NEKF utiliza uma RN para estimar o erro (k ), que a diferena entre o verdadeiro modelo e aquele encontrado pela implementao padro do FKE. A RN pode ser
multi-camadas alimentada adiante, representada por gk (xk , uk , wk ), onde wk so os pesos
passados para a rede. Ento a equao de estado resultante ser:
xk+1 = fk (xk , uk ) + gk (xk , uk , wk )
(5.3)
(5.5)
58
z (k) =
0 1 x (k)
(5.7)
Usos do NEKF
59
5.1.3.1
Perseguio de Alvos
A perseguio de alvos e a interceptao (mostrada na subseo seguinte) so semelhantes, sendo que para a interceptao necessrio perseguir (rastrear) o alvo. Os
dois tipos de usos so mostrados separadamente pelo enfoque mais abrangente dado pela
perseguio de alvos e pela utilizao conjunta com a tcnica de Interao com Mltiplos Modelos (IMM). O uso de NEKF com IMM na perseguio de alvos descrito por
(OWEN; STUBBERUD, 1999) e (OWEN; STUBBERUD, 2003).
A tcnica de IMM proporciona uma estrutura flexvel e adaptativa para estimao de
estados. A estrutura formada por N modelos (podendo cada modelo ser um FKE ou
um NEKF, por exemplo) rodando em paralelo. Cada modelo pode conter um diferente
sistema de equaes de transio de estados, modelo de observao (medidas), dimenso
do vetor de estados e tipo de rudo de processo. Combinando o NEKF com IMM, os
autores projetam um estimador muito robusto. O NEKF IMM, descrito em (OWEN;
STUBBERUD, 2003), utiliza 3 modelos: dois deles utilizam velocidade constante, com
baixo e alto rudo, respectivamente; o terceiro modelo o NEKF. O NEKF IMM combina
a robustez e intercmbio entre modelos (do IMM) com a capacidade de aprendizado online de manobras do NEKF.
Figura 5.3: Acompanhamento da trajetria do alvo: (a) com o mtodo da "linha reta" (b)
com o mtodo NEKF IMM
Um dos experimentos para validao do NEKF mostrado em (OWEN; STUBBERUD, 1999), que a perseguio do alvo em uma manobra num espao bidimensional.
A figura 5.3(a) mostra a predio com o "modelo da linha reta", que calcula a prxima
posio com base na direo anterior. Na figura os crculos representam as medidas (com
rudo) e os xs representam as estimativas. Pode-se perceber que o acompanhamento da
manobra retardado. Na figura 5.3(b) so mostrados os resultados de predio do NEKF
IMM para a mesma manobra. Como pode-se ver na figura, ocorre uma significativa melhora na perseguio.
O artigo (OWEN; STUBBERUD, 2003) mostra os resultados do NEKF IMM em uma
srie de benchmarks de perseguio de alvos que se deslocam em trs dimenses (areos).
Os resultados mostram bons resultados para problemas difceis, atestando a eficincia
dessas tcnicas (NEKF e NEKF IMM) para problemas de rastreamento on-line.
60
5.1.3.2
Interceptao de Alvos
61
5.1.3.3
Balstica
62
simultaneamente para predio dos estados e para treinamento da RN. As razes para a
tentativa com o UKF que o FKE, mesmo sendo simples e diretamente propagado, possui
algumas desvantagens (no controle on-line de sistemas no-lineares): instabilidade na
linearizao; custo de clculo das matrizes jacobianas; natureza parcial das estimativas. A
principal vantagem do UKF que no necessrio nenhuma linearizao para calcular a
predio de estados e covarincias. Por isso, sua covarincia e Ganho de Kalman tendem
a ser mais precisos, levando a melhores estimativas de estados.
A justificativa bsica para a utilizao do Unscented Kalman Filter que mais fcil
aproximar uma distribuio gaussiana que aproximar uma funo no-linear arbitrria.
Em vez de fazer linearizao utilizando matrizes jacobianas, o UKF usa uma abordagem
amostral determinstica para capturar as estimativas de mdia e varincia com um conjunto mnimo de pontos de amostra (LAVIOLA, 2003). A transformada unscented um
mtodo para calcular a estatstica de variveis aleatrias e utiliza uma transformao nolinear. Essa transformada usa um conjunto de pontos sigma que une propriedades fixas
da distribuio anterior e permite a propagao direta da mdia e covarincia atravs do
sistema de equaes no-lineares (GUANG-FU; XUE-YUAN, 2005), sem a necessidade
de calcular a matriz jacobiana.
Para comparao entre o NEKF e a sua variao que Utiliza o UKF (chamado no
artigo de NN-UKF), uma das funes utilizadas para aproximao foi:
2
y=
1 + exp
1
1+exp(0.10.5x)
1
1+exp(0.5+0.4x)
x
1 + x2
(5.8)
63
5.1.5
Algoritmos
MSE mdio
Varincia do MSE
FKE
UKF
NEKF
NN-UKF
0,3584
0,2661
0,1380
0,0769
0,01295
0,00925
0,00696
0,00176
Um modelo hbrido de rede neural com Filtro de Kalman para predio de sries
temporais ruidosas proposto por (WAN; MERVE, 2000). A RN serve como funo de
estimao de estados do Unscented Kalman Filter. A srie temporal sem rudo definida
no artigo por:
(5.9)
xk = f (xk1 , , xkM , w) + vk
Onde o modelo f , parametrizado por w, aproximado pelo treinamento de uma rede
neural com os dados limpos (sem rudo). O erro da RN (vk ) considerado o rudo de
processo. Adiciona-se rudo gaussiano branco na srie original para gerar a srie ruidosa
yk = xk + nk . O correspondente modelo de espao de estados dado por:
xk
xk
xk1
..
.
xkM+1
F (xk1 , w)
+ B vk1
F (xk1 , , xkM
1
, w)
1 0 0 0
xk1
.
..
. vk1
..
0 . . . 0 ..
.
0 0 1 0
xkM+1
0
yk = 1 0 0 .xk + nk
=
(5.10)
(5.11)
O trabalho apresenta a predio da srie catica de Mackey-Glass ruidosa com parmetro de ciclo 30, mostrada na figura 5.8. Compara-se os algoritmos FKE e UKF, ambos
com a rede neural como funo de transio de estados. Essa comprarao mostrada na
figura 5.8. O UKF apresenta resultados bem melhores que o FKE para esse experimento.
O trabalho apresenta a colocao da RN como funo "pura" do FKE e do UKF,
sendo treinada com dados no-ruidosos (srie ideal). Para aplicaes reais, a srie no
ruidosa no est disponvel, pois o que se pretende prever. O principal enfoque do
trabalho (WAN; MERVE, 2000) e do trabalho anterior (WAN; MERVE; NELSON, 2000)
a comparao de treinamento de redes neurais com UKF e FKE.
5.2
64
65
Figura 5.9: Superfcie de deciso da otimizao dos parmetros com rede RBNN
5.3
(5.13)
Onde, em um instante n:
w (n) um vetor com todos os pesos da rede;
x (n) o vetor de entrada da rede, do conjunto de treinamento;
d (n) o correspondente vetor de sada desejado para x(n);
h (n) define um relacionamento no-linear entre as entradas, sadas e pesos da RN;
q (n) o rudo de processo no modelo do sistema;
66
67
Figura 5.10: Nmero de iteraes necessrias para convergncia em cada um dos mtodos
de treinamento
refletindo seu poder de aprendizado e convergncia.
Realizaram-se tambm simulaes para comparar a forma tradicional do FKE com a
forma em lote. Descobriu-se que as formas em lote exibem melhores propriedades de
convergncia e tambm possuem processo de treinamento mais estvel que a forma tradicional. As comparaes mostram que o FKE tem maior capacidade de aprendizado, melhor propriedade de convergncia e maior velocidade de treinamento que o BP. Percebe-se
tambm que o treinamento em lote mostra maior convergncia e processo de treinamento
mais estvel que o treinamento padro.
O artigo de (GANG; YU, 2005) apresenta o Node Decoupled Extend Kalman Filter
(NDEFK ou FKE Disjunto, com os pesos acoplados por ns) para treinar uma RN hbrida
auto-regressiva. A RN utilizada para identificao de categorias de motores. A principal
diferena do FKE disjunto para o FKE padro a linearizao da equao de espao de
estados. A funo de transio transformada em uma matriz de derivadas, onde cada posio pode ser obtida pela regra da cadeia. O artigo mostra um experimento comparando
o aprendizado do NDEKF com o do BP, com o NDEKF convergindo em poucas iteraes.
A comparao do NDEKF com o BP indica que o NDEKF converge mais rapidamente,
est menos suscetvel a mnimos locais e tem melhor capacidade de generalizao.
68
69
Este captulo apresenta a proposta de um mtodo neuro-estatstico, unindo as caractersticas de uma rede neural de mltiplas camadas com o Filtro de Kalman Estendido.
Apresenta-se a motivao e a justificativa para essa proposta; os modelos e formalismos
utilizados, mostrando a relao entre a RN e o FKE e a explicao de todo o algoritmo de
funcionamento do mtodo.
6.1
Motivao
Esta proposta trata da construo de um mtodo hbrido de uma rede neural de mltiplas camadas com o mtodo estatstico Filtro de Kalman Estendido para aplicaes de
predio de sries temporais. A justificativa para a juno dessas abordagens o fato
de possurem caractersticas complementares, no que se refere regresso (previso) em
sries com presena de rudo e que seguem dinmicas desconhecidas e no-lineares. A seguir so comentados os motivos pelos quais a hibridizao de redes neurais com o mtodo
estatstico desejvel.
O mtodo estatstico Filtro de Kalman (KALMAN, 1960), consegue minimizar a influncia do rudo, trabalhando com a varincia do rudo nos dados extrados do sistema
real (ruidoso). Essa varincia utilizada para melhorar a predio, juntamente com a covarincia do erro de predio. O motivo da utilizao do Filtro de Kalman Estendido (em
vez do FKD) o tratamento de no-linearidades no modelo gerador da srie e a possibilidade de interagir com a RN na gerao das jacobianas. As no-linearidades tratadas
pelo FKE so apenas de primeira ordem (suaves) e as matrizes jacobianas so as responsveis pelo tratamento dessas no-linearidades. As jacobianas podem ser calculadas
diretamente a partir de valores internos de uma rede neural de mltiplas camadas alimentada adiante. Essa caracterstica do FKE torna-o muito indicado para uso juntamente com
RNs. Com a interao da RN com o FKE, no modelo proposto, visa-se resolver uma das
limitaes do FK, abordada por (DECRUYENAERE; HAFEZ, 1992): o tratamento de
no-linearidades. A outra limitao apontada, a suposio de o rudo obedecer distribuio gaussiana, no abordada neste trabalho.
Os mtodos estatsticos necessitam conhecer o modelo estatstico gerador (funo)
das sries. O principal problema dos mtodos estatsticos como o FKE a dificuldade
de se criar uma abordagem complexa pela falta de compreenso de certos modelos reais,
onde muitas caractersticas e parmetros no so conhecidos. Da advm a necessidade
de testes de muitas hipteses e combinaes atravs de massivos processos estatsticos,
o que em muitas vezes no vivel (MORETTIN; TOLOI, 2004). O Filtro de Kalman
necessita conhecer uma funo f que descreva o modelo gerador do sistema. Como na
predio de sries temporais o objetivo exatamente a aproximao do modelo gerador
70
6.2
(6.1)
(6.2)
71
Onde y (n) , , y (n T + 1) so estimativas passadas de sada. A diferena desse modelo para o NAR a realimentao com as prprias sadas previstas. Em ambos modelos
no h a presena de entradas exgenas, para tratar sries em que no dispe-se de ao
ou outra entrada, apenas os valores anteriores da mesma. A figura 6.2 mostra um modelo
NOE sem entradas exgenas de ordem 2.
6.3
O modelo proposto envolve o uso de uma rede neural como processo do FKE, fazendo
a tarefa de predio, substituindo a funo f. O emprego da RN elimina a necessidade de
conhecimento prvio da funo de transio de estados. O restante do mtodo funciona
como sendo um FKE, trabalhando com as covarincias dos rudos e erros de predio,
para melhorar a qualidade da soluo do mtodo.
72
(6.3)
(6.4)
73
6.4
x1
x2
(6.5)
x = ..
.
xT
A inicializao do mtodo feita da seguinte forma:
Treina-se a rede neural off-line, usando trechos da srie temporal;
Estima-se a varincia do rudo de processo Q com medidas estatsticas do erro do
processo (rede neural);
Estima-se a varincia do rudo de medida R atravs da aplicao de um filtro off-line
em medidas ruidosas;
74
z (n 1)
z (n 2)
x (n 1|n 1) =
(6.6)
..
.
z (n T )
A matriz de covarincia do erro P do instante anterior inicializada com uma matriz
quadrada de zeros, com nmero de linhas e colunas igual quantia de termos de x :
P (n 1|n 1) = (x 0) (x 0)T
6.4.1
(6.7)
O estado projetado adiante (previsto) pela rede neural, que funciona como funo
de transio de estados. Para o modelo com realimentao da entrada, a atualizao do
estado ser dada por:
x (n|n 1) = F [x (n 1|n 1)]
(6.8)
Onde x (n|n 1) a estimativa do vetor de estado para o tempo atual (n), realizada no
instante anterior (n 1). F a funo de transio de estados, com a rede neural. Para o
modelo sem realimentao da entrada, a funo F receber sempre as medidas anteriores:
x (n|n 1) = F [z (n 1) , z (n 2) , , z (n T )]
(6.9)
Como deseja-se apenas calcular a posio atual da srie (x1 ), a RN far a predio
dessa posio e as demais sero apenas deslocadas. Para o modelo com realimentao da
entrada, tem-se:
x1 (n|n 1) = RN [x1 (n 1|n 1) , x2 (n 1|n 1) , , xT (n 1|n 1)]
x2 (n|n 1) = x1 (n 1|n 1)
x3 (n|n 1) = x2 (n 1|n 1)
..
.
(6.10)
xT (n|n 1) = xT 1 (n 1|n 1)
Como no modelo sem realimentao da entrada a RN recebe as medidas anteriores,
cada posio do vetor de estimativa de estados calculado da seguinte forma:
x1 (n|n 1) = RN [z (n 1) , z (n 2) , , z (n T )]
x2 (n|n 1) = x1 (n 1|n 1)
x3 (n|n 1) = x2 (n 1|n 1)
..
.
(6.11)
xT (n|n 1) = xT 1 (n 1|n 1)
Uma rede neural propragada adiante de uma camada oculta, utilizada para prever a
posio atual da srie, mostrada na figura 6.6. Essa RN recebe as entradas, no modelo
com realimentao da entrada (NOE). A RN equivalente para o modelo NAR mostrada
na figura 6.7.
A partir da propagao do estado adiante, as demais equaes seguem a forma do
FKE (para ambos modelos de entrada-sada), sendo que algumas dessas equaes so
75
Figura 6.6: Rede neural para previso da primeira posio do vetor de estados, no modelo
NOE
simplificadas para a aplicao de predio de sries temporais. A estimativa da medida
descrita pela funo:
z (n|n 1) = h [x (n|n 1) , 0]
(6.12)
Como o que est se buscando prever a posio atual da srie (x1 ) e as medidas so os
prprios valores da srie ruidosos, o valor da funo de estimativa da medida a primeira
posio do vetor de estados:
z (n|n 1) = x1 (n|n 1)
(6.13)
(6.14)
Onde:
P (n 1|n 1) a matriz de covarincia do erro calculada no tempo n 1;
F
x
76
Figura 6.7: Rede neural para previso da primeira posio do vetor de estados, no modelo
NAR
6.4.2
h
x
h
v
h
Sxz (n|n 1) = P (n|n 1)
x
T
(6.16)
(6.17)
A atualizao da estimativa de estado tambm ser da mesma forma que o FK, sendo
calculada a partir do Ganho de Kalman e da inovao:
x (n|n) = x (n|n 1) + K (n) (z (n) z (n|n 1))
(6.18)
(6.19)
77
6.4.3
Matrizes Jacobianas
Nesta seo mostrado o processo de obteno das matrizes jacobianas pelo mtodo
neuro-estatstico. Essas jacobianas so utilizadas posteriormente no clculo das matrizes
de covarincia do erro das estimativas. Como a funo de estimativa do estado seguinte
F baseada na prpria rede neural, a jacobiana da sada desta linearizar o estado da RN
em cada predio. O clculo das derivadas parciais feito utilizando todas as camadas
da RN, aproveitando toda a capacidade da rede de prever no-lineridades. A jacobiana
da funo F em relao ao estado baseada na rede neural. Ento essa jacobiana no
ser simplesmente calculada sobre uma funo estimada, como no caso do FKE. Neste
caso, a funo aproximada pela RN e, consequentemente, a jacobiana refletir toda a
capacidade de mapeamento de entrada-sada da RN. A seguir so mostradas as quatro
matrizes jacobianas: jacobianas das sadas da funo de processo F em relao ao estado
e ao rudo de processo; e das sadas da funo de medida h em relao ao estado e ao
rudo de medida.
6.4.3.1
0
0
0
1
0
0
0
F
= 0
(6.20)
0
1
0
0
x
..
..
..
..
..
..
.
.
.
.
.
.
0
0
0
1
0
Ento, a primeira linha extrada da rede neural para obter x1 (n|n 1) e possui derivadas parciais em relao a suas duas entradas:
Derivada parcial em relao a x1 (n 1|n 1):
N
(6.21)
i=1
Onde:
0 (s) a derivada da funo de ativao do neurnio da camada de sada sobre
o valor de sada desse neurnio;
78
(6.22)
i=1
(6.23)
i=1
A segunda linha da matriz extrada da frmula para obter x2 (n|n 1), a linha 3
relao x3 (n|n 1), a linha T , em relao a xT (n|n 1). Como x2 igual a x1 no
instante anterior, x3 igual a x2 , xT igual a xT 1 , tem-se que as posies (2, 1), (3, 2), ,
(T, T 1) possuiro valor 1 e as demais posies (das linhas 2 a T) possuiro valor 0.
6.4.3.2
Essa jacobiana ser uma matriz [T 1], porque as T sadas de F sero em relao ao
valor de w (escalar):
1
0
F
0
=
(6.24)
w ..
.
0
A primeira linha da matriz a derivada parcial da sada x1 (n|n 1) em relao a
entrada w (n 1). Como so diretamente relacionadas, o valor 1. As demais linhas so
as derivadas parciais das sadas xk (n|n 1) (com k variando de 2 a T ) em relao a essa
mesma entrada. Como no so relacionadas, o valor 0.
6.4.3.3
Essa jacobiana ser uma matriz [1 T ], pois a sada (z (n|n 1) ) tem 1 posio e a
entrada (vetor de estimativa de estado) tem T posies :
h
= 1 0 0 0
x
(6.25)
79
6.4.3.4
Essa jacobiana ser uma matriz [1 1] (escalar), porque tanto a sada como a entrada
(rudo de medida v) possuem 1 posio:
h
= [1]
v
(6.26)
6.5
80
81
EXPERIMENTOS
7.1
A predio de sries temporais com dinmicas caticas algo muito desafiador para
todas as linhas de pesquisa em PST. Mesmo em problemas difceis como esse, as redes
neurais tm apresentado desempenho satisfatrio, como no trabalho de (JANG, 1993). A
adio de rudo nesse tipo de srie torna-se uma novidade ainda mais desafiadora. Uma
das sries caticas, utilizada como benchmark (ponto de referncia) para a comparao
de mtodos, a srie de Mackey-Glass (MACKEY; GLASS, 1977), apresentada na figura
7.1.
82
A srie de Mackey-Glass aqui empregada segue a dinmica bsica utilizada nos trabalhos de (CROWDER, 1991) e (JANG, 1993), em que a variao entre uma posio da
srie e a prxima descrita por:
x (t) =
0.2x (t )
0.1x (t)
1 + x10 (t )
(7.1)
Para que os experimentos fossem apresentados de maneira prxima s definies originais de (CROWDER, 1991) e (JANG, 1993), adotou-se muitas configuraes desses
trabalhos. Configurou-se D = 4, ou seja, so utilizados 4 valores de posies anteriores (4
entradas para a rede neural). O valor de P foi escolhido como 6, ento o valor previsto ser
6 posies a frente do atual (t + 6). Tambm foi configurado = 6 como o espaamento
entre as posies de entrada. Atribuiu-se tambm = 17 (definindo a periodicidade e
complexidade da srie).
Gerou-se um conjunto de dados, para extrao das amostras de treinamento e teste,
com 0 t 1617 (assumiu-se que a srie possui valores nulos para t < 0). Extraiu-se
1000 amostras para treinamento com 118 t 1117, seguindo os trabalhos citados. Cada
amostra de treinamento, segue o seguinte formato:
[x (t 18) , x (t 12) , x (t 6) , x (t) ; x (t + 6)]
(7.2)
Onde os 4 primeiros valores servem como entrada e o ltimo como sada desejada. As
500 amostras de teste foram extradas com 1118 t 1617, tendo o mesmo formato dos
dados de treinamento, porm sem o valor desejado (ltimo valor). A RN utiliza a funo
de ativao tangente hiperblica. Tanto no treinamento quanto no teste, a RN recebe os
dados (ruidosos) da prpria srie como entrada. Ou seja, utilizou-se o mtodo neuroestatstico com modelo de entrada NAR, da figura 5.3. Nesse caso, a predio (resultado
a priori do mtodo) ser a mesma da RN sozinha. Os valores melhorados so os da sada
a priori (filtragem). Os dados filtrados podem ser usados para fazer um retreinamento da
RN em outros experimentos.
7.1.2
Na predio de sries sem rudo no necessria a utilizao do mtodo neuroestatstico. Apenas aplicou-se uma rede neural, nesse caso, para avaliar o poder preditivo desse modelo de RN na predio da srie de Mackey-Glass convencional. Com isso,
pode-se comparar o erro deste experimento com os erros que a incidncia de rudo provoca na RN, justificando a necessidade da filtragem do mtodo neuro-estatstico (para
posterior retreinamento da RN).
Para esse experimento, a rede MLP utilizada contm 10 neurnios na camada oculta e
400 pocas de treinamento. Todas as configuraes desse captulo de experimentos foram
83
O rudo utilizado neste trabalho gaussiano branco, isto , com distribuio normal
e mdia zero. O rudo aditivo (somado aos valores da srie) e possui varincia R. A
adio de rudo serve para simular as imprecises na obteno dos dados. Nos exemplos
das figuras 7.3 e 7.4, a varincia R tem valor 0,01, tendo ento desvio padro de 0,1.
Figura 7.3: Resultado da predio da rede neural para a srie com 0,01 de varincia de
rudo
A RN para predio da srie de Mackey-Glass (agora ruidosa) possui a mesma configurao que o exemplo da srie no ruidosa, com 10 neurnios na camada oculta, 400
pocas de treinamento, taxa de aprendizado 0,1 e coeficiente de Momentum 0,5. Essa
configurao tambm utilizada na RN que faz parte do NE. Os resultados da predio
84
Figura 7.4: Resultado da filtragem do mtodo neuro-estatstico para a srie com 0,01 de
varincia de rudo
Os resultados da filtragem do NE so mostrados na figura 7.4. Pode-se observar uma
significativa diminuio do Erro Mdio Quadrado (MSE), comparando-se com os resultados da rede neural. Observa-se tambm que o MSE dos valores filtrados pelo NE fica
bem abaixo da varincia do rudo de medida, diminuindo consideravelmente o grau de
rudo nos dados.
7.1.4
O "rudo mdio", aqui denominado, gaussiano branco com varincia 0,04. Esse
rudo mostrado juntamente com os resultados das figuras 7.5 e 7.6, representado pelos
pontos nos grficos. A rede neural, em ambos mtodos, tambm possui a mesma configurao dos exemplos anteriores, com 10 neurnios na camada oculta e 400 pocas de
treinamento. Os resultados da aplicao da RN com essa configurao so mostrados na
figura 7.5. O erro cresce bastante com o aumento do rudo, ocorrendo uma tendncia
de arredondamento de curvas. Pode-se perceber tambm, com rudo maior, que a RN
antecipa ou aumenta algumas curvas da srie.
A configurao dos parmetros Q e R do mtodo NE so feitas da mesma forma que
o experimento anterior. A varincia do rudo de medida R foi agora configurada como
85
Figura 7.5: Resultado da predio da rede neural para a srie com 0,04 de varincia de
rudo
Figura 7.6: Resultado da filtragem do mtodo neuro-estatstico para a srie com 0,04 de
varincia de rudo
sendo 0,04 (rudo da srie) e a varincia do rudo de processo foi configurada como 0,03
(um pouco acima do erro mdio esperado da RN). A figura 7.6 mostra o grfico de valores
filtrados pelo NE. Observa-se que o erro mdio foi bem menor que o encontrado pela RN,
conseguindo acompanhar a trajetria da srie, mesmo com o rudo presente nos dados
medidos. O erro (0,0155) tambm est consideravelmente menor que a covarincia do
rudo de medida (0,04), significando uma boa eficincia na filtragem, mesmo com o erro
da RN sendo mais alto.
7.1.5
O rudo, aqui chamado "grande" tambm gaussiano branco, agora com varincia
0,09. O aumento do grau de rudo (varincia) serve para uma melhor anlise das dificuldades que as incertezas causam na predio por redes neurais. Percebe-se pela distncia
dos pontos at a curva ideal, nas figuras 7.7 e 7.8, a grande incidncia de rudo nesses
exemplos. A configurao utilizada pela RN a mesma dos experimentos anteriores.
O desempenho da predio da RN na srie bastante ruidosa mostrado na figura 7.7.
86
Figura 7.7: Resultado da predio da rede neural para a srie com 0,09 de varincia de
rudo
Figura 7.8: Resultado da filtragem do mtodo neuro-estatstico para a srie com 0,09 de
varincia de rudo
Para analisar e confirmar o maior erro da RN em regies de picos da srie temporal,
gerou-se os grficos de erro da RN e do mtodo neuro-estatstico. O grfico de erro da
87
88
MSE mdio RN
Desvio MSE RN
MSE mdio NE
Desvio MSE NE
0,01
0,04
0,09
0,0098
0,0283
0,0371
0,0009
0,0024
0,0028
0,0053
0,0177
0,0268
0,0004
0,0018
0,0020
7.2
A criao de sries a partir de uma composio de funes trigonomtricas (principalmente seno e cosseno) proporciona o aparecimento de sries difceis com no-linearidades
bastante complexas. Uma srie apresentada por (HAYKIN, 2001a) como desafio para a
rea de redes neurais a srie dada pela seguinte funo:
(7.3)
x (n) = sin n + sin n2
Onde sin () representa a funo seno. A funo combina o seno de um valor inteiro n
acrescido do seno desse mesmo valor ao quadrado. A figura 7.11 mostra um trecho dessa
srie, com 1 n 100. A insero do seno de n2 dentro de outro seno cria uma srie de
difcil predio. A existncia de ciclos muito curtos tambm aumenta a dificuldade.
89
7.2.1
(7.4)
(7.5)
Para a predio da srie combinada de senos sem rudo, utilizou-se apenas a rede
neural, com a configurao otimizada por experimentos, conforme descrito anteriormente.
Os resultados da predio da srie no-ruidosa, atravs da RN isoladamente, servem para
mostrar a grande diferena de erro quando o rudo for adicionado (mesmo em pequena
quantidade). A predio dessa srie (sem incidncia de rudo) pela RN possui uma taxa
aceitvel de erro e mostrada na figura 7.12.
Pode-se perceber, na figura 7.12, alguns erros nas regies de inverso de tendncia
(picos) da srie. Observa-se tambm na figura, que ocorrem poucos retardos ou antecipa-
90
Esta subseo inicia as comparaes da RN com o mtodo neuro-estatstico com presena de rudo, na srie combinada de senos. Todas as comparaes utilizam a mesma
rede (com os mesmos pesos) no mtodo NE tambm, para uma maior confiabilidade nas
comparaes. Todos os rudos destas comparaes so gaussianos brancos aditivos. O
rudo aqui considerado pequeno tambm possui varincia de 0,01. O parmetro R do mtodo neuro-estatstico configurado como 0,01, enquanto o Q configurado como 0,09.
91
92
Figura 7.16: Resultado da predio pela RN para a srie com 0,04 de varincia de rudo
Figura 7.17: Resultado da filtragem pelo NE, para a srie com 0,04 de varincia de rudo
O desempenho da filtragem do NE para esse nvel de rudo mostrado na figura 7.17.
Observa-se que o NE diminui o erro da RN em todas as partes da trajetria, sem deixar
picos de erro. Em regies da srie onde o erro da RN muito grande, o valor calculado
pelo NE fica muito prximo da medida ruidosa. Essa opo de ajuste calculada automaticamente pelo mtodo, atravs do Ganho de Kalman, gerado a partir das covarincias
dos erros. A escolha de dar maior importncia para a medida feita de acordo com o
crescimento do erro do processo (RN) e permanece at o erro diminuir. A preparao
do NE para um possvel grande erro da RN vai ocorrendo gradativamente ao longo das
iteraes. Por exemplo, em um primeiro grande erro da RN para menos, o filtro do NE ir
compensar parte do erro. Se, depois disso, houver outro grande erro no mesmo sentido do
primeiro, o erro ser mais fortemente compensado. O mtodo parecer "vacinado" contra o erro. Da mesma forma, ocorre tambm gradativamente o esquecimento do erro (na
matriz de covarincia P).
O resultado da predio do mtodo neuro-estatstico mostrado na figura 7.18. Percebese uma melhora no desempenho da RN do NE ao receber os dados com rudo menor. A
RN permanece com o mesmo treinamento (realizado com rudo de varincia 0,04), mas
passa a receber como entrada os dados filtrados (com erro de varincia 0,0309). Essa
93
Figura 7.18: Resultado da predio pelo NE, para a srie com 0,04 de varincia de rudo
O rudo "grande" possui varincia de 0,09. Seguindo a mesma linha que as configuraes dos demais experimentos, os valores de R e Q do NE foram respectivamente 0,09 e
0,22 (prximo do MSE estimado da RN). O resultado da aplicao da RN mostrado na
figura 7.19. Como mostrado na figura, o erro da RN cresceu ainda mais com o aumento
do rudo, tendendo a aplainar algumas curvas da trajetria e desviar outras. Quando mais
cresce o rudo, percebe-se que a RN (atuando isoladamente) tende a simplificar a srie,
desconsiderando comportamentos (e curvas) mais complexos.
94
Figura 7.20: Resultado do NE para filtragem da srie com 0,09 de varincia de rudo
Figura 7.21: Resultado do NE para predio da srie com 0,09 de varincia de rudo
7.2.6
Predio RN
Predio NE
Filtragem NE
0,01
0,04
0,09
0,0962
0,1375
0,1863
0,0938
0,1284
0,1778
0,0083
0,0309
0,0587
O funcionamento do FKE em conjunto com a RN propicia que um mtodo passe progressivamente resultados melhores para o outro. No incio das iteraes do NE a RN
95
comea a gerar estimativas com MSE correspondente ao seu prprio erro (quando atuando isoladamente). A parte "filtro" do NE ir melhorar a estimativa da rede e ir passar
esse valor melhorado como uma das entradas da RN para o passo seguinte. Depois de T
iteraes, a RN j estar recebendo todos os valores filtrados e passar valores ainda melhores para o filtro. O ciclo se repete com o filtro conseguindo estimativas ainda melhores
e passando para a RN prever tambm ainda melhor. Relembra-se que, para todos os experimentos com essa srie, o mtodo neuro-estatstico utilizou sempre a mesma RN com
a qual foi comparado, com os mesmos pesos do treinamento. Esses efeitos observam-se
na predio do NE, mostrada na tabela 7.2. Com rudo de varincia 0,09, o NE melhorou
o MSE de 0,1863 para 0,1778. A RN do NE recebe dados com rudo de varincia 0,0587
(MSE da filtragem) em vez de 0,09, melhorando o seu desempenho.
7.3
O ajuste correto de parmetros importante para o bom funcionamento do FK e, conseqentemente, do mtodo neuro-estatstico. O parmetro Q representa a covarincia do
rudo de processo, ou seja, as imprecises do processo em relao ao verdadeiro modelo
da srie. Como o processo do mtodo neuro-estatstico a prpria RN, o rudo de processo ser o MSE da rede em relao srie filtrada (sem rudo). O parmetro R a
covarincia do rudo de medida, ou seja, o MSE entre as medidas ruidosas e a srie ideal
(no ruidosa). Os valores exatos desses parmetros no so conhecidos, sendo possvel
fazer estimativas sobre eles. Nesta seo mostrada uma anlise sobre a conseqncia
dos erros de estimao desses parmetros e so apresentadas algumas medidas estatsticas
para estim-los.
7.3.1
Como mostrado anteriormente, o valor de rudo (erro) da RN no ser sempre conhecido exatamente, mas pode ser colocado um valor aproximado como parmetro Q.
Para visualizar as repercusses de se atribuir um valor menor ou maior que o ideal para
esse parmetro, realizaram-se experimentos utilizando uma grande quantidade de valores
diferentes de parmetros. O experimento foi realizado com o mais ruidoso de todos os
exemplos tratados neste captulo: a srie composta de senos com varincia de rudo de
0,09. As configuraes utilizadas so as mesmas relatadas nos demais experimentos com
essa srie. Na execuo da RN atuando isoladamente para esse problema obteve-se MSE
de 0,2069. O mtodo neuro-estatstico utilizou a mesma RN treinada (no alterando os
pesos) para todos as execues.
A figura 7.22 mostra os valores de erro da filtragem do NE para configuraes de
Q variando de 0,13 at 0,31. Observa-se que os menores valores de MSE do mtodo
esto com Q entre 0,19 e 0,20. O valor timo de Q nesse caso um pouquinho abaixo
do prprio MSE da RN, pois a rede diminui um pouco o erro ao longo das iteraes do
NE, como explicado anteriormente. Observa-se tambm que o aumento do MSE maior
quando o parmetro Q configurado abaixo do ideal que quando configurado acima do
ideal. Para confirmar essa tendncia foram realizadas execues com valores extremos
(muito grandes e muito pequenos) de Q.
A figura 7.23 mostra os testes com valores muito pequenos para Q. Observa-se que
o erro cresce exponencialmente at estabilizar em um valor muito alto (prximo do erro
que uma previso de linha reta no ponto mdio do eixo y da srie geraria). A figura 7.24
mostra a utilizao de valores muito grandes para Q. O erro cresce mais suavemente, que
96
97
98
99
CONSIDERAES FINAIS
Neste captulo ser realizado um apanhado geral das idias do mtodo proposto e da
sua estrutura, ressaltando as principais comparaes e sintetizando os resultados. Tambm
so comentadas as sugestes de trabalhos futuros que este trabalho proporcionou.
8.1
Concluses
Este trabalho apresentou uma nova abordagem para a predio de sries temporais,
aplicando conjuntamente uma rede neural de mltiplas camadas com o mtodo estatstico
Filtro de Kalman Estendido. O novo mtodo pode ser utilizado em sries com grandes
no-linearidades, modelo gerador desconhecido e com incidncia de rudo nas medies
das entradas. A RN atua como processo previsor do FKE, auxiliando na predio do
modelo no-linear desconhecido da srie. O restante do FKE filtra o rudo, iterativamente
com a RN, melhorando o desempenho de todo o conjunto (FKE e RN juntos) do mtodo.
A utilizao de uma RN como processo do FKE aumenta muito a aplicabilidade que
o filtro possui isoladamente. O Filtro de Kalman e suas variantes s podem ser aplicados
quando o modelo estatstico da srie conhecido. Em sries com modelo parcialmente
conhecido e com necessidade de predio em tempo real, pode ser usado um mtodo hbrido como o Neural Extended Kalman Filter (NEKF). O novo mtodo neuro-estatstico
(NE) atende a necessidade de predio de sries em que o modelo totalmente desconhecido, com conjuntos de dados para treinamento off-line, como grande parte das sries
temporais mais importantes atualmente. Grandes no-linearidades nessas sries tambm
podem ser tratadas mais cuidadosamente pela colocao da RN como centro do processo
preditivo e pela possibilidade de a RN possuir uma poderosa estrutura de camadas ocultas
e grande quantidade de neurnios nessas camadas, como feito neste trabalho. O mtodo
proposto adapta-se condies realistas de aplicaes, como o treinamento com dados
ruidosos e imprecises nas estimativas dos parmetros.
Os resultados do mtodo neuro-estatstico em predio e filtragem so comparados
com os resultados da mesma arquitetura de rede MLP utilizada na estrutura do mtodo.
As comparaes so feitas a partir de experimentos em dois modelos de sries temporais,
acrescidos de rudo: a famosa srie catica de Mackey-Glass; e uma srie combinada
de senos, utilizada como desafio na rea de redes neurais. Em ambos benchmarks o
mtodo NE obteve resultados satisfatrios, melhorando o resultado da RN "pura" em
todos os experimentos. O mtodo NE tambm ajustou-se melhor aos picos das sries,
detectando melhor as tendncias dos ciclos. O erro mdio quadrado (MSE) do mtodo
tambm permaneceu sempre abaixo da varincia do rudo, podendo ser considerado um
bom filtro.
O mtodo NE funciona sem o conhecimento dos valores exatos de rudo de medida
100
(varincia R) e rudo de processo (varincia Q). O mtodo depende apenas do conhecimento de uma proporo aproximada entre os parmetros Q e R. Mostra-se como esses
parmetros podem ser estimados. O parmetro Q aproximado pelo MSE da sada da RN
e o parmetro R, pela passagem prvia de um filtro nos dados da srie. De acordo com
experimentos realizados, mesmo que os parmetros tenham valores distantes do ideal, o
acrscimo no erro final do mtodo ser pequeno.
O mtodo NE aprende com os erros da prpria rede neural interna, utilizando as matrizes de covarincias dos erros e Ganho de Kalman. Quando a previso da RN est
desviando em um sentido, as matrizes internas do mtodo ajustam-se para corrigir o erro,
adaptando-se novamente quando o erro baixar. O mtodo hbrido proporciona um aprendizado duplo (algoritmo de treinamento da RN e covarincias do erro do FKE) com os
dois mtodos alimentando-se mutuamente, explicando os bons resultados obtidos.
8.2
101
REFERNCIAS
102
103
KRAMER, K. A.; STUBBERUD, S. C. Impact Time and Point Predicted Using a Neural
Extended Kalman Filter. In: INTERNATIONAL CONFERENCE ON INTELLIGENT
SENSORS, SENSOR NETWORKS AND INFORMATION PROCESSING CONFERENCE, 2005. Proceedings. . . [S.l.]:IEEE, 2005. p.1992004.
LAVIOLA, J. J. A Comparison of Unscented and Extended Kalman Filtering for Estimating Quaternion Motion. In: AMERICAN CONTROL CONFERENCE, 2003. Proceedings. . . [S.l.: s.n.], 2003. v.3, p.24352440.
MACHADO, K. F. Mdulo de Auto-Localizao para um Agente Exploratrio
usando Filtro de Kalman. 2003. Dissertao (Mestrado em Cincia da Computao)
Universidade Federal do Rio Grande do Sul, Porto Alegre, BR.
MACKEY, M. C.; GLASS, L. Oscillation and Chaos in Physiological Control Systems.
Science, [S.l.], n.197, p.287289, July 1977.
MANTOVANI, G. F. Previso de Sries Temporais Redes Neurais Artificiais vs. Modelos ARIMA. 2004. 62f. Monografia (Bacharelado em Estatstica) - Instituto de Matemtica, UFRGS, Porto Alegre.
MCCULLOCH, W. S.; PITTS, W. A Logical Calculus of the Ideas Immanent in Nervous
Activity. Bulletin of Mathematical Biophysics, [S.l.], v.5, p.115133, 1943.
MORETTIN, P. A.; TOLOI, C. M. C. Modelos para Previso de Sries Temporais.
Poos de Caldas, MG: 13o Colquio Brasileiro de Matemtica, 1981. v.2.
MORETTIN, P. A.; TOLOI, C. M. C. Anlise de Sries Temporais. So Paulo, BR:
Blcher, 2004. 535p.
NUNES, R. C. Adaptao Dinmica do timeout de Detectores de Defeitos atravs
do Uso de Sries Temporais. 2003. Tese (Doutorado em Cincia da Computao)
Instituto de Informtica, Universidade Federal do Rio Grande do Sul, Porto Alegre, BR.
NYGREN, I.; JANSSON, M. Terrain Navigation for Underwater Vehicles Using the Correlator Method. IEEE Journal of Oceanic Engineering, [S.l.], v.29, n.3, p.906915,
July 2004.
OLIVEIRA, G. A. Sistema de Controle de Estoques Utilizando a Metodologia Box &
Jenkis de Sries Temporais. 2002. Dissertao (Mestrado em Cincia da Computao)
Universidade Federal do Paran, Curitiba, BR.
OWEN, M. W.; STUBBERUD, S. C. Interacting Multiple Model Tracking Using a Neural
Extended Kalman Filter. In: INTERNATIONAL JOINT CONFERENCE ON NEURAL
NETWORKS, IJCNN, 1999. Proceedings. . . [S.l.: s.n.], 1999. v.4, p.27882791.
OWEN, M. W.; STUBBERUD, S. C. A Neural Extended Kalman Filter Multiple Model
Tracker. In: OCEANS, 2003. Proceedings. . . [S.l.: s.n.], 2003. v.4, p.21112119.
PAYLE, D. Data Preparation for Data Mining. San Francisco, USA: Morgan Kaufmann, 1999. 540p.
RUMELHART, D. E. et al. Learning Internal Representation by Error Propagation. Parallel Distributed Processing: explorations in the microstucture of cognition, Cambridge:
The MIT Press, 1986. v.1, p.318362.
104
RUSSELL, S. J.; NORVIG, P. Inteligncia Artificial. 2.ed. Rio de Janeiro, BR: Campus,
2004.
RUTGEERTS, J. et al. A Demonstration Tool with Kalman Filter Data Processing for
Robot Programing by Human Demonstration. In: INTERNATIONAL CONFERENCE
ON INTELLIGENT ROBOTS AND SYSTEMS, 2005. Proceedings. . . [S.l.: s.n.], 2005.
SHUHUI, L. Comparative analysis of backpropagation and extended Kalman filter in pattern and batch forms for training neural networks. In: INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, IJCNN, 2001. Proceedings. . . [S.l.]: IEEE,
2001. v.1, p.144149.
STUBBERUD, S. C.; KRAMER, K. A. A 2-D Intercept Problem Using the Neural Extended Kalman Filter for Tracking and Linear Predictions. In: SOUTHEASTERN SYMPOSIUM ON SYSTEM THEORY, SSST, 37., 2005. Proceedings. . . [S.l.: s.n.], 2005.
p.367372.
STUBBERUD, S. C.; LOBBIA, R. N.; OWEN, M. An Adaptive Extended Kalman Filter
Using Artificial Neural Networks. In: IEEE CONFERENCE ON DECISION AND CONTROL, 37., 1995, New Orleans, LA. Proceedings. . . [S.l.: s.n.], 1995. v.2, p.18521856.
STUBBERUD, S. C.; OWEN, M. W. Targeted On-line Modeling for an Extended Kalman
Filter Using Artificial Neural Networks. In: IEEE INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS; IEEE WORLD CONGRESS ON COMPUTATIONAL INTELLIGENCE, 1998. Proceedings. . . [S.l.: s.n.], 1998. v.2, p.10191023.
TAKENGA, C. M. et al. Comparison of Gradient Descent Method, Kalman Filtering
and Decoupled Kalman in Training Neural Networks used for Fingerprint-Based Positioning. In: IEEE VEHICULAR TECHNOLOGY CONFERENCE, 60, 2004. Proceedings. . . [S.l.]: IEEE, 2004. v.6, p.41464150.
TAYLOR, W. K. Electrical Simulation of Some Nervous System Functional Activities.
Information Theory, [S.l.], v.3, p.314328, 1956.
VEPA, R. Application of neuro-Kalman filtering to attitude estimation of platforms and
space vehicles. In: IEE COLLOQUIUM ON HIGH ACCURACY PLATFORM CONTROL IN SPACE, 1993. Proceedings. . . [S.l.]: IEE, 1993. v.5, p.13.
WAN, E. A. Times Series Prediction by Using a Connectionist Network with Internal Delay Lines. In: NATO ADVANCED RESEARCH WORKSHOP ON COMPARATIVE TIMES SERIES ANALYSIS, 1992, Santa Fe N. M. Proceedings. . . Reading, MA:
Addison-Wesley, 1994.
WAN, E. A.; MERVE, R. V. The Unscented Kalman Filter for Nonlinear Estimation.
In: IEEE WORLD CONGRESS ON COMPUTATIONAL INTELLIGENCE. ADAPTIVE SYSTEMS FOR SIGNAL PROCESSING, COMMUNICATIONS, AND CONTROL SYMPOSIUM, 2000, Lake Louise, Alta, Canada. Proceedings. . . [S.l.: s.n.],
2000. p.153158.
WAN, E. A.; MERVE, R. V.; NELSON, A. T. Dual Estimation and the Unscented Transformation. Advances in Neural Information Processing Systems, [S.l.], n.12, p.666
672, 2000.
105
WELCH, G.; BISHOP, G. An Introduction to the Kalman Filter. Chapel Hill: University of North Carolina, 2001. Technical report.
YEE, L.; JIANG-HONG, M.; WEN-XIU, Z. A New Method for Mining Regression Classes in Large Data Sets. IEEE Transactions on Pattern Analysis and Machine Intelligence, [S.l.], v.23, 2001.
ZHAN, R.; WAN, J. Neural Network-aided Adaptive Unscented Kalman Filter for Nonlinear State Estimation. IEEE Signal Processing Letters, [S.l.], v.13, n.7, p.445448,
July 2006.