Método Neuro-Estatístico para Predição de Séries Temporais Ruidosas

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE INFORMTICA
PROGRAMA DE PS-GRADUAO EM COMPUTAO
ELISEU CELESTINO SCHOPF
Mtodo Neuro-estatstico para Predio de

Sries Temporais Ruidosas
Dissertao apresentada como requisito parcial

para a obteno do grau de
Mestre em Cincia da Computao
Prof. Dr. Paulo Martins Engel

Orientador
Porto Alegre, julho de 2007
CIP CATALOGAO NA PUBLICAO

Schopf, Eliseu Celestino
Mtodo Neuro-estatstico para Predio de Sries Temporais Ruidosas / Eliseu Celestino Schopf. Porto Alegre: PPGC
da UFRGS, 2007.
105 f.: il.
Dissertao (mestrado) Universidade Federal do Rio Grande
do Sul. Programa de Ps-Graduao em Computao, Porto Alegre, BRRS, 2007. Orientador: Paulo Martins Engel.
1. Inteligncia artificial. 2. Redes neurais artificiais. 3. Mtodos estatsticos. 4. Filtro de Kalman Estendido. 5. Predio de
sries temporais. 6. Rudo. I. Engel, Paulo Martins. II. Ttulo.
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Reitor: Prof. Jos Carlos Ferraz Hennemann
Vice-Reitor: Prof. Pedro Cezar Dutra Fonseca
Pr-Reitora de Ps-Graduao: Profa . Valquria Linck Bassani
Diretor do Instituto de Informtica: Prof. Flvio Rech Wagner
Coordenadora do PPGC: Profa . Luciana Porcher Nedel
Bibliotecria-chefe do Instituto de Informtica: Beatriz Regina Bastos Haro
SUMRIO
LISTA DE ABREVIATURAS E SIGLAS . . . . . . . . . . . . . . . . . . . .
LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
ABSTRACT
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2 REDES NEURAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
Conceitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1
O que so Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2
Importncia das Redes Neurais . . . . . . . . . . . . . . . . . . . . . . .
2.1.3
Neurnio Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.4
Funes de Ativao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
Processos de Aprendizagem em Redes Neurais . . . . . . . . . . . . . .
2.2.1
Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2
Aprendizado No-supervisionado . . . . . . . . . . . . . . . . . . . . . .
2.2.3
Aprendizado por Retropropagao em Redes de Mltiplas Camadas . . .
2.3
Tarefas Realizadas por Redes Neurais . . . . . . . . . . . . . . . . . . .
2.3.1
Reconhecimento de Padres . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2
Associao de Padres . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.3
Aproximao de Funes . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.4
Filtragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4
Aplicaes de Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1
Processamento Temporal com Redes Neurais . . . . . . . . . . . . . . .
2.4.2
Redes Neurais em Identificao de Sistemas Dinmicos . . . . . . . . . .
16
16
16
17
18
19
21
21
22
22
25
25
26
26
27
28
28
29
3 FILTRO DE KALMAN . . . . . . . .
3.1
Definies Iniciais . . . . . . . . . .
3.1.1
Rudo . . . . . . . . . . . . . . .
3.1.2
Processo Estocstico . . . . . . .
3.1.3
Modelo de Espao de Estados . . .
3.1.4
Estimativa tima . . . . . . . . .
3.1.5
Introduo ao Filtro de Kalman . .
3.2
O Algoritmo do Filtro de Kalman .
32
32
32
33
33
34
35
35
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
3.2.1
No-linearidades e Jacobianas
3.2.2
Fase de Previso . . . . . . . .
3.2.3
Fase de Atualizao . . . . . .
3.3
Filtro de Kalman com Matrizes
3.3.1
Frmulas Utilizando Matrizes .
3.3.2
Limitaes do FK Linear . . .
3.4
Concluses sobre o FK . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
38
39
40
40
41
42
4 PREDIO DE SRIES TEMPORAIS . . . . . . .

4.1
Conceitos Iniciais . . . . . . . . . . . . . . . . . . .
4.1.1
Definio de Srie Temporal . . . . . . . . . . . .
4.1.2
Aplicaes . . . . . . . . . . . . . . . . . . . . . .
4.1.3
Objetivos da Anlise de Sries Temporais . . . . .
4.1.4
Procedimentos de Predio . . . . . . . . . . . . .
4.1.5
Estacionariedade . . . . . . . . . . . . . . . . . .
4.2
Mtodos Lineares de Predio de Sries Temporais
4.2.1
Mdias Mveis Simples . . . . . . . . . . . . . . .
4.2.2
Alisamento Exponencial Simples . . . . . . . . . .
4.2.3
Alisamento Exponencial Linear de Brown . . . . .
4.2.4
Alisamento Exponencial Quadrtico de Brown . . .
4.2.5
Modelos de Auto-regresso . . . . . . . . . . . . .
4.2.6
Modelos ARIMA . . . . . . . . . . . . . . . . . .
4.3
Predio de Sries Temporais com Redes Neurais .
4.3.1
Histrico de PST com RN . . . . . . . . . . . . . .
4.3.2
Concursos de PST . . . . . . . . . . . . . . . . . .
4.4
Concluses do Captulo . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
44
44
44
44
45
45
46
47
47
48
49
50
50
51
52
53
54
54
5 TRABALHOS CORRELACIONADOS . . . . . . . . . . . . . . . . . . .
5.1
Extenso do Filtro de Kalman com uma Rede Neural . . . . . . . . . . .
5.1.1
Primeiros Trabalhos com RN Prevendo o Erro do FKE . . . . . . . . . .
5.1.2
Neural Extended Kalman Filter . . . . . . . . . . . . . . . . . . . . . . .
5.1.3
Usos do NEKF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.4
Verso do NEKF com Unscented Kalman Filter . . . . . . . . . . . . . .
5.1.5
Estimao No-linear com Unscented Kalman Filter e Redes Neurais . .
5.2
Ajuste de Parmetros do Filtro de Kalman com Redes Neurais . . . . .
5.3
Treinamento de Redes Neurais com Filtro de Kalman Estendido e suas
Variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
56
56
57
58
61
63
63
6 PROPOSTA DO MTODO NEURO ESTATSTICO . . . . . . . . . . .

6.1
Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2
Modelos de Entrada-Sada Utilizados . . . . . . . . . . . . . . . . . . . .
6.3
Explicao do Modelo Proposto Baseado no Modelo do Filtro de Kalman
6.4
Formalismo do Mtodo Proposto . . . . . . . . . . . . . . . . . . . . . .
6.4.1
Fase de Predio do Estado . . . . . . . . . . . . . . . . . . . . . . . . .
6.4.2
Fase de Atualizao do Estado . . . . . . . . . . . . . . . . . . . . . . .
6.4.3
Matrizes Jacobianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5
Comparaes com os Trabalhos Correlacionados . . . . . . . . . . . . .
69
69
70
71
73
74
76
77
79
65
7 EXPERIMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.1
Predio e Filtragem da Srie Catica de Mackey-Glass Acrescida de
Rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.1.1
Configuraes Utilizadas nos Experimentos . . . . . . . . . . . . . . . .
7.1.2
Predio da Srie Sem Rudo . . . . . . . . . . . . . . . . . . . . . . . .
7.1.3
Utilizao do Mtodo Neuro-estatstico com Rudo Pequeno . . . . . . .
7.1.4
Utilizao do Mtodo Neuro-estatstico com Rudo Mdio . . . . . . . .
7.1.5
Utilizao do Mtodo Neuro-estatstico com Rudo Grande . . . . . . . .
7.1.6
Resumo dos Resultados para a Srie Mackey-Glass . . . . . . . . . . . .
7.2
Predio de Srie de Combinao de Senos Acrescida de Rudo . . . . .
7.2.1
Configuraes e Estratgias Utilizadas nos Experimentos . . . . . . . . .
7.2.2
Predio da Srie Sem Rudo . . . . . . . . . . . . . . . . . . . . . . . .
7.2.3
Comparaes Utilizando Rudo Pequeno . . . . . . . . . . . . . . . . . .
7.2.4
Comparaes Utilizando Rudo Mdio . . . . . . . . . . . . . . . . . . .
7.2.5
Comparaes Utilizando Rudo Grande . . . . . . . . . . . . . . . . . .
7.2.6
Resumo dos Resultados da Srie . . . . . . . . . . . . . . . . . . . . . .
7.3
Anlise Prtica sobre o Ajuste dos Parmetros Q e R . . . . . . . . . . .
7.3.1
Anlise Sobre Ajustamento No Otimizado de Parmetros . . . . . . . .
7.3.2
Medidas Estatsticas para a Especificao de Parmetros . . . . . . . . . .
81
81
82
82
83
84
85
87
88
89
89
90
91
93
94
95
95
96
8 CONSIDERAES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . 99
8.1
Concluses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.2
Sugestes de Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . 100
REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
LISTA DE ABREVIATURAS E SIGLAS
AELB
Alisamento Exponencial Linear de Brown
AEQB Alisamento Exponencial Quadrtico de Brown

AES
Alisamento Exponencial Simples
AR
Auto-regresso
BP
Back-propagation - Algoritmo da retropropagao
DCBD Descoberta de Conhecimento em Base de Dados

fdp
Funo de densidade de probabilidade, para transio de estados
FK
Filtro de Kalman
FKD
Filtro de Kalman Discreto
FKE
Filtro de Kalman Estendido
FKED
FKE Disjunto
GRNN Rede Neural de Regresso Geral

IMM
Interao com Mltiplos Modelos, tcnica que utiliza mltiplos Filtros de Kalman
MD
Minerao de Dados
MEE
Modelos de Espao de Estados
MLD
Modelos Lineares Dinmicos
MLP
Multi Layer Perceptron - Perceptron de Mltiplas Camadas
MMS
Mdias Mveis Simples
MSE
Minimum Square Error - Erro Mnimo Quadrado
NARX Nonlinear Auto-regressive with Exogenous Input - Modelo Auto-regressivo Nolinear com Entradas Exgenas
NAR
Nonlinear Auto-regressive - Modelo Auto-regressivo No-linear
NOE
Nonlinear Output Error - Modelo regressivo correspondente ao NARX
NDEKF Node-decoupled Extend Kalman Filter - FKE Disjunto, com os pesos acoplados
por ns
NE
Mtodo Neuro-estatstico
NEKF
Neural Extended Kalman Filter - Filtro de Kalman Estendido com rede neural
acoplada
PLE
Processos Lineares Estacionrios
PLNEH Processos Lineares No-estacionrios Homogneos

PML
Processos de Memria Longa
PST
Predio de Sries Temporais
RBF
Radial Basis Function - Funes de Base Radial, um modelo de rede neural
RBNN Regular Radial Basis Neural Networks - rede neural de base radial regular
RN
Rede Neural. No contexto deste trabalho significa RNA
RNA
Rede Neural Artificial
SOM
Self-Organizing Maps - Mapas Auto-organizveis
TLFN
Focused Time Lagged Feedforward Network - Redes alimentadas adiante focadas

atrasadas no tempo
TDNN Time-Delay Neural Networks - Redes recorrentes atrasadas no tempo

UKF
Unscented Kalman Filter - Filtro de Kalman Unscented, uma variao do Filtro

de Kalman Estendido
VAD
Varivel Aleatria Discreta
LISTA DE FIGURAS
Figura 2.1:
Figura 2.2:
Modelo de neurnio artificial . . . . . . . . . . . . . . . . . . . . . .

Funes de ativao para um neurnio artificial. (a) Funo de limiar. (b) Funo linear por partes. (c) Funo logstica. (d) Funo
tangente hiperblica . . . . . . . . . . . . . . . . . . . . . . . . . .
Modelo do aprendizado supervisionado . . . . . . . . . . . . . . . .
Modelo do aprendizado no-supervisionado . . . . . . . . . . . . . .
Modelo de uma rede MLP com duas camadas ocultas . . . . . . . . .
Modelo de um filtro com rede neural . . . . . . . . . . . . . . . . . .
Identificao de sistemas com redes neurais, baseada no modelo de
espao de estados . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modelo recorrente de entrada-sada NARX . . . . . . . . . . . . . .
Modelo de entrada-sada na regresso para identificao de sistemas.
(a) Modelo NARX. (b) Modelo NOE. . . . . . . . . . . . . . . . . .
19
Figura 3.1:
Modelo de funcionamento do Filtro de Kalman . . . . . . . . . . . .
37
Figura 4.1:
Figura 4.2:
Srie temporal no-estacionria . . . . . . . . . . . . . . . . . . . .

Primeira diferena da srie temporal . . . . . . . . . . . . . . . . . .
46
47
Previso do sistema no-linear sem o Neuro-observador . . . . . . .

Previso do sistema no-linear com o Neuro-observador . . . . . . .
Acompanhamento da trajetria do alvo: (a) com o mtodo da "linha
reta" (b) com o mtodo NEKF IMM . . . . . . . . . . . . . . . . .
Figura 5.4: Sistema de controle para a interceptao de alvos com o NEKF . . .
Figura 5.5: Modelo do Neural Extended Kalman Filter . . . . . . . . . . . . . .
Figura 5.6: Trajetria balstica, com e sem desvios . . . . . . . . . . . . . . . .
Figura 5.7: Estimativas de posio de queda do projtil, ao longo da trajetria . .
Figura 5.8: Estimao da srie de Mackey-Glass com a RN como funo do FKE
e do UKF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Figura 5.9: Superfcie de deciso da otimizao dos parmetros com rede RBNN
Figura 5.10: Nmero de iteraes necessrias para convergncia em cada um dos
mtodos de treinamento . . . . . . . . . . . . . . . . . . . . . . . .
Figura 5.11: Comparao de taxa de erro do BP e FKE em forma de lote . . . . .
58
58
Figura 6.1:
Figura 6.2:
Figura 6.3:
Figura 6.4:
70
71
71
72
Figura 2.3:
Figura 2.4:
Figura 2.5:
Figura 2.6:
Figura 2.7:
Figura 2.8:
Figura 2.9:
Figura 5.1:
Figura 5.2:
Figura 5.3:
Modelo NAR . . . . . . . . . . . . . . . . . . . . .
Modelo NOE sem entradas exgenas . . . . . . . .
Modelo neuro-estatstico sem realimentao da sada
Modelo neuro-estatstico com realimentao da sada
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
21
22
23
28
29
30
31
59
60
60
61
62
64
65
67
68
Figura 6.5:
Figura 6.6:
Figura 6.7:
Figura 7.1:
Figura 7.2:
Figura 7.3:
Figura 7.4:
Figura 7.5:
Figura 7.6:
Figura 7.7:
Figura 7.8:
Figura 7.9:
Figura 7.10:
Figura 7.11:
Figura 7.12:
Figura 7.13:
Figura 7.14:
Figura 7.15:
Figura 7.16:
Figura 7.17:
Figura 7.18:
Figura 7.19:
Figura 7.20:
Figura 7.21:
Figura 7.22:
Figura 7.23:
Figura 7.24:
Figura 7.25:
Figura 7.26:
Estrutura da rede neural . . . . . . . . . . . .

Rede neural para previso da primeira posio
no modelo NOE . . . . . . . . . . . . . . . .
Rede neural para previso da primeira posio
no modelo NAR . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
do vetor de estados,
. . . . . . . . . . . .
do vetor de estados,
. . . . . . . . . . . .
Srie temporal catica de Mackey-Glass . . . . . . . . . . . . . . . .

Predio da srie de Mackey-Glass no-ruidosa com a rede neural . .
Resultado da predio da rede neural para a srie com 0,01 de varincia de rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Resultado da filtragem do mtodo neuro-estatstico para a srie com
0,01 de varincia de rudo . . . . . . . . . . . . . . . . . . . . . . .
Grfico de erro da rede neural . . . . . . . . . . . . . . . . . . . . .
Grfico de erro do mtodo neuro-estatstico . . . . . . . . . . . . . .
Srie temporal no-linear gerada a partir de combinao de senos . .
Predio da srie no-ruidosa com uma rede neural . . . . . . . . . .
Resultado da RN na predio da srie com 0,01 de varincia de rudo
Resultado do NE na filtragem da srie com 0,01 de varincia de rudo
Resultado do NE na predio da srie com 0,01 de varincia de rudo
Resultado da predio pela RN para a srie com 0,04 de varincia de
rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Resultado da filtragem pelo NE, para a srie com 0,04 de varincia
de rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Resultado da predio pelo NE, para a srie com 0,04 de varincia de
rudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Resultado da RN para a srie com 0,09 de varincia de rudo . . . . .
Resultado do NE para filtragem da srie com 0,09 de varincia de rudo
Resultado do NE para predio da srie com 0,09 de varincia de rudo
Curva de variao do MSE do NE conforme o parmetro Q . . . . . .
Curva do MSE do NE para a escolha de Q muito pequeno . . . . . .
Curva do MSE do NE para a escolha de Q muito grande . . . . . . .
Estimao do rudo de medida na srie de Mackey-Glass . . . . . . .
Estimao do rudo de medida na srie combinada de senos . . . . .
73
75
76
81
83
83
84
85
85
86
86
87
87
88
90
90
91
91
92
92
93
93
94
94
96
96
97
97
98
LISTA DE TABELAS
Tabela 3.1:
Comparao da RN com o FKD, nos quatro sistemas . . . . . . . . .
42
Tabela 5.1:
Comparao do NEKF com o NN-UKF . . . . . . . . . . . . . . . .
63
Tabela 7.1:
Tabela 7.2:
Mdia dos erros e desvios padres do erro para a RN e o NE . . . . .

Erros Mdios Quadrados para a RN e o NE . . . . . . . . . . . . . .
88
94
RESUMO
O presente trabalho trata da criao de uma nova abordagem para predio de sries
temporais ruidosas, com modelo desconhecido e que apresentam grandes no-linearidades.
O novo mtodo neuro-estatstico proposto combina uma rede neural de mltiplas camadas
com o mtodo estatstico Filtro de Kalman Estendido. A justificativa para a juno dessas abordagens o fato de possurem caractersticas complementares para o tratamento
das peculiaridades das sries descritas. Quanto ao rudo, o FKE consegue minimizar a
sua influncia, trabalhando com a varincia do rudo extrado dos dados reais. Quanto
ao modelo gerador da srie, as redes neurais aproximam a sua funo, aprendendo a partir de amostras dos prprios dados. Grandes no-linearidades tambm so tratadas pelas
RNs. O mtodo neuro-estatstico segue a estrutura do FKE, utilizando a RN como processo preditivo. Com isso, elimina-se a necessidade de conhecimento prvio da funo
de transio de estados. O poder de tratamento de no-linearidades da RN mantido,
utilizando-se a previso desta como estimativa de estado e os seus valores internos para
clculo das jacobianas do FKE. As matrizes de covarincias dos erros de estimativa e
dos rudos so utilizadas para melhora do resultado obtido pela RN. A rede treinada
com um conjunto de dados retirado do histrico da srie, de maneira off-line, possibilitando o uso de poderosas estruturas de redes de mltiplas camadas. Os resultados do
mtodo neuro-estatstico so comparados com a mesma configurao de RN utilizada em
sua composio, sendo ambos aplicados na srie catica de Mackey-Glass e em uma srie
combinada de senos. Ambas sries possuem grandes no-linearidades e so acrescidas de
rudo. O novo mtodo alcana resultados satisfatrios, melhorando o resultado da RN
em todos os experimentos. Tambm so dadas contribuies no ajuste dos parmetros
do FKE, utilizados no novo mtodo. O mtodo hbrido proporciona uma melhora mtua
entre a RN e o FKE, explicando os bons resultados obtidos.
Palavras-chave: Inteligncia artificial, redes neurais artificiais, mtodos estatsticos, Filtro de Kalman Estendido, predio de sries temporais, rudo.
Neural Statistical Method to Noisy Time Series Prediction
ABSTRACT
This work presents a new forecast method over highly nonlinear noisy time series. The
neural statistical method uses a multi-layer perceptron (NN) and the Extended Kalman
Filter (EKF). The justification for the combination of these approaches is that they possess
complementary characteristics for the treatment of the peculiarities of the series. The EKF
minimizes the influence of noise, working with the variance of the noise obtained from
the real data. The NN approximates the generating models function. High nonlinearities
are also treated by the neural network. The neural statistical method follows the structure
of the EKF, using the NN as the predictive process. Thus, it isnt necessary previous
knowledge of the state transition function. The power of treatment of nonlinearities of
the NN is kept, using forecast of this as estimative of state and its internal values for
calculation of the Jacobian matrix of the EKF. The error estimative covariance and the
noise covariance matrixes are used to improve the NN outcome. The NN is trained offline by past observations of the series, which enable the use of powerfuls neural networks.
The results of the neural statistical method are compared with the same configuration of
NN used in its composition, being applied in the chaotic series of Mackey-Glass and an
sine mistures series. Both series are noisy and highly nonlinear. The new method obtained
satisfactory result, improving the result of the regular NN in all experiments. The method
also contributes in the adjustment of the parameters of the EKF. The hybrid method has
a mutual improvement between the NN and the EKF, which explains the obtained good
results.
Keywords: artificial intelligence, artificial neural networks, statistical methods, Extended

Kalman Filter, time series prediction, noise.
13
INTRODUO
A descoberta de conhecimento em bases de dados (DCBD) e a minerao de dados

(MD), sua principal componente, despertam interesse de vrias reas como aprendizado
de mquina, reconhecimento de padres, estatstica e inteligncia artificial (YEE; JIANGHONG; WEN-XIU, 2001). A minerao de dados situa-se na zona de sobreposio entre
estatstica e cincia da computao, utilizando os avanos de ambas para melhorar a extrao de informaes de bases de dados. Isso indica que trabalhos que unam as duas
reas, como a criao de um mtodo hbrido, podem ser muito proveitosos.
Tanto a minerao de dados como a estatstica procuram aprender a partir dos dados,
transformando dados em informao. Existe apenas uma diferena de nfase, pois a minerao de dados envolve anlise retrospectiva e est mais voltada para a compreenso
do que para a preciso. Prticas atuais de minerao de dados esto mais focadas em
padres, deixando a modelagem em segundo plano. A tarefa de construir um modelo global e coerente fica para a estatstica (GLYMOUR et al., 1996). A atividade da regresso
(predio) consiste em aproximar sadas quantitativas. Na regresso, o grande objetivo
ter a melhor preciso possvel nas predies. Torna-se mais difcil atingir esse objetivo
quando se tem a tarefa da regresso em dados ruidosos.
Em aplicaes com dados reais, as observaes sempre estaro sujeitas a erros, fazendo com que as bases de dados sejam em sua maioria ruidosas. Rudos so pequenas
variaes ou incertezas nos dados. Devido presena de rudo, inferncias em bases de
dados atraem aplicaes da teoria da probabilidade. Algumas tcnicas estatsticas, como
um filtro linear timo, conseguem minimizar a influncia do rudo, trabalhando com a
varincia dos dados do modelo, como no Filtro de Kalman (FK) (KALMAN, 1960). Para
isso necessrio possuir um modelo analtico ou criar uma abordagem totalmente explicitada, em que se possui a formulao matemtica do modelo real. Como muitos modelos
de sistemas reais no so conhecidos, torna-se invivel a predio de variveis desses
sistemas com um mtodo estatstico. A presena de no-linearidades nas funes geradoras dos sistemas tambm outro fator complicador. As expresses do modelo tornam-se
equaes matemticas muito complexas, sendo equaes de regresso (PAYLE, 1999).
Outra tcnica concorrente, as redes neurais (RN) possuem grande poder computacional devido sua estrutura maciamente paralela e distribuda e de sua capacidade de
aprender para generalizar (HAYKIN, 2001a). O tratamento de no-linearidades uma
caracterstica muito importante, tornando as redes neurais mais poderosas. Essa caracterstica se torna ainda mais til (e necessria) quando se trata de dinmicas no-lineares
(ou dados inspirados em sinais no-lineares). A no-linearidade de uma rede neural de
um tipo especial, pois est presente em cada neurnio. Outra vantagem do uso de redes
neurais o emprego de aprendizado supervisionado. Esse paradigma permite o ajuste de
parmetros a partir de amostras ou exemplos rotulados. Esse ajuste de maneira gradual,
14
semelhante inferncia estatstica no-paramtrica, no sendo feitas suposies prvias

sobre o modelo estatstico dos dados de entrada.
Uma rede neural tambm possui adaptabilidade em relao a modificaes no ambiente. Em ambientes no-estacionrios (caractersticas variam ao longo do tempo) as
RNs tambm podem ser treinadas para adaptar-se (modificando seus pesos sinpticos)
em tempo real. As redes neurais tambm so tolerantes a falha, uma vez que a falha de
um neurnio apenas prejudica a qualidade da soluo, mas no causa a falha total dessa
soluo. Alm de as RNs fornecerem as informaes sobre um padro, tambm podem
indicar a confiana na deciso tomada (HAYKIN, 2001a). Devido s vantagens das RNs,
vivel construir um sistema que mantenha essas caractersticas, contendo tambm a
modelagem do rudo, presente em mtodos estatsticos de filtragem linear tima, como o
Filtro de Kalman.
Uma das grandes aplicaes de mtodos estatsticos e de redes neurais a predio
de sries temporais. As sries temporais so usadas para descrever variveis de sistemas
reais, tendo a previso destas grande utilidade na economia, medicina, engenharias, meio
ambiente e inmeras outras reas. Redes neurais so utilizadas com sucesso na predio
de sries temporais desde a dcada de 70. O uso das redes foi muito estimulado e justificado pelos brilhantes resultados na primeira competio STI (WAN, 1994). Os mtodos
baseados em redes neurais foram os grandes vencedores, obtendo melhores resultados
que mtodos consagrados de regresso.
As prprias caractersticas das sries temporais propiciam o uso de redes neurais,
(WAN, 1994) indica a existncia de uma no-linearidade na definio das sries. A estrutura das RNs tambm um fator decisivo, sendo que uma RN com mltiplas camadas
alimentada adiante, com um nmero suficiente de neurnios, considerada aproximador
universal de funes (CYBENKO, 1989).
As RNs costumam apresentar bons resultados para predio de sries no-lineares e
desconhecidas. Porm, a predio de sries ruidosas algo pouco explorado com essas
tcnicas. O acrscimo de rudo em sries j bastante complexas dificulta muito a predio
por parte das RNs, treinadas com esses dados ruidosos. Nesses casos, a RN apresenta
dificuldades em identificar o que a srie original e o que rudo.
As sries temporais no-lineares, ruidosas e com modelos desconhecidos so as mais
abundantemente retiradas de sistemas reais. Porm, sries com todas essas caractersticas
simultaneamente so pouco tratadas na literatura. Nas aplicaes de redes neurais, no mximo utilizam-se sries com funo geradora complexa (com grandes no-linearidades)
desconhecida. Essas dificuldades j servem como desafio, beirando a capacidade das redes. Nas aplicaes com mtodos estatsticos, como o Filtro de Kalman, no so utilizados sistemas com modelo totalmente desconhecido e altamente no-linear, pois o mtodo
necessita possuir uma funo representando o modelo gerador do sistema.
Para que todas as dificuldades apresentadas acima na predio de sries temporais
possam ser tratadas concomitantemente, sugere-se a criao de uma abordagem hbrida
(neural e estatstica). Nessa abordagem visa-se manter toda a capacidade das RNs para
implementar modelos complexos e desconhecidos. Adiciona-se a essas caractersticas, a
capacidade de modelagem do rudo, por parte do Filtro de Kalman. Com isso, objetiva-se
melhorar o resultado da RN a cada passo de predio. Mais especificamente, visa-se criar
um mtodo neuro-estatstico com as seguintes caractersticas:
Capacidade de predio de sries temporais;
Robustez a rudo, minimizando a influncia deste;
15
Obteno de menores taxas de erro que uma RN com mesma estrutura atuando
isoladamente;
Maior aplicabilidade que o Filtro de Kalman, no necessitando da funo do modelo
gerador;
Interao do FK com a RN, com cada mtodo passando resultados melhorados para
o outro, a cada passo de predio;
Realismo: receber apenas dados ruidosos para treinamento e medidas; no necessitar conhecer previamente o modelo ideal, parmetros ideais e outras informaes
que no so normalmente disponveis na prtica.
A dissertao est estruturada da seguinte forma: no captulo 2 so mostradas as redes
neurais, utilizadas na criao do novo mtodo, sendo explicadas suas vantagens, o processo de aprendizagem e seus usos; no captulo 3 descrito o Filtro de Kalman, mtodo
no qual este trabalho tambm baseado; no captulo 4 feita a reviso bibliogrfica sobre a predio de sries temporais, comentando e comparando tcnicas; o captulo 5 trata
dos mtodos correlacionados; no captulo 6 o novo mtodo neuro-estatstico apresentado, com a apresentao do modelo e sua explicao formal; o captulo 7 apresenta os
experimentos e resultados e o captulo 8 mostra as consideraes finais, com concluses
e sugestes de trabalhos futuros.
16
REDES NEURAIS
As Redes Neurais (RNs) formam um importante paradigma computacional, envolvem

diversas reas e utilizam conhecimento extrado a partir da experincia. Este captulo trata
do funcionamento das redes e dos conceitos, estruturas e aplicaes envolvendo esse paradigma. O captulo composto por: conceitos e estruturas das RNs; o processo pelo qual
as redes aprendem, mostrando os tipos de aprendizado; as tarefas bsicas realizadas pelas
redes neurais e as aplicaes geradas com a execuo das suas tarefas em diversas situaes, enfocando os usos relacionados com este trabalho, como processamento temporal e
identificao de sistemas.
2.1
Conceitos
Para uma melhor compreenso das bases e do funcionamento das RNs, esta seo
abordar os conceitos necessrios para a sua explicao. Sero apresentadas as redes
neurais, com a sua importncia; o funcionamento do neurnio artificial e a definio das
funes de ativao, utilizadas nas RNs.
2.1.1
O que so Redes Neurais
O estudo de Redes Neurais tem sido motivado pelas diferenas entre o funcionamento
do crebro humano e o de um computador digital tradicional. O crebro humano um
sistema de processamento altamente complexo, no-linear e paralelo por natureza. A
organizao do crebro permite que sejam realizadas certas computaes (como o reconhecimento de padres, controle sensrio-motor e percepo) de maneira mais rpida e
precisa que os mais poderosos computadores. Por exemplo, uma pessoa consegue reconhecer um rosto familiar em uma cena no familiar demorando apenas uma frao de
segundo, enquanto um computador convencional levaria horas ou dias para resolver uma
verso simplificada desse problema. A razo dessa grande capacidade do crebro a habilidade de desenvolver suas prprias regras, moldando os neurnios e criando o que
chamado de "experincia". Os neurnios possuem grande plasticidade, o que permite que
o crebro em desenvolvimento adapte-se ao ambiente.
As redes neurais utilizam caractersticas de adaptao do crebro humano e podem
ser consideradas mquinas para modelar a maneira como o crebro aprende uma tarefa
ou funo. As RNs so constitudas de neurnios artificiais e podem ser construdas com
componentes eletrnicos, ou simuladas com computadores digitais. As RNs alcanam
bom desempenho atravs da interligao macia de neurnios artificiais, utilizando um
processo de aprendizagem sobre eles. Uma RN pode ser definida como um processador
maciamente distribudo e paralelo, constitudo de unidades simples de processamento,
17
com a propenso natural de transformar conhecimento experimental em conhecimento

pronto para uso (HAYKIN, 2001a).
As RNs assemelham-se ao crebro no sentido em que o conhecimento adquirido do
ambiente pela rede a partir do seu processo de aprendizagem e pela existncia das foras
de conexo entre os neurnios (pesos sinpticos), utilizadas para armazenar o conhecimento adquirido. O procedimento pelo qual as RNs aprendem chamado de algoritmo
de aprendizagem e serve para modificar os pesos sinpticos da rede, treinando a rede para
que a mesma trabalhe (reconhecendo os padres) da forma para a qual foi projetada. O
aprendizado por modificao dos pesos a forma tradicional pela qual as RNs so projetadas.
As RNs so comumente classificadas de vrias formas: como subespecialidade da
inteligncia artificial; como uma classe de modelos matemticos para classificao e reconhecimento de padres; como parte da teoria conexionista de estados mentais ou como
categoria de modelos em cincia da cognio (KOVCS, 2002). Embora as RNs sejam
relacionadas com todas essas categorias, seria muito limitante classific-las em apenas
um desses setores. As RNs formam hoje uma teoria genuna para o estudo de fenmenos
complexos. No que se refere estrutura, as redes neurais possuem vrias classificaes:
Quanto ao nmero de camadas, as redes podem ser Redes de Camada nica ou
Redes de Mltiplas Camadas (com a existncia de uma ou mais camadas ocultas,
ou intermedirias);
Quanto conectividade, as redes podem ser totalmente conectadas ou parcialmente
conectadas. Em uma rede totalmente conectada (como na figura 2.5), cada neurnio possuir ligaes com todos os neurnios da camada seguinte. Quando a rede
for parcialmente conectada, algumas dessas conexes no existiro. Em grande
parte das aplicaes as redes apresentam conectividade alta (totalmente ou quase
totalmente conectadas);
Quanto maneira como os sinais se propagam dentro da rede (se a rede possui
retroalimentao ou no) as RNs podem ser classificadas em alimentadas adiante
ou recorrentes. Nas redes alimentadas adiante, o fluxo de sinal apenas em um
sentido, como na figura 2.5. Nas redes recorrentes, existe pelo menos um ciclo de
retroalimentao, em que o sinal retorna para uma camada anterior. As redes recorrentes so muito utilizadas em processamento temporal, em que a retroalimentao
serve para armazenar entradas de tempos anteriores e coloc-las novamente na entrada nos instantes seguintes.
2.1.2
Importncia das Redes Neurais
As RNs possuem a capacidade de generalizar informaes, calculando sadas adequadas para entradas que no estavam presentes no arquivo de treinamento. As RNs ainda
esto distantes de simularem um crebro humano inteiro e trabalham apenas com subconjuntos de tarefas. Mesmo assim, atualmente as redes neurais j se apresentam com grande
destaque nas atividades que eram h pouco tempo essencialmente do crebro e geram expectativa de grandes avanos nas prximas dcadas. As principais vantagens que o uso de
RNs possibilita so (HAYKIN, 2001a):
No-linearidade As RNs podem ter neurnios lineares ou no-lineares, a rede que possui
ao menos um neurnio no-linear considerada no-linear. A no-linearidade das
RNs de um tipo especial, distribuda por toda a rede;
18
Mapeamento de Entrada-Sada As RNs podem aprender atravs de exemplos, a partir

de amostras rotuladas utilizadas no treinamento da rede. Assim a rede aprende
com os exemplos a construir um mapeamento de entrada-sada para o problema
considerado;
Adaptabilidade As redes possuem uma capacidade natural de adaptao dos pesos de
seus neurnios de acordo com modificaes no ambiente, podendo serem facilmente retreinadas. Tambm existem projetos de redes que conseguem adaptar os
seus pesos em tempo real, para trabalharem em ambientes no-estacionrios;
Informao Contextual A informao contextual tratada naturalmente por uma RN
pois o conhecimento representado pela sua prpria estrutura. Cada neurnio
influenciado pela atividade dos outros, formando automaticamente a noo de contexto;
Tolerncia a Falhas Se um neurnio ou suas conexes falharem (em implementaes
de redes fsicas) a rede apresenta apenas uma degradao suave, devido natureza
distribuda da informao na rede.
Uniformidade de Anlise e Projeto Os neurnios so os processadores univesais de informao nas RNs. Com isso possvel o compartilhamento de algoritmos de
aprendizagem em diferentes aplicaes de RNs. Tambm podem ser construdas
redes a partir de vrios mdulos;
Analogia Neurobiolgica O estudo em RNs motivado pela analogia com o crebro humano. O crebro uma grande prova de que o processamento paralelo, tolerante
a falhas e adaptativo , alm de possvel, muito rpido e poderoso. As pesquisas
em RNs visam desde auxiliar as cincias humanas e da sade no entendimento dos
fenmenos cerebrais, at desenvolver idias para resolver problemas mais complexos que os resolvidos por tcnicas tradicionais, auxiliando as cincias exatas e da
tecnologia.
2.1.3
Neurnio Artificial
O neurnio artificial a unidade de processamento bsica das redes neurais, sendo

uma simplificao do neurnio biolgico. Na figura 2.1 mostrado um modelo de neurnio artificial, podendo-se identificar os seus trs elementos bsicos:
1. Um conjunto de sinapses, correspondentes s entradas do neurnio k. Na figura,
cada uma dessas entradas a multiplicao de um dos sinais de entrada (x1 , x2 , , xN )
pelo seu respectivo peso (wk1 , wk2 , , wkN ). No ndice dos pesos, o primeiro dgito
(k) corresponde ao neurnio de destino e o segundo dgito corresponde ao neurnio
de origem do sinal. Os pesos das sinapses dos neurnios artificiais podem incluir
tambm valores negativos. As entradas do neurnio artificial so correspondentes
aos dentritos do neurnio biolgico.
2. Um somador para computar os sinais ponderados de entrada, constituindo um combinador linear. Esse somador corresponde membrana celular do neurnio biolgico.
19
3. Uma funo de ativao, que restringe a amplitude da sada do neurnio. A sada

restrita ao intervalo [0, 1] ou ao intervalo [1, 1], dependendo da funo de ativao escolhida. A funo de ativao corresponde ao mecanismo de disparo dos
potenciais de ao nos axnios do neurnio biolgico.
Figura 2.1: Modelo de neurnio artificial

O modelo do neurnio da figura 2.1 tambm apresenta um bias (bk ). O bias, ou vis,
aplicado externamente e tem a funo de aumentar ou diminuir a entrada lquida na
funo de ativao, dependendo se for positivo ou negativo, respectivamente. A soma do
neurnio k ser:
N
uk = wki xi + bk
(2.1)
i=1
Onde cada entrada (xi ) multiplicada por seu respectivo peso (wki ), formando um
somatrio. O bias acrescido diretamente nesse somatrio, formando o potencial de
ativao do neurnio k. A sada final do neurnio ser a funo de ativao aplicada sobre
esse resultado:
(2.2)
yk = (uk )
2.1.4
Funes de Ativao
A funo de ativao de um neurnio artificial ( ()) calcula a sada (restringindo a

amplitude) do neurnio, em funo do valor do potencial de ativao uk . As funes de
ativao mais conhecidas so a funo de limiar, a funo linear por partes e as funes
do tipo sigmide: logstica e tangente hiperblica. A figura 2.2 mostra esses quatro tipos
de funes de ativao. Atualmente as funes mais utilizadas em redes neurais so as
sigmides.
Funo de Limiar Como mostrado na figura 2.2a, representa uma funo de deciso
abrupta, adaptada caracterstica binria do neurnio de McCulloch e Pitts (MCCULLOCH; PITTS, 1943), no qual era utilizada. Essa funo expressa por:

1 se uk 0
yk =
(2.3)
0 se uk < 0
Funo Linear por Partes A funo linear por partes possui uma ativao linear no intervalo de operao da funo e comporta-se como sendo funo limiar nos outros
20
Figura 2.2: Funes de ativao para um neurnio artificial. (a) Funo de limiar. (b)
Funo linear por partes. (c) Funo logstica. (d) Funo tangente hiperblica
trechos. A funo mostrada na figura 2.2b expressa por:
1 se uk 1
uk
se 1 uk < 1
+
0.5
yk =
2
0 se uk < 1
(2.4)
Funes Sigmides As funes sigmides (em forma de s) so largamente as mais utilizadas e proporcionam um balanceamento entre o comportamento linear e nolinear. Outra vantagem que as funes sigmides so diferenciveis. As funes
sigmides mais utilizadas so:
[Funo Logstica] Limita a entrada no intervalo [0, 1] e descrita pela funo
abaixo, onde exp () a funo exponencial.
(u) =
1
1 + exp (u)
(2.5)
[Funo Tangente Hiperblica] Limita a entrada no intervalo [1, 1]:

(u) = tanh (u)
(2.6)
21
2.2
Processos de Aprendizagem em Redes Neurais
Um processo de aprendizagem em uma rede neural permite que a rede aprenda a partir de observaes do ambiente, em um processo iterativo de ajustes aplicados aos seus
pesos sinpticos, tornando-se apta a exercer sua ao no ambiente (tomada de deciso,
previso, classificao, etc.). O tipo de aprendizagem depende da maneira como os parmetros livres da rede (pesos sinpticos) so alterados. Essa maneira descrita por um
conjunto bem definido de regras, chamado de algoritmo de aprendizagem. Existe uma
grande variedade de algoritmos de aprendizagem, distribudos pelas diferentes tarefas e
aplicaes desejadas para a rede. Esses algoritmos so classificados de acordo com o paradigma de aprendizagem, isto , a maneira como a rede se relaciona com o ambiente. De
acordo com o tipo de ambiente que a rede recebe, os mtodos de aprendizagem podem
ser classificados em dois grandes grupos: aprendizado supervisionado e aprendizado nosupervisionado (HAYKIN, 2001a). Esses dois paradigmas sero mostrados nesta seo.
2.2.1
Aprendizado Supervisionado
O aprendizado supervisionado realiza o treinamento da rede a partir de amostras de entrada e sada do sistema. Um conjunto de amostras rotuladas (entradas com sua respectiva
sada desejada) representa o conhecimento que se possui inicialmente sobre o ambiente e
comumente chamado de professor. A figura 2.3 mostra o diagrama de blocos do modelo
de aprendizado supervisionado. A diferena entre a resposta desejada (fornecida pelo
professor) e a resposta do sistema (RN) alimenta novamente o sistema para aprendizado.
Figura 2.3: Modelo do aprendizado supervisionado

A entrada de cada amostra passada para a rede para a obteno de um resultado.
Aps estimar uma sada para essa entrada, a rede recebe (do professor) o rtulo da amostra
(sada desejada). A diferena entre a sada desejada e a obtida pela RN utilizada para
corrigir os pesos da rede. O ajuste da rede feito passo a passo, iterativamente, at que
o conhecimento do professor seja transferido para a rede de maneira satisfatria. Quando
a rede possuir uma boa representao do ambiente, pode-se dispensar o professor (dados
de treinamento) e deixar a rede trabalhar com novos dados vindos do ambiente.
Uma das estratgias que podem ser usadas na correo dos pesos, no aprendizado supervisionado, a utilizao do coeficiente de Momentum. O Momentum deixa a variao
dos pesos dependente tambm das variaes passadas, suavizando as oscilaes (JORIS,
22
2005). A utilizao do coeficiente de Momentum muito importante quando (HAYKIN,

2001a):
1. A variao do erro muito pequena (superfcie de descida do erro plana), nesses casos o Momentum acelera a convergncia da descida do erro, aumentando o tamanho
do passo em direo ao erro mnimo;
2. A variao do erro muito grande (curvas acentuadas na superfcie de descida do
erro), nesses casos o Momentum controla a descida do erro, diminuindo a chance
de queda em mnimos locais.
2.2.2
Aprendizado No-supervisionado
No aprendizado no-supervisionado, a rede neural aprende diretamente das caractersticas intrnsecas dos dados, sem necessitar de um professor externo ou amostras rotuladas.
A rede aprende diretamente do ambiente, como mostrado na figura 2.4, criando automaticamente novas classes. Diferentemente do aprendizado supervisionado, aqui as amostras
no so rotuladas. A aprendizagem no-supervisionada utilizada em tarefas de classificao e deteco de agrupamentos, onde possvel separar as amostras em grupos,
levando em considerao apenas as proximidades entre seus atributos.
Figura 2.4: Modelo do aprendizado no-supervisionado

Uma das formas mais comuns de aprendizado no-supervisionado a regra de aprendizagem competitiva, atravs da competio entre neurnios da rede. Por exemplo, podese utilizar uma RN de duas camadas: uma de entrada e a outra competitiva. A camada
competitiva da rede composta de neurnios que competem entre si, obedecendo uma
regra de aprendizagem, tentando responder s caractersticas dos dados de entrada. Cada
neurnio convergir automaticamente para uma certa configurao, sendo que aquele que
tiver a maior ativao "d a vitria" para a sua configurao (classe).
As arquiteturas para aprendizado no-supervisionado normalmente so mais complexas que no caso do aprendizado supervisionado. Nessas arquiteturas, alm das ligaes
para os neurnios da prxima camada, h ligaes laterais entre neurnios (da mesma
camada), para proporcionar a competio e tambm ligaes para camadas anteriores (retroalimentao, em direo camada de entrada). Essas caractersticas transformam as
redes em sistemas dinmicos com caractersticas de auto-organizao (ENGEL, 2001).
O principal exemplo de redes auto-organizveis so os Mapas Auto-Organizveis (SOM)
(KOHONEN, 1990).
2.2.3
Aprendizado por Retropropagao em Redes de Mltiplas Camadas
O aprendizado por retropropagao do erro pertence ao aprendizado supervisionado,

mas ser tratado separadamente devido importncia desempenhada no aprendizado das
redes neurais de mltiplas camadas (MLP), utilizadas neste trabalho. As redes MLP
23
(Multi Layer Perceptron) representam uma generalizao do perceptron de camada nica,

possuindo vrias camadas (camada de entrada, camadas ocultas e camada de sada). Uma
rede MLP totalmente conectada com 2 camadas ocultas mostrada na figura 2.5. As
redes MLP tornaram possvel a resoluo de problemas complexos, no-lineares ou no
separveis por retas ou planos. Outras tarefas (alm da classificao) como aproximao
de funes e filtragem tambm so realizadas por esse modelo.
Figura 2.5: Modelo de uma rede MLP com duas camadas ocultas
A rede MLP possui a caracterstica de alta conectividade entre os neurnios de uma
camada para a prxima, como mostrado na figura 2.5. A presena dos neurnios das
camadas ocultas capacita a rede a aprender tarefas complexas, extraindo progressivamente
as caractersticas mais importantes dos padres de entrada (HAYKIN, 2001a). Outra
caracterstica importante que cada neurnio possui uma funo de ativao no-linear
(sigmide). Essa no-linearidade pequena, de primeira ordem apenas, podendo ser
diferenciada sempre. Mesmo com uma no-linearidade suave na sada de cada neurnio,
a existncia de vrios neurnios na(s) camada(s) oculta(s) propicia o tratamento de nolinearidades de graus muito maiores.
A eficincia e poder das redes MLP so obtidos devido ao seu uso combinado com
o poderoso algoritmo da retropropagao do erro (backpropagation) (RUMELHART et
al., 1986). O algoritmo da retropropagao derivado da regra delta e funciona atravs
de uma propagao para frente na rede e de uma propagao para trs. Na propagao
para frente, a rede passa o sinal adiante de camada em camada. Esse sinal refere-se s
sadas dos neurnios (depois da funo de ativao). Durante a propagao, os pesos
sinpticos so fixos. Quando o sinal passar pela camada de sada, calculado o sinal
de erro, subtraindo a sada da rede da sada desejada. Na fase da retropropagao o
sinal de erro passado de volta, da camada de sada at a camada de entrada, ajustandose os pesos de acordo com uma parcela da sua contribuio no erro. A "contribuio
de cada peso sinptico no erro" est relacionada com o quanto cada peso deveria ser
ajustado na propagao atual do sinal de entrada atual e calculada pela derivada parcial
do erro em relao a cada peso. A "parcela" de ajuste chamada de taxa de aprendizado
(representada por ) e controla a velocidade com que o aprendizado convergir.
A regra delta funciona ajustando-se o vetor de pesos de acordo com o gradiente do
erro. O erro de um neurnio j, em um instante n definido por:
e j (n) = d j (n) y j (n)
(2.7)
24
Onde y j (n) o valor de sada do neurnio e d j (n) o valor desejado para essa sada.
O gradiente representa a derivada do erro pelos pesos no instante atual. Os pesos so
atualizados no sentido oposto do gradiente (minimizando a derivada do erro pelos pesos).
Essa correo feita de acordo com um parmetro , que determina o "tamanho do
passo" que ser dado no sentido oposto ao gradiente. Ento a equao de atualizao dos
pesos ser:
(2.8)
w (k + 1) = w (k) (E (w))
Onde w (k) o vetor de pesos e w (k + 1) vetor atualizado para o instante posterior.
A funo o gradiente do erro em funo dos pesos. E(w) uma funo de custo,
baseada no erro da rede. Para o ajuste dos pesos da rede, o algoritmo backpropagation
deriva o MSE (erro mdio quadrado) de sada pelo peso a ser ajustado. Visando dar uma
explicao concisa e didtica, ser mostrada uma seqncia de passos em que o sinal de
erro derivado at chegar em um dos pesos da camada de sada:
1. Deriva-se o erro final (MSE) em funo do erro de cada neurnio da camada de
sada, representado por e j (n). O MSE ( (n)) dado por:
(n) =
1
e2 (n)
2 j
(2.9)
A derivada do MSE em funo do erro de sada do neurnio da camada de sada

o prprio erro:
(n)
= e j (n)
(2.10)
e j (n)
2. Deriva-se o erro individual de cada neurnio em funo da sada final do neurnio
j (y j ). Como o erro o valor desejado menos a sada da rede, diferenciando-se
ambos os lados da Equao 2.7, a derivada ser -1:
e j (n)
= 1
y j (n)
(2.11)
3. Deriva-se a sada do neurnio pelo valor do potencial de ativao u j . Como y j a

aplicao da funo de ativao sobre u j , a derivada ser a derivada da funo de
ativao:

y j (n)
= 0j u j (n)
(2.12)
u j (n)
4. Finalmente, deriva-se o potencial de ativao do neurnio (u j ) por cada um de seus
pesos (w ji ). O ndice i relativo ao neurnio de origem da conexo que tem o peso
w ji . Essa derivada ser a sada do neurnio i:
u j (n)
= yi (n)
w ji (n)
(2.13)
Pela regra da cadeia das derivadas parciais, encadeando-se todas as derivadas da

seqncia acima, a derivada do erro final pelo peso w ji ser expressa por:
(n)
(n) e j (n) y j (n) u j (n)
=
w ji (n) e j (n) y j (n) u j (n) w ji (n)
(2.14)
25
O ajuste aplicado no peso w ji uma parcela () da derivada mostrada acima, definida

como regra delta, que est no sentido contrrio ao gradiente, de acordo com a Equao 2.8:
(n)
(2.15)
w ji (n) =
w ji (n)
Mostrou-se o caso do ajuste de um peso de um dos neurnios da camada de sada. Para
que esse ajuste seja feito em um peso de um dos neurnios das outras camadas, utiliza-se
o conceito de gradiente local. O gradiente local representado pela derivada parcial do
erro quadrtico em relao ao potencial de ativao de cada neurnio, com valor negativo:
j (n) =
(n)
u j (n)
(2.16)
A derivao em relao ao pesos pode ser expressa em funo do gradiente local de

cada neurnio:
u j (n)
(n)
= j (n)
(2.17)
w ji (n)
w ji (n)
Os gradientes locais de uma camada (por exemplo ltima camada oculta) ( j (n)) so
calculados recursivamente, a partir dos gradientes locais da camada sucedente (camada de
sada). Tem-se ento a frmula de retroprogao do gradiente local, a partir dos gradientes
locais das camadas posteriores:

(2.18)
j (n) = 0j u j (n) k (n)wk j (n)
k
Para uma explicao mais detalhada de todo o funcionamento do algoritmo da retropropagao, com demonstraes de cada valor de derivada que foi aqui apresentado,
pode-se consultar (HAYKIN, 2001a).
2.3
Tarefas Realizadas por Redes Neurais
As principais tarefas em que so utilizadas redes neurais so tratadas nesta seo: reconhecimento de padres, associao de padres, aproximao de funes e filtragem. As
RNs com sada discreta so utilizadas como classificadores universais e as redes com sada
contnua podem ser usadas como regressores (aproximadores) universais (CYBENKO,
1989) (HAYKIN, 2001a) (ENGEL, 2001). Nas aplicaes de RNs para predio de sries
temporais so utilizadas as tarefas de aproximao de funes e filtragem.
2.3.1
Reconhecimento de Padres
O reconhecimento de padres uma tarefa que aproxima muito as redes neurais dos
seres humanos. Reconhecimento de padres pode ser definido como o processo em que
um conjunto de entradas ou caractersticas (padro) atribudo a uma classe entre um
conjunto definido de classes. O reconhecimento de padres tambm chamado de classificao.
Como exemplos de reconhecimento de padres habilmente realizados por seres humanos, pode-se citar o reconhecimento de rostos familiares em uma multido; reconhecimento de uma pessoa mais envelhecida a partir de cenas dessa pessoa quando mais
jovem ou de caractersticas de parentes; separao de gros de feijo bons dos demais;
identificao de voz no rdio ou telefone; classificao de modelos de carros ou tipos de
26
produtos por suas caractersticas. As RNs so muito aplicadas em reconhecimento de

padres, principalmente quando podem ser representados facilmente de forma numrica.
Por exemplo, anlise de crdito, identificando bons e maus pagadores; anlise de qualidade de produtos a partir de ndices de substncias; classificao de riscos de doenas a
partir de indicadores; identificao de graus e classificaes de tumores; casamento de
perfis de usurios da internet.
Para o reconhecimento de padres, as RNs passam por um processo de treinamento,
onde recebem repetidamente padres de entrada com sua respectiva categoria. A partir de
ento a rede consegue classificar padres no vistos de acordo com a variao estatstica
das caractersticas dos padres e pela associao dessas caractersticas com as classes. As
RNs podem funcionar de duas formas: com uma rede no-supervionada para a extrao de
caractersticas e com outra rede supervionada para classificao; ou com uma nica rede
MLP alimentada adiante, utilizando aprendizado supervisionado. Nesse ltimo caso, as
unidades da(s) camada(s) oculta(s) realizam a extrao das caractersticas e as unidades
da camada de sada realizam a classificao.
2.3.2
Associao de Padres
A tarefa de associao de padres representada pelas memrias associativas (TAYLOR, 1956), que so memrias construdas com neurnios artificiais, inspiradas no crebro e que aprendem por associao. A associao pode ser de dois tipos: auto-associao
ou heteroassociao.
Na auto-associao, primeiramente passa-se um conjunto de padres repetidamente
para a rede armazenar. Posteriormente, apresenta-se uma representao parcial ou ruidosa
de um padro e a rede recuperar o padro original. Por exemplo, pode-se armazenar
uma imagem de um rosto e depois apresentar a regio do olho desse rosto ou uma verso
menos ntida da imagem para a rede recuperar a imagem original. Na heteroassociao,
a associao ocorre entre um conjunto de padres e outro conjunto diferente de padres.
Em associao de padres o aprendizado supervisionado. Em uma memria associativa
linear, os neurnios da rede atuaro como combinadores lineares. Sendo a o vetor de
entrada (ndice) e b o vetor de sada (padro recuperado), a relao de entrada e sada ser
dada por:
(2.19)
b = Ma
Onde M a matriz de associao, representando a conectividade da rede. Em uma
memria associativa no-linear, a relao de entrada e sada ser dada por:
b = f [M, a]
(2.20)
Onde f [M, a] uma funo no-linear da relao de associao com a entrada. Uma
memria associativa pode ser comparada com um classificador de padres, onde as categorias de classificao so os vetores armazenados. Um padro apresentado como entrada
ser classificado pela memria em uma dessas categorias, dependendo do critrio de proximidade definido na memria (KOVCS, 2002).
2.3.3
Aproximao de Funes
Uma rede neural MLP, treinada com o algoritmo da retropropagao pode ser usada
como um aproximador de funes de carter geral. O objetivo da aproximao de funes
treinar uma RN para aproximar uma funo com mapeamento de entrada-sada nolinear, representada por:
d = f (x)
(2.21)
27
Onde x o vetor de entrada, d o vetor de sada e f () uma funo desconhecida

de valor vetorial. A rede neural no conhece a funo f (), mas possui um conjunto de
amostras rotuladas da funo. O objetivo projetar uma RN que tenha um mapeamento
de entrada-sada F () suficientemente prximo de f (). A proximidade citada no sentido
euclidiano dos vetores de sada (erro mdio quadrado). A distncia, ou erro, dever estar
abaixo de um limiar mximo de aceitao.
O teorema da aproximao universal (CYBENKO, 1989) considera as RNs alimentadas adiante de apenas uma camada oculta, com nmero suficiente de neurnios, como
uma classe vivel de solues aproximativas para funes. Uma rede MLP, treinada com
algoritmo de retropropagao, funciona em um esquema em que as funes de ativao
atuam sucessivamente (em cascata). Para o caso de uma funo de uma nica sada,
teria-se a representao para o aproximador universal:
!!!!
F (x, w) =
wok wk j
k
wlixi
(2.22)
Onde () uma funo de ativao sigmide. wok o peso do neurnio k, na ltima

camada oculta, para o neurnio de sada o. Os pesos das outras camadas seguem a mesma
notao. xi representa cada uma das entradas. A sucesso de funes de ativaes suaves
possibilita que uma MLP possa aproximar as derivadas de uma mapeamento de entradasada desconhecido, como as funes diferenciveis por partes (HAYKIN, 2001a).
2.3.4
Filtragem
A funo dos filtros separar sinais que pertencem a certas classes dos demais. Normalmente extrai-se um tipo de sinal (dominante) em dados onde todos os outros tipos de
sinais so considerados rudo. O rudo pode ser desde erro em sensores at sinais adversos
ao sinal de interesse no ambiente. Existem trs tarefas bsicas para um filtro (HAYKIN,
2001a) (RUSSELL; NORVIG, 2004):
Filtragem Refere-se estimativa do sinal (informao) no tempo n, utilizando-se os dados (ruidosos) obtidos at n (inclusive);
Previso Utilizam-se os dados medidos at o tempo n (inclusive) para estimar informao no tempo futuro n + k, onde k > 0;
Suavizao Utilizam-se no apenas dados medidos at o instante n, mas tambm aps
(dados j filtrados ou estimados). A estimativa feita em um instante atrasado, melhorando a medida ruidosa obtida anteriormente ou recuperando um dado faltante.
Pode-se tambm retroceder em todo o conjunto de dados para melhor-lo (suavizando todos esses dados). Do ponto de vista estatstico, a suavizao mais precisa
que a filtragem, uma vez que j utiliza dados filtrados como entrada.
Na figura 2.6 mostrada uma rede neural funcionando como um filtro previsor. As
entradas (x (n 1) , x (n 2) , , x (n T )) so medidas de instantes anteriores, em um
intervalo finito de T atrasos eqidistantes. O funcionamento da rede como no aprendizado supervisionado pois o sinal no instante n atua como resposta desejada. O sinal de
erro e (n) (diferena entre a sada da rede e o desejado) utilizado para ajustar os pesos
da rede.
A previso realizada pela RN pode ser considerada como uma construo do modelo.
Quanto menor for o erro da rede, melhor ser o desempenho desta rede como modelo do
28
Figura 2.6: Modelo de um filtro com rede neural

processo fsico gerador dos dados. Quando o processo gerador for no-linear, a rede ser
uma poderosa alternativa de previso, devido s suas unidades no-lineares.
2.4
Aplicaes de Redes Neurais
As tarefas desempenhadas pelas redes neurais, tratadas na seo anterior, capacitam

as redes para uma infinidade de aplicaes. Nesta seo, dois grandes campos de aplicaes, relacionados com este trabalho, so descritos: identificao de sistemas dinmicos
e processamento temporal. Essas reas esto interligadas, uma vez que a identificao
de sistemas tambm utiliza processamento temporal. Descreve-se o uso das RNs nessas
aplicaes, apresentando-se o modelo das redes utilizadas.
2.4.1
Processamento Temporal com Redes Neurais
O processamento temporal muito importante em grande parte das atividades do

corpo humano como fala, interpretao de sinais visuais, controle motor e em uma infinidade de aplicaes do cotidiano, como mostrado no captulo das sries temporais. Sendo
o tempo muito importante para essas atividades, tambm o ser no uso de redes neurais
para represent-las. O tempo pode ser contnuo ou discreto, mas para uso em sistemas
computacionais sempre ser considerado o tempo discreto.
Para que uma RN possa trabalhar com informaes em seqncia temporal, preciso
haver uma representao explcita ou implcita no tratamento dos dados pela rede:
Representao Explcita do Tempo Essa representao utilizada nas redes TLFN (redes alimentadas adiante atrasadas no tempo). Os dados so modificados para dar
a idia de tempo, o tempo est presente na prpria estrutura dos dados. As T entradas anteriores so repetidas e entram novamente nos instantes seguintes. A cada
entrada a rede receber simultaneamente as entradas do tempo n T at n, onde n
instante atual e T o nmero de atrasos temporais;
Representao Implcita do Tempo Os dados entram na rede de maneira normal, em
seqncia temporal, sem repetio. A cada instante n, entram na rede apenas os
dados relativos a esse instante. Neste caso, toda a estrutura de atrasos temporais
feita internamente pela rede atravs de sua arquitetura. Existem vrios tipos de
redes construdas para realizar a representao temporal internamente, como as redes recorrentes atrasadas no tempo (TDNN) (CLOUSE et al., 1997) e as Redes de
Elman (ELMAN, 1990).
Existem numerosas aplicaes com processamento temporal como previso de sries
temporais, filtragem de rudo, controle adaptativo e identificao de sistemas. Neste trabalho empregada a representao explcita do tempo.
29
2.4.2
Redes Neurais em Identificao de Sistemas Dinmicos
Um sistema dito dinmico quando seu estado varia com o tempo (HAYKIN, 2001a).
A identificao de sistemas consiste em criar uma abordagem experimental para modelar
um processo de dinmica desconhecida. Os passos para a identificao so a seleo de
um modelo, a configurao desse modelo e a sua validao. A identificao de sistemas
dinmicos lineares e sem rudo um problema relativamente simples, podendo ser resolvido por um mtodo algbrico de determinao de parmetros. Quando as medidas so
imprecisas, envolvendo rudos ou incertezas, o problema passa a ser de estimao de parmetros, resolvido por mtodos estatsticos. Porm, se o sistema dinmico for no-linear,
os mtodos estatsticos no dispem de ferramentas muito precisas (KOVCS, 2002).
Uma planta dinmica no-linear pode ter sua identificao baseada em um modelo de
espao de estados (MEE) ou em um modelo de entrada-sada. Um MEE utilizado na
identificao com RNs na forma da figura 2.7. A rede neural da figura 2.7a serve para
estimar o estado. O estado calculado realimenta a entrada do sistema. A funo f (, )
representa a funo real de clculo do estado. A rede da figura 2.7b serve para estimar a
medida. A funo h () representa a funo real de medida. As duas redes mostradas na
figura 2.7 operam em modo sncrono na identificao do sistema.
Figura 2.7: Identificao de sistemas com redes neurais, baseada no modelo de espao de
estados
Quando os sistemas so pouco conhecidos, aplica-se o modelo de entrada-sada. Esse
modelo supe que o sistema seja acessvel somente por meio de suas sadas, no existindo
30
o conceito de estados. A arquitetura da rede neural uma rede de mltiplas camadas alimentada adiante (MLP). Ocorre a realimentao da sada da MLP para a entrada, atravs
de uma linha de atraso de T unidades. A rede tambm recebe uma linha de atraso de
T entradas exgenas. Normalmente utiliza-se o Modelo Auto-regressivo No-linear com
Entradas Exgenas (NARX). Para a simplificao de um sistema de uma nica entrada e
nica sada, o modelo NARX estabelece uma relao entre as sadas passadas e a sada
prevista na seguinte forma:
y (n + 1) = F (y (n) , , y (n T + 1) , u (n) , , u (n T + 1))
(2.23)
Onde y (n) , , y (n T + 1) representam os valores anteriores da sada; y (n + 1)

a regresso da sada do modelo e u (n) , , u (n T + 1) so as entradas exgenas. Um
modelo NARX de segunda ordem (T = 2) mostrado na figura 2.8, onde Z1 representa
um atraso temporal. A estimativa subtrada da sada real para produzir o sinal de erro.
A sada y (n + 1) desempenha o papel de resposta desejada e o erro e (n + 1) utilizado
para ajustar os pesos da rede:
e (n + 1) = y (n + 1) y (n + 1)
(2.24)
Figura 2.8: Modelo recorrente de entrada-sada NARX

Na literatura de regresso para identificao de sistemas, o modelo NARX no autoregressivo, pois recebe as sadas atrasadas medidas diretamente do sistema real. A figura
2.9a mostra um modelo de identificao de sistema NARX de segunda ordem. Esse modelo tem a seguinte relao de entrada-sada:
y (n + 1) = F (y (n) , , y (n T + 1) , u (n) , , u (n T + 1))
(2.25)
Onde y (n + 1) representa a estimativa de sada do modelo, calculada a partir das sadas atrasadas do sistema e das entradas exgenas. O modelo realmente auto-regressivo,
correspondente arquitetura NARX de redes recorrentes chamado na literatura de regresso de NOE (Nonlinear Output Model). A figura 2.9b mostra um modelo NOE de
segunda ordem. O modelo NOE utiliza como entrada as sadas de predies passadas em
vez de utilizar as medidas do sistema real e possui a relao de entrada-sada:
y (n + 1) = F (y (n) , , y (n T + 1) , u (n) , , u (n T + 1))
(2.26)
31
Figura 2.9: Modelo de entrada-sada na regresso para identificao de sistemas. (a)

Modelo NARX. (b) Modelo NOE.
32
FILTRO DE KALMAN
Considerando os exemplos abaixo, podem ser percebidas algumas similaridades (adaptados de (RUSSELL; NORVIG, 2004)):
Uma pessoa observando o aparecimento de um vaga-lume "pisca-pisca" e tentando
adivinhar onde ser a posio em que ele acender a luz novamente;
Um operador de radar da segunda guerra mundial tentando descobrir a posio do
inimigo a partir de um sinal fraco e impreciso que surge a cada 5 segundos na tela;
Um astrnomo tentando descobrir a trajetria dos planetas a partir de um conjunto
de observaes inexatas de ngulos em intervalos irregulares de tempo, medidos de
forma imprecisa.
A semelhana de todos esses casos que se tenta avaliar o estado (posio, velocidade, etc.) de um sistema fsico atravs de observaes ruidosas ao longo do tempo.
Todos os problemas citados podem ser formulados como inferncia em um modelo de
probabilidade temporal. O mtodo do Filtro de Kalman foi criado para resolver esse tipo
de problema. A fsica do movimento ser o modelo de transio de estado e o sistema de
observao (viso, sensores, etc.) ser o modelo de medida. Neste captulo so mostradas
as definies iniciais para entender o Filtro de Kalman, o seu algoritmo e funcionamento
e as diferenas entre o Filtro de Kalman Estendido e o Filtro de Kalman Discreto.
3.1
Definies Iniciais
O Filtro de Kalman (FK) utiliza muitos conceitos que embasam o seu funcionamento e suas aplicaes. Baseado nos trabalhos (KALMAN, 1960) (WELCH; BISHOP,
2001) (HAYKIN, 2001b) (MACHADO, 2003) (HAYKIN, 2001a) (ENGEL, 2005), podese definir que o FK um filtro linear timo, que modela processos estocsticos baseandose na transio de estados e executando predies em dados ruidosos. Para que as definies anteriores sejam mais facilmente entendidas, necessitam-se dos conceitos de estimativa tima, processo estocstico, sistema de transio de estados e rudo. Nesta seo
sero abordados todos esses conceitos para uma melhor compreenso do FK.
3.1.1
Rudo
O rudo representa variaes ou incertezas nos dados. Rudo pode ser definido como o
conjunto das influncias no-sistemticas sobre o comportamento de um sistema, no estando compreendido no modelo determinstico (previsvel) desse sistema (MACHADO,
2003). A presena de rudo pode causar grandes dificuldades para mtodos de predio,
33
que interpretam o rudo como parte integrante dos dados. Muitos mtodos preditivos,
como o caso das redes neurais, apresentam dificuldades em diferenciar o sinal (informao pura) do rudo. Os experimentos apresentados nesta dissertao comprovam essa
dificuldade.
Mesmo que o rudo no seja previsvel, possvel model-lo. Modelagem de rudo
atrai estudos da teoria da probabilidade (GLYMOUR et al., 1996) e normalmente utiliza estatsticas da ocorrncia do rudo, como a varincia (WELCH; BISHOP, 2001). O
modelo mais comum de rudo o rudo branco com distribuio gaussiana. Essa distribuio de rudo utilizada como padro para o Filtro de Kalman e definida pela seguinte
funo:
12
e
f (x, xm , q) = p
(xxm )2
q2
2q2
(3.1)
Onde xm a mdia dos valores possveis de x e q2 a varincia desses valores. A

distribuio gaussiana obtida a partir de diversas fontes de influncia independentes,
com mdia finita (MACHADO, 2003).
3.1.2
Processo Estocstico
A idia de modelo matemtico muito utilizada para descrever sistemas fsicos, principalmente nas cincias exatas e engenharias. Um modelo matemtico classificado em
dois tipos: determinstico e estocstico. Chama-se um modelo de determinstico quando
no existe aleatoriedade sobre o comportamento do sistema em um dado instante de tempo
e chama-se de modelo estocstico quando existe aleatoriedade. No modelo determinstico, supe-se que, de posse das mesmas entradas e circunstncias, a sada (comportamento) do sistema ser previsvel. Porm, em sistemas reais, normalmente existem muitas incertezas ou um conjunto de variveis desconhecidas que atribuem caractersticas
aleatrias ao sistema, dificultando a sua passagem para um modelo matemtico determinstico. Esses sistemas podem ser descritos em termos probabilsticos, em funo da
probabilidade de a sada estar entre dois limites definidos, e so chamados de processos
estocsticos.
Um processo estocstico possui duas propriedades fundamentais (HAYKIN, 2001c):
O processo em funo do tempo;
aleatrio, no sentido de que antes de uma transio temporal no possvel prever
com exatido os valores futuros.
Um processo estocstico ser ento uma coleo de Variveis Aleatrias Discretas
(VAD), organizadas em funo do tempo, formando um espao de estados, ou espao
amostral. A descrio do processo no poder ser realizada de forma determinstica, mas
poder ser dada pelos momentos do processo estocstico: primeiro momento (mdia); segundo momento (varincia e funes de covarincia) (MANTOVANI, 2004). Se o tempo
for discreto (exemplo: T = 0, 1, 2, 3, ), tem-se um processo estocstico discreto, porm,
se o tempo for contnuo (exemplo: T = 0 < t < +), tem-se um processo estocstico
contnuo.
3.1.3
Modelo de Espao de Estados
Modelo de Espao de Estados (MEE) uma ampla classe de modelos, tambm chamados de Modelos Lineares Dinmicos (MLD), introduzidos por Rudolph Kalman (KAL-
34
MAN, 1960). Esses modelos tm sido muito usados para modelar dados da economia, da
rea mdica, de meteorologia, de cincias do solo, dentre outros. O estado de um sistema
dinmico formalmente definido como o "conjunto de quantidades que assumem toda a
informao sobre o comportamento passado e que necessria para descrever o seu comportamento futuro, exceto pelos efeitos puramente externos que surgem devido entrada
(excitao) aplicada".
Segundo (MORETTIN; TOLOI, 2004), todo modelo de sries temporais de q dimenses possui representao em espao de estados, relacionando um vetor de observaes
Zt e um vetor de rudo vt , atravs de um processo Xt , com p dimenses, chamado de vetor
de estados. Essa representatividade das sries temporais em espaos de estados motiva o
uso da estrutura de estados do Filtro de Kalman para a PST, neste trabalho.
Um MLD possui duas equaes. A Equao 3.2 chamada de equao de processo,
pois calcula o vetor de estados do processo Xt e a Eq. 3.3 chamada de equao de
medida, pois calcula a medida das variveis observveis do processo:
Xt = Gt Xt1 + wt , t = 1, , N
(3.2)
Zt = At Xt + vt
(3.3)
Onde:
Gt a matriz de transio de estado, de ordem (p p);
wt um vetor de rudo, representando o rudo (perturbao) do sistema, de ordem
(p 1), com mdia zero e matriz de covarincia Q;
At a matriz de observao do sistema, de ordem (q p);
vt o vetor rudo da observao, de ordem (q 1), com mdia zero e matriz de
covarincia R;
Os vetores de rudo vt e wt so no-correlacionados entre si e no-correlacionados
com o estado inicial.
Quando os vetores de rudo forem normalmente distribudos, diz-se que o espao de
estados gaussiano. As matrizes A e G so determinsticas, ento se houver variao no
tempo, esta variao ser definida a priori. Quando as matrizes de transio no variam
no tempo o sistema chamado invariante no tempo ou homogneo no tempo. Um caso
especial de sistemas invariantes no tempo so os modelos estacionrios. Nesse caso, alm
de possurem o mesmo sistema de transio, esses modelos seguem uma mesma varincia
em torno de uma mdia (MORETTIN; TOLOI, 2004).
3.1.4
Estimativa tima
O conceito de estimao tima muito importante para a compreenso do princpio de

funcionamento do FK, que um filtro linear timo. Esta seo apresentada no contexto
das variveis aleatrias discretas (VAD), generalizando-se para um vetor de VAD (vetor
de estados) propagado adiante no tempo. Segundo (HAYKIN, 2001b), tem-se a varivel
observvel yk :
(3.4)
yk = xk + vk
Onde xk um sinal desconhecido e vk uma componente de rudo aditivo. Realizase uma estimativa xk do sinal xk , que normalmente difere desse sinal. Para derivar a
35
estimativa de uma maneira tima, necessita-se de uma funo de custo (funo de perda)
para estimativas incorretas. Essa funo deve satisfazer duas condies:
Ser no-negativa
Ser uma funo no-decrescente do erro de estimativa x, definido por:
xk = xk xk
(3.5)
As duas condies so satisfeitas por um erro mnimo quadrado (MSE), definido por:
h
i
h
i
Jk = E (xk xk )2 = E ( xk )2
(3.6)
Onde E representa a funo expectativa. A dependncia da funo de custo Jk no
tempo k salienta a natureza no-estacionria do processo recursivo de estimao.
3.1.5
Introduo ao Filtro de Kalman
O Filtro de Kalman (FK) foi proposto por Rudolf Emil Kalman, em 1960, em seu
famoso artigo descrevendo uma soluo recursiva para o problema da filtragem linear de
dados discretos (KALMAN, 1960). Essa primeira verso era usada apenas para problemas
lineares. Na poca, a resoluo de problemas no-lineares era invivel devido ao baixo
poder de processamento dos computadores.
O Filtro de Kalman resolve eficientemente o problema da varincia mnima do erro,
utilizando a abordagem da filtragem tima e prev estados passados, presentes e at estados futuros. Esses estados pertencem a sistemas dinmicos lineares, ou seja, processos
governados por uma equao linear estocstica . No Filtro de Kalman Estendido, os estados pertencem a sistemas dinmicos no-lineares, governados por equao estocstica
no-linear (WELCH; BISHOP, 2001).
O FK pode ser usado para estimativa analtica de problemas, onde estima-se o estado
de um sistema com processo linear e modelos de medidas com incertezas gaussianas. A
funo de densidade de probabilidade (fdp) sobre o vetor de estados uma distribuio
gaussiana inteiramente determinada por seu vetor de mdia e matriz de covarincia. A
fdp define como ser a transio de estados do processo. Essas mdias e covarincias so
atualizadas com o algoritmo do FK.
O Filtro de Kalman (assim como todas suas variantes) aplicado em sistemas que
possuem variveis de estados contnuos, cujas medies (e normalmente tambm o processo) apresentam rudo. Como exemplos desses sistemas pode-se citar: trajetrias de
aeronaves e msseis; acompanhamento de pessoas e automveis; reconstruo da trajetria de partculas; determinao de correntes ocenicas e acompanhamento acstico de
submarinos. Outras exemplos de aplicaes podem se dar em indstrias qumicas, reatores nucleares, ecossistemas vegetais e variveis da economia (RUSSELL; NORVIG,
2004). Em (RUTGEERTS et al., 2005) mostrado um sistema de treinamento para robs
por demonstrao humana. (NYGREN; JANSSON, 2004) mostra a utilizao do FK
para navegao de submarinos. Outra utilizao do FK, para rastreamento de pessoas em
tempo real, mostrada por (GIRONDEL; CAPLIER; BONNAUD, 2004).
3.2
O Algoritmo do Filtro de Kalman
Esta seo apresenta o funcionamento do algoritmo do Filtro de Kalman em cada uma

de suas fases, com suas frmulas e explicaes. As inspiraes e bases para esta seo podem ser encontradas em (KALMAN, 1960), (WELCH; BISHOP, 2001), (ENGEL,
36
2005), (HAYKIN, 2001b) e (MACHADO, 2003). As frmulas aqui descritas equivalem

ao Filtro de Kalman Estendido (FKE), uma vez que o FKE uma generalizao do Filtro
de Kalman que pode ser utilizado tambm em sistemas no-lineares. O FK sem a linearizao (com matrizes) pode ser considerado abrangido pelo FKE e ser tratado na seo
seguinte.
O Filtro de Kalman assume o problema de estimar um estado x, de um processo
controlado de tempo discreto, regido por uma equao estocstica:
x (n) = f [x (n 1) , u (n 1) , w (n 1)]
(3.7)
Onde x (n) o vetor de estados do sistema no instante n, u (n) o vetor de entrada

(ao tomada no instante n) e w (n) o rudo que a dinmica do processo possui. A
funo f representa a dinmica determinstica do processo, isto , a parte conhecida do
processo de transio de estado. O rudo w (n) assumido como gaussiano de mdia zero
(rudo branco) e torna o processo estocstico, necessitando ser estimado. Isso significa
que a dinmica do processo no determinstica, havendo incerteza sobre o estado real
do sistema, aps uma ao ser tomada. A covarincia do rudo de processo representada
pela matriz Q, dada pelo produto externo do vetor de rudo de processo:
D
E
Q (n) = w (n) w (n)T
(3.8)
O estado do sistema no pode ser medido diretamente, com isso necessrio fazer
estimativas sobre o estado real do sistema. O FK utiliza dois modelos lineares, um para
o processo e outro para a medida. O FK funciona em duas fases. A primeira fase estima
o prximo estado (projeta o estado adiante), com base na funo de transio sobre o
estado anterior (antes da medida), e a segunda fase atualiza a estimativa de estado, com
base na medida no instante atual. A medida do sistema (z (n)), representa um vetor de
variveis observveis e uma funo do estado real x (n). O vetor z (n) depende tambm
de um rudo v (n), chamado de rudo de medida, originado da impreciso do mecanismo
de medida do estado:
(3.9)
z (n) = h [x (n) , v (n)]
A funo de medida determinstica. Na prtica (na execuo do filtro), h representa
a forma como uma estimativa de medida inferida a partir de uma estimativa de estado. O
rudo de medida v (n) tambm considerado gaussiano "branco". A covarincia do rudo
de medida ser dada pela matriz R:
D
R (n) = v (n) v (n)
(3.10)
O FK armazena a matriz de covarincia do erro de predio do estado (P (n)) para

utilizar na atualizao da estimativa do estado. O funcionamento do filtro, com suas duas
fases mostrado na figura 3.2.
O Ganho de Kalman, representado por K (n), ajustado de modo a minimizar a covarincia do erro de estimao. A forma de representao x (n|n 1) lida como "valor
do vetor x para o instante n, calculada no instante n 1". Essa forma de representao
necessria pelo fato de muitas variveis serem previstas a priori (antes da medida) e
revisadas (atualizadas) a posteriori (depois da medida).
37
Figura 3.1: Modelo de funcionamento do Filtro de Kalman

3.2.1
No-linearidades e Jacobianas
Um sistema no-linear se o modelo de transio no pode ser descrito como uma

multiplicao de matrizes do vetor de estados (RUSSELL; NORVIG, 2004). O Filtro
de Kalman Estendido (FKE) serve para prever no-linearidades no modelo e utiliza as
derivadas parciais do processo e das funes de medida (WELCH; BISHOP, 2001). O
tipo de no-linearidade que o FKE trata apenas de primeira ordem (HAYKIN, 2001b).
Isso se deve ao fato que o FKE mantm toda a estrutura linear do FKD, com um processo
de linearizao com equaes diferenciais (derivadas de primeira ordem).
O processo de linearizao no FKE se d pela utilizao das matrizes jacobianas xf ,
f h
h
w , x e v . Onde:
f
x
a matriz jacobiana das derivadas parciais da funo de transio de estado f em

relao ao vetor de estados x.
f
w
a matriz jacobiana das derivadas parciais da funo de transio de estado f

em relao ao vetor de rudo de processo w.
h
x
a matriz jacobiana das derivadas parciais da funo de medida h em relao

ao vetor de estados x.
h
v
a matriz jacobiana das derivadas parciais da funo de medida h em relao

ao vetor de rudo de medida v.
Cada jacobiana representa uma matriz de derivadas parciais de cada uma das sadas
da funo por cada uma das posies do seu vetor de entrada. Por exemplo, a matriz hx
ser constituda das derivadas parciais de cada uma das posies do vetor de sada gerado
pela funo h em relao a cada uma das posies do vetor de estado x. As sadas da
funo representam as linhas da matriz e as posies do vetor de estados representam as
38
colunas. Como as sadas da funo so as posies do vetor de medida z, tem-se:

z z
z1
1
1
xT
xz21 xz22
z2
xT
1
2
=
(3.11)
.
.
.
.
..
. . ..
x ..
zN
x1
zN
x2
zN
xT
Onde T o tamanho do vetor de estados x e N, o tamanho do vetor de medidas z.

Uma importante caracterstica do FKE que a jacobiana hx (na equao de Ganho
de Kalman) serve para propagar corretamente ou apenas aumentar os componentes relevantes da informao de medida. Se no h um mapeamento (correlao) entre duas
variveis, o Ganho de Kalman no altera o estado dessas variveis. A seguir sero mostradas as duas fases do FKE: Previso (a priori) e Atualizao (a posteriori).
3.2.2
Fase de Previso
A estimativa do vetor de estados atual (Equao 3.7) a priori trata o modelo do processo como sendo determinstico (sem rudo):
x (n|n 1) = f [x (n 1|n 1) , u (n 1) , 0]
(3.12)
Onde x (n 1|n 1) a medida a posteriori anterior, ou seja, calculada na fase de

atualizao do instante anterior.
Teoricamente, o erro da estimativa x (n|n 1) dado por:
x (n|n 1) = x (n) x (n|n 1)
(3.13)
Foi dito "teoricamente", porque na prtica, o valor exato de x (n) no conhecido.

Supondo que o erro de estimativa de processo e o rudo sejam suficientemente pequenos,
pode-se expandir a equao de processo em uma Srie de Taylor de primeira ordem:
x (n) = f [x (n 1|n 1) , u (n 1) , 0] +
f
f
x (n 1|n 1) +
w (n 1)
x
w
(3.14)
Substituindo as Equaes 3.14 e 3.12 na Equao 3.13 , pode-se calcular o erro terico
da estimativa como:
x (n|n 1) =
f
f
x (n 1|n 1) +
w (n 1)
x
w
A covarincia a priori do erro do erro de estimao dada por:

D
E
P (n|n 1) = x (n|n 1) x (n|n 1)T
Substituindo a Equao 3.15 na Eq. 3.16, tem-se:
T

f
f
f
f T
P (n|n 1) =
P (n 1|n 1)
+
Q (n 1)
x
x
w
w
(3.15)
(3.16)
(3.17)
A estimativa de medida, que calculada a partir da estimativa de estado representada

por:
z (n|n 1) = h [x (n|n 1) , 0]
(3.18)
39
Pode-se perceber que a funo h recebe o valor 0 como rudo, isto , trabalha apenas
com a parte determinstica. O erro da estimativa de medida ser dado por:
z (n|n 1) = z (n) z (n|n 1)
(3.19)
Supondo erros de estimativa e rudo suficientemente pequenos, a equao de medida

tambm pode ser expandida por uma Srie de Taylor de primeira ordem:
z (n) = h [x (n|n 1) , 0] +
h
h
x (n|n 1) +
v (n)
x
v
(3.20)
Substituindo as Equaes 3.18 e 3.20 na Equao 3.19, pode-se calcular o erro terico
da estimativa de medida:
z (n|n 1) =
3.2.3
h
h
x (n|n 1) +
v (n)
x
v
(3.21)
Fase de Atualizao
Para calcular a atualizao do estado, antes necessrio computar o ganho de Kalman

(K). K uma matriz que representa a parte da inovao (diferena entre o que foi estimado
e o que foi medido) que ser incorporada ao estado em cada iterao. Essa matriz
escolhida de forma a minimizar a varincia do erro final de estimao de cada uma das
componentes do vetor de estados do sistema. O ganho de Kalman gerado a partir das
covarincias do erro de predio, com as matrizes Szz e Sxz . Sxz representa a covarincia
entre o erro da estimativa de estado e o erro da estimativa de medida:
D
E
(3.22)
Sxz (n|n 1) = x (n|n 1) z (n|n 1)T
Substituindo as frmulas dos erros (Eq. 3.15 e Eq. 3.21), a Eq. 3.22 resulta em:
T T

f
f
h
f
f T h T
Sxz (n|n 1) =
P (n 1|n 1)
+
Q (n 1)
x
x
x
w
w
x
(3.23)
Que tambm equivalente a:
T
h
Sxz (n|n 1) = P (n|n 1)
(3.24)
x
A matriz Szz obtida do erro de estimativa de medida:
D
E
Szz (n|n 1) = z (n|n 1) z (n|n 1)T
(3.25)
Substituindo os erros de estimativa de medida (Eq. 3.19), a Eq. 3.25 resulta em:
T T
h
Szz (n|n 1) = hx xf P (n 1|n 1) xf
x
T T
T
(3.26)
h
h
h
+ hx wf Q (n 1) wf
+
R
(n)
x
v
v
A frmula acima tambm equivalente a:
T
T
h
h
h
h
Szz (n|n 1) =
P (n|n 1)
+
R (n)
x
x
v
v
(3.27)
40
Combinando as matrizes Sxz e Szz , tem-se o Ganho de Kalman:

K (n) = Sxz (n|n 1) S1
zz (n|n 1)
(3.28)
Com o Ganho de Kalman, calcula-se a estimativa de estado atualizada (a posteriori),

que uma combinao linear da estimativa anterior e da nova medida (HAYKIN, 2001b):
x (n|n) = x (n|n 1) + K (n) (z (n) h [x (n|n 1) , 0])
(3.29)
A diferena entre a medida real e a estimativa de medida a priori chamada de inovao e representa a nova informao contida na medida. Essa nova informao no
incorporada toda de uma vez na estimativa de estado, apenas uma parte (combinao
linear) dela utilizada, de maneira tima pelo ganho de Kalman.
Por fim, a covarincia do erro da estimativa a posteriori dada por:
D
E
(3.30)
P (n|n) = x (n|n) x (n|n)T
ou
P (n|n) = P (n|n 1) K (n) Szz (n|n 1) K (n)T
3.3
(3.31)
Filtro de Kalman com Matrizes
O Filtro de Kalman foi inicialmente projetado apenas para problemas lineares, servindo para estimar estados de processo controlado, discreto no tempo. A sua equao de
controle (processo) uma equao linear estocstica.
3.3.1
Frmulas Utilizando Matrizes
A transio de estados feita de forma linear por meio de multiplicao por matrizes.
A predio do vetor de estados x feita da forma:
x (n) = Ax (n 1) + Bu (n 1) + w (n 1)
(3.32)
Onde A e B so matrizes que caracterizam a dinmica determinstica e linear do processo. A e B representam a funo de transio f.
A funo de medida h tambm substituda pela multiplicao por uma matriz. A
matriz H representa a funo linear de medida:
z (n) = Hx (n) + v (n)
(3.33)
Como aqui os modelos de processo e de medida so lineares, no necessrio aplicar

a linearizao pelo clculo das derivadas parciais a cada instante de tempo. Logo as
matrizes de derivadas de f e de h, em funo do estado, sero as prprias matrizes de
transio dessas funes, A e H respectivamente. As matrizes derivadas em funo dos
rudos sero matrizes identidade, pois as funes f e h so diretamente relacionadas ao
rudo (que considera-se somado diretamente), ento tem-se:
f
x
= A,
h
x
= H,
f
w
= I,
h
v
=I
(3.34)
Onde I a matriz identidade. A funo de estimativa do vetor de estados do FKD

ento escrita por:
x (n|n 1) = Ax (n 1|n 1) + Bu (n 1)
(3.35)
41
E a estimativa de medida:
z (n|n 1) = Hx (n|n 1)
(3.36)
A matriz de covarincia do erro escrita por:

P (n|n 1) = AP (n 1|n 1) AT + Q (n 1)
(3.37)
As covarincias dos erros, que formam o filtro de Kalman tambm so escritas em

funo das matrizes:
Sxz (n|n 1) = P (n|n 1) HT
(3.38)
Szz (n|n 1) = HP (n|n 1) HT + R (n)
(3.39)
Substituindo as matrizes Sxz e Szz no clculo do Ganho de Kalman, tem-se:

K (n) = P (n|n 1) HT
1
HP (n|n 1) HT + R (n)
(3.40)
A atualizao da estimativa de estado permanece da mesma forma, mas pode ser escrita tambm com a substituio da matriz de medida na inovao:
x (n|n) = x (n|n 1) + K (n) (z (n) Hx (n|n 1))
(3.41)
E, por fim, a covarincia a posteriori tambm pode ser escrita em funo das matrizes:
P (n|n) = (I K (n) H) P (n|n 1)
3.3.2
(3.42)
Limitaes do FK Linear
As limitaes de tratamento de no-linearidade e de modelo de rudo pelo Filtro de

Kalman justificam o uso de redes neurais. Essa vantagem mostrada na prtica por (DECRUYENAERE; HAFEZ, 1992). O artigo mostra uma comparao do Filtro de Kalman
Discreto (FKD) com um modelo de rede neural recorrente. A rede mostrada possui 2
camadas ocultas, recorrncia da camada de sada para a camada de entrada e treinada
com algoritmo gradiente conjugado.
A maioria dos experimentos apresentados inclui no-linearidades e distribuies nogaussianas, o que viola as hipteses do FKD. Apenas no caso em que as hipteses no so
violadas, o FKD consegue ter um desempenho levemente superior a essa RN. Em todos os
outros casos, a RN possui desempenho bastante superior. Como simulao, testaram-se
24 sistemas de equaes, em que apenas o sistema de nmero I atende todas as hipteses
do FKD. Os outros 23 possuem combinaes de no-linearidades com distribuies nogaussianas. Desses 23, so mostrados 3, os sistemas de nmero II, III e IV. Abaixo so
mostrados os 4 sistemas:
Sistema I: Satisfaz todas as hipteses de Kalman. Possui a seguinte equao:
x (n) = 0.9x (n 1) + w (n)
(3.43)
Sistema II: Inclui uma no-linearidade sigmide. Possui a seguinte equao:

x (n) = G (x (n 1)) + w (n)
G (x) = 1+e18x 12
(3.44)
42
Sistema III: Possui rudo com distribuio no-gaussiana. Possui a seguinte equao:
(3.45)
x (n) = 0.9x (n 1) + (w (n))3
Sistema IV: Inclui tanto no-linearidade quanto rudo no-gaussiano. Possui a seguinte equao:
1
x (n) = [x (n 1) + w (n)] 3
(3.46)
Todos os sistemas possuem v (n) e w (n) (rudos de medida e rudos de processo) como
rudos gaussiano branco com mdia zero e desvio padro de 0.5. A nica exceo o sistema I, que possui desvio padro de 0.2 e 1.0 para w (n) e v (n), respectivamente. Os
outros 20 sistemas apresentam distribuies alternativas para os rudos, no-linearidades
nas funes de medidas, correlaes entre os rudos e vrias combinaes dessas caractersticas. A comparao da RN com FKD em cada um dos 4 sistemas feita utilizando
a mdia absoluta do erro de estimao, conforme mostrado na tabela 3.1. A melhora
calculada atravs da diferena percentual do erro do FKD e do erro da RN.
Tabela 3.1: Comparao da RN com o FKD, nos quatro sistemas
Sistema
Erro do FKD
Erro da RN
Melhora da RN
I
II
III
IV
0,267824
0,337429
0,280056
0,266397
0,276415
0,286842
0,249324
0,165234
-3,2%
15%
11%
38%
O sistema I foi o nico que o FKD teve um razovel melhor desempenho. Em todos os outros a RN saiu-se substancialmente melhor. A maior melhora da RN deu-se em
um sistema com w (n) e v (n) idnticos (100% de correlao). Com esses experimentos,
mostra-se que a RN apresentada teve desempenho pouco inferior ao FK quando as hipteses de Kalman so atendidas. Quando as hipteses no so atendidas, a RN mostra
um desempenho bastante superior em todos os casos. Quando as violaes aumentam,
aumenta o grau de melhora no desempenho. O grau de melhora depende do tipo exato e
do grau da violao da hiptese.
3.4
Concluses sobre o FK
As funes f e h (funes da dinmica de estado e de medida, respectivamente) podem na prtica variar com o tempo, de acordo com as caractersticas da maioria dos sistemas reais. Porm, na maioria das aplicaes do FK, essas funes so constantes. Essa
simplificao deve-se principalmente grande dificuldade de se modelar a estatstica de
transio de estado. Ento, descobrir vrios desses modelos ao longo do tempo torna-se
invivel. Essa dificuldade motiva o uso de redes neurais como processo do FK neste trabalho, pois as RN adaptam-se automaticamente a mudanas na funo de transio. A
prpria necessidade de possuir uma funo f definida uma limitao do FK. Essa necessidade limita o campo de aplicaes do FK, no podendo ser utilizado onde o modelo
no conhecido, como na predio de sries temporais. Outra limitao a suposio
que o rudo obedece distribuio gaussiana. Existem tambm limitaes no tratamento de
no-linearidades, sendo que o FKD no as trata e o FKE trata apenas as no-linearidades
de primeira ordem.
43
Quando a covarincia do erro de predio (P) aproxima-se de 0, o ganho de Kalman

utilizar uma parcela menor da inovao. Neste caso, o erro j estar muito pequeno e
as medidas devem ser "levadas menos em considerao". Se a covarincia do rudo de
medida R tender a 0, significa que as medidas so muito precisas e o ganho "considerar" mais a inovao. Por outro lado, se o rudo de medida for muito grande, a observao pouco confivel e o filtro considera mais a predio antiga. Ento o ganho de
Kalman ser diretamente proporcional covarincia do erro de estimativa do vetor de estados e inversamente proporcional covarincia do rudo de medida (WELCH; BISHOP,
2001). A expresso "considerar mais a inovao", neste caso, significa que a multiplicao com a matriz K (ganho de Kalman) dar um peso maior para a inovao (diferena
da estimativa com a nova medida real) e um peso menor para a estimativa anterior.
As matrizes de covarincia de rudo aparecem com argumento varivel (Q (n) e R (n)),
ou seja, poderiam ter valores diferentes a cada instante de tempo. Em boa parte dos
trabalhos, essas matrizes permanecem constantes, como em (WELCH; BISHOP, 2001).
Porm, como as covarincias do rudo influenciam diretamente no clculo do Ganho de
Kalman, covarincias desatualizadas podem levar a uma atualizao de estado no otimizada. Sobre o uso dos parmetros, (WELCH; BISHOP, 2001) comenta que a matriz
R normalmente definida antes da execuo do filtro, sendo obtida a partir de medidas. Com essas medidas, podem-se utilizar estatsticas para a calibragem do parmetro.
A estimao do parmetro Q pode ser feita atravs de estatsticas de diferenas entre a
sada do processo e a sada esperada. Experimentos prticos de configurao inicial das
covarincias de rudo sero mostrados no captulo dos resultados desta dissertao.
44
PREDIO DE SRIES TEMPORAIS
Esse captulo trata da Predio de Sries Temporais (PST), importantssima tarefa

para redes neurais e mtodos estatsticos. O captulo apresenta os conceitos, aplicaes,
mtodos lineares de predio e a utilizao de redes neurais.
4.1
Conceitos Iniciais
Nesta seo so apresentados os conceitos necessrios para a apresentao da PST.

Apresentam-se as definies, textual e matemtica, de uma srie temporal. Tambm so
mostrados os objetivos da anlise das sries, exemplos, uma introduo aos procedimentos de predio e o conceito de estacionariedade.
4.1.1
Definio de Srie Temporal
Uma srie temporal qualquer conjunto de observaes ordenadas no tempo, em

instantes determinados (MORETTIN; TOLOI, 2004). Entre os elementos de uma srie
temporal, s varia o instante em que a observao realizada. Os outros elementos,
como fato e local das observaes, permanecem constantes. Uma srie temporal pode
ser discreta ou contnua. A srie ser discreta, se o conjunto de observaes for discreto
no tempo e ser contnua, se o conjunto de observaes for contnuo. Grande parte das
sries discretas obtida da amostragem de sries contnuas e toda srie contnua pode
ser discretizada (OLIVEIRA, 2002). A grande maioria dos mtodos de predio utiliza
sries discretas ou discretizadas. A converso de uma srie contnua para discreta pode
ser realizada pela medio de N pontos em um dado intervalo, com diferena de tempo
igual entre os pontos. Outra forma de discretizao, de um intervalo da srie contnua,
a acumulao (ou agregao) de valores em subintervalos iguais.
Matematicamente, pode-se definir uma srie temporal como uma seqncia de valores
Y1 , Y2 ,..., YT de uma varivel Y nos instantes t1 , t2 ,..., tT . Y ser, ento, uma funo de t,
descrita por Y = F (t) (CROCE FILHO, 2000).
4.1.2
Aplicaes
Como exemplos de sries temporais, pode-se citar:

Valor dirio de fechamento de uma certa ao da Bolsa de Valores (srie discreta),
Valores mdios mensais de temperatura em uma certa cidade (srie discreta, obtida
pela mdia de amostragens de uma srie contnua),
Registro do nvel de gua em uma determinada represa (srie contnua),
45
ndice Nacional de Preos ao Consumidor (srie discreta),

Medida do nvel de vibrao em determinada posio de um equipamento (srie
contnua),
ndice de precipitao atmosfrica anual em determinada cidade (srie discreta,
obtida pelo somatrio de um intervalo de uma srie contnua),
Faturamento anual de uma empresa (srie discreta),
Nmero mdio anual de manchas solares (srie discretizada),
Nmero e intensidade mdia de furaces em uma regio, em determinada poca do
ano (sries discretizadas).
Como pode-se perceber, pela variedade dos exemplos, existem sries temporais nas
mais diversas reas. Essas sries so encontradas abundantemente na natureza (meteorologia, astrofsica), nas cincias sociais (demografia, indicadores de qualidade de vida),
na economia (mercado acionrio, taxas de cmbio), na rea mdica (variao de nveis
de substncias no corpo, seqncias de produo de anticorpos, etc.), na rea tecnolgica
(comportamento de sinais, sistemas dinmicos, etc.) e em muitas outras reas (CASTRO,
2001). Essa imensa quantidade de aplicaes motiva muito a predio de sries temporais. Muitas dessas sries influenciam diretamente no futuro da humanidade e a predio
de seus comportamentos pode significar grandes lucros de acionistas, um melhor atendimento a pessoas, organizao estratgica de empresas ou at preveno de catstrofes.
4.1.3
Objetivos da Anlise de Sries Temporais
Dada uma srie temporal Y1 , ...,YT , observada nos instantes t1 , ...,tT , os objetivos da
anlise so (MORETTIN; TOLOI, 2004):
Investigar o mecanismo gerador da srie;
Fazer previses de valores futuros da srie;
Descrever o comportamento da srie, observando tendncias, ciclos e variaes e
construindo grficos;
Procurar periodicidades relevantes nos dados.
4.1.4
Procedimentos de Predio
Os procedimentos de predio de sries temporais, utilizados na prtica, podem ser

desde simples e intuitivos at complexos e quantitativos. No primeiro grupo, usa-se pouca
ou nenhuma anlise dos dados, enquanto no segundo pode-se analisar profundamente os
dados, desenvolvendo-se teorias e modelos de comportamentos.
Em economia, h dois tipos de procedimentos para prever uma srie: economtrico e
de sries temporais. O procedimento economtrico fortemente baseado na teoria econmica, utilizando muitas variveis. O segundo a anlise pura da srie, deixando os dados
"falarem por si", sem se preocupar com o contexto e variveis econmicas. Nesse caso,
os modelos no precisam ter nenhuma relao com a teoria econmica, desde que apresentem bons resultados (MORETTIN; TOLOI, 2004).
46
4.1.5
Estacionariedade
Uma das suposies mais importantes para caracterizar uma srie temporal se ela
estacionria, isto , se a srie permanece ao redor de uma mdia constante, refletindo
um equilbrio estvel (MORETTIN; TOLOI, 2004) (NUNES, 2003) (MANTOVANI,
2004). Tratando-se de sries reais, a maior parte delas apresenta alguma forma de noestacionariedade. Por exemplo, as sries econmicas apresentam tendncias, que podem
ser positivas ou negativas. O caso mais simples de tendncia quando a srie flutua
em torno de uma reta, nesse caso tem-se uma tendncia linear. Pode-se ter tambm noestacionaridades explosivas, como o exemplo do crescimento de uma colnia de bactrias.
Na figura 4.1 mostrado um exemplo de uma srie no-estacionria, com uma tendncia
linear crescente ao longo de toda a srie, acrescida de mltiplas sub-tendncias lineares
temporrias.
Figura 4.1: Srie temporal no-estacionria

A maioria dos mtodos de PST trata as sries como estacionrias, por isso normalmente usa-se o mtodo das diferenas sucessivas, at obter-se uma srie estacionria. A
primeira diferena o vetor de diferenas de cada valor da srie original pelo seu valor
anterior e dada por:
Yt = Yt Yt1
(4.1)
Onde:
Yt o valor da srie na posio t
t varia de 2 at o tamanho da srie.
A segunda diferena calculada a partir da primeira diferena, utilizando-se o mesmo
procedimento. Na figura 4.2 mostrada a primeira diferena da srie no-estacionria,
47
da figura 4.1. Pode-se perceber na figura que agora h uma srie estacionria. Na grande
maioria das sries, uma ou duas diferenas so suficientes para obter-se uma srie estacionria(MORETTIN; TOLOI, 2004).
Figura 4.2: Primeira diferena da srie temporal
4.2
Mtodos Lineares de Predio de Sries Temporais
Aqui so apresentados os principais mtodos de predio linear. A maior parte dos

mtodos apresentados relativamente simples e consiste de filtros com combinaes de
mdias simples e ponderadas. Maiores detalhes e comparaes dos mtodos dessa seo
podem ser encontrados em (MORETTIN; TOLOI, 2004) (MORETTIN; TOLOI, 1981) e
(OLIVEIRA, 2002).
4.2.1
Mdias Mveis Simples
A tcnica das Mdias Mveis Simples (MMS) consiste em calcular a mdia aritmtica
das r observaes mais recentes da srie, na forma:
Mt =
Yt +Yt1 + +Ytr+1
r
(4.2)
A estimativa Mt no leva em conta as observaes mais antigas, fazendo a tendncia

variar suavemente com o tempo e esquecendo o passado mais distante. O termo mdias
mveis se deve substituio da observao mais antiga pela mais recente, a cada passo
de tempo. A previso de valores futuros dada pela ltima mdia mvel calculada:
Zt (h) = Mt
(4.3)
48
Onde h o horizonte de previso (quantidade de instantes a frente), ento Zt (h) representa a previso de Z para o instante t + h. Uma boa escolha da quantidade de termos
utilizada na mdia (r) imprescindvel para o bom desempenho da tcnica de MMS. Se
o valor de r for muito grande, a previso acompanhar lentamente as mudanas de parmetros. Se r for muito pequeno, a reao mudana de parmetro ser muito rpida.
Existem dois extremos:
Se r = 1, ento o valor mais recente da srie utilizado como previso de todos os
valores futuros. Esse tipo de predio chamado de "mtodo ingnuo".
Se r igual ao nmero de valores anteriores, a previso ser a mdia aritmtica de
todos os valores observados. Nesse caso, tem-se uma suavizao muito grande, s
utilizada quando a srie altamente aleatria.
Conclui-se que o valor de r proporcional ao tamanho da aleatoriedade da srie. Um
procedimento adequado selecionar um valor de r que d a melhor previso de um passo
das observaes j obtidas. Isso equivale a encontrar um valor que minimize:
n
S=
2
Zt Zt1 (1)
(4.4)
t=`+1
Onde ` escolhido de forma que o valor inicial no influencie a previso.

As principais vantagens das MMS so:
Aplicao simples da tcnica;
Pode-se aplicar mesmo quando se tem um nmero pequeno de observaes;
Permite grande flexibilidade devido variao do parmetro r de acordo com as
caractersticas da srie.
E as desvantagens so:
Utilizao somente na predio de sries estacionrias;
Necessidade de armazenamento de pelo menos r 1 observaes;
Dificuldade em determinar o valor de r.
4.2.2
Alisamento Exponencial Simples
A tcnica de Alisamento Exponencial Simples (AES) representa uma mdia ponderada, que d pesos maiores s observaes mais recentes da srie. A AES descrita por:
Zt = Zt + (1 ) Zt1
Z 0 = Z1
t = 1, , N
(4.5)
Onde Zt chamado de valor exponencialmente alisado e a constante de alisamento, com 0 1. Expandindo a equao de Zt , tem-se:
Zt = Zt + (1 ) Zt1 + (1 )2 Zt2 +
(4.6)
49
Percebe-se na equao, que as observaes mais recentes recebem pesos maiores,

eliminando uma das desvantagens do mtodo de MMS. A previso de todos os valores
futuros dada pelo ltimo valor exponencialmente alisado:
Zt (h) = Zt
(4.7)
Quanto maior o valor de , maior ser a importncia dada s observaes recentes. Se

o valor de for muito pequeno, pesos maiores sero atribudos s observaes passadas
e com isso as flutuaes aleatrias do presente exercero um peso menor no clculo da
predio. O valor de ajustado de acordo com a aleatoriedade da srie; quanto mais
aleatoriedade tiver na srie, menor dever ser o valor de . A variao de anloga
(e inversa) variao do parmetro r no MMS. Uma maneira simples de calcular o valor de anlogo ao descrito no MMS, utilizando a melhor predio a um passo das
observaes j obtidas.
As principais vantagens do AES so:
Fcil entendimento;
Aplicao no dispendiosa;
Grande flexibilidade pela possibilidade de variao da constante de suavizao ;
Necessidade de armazenar apenas Zt , Zt e ;
Como desvantagem do AES tem-se a dificuldade em estimar o parmetro , podendo
ser solucionada pela suavizao exponencial adaptativa (OLIVEIRA, 2002).
4.2.3
Alisamento Exponencial Linear de Brown
As Mdias Mveis Simples e o Alisamento Exponencial Simples so as mais simples

tcnicas de suavizao e so adequadas para estimar o valor de um nico coeficiente em
processos localmente constantes (BROWN, 1963). As tcnicas de alisamento de Brown
aplicam-se tambm modelos que no so localmente constantes. A tcnica de Alisamento Exponencial Linear de Brown (AELB) (BROWN, 1963) consiste em calcular um
segundo valor exponencialmente alisado. A formulao matemtica tem a forma:
Z t = Zt + (1 ) Z t1
Z 1 = Z1
Zt = Zt + (1 ) Zt1
Z 0 = Z1
(4.8)
Supondo que a tendncia seja linear, a previso ser feita da seguinte forma (OLIVEIRA, 2002):
Zt (h) = a1,t + a2,t h
a1,t = 2Zt Z t
(4.9)

a2,t =
Zt Z t
1
Onde a1,t estimativa do intercepto (ponto que cruza o eixo das ordenadas) e a2,t a
estimativa da tendncia (inclinao da reta). Da mesma forma que as tcnicas anteriores,
o tambm pode ser calculado a partir da melhor predio de um passo.
50
4.2.4
Alisamento Exponencial Quadrtico de Brown
O Alisamento Exponencial Quadrtico de Brown (AEQB) (BROWN, 1963) semelhante ao AELB, com a diferena que a tendncia se apresenta de forma quadrtica. Ento
tem-se um terceiro alisamento:
Zt = Zt + (1 ) Zt1
Z t = Zt + (1 ) Z t1
Z t = Z t + (1 ) Z t1
t = 2, , N
(4.10)
A predio feita da seguinte forma:

Zt (h) = a1,t + a2,t h + a3,t h2
a1,t = 3Zt 3Zht + Z t

i
a2,t = 2 (6 5) Zt 2 (5 4) Z t + (4 3) Z t
2(1)

2
Zt 2Z t + Z t
a3,t = 1
(4.11)
A determinao de da mesma forma dos mtodos anteriores. O AEQB tambm

pode ser generalizado para ordens de tendncias maiores.
4.2.5
Modelos de Auto-regresso
Os modelos de Auto-Regresso (AR) supem que os valores da srie sejam linearmente relacionados com seus prprios valores defasados. Um modelo auto-regressivo de
ordem k ser chamado de AR(k) e pode ser descrito por:
Zt = w1 Zt1 + w2 Zt2 + + wk Ztk + et
t = 1, 2, , N
(4.12)
Onde:
w so os pesos atribudos a cada uma das observaes passadas;
et o rudo no tempo t;
Zt1 , , Ztk so os valores anteriores da srie utilizados na regresso.
Para que o modelo possa ser aplicado so necessrias as seguintes suposies (MORETTIN; TOLOI, 2004):
et tem mdia zero e varincia e2 ;
Zt , , Ztk so vistos como seqncias de constantes;
As razes do polinmio abaixo so em mdulo menores que um, garantindo a estabilidade do modelo:
k
xk + w j xk j
j=1
(4.13)
51
As estimativas dos pesos w so feitas de acordo com os mnimos quadrados dos erros,
ento tem-se:
n
et2 =
(Zt (w1 Zt1 + w2 Zt2 + + wk Ztk ))2
t=k+1
(4.14)
t=k+1
Para calcular os pesos, (MORETTIN; TOLOI, 2004) apresenta o operador auto-regressivo

estacionrio de ordem k:
w (B) = 1 w1 B w2 B2 wk Bk
(4.15)
Onde B um operador de translao para o passado, definido por:

BZt = Zt1 , Bm Zt = Ztm
(4.16)
Aps estimar-se os coeficientes w adequados, a previso pode ser feita por:

Zt (h) = w 1 Zt+h1 + w 2 Zt+h2 + + w k Zt+hk
4.2.6
(4.17)
Modelos ARIMA
O principal exemplo de mtodos lineares so os modelos ARIMA (Autoregressive

Integrated Moving Averages ou modelos Auto-regressivos Integrados de Mdias Mveis) (BOX; JENKINS; REINSEL, 1994) (MORETTIN; TOLOI, 2004) (MANTOVANI,
2004). Os modelos ARIMA so uma combinao de trs componentes, interpretados
como filtros: o componente auto-regressivo, o componente de mdias mveis e o filtro de
integrao. Nem sempre sero necessrias essas trs caractersticas, podendo haver uma
combinao dessas componentes.
O preditor ARIMA pode ser configurado para realizar previses de acordo com trs
casos de modelos de sries temporais: processos lineares estacionrios (PLE), processos
lineares no-estacionrios homogneos (PLNEH) e processos de memria longa (PML).
PLE a classe geral, os outros dois casos so ajustados para essa classe. Os PLNEH so
uma especializao dos PLE, supondo que o mecanismo gerador da srie produz erros
auto-correlacionados e que a no-estacionariedade seja apenas em nvel ou em inclinao
(desse caso excluem-se as no-estacionariedades explosivas). Essas sries podem gerar
sries lineares com o mtodo das diferenas (geralmente primeira ou no mximo segunda
diferena), como mostrado na seo sobre estacionariedade. Os PML so processos estacionrios, mas que possuem uma funo de autocorrelao com decaimento muito lento,
necessitando de uma diferena fracionria para tornar-se "puramente estacionria". Essa
diferena varia entre 0 e 0, 5, necessitando do uso do modelo ARIMA com todas as componentes, com ordens p, d e q: ARIMA(p, d, q). Onde:
p a ordem dos modelos auto-regressivos (AR(p));
q a ordem dos processos de mdias mveis (MA(q));
d a ordem de no-estacionariedade do modelo.
O modelo geral ARIMA para descrever sries temporais dado por:
(B) Zt = w (B) (1 B)d Zt = 0 + (B) at
(4.18)
52
O termo w (B), chamado operador auto-regressivo, assumido como estacionrio e

representado por:
(4.19)
w (B) = 1 w1 B w2 B2 w p B p
O termo w (B) (1 B)d torna-se um operador no-estacionrio e chamado de operador auto-regressivo generalizado. O operador de mdias mveis (B), que somado ao
termo constante 0 , represesentado por:
(B) = 1 1 B 2 B2 q Bq
(4.20)
Como descrito inicialmente, pode-se ter submodelos do ARIMA. Alm de AR(p) e

MA(q) tem-se os processos autoregressivos e de mdias mveis de ordem p e q (ARMA(p, q)).
O modelo ARIMA passa por um ciclo iterativo para sua construo, no qual a escolha
da estrutura do modelo baseada nos prprios dados, descobrindo-se quais partes do
ARIMA so necessrias e quais parmetros sero usados. Os estgios desse ciclo so:
1. Especificao de uma classe geral de modelos para anlise;
2. Identificao de um modelo, com base na anlise de autocorrelaes, autocorrelaes parciais e outros critrios;
3. Estimao dos parmetros do modelo identificado;
4. Validao do modelo ajustado, atravs de uma anlise de resduos, para saber se ele
adequado para os objetivos (predio).
No passo 4 do ciclo, caso descubra-se que o modelo no adequado, o ciclo repetido, voltando para a fase de identificao. Pode-se identificar vrios modelos, e depois
escolher o melhor. Se o objetivo a predio, ser escolhido o modelo que oferecer o
menor erro mdio quadrado (MSE) de previso.
Geralmente os modelos ARIMA contm um nmero pequeno de parmetros e as predies so bastante precisas. Uma dificuldade da aplicao do mtodo que ele requer
experincia e algum conhecimento alm do uso automtico do algoritmo (MORETTIN;
TOLOI, 2004). Em (MORETTIN; TOLOI, 1981) mostrada uma comparao dos modelos ARIMA com outros mtodos de predio, como AES e AR, em vrias sries temporais
reais. Os modelos ARIMA apresentaram os melhores resultados, seguidos da tcnica de
auto-regresso. O AES mostrou-se menos preciso, uma vez que este mais adequado
a sries localmente constantes e as sries testadas apresentavam tendncias ou sazonalidade. A AR mostrou-se adequada apenas s sries com grande quantidade de amostras.
Em sries estacionrias o AES pode ter resultados melhores que o ARIMA, como mostrado em um exemplo de (OLIVEIRA, 2002).
4.3
Predio de Sries Temporais com Redes Neurais
Os modelos convencionais (estatsticos lineares) necessitam que um conjunto bem

definido de parmetros seja conhecido a priori. Porm, em boa parte das situaes reais,
essas caractersticas no so conhecidas inicialmente. As redes neurais (RN) possuem
bastante vantagens nesse quesito, pela sua grande adaptabilidade, conseguindo extrapolar
padres a partir dos dados existentes. As RNs tambm adaptam o seu comportamento a
medida que novos dados so introduzidos, sem a necessidade de alterar a sua estrutura
(CORTEZ, 1997).
53
As tcnicas convencionais tambm consistem em procurar dentro de um conjunto limitado de modelos, aqueles que melhor representam os processos geradores das sries.
Cada anlise representa assumir uma estrutura para os dados, modelo e parmetros, testando a validade dessa estrutura repetidas vezes, uma tarefa muito custosa e s vezes
invivel. As RNs apresentam grandes vantagens pois aprendem os padres subjacentes
nos dados, apresentando resultados muito melhores que os mtodos estatsticos tradicionais quando o processo regente dos dados desconhecido, no-linear ou no-estacionrio
(CASTRO, 2001).
A prpria estrutura das sries temporais beneficia o uso de redes neurais. Nas formas
mais clssicas de representao, o clculo do prximo instante de uma srie temporal
descrita por:
T
y (k) =
a (n)y (k n) + e (k) = y (k) + e (k)
(4.21)
n=1
Onde:
y (k) o valor atual a ser calculado;
T o nmero de termos anteriores que so considerados no clculo do valor atual;
y (k n) representa cada um dos T valores anteriores da srie;
a (n) o peso dado a cada observao passada;
e (k) o erro do clculo.
O erro assumido ser rudo branco, pelos construtores das tcnicas de regresso linear.
O artigo de (WAN, 1994) indica a existncia de uma no-linearidade na definio acima,
com um mapeamento diferencial em relao a cada um dos termos anteriores. A autoregresso no-linear fica na forma y (k) = g [y (k 1) , y (k 2) , ..., y (k T )] e modela a
srie exatamente, assumindo que a mesma no tenha rudo. A indicao de caractersticas no-lineares nas sries temporais motiva o uso de redes neurais. A rede aproxima
a funo ideal g (). Uma rede MLP (Multi camadas) alimentada adiante, com um nmero suficiente de neurnios, capaz de aproximar uma funo uniformemente contnua
(CYBENKO, 1989) (HAYKIN, 2001a).
A maior parte das RNs utilizadas na rea de sries temporais do tipo alimentada
adiante ou feedforward, com algoritmos derivados do backpropagation. Existem muitas
aplicaes de redes desse tipo em mercados financeiros, mostrando bons resultados, inclusive melhores que o modelo ARIMA. (CORTEZ, 1997) comenta sobre experimentos
em que as RNs obtm melhores resultados que os mtodos lineares, em especial em predies de mais longo prazo. O trabalho comenta que as redes alimentadas adiante, com
conexes de atalho conseguem funcionar como um super conjunto de modelos ARIMA,
pois combinam componentes lineares (gerados pelas conexes de atalho) e no-lineares
(proporcionados pelas camadas intermedirias). O bom desempenho das RNs depende da
estrutura da rede, dos parmetros utilizados e da natureza da srie temporal.
4.3.1
Histrico de PST com RN
A utilizao de redes neurais na PST tornou-se mais intensa no incio dos anos oitenta,
tendo como principal objetivo completar a lacuna deixada pelos mtodos estatsticos convencionais quanto a sries no-lineares. As primeiras aplicaes foram no mercado financeiro, onde comprovadamente os mtodos de alisamento eram incapazes de prever
54
rpidas e pequenas flutuaes nos valores dos ndices. As primeiras aplicaes de RNs
para prever valores de aes frustaram as grandiosas expectativas existentes, mas aos poucos foram sendo descobertas circunstncias e metodologias que fizeram as redes surgirem
como boas alternativas tambm para esse tipo de aplicao (CORTEZ, 1997).
O interesse de pesquisadores de redes neurais para predio de sries temporais
ainda mais antigo. Em 1964, Ho aplicou uma rede linear adaptativa em estudos de
previso climtica. Mais tarde, em 1987, Lapedes e Farber aplicaram uma rede neural
no-linear para descobrir a relao entre pontos sucessivos de sries temporais geradas
computacionalmente (CASTRO, 2001).
4.3.2
Concursos de PST
Surgiu no Santa F Institute (localizado em New Mexico, USA), em 1990, a idia de

realizao de uma competio para comparao de desempenhos de mtodos para PST.
A motivao para a competio foi a dificuldade em encontrar literatura consistente, das
diversas reas do conhecimento envolvidas na PST (CASTRO, 2001). Mesmo sendo
uma iniciativa aparentemente pouco cientfica, a idia foi bem aceita pela comunidade
cientfica e realizou-se o concurso, patrocinado pelo Santa F Institute. A competio
contou com um grupo de consultores das diversas reas de conhecimento envolvidas na
PST, como economia, fsica, biologia, astrofsica, estatstica e sistemas dinmicos. O
objetivo era organizar a discusso de tpicos importantes de PST, difundir novas tcnicas
e criar padres de comparao para tcnicas no futuro. Em 1992 aconteceu um encontro
para apresentar os resultados do concurso, chamado NATO Advanced Research Workshop.
O maior interesse dos mtodos apresentados foi na PST, baseada principalmente em
modelos no-lineares. O grande destaque do concurso foram os mtodos conexionistas
(baseados em redes neurais), com maior nmero de participantes e as melhores predies.
(WAN, 1994) tambm comenta o sucesso das RN no concurso, onde estas foram imparcialmente contrastadas com uma variedade de outros mtodos, e justifica o uso de RNs
para prever sries temporais.
4.4
Concluses do Captulo
Os modelos de Box e Jenkins (ARIMA) tiveram frutferas aplicaes nas reas sociais, econmicas, engenharias, comrcio internacional, etc. A grande vantagem desse
mtodo est em previses para curtos espaos de tempo. Os modelos ARIMA so muito
tradicionais e existem muitos estudos mostrando suas vantagens (principalmente comparando com outros mtodos estatsticos mais simples). Existem casos que as tcnicas
simples como MMS e AES so indicadas, como sries estacionrias. A utilizao de um
modelo em detrimento de outro depende muito da aplicao em questo e tambm da rea
de origem dos participantes do projeto.
As redes neurais foram inicialmente pouco valorizadas, situao que foi sendo amenizada devido ao seu grande sucesso em competies para avaliao de desempenho de
mtodos de PST. Mesmo com resultados favorveis das RN, grande parte da literatura
ainda sub-valoriza esses mtodos nas comparaes, devido ao fato de as RN serem pouco
"explicveis" e de que boa parte dos pesquisadores preferem mtodos com extensa teoria sobre seu funcionamento, em detrimento da obteno de melhores resultados. Redes
neurais possuem grandes vantagens em dados de situaes reais, onde o comportamento
do processo desconhecido. As vantagens das RNs so a sua adaptabilidade a modelos desconhecidos, a sries no-estacionrias e com grandes no-linearidades. Uma RN
55
modela as no-linearidades da srie, comparando-se a mltiplos modelos ARIMA juntos,

devido presena de componentes lineares e no-lineares e adaptao aos processos, sem
necessidade de construo e validao de inmeros modelos.
56
TRABALHOS CORRELACIONADOS
Este captulo de trabalhos correlacionados trata principalmente das abordagens hbridas, em que uma rede neural utilizada conjuntamente com um Filtro de Kalman (FKE
ou outra variante). O treinamento de RNs com FK tambm abordado, bem como o uso
de redes para ajustar parmetros do filtro. Ao final, compara-se o presente trabalho com
os demais trabalhos correlacionados.
5.1
Extenso do Filtro de Kalman com uma Rede Neural
Esta seo trata dos trabalhos em que realmente ocorre uma hibridizao entre a rede
neural e o Filtro de Kalman (normalmente o FKE). A RN utilizada como uma extenso
do filtro, tentando prever o erro deste para melhorar os resultados.
5.1.1
Primeiros Trabalhos com RN Prevendo o Erro do FKE
O artigo de (VEPA, 1993) lana as idias de uma abordagem hbrida, com uma rede
neural estimando o erro de um Filtro de Kalman Estendido. A aplicao em estimao
da posio de veculos, que um problema com muitas particularidades. A soluo popular baseada na estimao do quatrnio, elemento de um conjunto que representa um
corpo exceto pela propriedade da multiplicao, representado pela soma a + bi + c j + dk,
onde a, b, c e d so nmeros reais. Essa estimativa feita com um FKE. Porm, a predio com FKE somente adequada se a incerteza do sensor de posio puder ser modelada
de maneira muito prxima a um rudo branco ou rudo colorido. Em muitos casos no
possvel modelar dessa maneira.
O trabalho de (VEPA, 1993) utiliza uma abordagem hbrida com um modelo particular
para estimativa de posio. Alm do aprendizado dos pesos, essa abordagem cooperativa
tambm adapta as macro estruturas da RN. A RN acaba sendo moldada em funo do
FKE. A justificativa para utilizao da RN na forma hbrida que o FKE isoladamente
necessita que o modelo no-linear seja diferenciado com a estatstica totalmente conhecida a priori. A arquitetura da RN tambm hbrida. A primeira camada uma rede
retropropagada e a segunda camada propagada adiante. A primeira camada visa representar o estado interno do observador e a segunda, o estado das relaes de sada.
A modelagem hbrida apresenta o seguinte formato, seguindo a estrutura do FKE. A
etapa de previso idntica ao FKE. A etapa de atualizao dividida em dois estgios:
o primeiro estgio idntico atualizao do FKE; o segundo baseia-se numa melhora
da estimativa com uma RN dinmica. Resumindo, esse modelo um FKE com uma RN
para melhorar seus resultados, tentando prever os erros do filtro. A estimativa de prximo
57
estado dada por (seguindo a notao original do artigo):

x (k + 1|k + 1) = x (k + 1|k) + K (k + 1) r (k + 1) + F [r (k + 1) , x (k + 1|k) , w (k + 1)]
(5.1)
Onde x (k + 1|k) a estimativa das quatro posies do vetor quatrnio; x (k + 1|k + 1)
a estimativa corrigida para o vetor; r (k + 1) a medida de erro no instante k (inovao);
K (k + 1) Ganho de Kalman, baseado no FKE; F [] a estimativa corrigida, obtida pela
rede neural e w (k + 1) o vetor de pesos usado na RN.
O artigo de Vepa no comenta sobre o treinamento da RN e demais detalhes da ligao
da RN com o FKE. O autor comenta o sucesso da aplicao da tcnica apenas quando o
FKE apresenta moderados erros de estimao. Mesmo de forma suscinta, esse artigo lana
idias que sero melhoradas posteriormente no Neural Extended Kalman Filter, descrito
a seguir.
5.1.2
Neural Extended Kalman Filter
O Neural Extended Kalman Filter (NEKF) um modelo que utiliza uma RN para
prever o erro de um FKE, de maneira on-line, com a RN sendo treinada por outro FKE. O
artigo inicial de (STUBBERUD; LOBBIA; OWEN, 1995) mostra um neuro-observador,
que um FKE que tem a atualizao de estados melhorada por uma RN.
Sabe-se que necessrio para o FKE o conhecimento a priori de toda a estrutura
do modelo estatstico, para fazer a estimativa dos estados e clculo das jacobianas. Em
grande parte dos casos reais o modelo parcialmente ou totalmente desconhecido. O
NEKF trata de sistemas parcialmente conhecidos (com funo original f ), com uma funo f que aproxima o sistema real. A diferena entre o sistema real e a aproximao ter
um erro representado por:
(5.2)
k = fk (xk , uk ) fk (xk , uk )
O NEKF utiliza uma RN para estimar o erro (k ), que a diferena entre o verdadeiro modelo e aquele encontrado pela implementao padro do FKE. A RN pode ser
multi-camadas alimentada adiante, representada por gk (xk , uk , wk ), onde wk so os pesos
passados para a rede. Ento a equao de estado resultante ser:
xk+1 = fk (xk , uk ) + gk (xk , uk , wk )
(5.3)
Para calcular a covarincia do erro, tambm acrescenta-se a estimativa do erro, feita

pela RN. A matriz de covarincia segue o formato padro do FKE, sendo acrescida da
jacobiana da sada da RN em funo do estado. A arquitetura da RN utilizada no artigo
(STUBBERUD; LOBBIA; OWEN, 1995) foi uma rede padro multi-camadas retropropagada. No experimento do artigo utilizou-se 3 camadas. O experimento mostrado consiste
na comparao do FKE com o neuro-observador em um sistema altamente no-linear. As
equaes do sistema original so:

x2 (k)
x1

2
(k + 1) =
(5.4)
x2
2 0.5 e(x1 (k)+x2 (k)+u(k))
z (k) = x2 (k)
(5.5)
A parte modelada do neuro-observador (composta pelo FKE) baseada no modelo de

equaes de referncia abaixo. Essas equaes representam a parte conhecida do sistema.

0
1
0
x (k + 1) = 3
(5.6)
1 x (k) + 1 r (k)
32
4
4
58
z (k) =

0 1 x (k)
(5.7)
Comparou-se o neuro-observador com o FKE, aplicados no sistema de equaes acima.

Na figura 5.1 mostrado o comportamento do previsor apenas com a utilizao do FKE.
Na figura 5.2 mostrado o comportamento do neuro-observador, formado pelo FKE e pela
RN. Pode-se observar um grande acrscimo no desempenho, com a utilizao da RN. O
custo computacional do modelo inicial do neuro-observador discutido em (STUBBERUD; OWEN, 1998). Uma nova verso do neuro-observador proposta nesse artigo para
diminuir o custo e viabilizar o treinamento on-line, sendo utilizadas RN mais simples,
com menos neurnios.
Figura 5.1: Previso do sistema no-linear sem o Neuro-observador
Figura 5.2: Previso do sistema no-linear com o Neuro-observador

5.1.3
Usos do NEKF
As principais aplicaes do NEKF so o acompanhamento de trajetrias de alvos,

clculo de distncias de msseis, rastreamento de projteis, etc. O NEKF empregado
nesses tipos de problemas devido aos seus objetivos iniciais e sua estrutura, pois todo o
projeto foi financiado por organizaes militares dos Estados Unidos.
59
5.1.3.1
Perseguio de Alvos
A perseguio de alvos e a interceptao (mostrada na subseo seguinte) so semelhantes, sendo que para a interceptao necessrio perseguir (rastrear) o alvo. Os
dois tipos de usos so mostrados separadamente pelo enfoque mais abrangente dado pela
perseguio de alvos e pela utilizao conjunta com a tcnica de Interao com Mltiplos Modelos (IMM). O uso de NEKF com IMM na perseguio de alvos descrito por
(OWEN; STUBBERUD, 1999) e (OWEN; STUBBERUD, 2003).
A tcnica de IMM proporciona uma estrutura flexvel e adaptativa para estimao de
estados. A estrutura formada por N modelos (podendo cada modelo ser um FKE ou
um NEKF, por exemplo) rodando em paralelo. Cada modelo pode conter um diferente
sistema de equaes de transio de estados, modelo de observao (medidas), dimenso
do vetor de estados e tipo de rudo de processo. Combinando o NEKF com IMM, os
autores projetam um estimador muito robusto. O NEKF IMM, descrito em (OWEN;
STUBBERUD, 2003), utiliza 3 modelos: dois deles utilizam velocidade constante, com
baixo e alto rudo, respectivamente; o terceiro modelo o NEKF. O NEKF IMM combina
a robustez e intercmbio entre modelos (do IMM) com a capacidade de aprendizado online de manobras do NEKF.
Figura 5.3: Acompanhamento da trajetria do alvo: (a) com o mtodo da "linha reta" (b)
com o mtodo NEKF IMM
Um dos experimentos para validao do NEKF mostrado em (OWEN; STUBBERUD, 1999), que a perseguio do alvo em uma manobra num espao bidimensional.
A figura 5.3(a) mostra a predio com o "modelo da linha reta", que calcula a prxima
posio com base na direo anterior. Na figura os crculos representam as medidas (com
rudo) e os xs representam as estimativas. Pode-se perceber que o acompanhamento da
manobra retardado. Na figura 5.3(b) so mostrados os resultados de predio do NEKF
IMM para a mesma manobra. Como pode-se ver na figura, ocorre uma significativa melhora na perseguio.
O artigo (OWEN; STUBBERUD, 2003) mostra os resultados do NEKF IMM em uma
srie de benchmarks de perseguio de alvos que se deslocam em trs dimenses (areos).
Os resultados mostram bons resultados para problemas difceis, atestando a eficincia
dessas tcnicas (NEKF e NEKF IMM) para problemas de rastreamento on-line.
60
5.1.3.2
Interceptao de Alvos
A aplicao do NEKF para interceptao de alvos descrita por (STUBBERUD;

KRAMER, 2005). A interceptao de alvos muito utilizada na robtica, sistemas espaciais e para msseis de defesa. Alguns sinais do alvo so utilizados, como posio, ngulo
e velocidade. Esses sinais so fornecidos por um modelo de trajetria. Geralmente o
verdadeiro modelo desconhecido e o sistema de interceptao dispe apenas de rastros
do alvo, fornecido por sensores. Como esses rastros (informaes do alvo) so muito ruidosos, o sistema deve dispor de um modelo de movimento do alvo. Se uma manobra no
for corretamente identificada, o desempenho do rastreamento ser muito prejudicado. O
NEKF visa fornecer esse modelo.
Figura 5.4: Sistema de controle para a interceptao de alvos com o NEKF
O sistema interceptador mostrado na figura 5.4. O sistema recebe a estimativa de

predio do alvo, calcula o ajuste (Gain), passa para o controlador (NEKF), que determina a posio e velocidade do alvo. O NEKF calcula a posio e velocidade com a
maior preciso possvel, pois so informaes fundamentais para que o alvo possa ser
interceptado.
Figura 5.5: Modelo do Neural Extended Kalman Filter

O NEKF tanto o preditor do estado como o treinador da RN, sendo que ambas tarefas
utilizam a mesma informao de medida. O NEKF faz essa estimativa com a RN atuando
como controle. O modelo do NEKF, utilizado em (STUBBERUD; KRAMER, 2005)
mostrado na figura 5.5. Pode-se observar na figura, que o mesmo erro utilizado para
melhorar o estado tambm usado para treinar a RN. Os resultados do artigo mostram que
o NEKF melhora as estimativas de estado na presena de erros de modelagem, obtendo
resultados muito melhores que o FKE padro na localizao do alvo.
61
5.1.3.3
Balstica
A aplicao do NEKF em balstica (KRAMER; STUBBERUD, 2005) visa a predio

da trajetria e posio de um projtil ao longo do tempo, com isso calculando o instante
e a posio de sua queda. A figura 5.6 mostra uma trajetria balstica, a linha contnua
representa a trajetria balstica normal e a linha tracejada representa a trajetria modificada por drags (interferncias). Existe uma srie de fatores que incorporam-se ao modelo,
fazendo com que a funo f conhecida no seja a mesma do sistema real. Esses fatores
podem ser a presso do ar, ventos ou o choque com algum objeto.
Figura 5.6: Trajetria balstica, com e sem desvios

O modelo que forma a trajetria real do projtil um composto do modelo da trajetria balstica (funo f do Filtro de Kalman) e de outro modelo adicional, desconhecido
a priori (rede neural). Esse tipo de modelo possui uma funo conhecida a priori que
sofrer variaes, em que o NEKF aplicado. O NEKF possui uma aplicabilidade muito
maior que o FKE (por causa da rede neural), podendo ser aplicado tambm a modelos
parcialmente conhecidos e no somente a modelos totalmente conhecidos.
Na predio da trajetria balstica, inicialmente o NEKF possui apenas a funo a priori (trajetria balstica normal). Posteriormente, o NEKF vai utilizando a funo melhorada pela RN, que vai aprendendo on-line. O NEKF utiliza a tcnica de linearizao pelas
jacobianas, referida como linearizao de "sinal pequeno" por (KRAMER; STUBBERUD, 2005). Os prprios autores comentam que, em dinmicas altamente no-lineares, o
erro pode crescer significativamente pelo desvio do estado do "ponto de linearizao".
A figura 5.7 mostra os resultados da predio do local de queda do projtil. Como
poderia-se imaginar, as predies realizadas no incio da trajetria foram menos precisas
que as realizadas mais na parte final. Porm, mesmo as predies iniciais tiveram erro
pequeno, em torno de 15% do valor final, considerado pelos autores um bom grau de
confiana.
5.1.4
Verso do NEKF com Unscented Kalman Filter
O artigo (ZHAN; WAN, 2006) apresenta a proposta de um mtodo baseado no NEKF,

mas com a substituio do FKE pelo Uscented Kalman Filter (UKF). O UKF utilizado
62
Figura 5.7: Estimativas de posio de queda do projtil, ao longo da trajetria
simultaneamente para predio dos estados e para treinamento da RN. As razes para a
tentativa com o UKF que o FKE, mesmo sendo simples e diretamente propagado, possui
algumas desvantagens (no controle on-line de sistemas no-lineares): instabilidade na
linearizao; custo de clculo das matrizes jacobianas; natureza parcial das estimativas. A
principal vantagem do UKF que no necessrio nenhuma linearizao para calcular a
predio de estados e covarincias. Por isso, sua covarincia e Ganho de Kalman tendem
a ser mais precisos, levando a melhores estimativas de estados.
A justificativa bsica para a utilizao do Unscented Kalman Filter que mais fcil
aproximar uma distribuio gaussiana que aproximar uma funo no-linear arbitrria.
Em vez de fazer linearizao utilizando matrizes jacobianas, o UKF usa uma abordagem
amostral determinstica para capturar as estimativas de mdia e varincia com um conjunto mnimo de pontos de amostra (LAVIOLA, 2003). A transformada unscented um
mtodo para calcular a estatstica de variveis aleatrias e utiliza uma transformao nolinear. Essa transformada usa um conjunto de pontos sigma que une propriedades fixas
da distribuio anterior e permite a propagao direta da mdia e covarincia atravs do
sistema de equaes no-lineares (GUANG-FU; XUE-YUAN, 2005), sem a necessidade
de calcular a matriz jacobiana.
Para comparao entre o NEKF e a sua variao que Utiliza o UKF (chamado no
artigo de NN-UKF), uma das funes utilizadas para aproximao foi:
2
y=
1 + exp
1
1+exp(0.10.5x)
1
1+exp(0.5+0.4x)
+ 0.5 sin (0.5x) + 0.5
x
1 + x2
(5.8)
A tabela 5.1 mostra a comparao de erro e varincia de erro entre os mtodos. O

"NN-UKF" mostra-se superior ao NEKF nas comparaes. Tambm comentado no
artigo (ZHAN; WAN, 2006) que a participao da RN maior na predio do sistema do
que o seu respectivo FKE ou UKF, particularmente na presena de incertezas.
63
Tabela 5.1: Comparao do NEKF com o NN-UKF
5.1.5
Algoritmos
MSE mdio
Varincia do MSE
FKE
UKF
NEKF
NN-UKF
0,3584
0,2661
0,1380
0,0769
0,01295
0,00925
0,00696
0,00176
Estimao No-linear com Unscented Kalman Filter e Redes Neurais
Um modelo hbrido de rede neural com Filtro de Kalman para predio de sries
temporais ruidosas proposto por (WAN; MERVE, 2000). A RN serve como funo de
estimao de estados do Unscented Kalman Filter. A srie temporal sem rudo definida
no artigo por:
(5.9)
xk = f (xk1 , , xkM , w) + vk
Onde o modelo f , parametrizado por w, aproximado pelo treinamento de uma rede
neural com os dados limpos (sem rudo). O erro da RN (vk ) considerado o rudo de
processo. Adiciona-se rudo gaussiano branco na srie original para gerar a srie ruidosa
yk = xk + nk . O correspondente modelo de espao de estados dado por:
xk
xk
xk1
..
.
xkM+1
F (xk1 , w)
+ B vk1
F (xk1 , , xkM
1
, w)
1 0 0 0
xk1
.
..
. vk1
..
0 . . . 0 ..

.
0 0 1 0
xkM+1
0

yk = 1 0 0 .xk + nk
=
(5.10)
(5.11)
O trabalho apresenta a predio da srie catica de Mackey-Glass ruidosa com parmetro de ciclo 30, mostrada na figura 5.8. Compara-se os algoritmos FKE e UKF, ambos
com a rede neural como funo de transio de estados. Essa comprarao mostrada na
figura 5.8. O UKF apresenta resultados bem melhores que o FKE para esse experimento.
O trabalho apresenta a colocao da RN como funo "pura" do FKE e do UKF,
sendo treinada com dados no-ruidosos (srie ideal). Para aplicaes reais, a srie no
ruidosa no est disponvel, pois o que se pretende prever. O principal enfoque do
trabalho (WAN; MERVE, 2000) e do trabalho anterior (WAN; MERVE; NELSON, 2000)
a comparao de treinamento de redes neurais com UKF e FKE.
5.2
Ajuste de Parmetros do Filtro de Kalman com Redes Neurais
O desempenho timo do Filtro de Kalman s se d com o ajuste timo de parmetros.

O ajuste considerado o processo de obteno de melhores valores dos parmetros, como
as matrizes de covarincia de rudo Q e R, dando melhor desempenho ao filtro no sentido
de diminuir o erro. Tradicionalmente o ajuste de parmetros feito por intuio tcnica
ou tentativa e erro, o que no garante o melhor desempenho para o filtro, devido ao grande
nmero de parmetros a ser estimado (KORNIYENKO; SHARAWI; ALOI, 2005).
O primeiro dos exemplos de ajuste de parmetros de um FK por uma RN descrito
em (FISHER; RAUCH, 1994). O artigo mostra um FKE com uma RN para estimar os
seus parmetros e condies iniciais. Tem-se vrias situaes de modelos de sistemas
64
Figura 5.8: Estimao da srie de Mackey-Glass com a RN como funo do FKE e do

UKF
em que vrias abordagens so utilizadas. Quando o modelo conhecido, pode-se utilizar
um FK linear. Quando existem pequenas no-linearidades o FKE funciona satisfatoriamente. Porm, quando existem grandes linearidades com parmetros e condies iniciais
desconhecidas, necessria a utilizao de mltiplos FKE. Cada FKE possui diferentes
condies iniciais e parmetros. Uma RN pode cumprir esse papel de mltiplos FKE.
A RN utilizada no artigo foi a Rede Neural de Regresso Geral (GRNN). As sadas
do FKE so passadas para um estado posterior e ento comparadas com os dados prcalculados pela GRNN. Essa base de dados pr-calculada consiste dos dados de vrias
execues off-line do FKE com grande variedade de condies iniciais e parmetros. A
rede GRNN encontra os melhores mapeamentos da sada do FKE para os devidos valores
das condies iniciais. Os valores corrigidos so utilizados para atualizar as condies e
parmetros do filtro. O exemplo apresentado no artigo relata a deteco de trajetria por
um interceptador de msseis. Mesmo que o alvo saia fora de alcance (no fique visvel)
continua-se o rastreamento, com as informaes existentes enquanto o alvo estava visvel.
O artigo de (KORNIYENKO; SHARAWI; ALOI, 2005) trata do uso de RNs para
estimar a melhor configurao de parmetros para um Filtro de Kalman, onde as RNs
utilizam bases de dados de execues do filtro. O artigo mostra critrios de otimizao
global para a escolha de quais dados so passados para a RN. Forma-se uma base de dados
com as combinaes de parmetros e seus respectivos valores de otimizao (ou minimizao, no caso do MSE). Escolhe-se valores de parmetros dentro das faixas aceitveis de
cada parmetro.
Nesse artigo, comparou-se uma rede GRNN com uma rede RBNN (Regular Radial
Basis Neural Network ou RN de base radial). A rede RBNN apresentou melhores resultados que a GRNN. Como o experimento visava a estimao de 2 parmetros (Q e R),
escolheu-se 9 experimentos rotulados para a RN interpolar. A RN constri a superfcie de
deciso dos melhores valores de parmetros, como mostrado na figura 5.9. No exemplo,
65
a rede RBNN estima a otimizao dos parmetros (quadradinho, na figura) de maneira

muito prxima aos verdadeiros parmetros timos (tringulo).
Figura 5.9: Superfcie de deciso da otimizao dos parmetros com rede RBNN
5.3
Treinamento de Redes Neurais com Filtro de Kalman Estendido

e suas Variantes
O funcionamento do FK voltado a estimar o estado de um sistema que pode ser

modelado como um sistema linear com rudo gaussiano branco e onde as medidas disponveis so combinaes lineares dos estados do sistema corrompidas pelo rudo. Para
o treinamento neural, os pesos da RN so os estados do FK a serem estimados e a sadas desejadas da rede so as medidas utilizadas pelo FK, conforme as equaes abaixo
(SHUHUI, 2001):
(5.12)
w (n + 1) = w (n) + q (n)
d (n) = h (w (n) , x (n)) + r (n)
(5.13)
Onde, em um instante n:
w (n) um vetor com todos os pesos da rede;
x (n) o vetor de entrada da rede, do conjunto de treinamento;
d (n) o correspondente vetor de sada desejado para x(n);
h (n) define um relacionamento no-linear entre as entradas, sadas e pesos da RN;
q (n) o rudo de processo no modelo do sistema;
66
r (n) o rudo de medida.

O artigo de (TAKENGA et al., 2004) trata da comparao do Gradiente Descendente
(GD), do FKE e do FKE Desacoplado (FKED) para treinamento de Redes Neurais. A RN
utilizada a Rede de Funo de Base Radial (RBF) e a aplicao descrita a deteco de
posio, baseada em sinais digitais. Sabe-se que os algoritmos de treinamento tm papel
decisivo no desempenho das RNs. Os algoritmos mais utilizados so aqueles baseados
em gradiente, porm descobriu-se que mtodos baseados em Filtro de Kalman tambm
podem ser utilizados.
Para sistemas lineares dinmicos com rudo branco, um FK considerado um estimador timo. Para sistemas no-lineares com rudo colorido, o FK pode ser estendido
por linearizao do sistema em torno das estimativas dos parmetros atuais. Embora com
custo computacional bem menor que o gradiente descendente, o FKE tambm custoso,
tornando ainda proibitivo o seu uso em grandes redes neurais. Com isso, encontraram-se
variantes para diminuir o seu custo. O FKE Disjunto uma forma derivada do FKE em
que se assume que os pesos entre muitas estimativas podem ser ignorados, necessitando
de uma menor quantidade de operaes por iterao.
No experimento mostrado, a posio do sistema mvel automaticamente encontrada, conhecendo-se o tamanho do sinal de um ponto. Os sinais so gerados a partir
da segmentao de uma distncia de 450 metros em 15 segmentos com 10 pontos cada.
O treinamento feito com a emisso de sinais em todos esses pontos. Os experimentos
mostram que os treinamentos baseados em FK (FKE e FKED) apresentaram menor taxa
mdia de erro, de 40 metros. O GD apresentou erro mdio de 65 metros. Essa diferena
de preciso diminui se o nmero de neurnios na camada oculta for aumentado.
Os mtodos FKE e FKED possuem a mesma preciso, pois os dois so baseados no
Filtro de Kalman. O FKED prefervel porque consome menos tempo de treinamento. No
exemplo do artigo, o FKE consome 12 minutos e o FKED, 8 minutos. Essa diferena se
deve s iteraes mais rpidas do FKED. O nmero de iteraes praticamente o mesmo,
como podemos ver na figura 5.10. Na figura, EKF significa FKE e DKF, FKED. Tambm podemos perceber na figura 5.10 que os mtodos baseados na filtragem de Kalman
convergem em menos iteraes, se comparados ao GD.
O artigo de (SHUHUI, 2001) compara o Backpropagation (BP) com o FKE, testando
os algoritmos em sua forma tradicional e na forma de lote. Para uma rede multi-camadas
no-linear, o usual FK pode ser usado apenas se o sistema anteriormente linearizado,
assim como faz o FKE. Normalmente no treinamento utilizando FKE, a atualizao feita
instncia por instncia. Outra forma fazer o treinamento em lote. Nesse caso, os dados
so apresentados um a um, mas com uma nica atualizao dos pesos no final do lote. O
exemplo apresentado o uso de RN para estimar o poder de giro de turbinas, comparandose as abordagens de BP e FKE, com e sem processamento em lote. A estimao do
poder das turbinas serve para maximizar o uso da eletricidade. Esse poder influenciado
por muitos fatores como velocidade do giro, direo do giro, terreno, densidade do ar,
estrutura da turbina, clima e estao de um ano. Um conjunto de dados de 2048 padres
foi usado para treinar a RN, com as tcnicas de FKE e BP, at um critrio de parada.
Na figura 5.11, DEFK refere-se ao FKE Disjunto. A tcnica chamada multi-stream
uma forma em lote (batch) desse algoritmo. A figura 5.11 mostra os erros da rede do
BP e FKE em forma de lote. Cada passo na figura significa a atualizao de um lote de
32 padres, mas o erro calculado para todos os exemplos de treinamento. Podemos
perceber, na figura 5.11, que o algoritmo de Kalman pode encontrar menor erro que o
BP. O erro do FKE decresce rapidamente com a apresentao dos dados de treinamento,
67
Figura 5.10: Nmero de iteraes necessrias para convergncia em cada um dos mtodos
de treinamento
refletindo seu poder de aprendizado e convergncia.
Realizaram-se tambm simulaes para comparar a forma tradicional do FKE com a
forma em lote. Descobriu-se que as formas em lote exibem melhores propriedades de
convergncia e tambm possuem processo de treinamento mais estvel que a forma tradicional. As comparaes mostram que o FKE tem maior capacidade de aprendizado, melhor propriedade de convergncia e maior velocidade de treinamento que o BP. Percebe-se
tambm que o treinamento em lote mostra maior convergncia e processo de treinamento
mais estvel que o treinamento padro.
O artigo de (GANG; YU, 2005) apresenta o Node Decoupled Extend Kalman Filter
(NDEFK ou FKE Disjunto, com os pesos acoplados por ns) para treinar uma RN hbrida
auto-regressiva. A RN utilizada para identificao de categorias de motores. A principal
diferena do FKE disjunto para o FKE padro a linearizao da equao de espao de
estados. A funo de transio transformada em uma matriz de derivadas, onde cada posio pode ser obtida pela regra da cadeia. O artigo mostra um experimento comparando
o aprendizado do NDEKF com o do BP, com o NDEKF convergindo em poucas iteraes.
A comparao do NDEKF com o BP indica que o NDEKF converge mais rapidamente,
est menos suscetvel a mnimos locais e tem melhor capacidade de generalizao.
68
Figura 5.11: Comparao de taxa de erro do BP e FKE em forma de lote
69
PROPOSTA DO MTODO NEURO ESTATSTICO
Este captulo apresenta a proposta de um mtodo neuro-estatstico, unindo as caractersticas de uma rede neural de mltiplas camadas com o Filtro de Kalman Estendido.
Apresenta-se a motivao e a justificativa para essa proposta; os modelos e formalismos
utilizados, mostrando a relao entre a RN e o FKE e a explicao de todo o algoritmo de
funcionamento do mtodo.
6.1
Motivao
Esta proposta trata da construo de um mtodo hbrido de uma rede neural de mltiplas camadas com o mtodo estatstico Filtro de Kalman Estendido para aplicaes de
predio de sries temporais. A justificativa para a juno dessas abordagens o fato
de possurem caractersticas complementares, no que se refere regresso (previso) em
sries com presena de rudo e que seguem dinmicas desconhecidas e no-lineares. A seguir so comentados os motivos pelos quais a hibridizao de redes neurais com o mtodo
estatstico desejvel.
O mtodo estatstico Filtro de Kalman (KALMAN, 1960), consegue minimizar a influncia do rudo, trabalhando com a varincia do rudo nos dados extrados do sistema
real (ruidoso). Essa varincia utilizada para melhorar a predio, juntamente com a covarincia do erro de predio. O motivo da utilizao do Filtro de Kalman Estendido (em
vez do FKD) o tratamento de no-linearidades no modelo gerador da srie e a possibilidade de interagir com a RN na gerao das jacobianas. As no-linearidades tratadas
pelo FKE so apenas de primeira ordem (suaves) e as matrizes jacobianas so as responsveis pelo tratamento dessas no-linearidades. As jacobianas podem ser calculadas
diretamente a partir de valores internos de uma rede neural de mltiplas camadas alimentada adiante. Essa caracterstica do FKE torna-o muito indicado para uso juntamente com
RNs. Com a interao da RN com o FKE, no modelo proposto, visa-se resolver uma das
limitaes do FK, abordada por (DECRUYENAERE; HAFEZ, 1992): o tratamento de
no-linearidades. A outra limitao apontada, a suposio de o rudo obedecer distribuio gaussiana, no abordada neste trabalho.
Os mtodos estatsticos necessitam conhecer o modelo estatstico gerador (funo)
das sries. O principal problema dos mtodos estatsticos como o FKE a dificuldade
de se criar uma abordagem complexa pela falta de compreenso de certos modelos reais,
onde muitas caractersticas e parmetros no so conhecidos. Da advm a necessidade
de testes de muitas hipteses e combinaes atravs de massivos processos estatsticos,
o que em muitas vezes no vivel (MORETTIN; TOLOI, 2004). O Filtro de Kalman
necessita conhecer uma funo f que descreva o modelo gerador do sistema. Como na
predio de sries temporais o objetivo exatamente a aproximao do modelo gerador
70
desconhecido das sries, o FK no pode ser utilizado isoladamente para PST.

As redes neurais executam as previses sem a necessidade de conhecimento das funes complexas dos sistemas. As RNs aprendem a partir de amostras dos prprios dados,
fazendo ajustes de maneira gradual, aproximando a funo do sistema. Com isso, as
RNs no necessitam conhecer previamente o modelo estatstico gerador das sries. As
RNs apresentam uma no-linearidade de um tipo especial: presente em cada um de seus
neurnios. A combinao de no-linearidades de vrios neurnios de camadas ocultas ou
de sucessivas camadas torna as RNs muito poderosas, proporcionando o tratamento de
altos graus de no-linearidades nas sries (HAYKIN, 2001a).
A dificuldade existente nas RNs encontra-se no fato de que elas, como no modelam
rudo, possam confundir o sinal (funo original do sistema) com o rudo. Experimentos
deste trabalho comprovam a dificuldade que as RNs apresentam na predio, medida que
insere-se rudo nos dados. A inteno deste trabalho unir a capacidade de modelagem
de rudo (presente no FKE), com adaptao a modelos desconhecidos e tratamento de
no-linearidades (presentes nas redes neurais). O principal objetivo do mtodo proposto
apresentar melhores resultados que os mtodos puramente neurais e melhor aplicabilidade
que os mtodos puramente estatsticos, na predio de sries temporais. As sries tratadas
so ruidosas (no possuindo dados livres de rudo para treinamento), no possuem modelo
gerador conhecido, e apresentam grandes no-linearidades.
6.2
Modelos de Entrada-Sada Utilizados
Os modelos de entrada-sada, utilizados para a RN do modelo neuro-estatstico, so

baseados nos modelos NARX e NOE, mostrados na seo 2.4.2. O modelo baseado no
NARX no apresenta entradas exgenas e pode ser chamado de NAR (Nonlinear Autoregressive - Modelo Auto-regressivo No-linear). O modelo NAR estabelece uma relao
entre as sadas passadas e a sada prevista na seguinte forma:
y (n + 1) = F (y (n) , , y (n T + 1))
(6.1)
Onde y (n) , , y (n T + 1) so os valores anteriores de sada, medidos diretamente

do sistema e y (n + 1) o valor estimado da prxima sada, calculado a partir dessas sadas
atrasadas. O modelo no apresenta entradas exgenas pois dispe apenas do histrico da
srie temporal como entrada. Um modelo NAR de ordem T = 2 mostrado na figura 6.1.
Figura 6.1: Modelo NAR

Utiliza-se tambm um modelo correspondente ao modelo NOE, sem as entradas exgenas. Esse modelo possui a relao de entrada-sada:
y (n + 1) = F (y (n) , , y (n T + 1))
(6.2)
71
Onde y (n) , , y (n T + 1) so estimativas passadas de sada. A diferena desse modelo para o NAR a realimentao com as prprias sadas previstas. Em ambos modelos
no h a presena de entradas exgenas, para tratar sries em que no dispe-se de ao
ou outra entrada, apenas os valores anteriores da mesma. A figura 6.2 mostra um modelo
NOE sem entradas exgenas de ordem 2.
Figura 6.2: Modelo NOE sem entradas exgenas
6.3
Explicao do Modelo Proposto Baseado no Modelo do Filtro de

Kalman
O modelo proposto envolve o uso de uma rede neural como processo do FKE, fazendo
a tarefa de predio, substituindo a funo f. O emprego da RN elimina a necessidade de
conhecimento prvio da funo de transio de estados. O restante do mtodo funciona
como sendo um FKE, trabalhando com as covarincias dos rudos e erros de predio,
para melhorar a qualidade da soluo do mtodo.
Figura 6.3: Modelo neuro-estatstico sem realimentao da sada

So criadas duas variaes do modelo proposto, baseadas nos modelos de entradasada da rede neural, mostrados na seo anterior. Com o NAR, as sadas do mtodo
neuro-estatstico no realimentam a entrada da rede, como mostrado na figura 6.3. Nesse
72
caso, a RN recebe como entrada um vetor com T medidas anteriores, na forma:

F [z (n 1) , , z (n T )]
(6.3)
Onde z (n 1) , , z (n T ) so as T medidas anteriores e F [] representa a funo

formada pela RN, onde a nova posio do estado prevista. A medida representa a posio atual da srie (ruidosa). A rede prev a primeira posio do vetor de estados. As
demais posies so atrasadas em uma posio no tempo, formando um novo vetor x.
Com o modelo de entrada-sada NOE, as sadas do mtodo neuro-estatstico realimentam a entrada da rede, como mostrado na figura 6.4. Nesse caso, a RN recebe como
entrada as T posies do vetor de estados estimados, na forma:
F [x1 , x2 , , xT ]
(6.4)
Figura 6.4: Modelo neuro-estatstico com realimentao da sada

No sub-modelo apresentado na figura 6.4, a rede neural recebe como entrada as estimativas anteriores do filtro, representando os valores da srie filtrados ou suavizados.
Com a entrada de valores suavizados, espera-se que a RN melhore a sua sada (predio). A diferena entre os dois sub-modelos que sem a realimentao para a entrada,
a predio a priori ser a mesma de uma RN sozinha. Nesse caso o modelo melhorar
apenas a tarefa da filtragem, em relao a RN pura. Os resultados de predio podem ser
melhorados se a rede neural do mtodo for treinada novamente com os valores filtrados.
As figuras tambm mostram a RN passando os pesos de todas as camadas (W), os
valores de sada da camada oculta (u) e o valor da camada de sada (s) (alm das entradas da rede) para serem utilizados na fase de atualizao. Esses dados vindos da RN
so utilizados para a computao das matrizes jacobianas, responsveis pelo tratamento
de no-linearidades do FKE. As jacobianas so utilizadas para calcular as matrizes de
covarincias dos erros, utilizadas para computar o Ganho de Kalman (mdulo K nas figuras 6.3 e 6.4). A utilizao da RN como processo torna possvel aproximar uma funo
no-linear desconhecida f. O clculo das matrizes de derivadas parciais (jacobianas), a
partir das informaes de cada camada da RN, possibilita que essas matrizes reflitam o
73
mapeamento de entrada-sada da rede (com suas possveis no-linearidades). Com isso, a

RN e o FKE fazem um tratamento conjunto de no-linearidades.
A figura 6.5 mostra a estrutura da rede neural utilizada. A rede recebe como entrada
os T ltimos valores da srie temporal, que so tambm as T posies do vetor de estados
x. A RN possui uma nica sada para prever o valor de x1 , que a posio atual da srie.
Figura 6.5: Estrutura da rede neural

A estimativa corrigida do estado representa a posio atual da srie filtrada (ltima
posio do vetor de estados), mas o modelo realiza tambm (automaticamente) a predio
do estado seguinte, antes da medida. O valor previsto a prpria sada da funo de
transio de estados (rede neural). Ento o mesmo modelo serve tanto para predio
como para filtragem, s mudando o local de onde o estado observado (a priori ou a
posteriori).
6.4
Formalismo do Mtodo Proposto
A explicao matemtica do modelo neuro-estatstico ser baseada na formulao do

algoritmo do Filtro de Kalman, mostrada na seo 3.2, utilizando o Modelo de Espao de
Estados (MEE) e o modelo de entrada-sada NOE sem entradas exgenas (realimentao
da entrada), explicado nas sees 6.2 e 6.3. A predio da srie se dar pela estimao do
vetor de estados x assim formado:
x1
x2
(6.5)
x = ..
.
xT
A inicializao do mtodo feita da seguinte forma:
Treina-se a rede neural off-line, usando trechos da srie temporal;
Estima-se a varincia do rudo de processo Q com medidas estatsticas do erro do
processo (rede neural);
Estima-se a varincia do rudo de medida R atravs da aplicao de um filtro off-line
em medidas ruidosas;
74
Inicializa-se a estimativa de estado x do instante anterior com medidas anteriores

(ruidosas) da srie temporal:
z (n 1)
z (n 2)
x (n 1|n 1) =
(6.6)
..
.
z (n T )
A matriz de covarincia do erro P do instante anterior inicializada com uma matriz
quadrada de zeros, com nmero de linhas e colunas igual quantia de termos de x :
P (n 1|n 1) = (x 0) (x 0)T
6.4.1
(6.7)
Fase de Predio do Estado
O estado projetado adiante (previsto) pela rede neural, que funciona como funo
de transio de estados. Para o modelo com realimentao da entrada, a atualizao do
estado ser dada por:
x (n|n 1) = F [x (n 1|n 1)]
(6.8)
Onde x (n|n 1) a estimativa do vetor de estado para o tempo atual (n), realizada no
instante anterior (n 1). F a funo de transio de estados, com a rede neural. Para o
modelo sem realimentao da entrada, a funo F receber sempre as medidas anteriores:
x (n|n 1) = F [z (n 1) , z (n 2) , , z (n T )]
(6.9)
Como deseja-se apenas calcular a posio atual da srie (x1 ), a RN far a predio
dessa posio e as demais sero apenas deslocadas. Para o modelo com realimentao da
entrada, tem-se:
x1 (n|n 1) = RN [x1 (n 1|n 1) , x2 (n 1|n 1) , , xT (n 1|n 1)]
x2 (n|n 1) = x1 (n 1|n 1)
x3 (n|n 1) = x2 (n 1|n 1)
..
.
(6.10)
xT (n|n 1) = xT 1 (n 1|n 1)
Como no modelo sem realimentao da entrada a RN recebe as medidas anteriores,
cada posio do vetor de estimativa de estados calculado da seguinte forma:
x1 (n|n 1) = RN [z (n 1) , z (n 2) , , z (n T )]
x2 (n|n 1) = x1 (n 1|n 1)
x3 (n|n 1) = x2 (n 1|n 1)
..
.
(6.11)
xT (n|n 1) = xT 1 (n 1|n 1)
Uma rede neural propragada adiante de uma camada oculta, utilizada para prever a
posio atual da srie, mostrada na figura 6.6. Essa RN recebe as entradas, no modelo
com realimentao da entrada (NOE). A RN equivalente para o modelo NAR mostrada
na figura 6.7.
A partir da propagao do estado adiante, as demais equaes seguem a forma do
FKE (para ambos modelos de entrada-sada), sendo que algumas dessas equaes so
75
Figura 6.6: Rede neural para previso da primeira posio do vetor de estados, no modelo
NOE
simplificadas para a aplicao de predio de sries temporais. A estimativa da medida
descrita pela funo:
z (n|n 1) = h [x (n|n 1) , 0]
(6.12)
Como o que est se buscando prever a posio atual da srie (x1 ) e as medidas so os
prprios valores da srie ruidosos, o valor da funo de estimativa da medida a primeira
posio do vetor de estados:
z (n|n 1) = x1 (n|n 1)
(6.13)
A matriz de covarincia do erro de estimao P tambm projetada adiante (atualizada

para o novo instante de tempo), ficando da mesma forma que o FKE:
T

F
F
F T
F
P (n 1|n 1)
+
Q (n 1)
P (n|n 1) =
x
x
w
w
(6.14)
Onde:
P (n 1|n 1) a matriz de covarincia do erro calculada no tempo n 1;
F
x
e wF representam as jacobianas da funo F em relao a x e a w, respectivamente;
Q (n 1) a varincia do rudo de processo. Q (n 1) representa a varincia no

instante anterior, mas pode ser mantida com valor fixo em todo o processo ou atualizada de tempos em tempos. A varincia Q ser relativa ao rudo do mecanismo
de estimativa, ou seja, a impreciso da rede neural em estimar o estado. O valor da
varincia R normalmente mantido fixo, pois representa o nvel de rudo nos dados
da srie, devido imprecises na obteno dos dados. Normalmente esse rudo
fixo na grande maioria das sries temporais.
76
Figura 6.7: Rede neural para previso da primeira posio do vetor de estados, no modelo
NAR
6.4.2
Fase de Atualizao do Estado
A matriz de varincia do erro de estimao da medida Szz possui dimenso [1 1] pois

o erro de medida um escalar.
T
T
h
h
h
h
P (n|n 1)
+ R (n)
(6.15)
Szz (n|n 1) =
x
x
v
v
Onde:
h
x
a jacobiana da funo de medida h em relao ao estado,
h
v
a jacobiana da funo h em relao do rudo de medida.
A matriz de covarincia do erro da estimativa do estado pelo erro de estimativa da

medida Sxz possui dimenso [T 1], onde T o nmero de termos do estado (x).

h
Sxz (n|n 1) = P (n|n 1)
x
T
(6.16)
O Ganho de Kalman (K) tambm possuir dimenso [T 1]:

K (n) = Sxz (n|n 1) Szz 1 (n|n 1)
(6.17)
A atualizao da estimativa de estado tambm ser da mesma forma que o FK, sendo
calculada a partir do Ganho de Kalman e da inovao:
x (n|n) = x (n|n 1) + K (n) (z (n) z (n|n 1))
(6.18)
E, por fim, a atualizao da matriz de covarincia do erro de predio do estado:

P (n|n) = P (n|n 1) K (n) Szz (n|n 1) KT (n)
(6.19)
77
6.4.3
Matrizes Jacobianas
Nesta seo mostrado o processo de obteno das matrizes jacobianas pelo mtodo
neuro-estatstico. Essas jacobianas so utilizadas posteriormente no clculo das matrizes
de covarincia do erro das estimativas. Como a funo de estimativa do estado seguinte
F baseada na prpria rede neural, a jacobiana da sada desta linearizar o estado da RN
em cada predio. O clculo das derivadas parciais feito utilizando todas as camadas
da RN, aproveitando toda a capacidade da rede de prever no-lineridades. A jacobiana
da funo F em relao ao estado baseada na rede neural. Ento essa jacobiana no
ser simplesmente calculada sobre uma funo estimada, como no caso do FKE. Neste
caso, a funo aproximada pela RN e, consequentemente, a jacobiana refletir toda a
capacidade de mapeamento de entrada-sada da RN. A seguir so mostradas as quatro
matrizes jacobianas: jacobianas das sadas da funo de processo F em relao ao estado
e ao rudo de processo; e das sadas da funo de medida h em relao ao estado e ao
rudo de medida.
6.4.3.1
Jacobiana da funo F em relao ao estado x
Esta jacobiana formada pelas derivadas parciais de todas as sadas da funo F em

funo das entradas (posies do vetor de estados no instante anterior). Como a primeira
posio do vetor de sada da funo calculada pela rede neural, a primeira linha desta
jacobiana ser obtida em funo dos pesos e valores intermedirios da RN. Cada derivada
parcial (clula da primeira linha da jacobiana) a derivada da sada da rede das figuras
6.6 e 6.7 (para obter x1 (n|n 1)) em funo de uma das entradas da rede. Por isso que,
de acordo com a explicao da seo sobre o aprendizado em redes MLP, a derivada
parcial ser a multiplicao da derivada da funo de ativao da sada pelo somatrio
das derivadas de cada caminho at chegar nos ns de entrada.
A jacobiana de F em funo de x ser uma matriz [T T ], onde T o nmero de
entradas da rede (tamanho de x). A sada de F (vetor x (n|n 1)) possui T posies e a
entrada (vetor x (n 1|n 1)) tambm possui T posies. A jacobiana ser ento:
(1, 1) (1, 2) (1, 3) (1, T 1) (1, T )

1
0
0
0
0
0
1
0
0
0
F
= 0
(6.20)
0
1
0
0
x
..
..
..
..
..
..
.
.
.
.
.
.
0
0
0
1
0
Ento, a primeira linha extrada da rede neural para obter x1 (n|n 1) e possui derivadas parciais em relao a suas duas entradas:
Derivada parcial em relao a x1 (n 1|n 1):
N
(1, 1) = 0 (s) ws1i 0 (ui ) woi1
(6.21)
i=1
Onde:
0 (s) a derivada da funo de ativao do neurnio da camada de sada sobre
o valor de sada desse neurnio;
78
ws1i o peso da ligao do neurnio da camada de sada com o neurnio i da

camada oculta;
0 (ui ) a derivada da funo de ativao do neurnio i da camada oculta sobre
o valor de sada desse neurnio;
woi1 o peso da ligao do neurnio i da camada oculta com o neurnio 1 da
camada de entrada.
Seguindo da mesma forma, a derivada parcial em relao a x2 (n 1|n 1) ser:
N
(1, 2) = 0 (s) ws1i 0 (ui ) woi2
(6.22)
i=1
Generalizando, a derivada parcial em relao a xT (n 1|n 1) ser:

N
(1, T ) = 0 (s) ws1i 0 (ui ) woiT
(6.23)
i=1
A segunda linha da matriz extrada da frmula para obter x2 (n|n 1), a linha 3
relao x3 (n|n 1), a linha T , em relao a xT (n|n 1). Como x2 igual a x1 no
instante anterior, x3 igual a x2 , xT igual a xT 1 , tem-se que as posies (2, 1), (3, 2), ,
(T, T 1) possuiro valor 1 e as demais posies (das linhas 2 a T) possuiro valor 0.
6.4.3.2
Jacobiana da funo F em relao ao rudo de processo w
Essa jacobiana ser uma matriz [T 1], porque as T sadas de F sero em relao ao
valor de w (escalar):

1
0
F
0
=
(6.24)
w ..
.
0
A primeira linha da matriz a derivada parcial da sada x1 (n|n 1) em relao a
entrada w (n 1). Como so diretamente relacionadas, o valor 1. As demais linhas so
as derivadas parciais das sadas xk (n|n 1) (com k variando de 2 a T ) em relao a essa
mesma entrada. Como no so relacionadas, o valor 0.
6.4.3.3
Jacobiana da funo h em relao ao estado x
Essa jacobiana ser uma matriz [1 T ], pois a sada (z (n|n 1) ) tem 1 posio e a
entrada (vetor de estimativa de estado) tem T posies :

h
= 1 0 0 0
x
(6.25)
O primeiro elemento da matriz a derivada parcial da estimativa de medida z (n) em

relao a x1 (n|n 1) , que so diretamente relacionados. Os demais so as derivadas
parciais de z (n) em relao a xk (n|n 1) (com k variando de 2 a T ), que no so relacionados.
79
6.4.3.4
Jacobiana da funo h em relao ao rudo de medida v
Essa jacobiana ser uma matriz [1 1] (escalar), porque tanto a sada como a entrada
(rudo de medida v) possuem 1 posio:
h
= [1]
v
(6.26)
O nico elemento dessa jacobiana a derivada parcial de z (n|n 1) em relao a

v (n). Como o valor de sada da funo h de medida diretamente relacionada ao rudo
de medida, o valor dessa derivada 1.
6.5
Comparaes com os Trabalhos Correlacionados
O treinamento de redes neurais com Filtro de Kalman e o ajuste de parmetros do

FK com RN so trabalhos "indiretamente correlacionados" a este trabalho. Essas abordagens foram relatadas no captulo anterior para dar uma viso geral da utilizao em
conjunto das duas tcnicas (RN e FK). As abordagens de treinamento de RNs com FK
so mais tradicionais e existem de maneira mais abundante que os mtodos denominados hbridos. Alguns dos mtodos que podem ser comparados de maneira mais prxima
ao modelo neuro-estatstico aqui proposto so os baseados no Neural Extended Kalman
Filter (NEKF). No NEKF a RN est na sada do FKE, recebendo apenas o erro deste.
Para modelos parcialmente conhecidos essa estrutura funciona satisfatoriamente. Porm,
se o modelo real for totalmente desconhecido, a RN ter a funo de estimar todo esse
modelo desconhecido, de maneira on-line, dispondo apenas do erro do FKE a cada iterao. Trabalhando dessa maneira e ainda tendo uma estrutura simples (para poder ser
usada de maneira on-line), a tarefa da predio se torna difcil para a RN. Essa uma
explicao para o NEKF no ser usado em modelos desconhecidos e que no se conhece
a ao tomada (u) em cada instante de tempo, para a construo da trajetria.
No caso das sries temporais abrangidas por este trabalho, o modelo estatstico no
conhecido e no dispe-se de informaes adicionais, como a ao tomada u. Nesses
casos tambm no existe a necessidade de treinamento da rede on-line. Assim, podese utilizar um conjunto de dados de treinamento, retirado do histrico da srie. Com
a disponibilidade de um conjunto de dados para treinamento off-line, pode-se fazer um
treinamento muito mais completo e utilizar uma poderosa estrutura de rede neural (pois a
realizao de treinamento instantneo no mais uma imposio), para obter resultados
mais precisos na predio. Outra diferena importante entre o NEKF e o novo mtodo
neuro-estatstico a forma como as no-linearidades so tratadas. No NEKF as nolinearidades passam primeiramente pelo FKE (e por suas jacobianas), sendo que as nolinearidades tratadas pelo FKE so de primeira ordem. Os prprios autores do NEKF
comentam que, em dinmicas altamente no-lineares, o erro cresce significativamente
(KRAMER; STUBBERUD, 2005). No mtodo neuro-estatstico, a estimativa de estado
(valor desejado da srie) feita primeiramente pela RN, que tem boa capacidade para
tratamento de grandes no-linearidades. O fato de a RN simular o processo e de ter
acesso a um conjunto de treinamento tambm auxilia no tratamento de no-linearidades.
O trabalho de (WAN; MERVE, 2000) utiliza uma abordagem semelhante ao mtodo
neuro-estatstico, no que se refere colocao da RN como funo de transio de estados
do FK e aplicao para predio de sries temporais. A principal diferena que nesse
trabalho supe-se a disponibilidade prvia da srie limpa (no-ruidosa), para treinamento
da RN. Em situaes reais, normalmente a srie no-ruidosa no est disponvel. O artigo
80
tambm supe que o mapeamento de entrada-sada da RN totalmente conhecido, como

se fosse uma funo definida f do FK, por exemplo. Os valores exatos dos parmetros
de covarincia dos rudos tambm so considerados conhecidos a priori. Essa aplicao
do UKF com RN supe a presena de condies ideais, facilitando a comparao do
UKF com FKE, seu principal objetivo. O artigo indica muitas dificuldades do FKE nos
experimentos relatados. No mtodo neuro-estatstico as jacobianas do FKE so calculadas
com o mapeamento da RN (construido com os dados de todas as camadas da RN) a cada
passo de predio, com a rede sendo treinada com o histrico da srie ruidosa. O artigo
no mostra esse tipo de estratgia, podendo ser este o motivo das dificuldades do FKE. O
mtodo neuro-estatstico, aqui proposto, utiliza condies mais realistas, considerando a
no disponibilidade de dados livres de rudo e o no conhecimento dos parmetros exatos
do mtodo.
81
EXPERIMENTOS
Os experimentos, utilizados nas comparaes, envolvem o mtodo neuro-estatstico e

a rede neural, uma vez que o Filtro de Kalman Estendido necessita da funo de transio
de estados, no conhecida nas sries tratadas. Para fins de comparao, sempre so utilizados os mesmos modelos e configuraes de RN, tanto na rede utilizada isoladamente,
como na RN utilizada no mtodo hbrido. Os experimentos foram realizados com duas
sries temporais: a srie catica de Mackey-Glass e uma srie combinada de funes senos. A diferena para experimentos tradicionais que ambas as sries so acrescidas de
rudo, impondo um desafio extra para a predio e gerando a necessidade de filtragem.
So usados dados ruidosos tanto no treinamento da rede, como nas medidas efetuadas
durante a execuo do mtodo.
7.1
Predio e Filtragem da Srie Catica de Mackey-Glass Acrescida de Rudo
A predio de sries temporais com dinmicas caticas algo muito desafiador para
todas as linhas de pesquisa em PST. Mesmo em problemas difceis como esse, as redes
neurais tm apresentado desempenho satisfatrio, como no trabalho de (JANG, 1993). A
adio de rudo nesse tipo de srie torna-se uma novidade ainda mais desafiadora. Uma
das sries caticas, utilizada como benchmark (ponto de referncia) para a comparao
de mtodos, a srie de Mackey-Glass (MACKEY; GLASS, 1977), apresentada na figura
7.1.
Figura 7.1: Srie temporal catica de Mackey-Glass
82
A srie de Mackey-Glass aqui empregada segue a dinmica bsica utilizada nos trabalhos de (CROWDER, 1991) e (JANG, 1993), em que a variao entre uma posio da
srie e a prxima descrita por:
x (t) =
0.2x (t )
0.1x (t)
1 + x10 (t )
(7.1)
Onde x (t) a variao de valor da srie no instante t, comparando-se com o instante

anterior; x (t ) o valor da srie, posies atrs. O trecho da srie de Mackey-Glass
mostrado na figura 7.1 possui = 17.
O problema considerado como benchmark para pesquisadores conexionistas a predio de valores futuros dessa srie, no instante k = t + P, sendo P um valor inteiro positivo
(JANG, 1993). Para a predio de um valor futuro, P posies a frente, so utilizados D
amostras anteriores, espaadas em posies entre elas.
7.1.1
Configuraes Utilizadas nos Experimentos
Para que os experimentos fossem apresentados de maneira prxima s definies originais de (CROWDER, 1991) e (JANG, 1993), adotou-se muitas configuraes desses
trabalhos. Configurou-se D = 4, ou seja, so utilizados 4 valores de posies anteriores (4
entradas para a rede neural). O valor de P foi escolhido como 6, ento o valor previsto ser
6 posies a frente do atual (t + 6). Tambm foi configurado = 6 como o espaamento
entre as posies de entrada. Atribuiu-se tambm = 17 (definindo a periodicidade e
complexidade da srie).
Gerou-se um conjunto de dados, para extrao das amostras de treinamento e teste,
com 0 t 1617 (assumiu-se que a srie possui valores nulos para t < 0). Extraiu-se
1000 amostras para treinamento com 118 t 1117, seguindo os trabalhos citados. Cada
amostra de treinamento, segue o seguinte formato:
[x (t 18) , x (t 12) , x (t 6) , x (t) ; x (t + 6)]
(7.2)
Onde os 4 primeiros valores servem como entrada e o ltimo como sada desejada. As
500 amostras de teste foram extradas com 1118 t 1617, tendo o mesmo formato dos
dados de treinamento, porm sem o valor desejado (ltimo valor). A RN utiliza a funo
de ativao tangente hiperblica. Tanto no treinamento quanto no teste, a RN recebe os
dados (ruidosos) da prpria srie como entrada. Ou seja, utilizou-se o mtodo neuroestatstico com modelo de entrada NAR, da figura 5.3. Nesse caso, a predio (resultado
a priori do mtodo) ser a mesma da RN sozinha. Os valores melhorados so os da sada
a priori (filtragem). Os dados filtrados podem ser usados para fazer um retreinamento da
RN em outros experimentos.
7.1.2
Predio da Srie Sem Rudo
Na predio de sries sem rudo no necessria a utilizao do mtodo neuroestatstico. Apenas aplicou-se uma rede neural, nesse caso, para avaliar o poder preditivo desse modelo de RN na predio da srie de Mackey-Glass convencional. Com isso,
pode-se comparar o erro deste experimento com os erros que a incidncia de rudo provoca na RN, justificando a necessidade da filtragem do mtodo neuro-estatstico (para
posterior retreinamento da RN).
Para esse experimento, a rede MLP utilizada contm 10 neurnios na camada oculta e
400 pocas de treinamento. Todas as configuraes desse captulo de experimentos foram
83
Figura 7.2: Predio da srie de Mackey-Glass no-ruidosa com a rede neural

escolhidas a partir de grande nmero de execues experimentais dos mtodos, com faixas
de cada parmetro a ser escolhido. A figura 7.2 mostra o resultado da predio da RN,
com erro mdio quadrado de 0,0007. Pode-se perceber uma boa capacidade preditiva por
parte de uma rede MLP com algoritmo backpropagation, com apenas uma camada oculta
e poucos neurnios.
7.1.3
Utilizao do Mtodo Neuro-estatstico com Rudo Pequeno
O rudo utilizado neste trabalho gaussiano branco, isto , com distribuio normal
e mdia zero. O rudo aditivo (somado aos valores da srie) e possui varincia R. A
adio de rudo serve para simular as imprecises na obteno dos dados. Nos exemplos
das figuras 7.3 e 7.4, a varincia R tem valor 0,01, tendo ento desvio padro de 0,1.
Figura 7.3: Resultado da predio da rede neural para a srie com 0,01 de varincia de
rudo
A RN para predio da srie de Mackey-Glass (agora ruidosa) possui a mesma configurao que o exemplo da srie no ruidosa, com 10 neurnios na camada oculta, 400
pocas de treinamento, taxa de aprendizado 0,1 e coeficiente de Momentum 0,5. Essa
configurao tambm utilizada na RN que faz parte do NE. Os resultados da predio
84
da srie, apenas com a RN so mostrados na figura 7.3. O erro da RN piora bastante

apenas com a adio de um pouco de rudo. Percebe-se tambm uma tendncia de generalizao, aplainando os mximos e mnimos da funo da srie.
O mtodo neuro-estatstico ento aplicado para filtragem, com a sua parte "rede
neural" configurada da mesma forma que a RN mostrada anteriormente. A parte "Filtro
de Kalman Estendido" do NE necessita apenas da configurao dos parmetros Q e R,
varincia de rudo de processo e varincia de rudo de medida. O valor de R configurado
com 0,01 (valor do rudo verdadeiro). A opo por colocar os valores exatos do parmetro R para possibilitar a anlise das demais caractersticas do mtodo, sem o vis dos
mecanismos de escolha (medida) desse parmetro. Na seo 7.3 so apresentadas opes
de medida desse parmetro diretamente dos dados e realiza-se uma anlise sobre os erros
dessa medida. O valor de Q configurado com um valor um pouco acima da mdia de
erros da RN, nesse caso foi configurado como 0,013. A justificativa para esse tipo de
escolha tambm mostrada na seo 7.3.
Figura 7.4: Resultado da filtragem do mtodo neuro-estatstico para a srie com 0,01 de
varincia de rudo
Os resultados da filtragem do NE so mostrados na figura 7.4. Pode-se observar uma
significativa diminuio do Erro Mdio Quadrado (MSE), comparando-se com os resultados da rede neural. Observa-se tambm que o MSE dos valores filtrados pelo NE fica
bem abaixo da varincia do rudo de medida, diminuindo consideravelmente o grau de
rudo nos dados.
7.1.4
Utilizao do Mtodo Neuro-estatstico com Rudo Mdio
O "rudo mdio", aqui denominado, gaussiano branco com varincia 0,04. Esse
rudo mostrado juntamente com os resultados das figuras 7.5 e 7.6, representado pelos
pontos nos grficos. A rede neural, em ambos mtodos, tambm possui a mesma configurao dos exemplos anteriores, com 10 neurnios na camada oculta e 400 pocas de
treinamento. Os resultados da aplicao da RN com essa configurao so mostrados na
figura 7.5. O erro cresce bastante com o aumento do rudo, ocorrendo uma tendncia
de arredondamento de curvas. Pode-se perceber tambm, com rudo maior, que a RN
antecipa ou aumenta algumas curvas da srie.
A configurao dos parmetros Q e R do mtodo NE so feitas da mesma forma que
o experimento anterior. A varincia do rudo de medida R foi agora configurada como
85
rudo
varincia de rudo
sendo 0,04 (rudo da srie) e a varincia do rudo de processo foi configurada como 0,03
(um pouco acima do erro mdio esperado da RN). A figura 7.6 mostra o grfico de valores
filtrados pelo NE. Observa-se que o erro mdio foi bem menor que o encontrado pela RN,
conseguindo acompanhar a trajetria da srie, mesmo com o rudo presente nos dados
medidos. O erro (0,0155) tambm est consideravelmente menor que a covarincia do
rudo de medida (0,04), significando uma boa eficincia na filtragem, mesmo com o erro
da RN sendo mais alto.
7.1.5
Utilizao do Mtodo Neuro-estatstico com Rudo Grande
O rudo, aqui chamado "grande" tambm gaussiano branco, agora com varincia
0,09. O aumento do grau de rudo (varincia) serve para uma melhor anlise das dificuldades que as incertezas causam na predio por redes neurais. Percebe-se pela distncia
dos pontos at a curva ideal, nas figuras 7.7 e 7.8, a grande incidncia de rudo nesses
exemplos. A configurao utilizada pela RN a mesma dos experimentos anteriores.
O desempenho da predio da RN na srie bastante ruidosa mostrado na figura 7.7.
86
Percebe-se novamente que a RN suaviza demasiadamente em certos pontos (considerando

parte da srie verdadeira como sendo rudo) e considera demais o rudo em outros pontos
(considerando o rudo como parte da srie). O desempenho da filtragem do NE mostrado
na figura 7.8, apresentando uma melhora nessas caractersticas e obtendo mais uma vez
erro (0,0274) significativamente menor, comparando com a RN e com a varincia do
rudo. Isso se deve ponderao dada pelo mtodo para a predio e para a medida. Se
fosse dada uma importncia muito grande para a predio, o erro ficaria muito prximo de
0,0364 (erro de sada da RN). Por outro lado, se fosse dada uma importncia muito grande
para a medida o erro ficaria muito prximo de 0,09 (covarincia do rudo de medida).
rudo
varincia de rudo
Para analisar e confirmar o maior erro da RN em regies de picos da srie temporal,
gerou-se os grficos de erro da RN e do mtodo neuro-estatstico. O grfico de erro da
87
Figura 7.9: Grfico de erro da rede neural
Figura 7.10: Grfico de erro do mtodo neuro-estatstico

RN mostrado na figura 7.9, apresentando regies especficas com erros maiores. Essas
regies normalmente coincidem com as inverses de tendncia da srie. A RN apresenta
ento regies com tendncia de erros maiores. O grfico de erro da filtragem do NE
mostrado na figura 7.10, onde nota-se uma regularidade maior na amplitude do erro ao
longo da srie. As linhas tracejadas tambm indicam um menor desvio padro por parte
do NE.
7.1.6
Resumo dos Resultados para a Srie Mackey-Glass
Os resultados aqui sintetizados foram gerados com os mtodos RN e NE, com as

mesmas configuraes das subsees anteriores, computando-se os resultados de 10 execues diferentes para cada mtodo, em cada nvel de rudo. Computou-se a mdia e o
desvio padro de cada conjunto de 10 execues, para proporcionar maior confiabilidade
estatstica nos valores.
Os valores de rudo aleatrio so diferentes para cada par de execues. Gera-se o
rudo, executa-se os dois mtodos (RN e NE), geram-se valores de rudo novamente, e
assim por diante. A mudana dos valores aleatrios de rudo a cada execuo serve para
melhorar a qualidade estatstica das comparaes, sendo que a execuo para a par (RN
e NE com os mesmos valores de rudo em cada vez) proporciona maior imparcialidade.
Em todos os grficos mostrados para a srie de Mackey-Glass, a sada filtrada do mtodo
neuro-estatstico (estimativa a posteriori) comparada com a sada da RN pura, que a
mesma sada a priori do mtodo, pois utilizou-se o modelo NAR para a entrada-sada. A
sada a posteriori do mtodo poderia ser utilizada para retreinar a sua RN.
A tabela 7.1 mostra um resumo dos erros mdios e desvios padres do erro, para as
predies da rede neural e do mtodo neuro-estatstico, nos trs nveis de rudo. O NE
consegue melhorar bastante os resultados da RN em todos os casos. Tanto a RN quanto
88
Tabela 7.1: Mdia dos erros e desvios padres do erro para a RN e o NE

Varincia do rudo
MSE mdio RN
Desvio MSE RN
MSE mdio NE
Desvio MSE NE
0,01
0,04
0,09
0,0098
0,0283
0,0371
0,0009
0,0024
0,0028
0,0053
0,0177
0,0268
0,0004
0,0018
0,0020
o mtodo NE conseguem ter MSEs abaixo da varincia do rudo. Os desvios padres do

erros permanecem proporcionais aos valores absolutos desses erros, em todos os casos.
O erro da RN cresce muito no incio da adio de rudo. Quando o rudo torna-se muito
grande, o erro da RN tende a estabilizar com a adio de mais rudo, pois o pior caso
considerar todos os dados como rudo e prever o ponto central. Mostrou-se que a RN
possui dificuldades nos pontos extremos das curvas (picos), tendendo a achat-los ou a
criar falsos picos. O mtodo neuro-estatstico ameniza bastante esses problemas.
7.2
Predio de Srie de Combinao de Senos Acrescida de Rudo
A criao de sries a partir de uma composio de funes trigonomtricas (principalmente seno e cosseno) proporciona o aparecimento de sries difceis com no-linearidades
bastante complexas. Uma srie apresentada por (HAYKIN, 2001a) como desafio para a
rea de redes neurais a srie dada pela seguinte funo:

(7.3)
x (n) = sin n + sin n2
Onde sin () representa a funo seno. A funo combina o seno de um valor inteiro n
acrescido do seno desse mesmo valor ao quadrado. A figura 7.11 mostra um trecho dessa
srie, com 1 n 100. A insero do seno de n2 dentro de outro seno cria uma srie de
difcil predio. A existncia de ciclos muito curtos tambm aumenta a dificuldade.
Figura 7.11: Srie temporal no-linear gerada a partir de combinao de senos

A predio da srie dos senos combinados, acrescida de rudo, gerou a justificativa
inicial desse trabalho, pois experimentos iniciais com redes neurais j indicavam a sua
grande dificuldade. Para a predio dessa srie sem rudo, a RN necessita de uma grande
estrutura e consegue fazer predies razoveis. Porm, quando essa srie acrescida de
rudo, a RN possui grande dificuldade de predio, apresentando erros muito altos.
89
7.2.1
Configuraes e Estratgias Utilizadas nos Experimentos
O conjunto de treinamento, para a RN e para a rede do NE, composto de amostras

seqenciais, no seguinte formato:
[x (t T ) , x (t T + 1) , , x (t 2) , x (t 1) ; x (t)]
(7.4)
Onde T o nmero de valores anteriores (atrasos) que a RN recebe como entrada e

x (t) o valor da srie no instante atual. Esse valor do instante atual ruidoso (quando
passado como entrada para o treinamento), sendo posteriormente suavizado pelos mtodos. Escolheu-se o nmero de 13 atrasos para a realizao dos experimentos. Ento a
RN recebe 13 valores seqenciais de entrada e um valor desejado no treinamento. Para o
teste, a RN receber apenas os valores de entrada (diferentes do treinamento):
[x (t 13) , x (t 12) , , x (t 2) , x (t 1)]
(7.5)
Gerou-se 1000 amostras para a extrao do conjunto de treinamento e 500 amostras

para o conjunto de teste. Para o conjunto de treinamento, utilizou-se 14 t 1013 e para
o conjunto de teste, 1014 t 1513. Todos os experimentos foram realizados com a RN
tendo a configurao de 35 neurnios na camada oculta, 400 pocas de treinamento, taxa
de aprendizado de 0,1, coeficiente de Momentum de 0,5 e funo de ativao tangente
hiperblica. Tambm utilizou-se a estratgia de colocao de 2000 amostras intercaladas de treinamento (com posies escolhidas aleatoriamente) e a realimentao da RN
com valores j suavizados pela parte do FKE. Essa abordagem de realimentao segue o
modelo apresentado na figura 6.4. Essas duas estratgias so comentadas a seguir.
Para uma maior eficincia do treinamento da RN, em vez de passar a seqncia de
amostras de treinamento na ordem original, passam-se as amostras em ordem aleatria.
Estabelece-se um certo valor de amostras a serem utilizadas em cada poca e escolhese aleatoriamente o t (dentro do limite definido para treinamento) para cada uma dessas
amostras. Assim o conjunto de treinamento fica muito mais heterogneo, melhorando
significativamente a qualidade de treinamento da RN. Tambm pode ser aumentado o
nmero de amostras, podendo diminuir o nmero de pocas de treinamento. Comprovouse, nos experimentos, que o aumento da quantidade de amostras por poca gera melhores
resultados que o aumento do nmero de pocas.
Outra estratgia utilizada a realimentao do mtodo NE com os valores anteriores
previstos pelo prprio mtodo. Em vez de receber as entradas, a RN do mtodo receber os valores j suavizados nos instantes anteriores (menos ruidosos). Essa variao na
entrada-sada no mtodo corresponde ao modelo apresentado na figura 5.4. Comprovouse que, mesmo que a RN tenha sido treinada com dados altamente ruidosos, essa RN
apresentar melhores resultados quando receber dados com menor grau de rudo.
7.2.2
Predio da Srie Sem Rudo
Para a predio da srie combinada de senos sem rudo, utilizou-se apenas a rede
neural, com a configurao otimizada por experimentos, conforme descrito anteriormente.
Os resultados da predio da srie no-ruidosa, atravs da RN isoladamente, servem para
mostrar a grande diferena de erro quando o rudo for adicionado (mesmo em pequena
quantidade). A predio dessa srie (sem incidncia de rudo) pela RN possui uma taxa
aceitvel de erro e mostrada na figura 7.12.
Pode-se perceber, na figura 7.12, alguns erros nas regies de inverso de tendncia
(picos) da srie. Observa-se tambm na figura, que ocorrem poucos retardos ou antecipa-
90
Figura 7.12: Predio da srie no-ruidosa com uma rede neural

es de tendncias, concentrando os erros apenas nos picos. Esses outros tipos de erros
sero observados nas sees seguintes, quando a srie ruidosa.
7.2.3
Comparaes Utilizando Rudo Pequeno
Esta subseo inicia as comparaes da RN com o mtodo neuro-estatstico com presena de rudo, na srie combinada de senos. Todas as comparaes utilizam a mesma
rede (com os mesmos pesos) no mtodo NE tambm, para uma maior confiabilidade nas
comparaes. Todos os rudos destas comparaes so gaussianos brancos aditivos. O
rudo aqui considerado pequeno tambm possui varincia de 0,01. O parmetro R do mtodo neuro-estatstico configurado como 0,01, enquanto o Q configurado como 0,09.
Figura 7.13: Resultado da RN na predio da srie com 0,01 de varincia de rudo

O grfico de resultados obtidos e desejados da RN mostrado na figura 7.13. O
acrscimo desse pequeno grau de rudo causa um grande aumento do erro, em relao
srie sem rudo. Alm dos erros na intensidade das tendncias detectadas na predio sem
rudo, tambm ocorrem agora antecipaes e retardo na deteco dessas tendncias.
A figura 7.14 mostra os resultados da filtragem do mtodo neuro-estatstico, que apresenta um erro mdio quadrado muito mais baixo: 0,0081. A obteno de erros muito
abaixo dos da RN, mesmo utilizando a prpria rede como processo, se deve aos mecanis-
91
Figura 7.14: Resultado do NE na filtragem da srie com 0,01 de varincia de rudo
Figura 7.15: Resultado do NE na predio da srie com 0,01 de varincia de rudo

mos de ponderao pelo Ganho de Kalman, internos do NE. Como a RN apresenta um
erro muito alto, o NE d uma importncia maior para as medidas, "situando" a previso da RN quando esta est muito longe da srie. Observa-se que, mesmo dando uma
importncia maior para a medida, o NE consegue ter um erro menor que a varincia do
rudo de medida, conseguindo realizar a filtragem da srie. Na figura 7.15 mostrada a
predio do NE, utilizando os valores filtrados na entrada da RN, em vez de usar as medidas ruidosas. Percebe-se uma leve diminuio do erro da RN do NE em relao a RN
sem realimentao, recebendo os valores filtrados. Essa diminuio ocorre porque a RN
recebe entradas com varincia de erro de 0,0083 em vez de receber entradas com erro de
0,01 (rudo de medida).
7.2.4
Comparaes Utilizando Rudo Mdio
O rudo "mdio" possui varincia de 0,04. As configuraes da RN so as mesmas

do experimento anterior e o NE possui o parmetro R configurado como 0,04 e o Q como
0,15 (um pouco acima da varincia aproximada do erro da RN). A figura 7.16 mostra os
resultados da RN. Percebe-se que o erro da RN cresce bastante com o aumento do rudo.
Em relao ao rudo menor, crescem os picos de erros nas inverses de tendncias.
92
Figura 7.16: Resultado da predio pela RN para a srie com 0,04 de varincia de rudo
Figura 7.17: Resultado da filtragem pelo NE, para a srie com 0,04 de varincia de rudo
O desempenho da filtragem do NE para esse nvel de rudo mostrado na figura 7.17.
Observa-se que o NE diminui o erro da RN em todas as partes da trajetria, sem deixar
picos de erro. Em regies da srie onde o erro da RN muito grande, o valor calculado
pelo NE fica muito prximo da medida ruidosa. Essa opo de ajuste calculada automaticamente pelo mtodo, atravs do Ganho de Kalman, gerado a partir das covarincias
dos erros. A escolha de dar maior importncia para a medida feita de acordo com o
crescimento do erro do processo (RN) e permanece at o erro diminuir. A preparao
do NE para um possvel grande erro da RN vai ocorrendo gradativamente ao longo das
iteraes. Por exemplo, em um primeiro grande erro da RN para menos, o filtro do NE ir
compensar parte do erro. Se, depois disso, houver outro grande erro no mesmo sentido do
primeiro, o erro ser mais fortemente compensado. O mtodo parecer "vacinado" contra o erro. Da mesma forma, ocorre tambm gradativamente o esquecimento do erro (na
matriz de covarincia P).
O resultado da predio do mtodo neuro-estatstico mostrado na figura 7.18. Percebese uma melhora no desempenho da RN do NE ao receber os dados com rudo menor. A
RN permanece com o mesmo treinamento (realizado com rudo de varincia 0,04), mas
passa a receber como entrada os dados filtrados (com erro de varincia 0,0309). Essa
93
Figura 7.18: Resultado da predio pelo NE, para a srie com 0,04 de varincia de rudo
diferena de rudo faz a RN melhorar o MSE de 0,1375 para 0,1284.

7.2.5
Comparaes Utilizando Rudo Grande
O rudo "grande" possui varincia de 0,09. Seguindo a mesma linha que as configuraes dos demais experimentos, os valores de R e Q do NE foram respectivamente 0,09 e
0,22 (prximo do MSE estimado da RN). O resultado da aplicao da RN mostrado na
figura 7.19. Como mostrado na figura, o erro da RN cresceu ainda mais com o aumento
do rudo, tendendo a aplainar algumas curvas da trajetria e desviar outras. Quando mais
cresce o rudo, percebe-se que a RN (atuando isoladamente) tende a simplificar a srie,
desconsiderando comportamentos (e curvas) mais complexos.
Figura 7.19: Resultado da RN para a srie com 0,09 de varincia de rudo
Na figura 7.20 est o grfico de resultados da filtragem do mtodo neuro-estatstico,

aplicado na srie acrescida de rudo grande. Percebe-se um melhor ajuste verdadeira
srie. Ocorre um bom nvel de filtragem em relao varincia do rudo, mesmo com o
grande erro da RN.
94
Figura 7.20: Resultado do NE para filtragem da srie com 0,09 de varincia de rudo
Figura 7.21: Resultado do NE para predio da srie com 0,09 de varincia de rudo
7.2.6
Resumo dos Resultados da Srie
Os resultados para a srie combinada de senos so sintetizados na tabela 7.2. A tabela

apresenta uma comparao dos erros de predio da RN e dos erros de predio e filtragem
do NE, para 3 nveis de rudo. Percebe-se uma melhora no desempenho da RN do NE
ao receber os dados com rudo menor. A RN permanece com o mesmo treinamento
(realizado com os dados ruidosos), mas passa a receber como entrada os dados filtrados
(com varincia de erro menor).
Tabela 7.2: Erros Mdios Quadrados para a RN e o NE
Varincia do rudo
Predio RN
Predio NE
Filtragem NE
0,01
0,04
0,09
0,0962
0,1375
0,1863
0,0938
0,1284
0,1778
0,0083
0,0309
0,0587
O funcionamento do FKE em conjunto com a RN propicia que um mtodo passe progressivamente resultados melhores para o outro. No incio das iteraes do NE a RN
95
comea a gerar estimativas com MSE correspondente ao seu prprio erro (quando atuando isoladamente). A parte "filtro" do NE ir melhorar a estimativa da rede e ir passar
esse valor melhorado como uma das entradas da RN para o passo seguinte. Depois de T
iteraes, a RN j estar recebendo todos os valores filtrados e passar valores ainda melhores para o filtro. O ciclo se repete com o filtro conseguindo estimativas ainda melhores
e passando para a RN prever tambm ainda melhor. Relembra-se que, para todos os experimentos com essa srie, o mtodo neuro-estatstico utilizou sempre a mesma RN com
a qual foi comparado, com os mesmos pesos do treinamento. Esses efeitos observam-se
na predio do NE, mostrada na tabela 7.2. Com rudo de varincia 0,09, o NE melhorou
o MSE de 0,1863 para 0,1778. A RN do NE recebe dados com rudo de varincia 0,0587
(MSE da filtragem) em vez de 0,09, melhorando o seu desempenho.
7.3
Anlise Prtica sobre o Ajuste dos Parmetros Q e R
O ajuste correto de parmetros importante para o bom funcionamento do FK e, conseqentemente, do mtodo neuro-estatstico. O parmetro Q representa a covarincia do
rudo de processo, ou seja, as imprecises do processo em relao ao verdadeiro modelo
da srie. Como o processo do mtodo neuro-estatstico a prpria RN, o rudo de processo ser o MSE da rede em relao srie filtrada (sem rudo). O parmetro R a
covarincia do rudo de medida, ou seja, o MSE entre as medidas ruidosas e a srie ideal
(no ruidosa). Os valores exatos desses parmetros no so conhecidos, sendo possvel
fazer estimativas sobre eles. Nesta seo mostrada uma anlise sobre a conseqncia
dos erros de estimao desses parmetros e so apresentadas algumas medidas estatsticas
para estim-los.
7.3.1
Anlise Sobre Ajustamento No Otimizado de Parmetros
Como mostrado anteriormente, o valor de rudo (erro) da RN no ser sempre conhecido exatamente, mas pode ser colocado um valor aproximado como parmetro Q.
Para visualizar as repercusses de se atribuir um valor menor ou maior que o ideal para
esse parmetro, realizaram-se experimentos utilizando uma grande quantidade de valores
diferentes de parmetros. O experimento foi realizado com o mais ruidoso de todos os
exemplos tratados neste captulo: a srie composta de senos com varincia de rudo de
0,09. As configuraes utilizadas so as mesmas relatadas nos demais experimentos com
essa srie. Na execuo da RN atuando isoladamente para esse problema obteve-se MSE
de 0,2069. O mtodo neuro-estatstico utilizou a mesma RN treinada (no alterando os
pesos) para todos as execues.
A figura 7.22 mostra os valores de erro da filtragem do NE para configuraes de
Q variando de 0,13 at 0,31. Observa-se que os menores valores de MSE do mtodo
esto com Q entre 0,19 e 0,20. O valor timo de Q nesse caso um pouquinho abaixo
do prprio MSE da RN, pois a rede diminui um pouco o erro ao longo das iteraes do
NE, como explicado anteriormente. Observa-se tambm que o aumento do MSE maior
quando o parmetro Q configurado abaixo do ideal que quando configurado acima do
ideal. Para confirmar essa tendncia foram realizadas execues com valores extremos
(muito grandes e muito pequenos) de Q.
A figura 7.23 mostra os testes com valores muito pequenos para Q. Observa-se que
o erro cresce exponencialmente at estabilizar em um valor muito alto (prximo do erro
que uma previso de linha reta no ponto mdio do eixo y da srie geraria). A figura 7.24
mostra a utilizao de valores muito grandes para Q. O erro cresce mais suavemente, que
96
Figura 7.22: Curva de variao do MSE do NE conforme o parmetro Q
Figura 7.23: Curva do MSE do NE para a escolha de Q muito pequeno

na figura 7.23, com o aumento do valor do parmetro. Com um valor de Q muito grande,
o MSE estabiliza em um valor um pouco abaixo da varincia do erro de medida. Esse
erro se deve ao fato de o mtodo considerar, nesse caso, quase exclusivamente a medida.
Conclui-se que as conseqncias de escolher Q maior que o ideal so menores do que se
for escolhido um valor menor que o ideal.
Outra constatao importante, nos experimentos realizados, que quando sabe-se a
relao entre Q e R, a configurao correta dos valores absolutos no necessria. Os
parmetros Q = 0.2; R = 0.09 daro o mesmo erro que Q = 0.4; R = 0.18 ou que Q =
0.002; R = 0.0009. Essa proporo tambm pode ser aproximada da ideal, pois somente
se a diferena de proporo for muito grande que haver alguma diferena significativa
no erro final do mtodo NE. Por exemplo se o erro de proporo for 2 (o dobro ou a metade
do ideal), o MSE do NE ser apenas 5,8% maior que o erro gerado pela configurao ideal.
7.3.2
Medidas Estatsticas para a Especificao de Parmetros
Como o parmetro Q refere-se ao erro da RN em relao srie ideal, esse parmetro

pode ser estimado atravs de medidas estatsticas do erro da rede. Essas medidas podem
ser obtidas em execues da RN para predies de termos da srie. Os valores desejados
para o clculo do erro podem ser os valores da srie ruidosa, gerando uma especificao
mais imprecisa do erro (parmetro). Tambm podem ser usados dados suavizados por um
filtro ou pelo prprio mtodo neuro-estatstico com parmetros menos otimizados. Com
vrias medidas de erro da RN (de vrias execues), pode-se calcular a mdia dos MSEs
97
Figura 7.24: Curva do MSE do NE para a escolha de Q muito grande

da rede. O valor escolhido como parmetro pode ser um pouco acima dessa mdia, porque
as conseqncias (no aumento do erro do mtodo) de configurar para mais o parmetro
so menores do que configurando para menos, conforme mostrado anteriormente.
Quanto ao ajuste do parmetro R (covarincia do rudo de medida), este deve ser
estimado a partir de medidas ruidosas da srie. Porm no se sabe o que a srie (no
ruidosa) e o que o rudo. A extrao da covarincia de toda a srie ruidosa implicaria
em considerar tudo como rudo, inclusive os ciclos da srie ideal. Para que esses ciclos
no influenciem na medida do rudo, uma soluo utilizar janelas muito curtas, onde
a variao do ciclo no seja significativa. O mnimo tamanho possvel para o clculo da
covarincia duas posies da srie. Depois da escolha do tamanho da janela, desloca-se
essa janela por toda a srie e calcula-se a mdia de todas as covarincias calculadas. Para
confirmao dessa estratgia, realizou-se um experimento com a srie de Mackey-Glass,
com covarincia real de 0,01 para o rudo de medida. Testou-se diferentes janelas, de 2
at 20, como mostrado na figura 7.25. Os valores de janela pequena apresentam um valor
de parmetro bem prximo do ideal. Para janelas muito grandes, a covarincia estimada
maior pelo fato de estar mais suscetvel s oscilaes da srie.
Figura 7.25: Estimao do rudo de medida na srie de Mackey-Glass

Para sries de ciclo longo, como a Mackey-Glass, a estratgia de clculo de covarincias em janelas pequenas funciona satisfatoriamente, como mostrado na figura 7.25.
Em sries com ciclo muito curto, como a combinada de senos, mesmo a mnima janela
no ser suficiente para evitar oscilaes da srie. Nessa srie h uma oscilao muito
grande entre um instante e outro. Como obedece um ciclo semelhante ao seno, em apro-
98
ximadamente 3 instantes a srie variar de -1 para 1. Ento em mdia a srie variar

aproximadamente 2/3 em 1 passo. A estratgia descontar a covarincia dessa estimativa
de tendncia da covarincia total da janela a cada passo. Por exemplo, a covarincia do
vetor 0 0, 6666 0,2222. Com esse mecanismo, tornou-se possvel estimar, com janela de 2 posies, os valores de parmetros na srie combinada de senos, como mostrado
na figura 7.26. O valor estimado do parmetro mantm-se um pouco acima do ideal, em
todos os graus de rudo. Observa-se tambm que a razo entre os valores de parmetros
diminui com o aumento do rudo, sendo que os rudos maiores so mais fceis de medir.
Figura 7.26: Estimao do rudo de medida na srie combinada de senos

Essa estratgia de descontar a covarincia da variao de amplitude mdia da srie
mais eficiente quando se tem um bom conhecimento dos tamanhos mdios dos ciclos.
Mesmo com as dificuldades de ajuste exato do parmetro, a diferena no MSE final do
mtodo no to grande. Por exemplo, na figura 7.26 mostrada uma diferena na
escolha do parmetro ideal R = 0, 09. No exemplo, atribudo o valor de 0,107. Essa
diferena de quase 20% a mais ir produzir um acrscimo no MSE final de apenas 0,3%.
Pode-se concluir que erros pequenos (menores que 50%) no ajuste dos parmetros no
causam aumento significativo no erro final. Com isso, as estimativas de parmetros aqui
apresentadas proporcionam desempenhos satisfatrios para o mtodo.
99
CONSIDERAES FINAIS
Neste captulo ser realizado um apanhado geral das idias do mtodo proposto e da
sua estrutura, ressaltando as principais comparaes e sintetizando os resultados. Tambm
so comentadas as sugestes de trabalhos futuros que este trabalho proporcionou.
8.1
Concluses
Este trabalho apresentou uma nova abordagem para a predio de sries temporais,
aplicando conjuntamente uma rede neural de mltiplas camadas com o mtodo estatstico
Filtro de Kalman Estendido. O novo mtodo pode ser utilizado em sries com grandes
no-linearidades, modelo gerador desconhecido e com incidncia de rudo nas medies
das entradas. A RN atua como processo previsor do FKE, auxiliando na predio do
modelo no-linear desconhecido da srie. O restante do FKE filtra o rudo, iterativamente
com a RN, melhorando o desempenho de todo o conjunto (FKE e RN juntos) do mtodo.
A utilizao de uma RN como processo do FKE aumenta muito a aplicabilidade que
o filtro possui isoladamente. O Filtro de Kalman e suas variantes s podem ser aplicados
quando o modelo estatstico da srie conhecido. Em sries com modelo parcialmente
conhecido e com necessidade de predio em tempo real, pode ser usado um mtodo hbrido como o Neural Extended Kalman Filter (NEKF). O novo mtodo neuro-estatstico
(NE) atende a necessidade de predio de sries em que o modelo totalmente desconhecido, com conjuntos de dados para treinamento off-line, como grande parte das sries
temporais mais importantes atualmente. Grandes no-linearidades nessas sries tambm
podem ser tratadas mais cuidadosamente pela colocao da RN como centro do processo
preditivo e pela possibilidade de a RN possuir uma poderosa estrutura de camadas ocultas
e grande quantidade de neurnios nessas camadas, como feito neste trabalho. O mtodo
proposto adapta-se condies realistas de aplicaes, como o treinamento com dados
ruidosos e imprecises nas estimativas dos parmetros.
Os resultados do mtodo neuro-estatstico em predio e filtragem so comparados
com os resultados da mesma arquitetura de rede MLP utilizada na estrutura do mtodo.
As comparaes so feitas a partir de experimentos em dois modelos de sries temporais,
acrescidos de rudo: a famosa srie catica de Mackey-Glass; e uma srie combinada
de senos, utilizada como desafio na rea de redes neurais. Em ambos benchmarks o
mtodo NE obteve resultados satisfatrios, melhorando o resultado da RN "pura" em
todos os experimentos. O mtodo NE tambm ajustou-se melhor aos picos das sries,
detectando melhor as tendncias dos ciclos. O erro mdio quadrado (MSE) do mtodo
tambm permaneceu sempre abaixo da varincia do rudo, podendo ser considerado um
bom filtro.
O mtodo NE funciona sem o conhecimento dos valores exatos de rudo de medida
100
(varincia R) e rudo de processo (varincia Q). O mtodo depende apenas do conhecimento de uma proporo aproximada entre os parmetros Q e R. Mostra-se como esses
parmetros podem ser estimados. O parmetro Q aproximado pelo MSE da sada da RN
e o parmetro R, pela passagem prvia de um filtro nos dados da srie. De acordo com
experimentos realizados, mesmo que os parmetros tenham valores distantes do ideal, o
acrscimo no erro final do mtodo ser pequeno.
O mtodo NE aprende com os erros da prpria rede neural interna, utilizando as matrizes de covarincias dos erros e Ganho de Kalman. Quando a previso da RN est
desviando em um sentido, as matrizes internas do mtodo ajustam-se para corrigir o erro,
adaptando-se novamente quando o erro baixar. O mtodo hbrido proporciona um aprendizado duplo (algoritmo de treinamento da RN e covarincias do erro do FKE) com os
dois mtodos alimentando-se mutuamente, explicando os bons resultados obtidos.
8.2
Sugestes de Trabalhos Futuros
Uma das sugestes de trabalhos futuros a realizao de novos treinamentos da RN do

mtodo NE, quando o mtodo tiver filtrado parcialmente ou totalmente os dados. Em uma
primeira passada, a srie poderia ser totalmente filtrada, utilizando tambm o NE sobre
o conjunto de treinamento. Em uma segunda passada, a RN do mtodo seria treinada
com parte da srie j suavizada, preferencialmente a parte que era conjunto de teste no
passo anterior. A segunda passada completaria aps prever novamente o agora conjunto
de treinamento. A suavizao da srie de trs para frente tambm poderia ser realizada,
intercalando-se cada passo desses com outra passada na ordem original. As suavizaes
no sentido inverso serviriam para compensar o perodo de ajuste do mtodo em cada
passada. Sugere-se um estudo dessa abordagem de predies sucessivas para anlise de
taxa de diminuio do erro a cada nova passada.
Tambm pode ser feita a tentativa de implementao do mtodo hbrido on-line, utilizando uma RN de treinamento instantneo como a Rede de Elman (ELMAN, 1990). Teoricamente o novo mtodo teria uma menor capacidade preditiva mas poderia ser aplicado
em predies de sries em tempo real. Esse mtodo teria aplicaes semelhantes s do
NEKF e mais algumas, por possuir a RN como processo. Esse mtodo neuro-estatstico
on-line seria uma alternativa para problemas de deteco de trajetrias em tempo real,
quando o modelo de trajetria totalmente desconhecido.
Outro trabalho proposto a implementao do mtodo neuro-estatstico com o UKF
para comparar com a verso com o FKE. Outra sugesto a utilizao de rudos com
distribuies no-gaussianas no FK. Seria feita uma anlise da capacidade de um mtodo
neuro-estatstico para tratar esse tipo de rudo e a relevncia desse tratamento.
101
REFERNCIAS
BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time Series Analysis: forecasting

and control. 3rd ed. New Jersey, USA: Prentice Hall, 1994.
BROWN, R. G. Smoothing, Forecasting and Prediction of Discrete Time Series. [S.l.]:
Prentice-Hall International, 1963.
CASTRO, M. C. F. de. Predio No-Linear de Sries Temporais Usando Redes Neurais RBF por Decomposio em Componentes Principais. 2001. Tese (Doutorado em
Cincia da Computao) Universidade Estadual de Campinas, Campinas, BR.
CLOUSE, D. S. et al. Time-Delay Neural Networks: representation and induction of
finite-state machines. IEEE Transactions on Neural Networks, [S.l.], v.8, n.5, p.1065
1070, Sept. 1997.
CORTEZ, P. A. R. Algoritmos Genticos e Redes Neuronais na Previso de Sries
Temporais. 1997. Dissertao (Mestrado em Cincia da Computao) Universidade
do Minho, Braga, PT.
CROWDER, R. S. Predicting the Mackey-Glass Timeseries with Cascade-correlation Learning. In: CONNECTIONIST MODELS SUMMER SCHOOL, 1990. Proceedings. . .
San Mateo: CA: Morgan Kaufmann, 1991. p.117123.
CYBENKO, G. Approximation by Superpositions of a Sigmoidal Function. Mathematics
of Control, Signal and Sytems, [S.l.], v.2, p.303314, 1989.
DECRUYENAERE, J. P.; HAFEZ, H. M. A Comparison Between Kalman Filters and
Recurrent Neural Networks. In: JOINT CONFERENCE ON NEURAL NETWORKS,
IJCNN, 1992, Baltimore, MD. Proceedings. . . [S.l.: s.n.], 1992. p.247251.
ELMAN, J. L. Finding Structure in Time. Cognitive Science, [S.l.], 1990.
ENGEL, P. M. Redes neurais artificiais : uma viso geral das suas potenciais aplicaes.
In: FRUM DE INTELIGNCIA ARTIFICIAL DA REGIO SUL, 2001, Canoas, BR.
Anais. . . Canoas: Ulbra, 2001. 1 CD-ROM.
ENGEL, P. M. Filtro de Kalman. Notas de Aula da disciplina de Sistemas Conexionistas
Avanados, Segundo semestre de 2005. PPGC da UFRGS.
CROCE FILHO, J. Estatstica II. Juiz de Fora, BR: Universidade Federal de Juiz de Fora,
2000. Disponvel em: <http://twiki.dcc.ufba.br>. Acesso em: dez. 2006.
102
FISHER, W. A.; RAUCH, H. E. Augmentation of an Extended Kalman Filter with a

Neural Network. In: IEEE WORLD CONGRESS ON COMPUTATIONAL INTELLIGENCE; IEEE INTERNATIONAL CONFERENCE ON NEURAL NETWORKS, 1994.
Proceedings. . . Piscataway: IEEE, 1994. v.2, p.11911196.
GANG, L.; YU, F. A hybrid nonlinear autoregressive neural network for permanentmagnet linear synchronous motor identification. In: INTERNATIONAL CONFERENCE
ON ELECTRICAL MACHINES AND SYSTEMS, ICEMS, 8., 2005. Proceedings. . .
Beijing: Internacional Academic Publishers, 2005. v.1, p.310314.
GIRONDEL, V.; CAPLIER, A.; BONNAUD, L. Real Time Tracking of Multiple Persons by Kalman Filtering and Face Pursuit for Multimedia Applications. In: IEEE
SOUTHWEST SYMPOSIUM ON IMAGE ANALYSIS AND INTERPRETATION, 6.,
2004. Proceedings. . . Piscataway: NJ: IEEE, 2004. p.201205.
GLYMOUR, C. et al. Statistical Inference and Data Mining. Communications of the
ACM, New York, v.39, n.11, p.3541, Nov. 1996.
GUANG-FU, M.; XUE-YUAN, J. Unscented Kalman Filter for Spacecraft Attitude Estimation and Calibration Using Magnetometer Measurements. In: INTERNATIONAL
CONFERENCE ON MACHINE LEARNING AND CYBERNETICS, 2005. Proceedings. . . [S.l.: s.n.], 2005. v.1, p.506511.
HAYKIN, S. Redes Neurais: princpios e prtica. 2.ed. Porto Alegre, BR: Bookman,
2001. 900p. Traduo da 2. ed. por Paulo Martins Engel.
HAYKIN, S. Kalman Filter and Neural Networks. Ontario, CA: John Wiley & Sons,
2001.
HAYKIN, S. Communication Systems. 4th ed. New York, USA: John Wiley & Sons,
2001. 816p.
JANG, J.-S. R. ANFIS: adaptive-network-based fuzzy inference system. IEEE Transactions on Systems, Man and Cybernetics, [S.l.], v.23, n.3, p.665685, May 1993.
JORIS, R. F. Extrao de Conhecimento de Redes Neurais Artificiais Usando Seleo
de Atributos. 2005. Dissertao (Mestrado em Cincia da Computao) Pontifcia
Universidade Catlica do Rio Grande do Sul.
KALMAN, R. E. A New Approach to Linear Filtering and Prediction Problems. Transactions of the Journal of Basic Engineering, ASME, [S.l.], v.82, n.Series D, p.3545,
1960.
KOHONEN, T. The Self-Organizing Map. Proceedings of the IEEE, Piscataway, v.78,
n.9, p.14641480, Sept. 1990.
KORNIYENKO, O. V.; SHARAWI, M. S.; ALOI, D. N. Neural Network Based Approach
for Tuning Kalman Filter. In: IEEE INTERNATIONAL CONFERENCE ON ELECTRO
INFORMATION TECHNOLOGY, 2005. Proceedings. . . [S.l.: s.n.], 2005. p.15.
KOVCS, Z. L. Redes Neurais Artificiais: fundamentos e aplicaes. 3.ed. So Paulo,
BR: Livraria da Fsica, 2002. 174p.
103
KRAMER, K. A.; STUBBERUD, S. C. Impact Time and Point Predicted Using a Neural
Extended Kalman Filter. In: INTERNATIONAL CONFERENCE ON INTELLIGENT
SENSORS, SENSOR NETWORKS AND INFORMATION PROCESSING CONFERENCE, 2005. Proceedings. . . [S.l.]:IEEE, 2005. p.1992004.
LAVIOLA, J. J. A Comparison of Unscented and Extended Kalman Filtering for Estimating Quaternion Motion. In: AMERICAN CONTROL CONFERENCE, 2003. Proceedings. . . [S.l.: s.n.], 2003. v.3, p.24352440.
MACHADO, K. F. Mdulo de Auto-Localizao para um Agente Exploratrio
usando Filtro de Kalman. 2003. Dissertao (Mestrado em Cincia da Computao)
Universidade Federal do Rio Grande do Sul, Porto Alegre, BR.
MACKEY, M. C.; GLASS, L. Oscillation and Chaos in Physiological Control Systems.
Science, [S.l.], n.197, p.287289, July 1977.
MANTOVANI, G. F. Previso de Sries Temporais Redes Neurais Artificiais vs. Modelos ARIMA. 2004. 62f. Monografia (Bacharelado em Estatstica) - Instituto de Matemtica, UFRGS, Porto Alegre.
MCCULLOCH, W. S.; PITTS, W. A Logical Calculus of the Ideas Immanent in Nervous
Activity. Bulletin of Mathematical Biophysics, [S.l.], v.5, p.115133, 1943.
MORETTIN, P. A.; TOLOI, C. M. C. Modelos para Previso de Sries Temporais.
Poos de Caldas, MG: 13o Colquio Brasileiro de Matemtica, 1981. v.2.
MORETTIN, P. A.; TOLOI, C. M. C. Anlise de Sries Temporais. So Paulo, BR:
Blcher, 2004. 535p.
NUNES, R. C. Adaptao Dinmica do timeout de Detectores de Defeitos atravs
do Uso de Sries Temporais. 2003. Tese (Doutorado em Cincia da Computao)
Instituto de Informtica, Universidade Federal do Rio Grande do Sul, Porto Alegre, BR.
NYGREN, I.; JANSSON, M. Terrain Navigation for Underwater Vehicles Using the Correlator Method. IEEE Journal of Oceanic Engineering, [S.l.], v.29, n.3, p.906915,
July 2004.
OLIVEIRA, G. A. Sistema de Controle de Estoques Utilizando a Metodologia Box &
Jenkis de Sries Temporais. 2002. Dissertao (Mestrado em Cincia da Computao)
Universidade Federal do Paran, Curitiba, BR.
OWEN, M. W.; STUBBERUD, S. C. Interacting Multiple Model Tracking Using a Neural
Extended Kalman Filter. In: INTERNATIONAL JOINT CONFERENCE ON NEURAL
NETWORKS, IJCNN, 1999. Proceedings. . . [S.l.: s.n.], 1999. v.4, p.27882791.
OWEN, M. W.; STUBBERUD, S. C. A Neural Extended Kalman Filter Multiple Model
Tracker. In: OCEANS, 2003. Proceedings. . . [S.l.: s.n.], 2003. v.4, p.21112119.
PAYLE, D. Data Preparation for Data Mining. San Francisco, USA: Morgan Kaufmann, 1999. 540p.
RUMELHART, D. E. et al. Learning Internal Representation by Error Propagation. Parallel Distributed Processing: explorations in the microstucture of cognition, Cambridge:
The MIT Press, 1986. v.1, p.318362.
104
RUSSELL, S. J.; NORVIG, P. Inteligncia Artificial. 2.ed. Rio de Janeiro, BR: Campus,
2004.
RUTGEERTS, J. et al. A Demonstration Tool with Kalman Filter Data Processing for
Robot Programing by Human Demonstration. In: INTERNATIONAL CONFERENCE
ON INTELLIGENT ROBOTS AND SYSTEMS, 2005. Proceedings. . . [S.l.: s.n.], 2005.
SHUHUI, L. Comparative analysis of backpropagation and extended Kalman filter in pattern and batch forms for training neural networks. In: INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, IJCNN, 2001. Proceedings. . . [S.l.]: IEEE,
2001. v.1, p.144149.
STUBBERUD, S. C.; KRAMER, K. A. A 2-D Intercept Problem Using the Neural Extended Kalman Filter for Tracking and Linear Predictions. In: SOUTHEASTERN SYMPOSIUM ON SYSTEM THEORY, SSST, 37., 2005. Proceedings. . . [S.l.: s.n.], 2005.
p.367372.
STUBBERUD, S. C.; LOBBIA, R. N.; OWEN, M. An Adaptive Extended Kalman Filter
Using Artificial Neural Networks. In: IEEE CONFERENCE ON DECISION AND CONTROL, 37., 1995, New Orleans, LA. Proceedings. . . [S.l.: s.n.], 1995. v.2, p.18521856.
STUBBERUD, S. C.; OWEN, M. W. Targeted On-line Modeling for an Extended Kalman
Filter Using Artificial Neural Networks. In: IEEE INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS; IEEE WORLD CONGRESS ON COMPUTATIONAL INTELLIGENCE, 1998. Proceedings. . . [S.l.: s.n.], 1998. v.2, p.10191023.
TAKENGA, C. M. et al. Comparison of Gradient Descent Method, Kalman Filtering
and Decoupled Kalman in Training Neural Networks used for Fingerprint-Based Positioning. In: IEEE VEHICULAR TECHNOLOGY CONFERENCE, 60, 2004. Proceedings. . . [S.l.]: IEEE, 2004. v.6, p.41464150.
TAYLOR, W. K. Electrical Simulation of Some Nervous System Functional Activities.
Information Theory, [S.l.], v.3, p.314328, 1956.
VEPA, R. Application of neuro-Kalman filtering to attitude estimation of platforms and
space vehicles. In: IEE COLLOQUIUM ON HIGH ACCURACY PLATFORM CONTROL IN SPACE, 1993. Proceedings. . . [S.l.]: IEE, 1993. v.5, p.13.
WAN, E. A. Times Series Prediction by Using a Connectionist Network with Internal Delay Lines. In: NATO ADVANCED RESEARCH WORKSHOP ON COMPARATIVE TIMES SERIES ANALYSIS, 1992, Santa Fe N. M. Proceedings. . . Reading, MA:
Addison-Wesley, 1994.
WAN, E. A.; MERVE, R. V. The Unscented Kalman Filter for Nonlinear Estimation.
In: IEEE WORLD CONGRESS ON COMPUTATIONAL INTELLIGENCE. ADAPTIVE SYSTEMS FOR SIGNAL PROCESSING, COMMUNICATIONS, AND CONTROL SYMPOSIUM, 2000, Lake Louise, Alta, Canada. Proceedings. . . [S.l.: s.n.],
2000. p.153158.
WAN, E. A.; MERVE, R. V.; NELSON, A. T. Dual Estimation and the Unscented Transformation. Advances in Neural Information Processing Systems, [S.l.], n.12, p.666
672, 2000.
105
WELCH, G.; BISHOP, G. An Introduction to the Kalman Filter. Chapel Hill: University of North Carolina, 2001. Technical report.
YEE, L.; JIANG-HONG, M.; WEN-XIU, Z. A New Method for Mining Regression Classes in Large Data Sets. IEEE Transactions on Pattern Analysis and Machine Intelligence, [S.l.], v.23, 2001.
ZHAN, R.; WAN, J. Neural Network-aided Adaptive Unscented Kalman Filter for Nonlinear State Estimation. IEEE Signal Processing Letters, [S.l.], v.13, n.7, p.445448,
July 2006.

Método Neuro-Estatístico para Predição de Séries Temporais Ruidosas

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Método Neuro-Estatístico para Predição de Séries Temporais Ruidosas

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

ELISEU CELESTINO SCHOPF

Mtodo Neuro-estatstico para Predio de

Dissertao apresentada como requisito parcial

Prof. Dr. Paulo Martins Engel

Porto Alegre, julho de 2007

CIP CATALOGAO NA PUBLICAO

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

LISTA DE ABREVIATURAS E SIGLAS . . . . . . . . . . . . . . . . . . . .

4 PREDIO DE SRIES TEMPORAIS . . . . . . .

6 PROPOSTA DO MTODO NEURO ESTATSTICO . . . . . . . . . . .

LISTA DE ABREVIATURAS E SIGLAS

Alisamento Exponencial Linear de Brown

AEQB Alisamento Exponencial Quadrtico de Brown

Alisamento Exponencial Simples

Back-propagation - Algoritmo da retropropagao

DCBD Descoberta de Conhecimento em Base de Dados

Funo de densidade de probabilidade, para transio de estados

Filtro de Kalman Discreto

Filtro de Kalman Estendido

GRNN Rede Neural de Regresso Geral

Modelos de Espao de Estados

Modelos Lineares Dinmicos

Multi Layer Perceptron - Perceptron de Mltiplas Camadas

Mdias Mveis Simples

Minimum Square Error - Erro Mnimo Quadrado

Nonlinear Auto-regressive - Modelo Auto-regressivo No-linear

Nonlinear Output Error - Modelo regressivo correspondente ao NARX

Processos Lineares Estacionrios

PLNEH Processos Lineares No-estacionrios Homogneos

Processos de Memria Longa

Predio de Sries Temporais

Radial Basis Function - Funes de Base Radial, um modelo de rede neural

Rede Neural. No contexto deste trabalho significa RNA

Rede Neural Artificial

Self-Organizing Maps - Mapas Auto-organizveis

Focused Time Lagged Feedforward Network - Redes alimentadas adiante focadas

TDNN Time-Delay Neural Networks - Redes recorrentes atrasadas no tempo

Unscented Kalman Filter - Filtro de Kalman Unscented, uma variao do Filtro

Varivel Aleatria Discreta

Modelo de neurnio artificial . . . . . . . . . . . . . . . . . . . . . .

Modelo de funcionamento do Filtro de Kalman . . . . . . . . . . . .

Srie temporal no-estacionria . . . . . . . . . . . . . . . . . . . .

Previso do sistema no-linear sem o Neuro-observador . . . . . . .

Estrutura da rede neural . . . . . . . . . . . .

Srie temporal catica de Mackey-Glass . . . . . . . . . . . . . . . .

Comparao da RN com o FKD, nos quatro sistemas . . . . . . . . .

Comparao do NEKF com o NN-UKF . . . . . . . . . . . . . . . .

Mdia dos erros e desvios padres do erro para a RN e o NE . . . . .

Neural Statistical Method to Noisy Time Series Prediction

Keywords: artificial intelligence, artificial neural networks, statistical methods, Extended

A descoberta de conhecimento em bases de dados (DCBD) e a minerao de dados

semelhante inferncia estatstica no-paramtrica, no sendo feitas suposies prvias

As Redes Neurais (RNs) formam um importante paradigma computacional, envolvem

O que so Redes Neurais

com a propenso natural de transformar conhecimento experimental em conhecimento

Importncia das Redes Neurais

Mapeamento de Entrada-Sada As RNs podem aprender atravs de exemplos, a partir

O neurnio artificial a unidade de processamento bsica das redes neurais, sendo

3. Uma funo de ativao, que restringe a amplitude da sada do neurnio. A sada

Figura 2.1: Modelo de neurnio artificial

A funo de ativao de um neurnio artificial ( ()) calcula a sada (restringindo a

[Funo Tangente Hiperblica] Limita a entrada no intervalo [1, 1]: