Modelos Não Lineares Recorrentes Com Capacidade de Extrapolação

UNIVERSIDADE FEDERAL DO PARÁ
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

– PPGEE
MODELAGEM E IDENTIFICAÇÃO DE SISTEMAS DINÂMICOS

Responsável : Prof. Dr. Carlos Tavares da Costa Junior
MODELOS NÃO LINEARES RECORRENTES COM CAPACIDADE DE EXTRAPOLAÇÃO

– UM ESTUDO PARA PREDIÇÃO DO ÍNDICE DE PREÇOS AO CONSUMIDOR (IPC-BR)
1
Msc. Lídio Mauro Lima de Campos

Junho de 2011
MOTIVAÇÃO
 Atualmente, observa-se um aumento na demanda por predições
e análise de tendência de variáveis em qualquer área de atuação
profissional.
 Muitas empresas e órgãos do governo buscam desenvolver
ferramentas computacionais que possibilitem fornecer predições
automáticas acerca de valores de variáveis que estão sendo
monitorados, o que auxilia na definição de políticas estratégicas,
no processo de tomada de decisão e no planejamento a curto e
médio prazo dessas organizações.
 As Redes Neurais Artificiais (RNA) tem sido utilizadas de
forma crescente para predição de séries temporais em vários
ramos de negócio, economico-financeiro [1][2], predição de
séries caóticas [3], consumo de energia[11] dentre outras .
2
OBJETIVOS
 Apresentar de forma sucinta algumas Representações Não-Lineares usadas em
Identificação de Sistemas.
 Apresentar de Forma detalhada as Redes neurais Artificiais como um tipo de
Representação não Linear.
 Introduzir o conceito de Topologia de Redes Neurais.
 Mostrar o algoritmo de aprendizado “BACKPROPAGATION” para Redes
Neurais Artificiais MLP.
 Apresentar a Dedução Matemática do “BACKPROPAGATION”.
 Expor três modelos de Redes Neurais Recorrentes, baseadas no Modelos ARX e
NARX, bem como mostrar as modificações no Algoritmo
“BACKPROPAGATION”, para que as Redes possam contemplar esses modelos.
 Fazer um Estudo Comparativo das três Redes (ARX,ARXI,NARX) na tarefa de
Predição da Série Temporal do IPC-Br.
 Apresentar Resultados para Predição do IPC-Br utilizando um Sistema Híbrido
Evolucionário. 3
AGENDA
 1-Introdução
 2-Representações não Lineares
 Série de Volterra, Representações NARX, NARMAX.
 Redes Neurais Artificiais.
 Conceito, Solução de problemas por Redes Neurais, Neurônio Biológico, Topologias de
RNAs.
 “Backpropagation Algoritmo”, “Backpropagation Algoritmo-Dedução Matemática”.
 Modelo de Rede Recorrente com Saída Realimentada (Modelo ARX).
 Modelo de Redes Recorrente com camada intermediária Realimentada.
 Modelo de Rede Recorrente NARX.
 3-Metodologia Utilizada para Identificação e Validação
 Coleta de Dados, Normalização, Definição de valores passados na série que
serão considerados na predição, separação de dados da série (identificação e
validação).
 Treinamento e seleção das Melhores Redes.
 Estudo da Capacidade de Generalização, Validação dos Modelos.
4
 4-Conclusões
 5-Referências
1-INTRODUÇÃO
 1.1-REPRESENTAÇÕES NÃO-LINEARES
 Os Sistemas Dinâmicos na prática são não-lineares, em algumas

situações aproximações lineares são suficientes para representar o
comportamento desses sistemas.
 Em uma série de situações Modelos Lineares não serão
satisfatórios e Representações Não Lineares devem ser usadas.
 Utilização de Modelos Não-Lineares traz um inevitável aumento
da complexidade dos algoritmos a serem utilizados.
 Os Modelos Não-Lineares conseguem reproduzir certos regimes
dinâmicos que os Modelos Lineares não conseguem representar.
5
2-REPRESENTAÇÕES NÃO-LINEARES
 2.1-Série de Volterra
 A saída y(t) de um sistema não-linear com entrada u(t) pode ser
representada pela chamada série de Volterra como:
 Sendo as funções são os núcleos que representam generalizações

não-lineares da resposta ao impulso (t). Para um sistema linear j=1
a equação acima se reduz à conhecida integral de Convolução.
 A dificuldade do uso da série de Volterra diz respeito ao grande
número de parâmetros a determinar.
 Série de Volterra tenta explicar a saída em função apenas da
função de entrada.
 Uma forma de reduzir o número de parâmetros é utilizar valores
da própria saída, além de valores de entrada, o que corresponde a
utilizar recorrências ou auto regressão da saída. 6
 Representações NARX – são modelos discretos que explicam o valor da
saída y(n) em função dos valores prévios dos sinais de saída e de entrada.
 2.2-Representações NARX (Nonlinear Autoregressive model with
eXogenous input), dado por :
sendo que , são os maiores atrasos em y e u, é o tempo morto.

 2.3 NARMAX (Nonlinear Autoregressive Moving Average Model With
Exogenous Variable).
 A fim de evitar polarização de parâmetros é comum incluir termos de ruído
no modelo.
 Dessa forma tem-se o modelo NARMAX.
 e(K) é o ruído e ne é o maior atraso no modelo do ruído.

 A representação é bem geral, uma dificuldade óbvia é descobrir a função
7
F.
 2.3 NARMAX
 Existem duas representações NARMAX comumente usadas para F são a
polinomial e a racional.
 A) Modelo Polinomial NARMAX sem atraso puro de tempo.
ny nu ne

y  n    ci  y ( n  j ) u ( n  r ) e(n  q )
i j 1 r 1 q 0
 B)Modelos Racionais são formados pela razão entre dois polinômios.
ny nu ne dy du de
y  n   ( ci  y (n  j ) u (n  r ) e(n  q)) /( di  y (n  j ) u (n  r ) e(n  q ))
i j 1 r 1 q 0 i j 1 r 1 q 0
 Modelos racionais podem vir a ser mais eficientes na modelagem de certos

sistemas quando comparados com modelos polinomiais.
 Entretanto, os modelos racionais são mais sensíveis ao ruído.
8
2.4-REDES NEURAIS ARTIFICIAIS
 2.4.1-Conceito
 RNAs são sistemas paralelos distribuídos compostos por unidades
de processamento simples (neurônios artificiais) que calculam
determinadas funções matemáticas (normalmente não lineares).
Tais unidades são dispostas em uma ou mais camadas e
interligadas por um grande número de conexões, geralmente
unidirecionais. Na maioria dos modelos essas conexões estão
associadas a pesos, os quais armazenam o conhecimento adquirido
pelo modelo para ponderar a entrada recebida por cada neurônio
da rede.
9
 2.4.2-Soluções de Problemas por Redes Neurais
 Em RNAs , o procedimento usual na solução de problemas
passa inicialmente por uma fase de aprendizagem , em que um
conjunto de exemplos é apesentado para a rede, a qual extrai
as características necessárias para representar a informação
fornecida.
 A capacidade de aprender e de generalizar a informação
aprendida é sem dúvida, o atrativo principal da solução de
problemas por RNAs.
 As possibilidades de RNAs vão muito além do que mapear
relações de entrada e saída. As RNAs podem extrair
informações não apresentadas de forma explicita através de
exemplos.
10
 2.4.3-Neurônio Biológico
11
 Fonte: http://euclid.ii.metu.edu.tr/~ion526/demo/chapter1/section1.1/index.html
 2.4.3-Histórico
 1943-Warren McCulloch e Walter Pits [1] – Descreveram um modelo de
neurônio artificial e apresentaram suas capacidades computacionais.
McCulloch Pits
12
http://euclid.ii.metu.edu.tr/~ion526/demo/java/NNOC/ArtificialNeuron.html
http://euclid.ii.metu.edu.tr/~ion526/demo/java/NNOC/ArtificialNeuron.html
13
 1949 - Donald Hebb mostrou como a plasticidade da
aprendizagem de redes neurais é conseguida através da variação
dos pesos de entrada dos neurônios. Propôs uma teoria para
explicar o aprendizado em neurônios biológicos baseada no
esforço das ligações sinápticas (Regra Hebb).
 1960 Widrow e Hoff – Regra de Aprendizado “Regra Delta” –
Baseada no Método do Gradiente Descendente para
minimização do erro de saída de um neurônio.
 1958 – Rosenblatt “Perceptron” – sinapses ajustáveis, as RNAs
poderiam ser treinadas para classificar certos tipos de padrões.
14
 “Perceptronde Rosenblatt” – 1 Camada , Neurônios de MCP,
Função Limiar, Aprendizado Supervisionado.
15
 2.4.3 – Histórico
 “Perceptron de Rosenblatt”
 Algoritmo de treinamento do Perceptron

 1-Iniciartodas as conexões com pesos aleatórios.
 2-Repita até que o erro E seja satisfatoriamente pequeno (E = e).
 Para cada par de treinamento (X,d), faça:
 Calcular a resposta obtida O;
 Se o erro não for satisfatoriamente pequeno E > e, então:
 Atualizar pesos: Wnovo := W anterior + n E X .
16
 1969 – “Minsky e Papert” chamaram a atenção para algumas
tarefas que o “perceptron” de uma única camada descrito por
Rosenblatt não era capaz de executar. O mesmo estava
limitado a solução de problemas linearmente separáveis.
 1970 – Abordagem conexionista ficou adormecida. 17

 1982 – Jonh Hopfiled , propriedades associativas das
RNAs.
 1986 – Rumelhart, Hinton e Williams “Algoritmo de
treinamento backpropagation” , mostrou que a visão de
Minsky e Papert sobre o perceptron era bastante
pessimista. Redes de múltiplas camadas são de fato
capazes de resolver “problemas dificeis de aprender”.
 Anos 90 aos Dias atuais.
 Variações do algoritmo “backpropagation” buscando maior
velocidade de convergencia.
 Outros problemas foram focados : Controle de generalização ,
18
construção de sistemas neurais hibridos.
 2.4.4 – Topologias de Redes Neurais
19
 2.4.5 – “BackPropagation” - Algoritmo
 1.4.1-Seja A o número de unidades da camada de entrada,
conforme determinado pelo comprimento dos vetores de entrada
de treinamento. Seja C o número de unidades da camada de
saída. Seja B o número de unidades da camada oculta. As
camadas de entrada e oculta, têm, cada uma, uma unidade extra
usada como limite; portanto as unidades dessas camadas, às
vezes, serão indexadas pelos intervalos (0,....,A) e (0,......,B).
Denota-se os níveis de ativação das unidades da camada de
entrada por xj, da camada oculta por hj e da camada de saída por
oj. Os pesos que conectam a camada de entrada a camada oculta
são denotados por , onde i indexa as unidades de entrada e o j, as
unidades ocultas. Da mesma forma, os pesos que conectam a
camada oculta à camada de saída são denotados por , com i 20
indexando as unidades ocultas e j as unidades de saída.
 2.4.5 – BackPropagation - Algoritmo
 1.4.2-Inicializar os pesos da rede. Cada peso deve ser
ajustado aleatoriamente para um número entre –0.1 e 0.1.
w1ij=aleatório(-0.1;0.1), w2ij=aleatório(-0.1;0.1) para todo
i=0,.....,A; j=1,......,B; para todo i=0,.....,B; j=0,......,C.
 1.4.3- Inicializar as ativações das unidades limite. Seus
valores nunca mudam xo=1.0 e ho=1.0.
 1.4.4- Escolher um par de padrão de entrada-saída.
Supondo que o vetor de entrada seja xi e o vetor de saída
seja yj. Atribuem-se níveis de ativação às unidades de
entrada.
21
 2.4.4.5-Propagar a ativação das unidades da camada de
entrada para as unidades da camada oculta, usando a
função de ativação.
para , para todo j=1,...,B. (A.1)
 2.4.4.6-Propaga-se as ativações das unidades da camada
oculta para as unidades da camada de saída, usando a
função de ativação.
para todo j=1,........,C. (A.2)
22
 2.4.4.7-Computar os erros das unidades da camada de saída,
denotados por . Os erros baseiam-se na saída real da rede () e
na saída ().
para todo j=1,......,C (A.3)
 2.4.4.8-Computar os erros das unidades da camada oculta,
denotados por 1j.
para todo j=1,.....,B (A.4)
23
3-REDES NEURAIS ARTIFICIAIS
 2.4.4.9-Ajuste dos pesos entre a camada oculta e a camada de
saída. O coeficiente de aprendizagem é denotado por , sua
função é a mesma de na aprendizagem por perceptrons :
(A.5)
para todo i=0,......,B; j=1,.....,C
 2.4.4.10-Ajuste os pesos entre a camada de entrada e a camada oculta : (A.6)
para todo i=0,......,A; j=1,......,B
 2.4.4.11-Vá para a etapa 4 e repita. Quando todos os pares entrada-saída
tiverem sido apresentados à rede, uma época terá sido completada. Repita as
etapas de 4 a 10 para tantas épocas quantas forem desejadas.
24
 2.4.5 – “BackPropagation” Dedução Matemática
 O erro para um nó de saída durante o treinamento é m=(ym-om),
com oj a saída obtida e yj a saída desejada para o nó j de saída. O
erro que é minimizado pela regra delta generalizada é dado pela
equação (A.7).
 Deseja-se minimizar , logo o melhor caminho é ir no sentido
contrário ao gradiente, já que este aponta para o sentido crescente
da função.
(A.8)
onde: n=número de padrões que serão apresentados durante o treinamento. As
atualizações dos pesos são dadas pelas equações (A.9) e (A.10).
(A.9)
(A.10)
ONDE:= e = 25
 Deseja-se determinar as variações dos pesos relativos aos nós de saída, calcula-se o
gradiente negativo com relação aos pesos . Considerando cada componente de ,
separadamente obtém-se a equação (A.12).
 (A.12)
 (A.13) vem de
 (A.14)
 u= (A.15), = , u-1= (A.16)
 (A.17)
om o 
  m . u (A.18) (A.19) vem de (A.15)
w2km  u w2km
vem de (A.17)
 om 1 u
 (u  1)( hk ) (A.20)
 2 w2km
u u 26
om (u  1) om (1/ om  1)
 hk . 2   (1  om ).om .hk
w2km u w2km 1/ om 2
 = (A.12)
 (A.13)
 (A.20)
 = (A.21)
 = (A.22)
 (A.10)
 (A.24)
C 27
w1 jk (t  1)  w1 jk (t )   [(1  hk )hk . ( ynm  om )(1  om ).om .w2km ]xnj
m0
3-MODELOS DE REDES RECORRENTES
 3.1- Rede Recorrente com Saída Realimentada
 Esse primeiro modelo foi baseado no modelo ARX (Aguirre,
2007).
 Rede MLP cuja entrada consiste da própria saída realimentada com atrasos.
 Esse modelo é equivalente ao Modelo ARX( Autoregressive with exogenus
inputs)
(1)
28
Modelo 1- ARX
 3.1- Rede Recorrente com Saída Realimentada (ARX)
 Onde x(n) é a entrada do sistema e y(n) a saída, em que a função f(.) é uma função não
linear, geralmente desconhecida e x(n) e y(n) correspondem à entrada e saída no tempo n,
enquanto >0, é a ordem da memória de entrada.
 Quando a função f(.) é aproximada por uma rede perceptron de múltiplas camadas, a
topologia resultante é chamada rede recorrente ARX, sendo um caso particular da rede
apresentada na secção 2.3.
29
Modelo 1- ARX
 3.1.1-Formulação Matemática (Alterações no Backpropagtion).
 Considerações iniciais:
 Considere que A seja o número de unidades da camada de entrada, C o
número de unidades da camada de saída e B o número de unidades da
camada oculta.
 As camadas de entrada e oculta, têm, cada uma, uma unidade extra usada
como limite; portanto as unidades dessas camadas às vezes serão indexadas
pelos intervalos (0,....,A) e (0,......,B).
 Denotam-se os níveis de ativação das unidades da camada de entrada por xj
da camada oculta por hj e da camada de saída por oj.
 Os pesos que conectam a camada de entrada a camada oculta são denotados
por w1ij, onde i indexa as unidades de entrada e o j, as unidades ocultas. Da
mesma forma, os pesos que conectam a camada oculta à camada de saída são
denotados por w2ij com i indexando as unidades ocultas e j as unidades de
saída.
30
 A) Modelagem Matemática
 As modificações realizadas no “Backpropagation” para
aproximação do modelo ARX pelo modelo neural recorrente l
foram as seguintes: as saídas na camada intermediária são agora
dadas pela equação (2). Observa-as a inclusão das contribuições
das recorrências dadas pelo somatório de m=0 a C para os termos
om(t-1) na mesma.
 hk(t)=
 para t>0, h0=1, que é o valor do bias. O termo om(t-1) refere-se
a cada saída que é realimentada e C é o número de neurônios da
camada de saída, para t=0 o seu valor é om(t-1) =0.
31
 Alteração da Formulação matemática para correções dos Pesos rede ARX
C
[(1  hk ) hk . ( ynm  om )(1  om ).om .w2 km ]xnj
m0
 (B.1)
 (B.2)
Dedução a seguir:
32
 (B.4)
 = (B.5)
 (B.6)
 (B.7) idem (A.20)
 (B.8)
 =(B.9)
(B.10)

C A
  om ( t 1).w3( t )mk   Xnj ( t ).w1( t ) jk
e m 0 j 0
33
 (t)=, (B.11)
 (B.12)
 (B.13) vem de (B.9)
 (B.14) de (B.11) e (B.12))
 (B.15)
 (B.16)
1
(  1)
hk (t )
.om(t  1)
1 2
( )
hk (t )
hk (t )
 (1  hk (t )) hk (t ) 34
w3mk (t )
C
 n (1  hk (t ))hk (t )  (om (t )  ynm (t ))(1  om (t )).om (t ).om(t  1).w2km (t )
 =
w3mk t  m0
 (B.16)
 Logo:
C
w3mk (t  1)  w3mk (t )   (1  hk (t ))hk (t )  ( ynm (t )  om (t ))(1  om (t )).om (t ).om(t  1) w2 km (t )
m0
35
 3.2- Rede Recorrente com camada Intermediária Realimentada.
 O que se pretende na presente seção é apresentar a formulação de um
algoritmo baseado na regra delta generalizada para redes recorrentes
com a camada intermediária realimentada, a arquitetura da rede é
mostrada na Figura abaixo .
 Essa rede é um caso particular da Rede de Elman, no sentido de que
entrada exógena (exogenus input), não apresenta atrasos x(n), mas
apresenta a unidade de contexto realimentada com atrasos vq(n-1).
36
 3.2- Rede Recorrente com camada Intermediária Realimentada (ARX I).
 B)Modelagem Matemática
 As saídas na camada intermediária são agora dadas pela equação:
 hk(t)=
 para t>0, h(0)=1, que é o valor do bias. Os termos hp(t-1) são as

realimentações iguais a hk(t-1), para t=0 o seu valor é hp(t-1) =0.
 Alteração da Formulação matemática para correções dos Pesos rede
ARXI C
[(1  hk ) hk . ( ynm  om )(1  om ).om .w2 km ]xnj
m0
37
 3.3 - Rede Recorrente Com saída e Entrada Realimentadas (NARX)
 C)Modelagem Matemática
 As saídas na camada intermediária são agora dadas pela equação:
1
 hk(t)= C A
  om ( t 1). w 3( t ) mk  [ Xnj ( t )  Xnj ( t 1) .... Xnj ( t  du )] w1( t ) jk
1 e m 0 j 0
 para t>0, h(0)=1, que é o valor do bias. Os termos hp(t-1) são as realimentações iguais a
hk(t-1), para t=0 o seu valor é hp(t-1) =0.
 Alteração da Formulação matemática para correções dos Pesos rede NARX
C
w1 jk (t  1)  w1 jk (t )   [(1  hk )hk . ( ynm  om )(1  om ).om .w2km ]{xnj (t )  xnj (t  1)  ....  xnj (t  du )}
m0
C
w3mk (t  1)  w3mk (t )   (1  hk (t )) hk (t )  ( ynm (t )  om (t ))(1  om (t )).om (t ).om(t  1) w2km (t ) 38
m0
 3.3 - Rede Recorrente Com saída e Entrada Realimentadas (NARX)
39
4-PREDIÇÃO DE SÉRIES TEMPORAIS
 As primeiras tentativas no campo da predição de séries temporais
foram efetuadas nos:
 Anos 20, quando YULE (1927) [14] aplicou um modelo autorregressivo
linear no estudo de manchas solares.
 Nos anos 50, DOOB (1953) [15] prosseguiu a investigação com a análise
teórica de séries temporais estacionárias.
 Já nos anos 70, foram propostas as técnicas e metodologias que
obtiveram maior destaque a partir de então, reunidas no trabalho de BOX
& JENKINS (1976) [16].
 Nos últimos anos, considerável atenção tem sido dedicada a
métodos alternativos para o estudo de séries com padrões não-
lineares, destacando-se a utilização de redes neurais artificiais. O
emprego das arquiteturas MLP e Recorrentes, em virtude do
caráter essencialmente não-linear dessas estruturas.
40
 4.1-Metodologia
 Passo 1 - Obter a série temporal, ou seja, os valores históricos da variável a ser
predita um passo à frente. Normalizar os Dados, evitando que o intervalo de
excursão dos valores seja qualquer.
 Obter a Série Temporal – Normalizar
 Passo 2 - Definir quais valores passados da série serão

considerados na predição. Suponha aqui que L valores passados
consecutivos sejam considerados.
41
 4.1-Metodologia
 Passo 3 - Separe os dados da tabela anterior em 2 conjuntos:
conjunto de treinamento, conjunto de validação.
 Passo 4 - Treine a rede neural com o conjunto de treinamento (ela
vai produzir um mapeamento do RL no R1) e pare o treinamento
quando for atingido o valor mínimo do erro quadrático médio para
os dados de validação.
 Passo 5 – Avaliar o preditor recém-obtido junto aos dados de
validação.
 Passo 6 – Comparar as três arquiteturas de Redes Recorrentes
Apresentadas na secção 3.2 (ARX,ARXI, NARX) e selecionar a
melhor.
 Passo 7 – Realizar estudos adicionais a K passos a frente com a
42
melhor arquitetura.
5-IDENTIFICAÇÃO DO SISTEMA
 5.1 – Coleta de Dados (Série Temporal)
 A identificação se proprõe a obter modelos a partir de dados, é necessário
gerar tais dados.
 Os dados da Série temporal utilizada nas simulações foram obtidos do
Sistema Gerenciador de Séries Temporais (SGS) do Banco Central do Brasil (
http://www4.bcb.gov.br/pec/series/port/aviso.asp).
43
 5.1 – Coleta de Dados e Normalização
 Série Temporal utilizada (IPC-Br) - O ICP quantifica o custo de produtos em diferentes
momentos, em outras palavras são medidas do nível de preços de bens e serviços adquiridos pelas
famílias através do tempo, sendo útil para o cálculo da inflação.
 https://www3.bcb.gov.br/sgspub/consultarvalores/consultarValoresSeries.do?method=consultarValores
 https://www3.bcb.gov.br/sgspub/consultarvalores/consultarValoresSeries.do?method=visualizarGrafico
44
 5.2-Definir quais valores passados da série serão considerados na predição.
 A série temporal do IPC-Br disponível no site do Banco Central Disponível no Portal do Banco
Central , disponibiliza dados de jan 1900 a mai de 2011.
 Considerou-se para predição os dados de janeiro de 1998 a dezembro de 2010.
45
 5.2 – Série Temporal utilizada – (IPC-Br) – Normalização dos dados
46
 5.3-Separar os dados da série em 2 conjuntos: treinamento,
validação.
 Os dados escolhidos para simulação foram de janeiro de 1998 a dezembro
de 2002.
 Os dados para validação dos modelos foram de jan 2003 a dez de 2010.
47
 5.4-Treinar as rede neural de ARX, ARX I e NARX com o
conjunto de treinamento, parar o treinamento quando for
atingido o valor mínimo do erro quadrático médio para os
dados de validação.
 Estudo da capacidade de generalização dos Modelos de Redes
Neurais Recorrentes propostos.
 Os parâmetros utilizados nos algoritmos de treinamento foram:
um (1) neurônio na camada de entrada (input layer), quatro (4)
na intermediária e um (1) na de saída, taxa de aprendizagem
1.98 e 240000 épocas.
48
5.5-AVALIAÇÃO DOS PREDITORES OBTIDOS
CAPACIDADE DE GENERALIZAÇÃO – ESTUDO 1
0.1
0.08
0.06
MLP
ARXI
0.04 ARX
NARX
DES
0.02
0
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58
-0.02
A rede NARX apresentou um bom desempenho e convergência rápida e generalização

melhor que as demais, sendo que a rede ARX apesenta desempenho aproximado.
49
 5.6 – ESTUDOS ADICIONAIS COM AS MELHORES REDES
 Para a validação dos modelos testou-se a rede NARX, para diversos parâmetros,
inicialmente simulou-se uma rede com o seguinte número de neurônios um (1) na
camada de entrada, seis (6) na camada intermediária e um (1) na de saída, taxa de
aprendizagem 1.98 e 240000 épocas .
0.04
0.035
0.03
0.025
0.02
NARX
0.015
DES
0.01
0.005
0
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96
-0.005
-0.01
Gráfico 2 - Validação do Modelo Rede NARX N= 3 PASSOS.
50
 Entretanto, mudaram-se alguns parâmetros do treinamento, foram realizados vários
experimentos com objetivo de se obter uma melhor validação do modelo NARX. Isolou-
se uma das melhores soluções que foi obtida considerando-se os seguintes parâmetros :
número de neurônios um (1) na camada de entrada, oito (8) na camada intermediária e
um(1) na de saída, taxa de aprendizagem 30.98 e 240000 épocas. O Gráfico 3 ilustra os
resultados, percebe-se que à medida que se aumenta o número de neurônios da camada
intermediária de 6 para 8 o desempenho dessa rede melhora consideravelmente, ou seja
o modelo NARX funciona como um excelente preditor (linha AZUL).
0.035
0.03
0.025
0.02
0.015
NARX
DES
0.01
0.005
0
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93
-0.005 51
-0.01
Gráfico 3 - Validação do Modelo Rede NARX N= 3 PASSOS.

 O Gráfico 4 mostra os testes de validação para a rede ARX, com os mesmos parâmetros
da Rede NARX apresentada anteriormente, ou seja com 8 (oito) neurônios na camada
intermediária, percebe-se um bom desempenho da Rede, mas a rede NARX ainda assim
é superior.
0.04
0.035
0.03
0.025
0.02
ARX
0.015 DES
0.01
0.005
0
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71
-0.005
-0.01
Gráfico 4 - Validação do Modelo Rede ARX N= 1 PASSO. 52

 Com objetivo de encontrar um rede mínima capaz se predizer o IPC, utilizou-se o

sistema híbrido proposto por [5][8], dessa forma um universo maior de redes foram
testadas e o algoritmo evolucionário, direcionado pela função aptidão (“fitness”), busca
agora as menores redes capazes de predizer bem o IPC, o Gráfico 5 mostra os resultados
obtidos por uma rede com um(1) neurônio na camada de entrada , dois (2) na camada
intermediária e um (1) na de saída, taxa de aprendizagem 1.98 e 240000 épocas.
0.05
0.04
0.03
NARX
0.02
DES
0.01
0
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57
-0.01
Gráfico 5 - Generalização Modelo Rede NARX/Sistema Hibrido.

53
6-CONCLUSÕES
 Após os experimentos, chegou-se a conclusão que a Rede NARX, além de apresentar
bom desempenho para o problema de predição do IPC, possuiu convergência mais rápida
e capacidade de generalização melhor que as outras redes.
 Isto ocorre porque o vetor de entrada dos modelos NARX são construídos por meio de
uma linha de atraso com derivação deslizadas sobre o sinal de entrada, junto com uma
linha de atraso com derivação formada pelas realimentações do sinal de saída da rede
[12].
 A rede ARX apresenta um desempenho similar a NARX, para o problema estudado, por
outro lado a rede apresentada na secção 3.2, não mostrou uma boa capacidade de
generalização nas simulações tendo sido descartada dos estudos de predições a passos
futuros
 A rede MLP não generalizou bem também para o problema em estudo.
 O Sistema hibrido [5] é uma excelente opção quando se deseja testar uma população de
redes que conseguem generalizar bem o problema, sem a intervenção do projetista, além
disso é possível direcionar a busca, como foi o caso da simulação mostrada no Gráfico 5,
onde buscou-se uma rede mínima capaz de generalizar bem, o que as vezes é necessário.
A Função aptidão utilizada no sistema hibrido proposto por [5] direciona a busca
considera um número mínimo de : neurônios na camada intermediária, regras de
produção e conexões recorrentes e erro residual .
54
REFERENCIAS
 [1]Lam M., Neural network techniques for financial performance prediction : integrating fundamental and technical analysis. Decision Support
Systems 37, 2004; 567-581.
 [2]Yao J.T., Towards a better forecasting model for economic indices. In: Proceedings of the 6th Joint Conference on Information Science, 2002;
299-303.
 [3]José M. Menezes Jr. & Guilherme A. Barreto (2006), A New Look at Nonlinear Time Series Prediction with NARX Recurrent Neural
Network, IX Brazilian Neural Networks Symposium (SBRN'2006), Ribeirão Preto-SP.
 [4]S. Crone (2005) Stepwise Selection of Artificial Neural Network Models for Time Series Prediction, Journal of Intelligent Systems, Vol. 14,
No. 2-3, 2005, pp. 99-122
 [5]De Campos L.M.L, R. M., A Biologically inspired methodology for neural networks design In: IEEE Conference on Cybernetics and
Intelligent Systems. IEEE, pp. 619-624, 2004.
 [6]Cant-Paz, E. and C. Kamath, An empirical comparison of combinations of evolutionary algorithms and neural networks for classification
problems, IEEE Transactions on Systems, Man, and Cybernetics-Part B: Cybernetics, pages 915-927, 2005.
 [7]N. Feng, G. Ning, and X. Zheng, A Framework for simulating axon guidance, In: Proceedings of Neurocomputing, 2005, pp.70-84.
 [8]De Campos, Lídio Mauro Lima ; Roisenberg, Mauro ; Oliveira, Roberto Célio Limão de . (Aceito) Automatic Design of Neural Networks
with L-Systems and Genetic Algorithms - A Biologically Inspired Methodology. IJCNN 2011 - IEEE International Joint Conference on Neural
Networks – San Jose, California, USA, 2011.
 [9]M.Tomita., Dynamic construction of Finite automata from examples using hill-climbing. In: Proceedings of the Fourth Annual Conference of
the Cognitive Science Society. Ann Arbor, MI, pp. 105-108, 1982.
 [10]Aguirre, L.A., Introdução à Identificação de Sistemas, Editora UFMG, terceira edição, 2007.
 [11]PARK, D. C. et. al. Eletrical load forecasting using an artificial neural network. Artificial Neural Network: forecasting time series. E.U.A.,
IEEE Press, p. 43-49, 1994.
 [12[LIN, T. et al. Learning long-term dependencies in NARX recurrent neural networks. IEEE Transactions on Neural Networks, v. 7, n. 6, p.
1424_1438, 1996.
 [13]McCulloch, W. S. and Pitts, W. H. (1943). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics,
5:115-133.
 [14] YULE G. (1927). On a method of investigating periodicities in disturbed series with special reference to Wolfer’s sunspot numbers. Philos.
Trans. R. Soci., A226. 55
 [15] DOOB, J. (1953). Stochastic Processes. Wiley, New York.
 [16] BOX, G. E. P. & JENKINS, G. M. (1976). Time Series Analysis, Forecasting and Control. Holden Day, San Francisco.


Modelos Não Lineares Recorrentes Com Capacidade de Extrapolação

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Modelos Não Lineares Recorrentes Com Capacidade de Extrapolação

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO PARÁ

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

MODELAGEM E IDENTIFICAÇÃO DE SISTEMAS DINÂMICOS

MODELOS NÃO LINEARES RECORRENTES COM CAPACIDADE DE EXTRAPOLAÇÃO

Msc. Lídio Mauro Lima de Campos

 Os Sistemas Dinâmicos na prática são não-lineares, em algumas

 Sendo as funções são os núcleos que representam generalizações

sendo que , são os maiores atrasos em y e u, é o tempo morto.

 e(K) é o ruído e ne é o maior atraso no modelo do ruído.

 Modelos racionais podem vir a ser mais eficientes na modelagem de certos

 Algoritmo de treinamento do Perceptron

 Se o erro não for satisfatoriamente pequeno E > e, então:

 Atualizar pesos: Wnovo := W anterior + n E X .

 1970 – Abordagem conexionista ficou adormecida. 17

 u= (A.15), = , u-1= (A.16)

 para t>0, h(0)=1, que é o valor do bias. Os termos hp(t-1) são as

 Passo 2 - Definir quais valores passados da série serão

A rede NARX apresentou um bom desempenho e convergência rápida e generalização

Gráfico 2 - Validação do Modelo Rede NARX N= 3 PASSOS.

Gráfico 3 - Validação do Modelo Rede NARX N= 3 PASSOS.

Gráfico 4 - Validação do Modelo Rede ARX N= 1 PASSO. 52

 Com objetivo de encontrar um rede mínima capaz se predizer o IPC, utilizou-se o

Gráfico 5 - Generalização Modelo Rede NARX/Sistema Hibrido.

Você também pode gostar