Você está na página 1de 67

CENTRO UNIVERSITÁRIO DO LESTE DE MINAS GERAIS

CURSO DE ENGENHARIA ELÉTRICA

Oseias de Paula Ferreira


Raffael Christopher Soares Souza

IDENTIFICAÇÃO DE SISTEMA DINÂMICO NÃO LINEAR UTILIZANDO REDES


NEURAIS ARTIFICIAIS

Coronel Fabriciano
2017
Oseias de Paula Ferreira
Raffael Christopher Soares Souza

IDENTIFICAÇÃO DE SISTEMA DINÂMICO NÃO LINEAR UTILIZANDO REDES


NEURAIS ARTIFICIAIS

Trabalho de conclusão de curso apresentado ao


Conselho de Curso de Engenharia Elétrica do
Centro Universitário do Leste de Minas Gerais
com pré-requisito para obtenção do título de
bacharel em Engenharia Elétrica.
Orientador: Prof. Me. Luciano Bittencourt
Abreu.

Coronel Fabriciano
2017
Oseias de Paula Ferreira
Raffael Christopher Soares Souza

IDENTIFICAÇÃO DE SISTEMA DINÂMICO NÃO LINEAR UTILIZANDO REDES


NEURAIS ARTIFICIAIS

Trabalho de conclusão de curso apresentado ao


Conselho de Curso de Engenharia Elétrica do
Centro Universitário do Leste de Minas Gerais
com pré-requisito para obtenção do título de
bacharel em Engenharia Elétrica.

Aprovado em ____ de _______________ de ______ por:

Nome: _________________________________________________________
Instituição: ______________________________________________________
Assinatura: ______________________________________________________

Nome: _________________________________________________________
Instituição: ______________________________________________________
Assinatura: ______________________________________________________

Nome: _________________________________________________________
Instituição: ______________________________________________________
Assinatura: ______________________________________________________

Coordenador de curso: Prof. Dr. Roselito Albuquerque Teixeira


Assinatura: _____________________________________________________
AGRADECIMENTOS

Primeiramente à Deus que por sua vontade e misericórdia permitiu que tudo isso acontecesse.
Ao nosso professor e mestre Luciano Bittencourt, pela orientação, apoio, confiança e
principalmente fé na nossa capacidade.
Aos pais, irmãs e namoradas, pelo amor, incentivo е apoio incondicional.
E a todas as pessoas que confiaram e acreditaram em nossa capacidade.
“É paradoxal, mas verdadeiro, dizer que quanto
mais aprendemos mais ignorantes nos tornamos no
sentido absoluto, pois é somente através da
iluminação que nos tornamos conscientes de
nossas limitações”.
(Nikola Tesla)
RESUMO

Com o propósito de esclarecer o uso da inteligência artificial em identificação de sistemas, o


presente trabalho apresenta estratégias de modelagem através de redes neurais artificiais
(RNAs). Tendo em mente que existem processos não lineares complexos que não podem ser
representados por simples aproximações lineares, desenvolveu-se técnicas de modelagem
avançadas, e uma delas é abordada no atual trabalho. Modelos obtidos utilizando as técnicas
apresentadas possuem resultados superiores às técnicas clássicas de modelagem de sistemas
não lineares. O trabalho proposto fez o uso de um protótipo de helicóptero para realizar
modelagem do ângulo de arfagem do protótipo através das RNAs, para extrair o modelo de uma
estrutura dinâmica foi utilizada uma arquitetura de redes recorrentes do tipo nonlinear
autoregressive with exogenous inputs (NARX), afim de caracterizar o processamento temporal
da planta real. A rede neural NARX foi treinada usando o método de gradiente descendente
com momentum e taxa de aprendizagem adaptativa. Para realizar o treinamento da RNA foram
utilizados sinais pseudoaleatório (PRBS) com diferentes amplitudes. No processo de
identificação do protótipo de helicóptero, foram feitas análises de dados, modelagem do sistema
e análise de resultados afim de garantir que o modelo obtido seja satisfatório para o problema.
Sendo assim, espera-se que o método de indicação e detalhamento dos passos necessários para
modelagem de um sistema utilizando rede neural, e a demonstração de sua eficácia seja de
grande valia para futuros estudantes ou entusiastas sobre o assunto.

Palavras-chave: Inteligência artificial. Redes neurais. Identificação de sistemas dinâmicos.


Sistemas não lineares.
ABSTRACT

With the purpose of clarifying the use of artificial intelligence in identifying systems, this work
presents modeling strategies through artificial neural networks (ANNs). Having in mind that
there are non-linear complex processes that cannot be represented by a simple linear
approximation, developed advanced modeling techniques, and one of them is addressed in the
current work. Models obtained using the techniques shown in the diagrams have superior results
to the classical techniques of nonlinear systems modeling. The proposed work made use of a
prototype helicopter to perform modeling of the inclination angle of the prototype through the
ANNs, to extract the model of a dynamic structure was used an architecture of recurrent NARX-
type networks, in order to characterize the temporal processing of real plant. NARX neural
network was trained using the downward gradient method with Adaptive learning rate and
momentum. To perform the training of RNA were used pseudorandom signals (PRBS) with
different amplitudes. In the process of identification of helicopter prototype, data analysis were
made, system modeling and analysis of results in order to ensure that the model obtained is
satisfactory for problem. Therefore, it is expected that the method of indication and detailing
the steps required for modeling a system using neural network, and demonstration of your
effectiveness is of great value to prospective students or enthusiasts on the subject.

Keywords: Artificial intelligence. Neural networks. Identification of dynamic systems.


Nonlinear systems
LISTA DE FIGURAS

Figura 1 - Etapas da identificação ............................................................................................ 18


Figura 2 - Modelo de um neurônio artificial ............................................................................ 20
Figura 3 - Funções de ativação: (a) função limiar, (b) função linear, (c) função sigmoide, função
sigmoidal bipolar. ..................................................................................................................... 23
Figura 4 - Redes neurais feedforward camada única ................................................................ 24
Figura 5 - Redes Neurais feedforward com múltiplas camadas ............................................... 25
Figura 6 - Redes Recorrentes com neurônios operadores de atraso unitário............................ 26
Figura 7 - Diagrama do aprendizado supervisionado ............................................................... 28
Figura 8 - (a) Dados de mapeamento adequado; (b) Capacidade de generalização pobre ....... 33
Figura 9 - Diagrama do de identificação de sistema por modelo direto ................................... 35
Figura 10 - Diagrama do de identificação de sistema por modelo inverso .............................. 35
Figura 11 - Rede neural recorrente ........................................................................................... 37
Figura 12 - Modelo de helicóptero 2 DOF da Quanser ............................................................ 39
Figura 13 - Diagrama de entradas e saídas ............................................................................... 40
Figura 14 - Representação gráfica das forças sobre o eixo de arfagem ................................... 41
Figura 15 - Identificação de sistemas dinâmicos ...................................................................... 44
Figura 16 - Identificação de sistemas dinâmicos com Redes neurais....................................... 45
Figura 17 - Arquitetura de uma rede recorrente do tipo NARX ............................................... 47
Figura 18 - Sinal de entrada para treinamento da RNA ........................................................... 48
Figura 19 - Autocorrelação do sinal de entrada........................................................................ 49
Figura 20 - Sinal de saída da arfagem ...................................................................................... 50
Figura 21 - Auto correlação da saída (a) sem segmentação (b) com segmentação .................. 51
Figura 22 - Visualização do diagrama da RNA ........................................................................ 52
Figura 23 - Matriz de pesos IW1_2 .......................................................................................... 53
Figura 24 - Predição de 1 passo à frente ................................................................................... 54
Figura 25 - Predição livre ......................................................................................................... 55
Figura 26 - Erro instantâneo da predição livre ......................................................................... 56
Figura 27 - Predição de 6 passos à frente ................................................................................. 57
Figura 28 - Erro instantâneo da predição de 6 passos à frente ................................................. 57
Figura 29 - Regressão para predição de 6 passos à frente ........................................................ 60
Figura 30 - Regressão para predição de infinitos passos à frente............................................. 61
SUMÁRIO

1 INTRODUÇÃO ................................................................................................................... 10
1.1 Contextualização teórica .................................................................................................. 10
1.2 Objetivos ............................................................................................................................ 11
1.2.1 Objetivo geral .................................................................................................................. 11
1.2.2 Objetivo especifico .......................................................................................................... 11
1.3 Delimitação do tema ......................................................................................................... 11
1.4 Justificativa ....................................................................................................................... 11
1.5 Classificação ...................................................................................................................... 12
1.6 Amostragem ou objeto de análise ................................................................................... 12
1.7 Instrumentos ..................................................................................................................... 12
1.8 Procedimentos de pesquisa .............................................................................................. 13
1.9 Tabulação de dados .......................................................................................................... 13
2 FUNDAMENTAÇÃO TEÓRICA ...................................................................................... 14
2.1 Identificação de sistemas dinâmicos não lineares .......................................................... 14
2.1.1 Sistemas dinâmicos ......................................................................................................... 14
2.1.2 Sistemas dinâmicos não lineares ................................................................................... 15
2.1.3 Correlação ....................................................................................................................... 15
2.1.4 Identificação de sistemas ................................................................................................ 16
2.2 Redes neurais artificiais ................................................................................................... 18
2.2.1 Modelo de um neurônio artificial .................................................................................. 20
2.2.2 Funções de ativação ....................................................................................................... 21
2.2.3 Arquitetura das RNAs .................................................................................................... 23
2.2.4 O Processo de aprendizagem .......................................................................................... 26
2.2.4.1 Aprendizado supervisionado ........................................................................................ 27
2.2.4.2 Algoritmo Backpropagation ......................................................................................... 29
2.2.5 Generalização das RNAs ................................................................................................ 32
2.3 Identificações de sistemas dinâmicos não lineares utilizando RNAs ........................... 33
2.3.2 Configuração da RNA para identificação de sistemas dinâmicos ................................ 34
2.3.1 Redes recorrentes ............................................................................................................ 36
3 PROCEDIMENTOS METODOLÓGICOS ..................................................................... 39
3.1 Helicóptero 2DOF ............................................................................................................. 39
3.2 Modelagem matemática do Helicóptero ......................................................................... 40
3.2.1 Descrição física do ângulo de arfagem .......................................................................... 41
3.2.2 Processo de modelagem do ângulo de arfagem com RNAs .......................................... 42
4 ANÁLISE DE RESULTADOS ........................................................................................... 48
4.1 Análises iniciais ................................................................................................................. 48
4.1.1 Parâmetros da RNA ........................................................................................................ 51
4.2 Resultados obtidos ............................................................................................................ 53
4.3 Validação do modelo ........................................................................................................ 58
4.3.1 Coeficiente de desigualdade de Theil ............................................................................. 58
4.3.2 Índice de eficiência do modelo ....................................................................................... 59
4.3.3 Regressão entre valor simulado e valor medido ............................................................ 60
5 CONCLUSÃO...................................................................................................................... 62
REFERÊNCIAS ..................................................................................................................... 64
10

1 INTRODUÇÃO

1.1 Contextualização teórica

A utilização de redes neurais artificias (RNAs) para identificação de sistemas


aumentou com o passar do tempo, e hoje é uma técnica largamente utilizada para representação
de sistemas altamente complexos e não lineares. Essa ascensão das redes neurais se deve
principalmente pela necessidade de grandes empresas trabalharem com sistemas com
características não lineares.
As RNAs são baseadas no princípio do cérebro humano pelo fato de que ele processa
informação totalmente diferente de um computador tradicional. Isso faz com que elas sejam
capazes de realizar diversos cálculos simultaneamente, tornando as redes neurais um
processador de informação altamente poderoso (HAYKIN, 2001, p. 31).
Para problemas de identificação de sistema não lineares as redes neurais tem
propriedades e capacidades interessantes para atuar no campo de identificação, por exemplo, as
RNAs são adequadas para realizar mapeamento de entrada e saída não linear de sistemas
monovariáveis ou multivariáveis, são capazes de fazer processamento simultâneo e tolerante a
falhas, elas possuem a habilidade de aprender, generalizar e se adaptar de acordo com o
ambiente em que estão inseridas, dentre outras funções características das RNAs (HAYKIN,
2001, p.29-31).
Devido as características descritas acima, atualmente as redes neurais vêm sendo
empregadas em diversos sistemas que apresentam características não lineares. Em Narendra e
Parthasarathy (1990), sugere-se uma metodologia de identificação de sistemas não lineares
baseada em quatro grupos de modelos: para sistemas que possuem uma única entrada e saída
(SISO); e também para processos com múltiplas entradas e múltiplas saídas (MIMO). A partir
deste momento muitos trabalhos foram realizados no campo de identificação de sistemas não
lineares, como, Schnitman, 1998; Norgaard et.al, 2000; Assis, 2001.
11

1.2 Objetivos

1.2.1 Objetivo geral

 Realizar estudos através de uma extensa revisão bibliográfica sobre os métodos de


identificação de sistemas utilizando modelos empíricos desenvolvidos para sistemas não
lineares, com ênfase nas redes neurais artificiais (RNAs);
 Escolher a estratégia de identificação capaz de lidar com processos não lineares e que utilize
em sua formulação modelos empíricos do processo, com ênfase nas técnicas de RNAs;
 Realizar a aplicação das técnicas de identificação, propostas para representar um processo não
linear e que apresenta certo de grau de complexidade em suas dinâmicas.

1.2.2 Objetivo especifico

 Modelar ângulo de arfagem de um protótipo de helicóptero utilizando redes neurais artificias.

1.3 Delimitação do tema

Este projeto trata-se de um modelo neural, com foco em identificar o sistema do


protótipo de helicóptero com dois graus de liberdade. Este modelo será obtido através de dados
do helicóptero coletados no laboratório. Posteriormente esses dados serão utilizados para o
treinamento das RNAs com o software MATLAB.

1.4 Justificativa

Os sistemas dinâmicos não lineares geralmente são representados por modelos


lineares, obtidos através de métodos de linearização do sistema, que consiste em uma
representação aproximada do sistema real (OGATA, 2010, p.36). Esse método pode ser
suficientemente bom para atender os pré-requisitos do processo, facilitando os métodos de
controle. Mas segundo Aguirre (2000), existem sistemas complexos e não lineares em que os
resultados obtidos podem ser insatisfatórios para o processo.
A obtenção do modelo de um protótipo do helicóptero com dois graus de liberdade
geralmente é baseada nos controladores modernos através de modelos lineares obtidos do
12

sistema através de métodos de linearização, que estão restritos a dados aproximados do


processo. Com isso a realização de um controle baseado em modelos não lineares é muito
interessante, visto que seria uma forma de modelar a planta com dados reais do sistema, visando
otimizar os resultados do processo significativamente.

1.5 Classificação

Este projeto foi desenvolvido com um estudo quantitativo e de forma exploratória.


Através dele podemos compreender a forma com que se trabalham as redes neurais artificias,
objetivando-se identificar um sistema dinâmico não linear.

1.6 Amostragem ou objeto de análise

No trabalho proposto não houve necessidade da utilização de população para


amostragem.
Como objeto de análise utilizaremos dados computacionais de um modelo matemático
do sistema real, que será utilizada no projeto, serão feitos testes para aquisição de dados e
obtenção do modelo neural do objeto em análise.

1.7 Instrumentos

 Protótipo de Helicóptero da Quanser;


 Artigos, livros e manuais;
 Software computacional MATLAB®;
 Placa de aquisição de dados e controle da Quanser;
 Módulos de força universal controlados da Quanser;
 Cabos de controle e de força da Quanser.
13

1.8 Procedimentos de pesquisa

Na realização deste trabalho foram usadas inúmeras fontes de pesquisa para o assunto
tratado.
Os métodos para essa pesquisa foram obtidos de dissertações, artigos científicos, notas
de aplicação e livros acadêmicos.
O objeto de estudo em questão apresenta uma flexibilidade de compreensão das
informações, onde o entendimento do leitor é facilitado.

1.9 Tabulação de dados

Durante o trabalho serão utilizados gráficos e tabelas para fazer comparações do


método utilizado na realização do trabalho. Essas comparações de natureza quantitativa serão
expostas e comparadas quando após obtenção dos resultados da modelagem em questão.
14

2 FUNDAMENTAÇÃO TEÓRICA

2.1 Identificação de sistemas dinâmicos não lineares

2.1.1 Sistemas dinâmicos

Os sistemas dinâmicos são aqueles que possuem dependência temporal, eles são
chamados de sistemas com memoria por causa de sua capacidade de guardar informações
atrasadas no tempo. Esses sistemas são caracterizados por possuir uma saída 𝑦(𝑡) que não
depende exclusivamente da entrada naquele instante de 𝑥(𝑡), mas sim dos valores instantâneos
e passados de entrada e saída. Existem também sistemas que dependem apenas dos valores de
entrada e saída naquele instante, eles são denominados de sistemas estáticos, pois não possuem
memoria (CORRÊA, 1997, p.4).
Um sistema dinâmico pode ser representado por equações diferenciais no tempo
contínuo e por equações de diferenças no tempo discreto (AGUIRRE, 2004, pg.57). Abaixo
estão as equações que representam os modelos contínuos e discretos:

 Sistemas dinâmicos com tempo contínuos:

𝑑𝑦
τ + 𝑦(𝑡) − 𝐾𝑥(𝑡) = 0 (1)
𝑑𝑡

onde 𝑦(𝑡) e 𝑥 (𝑡) representam saída e entrada em função do tempo de um sistema, o


termo τ representa a constante de tempo e o ganho 𝐾 é o ganho do sistema.

 Sistemas dinâmicos com tempo discreto:

𝑦(𝑡) = 𝑓[𝑥(𝑡), 𝑥(𝑡 − 1), 𝑥(𝑡 − 𝑇)] (2)

Sendo que 𝑓 é uma função dos valores passados da entrada [𝑥(𝑡), 𝑥(𝑡 − 1),
𝑥(𝑡 − 𝑇)]; e 𝑦(𝑡) representa a saída do sistema.
15

2.1.2 Sistemas dinâmicos não lineares

Dentre os sistemas dinâmicos podem-se classificar dois tipos: sistemas dinâmicos


lineares e sistemas dinâmicos não lineares. Os sistemas dinâmicos lineares são aqueles que
respeitam a lei da superposição. Os sistemas dinâmicos não lineares são aqueles que evoluem
no domínio do tempo com a dinâmica caótica ou comportamento aleatório.
Um sistema dinâmico com comportamento aleatório possui evolução temporal que
converge a atratores estranhos. Segundo Marcelo V. Corrêa (1997, p.4), “um atrator é a região
do espaço de estados onde o sistema permanece após o término do seu movimento transitório
(𝑡 → ∞), atratores só são possíveis em sistemas dissipativos”. Os atratores estranhos
apresentam que o estado futuro é extremamente dependente do atual (CORRÊA, 1997, p.4).

2.1.3 Correlação

Em sistemas dotados de processamento temporal e que possuem mais de duas


variáveis, sejam eles lineares ou não lineares, é importante a realização de análise de correlação
entre as variáveis do processo (LIRA, 2004, p.30).
A correlação tem o objetivo de quantificar a intensidade de relacionamento entre duas
ou mais variáveis. Assim através dela consegue-se quantificar o número de equações
diferenciais necessárias para evidenciar a dinâmica em relação a um conhecido atrator (LIRA,
2004, p.30).

 Funções de correlação

A função de correlação cruzada (FCC) entre dois sinais 𝑢(𝑡) e 𝑦(𝑡) (AGUIRRE, 2004,
p.182):

𝑟𝑢𝑦(𝜏, 𝑡) = 𝐸[𝑢(𝑡)𝑦 ∗ (𝑡 + 𝜏)] (3)

1 𝑇
𝑟𝑢𝑦 (𝜏) = lim ∫ 𝑢(𝑡)𝑦(𝑡 + 𝜏)𝑑𝑡, (4)
𝑇→ ∞ 2𝑇 −𝑇

Considerando um sistema real, logo 𝑦 ∗ (𝑡) = 𝑦(𝑡), o processo é considerado ergódico


a fim de poder substituir a esperança matemática 𝐸[. ] pela medida temporal. Com isso permite-
16

se que a média seja extraída entre inúmeras realizações ao invés de se tomar a média no tempo
(AGUIRRE, 2004, pg.182).
Em diversos eventos é necessário trabalhar com os dados de forma discreta, sendo
assim a função de correlação cruzada e definida por:

𝑁
1
𝑟𝑢𝑦 (𝑘) = lim ∑ 𝑢(𝑖)𝑦(𝑖 + 𝑘), (5)
𝑁→ ∞ 2𝑁 + 1
𝑖= −𝑁

onde 𝑘 é um número inteiro e 𝑁 deve ser um número elevado.


De maneira análoga, a função de autocorrelação (FAC) de um sinal 𝑢(𝑡) pode ser
representada por:

𝑁
1
𝑟𝑢𝑢 (𝑘) = lim ∑ 𝑢(𝑖)𝑢(𝑖 + 𝑘), (6)
𝑁→ ∞ 2𝑁 + 1
𝑖= −𝑁

A função de autocorrelação mensura o grau de correlação entre uma variável em um


instante desejado, e ela mesma em um instante de tempo adiantado. Dessa forma é possível
realizar modelagem de sistemas dinâmicos, pois o valor de um determinado instante 𝑘 pode
trazer consigo dados de observações de instantes atrasados no tempo (ABREU, 2001, pg.59).

2.1.4 Identificação de sistemas

A identificação de sistemas é a construção de um modelo matemático baseado na


relação entre entrada e saída da planta. Segundo Marcelo Viera Corrêa (1997, p.1), “O modelo
de um sistema é uma representação mental, física, gráfica ou matemática de observações feitas
no mundo real de acordo com certo padrão”. Assim pode-se dizer que, o modelo matemático
do sistema simula as características do sistema real. Essa representação não reproduz
exatamente o comportamento do sistema, entretanto é suficientemente satisfatória para
representar o comportamento da planta real a ser modelada (CORRÊA,1997, p.2).
O modelo matemático dinâmico de um sistema é simulado por diversas equações que
representam o comportamento dinâmico e estático do processo (CORRÊA, 1997, p.6). Na
identificação de sistemas, o objetivo é descrever a planta a ser modelada através de relações
17

matemáticas. Segundo Aguirre (2004, pg.60) para identificar um sistema existem alguns
métodos de modelagem conhecidos como:

 Métodos paramétricos: modelos que possui propriedades que o caracteriza, como, números,
coeficientes;
 Método não paramétrico: modelos que são representados graficamente, ou seja, não são
caracterizados por parâmetros;

Para representar o sistema através de um modelo, é de vital importância definir a


estrutura da técnica de obtenção do modelo. Existem várias formas e técnicas de extração do
modelo do sistema real, podemos identificar algumas técnicas de obtenção da seguinte maneira
(AGUIRRE, 2004, pg.51):

 Modelagem Caixa-Branca ou Fenomenológica: modelagem pela física ou natureza do


processo;
 Modelagem Caixa-Preta ou Empírica: é uma técnica que obtém a representação matemática
do sistema real com pouco ou nenhum conhecimento prévio do sistema.
 Modelagem Caixa-Cinza: é um método de modelagem empírica com uso de informação
auxiliar.

Na identificação de sistemas outro item de suma importância é a estimação de


parâmetros. Esse método consiste em determinar as características de uma estrutura com o
objetivo de fazer com que o modelo, simule o comportamento do sistema real (CORRÊA, 1997,
p.2).
Para finalizar a identificação de um sistema real deve-se validar o modelo proposto. A
validação é necessária para constatar se o modelo é bom o suficiente para representar a planta
real, a fim de verificar se o modelo representa o sistema real em todos os aspectos (AGUIRRE,
2004, p.435).
Dentro de um contexto geral, o processo de identificação de sistemas pode ser
organizado nas seguintes etapas:
18

Figura 1 - Etapas da identificação

Fonte - Vargas, 1997, p.8.

2.2 Redes neurais artificiais

As Redes Neurais Artificiais (RNAs) são sistemas inteligentes conexionistas baseados


no sistema nervoso biológico, também conhecido como sistemas de processamento paralelo e
distribuído, ou neurocomputadores (HAYKIN, 2001, p. 28). A RNA se assemelha ao cérebro
humano devido a sua capacidade de executar funções análogas a do sistema nervoso humano
(BRAGA, et.al., 2000, p.1). Sendo assim, podemos dizer que as redes neurais artificiais se
baseiam em interconexões de neurônios do cérebro.
“As Redes Neurais Artificiais (RNA’s) são sistemas computacionais com
processamento altamente paralelo e distribuído, que apresenta a capacidade de aprender e
armazenar conhecimento experimental” (POPOFF, 2009, p.21). A estrutura da RNA possui
diversas interconexões de neurônios artificias que são nomeadas sinapses, essas são
caracterizadas por pesos sinápticos, que são valores inicialmente aleatórios e que por sua vez
são alterados no decorrer do processo de treinamento para obter a resposta desejada para o
processo (HAYKIN, 2001, p. 36).
19

“Uma rede neural é um processador maciçamente paralelamente distribuído


constituído de unidades de processamento simples, que tem propensão natural para
armazenar conhecimento experimental e torna-lo disponível para uso”. Ela se
assemelha ao cérebro em dois aspectos:

1. O conhecimento é adquirido pela rede a partir de seu ambiente através de um


processo de aprendizagem.
2. Forças de conexão entre os neurônios, conhecidas como pesos sinápticos, são
utilizados para armazenar conhecimento” (HAYKIN, 2001, p. 36).

É notável a grande eficiência que possui as RNAs, em grande parte por sua capacidade
de adquirir conhecimento durante o processo de aprendizagem e de generalização de
informação. Essa capacidade de generalizar faz com que a rede neural seja capaz de produzir
saídas adequadas para entradas que não estavam presentes no treinamento. Assim torna-se
possível para as redes neurais resolver problemas complexos (HAYKIN, 2001, p. 28).
As redes conexionistas baseadas no sistema nervoso biológico têm grande âmbito de
aplicação para resolver problemas gerais, como, aproximação de funções, classificações de
padrões, identificação de sistemas, predição, controle de processos e etc. (BRAGA, et.al., 2000,
p.217). Segundo Haykin (2001, p.28-29) as RNAs têm uma grande capacidade de solucionar
problemas complexos devido a uma série de características úteis para o sistema, tais como:

 Não linearidade;
 Mapeamento de Entrada e Saída;
 Adaptabilidade;
 Resposta a evidencia;
 Analogia Neurobiológica.

Com o processo de aquisição de conhecimento durante a aprendizagem e a capacidade


de generalizar as informações citadas, os neurocomputadores se tornam um atrativo para tratar
de problemas complexos e com alto grau de não linearidade. Segundo Braga et.al. (2000, P.15)
as redes neurais realizam interpolações durante o processo de aprendizagem e extrapolação do
que aprenderam. E uma vez que já estão treinadas para um certo ambiente de operação, as
RNAs têm a capacidade de adaptar seus pesos sinápticos caso ocorra pequenas variações no
ambiente, pois ela pode ser retreinada para continuar operando.
20

2.2.1 Modelo de um neurônio artificial

“Um neurônio é uma unidade de processamento de informação que é fundamental para


operação de uma rede neural” (HAYKIN, 2001, p.36). Os neurônios recebem os sinais de
entradas 𝑥𝑗 , que posteriormente se multiplicam pelos pesos sinápticos 𝑤𝑗 e se somam na junção
aditiva para obter a média ponderada dos sinais, esta média é aplicada à função de ativação que
é quem restringe a saída de amplitude do neurônio, gerando um sinal de saída 𝑦𝑘 (SOUZA,
2005, p.8-9).
A Figura 2 mostra o modelo de um neurônio artificial, que segundo Haykin (2001,
p.39-37) pode ser identificado pelos elementos seguintes:

 Sinais de entrada: o neurônio pode possuir um ou mais sinais de entrada. Essas entradas são
a referência do sistema para obter uma resposta desejada no processo.
 Pesos sinápticos: as sinapses são as interconexões caracterizadas por pesos, os quais definem
o grau de importância dos valores de entrada.
 Bias: o bias (𝑏𝑘 ) é um termo limiar que é responsável por ajustar o valor liquido de entrada
da função de ativação.
 Junção aditiva: é um combinador linear utilizado para fazer somas ponderadas dos sinais de
entrada.
 Função de ativação: pode ser linear ou não linear, ela é responsável por limitar o sinal de
saída de um neurônio para que a amplitude do mesmo não tenda a ser um valor infinito.

Figura 2 - Modelo de um neurônio artificial

Fonte - Paganoto, 2007, p.11, adaptado pelos autores


21

Em termos matemáticos, podemos escrever o modelo do neurônio da Figura 2 com as


seguintes equações:

𝑦𝑘 = φ(𝑣𝑘 ) (7)

Sendo que,
𝑣𝑘 = 𝑢𝑘 + 𝑏𝑘 , (8)

Onde,
𝑚

𝑢𝑘 = ∑ 𝑤𝑘𝑗 𝑥𝑗 (9)
𝑗

Em que 𝑥1 , 𝑥2 , … , 𝑥𝑚 são os sinais de entrada; 𝑤𝑘1 , 𝑤𝑘2 , … , 𝑤𝑘𝑚 são os pesos sinápticos do
neurônio 𝑘; 𝑏𝑘 é o bias; 𝑣𝑘 é o nível de saída interno da junção aditiva; 𝜑(. ): é a função de
ativação e 𝑦𝑘 é o sinal de saída do neurônio.
A entrada fixa onde 𝑥0 = +1, também conhecida como termo de polarização tem o
efeito de deslocar a função de ativação em torno da origem, com o objetivo de fazer com que a
ativação interna 𝑣𝑘 seja não nula quando as entradas do neurônio forem nulas (PAGANOTO,
2007, p.11).

2.2.2 Funções de ativação

Um neurônio é ativado quando a função de ativação supera o valor do limiar (bias)


devido a um somatório ponderado das entradas com seus respectivos pesos. Ela é representada
por 𝜑(𝑣), e é responsável por restringir a amplitude do sinal interno da saída do neurônio 𝑣𝑘 ,
também conhecido como campo local induzido 𝑣𝑘 . E também define a faixa de operação do
neurônio que geralmente tem características não lineares. (McCULLOCH e PITS, 1943 apud
POPOFF, 2009, p.25). Segundo Haykin (2001, p.38-41) as funções de ativação citadas abaixo
têm as seguintes características:

 Função Limiar: quando a saída do neurônio é igual a zero, então sua entrada é negativa. E
quando o seu valor de saída for 1, então sua entrada é não negativa. A equação (10) tem sua
representação gráfica na Figura 3(a).
22

1 𝑠𝑒 𝑣𝑘 ≥ 0
𝑦𝑘 = { } (10)
0 𝑠𝑒 𝑣𝑘 < 0

 Função Linear: quando a saída do neurônio é proporcional ao valor de entrada. A equação


(11) está sendo exibida na Figura 3(b).

𝜑(𝑣) = 𝛼𝑣 (11)

Sendo alfa um número real que define a saída linear para os valores de 𝑣.

 Função sigmoide: é o tipo mais utilizado se tratando de RNAs. Ela permite que o
mapeamento entrada-saída tenha características não lineares. A equação (12) está ilustrada na
Figura 2(c).

1
𝜑(𝑣) = (12)
1 + 𝑒𝑥𝑝(−𝑎𝑣)

 Função tangente hiperbólica: assim como a sigmoide, esta função permite que o
mapeamento entrada-saída tenha características não lineares. O diferencial é que a tangente
hiperbólica ou sigmoide bipolar trabalha a função de ativação em um campo local induzido
ímpar. A equação (13) tem sua representação gráfica na Figura 3(d).

1 − 𝑒𝑥𝑝(−𝑎𝑣)
𝜑(𝑣) = (13)
1 + 𝑒𝑥𝑝(−𝑎𝑣)
23

Figura 3 - Funções de ativação: (a) função limiar, (b) função linear, (c) função sigmoide,
função sigmoidal bipolar.

Fonte - Os autores, 2017.

Segundo Rezende (1999 apud POPOFF, 2009, p.28), as camadas internas dos
neurônios das RNAs geralmente possuem funções sigmoides e a de saída funções lineares, isto
acontece para preservar a característica de não linearidade da rede e torna possível ter valores
de saída maiores do que um.

2.2.3 Arquitetura das RNAs

A arquitetura de uma RNA define como os neurônios estarão estruturados e os tipos


de problema que a rede pode tratar. Uma rede pode ser dividida entre camadas de neurônios,
normalmente possuindo camada de entrada, camada oculta e camada de saída. Também existem
redes com apenas uma única camada.
Segundo Haykin (2001, p.46 - 49) pode se identificar três classes de arquitetura das
redes neurais fundamentais e distintas:
24

1. Redes neurais feedforward com camada única

Os neurônios de uma rede neural estão organizados em forma de camada. A sua


arquitetura consiste em uma camada de entrada que através de sinapses se conectam a uma
camada de saída de neurônios.
A topologia de uma RNA está intimamente ligada com a forma com que o fluxo de
informação ocorre entre os neurônios. As redes alimentadas adiante são conhecidas como redes
feedforward ou acíclica, ou seja, o fluxo ocorre entre as conexões dos neurônios da entrada para
a saída. E elas podem ser utilizadas para resolver problemas linearmente separáveis. A Figura
4 ilustra a estrutura de uma RNA feedforward:

Figura 4 - Redes neurais feedforward camada única

Fonte - Haykin, 2001, p.47, adaptado pelos autores.

2. Redes neurais feedforward com múltiplas camadas

As redes neurais feedforward de múltiplas camadas geralmente são formadas por uma
ou mais camadas ocultas também chamadas de camadas intermediárias. O objetivo dos
neurônios contidos nas camadas ocultas é de intervir nas entradas e a saída da rede de forma
útil. Com o acréscimo de uma ou duas camadas ocultas, a rede se torna capaz de extrair
estatísticas de ordem elevada. As camadas de neurônios da rede utilizam como entrada os sinais
25

de saída da camada anterior. Sendo assim, as redes com múltiplas camadas se tornam valiosas
para resolver problemas em que o tamanho da entrada é grande, e pode ser utilizada em
situações complexas e não lineares. As redes neurais feedforward de múltiplas camadas também
são conhecidas como Perceptron de Múltiplas Camadas ou MultiLayer Perceptron (MLP). A
Figura 5 ilustra a estrutura de uma rede feedforward com múltiplas camadas.

Figura 5 - Redes Neurais feedforward com múltiplas camadas

Fonte - Haykin, 2001, p.48, adaptado pelos autores.

3. Redes Recorrentes

As redes recorrentes têm como base a rede feedforward, porem ela se diferencia de
uma rede alimentada adiante por ter um laço de realimentação (feedback). A presença de um
sinal de saída que realimenta os neurônios de entrada com valores atrasados no tempo, faz com
que se torne atrativa para modelagem em sistemas dinâmicos variantes no tempo.
A arquitetura das redes feedback podem possuir multicamadas ou somente uma
camada de neurônios interligados por sinapses. As redes recorrentes podem ser dotadas de laços
26

com auto realimentação que se refere a saída de um neurônio realimentando sua própria entrada,
isto envolve os elementos de atraso unitário (ɀ −1 ), o que faz com que essas RNAs sejam
indicadas para controle de sistemas dinâmicos não lineares. A Figura 6 ilustra a estrutura das
redes recorrentes.

Figura 6 - Redes Recorrentes com neurônios operadores de atraso unitário.

Fonte - Haykin, 2001, p.48, adaptado pelos autores.

2.2.4 O Processo de aprendizagem

Como já foi dito anteriormente, as redes neurais artificias têm a habilidade de adquirir
conhecimento e fazer interpolação e extrapolação do que aprenderam. Durante as iterações do
processo de aprendizagem a RNA extrai informações relevantes do ambiente em que ela está
inserida e cria seu próprio modelo para representar o problema. Através desta etapa ocorre as
modificações de pesos sinápticos e bias visando a melhorar o desempenho no decorrer do tempo
(BRAGA et.al, 2000, p.15).
27

Para Simon Haykin (2001, p.75) o processo de aprendizagem é definido da seguinte


forma: “Aprendizagem é um processo pelo qual os parâmetros livres de uma rede neural são
adaptados através de um processo de estimulação pelo ambiente no qual a rede está inserida. O
tipo de aprendizagem é determinado pela maneira pela qual a modificação dos parâmetros
ocorre”.
Para o processo de aprendizagem são preestabelecidas um conjunto de regras bem
definidas para solucionar os problemas, que é conhecido como algoritmo de aprendizagem. Em
uma rede neural geralmente é utilizado uma variedade de algoritmos de aprendizagem para
aplicações especificas (Haykin, 2001, p.76).
Neste trabalho não será detalhado todos os métodos de aprendizagem que existem,
como, aprendizado Hebbiano, aprendizado por competição, aprendizado por reforço,
aprendizado não supervisionado, aprendizado baseado em memória e outros. Será abordado
somente a aprendizagem supervisionada.

2.2.4.1 Aprendizado supervisionado

O aprendizado supervisionado é o mais comum utilizado para treinamento das RNAs,


este processo consiste no método em que as entradas e saídas desejadas são fornecidos de forma
externa para a rede, ou seja, são entregues a ela por meio de um supervisor (professor) externo.
(BRAGA et.al, 2000, p.16).
O professor informa o erro da resposta atual, tendo um comportamento bom ou ruim
para rede, com objetivo de direciona-la no período de treinamento. Durante o processo de
aprendizagem os parâmetros da rede neural são ajustados de acordo com o sinal de entrada e o
sinal de erro, que é definido pela diferença entre a resposta desejada e a resposta real da RNA
(PINTO, 2014, p.18-19).
Ivan Silva et.al (2010, p.52) descreveu o treinamento supervisionado da seguinte
forma: “Na realidade, o treinamento supervisionado é um caso típico de inferência indutiva
pura, em que os parâmetros puros da rede são ajustados em função de se conhecer a priori quais
são as saídas desejadas ao sistema investigado. ”
28

Figura 7 - Diagrama do aprendizado supervisionado

Fonte – Prottes, 2009, p.48

Para minimizar o erro são realizados ajustes nos parâmetros ao final de cada etapa do
treinamento, até que a diferença entre a resposta desejada e a saída real do neurônio seja
satisfatória para o processo, com isso consideramos que a minimização da diferença é
incremental. Sendo assim, ao termino do processo de aprendizagem a rede adquire as
informações necessárias do ambiente em que ela foi treinada (PROTTES, 2009, p.48).
O sinal do erro equivale a seguinte forma matemática:

𝑒𝑘 (𝑛) = 𝑑𝑘 (𝑛) − 𝑦𝑘 (𝑛) (14)

Sendo que 𝑒𝑘 (𝑛) é o sinal de erro do sistema; 𝑑𝑘 (𝑛) é a resposta desejada; 𝑦𝑘 (𝑛) é o
sinal de saída real do neurônio 𝑘.
A soma dos erros quadráticos 𝐸(𝑛) de todas as saídas geralmente é a função de custo
a ser minimizada, ou índice de desempenho, pelo algoritmo de treinamento (NIED, 2007, p.25):
A equação abaixo demonstra como é obtido a soma do erro quadrático:

1
𝐸(𝑛) = ∑ 𝑒𝑘2 (𝑛) (15)
2
𝑘

A soma de todos os erros quadráticos 𝐸(𝑛) para todas as 𝑛 interações é dividido pelo
número total de treinamento realizado, representado por (𝑁), obtemos o erro médio quadrático
𝐸𝑚𝑒𝑑 (𝑛) que é representado pela seguinte equação (NIED, 2007, p.26):
29

𝑁
1
𝐸𝑚𝑒𝑑 (𝑛) = ∑ 𝐸(𝑛) (16)
𝑁
𝑛=1

O método de aprendizagem descrito acima é conhecido por algoritmo de correção de


erro. A melhoria do índice de desempenho resulta em uma regra delta, concebidas por Wildrow
& Hof (1960 apud BRAGA, 2000, p.16-17). A equação (17) é a equação genérica para variação
dos pesos sinápticos e é descrita como:

𝛥𝑤𝑘𝑗 (𝑛) = 𝜂𝑒𝑘 (𝑛)𝑥𝑗 (𝑛) (17)

Tem-se que 𝑤𝑘𝑗 equivale o valor do peso sináptico do neurônio 𝑘 que recebe um sinal
de entrada 𝑥𝑗 (𝑛), onde 𝜂 é a taxa de aprendizado da rede neural. Sendo assim podemos dizer
que o valor atualizado do peso por correção de erros é:

𝑤𝑘𝑗 (𝑛 + 1) = 𝑤𝑘𝑗 (𝑛) + 𝛥𝑤𝑘𝑗 (𝑛) (18)

2.2.4.2 Algoritmo Backpropagation

O algoritmo backpropagation, proposto por Rumelhart et.al (1986 apud BRAGA,


2000, p.70), é um método de aprendizagem dotado de um mecanismo de retropropagação para
correção de erros após a apresentação de padrões, por meio de ajustes dos pesos da rede neural
artificial. Geralmente as RNAs do tipo MLP se baseiam em algoritmos de aprendizagem
backpropagation (BRAGA et.al, 2000, p.59).
O treinamento das redes neurais ocorre em duas fases com sentidos de propagação
distintos, elas são conhecidas como forward e backward (PAGANOTO, 2008, p.16-17).

 Fase forward: é a etapa de propagação da rede utilizada para definir a saída da mesma de
acordo com os padrões de entrada, e os pesos sinápticos permanecem fixos durante o processo.
 Fase backward: é a etapa de retropropagação da rede que utiliza a saída desejada e a saída
obtida na fase forward para atualizar os pesos sinápticos.
As equações que representam o algoritmo backpropagation estão dispostas da seguinte
forma:
30

1. Cálculo das atualizações dos pesos sinápticos baseados na regra delta:

𝛥𝑤𝑘𝑗 (𝑛) = 𝜂𝛿𝑘 (𝑛)𝑥𝑗 (𝑛) (19)

Sendo que Δ𝑤𝑘𝑗 (𝑛) é a correção de erro do neurônio 𝑘 na interação 𝑛; 𝜂 é a taxa de


aprendizagem; 𝛿𝑘 (𝑛) é o gradiente local do neurônio 𝑘 da interação 𝑛; 𝑥𝑗 (𝑛) é o sinal de
entrada do neurônio 𝑗 da interação 𝑘.

2. Cálculo do gradiente local:

 Para um neurônio 𝑘 na camada de saída:

𝛿𝑘 (𝑛) = 𝑒𝑘 (𝑛)𝜑′(𝑣𝑘 (𝑛)) (20)

Onde 𝑒𝑘 (𝑛) é o erro entre a saída do neurônio 𝑘 e a saída desejada da iteração 𝑛; 𝜑′(𝑣𝑘 (𝑛)) é
a derivada da função de ativação do neurônio 𝑘 em relação à saída linear do neurônio, 𝑣𝑘 (𝑛),
da iteração 𝑛.

 Para um neurônio 𝑘 na camada intermediaria:

𝛿𝑘 (𝑛) = 𝑒𝑘 (𝑛)𝜑′(𝑣𝑘 (𝑛)) ∑ 𝛿𝑚 (𝑛)𝑤𝑚𝑘 (𝑛) (21)


𝑚

Sendo que,

∑ 𝛿𝑚 (𝑛)𝑤𝑚𝑘 (𝑛) (22)


𝑚

é a soma ponderada dos gradientes locais da camada seguinte na iteração 𝑛.


31

 Gradiente descendente

O método de gradiente descendente é um algoritmo de otimização frequentemente


utilizado para descobrir um mínimo local de uma função. Nesse método, altera-se os valores
dos pesos de acordo com o oposto da derivada do erro, pode-se observar isso de acordo com a
seguinte expressão (NIED, 2007, p.50):

𝜕𝐸𝑘
∆𝑤𝑖𝑗 = − 𝜂 (23)
𝜕𝑤𝑘𝑗

Onde 𝜂 é a taxa de aprendizado, que estabelece o grau de aprendizagem durante o processo.

 A taxa de aprendizado

Segundo Braga et.al (2000, p.65), o algoritmo backpropagation realiza ajuste nos
pesos para minimizar a função objetivo que corresponde ao erro obtido pela rede neural. Para
essa aplicação é utilizado o método de otimização gradiente descendente.
A taxa de aprendizagem está diretamente ligada ao grau de variação dos pesos
sinápticos da rede de uma iteração para outra em busca pela minimização do erro. Sendo assim,
quanto menor o parâmetro de aprendizagem (𝜂), menor a variação dos pesos Δ𝑤, e a trajetória
espacial dos pesos será mais suave. Mas se este parâmetro for muito grande, o sistema tenderá
a instabilidade pelas grandes modificações dos pesos das conexões (POPOFF, 2009, p.36).
Para minimizar o problema da instabilidade deve-se incluir um termo, conhecido como
momentum, na regra delta.

𝛥𝑤𝑘𝑗 (𝑛) = 𝛼𝛥𝑤𝑘𝑗 (𝑛 − 1) + 𝜂𝛿𝑘 (𝑛)𝑥𝑗 (𝑛) (24)

Onde 𝛼 é a constante de momentum.


Segundo Braga et.al (2000, p.65), o termo momentum faz com que os ajustes dos pesos
aumentem a velocidade durante o treinamento, diminui a instabilidade e pode retirar a rede de
mínimos locais.
32

2.2.5 Generalização das RNAs

As RNAs, quando devidamente treinadas, tem a capacidade de responder às entradas


que não estavam presentes durante o treinamento, esta habilidade é conhecida como
generalização.
Uma boa generalização é realizada quando o mapeamento entrada-saída da rede neural
produz um modelo apropriado para o processo. Para isso, o número de padrões utilizados no
projeto e as modificações dos parâmetros da RNA devem ser levados em consideração
(HAYKIN, 2001, p.232). Porém existem modelos altamente complexos, com dados bem
definidos, e modelos com baixo nível de complexidade, com dados mal definidos, que possuem
pouca capacidade de generalização. (TEIXEIRA, 2001, p.9).
A definição de complexidade do modelo é dada pelo número de parâmetros livres da
RNA, sendo que eles são representados pelos pesos e termos de polarização. Quanto maior o
número de parâmetros livres da rede neural, mais elevado será seu grau de complexidade. O
dimensionamento dos padrões e da arquitetura da rede neural não é tarefa trivial, pois não
existem regras que define os procedimentos para uma boa generalização. Portanto é necessário
analisar a qualidade de generalização da rede em um processo conhecido como validação. Este
processo consiste em apresentar estatísticas do conjunto de dados não apresentadas a rede
durante o processo de treinamento (TEIXEIRA, 2001, p.9).
Em processos em que a complexidade da arquitetura da rede neural é maior do que a
do modelo do problema, há um super ajuste da rede aos dados de treinamento, e
consequentemente respostas inadequadas para o teste de validação. Este fenômeno é chamado
de overfitting e ele é responsável por diminuir a capacidade de generalização da RNA
(PROTES, 2009, p.49).
Existem processos em que a complexidade do modelo do problema é maior do que a
complexidade do modelo neural, há então um sub ajuste da rede em relação aos dados de
treinamento gerando um fenômeno conhecido como underfitting. Com isso temos uma
generalização pobre da RNA. (PROTES, 2009, p.49).
Também pode-se considerar que o número de épocas de treinamento interfere na
capacidade de generalização da rede neural. Sendo que o underfitting é dado quando há um
número pequeno de épocas de treinamento. E o overfitting pode ser causado quando há dados
de treinamento ajustados em excesso (PAGANOTO, 2008, p.21). A Figura 8 representa
graficamente uma boa capacidade de generalização e generalização pobre da rede:
33

Figura 8 - (a) Dados de mapeamento adequado; (b) Capacidade de generalização pobre

Fonte – Prottes, 2009, p.49

De acordo com o que foi descrito acima podemos dizer que underfitting e overfitting
afetam a capacidade de generalização da rede, sendo assim, a definição da arquitetura e
topologia da rede neural devem ser bem dimensionadas para que não ocorra uma baixa
capacidade de generalização.

2.3 Identificações de sistemas dinâmicos não lineares utilizando RNAs

A implementação de RNAs para identificação de sistemas foi motivada principalmente


pelas necessidades das grandes indústrias em tratar problemas com alto grau de complexidade,
as redes neurais têm capacidades que as privilegiam para lidar com sistemas complexos, tais
como, capacidade de aprender através de experiências, mapeamento de sistemas dinâmicos,
controle adaptativo, e controle de sistemas em geral. (NØRGAARD et.al 2000, p.3).
Atualmente é comum fazer o uso de redes neurais artificias para modelagem de
sistemas, principalmente sistemas dinâmicos complexos e não lineares. As técnicas que se
baseiam em RNAs geralmente são qualificadas para realizar identificação de sistemas
dinâmicos não lineares, devido às múltiplas unidades de neurônios distribuídas e paralelas que
eleva sua capacidade de processamento e lhe garante uma grande facilidade para mapeamento
de sistemas dinâmicos e não lineares (PAGANOTO, 2008, p.26).
As redes neurais artificias são atrativas para atuar na área de identificação de sistemas
complexos por possuir algumas características especiais como (ASSIS 2001, p.32):
34

 Potencial para identificar sistemas dinâmicos complexos e altamente não lineares;


 As RNAs podem ser treinadas de forma trivial em relação a outras técnicas, utilizando
informações do processo;
 São facilmente aplicáveis em sistemas multivariáveis;
 Possui capacidade de adquirir conhecimento através de experiências e fazer interpolação e
extrapolação do que aprenderam.

O problema das redes neurais para realizar identificação de sistemas não está ligado
com a capacidade das RNAs, mas sim com o tipo de estrutura neural, por exemplo: o número
de parâmetros livres que será utilizado para que a capacidade de generalização da rede não seja
afetada. Essa dificuldade na definição dos parâmetros livres acontece por não se conhecer a
relação entre o grau de aproximação e o número de neurônios por camadas, assim é necessário
ter cuidado com a quantidade de parâmetros livres que serão utilizados na rede neural (GUPTA
et.al, 1994 apud VARGAS, 1997, p.18).
Além da definição de parâmetros, outro aspecto que dificulta a estruturação das RNAs
é a seleção de um algoritmo de aprendizagem que seja capaz de representar as características
dinâmicas do sistema (VARGAS, 1997, p.18).
Para solucionar os problemas citados anteriormente, grandes pesquisadores
desenvolveram propostas de arquiteturas de RNA e algoritmos de aprendizagem com objetivo
de fazer que o resultado tenha estabilidade necessária para que o processo de identificação seja
válidado (ASSIS 2001, p.32).

2.3.2 Configuração da RNA para identificação de sistemas dinâmicos

Para modelagem de sistemas dinâmicos existem duas formas básicas para o arranjo da
RNA durante o treinamento: o modelo direto e o modelo inverso, que estão descritos abaixo
(Brown et.al 1994 apud SCHNITMAN, 1998, p.58):

1. Modelo direto

O modelo direto se dá quando a RNA está disposta em paralelo com o sistema a ser
identificado ou o processo. Neste método a rede neural recebe informações direto da entrada e
sinal do erro de saída estimada pelo modelo neural e a saída real da planta, o erro é enviado
35

para a rede através de um algoritmo de treinamento. Nesta estrutura de aprendizagem necessita


de um professor para determinar os padrões de treinamento (SCHNITMAN, 1998, p.58). A
Figura 9 representa o sistema por modelagem direta.

Figura 9 - Diagrama do de identificação de sistema por modelo direto

Fonte – Schnitman, 1998, p.58

2. Modelo inverso

O modelo inverso é contrário ao modelo direto, a saída real do processo envia as


informações para a RNA. Neste método, a saída da rede neural é treinada para obter valores
que representam os pares de entrada-saída para satisfazer o treinamento. Sendo assim, a rede
neural artificial apresenta comportamento inverso após o treinamento (SCHNITMAN, 1998,
p.59). A Figura 10 representa o sistema por modelagem inversa:

Figura 10 - Diagrama do de identificação de sistema por modelo inverso

Fonte – Schnitman, 1998, p.59


36

Um detalhe sobre o modelo inverso é que o mapeamento entrada-saída da planta deve


ser unívoco, pois para mapeamentos biunívocos a planta pode obter modelos inversos incorretos
para o problema (CALOBA, 2002, p.13).

2.3.1 Redes recorrentes

Recentemente diversos tipos de arquiteturas de redes recorrentes vêm sendo utilizadas


em aplicações de identificação de sistemas dinâmicos. Existem vários tipos de algoritmos de
aprendizagem proposto para identificação de sistemas com redes neurais recorrentes devido a
sua capacidade de realizar processamento temporal, dentre eles estão o back-propagation
recorrente, back-propagation through time, back-propagation dynamic, entre outros (BRAGA,
2000, p.207-221).
As redes neurais recorrentes são caracterizadas da seguinte maneira (HAYKIN, 2001,
p.788):

 Integram um perceptron de múltiplas camadas estático ou parte dele;


 Elas exploram a capacidade de mapeamento não-linear do perceptron de múltiplas camadas.

O modelo neural de uma rede recorrente possui uma única camada de entrada, que é
constituída por memória de linha de atraso que é derivada com 𝑞 unidades. Ela também é
composta por uma única saída que forma outra memória de linha de atrasos derivados no tempo
através de uma realimentação também com 𝑞 unidades.
Nas redes recorrentes tem-se entradas e saídas instantâneas e valores atrasados no
tempo. Os valores de entrada atual é dado por 𝑢(𝑛) enquanto os valores passados no tempo são
representados por [𝑢(𝑛 − 1), 𝑢(𝑛 − 2), … , 𝑢(𝑛 − 𝑞 + 2), 𝑢(𝑛 − 𝑞 + 1)]; a saída
corresponde a 𝑦(𝑛 + 1); sendo assim pode-se dizer que a saída está adiantada em relação à
entrada por uma unidade de tempo. Os valores atrasados da saída são [𝑦(𝑛), 𝑦(𝑛 −
1), … , 𝑦(𝑛 − 𝑞 + 2), 𝑦(𝑛 − 𝑞 + 1)].
37

Figura 11 - Rede neural recorrente

Fonte – Haykin, 2001

As entradas instantâneas e atrasadas no tempo são chamadas de entradas exógenas,


enquanto os valores atrasados da saída realizam a regressão da saída do modelo 𝑦(𝑛 + 1).
As redes recorrentes são reconhecidas como um modelo auto regressivo não linear
com entradas exógenas NARX (nonlinear autoregressive with exogenous inputs).
38

Segundo Haykin (2001, p.790), admite-se que um modelo matemático de um sistema


do tipo NARX pode ser representado pela seguinte equação:

𝑦(𝑘 + 1) = 𝑓([𝑦(𝑛), … , 𝑦(𝑛 − 𝑞 + 1), 𝑢(𝑘), … , 𝑢(𝑛 − 𝑞 + 1 )]) (25)

Sendo que 𝑓 é uma função não linear dos valores passados da saída [𝑦(𝑘), 𝑦(𝑘 −
1), … , 𝑦(𝑘 − 𝑛)] e dos valores passados da entrada [𝑢(𝑘), 𝑢(𝑘 − 1), … , 𝑢(𝑘 − 𝑚 )].
Nota-se que a equação acima possui processamento temporal, que é caracterizado
pelos valores de atraso no tempo, sendo assim pode-se considerar que o sistema possui memória
de estado. Segundo Braga (2000, p.207), as RNAs que são dotadas de processamento temporal
têm a capacidade de realizar mapeamento dinâmico pela sua sensibilidade a sinais que variam
com o tempo.
Mesmo utilizando uma estrutura NARX ou outra que tenha bom desempenho para
sistemas dinâmicos, não é possível garantir a convergência e estabilidade para que o processo
de identificação seja válidado. Por isso pode-se afirmar que um dos maiores desafios na área de
identificação é trabalhar com sistemas que possuem parâmetros que variam com o tempo
(ASSIS 2001, p.33).
39

3 PROCEDIMENTOS METODOLÓGICOS

3.1 Helicóptero 2DOF

O protótipo de helicóptero da quanser chamado 2 DOF Helicopter (DOF, do inglês


degrees of freedom, que significa graus de liberdade) é usado para simular um helicóptero real.
Ele está disposto em uma base fixa com duas hélices que são movimentadas por motores de
corrente contínua.
O Helicóptero 2DOF é um modelo da Quanser utilizado para aplicações didáticas
para introduzir conceitos de identificação e controles clássicos, modernos e outros em sistemas
dinâmicos através de simulações em tempo real utilizando ferramentas computacionais.

Figura 12 - Modelo de helicóptero 2 DOF da Quanser

Fonte - Quanser, 2012a.

O protótipo na figura acima é um modelo não linear que possui dois graus de liberdade.
As saídas dos sistemas são os ângulos de arfagem que é responsável pelos movimentos de
rotação em torno do eixo lateral e o ângulo de guinada que realiza rotação em torno do eixo
vertical do helicóptero.
40

Para realizar movimentos o protótipo da quanser utiliza dois motores de corrente


continua embutidos em suas extremidades e interligados com as suas hélices. Quando os
motores são acionados as hélices acopladas a eles começam a se movimentar gerando forças de
propulsão, fazendo com que o helicóptero se movimente nos eixos vertical e lateral (FIRMINO,
2008, p. 28).
São utilizados encoders para medição da posição e velocidade da planta transmitindo
os sinais gerados para uma placa de aquisição que se comunica com outra placa que está
conectada ao computador. A partir deste momento são utilizadas técnicas computacionais para
realizar a comunicação entre o computador e a planta através do software MATLAB e de
ferramentas de comunicação em plataforma Windows fornecidas pela Quanser (GONÇALVES,
2015, p.31).

3.2 Modelagem matemática do Helicóptero

O modelo do helicóptero possui duas entradas (UA e UG), e duas saídas (YA e YG).
A Figura 13 representa o diagrama do sistema MIMO.

Figura 13 - Diagrama de entradas e saídas

Fonte – Souza, 2011 apud Casara, 2015, p.44


41

O sistema do helicóptero representado no diagrama acima é MIMO. Contudo esse


trabalho apresenta apenas uma modelagem do ângulo de arfagem, sendo assim considera-se
então que o sistema seja SISO. Isso é possível pois o ângulo arfagem não possui dependências
significativas do ângulo de guinada.
Neste trabalho utilizou-se a ferramenta System neuralnetwork training ToolboxTM do
MATLAB®, onde são inseridos os sinais de entrada, saída e todos os outros parâmetros de
treinamento necessários.

3.2.1 Descrição física do ângulo de arfagem

O ângulo de arfagem (theta - 𝜃) é medido em relação ao eixo horizontal paralelo


utilizando como referência a base que coincide com o eixo de arfagem. Limita-se o movimento
de arfagem entre os valores de ângulo que variam entre -40,5° e 40,5°. O movimento de
arfagem é gerado pelo motor e a hélice do equipamento que estão situados na parte da frente
do protótipo de helicóptero. O desenho abaixo descreve todas as forças físicas que atuam sobre
o eixo de arfagem do helicóptero:

Figura 14 - Representação gráfica das forças sobre o eixo de arfagem

Fonte – Bo et al, 2004, p.65.


42

A representação matemática do processo será disposta abaixo apenas para


entendimento do funcionamento do protótipo proposto. Segundo Bo et.al (2004, p.66), pode-se
dizer que a resultante dos torques que atuam sobre o sistema é:

𝐼𝑀𝑞 × 𝜃̈ = 𝑇𝑃 − 𝑇𝐷 − 𝑇𝐴 − 𝑇𝑀 + 𝑇𝐺 + 𝑇𝐶 + 𝑇𝑇 (26)

Sendo que:
𝐼𝑀𝑞 : Momento de inercia da arfagem do sistema [𝑘𝑔. 𝑚2 ];
𝜃̈ : Derivada de segunda ordem do ângulo de arfagem [𝑟𝑎𝑑];
𝑇𝑃 : Torque gerado pelo empuxo do motor principal [𝑁. 𝑚];
𝑇𝐴 : Torque gerado pelo atrito [𝑁. 𝑚];
𝑇𝑀 : Torque gerado pela massa do corpo do helicóptero [𝑁. 𝑚];
𝑇𝐺 : Torque gerado pelo efeito giroscópio [𝑁. 𝑚];
𝑇𝐶 : Torque gerado pelo Cíclico [𝑁. 𝑚];
𝑇𝑇 : Torque gerado devido ao empuxo do motor traseiro [𝑁. 𝑚].

O ângulo de arfagem (𝜃) é alterado de acordo com o torque devido a ação da gravidade
que atua sobre o helicóptero. Esse torque é gerado de acordo com a própria massa do protótipo
que aplica uma força sobre o centro de gravidade que aponta sempre no sentido do solo.
Os movimentos de arfagem ocorrem em torno ao eixo lateral do helicóptero, esse
movimento é responsável pela inclinação do helicóptero, seja ela na parte frontal ou traseira da
planta. A força de arfagem tem um ponto de que incide no eixo do conjunto motor/hélices de
arfagem. O sentido de giro do helicóptero dependendo exclusivamente do sentido de rotação
do conjunto motor/hélices. Se o sentido de giro for positivo então a frente do helicóptero tende
a levantar, caso ele seja negativo a frente do helicóptero inclina-se para a baixo (BO et.al, 2004,
p.67).

3.2.2 Processo de modelagem do ângulo de arfagem com RNAs

A utilização de RNAs para obtenção do modelo do sistema se deve às características


inerentes das redes em realizar mapeamento de entrada e saída não linear, capacidade de se
adaptar, melhorar o seu rendimento a cada iteração e de otimizar seu desempenho na busca por
soluções de um determinado problema dentre outras capacitações.
43

A identificação de sistema usando uma RNA é um processo complexo de se realizar,


pois é preciso estruturar a rede de forma que essa possa ter um bom desempenho durante o
processo de identificação, para isso é necessário seguir uma série de etapas a fim de garantir
que a rede neural consiga entender e modelar a planta.
O processo de identificação consiste em etapas que tem o objetivo de construir um
modelo matemático a partir de dados de entrada-saída do sistema. Para construção desse modelo
existem algumas etapas a serem seguidas, abaixo considera-se cinco etapas para o processo de
identificação de sistemas (AGUIRRE, 2004, p.81):

1. Testes dinâmicos e coleta de dados de entrada-saída do processo a ser identificado;


2. Realizar tratamentos de dados para remover as tendências e pontos divergentes, escolher
dados relevantes para o sistema e filtrar os dados com o objetivo de aprimorar as
frequências importantes do sistema;
3. Escolher a estrutura matemática a ser utilizada para obtenção do modelo. Em caso de
redes neurais essa estimação é realizada durante o treinamento da rede;
4. Estimar parâmetros é uma etapa importante do processo de identificação. Ela tem como
objetivo realizar ajustes dos dados;
5. A validação do modelo é a etapa que verifica se o modelo obtido é satisfatório ou não
para representar o sistema.

Para realizar a identificação de um sistema dinâmico é preciso estruturar um sistema


que permita construir um modelo que seja bem próximo do modelo real. Sendo assim, no
processo de identificação de sistemas é preciso criar um algoritmo que faça com que o erro seja
insignificante para o sistema, pois só assim é possível obter um modelo que seja o mais fiel
possível a planta real. Abaixo pode-se observar como se soluciona este problema (KOVASC,
1996 apud VARGAS, 1997, p.7):
44

Figura 15 - Identificação de sistemas dinâmicos

Fonte – Kovasc, 1996 apud Vargas, 1997, p.7.

Para identificar sistemas dinâmicos é preciso primeiramente escolher um sinal de


entrada 𝑢(𝑘) que será capaz de mostrar as frequências relevantes para o sistema. Posteriormente
é necessário estruturar o modelo de identificação de forma que esse consiga estimar um sinal
de saída próximo ao sinal desejado gerando um erro insignificante para o sistema. O sinal do
erro é gerado pela diferença da saída do modelo e da saída da planta real, então tem-se
que 𝑒(𝑡) = 𝑌(𝑡)– 𝑌̂(𝑡), onde Y(t) é a saída real do sistema e 𝑌̂(𝑡) é a saída estimada pelo
modelo. No diagrama acima percebe-se que enquanto houver erro significativo para o sistema
haverá ajuste nos parâmetros do modelo de identificação.

 Modelo neural de identificação

“Os modelos empíricos podem ser contínuos e discretos; lineares ou não lineares;
monovariaveis ou multivariaveis; determinísticos ou estocásticos; invariantes ou variantes no
tempo” (ASSIS, p.10). O modelo matemático do sistema pode ser obtido de diferentes formas.
Os métodos utilizados para a obtenção do modelo do sistema são baseados basicamente em:
modelagem caixa-branca, modelagem empírica ou caixa-preta e modelagem caixa cinza. Neste
trabalho será empregado o método de modelagem caixa-preta (NØRGAARD et.al, 2000, p.13).
No método de modelagem caixa-preta a princípio não se conhece nenhuma informação
do sistema. Como já dito neste trabalho, esse método consiste em aplicar um sinal na entrada
do sistema e adquirir o sinal de saída através de fermentadas matemáticas.
Para obter o modelo neural é preciso traçar algumas etapas como as descritas abaixo:
45

1. Coleta de dados feita a partir da excitação do modelo do processo real;


2. Análise dos dados e seleção da estrutura da RNA;
3. Treinamento da RNA;
4. Validação do modelo;
5. Execução de simulações e testes.

Os itens anteriores serão exemplificados posteriormente na seção de análises inicias


deste trabalho.
Na modelagem de sistemas dinâmicos por redes neurais artificias geralmente não é
preciso ter um conhecimento prévio do sistema, sendo assim os métodos que são considerados
totalmente paramétricos ou analíticos não são utilizados. Para obter o modelo são considerados
somente pares de entrada (𝑢(𝑡)) e saída (𝑦(𝑡)) que são coletados durante o processo de
aquisição de dados. Esses valores de entrada e saída são os sinais que correspondem a entrada
e saída medida do sistema objetivo. Então esses dados são apresentados para a rede neural a
fim de que o modelo neural possa construir sua própria representação da planta real.

Figura 16 - Identificação de sistemas dinâmicos com Redes neurais

Fonte – Lima, 2000, p.39

 Arquitetura da RNA

A rede neural recorrente do tipo NARX é uma ferramenta largamente utilizada para
identificação de sistemas não lineares. Como já dito nesse trabalho ela tem capacidade de
46

trabalhar com processamento temporal, o que a torna atrativa para trabalhar com sistemas
dinâmicos.
O modelo auto regressivo não linear com entrada externa (NARX) para um sistema
SISO com adição de ruído e entradas exógenas em instantes de tempo anteriores, pode ser
representado da seguinte forma (LIMA, 2000, p.50).

𝑦(𝑘 + 1) = 𝑓([𝑦(𝑛), … , 𝑦(𝑛 − 𝑞 + 1), 𝑢(𝑘), … , 𝑢(𝑛 − 𝑞 + 1 ) + 𝑤(𝑛 + 1)]) (27)

Sendo 𝑓 valores instantâneos e atrasados no tempo; 𝑤(𝑛) é um ruído aleatório com intensidade
igual em frequências distintas comumente chamado de ruído branco.
A representação do vetor regressor das redes recorrentes NARX para sistemas SISO
sem adição de ruído é dada da seguinte maneira:

𝑦(𝑘 + 1) = 𝑓([𝑦(𝑛), … , 𝑦(𝑛 − 𝑞 + 1), 𝑢(𝑘), … , 𝑢(𝑛 − 𝑞 + 1 )]) (28)

Considerando que o erro de predição é igual ao ruído do sistema, então:

𝑒(𝑘 + 1) = 𝑦̂(𝑘 + 1) − 𝑦(𝑘 + 1) = 𝑤(𝑘 + 1) (29)

Sendo assim, considera-se que a rede NARX pode ser descrita matematicamente
como:

𝑦(𝑘 + 1) = 𝜑([𝑦(𝑛), … , 𝑦(𝑛 − 𝑞 + 1), 𝑢(𝑘), … , 𝑢(𝑛 − 𝑞 + 1 ), 𝜃]) (30)

onde 𝜑 é uma função não-linear; e 𝜃 é o vetor de parâmetros da rede neural.

A representação que exemplifica a rede recorrente NARX pode ser vista na figura
abaixo:
47

Figura 17 - Arquitetura de uma rede recorrente do tipo NARX

Fonte – Haykin adaptado, 2001, p.803


48

4 ANÁLISE DE RESULTADOS

Nessa seção são apresentadas as etapas de realização e a análise dos resultados obtidos.
Os algoritmos utilizados foram desenvolvidos para atender as necessidades especificas para o
trabalho.

4.1 Análises iniciais

Inicialmente foi realizado um estudo sobre o funcionamento físico e lógico da planta,


observando um sample time fixo de 0.002 segundos. Para a excitação do sistema foi utilizado
uma entrada pseudoaleatória.

Figura 18 - Sinal de entrada para treinamento da RNA

Fonte - Os autores, 2017.

Entradas aleatórias são ideais para treinamento de RNAs, pois possuem autocorrelação
0 ∀ 𝜏 ≠ 0 (AGUIRRE, 2000, p.362).
49

Os dados de entrada foram gerados através da função PRBS (pseudo-random binary


signal) funcionando através do software MATLAB®, tendo seus limites de tempo entre 3 e 6
segundos por degrau, e limites de amplitude entre 14.5 e 15.7 Volts, sendo verificado sua
genuína aleatoriedade através de métodos de autocorrelação, onde o sinal foi verificado com
autocorrelação 0 ∀ 𝜏 ≠ 0.

Figura 19 - Autocorrelação do sinal de entrada

Fonte - Os autores, 2017.

Os limites de amplitude foram escolhidos por meio de ensaios feitos em laboratório,


onde foi limitado a tensão do motor de arfagem de modo que não haja interferência nos sinais
por saturação, seja ela no limite superior de 40,5º ou inferior de -40,5º.
A divisão de dados para treinamento e validação foi feita da seguinte maneira:
Ignorou-se os primeiros 50 segundos de dados e passou a se considerar o t=50 como t=0;
treinou-se a rede com os dados retirados entre os tempos 0 e 200 segundos, e a validação
utilizando dados entre os tempos 300 e 345 segundos.
Foram utilizados para aquisição de dados: computador com sistema operacional
Windows, software MATLAB®, placa de aquisição para protótipos Quanser, duas fontes de
50

potência com controle analógico para protótipos Quanser, helicóptero Quanser 2dof com saídas
de encoders óticos e entrada de tensão continua. Como resposta da excitação extraiu-se um
conjunto de valores com sua amplitude entre 0 e 1, relativos respectivamente aos ângulos
limites -40,5º e 40,5º.

Figura 20 - Sinal de saída da arfagem

Fonte - Os autores, 2017.

Feita as aquisições necessárias os dados foram avaliados e segmentados de acordo com


a necessidade, a auto correlação da saída de um processo deve ter seu menor valor entre 10 e
20 atrasos podendo ser relaxados para 5 e 25 atrasos (AGUIRRE, 2000, p.369).
51

Figura 21 - Auto correlação da saída (a) sem segmentação (b) com segmentação

Fonte - Os autores, 2017.

Foi calculado uma taxa de segmentação de 50 para obter valores apropriados de


autocorrelação para este trabalho. Com a segmentação o sample time dos dados é alterado de
0.002 segundos para 0.100 segundos, mudando assim a massa de dados de treinamento que
antes possuía 152516 dados para 3049 dados.

4.1.1 Parâmetros da RNA

Foi utilizada a estrutura NARX para obter o modelo da planta, sendo necessário os
seguintes parâmetros: número de camadas ocultas da rede, número de atrasos na entrada e na
saída do modelo, número de neurônios por camada da rede, função de ativação das camadas,
função de treinamento.
A escolha da quantidade de camadas da RNA foi feita com intuito de adquirir
características lineares e não lineares do sistema real, com números de neurônios e de camadas
escolhidos de acordo com a necessidade, tomando os devidos cuidados para não ultrapassar os
limites máximos de camadas e neurônios, evitando a memorização e não generalização da RNA
52

(TAFNER et.al, 1996, p.77). Os melhores resultados foram obtidos com uma camada de função
não linear sigmoide e uma camada linear, a primeira com 5 neurônios e a segunda com 1
neurônio, sendo a camada linear a camada de saída.

Figura 22 - Visualização do diagrama da RNA

Fonte - Os autores, 2017.

Para escolha dos atrasos a serem utilizados na modelagem do sistema, foram utilizados
a correlação cruzada entre a saída e a entrada para atrasos de entrada, e a autocorrelação da
saída para atrasos de realimentação do sistema, obtendo os valores de 3 atrasos significativos
para a entrada e 10 atrasos significativos para a realimentação do sistema.
A função gradiente descendente com momentum e taxa de aprendizagem adaptativa
teve o melhor resultado entre as selecionadas para ser o método de treinamento, pois a
existência do momentum acelerou o processo e evitou mínimos locais, tendo algumas
concorrentes próximas em resultados como: Levenberg-Marquardt; One Step Secant e Quasi-
Newton.
53

4.2 Resultados obtidos

Matrizes são as formas mais utilizadas para representar uma rede neural treinada,
contendo todas as informações de peso (IW) e bias (b) necessários. Sendo estas as matizes da
primeira camada:

−1.645
−0.458
𝑏1 = −0.602
0.89
1.532

0.0733 −0.3076 −0.0758


0.2291 −0.1321 −0.5129
𝐼𝑊11 = 0.1521 0.3079 0.3118
0.2239 −0.0456 0.0560
0.2148 −0.3116 0.2284

Figura 23 - Matriz de pesos IW1_2

Fonte - Os autores, 2017.

E sendo estas as matrizes da segunda camada:

𝑏2 = −0.5017

𝐼𝑊21 = −0.7462 −0.3137 0.5124 0.0788 −0.2222

Com estes valores e as devidas funções de ativação de cada camada, foi possível fazer
diversos tipos de simulação do modelo, todos esses utilizando as matrizes de pesos e bias.
“Comparar a simulação do modelo obtido com dados medidos é provavelmente a
forma mais usual de se validar um modelo. ” (AGUIRRE, 2000, p.388). Existem diversas
maneiras de se analisar os resultados obtidos do processo de treinamento, com o modelo em
mãos pode-se excita-lo com as entradas utilizadas no treinamento e obter uma resposta, porém
54

por se tratar de um sinal que já foi apresentado à rede neural não são dados apropriados para
análise, necessitando assim de excitar o modelo com dados que nunca foram apresentados.

Figura 24 - Predição de 1 passo à frente

Fonte - Os autores, 2017.

Predição de um passo à frente é um método muito utilizado, onde os atrasos de


realimentação utilizados na rede neural NARX não são obtidos pela resposta do modelo, mas
sim da massa de dados chamada Target, evitando que ocorra o que é chamado de acumulo de
erro, porém esse método é de pouca fidelidade para verificar o modelo. Pode-se observar que o
modelo responde de maneira fiel ao sistema real.
55

Figura 25 - Predição livre

Fonte - Os autores, 2017.

O método de simulação chamado predição livre ou predição de infinitos passos


consiste em uma simulação independente da massa de dados Target. Os atrasos de
realimentação necessários para o modelo NARX provém do próprio modelo em respostas
anteriores, tendo apenas os primeiros valores retirados dos dados Target ou inicializados como
0, estes valores iniciais se dão pelo fato de o modelo não possuir saídas atrasadas para
realimenta-lo por se tratar do instante t=0.
Sendo um sinal mais independente, observa-se um erro mais aparente nos valores
observados no método de predição de infinitos passos à frente. Primordialmente foi calculado
o erro real da resposta em relação ao objetivo (Target), esse erro é exibido graficamente e não
possui valores significantes de pico superiores a 0.1 em amplitude, resultando em um erro
instantâneo máximo de 10%, e um valor eficaz de 0.0210, que equivale à 2,1% de erro.
56

Figura 26 - Erro instantâneo da predição livre

Fonte - Os autores, 2017.

Por se tratar de extremos, tanto a predição de um passo à frente e a predição de infinitos


passos à frente, deve-se avaliar predições de k passos à frente. No trabalho em questão foi
avaliado a predição de 6 passos à frente, obtendo uma resposta aceitável de acordo com os
índices de validação.
57

Figura 27 - Predição de 6 passos à frente

Fonte - Os autores, 2017.

Figura 28 - Erro instantâneo da predição de 6 passos à frente

Fonte - Os autores, 2017.


58

A predição de 6 passos à frente apresentou erro aceitável com valores de pico


significantes inferiores à 0.05 em amplitude, com um valor eficaz de 0.0045, equivalente a
0,45% de erro. O erro analisado é inferior ao erro de predição livre por se tratar de uma predição
de passos finitos, tendo um erro mais dez vezes menor do que esse.

4.3 Validação do modelo

Ao término do treinamento foram utilizados três métodos de validação do modelo


neural, são eles:

√∑𝑁 ̂(𝑘))2
𝑘=1(𝑦(𝑘) − 𝑦
𝑅𝑀𝑆𝐸 =
√∑𝑁 ̅)2
𝑘=1(𝑦(𝑘) − 𝑦 (31)

√∑𝑁 ̂(𝑘))2
𝑘=1(𝑦(𝑘) − 𝑦
𝑅𝑀𝑆𝐸(𝑖) =
√∑𝑁
𝑘=1(𝑦(𝑘) − 𝑦(𝑘 − 𝑖))
2 (32)

Resultados inferiores a 1 tanto em RMSE ou RMSE(i), indicam um desempenho


superior ao preditor padrão escolhido, seja média, para RMSE, ou um passo à frente, para
RMSE(i). (AGUIRRE, 2000, p.394). Como resultado à predição de 6 passos à frente tivemos
valores que satisfaz o necessário, tendo 0.3956 no RMSE e 0.3434 no RMSE(i) com i=6.
Métodos de correlação do erro com as variáveis envolvidas no processo também são
bastante utilizados, sendo necessário obter uma correlação nula para todo 𝜏. Foram feitas as
correlações entre erro e entrada, e erro e saída, verificando a não dependência do erro em relação
às entradas do processo.

4.3.1 Coeficiente de desigualdade de Theil

O teste de Theil é um coeficiente mais significativo, pois dá a possibilidade de


comparar e avaliar o quanto há de similaridade entre os dados reais e simulados, e com isso
supera desvantagens presente em outros métodos estatísticos (ALVARADO, 2017, p.26).
59

√ 1 ∑𝑁 2
𝑁 𝑡=1(𝑦(𝑡) − 𝑦̂(𝑡))
𝑇𝐼𝐶 =
√ 1 ∑𝑁 1 (33)
(𝑦(𝑡))2 + √ ∑𝑁 (𝑦̂(𝑡))2
𝑁 𝑡=1 𝑁 𝑡=1

Como resultado tem-se um valor entre 0 e 1, sendo 0 uma predição perfeita, e 1 uma
péssima predição. Feito os devidos cálculos para uma predição de 6 passos à frente, obteve-se
o valor de 0.0284, que segundo Rowland (1978 apud ALVARADO, 2017, p.26), atende o limite
aceitável de TIC < 0.4 para modelos aceitáveis, TIC < 0.7 e TIC ≥ 0.4 para modelos razoáveis,
e TIC ≥ 0.7 para modelos péssimos.

4.3.2 Índice de eficiência do modelo

Visando avaliar o resultado da simulação, é comumente utilizado um índice de


eficiência com valores variando de 0 a 100%, sendo 100% um modelo ideal. Com isto em mente
foi realizado os devidos cálculos para reafirmar a eficiência do modelo.

∑𝑁 ̂(𝑡))2
𝑡=1(𝑦(𝑡) − 𝑦 ∑𝑁 ̂(𝑡))2
𝑡=1(𝑦(𝑡) − 𝑦
𝐶𝑃 = ≈
∑𝑁 (𝑦(𝑡) − 𝑦̅(𝑡))2 ∑𝑁 ̅(𝑡))2
𝑡=1(𝑦(𝑡) − 𝑦
(34)
𝑁 × 𝑡=1
(𝑁 − 1)

𝐸𝐹 = 1 − 𝐶𝑃 (35)

𝐸𝐹′ = 1 − √𝐶𝑃 (36)

Aplicando uma simples raiz quadrada sob CP, obtém-se um índice mais robusto
chamado EF’. Utilizando os vetores Target e predição de 6 passos à frente como y(t) e ŷ(t)
respectivamente, e assumindo ȳ(t) como valor médio do vetor y(t), foi possível chegar ao valor
de EF=92,18% e EF’=72,04%, tendo um bom percentual no índice comum e um percentual
mediano utilizando um índice mais exigente.
60

4.3.3 Regressão entre valor simulado e valor medido

Afim de fazer uma análise da relação entre os valores desejados e os valores obtidos,
gerou-se um gráfico de regressão entre o vetor Target e a saída da predição de 6 passos à frente.
O valor obtido é chamado índice de linearidade entre variáveis, sendo 1 o valor ideal e 0 a pior
situação, no trabalho em questão o resultado foi de R=0.99119 para k=6; equivalente a 99,12%
de regressão linear entre as variáveis, e R=0,92293 para k infinito; equivalente a 92,29% de
regressão linear entre as variáveis

Figura 29 - Regressão para predição de 6 passos à frente

Fonte - Os autores, 2017.


61

Figura 30 - Regressão para predição de infinitos passos à frente

Fonte - Os autores, 2017.


62

5 CONCLUSÃO

A utilização de RNAs para modelagem de sistemas dinâmicos não-lineares, é buscada


em casos específicos de plantas altamente complexas ou que não apresentam bons resultados
com uma linearização. A demanda por profissionais capacitados tende a aumentar com os
estudos e técnicas mais avançados que são conseguidos atualmente. As técnicas de modelagem
através de redes neurais nunca foram tão aplicadas em modelagens e controles de processos
reais comparado com os dias de hoje, tendo em vista, o presente trabalho sem dúvidas
contribuiu para ampliar os conhecimentos sobre tal assunto.
O objetivo do trabalho foi analisar a eficiência de modelos neurais em identificação de
sistemas não lineares. As respostas obtidas comprovaram a eficiência e eficácia de modelos
neurais como modelos matemáticos para sistemas não lineares complexos, embora os
resultados não tenham sido os melhores para representação da planta. Estes resultados foram
avaliados com a utilização de métodos de validação largamente utilizados na área de
identificação de sistemas.
O trabalho apresentou bons resultados que puderam ser comprovados numericamente,
estatisticamente e graficamente. Como principais índices de validação do modelo neural, o
índice de eficiência (EF) e a análise de resíduos, demonstraram resultados satisfatórios. Isso se
dá pela utilização da estrutura NARX e a escolha da função gradiente descendente com
momentum e taxa de aprendizado adaptativa. Entretanto, a limitação nos resultados pode se dar
pela escolha da estrutura da rede neural e/ou código de treinamento.
Para análise estatística do modelo em questão, o índice EF = 92,18% mais do que
comprova que o modelo com predição de 6 passos à frente representa de forma satisfatória o
sistema real em questão. Os gráficos de autocorrelação do erro sugerem uma genuína
aleatoriedade no mesmo, uma vez que o erro se caracteriza apenas como ruído branco. A
correlação entre o erro e a entrada do sistema demonstrou bons resultados por não apresentar
dependência no tempo entre os sinais. O mesmo pode ser dito da correlação entre o erro e a
saída do sistema.
Como método de validações gráficas percebe-se que a rede neural acompanhou a saída
do sistema real, tanto no modelo com predição de 1 passo à frente, como no modelo com
predição de infinitos passos à frente, representando importantes características lineares e não
lineares da planta.
Para trabalhos futuros pode-se apontar um controle preditivo neural utilizando os
métodos aplicados no atual trabalho, verificando as validações e colocando em prática um
63

controle com 6 ou mais passos à frente. Além desse citado, um trabalho futuro necessário é
utilizar métodos de linearização juntamente com redes neurais, avaliando os resultados obtidos
dos novos modelos lineares e comparando-os com o modelo não linear proposto no atual
trabalho. Um outro trabalho futuro é utilizar métodos de modelagem caixa cinza no sistema
descrito no trabalho, e comparar sua eficiência e eficácia com os métodos de caixa preta aqui
utilizados. Novos trabalhos com intuitos de modelagem utilizando uma nova estrutura e um
novo código de treinamento são necessários para a continuação do estudo sobre redes neurais.
64

REFERÊNCIAS

ABREU, L. B. Utilização de Redes Neurais Artificiais para a Modelagem do Perfil


Térmico das Paredes dos Fornos de Coqueria. 2011. 100f. Dissertação de Mestrado. Centro
Universitário do Leste de Minas Gerais. Coronel Fabriciano – MG, 2001.

AGUIRRE, L. A. Introdução à Identificação de Sistemas: Técnicas Lineares e Não Lineares


Aplicadas a Sistemas Reais. 2ª edição. Editora UFMG, Belo Horizonte - MG. 2004. 659 p.

ALVARADO, C. S. M. Estudo e implementação de métodos de validação de modelos


matemáticos aplicados no desenvolvimento de sistemas de controle de processos
industriais. 2017. 174f. Tese de doutorado. Programa de Pós-Graduação da Universidade
Federal de São Paulo – USP. São Paulo – SP. 2017.

ASSIS, J. C. d. O. Controle preditivo baseado em redes neurais artificiais. 2007. 72f


Monografia. Centro Universitário do Leste de Minas Gerais, Coronel Fabriciano – MG, 2007.

BO, A. P., MIRANDA, H. H. F. Concepção de uma plataforma experimental para estudo


de controle de um modelo reduzido de helicóptero. 2004. 112f. Curso de Engenharia
Mecatrônica da Universidade de Brasília. Brasília. 2004.

BRAGA, A. P., LUDERMIR, T. B., e CARVALHO, A. C. (2000). Redes Neurais: Teoria e


Aplicações. LTC - Livros Técnicos e Científicos Editora S.A., Rio de Janeiro, RJ, 1ª edição.
Editora LTC. Rio de Janeiro – RJ. 2000. 261 p.

CALÔBA, L. P. Introdução ao Uso de Redes Neurais na Modelagem de Sistemas


Dinâmicos e Séries Temporais. Livro de Minicursos do XIV Congresso Brasileiro de
Automática. 14. 2002. Natal – RN. Minicurso. 2002. 52 p.

CASARA, V. P. Helicóptero 2-DOF: desenvolvimento e controle das malhas de arfagem e


guinada por técnicas PI e LQR. 2015. 85f. Monografia. Centro de Ciências Tecnológicas de
Santa Catarina - Universidade do Estado de Santa Catarina. Joinville – SC. 2015.

CORRÊA, M. V.; Identificação caixa-cinza de sistemas não-lineares utilizando modelos


NARMAX racionais – aplicação a sistemas reais. 1997. 110f. Dissertação de Mestrado,
Programa de Pós-Graduação em Engenharia Elétrica - Universidade Federal de Minas Gerais.
Belo Horizonte. 1997;

GONÇALVES, Samuel. D. Projeto de controlador ótimo para protótipo de helicóptero


com dois graus de liberdade. 2015. 65f. Monografia. Centro Universitário do Leste de Minas
Gerais, Coronel Fabriciano – MG, 2015.

HAYKIN, Simon. Redes Neurais: Princípios e prática. Traduzido por Paulo Martins Engel. 2°
edição. Porto Alegre: Editora Bookman, 2001. 900 p.

LIMA, C. A. d. M. Emprego de teoria de agentes no desenvolvimento de dispositivos


neurocomputacionais híbridos e aplicação ao controle e identificação de sistemas
dinâmicos. 2000. 295f. Universidade Estadual de Campinas Faculdade de Engenharia Elétrica
e de Computação - Departamento de Engenharia de Computação e Automação Industrial.
Campinas – Sp. 2000.
65

LIRA, S. A. Análise de correlação: Abordagem teórica e de construção dos coeficientes


com aplicações. 2004. 196f. Dissertação de Mestrado. Curso de Pós-Graduação em Métodos
Numéricos em Engenharia dos Setores de Ciências Exatas e de Tecnologia da Universidade
Federal do Paraná. Curitiba .2004.

MAIA, Marcelo. H. Controle preditivo robusto de um helicóptero com três graus de


liberdade sujeito a perturbações externas. 2008. 117f. Dissertação de Mestrado. Instituto de
Tecnologia de Aeronáutica, São Jose dos Campos – SP, 2008.

NARENDRA, K. S., PARTHASARATHY, K. Identification and control of dynarnical


systems using neural networks. IEEE Transactions on Neural Networks, v. 1, n. 1, p. 4-27,
1990.

NIED, A. Treinamento de redes neurais artificiais baseado em sistemas de estrutura


variável com taxa de aprendizado adaptativa. 2007. 127f. Tese de doutorado. Programa de
Pós-Graduação em Engenharia Elétrica - Universidade Federal de Minas Gerais. Belo
Horizonte - MG. 2007.

NØRGAARD, M., Ravn, O, POULSEN, N. K., HANSEN, L. K. Neural Networks for


Modelling and Control of Dynamic Systems, Springer, Inglaterra, 2000. 246 p;

OGATA, Katsuhiko. Engenharia de Controle Moderno. 5. ed. São Paulo: Pearson Prentice
Hall, 2010. 824 p.

PAGANOTO, S.F. Implementação de um neuro-controlador preditivo com otimização por


seção áurea aplicado em um processo de neutralização de ph. 2008. 108f. Dissertação de
Mestrado. Programa de Pós-graduação Centro Universitário do Leste de Minas Gerais, Coronel
Fabriciano – MG, 2008.

PINTO, C. F. C. Monitoração de defeitos em dutos rígidos por análise dos parâmetros de


emissão acústica utilizando redes neurais. 2014. 90f. Instituto Alberto Luiz Coimbra de Pós-
Graduação Engenharia Elétrica – Universidade Federal do Rio de Janeiro. Rio de Janeiro – RJ.
2014.

POPOFF, L.H.G. Controle preditivo Neural aplicado a um processo Petroquímico. 2009.


94f. Dissertação de Mestrado. Universidade Federal do Rio Grande do Norte, Natal - RN, 2009.

PROTTES, S. d. M. Controlador neural preditivo multivariável aplicado a uma planta


piloto de neutralização de ph. 2009. 130f. Dissertação de Mestrado. Programa de Pós-
graduação do Centro Universitário do Leste de Minas Gerais, Coronel Fabriciano – MG, 2009.

QUANSER. Laboratory Guide: 2 DOF helicopter experiment for MATLAB/Simulink Users.


Ontario, 2012.
______. User manual: 2 DOF helicopter experiment. Ontario, 2012.

SOUZA, F. d. O. Método de análise de robustez de Redes Neurais Artificiais sujeita a


retardo no tempo. 2005. 79f. Dissertação de Mestrado. Universidade Federal de Minas Gerais,
Belo Horizonte - MG, 2005.
66

SILVA, I. N., SPATTI, D. H., FLAUZINO, R. A. Redes Neurais Artificias para engenharia
e ciências aplicadas. 1.ed. São Paulo: Artliber editora. 2010. 399 p.

TAFNER, M; XERES, M; FILHO, I. Redes Neurais Artificias: Introdução a


Neurocomputação. Editora da FURB, 1996. 200 p.

TEIXEIRA, R. A. Treinamento de Redes Neurais Artificias Através de Otimização


Multiobjetivo: Uma Abordagem para o Equilíbrio entre a Polarização e a Variância. 2001.
144f. Tese de doutorado, Programa de Pós-Graduação em Engenharia Elétrica - Universidade
Federal de Minas Gerais. Belo Horizonte - MG. 2001.

VARGAS, J. A. R. Identificação de sistemas dinâmicos via redes neurais artificiais. 1997.


132f. Dissertação de Mestrado. Divisão de Pós-graduação do Instituto Tecnológico da
Aeronáutica. São José dos Campos – SP, 1997.

SILVA, I. N., SPATTI, D. H., FLAUZINO, R. A. Redes Neurais Artificias para engenharia
e ciências aplicadas. 1.ed. São Paulo: Artliber editora. 2010. 399 p.

SCHNITMAN, L. Controladores preditivos baseados em redes neurais artificiais. 1998.


135f. Dissertação de Mestrado. Departamento de Engenharia Elétrica da Universidade Federal
da Bahia. Salvador – BA. 1998.

Você também pode gostar