IME

ISSN 1982-9035 Monografias em Sistemas e Computação n° 03/2009

Métodos para Previsão de Séries Temporais e suas Tendências de Desenvolvimento
Claudio Vasconcelos Ribeiro Ronaldo Ribeiro Goldschmidt Ricardo Choren

Seção de Engenharia de Computação

INSTITUTO MILITAR DE ENGENHARIA PRAÇA GENERAL TIBÚRCIO 80 – CEP 22290-270 RIO DE JANEIRO – BRASIL

Monografias em Sistemas e Computação, No. 03/2009 Editor: Prof. Claudia Marcela Justel

ISSN: 1982-9035 Setembro, 2009

Métodos para Previsão de Séries Temporais e suas Tendências de Desenvolvimento
Claudio Vasconcelos Ribeiro, Ronaldo Ribeiro Goldschmidt1 , Ricardo Choren
1

Instituto Superior de Tecnologia do Rio de Janeiro – FAETEC

claudiovas02@yahoo.com.br, ronaldo.rgold@gmail.com, choren@ime.eb.br

Abstract. Time series forecasting is a challenge in the area of Data Mining. Predicting future values, based on past values, has become a subject of particular interest in academy and industry, with applications in production planning, electricity demand prediction and stock market price estimative, among others. There are several methods to assist in the task of time series forecasting, such as models from the statistics, as well as those derived from technologies of neural networks, fuzzy logic and the genetic algorithms, which are some examples of computational intelligence. Other approaches combine these techniques in the form of hybrid systems or committees, looking for a better performance achieved by the fusion of various experts. This paper presents some of these techniques and current trends of research in this area. Keywords: Time series, Artificial intelligence. Resumo. Previsão de séries temporais é um desafio da área de Mineração de Dados. Prever valores futuros, em função de valores passados, tem se tornado um assunto de especial interesse na academia e na indústria, com aplicações em planejamento de produção, matriz energética e mercado de ações, dentre outras. Existem diversos métodos para auxiliar na tarefa de previsão de séries temporais, tais como modelos provenientes da estatística, assim como aqueles derivados de tecnologias de redes neurais, de lógica nebulosa e de algoritmos genéticos, que são alguns exemplos de técnicas inteligência computacional. Outras abordagens que realizam a combinação destas técnicas, na forma de sistemas híbridos ou comitês, buscam alcançar um melhor desempenho por meio da fusão de várias opiniões individuais. Este trabalho apresenta algumas dessas técnicas bem como as tendências atuais de pesquisa nessa área. Palavras-chave: Séries temporais, Inteligência artificial.

iii

br iii . +55 21 2546-7090 E-mail: choren@ime. Brasil Tel.eb.Responsável por publicações: Ricardo Choren IME – Seção de Engenharia de Computação Praça General Tibúrcio 80. Rio de Janeiro/RJ. Praia Vermelha 22290-270.

2005] [Ribeiro et al. Para isso. 2008] [Silva et al. é necessária a utilização de algoritmos. 2006). 2007] [Morettin e Toloi. tais como redes neurais. (b) Série Laser (Wan.. Para que seja possível prever os valores futuros com base em valores passados. De forma objetiva. podem ser citados: previsão de vendas para planejamento de produção industrial. proporcionam a criação de metodologias avançadas de previsão. previsões de temperaturas médias e da altura das marés. e negócios tem crescido e continua como interesse atual de engenheiros e cientistas. Existem diversos métodos para auxiliar na tarefa de previsão de séries temporais.. a Figura 01 exibe exemplos de séries temporais. capazes de solucionar muitos problemas complexos. engenharia. lógica nebulosa e algoritmos genéticos.. Diversos Sistemas de Apoio à Decisão (SAD) empregam métodos que envolvem previsões de fatos e situações futuras. De forma ilustrativa. de médias móveis (MA) e Modelos ARIMA. Tecnologias de inteligência computacional. técnicas ou métodos de previsão de séries temporais. alternativas para combinação de métodos de previsão vêm sendo pesquisadas. 2006). demandas de energia elétrica. Conhecer previamente um valor futuro pode significar a diferença entre o sucesso e o fracasso em determinadas ocasiões. As capacidades e restrições individuais de tecnologias de inteligência computacional têm sido a motivação principal por trás de suas fusões para a criação de sistemas híbridos inteligentes. Dentre eles. 2007] descrevem uma série temporal como sendo um conjunto de observações discretas. estimativa de preços de ações na bolsa de valores. como por exemplo: modelos de Suavização Exponencial.1 Introdução A importância da análise e previsão de séries temporais na ciência. Comitê de máquinas de aprendizado é uma abordagem que trata da fusão do conhecimento adquirido por especialistas (métodos de previsão ou simples- 1 . por si só. é necessário que se disponha de uma memória histórica de dados ocorridos anteriormente. o conjunto de dados. Assim. [Silva et al. Entre elas existe a abordagem de combinação pela criação de comitês de máquinas de aprendizado. (a) (b) Figura 01: (a) Série Dow Jones (Wessa. Todavia. 2006]. realizadas em períodos eqüidistantes e que apresentam uma dependência serial entre essas observações . Os conceitos e definições descritos anteriormente podem ser observados em maiores detalhes em [Palit e Popovic. modelos auto-regressivos (AR). não permite a previsão dos valores futuros. que podem envolver cálculos simples ou procedimentos complexos .

Pode-se expressar uma série temporal por: Z t = {Z t ∈ ℜ | t = 1.N} Onde t é um índice temporal.1 Séries Temporais Uma série temporal pode ser conceituada simplesmente como qualquer conjunto de observações ordenadas no tempo [Morettin e Toloi.. ^ Z(t) .. As previsões em Z(t+1). Este trabalho tem por objetivo apresentar algumas das técnicas citadas para a previsão de séries temporais.. cuja origem é t e o horizonte de previsão é h. 2001]. A organização desse trabalho segue em mais 3 Seções. t+h Tempo (t) Figura 02: Observações de uma série temporal com previsões de origem t e horizontes de previsão iguais a um.. A Seção 2 descreve as bases teóricas referentes à previsão de séries temporais. Z(t+2).. Na Seção 3 são apresentados alguns métodos aplicados na previsão de séries temporais e as tendências nessa área. dois e h (adaptado de [Morettin e Toloi.. Z(t+h) podem ser ilustradas por meio do exemplo contido na Figura 02... a Seção 4 contém um resumo e as suas conclusões.. e N é o número de observações. . 2.. Considerando a existência de observações de uma série temporal até o instante t. a previsão no instante t+h é denotada por Ẑt(h).3.. t ^ Z(1) ^ x Z(2) x ^ Z(h) x t+1 t+2 .2.mente previsores) para atingir uma decisão global que visa ser superior àquela alcançável por qualquer um deles atuando isoladamente [Haykin. bem como as tendências atuais de pesquisa nessa área. 2006]) 2 . .. . 2 Conceitos Básicos Esta seção descreve os conceitos básicos sobre séries temporais e apresenta duas das mais importantes tecnologias de inteligência artificial que servem de base para a criação de diversos algoritmos e métodos de previsão de séries temporais: redes neurais e lógica nebulosa. 2006]. Finalizando o trabalho..

Uma rede neural se assemelha ao cérebro em dois aspectos [Haykin. conhecidas como pesos sinápticos. análise de imagens e controle de processos. redes neurais artificiais (RNAs) são modelos matemáticos inspirados nos princípios de funcionamento dos neurônios biológicos e na estrutura do cérebro ” [Goldschmidt e Passos. aproximação de funções. A série temporal é normalmente dividida em dois conjuntos de elementos: o primeiro é destinado ao método de previsão para a obtenção do aprendizado (conjunto de treino) e o segundo é usado para verificação de seu desempenho na previsão de valores futuros (conjunto de teste). e Forças de conexão entre neurônios. Ele é chamado de janela de previsão e está presente em boa parte dos métodos de previsão de séries temporais [Silva et al. Figura 03: Exemplo de uma janela de previsão com cinco entradas e horizonte de previsão igual a um 2. clustering ou agrupamento. A janela de previsão é utilizada para formar o exemplos (padrões) nos quais alguns métodos de previsão realizam a extração do conhecimento (aprendizado) para aplicação na previsão de valores futuros. cuja arquitetura em camada produz um fluxo de informações com ou sem realimentação. O elemento que segue imediatamente à janela de previsão constitui o alvo. processamento de sinais. 2007]. Entre as aplicações usuais das RNAs têm-se: reconhecimento e classificação de padrões. possuindo uma estrutura de processamento de sinais com grande poder de adaptação e capacidade de representação de processos não lineares [Silva. 3 . previsão de séries temporais.2 Redes Neurais Artificiais “Em termos intuitivos. 2001]:   O conhecimento é adquirido pela rede a partir de seu ambiente através de um processo de aprendizagem. RNAs são unidades de processamento numérico.Além do horizonte de previsão.2003].. o elemento que se deseja prever. 2005]. uma janela de previsão que possui cinco elementos e o horizonte de previsão de um elemento (o alvo). são utilizados para armazenar o conhecimento adquirido. A Figura 03 mostra um exemplo da definição desses componentes para previsão de uma série temporal: a divisão da série em conjuntos para treinamento e teste. ou seja. otimização. outro parâmetro usado pelo processo de previsão é o número de elementos históricos anteriores ao horizonte de previsão.

. 2. o intervalo normalizado da saída de um neurônio é descrito como o intervalo unitário fechado [0. 2003]. Considerando vk como o potencial de ativação ou campo local induzido. 2001]. O elemento básico de construção de uma RNA é o neurônio artificial.No processo de aprendizagem. por meio de exemplos. O modelo de um neurônio é ilustrado na Figura 04 e sua estrutura é descrita a seguir com base nos conceitos definidos em [Haykin.) é utilizada para restringir a amplitude do sinal de saída. Outras informações complementares podem ser obtidas em [Goldschmidt e Passos.2. xm) para a produção de uma saída única (yk).1 Neurônio Artificial Um neurônio é uma unidade de processamento de informação que é fundamental para a operação de uma rede neural. geralmente. (b) Grafo de fluxo de sinal de um neurônio. A estrutura de um neurônio permite um conjunto de valores como entradas (x1. fonte: [Haykin.wk3) e somadas ao valor de um bias bk aplicado externamente..1] ou alternativamente [-1.. x2.. 2001] Tipicamente. sendo este constituído. Tais entradas são ponderadas por respectivos pesos sinápticos (wk1. wk2. cuja descrição é o estágio inicial para o entendimento dos conceitos associados às estruturas de redes existentes..1]. dependendo se ele é positivo ou negativo. . 2005] e [Rezende. o neurônio pode ser descrito pelas seguintes equações: vk = ∑ wkj x j j= 0 m yk = ϕ (vk ) 4 .. Em seguida uma função de ativação φ(. (a) Modelo não-linear de um neurônio. generalização significa que a rede neural produzirá uma saída desejada para valores de entrada não utilizados durante tal processo. (a) (b) Figura 04: Modelos de um neurônio. O bias bk tem o efeito de aumentar ou diminuir a entrada líquida da função de ativação.

Os detalhes de tal estrutura podem ser verificados em [Haykin. (d) função tangente hiperbólica 2. (c) função sigmóide. podese empregar a função tangente hiperbólica definida por: ϕ (v) = tanh(v) A Figura 05 ilustra os tipos de gráficos representados por meio das funções de ativação mencionadas. Dentre aquelas que possuem comportamento linear destacam-se a função linear e a função de limiar (referida normalmente na literatura de engenharia como função de Heaviside. na forma correspondente de uma função sigmóide.2. 2005]. 2003]. A função sigmóide pode ser definida por: ϕ (v ) = 1 1 + e− v As funções de ativação descritas anteriormente se estendem de zero a +1.2 Arquitetura de uma Rede Neural Artificial A estrutura da rede neural. 2001] [Rezende. função degrau ou degrau unipolar). (b) função linear. composta de interconexões de neurônios. uma função não-linear simula com maior precisão os neurônios biológicos.A função de ativação pode apresentar características lineares ou não-lineares. 5 . Em geral. Figura 05: Tipos de função de ativação: (a) função de limiar. determinando a saída de um neurônio a partir do seu potencial de ativação. Existem basicamente três tipos de arquitetura: redes feedforward de camada única. A utilização dessas informações para aplicações em previsão de séries temporais podem ser encontradas em [Palit e Popovic. 2003] e [Silva. função de ativação dos neurônios em uma camada e a forma como as camadas são conectadas (totalmente ou parcialmente). sendo a função sigmóide uma das mais utilizadas. neurônios em cada camada. redes feedforward de múltiplas camadas e redes recorrentes. pode variar quanto ao número de camadas. Para a utilização de valores negativos.

pode haver um número elevado ou mesmo infinito de soluções possíveis. Mesmo para uma estrutura definida. qualificando as redes MLP para uma previsão eficiente de séries temporais. Após a determinação do tipo de arquitetura de rede que será empregada. os neurônios em cada camada de uma rede MLP têm como suas entradas apenas os sinais de saída da camada precedente. isto é. além das camadas de entrada e de saída. As redes MLP possuem uma ou mais camadas escondidas (ocultas). fonte: [Haykin. do inglês Radial Basis Function) e redes recorrentes. redes de função de base radial (ou RBF. a saída é calculada e então realimentada para modificar a entrada. conforme opções 6 . As redes MLP são geralmente usadas para determinar um mapeamento entre dois conjuntos de dados. cuja estrutura dessas redes supre as deficiências das redes do tipo perceptron. após aplicar uma nova entrada. Diversas atividades são necessárias para a definição da arquitetura de uma rede neural para a qual um problema específico deverá ser resolvido de forma ótima. Exemplos desse tipo de rede são as redes Elman e as Redes Hopfield descritas em . Tipicamente. 2001] Uma rede neural recorrente se distingue de uma rede feedforward por ter pelo menos um laço de realimentação. do inglês Multilayer Perceptron). Diversas arquiteturas de rede são utilizadas para previsão de séries temporais. mas não vice-versa. também são chamadas de RNAs com memória. Figura 06: Grafo arquitetural de um perceptron de múltiplas camadas com duas camadas ocultas. Em função dessa característica. A escolha da estrutura da rede neural determina diretamente a qualidade do modelo obtido. A Figura 06 ilustra um exemplo de uma rede MLP. Perceptron é um modelo de rede de um nível capaz somente de classificar padrões que sejam linearmente separáveis. Um exemplo de Redes Feedforward Multicamadas são as redes fundamentadas em perceptron de multicamadas (estas conhecidas como redes MLP. merecendo destaque: redes MLP.As redes feedforward de camada única são formadas por uma camada de entrada de nós fonte projetada sobre uma camada de saída de neurônios. As arquiteturas MLP constituem os modelos de redes neurais artificiais mais utilizados e conhecidos. A inerente capacidade de sua estrutura de rede em três camadas promove qualquer mapeamento de entrada-saída. respondendo a estímulos dinamicamente.

possui suas entradas ligadas às saídas de todos os neurônios da camada que a antecede. métodos e ferramentas para coleta de dados de séries temporais para serem usadas em previsão de valores futuros. com exceção da camada de entrada. diversas atividades são necessárias para a montagem da estrutura da rede. baseados em valores passados [Palit e Popovic. 2005]. 7 . Outra etapa de configuração das camadas de rede é a seleção das funções de ativação dos neurônios. embora algumas situações excepcionais justifiquem um número maior. Para o caso de previsão de valores futuros onde seja empregado o conceito de janela de previsão. 2005] O padrão de interconexão dos neurônios da rede neural refere-se a forma como a saída de cada neurônio de uma camada está conectada com a entrada de cada neurônio da camada subseqüente. somente uma camada oculta é usada. Os passos operacionais definidos por esses autores são: preparação de dados. as quais serão idênticas para todos os neurônios de uma mesma camada. Se esta condição não for atendida. Na maior parte das aplicações de previsão. o número de neurônios necessários para a camada de saída é apenas um.2. enquanto que o número de neurônios nas camadas intermediárias depende da complexidade do problema. sendo algumas delas descritas adiante. fonte: [Palit e Popovic. a quantidade de nós de entrada da rede é diretamente determinada pelo tamanho dessa janela. Figura 07: Número de neurônios de entrada para um horizonte de previsão igual a um. Quanto maior o número de neurônios nas camadas intermediárias. considerando-se o valor atual x(t) e uma janela de previsão de n elementos. O número de neurônios nas camadas de entrada e de saída depende da dimensionalidade dos dados. Uma RNA é dita completamente conectada (full interconection) quando cada neurônio de uma camada. a RNA é dita parcialmente conectada. Nessa configuração ilustrada. do inglês one-step-ahead prediction) em uma rede MLP. A Figura 07 ilustra a quantidade de neurônios de entrada para a previsão do próximo valor (previsão também conhecida como um passo a frente. mais complexas são as funções mapeadas com a RNA. 2.3 Metodologia de Previsão A metodologia de previsão é geralmente compreendida como um conjunto de abordagens.exemplificadas anteriormente.

dessa forma. até um fator de 50% por 50%. a normalização. as recomendações sobre a divisão desses conjuntos em treinamento e teste vão desde um fator de 90% por 10%. [Goldschmidt e Passos. inclusive. cuja capacidade poderá ser testada em um conjunto de teste dos pares de dados remanescentes. Conforme ilustrada na Figura 07. projeto da estratégia de treinamento. pares de dados relacionando as entradas com as saídas desejadas deverão ser construídos para a etapa de aprendizado supervisionado. entre outros aspectos. há necessidade do emprego de procedimentos dedicados para preparação dos dados de entrada das redes neurais. seguindo assim sucessivamente para os demais pares de valores. De acordo com [Palit e Popovic. 2. denotado como alvo. visando não ultrapassar os limites de saturação. A etapa de preparação dos dados envolve. As funções de ativação requerem valores normalizados e. revertendo a normalização realizada anteriormente. Uma apresentação completa de todo esse conjunto de treinamento é denominado uma época. a normalização linear consiste em considerar os valores mínimo e máximo de cada atributo no ajuste da escala. e avaliação dos resultados da previsão. Na estruturação dos dados. De forma análoga. composto pelos pares de dados (exemplos) definidos anteriormente. relacionará valores passados até x(t). o pré-processamento. um valor alvo em x(t+2) utilizará dados históricos até x(t+1). mapeando esse atributo no intervalo fechado de zero até 1(um).determinação da arquitetura da rede. A utilização de um conjunto de treinamento. O aprendizado será o resultado de várias apresentações de um determinado conjunto de exemplos de treinamento.2.4 Processo de Aprendizagem A propriedade que é de importância primordial para uma rede neural é a sua habilidade de aprender a partir de seu ambiente e de melhorar o seu desempenho através da 8 . A equação que define a normalização linear é descrita como: xn = Onde: xn = valor normalizado xi xi − xmín xmáx − xmín = valor do atributo a ser normalizado xmín = valor mínimo do atributo a ser normalizado xmáx = valor mínimo do atributo a ser normalizado Convém observar a necessidade de um pós-processamento dos dados ao final do processamento da rede (previsão de valores). a estrutura dos dados e a definição dos conjuntos de treino e teste. adaptando-os às não-linearidades dos neurônios. 2005] descrevem diversos tipos de normalização. a forma de aquisição. Segundo esses autores. a previsão de um valor em x(t+1). 2005]. permitirá a rede neural extrair o conhecimento (aprendizado) necessário para sua utilização como previsor de valores futuros.

Esses conceitos viabilizam a construção de sistemas inteligentes que lidem com informações imprecisas e subjetivas. Isto pode ser expresso pela função característica fA: 9 .3 LÓGICA NEBULOSA A lógica nebulosa. Seguem adiante algumas noções extraídas de [Rezende. O conjunto de treinamento é formado apenas pelos vetores de entrada. A Lógica Fuzzy foi inicialmente construída à semelhança dos conceitos já estabelecidos da lógica clássica e da tradicional Teoria dos Conjuntos. externo à rede que tem a função de monitorar a resposta da mesma para cada vetor de entrada. 2. Dessa forma é indicado se tal elemento pertence ou não pertence àquele conjunto A. caracteriza-se pela existência de um professor ou supervisor. No aprendizado não-supervisionado a rede é autônoma. Um sistema baseado em Lógica Fuzzy é único com relação ao fato de possuir habilidade para tratar simultaneamente dados numéricos e conhecimento lingüístico.3. produção baixa. demanda elevada. 2006]. algoritmos para aproximação de funções e sistemas de controle estão entre as formas mais populares de utilização dos conceitos relacionados com a lógica fuzzy [Rezende. 1995]. cujos algoritmos de aprendizagem diferem entre si pela forma como é formulado o ajuste de um peso sináptico de um neurônio [Palit e Popovic. pressão média. dentre outras. temperatura alta. também conhecida como lógica fuzzy (do inglês fuzzy logic). Tais algoritmos ajustam iterativamente os pesos das conexões entre os neurônios até que os pares desejados de informações de entrada(s) e saída(s) sejam obtidos e as relações de causa e efeito possam ser estabelecidas [Leone Filho.1 Conjuntos Nebulosos Na teoria clássica dos conjuntos. 2003]. uma breve descrição será introduzida. imitando assim a habilidade de tomada de decisão em ambientes de incerteza e imprecisão [Goldschmidt e Passos. também conhecida como aprendizagem com um professor. é uma teoria matemática que permite modelar o modo aproximado do raciocínio humano. o conceito de pertinência de um elemento a um dado conjunto A em um universo de discurso X (que provê o conjunto de valores permitidos para uma variável). 2005].aprendizagem. Para uma melhor compreensão desses fundamentos. 2003]. aprendizado não-supervisionado e aprendizado por reforço. Sistemas de apoio à decisão. 2005]. Os algoritmos de aprendizado podem ser classificados em três paradigmas distintos: aprendizado supervisionado. 2. O estabelecimento desse mapeamento é proporcionado através da teoria de conjuntos fuzzy e da lógica fuzzy [Mendel. representando um mapeamento não-linear de um vetor de dados de entrada em uma saída escalar. tais como: investimento de alto risco. ela não necessita de um “professor”. associa a cada elemento deste universo X um valor binário. mas existe um crítico externo em substituição ao supervisor do aprendizado supervisionado. O aprendizado por reforço pode ser considerado um paradigma intermediário entre o aprendizado supervisionado e o não-supervisionado. A aprendizagem supervisionada. sendo o processo direcionado por correlações existentes nos dados de entrada.

{ 0. (b) Conjuntos fuzzy fonte: adaptada de [Palit e Popovic. 2003]. indicando o quanto x é compatível com o conjunto A. A teoria dos conjuntos fuzzy foi criada para tratar graus de pertinência intermediários entre a pertinência total e a não-pertinência de elementos de um universo de discurso com relação a um dado conjunto [Rezende. esta pertence à categoria “baixa” com grau de pertinência 0. de forma que ela pudesse assumir um número infinito de valores no intervalo [0. As Figuras 09 e 10 mostram exemplos dos formatos de conjuntos triangular e trapezoidal e suas respectivas fórmulas descritas abaixo [Goldschmidt e Passos. “baixa” e “alta”.1]. Para o caso de uma pessoa com 1.5m. “baixa” e “alta”. A escolha de um determinado formato deve ser norteada pela compatibilidade do formato com o conceito que se deseja representar. Nesses conjuntos uma pessoa é considerada baixa se a sua estatura for igual ou inferior a 1. Em contraste.1]. Esse último caso demonstra que um determinado elemento pode pertencer a mais de um conjunto fuzzy. Na Figura 08. uma pessoa que possui 1. visto que uma diferença mínima de 0. incertas ou imprecisas e.fA(x) = No mundo real existem propriedades que são vagas. Na lógica fuzzy a função característica foi generalizada. a Figura 08. De forma similar. buscando introduzir uma transição mais suave nos citados conceitos. impossíveis de serem caracterizadas por predicados da lógica clássica bivalente. que categorizam a estatura de uma pessoa. Existem diversos formatos para a representação dos conjuntos nebulosos.5.8m de altura. 2005]:  Conjunto Triangular 10 . portanto.5 e ao mesmo tempo também é considerada “alta” com grau de pertinência 0. somente se x ∈ A Figura 08: (a) Conjuntos ordinários (crisp). geralmente com diferentes graus de pertinência. Um conjunto fuzzy A em um universo X é definido por uma função de pertinência µA(x): X → [0. somente se x ∉ A 1.79m seria classificada como “baixa”. Pode-se notar que existe uma transição abrupta de conceitos.b demonstra o exemplo de dois conjuntos fuzzy que definem os mesmos tipos de conceitos. 2005]). onde µA(x) é denominado como o grau de pertinência do elemento x ao conjunto A. possuindo dessa forma um grau de pertinência 1.8m seria conceituada “alta”.01m pode ocasionar uma mudança no enquadramento do conjunto que classifica a estatura da pessoa. Observa-se que uma pessoa com altura de 1.a são ilustrados dois conjuntos ordinários (“crisp”).0 em relação ao conjunto “baixa”.

11 . se x ∈ [ b.  Trapezoidal Esse modelo pode ser descrito por quatro variáveis (a. se x ∈ ] m. m[  µ ( x) =   ( b − x ) / ( b − m ). b. b[  0. se x ≤ a   ( x − a ) / ( m − a ). se x ≥ b   Figura 09: Gráfico da Função de Pertinência Triangular. se x ≤ a   ( x − a ) / ( b − a ). 2005].É o modelo computacional mais simples. se x ∈ ]c. c ]  ( d − x ) / ( d − c ). m. b[   µ ( x) =  1. fonte: [Goldschmidt e Passos. e pode ser descrito por três variáveis (a. se x ≥ d  Figura 10: Gráfico da Função de Pertinência Trapezoidal. se x ∈ ]a. c. b):  0. se x ∈ ]a. d [   0. d): 0.

diversas operações podem ser realizadas envolvendo conjuntos fuzzy. lingüístico.3 Operações Nebulosas Básicas De forma análoga ao que ocorre na clássica Teoria de Conjuntos. “Agradável”. como “frio”. Apresentam-se aqui as mais relevantes para uma apresentação do assunto. 2. Por exemplo. podem ser definidas as seguintes funções de pertinência para cada operação [Rezende. a temperatura de um determinado processo pode ser uma variável lingüística assumindo valores “Muito Baixa”. “muito grande”. Sendo A e B dois conjuntos nebulosos do universo de discurso U. “Baixa”.3. chamadas de normas T. Ela admite como valores apenas expressões lingüísticas (freqüentemente chamadas de termos primários). “aproximadamente alto” etc [Rezende. 2003]: Interseção  A função de pertinência do operador nebuloso de interseção entre conjuntos fuzzy pode ser generalizada por meio de famílias específicas de funções. fonte: [Rezende. sendo estes descritos por intermédio de conjuntos fuzzy.2 Variáveis Lingüísticas Uma variável lingüística é definida como uma entidade utilizada para representar de modo impreciso e. portanto. Dois dos exemplos mais usuais são: (Mínimo) µ µ A∩ B ( x) = ( x) = min{ µ A ( x ). µ B ( x )} (Produto) A∩ B µ A ( x) * µ B ( x) 12 . um conceito ou uma variável de um dado problema. 2. 2003]. conforme Figura 11. 2005]. Figura 11: Partição fuzzy de uma variável lingüística representando a Temperatura.3.fonte: [Goldschmidt e Passos. “Alta” e “Muito Alta”. 2003].

Uma regra de produção (ou regra nebulosa) é expressa por uma implicação do tipo: SE <antecedente> ENTÃO <conseqüente> O antecedente é formado por condições nebulosas que. podem ser expressas. 2.3. a operação de interseção corresponde ao operador lógico de conjunção “E”. 2005]. A inferência nebulosa é a responsável por processar as regras nebulosas existentes na base de conhecimento.Assim como na Lógica Clássica. Essa noção é descrita de forma prática em [Goldschmidt e Passos.  União Similarmente. a função de pertinência do operador nebuloso de união entre conjuntos fuzzy pode ser generalizada por meio de famílias específicas de funções. Isso é necessário de forma a ativar regras que estão no formato de variáveis lingüísticas. dentre outras formas.  Complemento A função do operador nebuloso de complemento pode ser definida por: µ¬ A ( x ) = 1− µ A ( x) A operação de complemento corresponde ao operador lógico de negação “Não”. as quais possuem conjuntos fuzzy associadas com elas. µ A ( x ). a operação de união corresponde ao operador lógico de disjunção “OU”. onde é exemplificado um sistema para definição do valor de apólice de seguro de vida de clientes de uma seguradora a partir dos valores de idade e de pressão desses clientes. também denominadas como T-Conorm.4 Regras Nebulosas A maneira mais comum de armazenar informações em uma Base de Conhecimento fuzzy é a representação por meio de regras de produção fuzzy [Rezende. gerando um conjunto fuzzy de saída a partir da composição de todas as regras disparadas. 13 . chamadas de normas S. 2003]. A etapa de fuzzificação mapeia números (valores crisp) em conjuntos fuzzy. determinam o processamento do conseqüente por um mecanismo de inferência nebuloso.3. quando satisfeitas. Essas funções.5 Inferência Fuzzy A arquitetura geral de um sistema nebuloso pode ser representada graficamente pela Figura 12. como: (Máximo) µ µ A∪ B ( x) = ( x) = max{ µ min{1. µ B ( x ) } ( x) + µ B ( x )} (Soma limitada) A∪ B A Assim como na Lógica Clássica. Algumas regras possíveis são: SE idade é meia-idade E pressão é baixa ENTÃO seguro é baixo SE idade é jovem E pressão é alta ENTÃO seguro é alto 2.

A composição de todas as regras disparadas (ou ativadas) é realizada através da operação de união fuzzy. tais como a Média dos Máximos e o Centro de Massa (também denominado Centro de Gravidade ou Centróide). fonte: [Silva. No modelo Mandami o processamento de inferências é denominado inferência Max-Min que corresponde às operações de união e interseção fuzzy (operadores máximo e mínimo). esse expresso pela fórmula y' = ∑ µ C ( y i' ) * y i' m i=1 ∑ µ C ( y i' ) m i=1 onde “m” é o número de intervalos da saída. a defuzzificação realiza a transformação de conjuntos nebulosos em saídas numéricas. 2003]. y'i é o valor da variável de saída para o intervalo “i ” e μC(y'i ) é o grau de pertinência da variável y'i no conjunto C. o modelo Mamdani foi durante muitos anos um padrão para a aplicação dos conceitos de Lógica Nebulosa em processamento do conhecimento [Goldschmidt e Passos. Existem diversos métodos para realizar a transformação dos conjuntos fuzzy de saída em valores numéricos.Por uma regra disparada. Na fase final. Os antecedentes de cada regra são processados por meio da interseção fuzzy. 2006]. 14 . 2005]. Figura 12: Arquitetura geral de um sistema nebuloso. entende-se uma regra cujo processamento do antecedente para as entradas atuais gerou graus de pertinência não-nulos [Rezende. Dentre vários modelos de Inferência Fuzzy. gerando um grau de disparo que limitará os valores máximos dos conjuntos de saída.

. Visando englobar as variações de nomenclaturas e conceitos referentes aos citados métodos de combinação. gerando uma base de conhecimento para mapear o espaço de entrada no espaço de saída. que provê um meio de obtenção de regras lingüísticas a partir de pares de dados numéricos. inclusive. Essas técnicas permitem a criação de máquinas de aprendizado. 2002]. e. O conjunto CE (Center) representa o intervalo de valores que situa-se no ponto médio do domínio da variável do vetor de entrada. a previsão dos dados propriamente dita. Para essa abordagem a literatura utiliza uma gama de termos. combinador. Considerando-se como exemplo um vetor de entrada (X1. Xn) que representa dados de uma série temporal. classifier fusion. que constituem sistemas capazes de adquirir conhecimento de forma automática.. Os intervalos são divididos em 2N+1 conjuntos fuzzy. 1986]. X2.3 Métodos de Previsão de Séries Temporais Um conjunto diversificado de métodos de previsão de séries temporais estão disponíveis. 3. ensembles. Como exemplos de métodos que utilizam técnicas de inteligencia computacional são descritos: o algoritmo de Wang-Mendel [Wang e Mendel. 2) Geração das Regras Fuzzy. O quinto passo realiza. tanto na forma de sistemas híbridos como em comitês. a Figura 13 ilustra a divisão do domínio em intervalos de mesmo tamanho para realização do primeiro passo do método. 4) Composição da Base de Conhecimento. agregação e outros para denominar conjuntos de máquinas de aprendizado que trabalham acoplados para solucionar um problema de aprendizado de máquina [Valentini e Masulli. 3) Definição de um grau para cada regra gerada. e 5) Defuzzificação (Previsão de valores futuros). 1976] até aquelas derivadas de tecnologias de inteligência computacional. tais como lógica nebulosa e redes neurais artificiais. em previsão de séries temporais.1 Algoritmo de Wang-Mendel O algoritmo original de Wang-Mendel [Wang e Mendel. Na abordagem de comitês. Os conjuntos denominados SN (Small N) referem-se aos elementos que estão abaixo do conjunto CE e BN (Big N) para aqueles que 15 . cuja teoria destas últimas pode ser verificada com maiores detalhes em [Palit e Popovic. no intuito de atingir uma decisão global que visa ser superior àquela alcançável por qualquer um deles atuando isoladamente [Haykin. que é empregado para a previsão de séries a partir da utilização de janelas de previsão como exemplos para a etapa de treinamento de uma rede neural MLP. comitê. Além disso. tais modelagens podem ser combinadas. 1992] provê um método genérico de geração de regras nebulosas (fuzzy) que combina informações numéricas e lingüísticas para uso. basicamente. 1992]. por máquinas de aprendizado. Os quatro primeiros passos são responsáveis pela geração da base de conhecimento e compõem a chamada etapa de treinamento. A escolha dos algoritmos e modelagens aqui descritas teve como escopo principal o uso de algumas técnicas de inteligência artificial. busca-se fundir o conhecimento adquirido por métodos de previsão construídos. 2001]. tais como. N é definido pelo usuário para cada variável. este trabalho adotará a expressão comitê de aprendizado para descrever algumas estratégias associadas. a partir da base de conhecimento gerada. um método baseado no algoritmo de aprendizado Backpropagation [Rumelhart e Mcclelland. As modelagens existentes vão desde modelos estatísticos [Box e Jenkins. 2005] .. . O método sugere uma seqüência de 5 passos para geração de regras fuzzy: 1) Divisão dos dados de entrada e de saída em conjuntos fuzzy.

onde as variáveis de entrada são designadas como antecedentes e a variável de saída como conseqüente. e tem por função mapear o vetor de entrada.4 0.3 0.2 0.7 0. A geração de regras nebulosas (passo 2) é realizada por meio de sentenças do tipo “Se <antecedentes> Então <conseqüente>”. 1992].1 t1 t5 t3 t2 t4 t B1 B2 B3 S3 S2 S1 CE U - x3 x2 x1 x4 x5 U+ X Figura 14: Mapeamento das Variáveis de Entrada e Saída para uma Janela de Previsão igual a 4 16 . Desse mapeamento serão definidos.9 0. Para o exemplo proposto na Figura 14.estão acima. X B3 { CE { { S2{ S3{ UB1 S1 µ(X) 7 regiões (N = 3) US3 S2 S1 CE B1 B2 B3 { B2 { Série Temporal U+ t U+ X Figura 13: Divisão dos Intervalos de domínio em conjuntos fuzzy. Os conjuntos citados são sobrepostos. fonte: adaptada de [Wang e Mendel.8 0. 01 mostra a regra gerada a partir da escolha dos maiores graus de pertinência. como ilustrado na Figura 13. nesse caso triangular. a Tabela. os pares de dados que representarão a entrada (janela de previsão) e a saída (alvo). Cada conjunto é associado a uma função de pertinência.6 0. posteriormente. o método calcula o grau de ativação da função de pertinência correspondente e seleciona a maior delas. Registros de Treino (antecedentes) Janela = 4 Registro de Treino (conseqüente) B3 { B2{ { X U+ B1 S3 { CE { S1{ S2 { Uµ(X) 0. Para cada variável de entrada e saída.

Sigmóide e Tangente hiperbólica.. assim.. este é representado por: 17 . No processamento para frente (propagação).2 Algoritmo Backpropagation O algoritmo de treinamento backpropagation emergiu como o algoritmo padrão para o treinamento de perceptrons de múltiplas camadas (redes neurais MLP). camada por camada. Maiores detalhes sobre o algoritmo de Wang-Mendel podem ser obtidos em [Wang e Mendel. O termo backpropagation surge do fato que o algoritmo se baseia na retropropagação dos erros para realizar os ajustes de pesos das camadas intermediárias. De forma resumida. 2001]. o terceiro e quarto passo. 3. 2007] [Ribeiro et al. onde um processo de defuzzificação combina as saídas das regras ativadas e calcula o valor previsto pelo método do Centro de Massa (ou Gravidade). basicamente.2 B1= 0.6 X5= { B2= 0. extraída de [Haykin.7 CE= 0. o algoritmo backpropagation deriva seu nome do fato de que as derivadas parciais da função custo (medida de desempenho) em relação aos parâmetros livres (pesos sinápticos e níveis de bias) da rede são determinados por retropropagação dos sinais de erro (calculados pelos neurônios de saída) através da rede.ANTECEDENTES X1= CONSEQUENTE X3= { { B1= 0. Para a previsão de valores futuros (quinto passo).6 B1= 0. por dois passos computacionais: processamento para frente (propagação) e processamento para trás (retropropagação). Os tipos básicos de funções de ativação são: Linear. camada por camada. 2008] [Goldschmidt e Passos. sendo preservadas aquelas que possuem maior grau (gerado pelo produto de todos os antecedentes e do respectivo conseqüente).4 B2= 0.1 CE= 0. sendo n o n-ésimo padrão de treinamento e vj(n) o potencial de ativação do neurônio j.4 B1= 0.3 B1= 0. Com relação ao potencial de ativação. Todas as regras geradas são armazenadas em uma base de conhecimento de onde as regras conflitantes (mesmos antecedentes) são excluídas. os dados de entrada são recebidos e a base de conhecimento previamente construída é aplicada. A aprendizagem por retropropagação do erro pode ser descrita.8 Regra: SE X1 = B2 E X2 = B1 E X3 = CE E X4 = B1 ENTÃO X5 = B1 Tabela 01: Regra gerada a partir da escolha dos maiores graus de pertinência para o exemplo proposto na Figura 14. Os pesos sinápticos w permanecem fixos e o sinal funcional que aparece na saída do neurônio j é calculado como: yj ( n) = ϕ (vj ( n)) onde φ(vj(n)) é a função de ativação do neurônio j. 2005]. concluindo-se. 1992] [Silva et al.9 X2= X4= { { B2= 0. o vetor de entrada é aplicado aos neurônios da rede e seu efeito se propaga através da rede. A função de ativação define a saída do neurônio.

wij(n) é o peso sinápti- onde dj(n) é a resposta desejada. Esta última equação demonstra que o gradiente local δj (n) para o neurônio de saída 18 . A equação anterior é conhecida como Regra Delta. o sinal funcional na saída do neurônio i). O sinal de erro para o j-ésimo neurônio da camada de saída é definido por: ej ( n) = dj ( n) − yj (n) onde p é o número total de entradas aplicadas ao neurônio j. A Figura 15 ilustra um diagrama da implementação desse treinamento para um neurônio de saída. Outra forma de representar esse ajuste dos pesos é expressa por: ∆ wji(n) = η δ j(n)yi(n) sendo o gradiente local δj (n) definido por: δ j ( n) = ej ( n)ϕ j ' (vj ( n)) j é igual ao produto do respectivo sinal de erro pela derivada φ'j(vj(n)) da função de ativação relacionada.vj (n) = ∑ wji ( n) yi ( n) i= 0 p co que conectada o neurônio i ao neurônio j. e yi(n) é o sinal de entrada do neurônio j (ou de forma equivalente. o ajuste dos pesos é realizado pelo método do gradiente e pode ser descrito pela equação a seguir: ∆ wji ( n) = − η ( Onde: ∂E ) ∂ wji η é o parâmetro da taxa de aprendizado (que define a magnitude de atualização dos pesos) e ∂E/∂wji é a derivada parcial do erro E em relação ao peso wij. O cálculo desses sinais de erro encerra a fase de propagação do algoritmo. No processamento realizado pela retropropagação.

2005]. Wn pesos sinápticos Algoritmo de Treinamento Taxa de aprendizado k ϕ ´(vk ) saída desejada Produto ∑ + dk δ j (n) = ϕ 'j (vj (n))∑ δ k (n) wkj ( n) 19 . 2005] não pode ser obtido diretamente. Os parâmetros básicos para configuração do algoritmo backpropagation são: a taxa de aprendizagem.. o termo momento e o número de épocas.. o cálculo do gradiente local é redefinido para: Para o caso de um neurônio j localizado em uma camada oculta. Uma ilustração de configuração para uma rede MLP destinada à previsão de valores futuros foi exibida na figura 07. em termos dos sinais de erro de todos os neurônios aos quais o neurônio oculto está diretamente conectado. o sinal de erro ej(n) onde o índice k se refere a um neurônio que se encontra em uma camada à direita do neurônio j. Uma alternativa para aumentar a taxa de aprendizagem ƞ evitando causar a instabilidade da rede é a inclusão do termo de momento α na regra delta. Dessa forma. Nessa situação o cálculo do citado sinal de erro deve ser determinado de forma recursiva.. O termo de momento representa o valor memorizado do último incremento e. as quais formarão os exemplos para a etapa de treinamento supervisionado em uma rede neural MLP. O emprego do algoritmo Backpropagation na previsão de séries é realizada a partir da utilização de janelas de previsão. pois inclui a regra delta como um caso especial onde α = 0. dessa forma. quando este pertence a uma camada oculta. a próxima mudança no peso é mantida aproximadamente na mesma direção da última [Palit e Popovic. .X0 = 1 W0 bias X1 entradas W1 ∑ X2 W2 vk ϕ (v k ) saída yk Xn Figura 15: Aplicação do treinamento de um simples neurônio localizado na camada de saída de uma rede MLP. fonte: traduzida e adaptada de [Palit e Popovic. pois não existe uma resposta desejada especificada para aquele neurônio. estendendo-a como: ∆ wji ( n) = α ∆ wji ( n − 1) + δ j ( n) yi ( n) Esta equação é chamada de regra delta generalizada.

que podem não ser os mesmos para previsores distintos. Segue adiante uma descrição do processo global [Leone Filho. 2004]. por exemplo. Cada saída de cada previsor é multiplicada por um peso. 2006]. mas somente aquelas que melhoram o desempenho do comitê. fonte: [Leone Filho. mas pode incluir outras derivadas da estatística. 2006]:     Cada previsor recebe os dados de entrada do problema. onde o somatório de todos os pesos impostos às saídas deve ser igual a 1.  ∑ Wi = 1 I= 1 4 COMITÊ Saída Combinada ∑ Saída i Wi I=1 4 (Saída 1)*W1 (Saída 2)*W2 (Saída 3)*W3 (Saída 4)*W4 Previsor 1 Previsor 2 Previsor 3 Previsor 4 Entradas Entradas Entradas Entradas Figura 16: Estrutura de um comitê de previsores. de tal forma que nem todas as saídas dos previsores são combinadas. e As saídas selecionadas e ponderadas são somadas para compor a solução do comitê. 20 . Cada previsor (método base) faz um mapeamento f:Rm →R da saída a partir de m entradas. Estas máquinas se referem.3 Comitês de Aprendizado Um comitê de aprendizado representa a agregação de mais de uma máquina de aprendizado na produção de uma única solução computacional para um determinado problema [Lima. aos métodos de previsão provenientes de técnicas de inteligência artificial. basicamente. As saídas são selecionadas para formar o comitê. A Figura 16 ilustra a estrutura de um comitê que combina a saída de 4 previsores (máquinas de aprendizado). considerando 4 componentes.3. Algumas destas técnicas foram apresentadas nas seções anteriores.

Algumas formas de comitê são brevemente descritas adiante. em busca de combinações lineares ótimas. a combinação dos resultados individuais de cada um destes pode ser feita por diversas maneiras. Em um contexto mais amplo e não relacionado necessariamente à previsão de séries temporais. Quando os pesos são idênticos.1 Combinação Linear A estratégia mais simples de combinação é aplicar um somatório ponderado das saídas individuais dos membros do comitê. Esse mapeamento não-linear pode ser realizado por meio de implementações isoladas de tecnologias de inteligência artificial. f2.. como por exemplo. viabilizando a utilização de grandes bases de dados.. Algumas abordagens para obtenção dessas ponderações. 2004] [Brown. Este último autor propôs uma abordagem onde os métodos citados processam uma única vez o citado conjunto. são apresentadas em [Perrone.. (f1. Na regressão. 2006]: f c = ψ ( f1 . .. 1994] e boosting [Freund e Schapire.3. tais como redes neurais.) é uma função não-linear. fn) é a saída individual de cada método base e Ψ(.. Bagging [Breiman. sendo expressa por: fc = 3. f n ) Onde fc é a saída combinada. 2003]: uma tarefa de classificação consiste na predição de um valor categórico como. predizer se o cliente é bom ou mau pagador. A equação abaixo exibe uma representação adaptada de [Lai. f 3 .2 Combinação Não-Linear 1 M ∑ fi M i= 1 Nessa estratégia de combinação as saídas individuais dos métodos base são interrelacionadas de forma não-linear. 21 . lógica nebulosa e abordagem híbrida [Palit e Popovic. 1997] são métodos populares de comitês de aprendizado e podem ser usados como algoritmos de lote dentro de outros comitês. por exemplo. 1993] [Hashem. 1993]. pode-se descrever tarefas de classificação e regressão como definidos em [Rezende.Após a etapa de seleção dos membros do comitê. a combinação é mencionada como média simples. 3. 2001] descreve que estes métodos processam repetidamente o conjunto inteiro de exemplos de treinamento e requerem no mínimo uma passagem através dos dados para cada modelo base que será gerado. sendo a soma destes pesos iguais a 1 [Wichard e Ogorzalek. f 2 .3. predizer o lucro ou a perda em um empréstimo. M é o número de métodos base.. o atributo a ser previsto consiste em um valor contínuo. fi é a saída individual de cada método base e wi é um peso positivo associado a essa saída. 2003]. 2000]. f3. [Oza. 2006].. A equação descrita a seguir representa essa estratégia definida como combinação linear: f c = ∑ wi f i i= 1 M Onde fc é a saída combinada. As mais comuns são votação múltipla ou votação majoritária para a tarefa de classificação de padrões e média aritmética ou média ponderada para a tarefa de regressão [Leone Filho.

1991] é que vários previsores (redes neurais) estarão aptos a “especializar” partes específicas do espaço de entrada. Essas técnicas serão apresentadas adiante.5 Mistura de Especialistas (ME) O princípio que rege a arquitetura de Mistura de Especialistas [Jacobs. 2004]. Essa agregação realiza a média dessas versões quando prevê um valor numérico e faz um voto majoritário quando prevê uma classe. 3. 22 ..3.3 Bagging Bagging [Breiman. e o treinamento de um membro em particular é dependente do treinamento e do desempenho dos membros treinados previamente. do inglês support sector machines). 1990] é uma abordagem diferente da anterior. As versões múltiplas são formadas pelo uso de técnicas de bootstrap [Efron e Tibshirani.3. Os membros do comitê são treinados seqüencialmente. Uma rede de passagem (gating network) recebe as mesmas entradas e é responsável por aprender a combinação apropriada de pesos para modular as saídas de cada rede neural especialista. na qual as redes de passagem estão em vários pontos não-terminais da árvore e os especialistas se encontram nas folhas das árvores. 3.3. 3. Uma limitação prática dessa abordagem é que requer freqüentemente uma grande amostra de treinamento.6 Mistura Hierárquica de Especialistas (MHE) O modelo de Mistura Hierárquica de Especialistas (MHE) [Jordan. com a informação sendo combinada e redistribuída entre os especialistas sob o controle de várias redes de passagem arranjadas de forma hierárquica [Haykin. 3.3. onde os conjuntos de treinamento da primeira não são gerados a partir de uma amostragem uniforme com reposição. Tal modelo se diferencia na medida em que o espaço de entrada é dividido em conjuntos aninhados de subespaços. AdaBoost [Freund e Schapire. 1993] que replicam o conjunto de treinamento para formação de novos conjuntos de treinamento.4 Tendências de Desenvolvimento Na última década. por meio do uso de sistemas baseados em regras [Duch et al. 1996] é uma variante de boosting sendo provavelmente a mais difundida. merecem destaque aquelas direcionadas à extração de conhecimento a partir dos dados ou data understanding. Esse modelo é similar a uma árvore. 2001].3. 1994] é um método para geração de versões múltiplas de previsores e usá-los para obter um previsão agregada. 1994] é uma extensão natural da abordagem Mistura de Especialistas (ME). observa-se o crescente interesse em algumas abordagens tais como: máquinas de vetores-suporte (SVM. wavelet neural networks e fractally configured neural networks.4 Boosting Boosting [Schapire. Quanto às técnicas baseadas em lógica fuzzy.

2006]. 2005]. porém. Essas redes são estruturadas em forma de árvores construídas a partir de agrupamentos (clusters) de subredes distribuídas hierarquicamente [Palit e Popovic. Esses conceitos representam uma metodologia inovativa para o desenvolvimento de redes neurais para aplicações em aproximação de funções. são propostas e implementadas. formulada por [Vapnik. 2004].4.4. O problema geral quando se faz previsão de séries temporais é que não existe um único modelo que seja eficaz em todos os tipos de séries temporais [Leone Filho. Este trabalho apresentou ainda diversas formas de combinação de métodos de previsão e algumas tendências de desenvolvimento nessa área.3. Diante das inúmeras abordagens possíveis para criação de métodos de previsão. processamento de sinal. 3. O conceito wavelet deriva de uma extensão sobre a teoria da transformada de Fourier [Palit e Popovic.1 Máquinas de Vetores-Suporte (Support Vector Machines) Baseada em uma abordagem computacional nomeada como princípio da minimização do risco estrutural. por exemplo. 1992].4. Essas redes preservam todas os aspectos comuns às redes neurais. 2005]. reconhecimento de padrões e previsão de séries temporais. Elas possuem wavelets como funções de ativação e constituem uma alternativa para uso de redes com funções de ativação sigmóide [Alarcon-Aquino. 23 . os conceitos sobre máquinas de vetores-suporte foram fundamentados. 3. Nesse trabalho. tendo máquinas de vetores-suporte como componentes. Algumas potencialidades advindas da abordagem SVM com aquelas da abordagem de comitês são exploradas conjuntamente em [Lima. estendendo-se desde os modelos clássicos da estatística até aqueles baseados em técnicas de inteligencia artificial. possui rigorosos fundamentos matemáticos. várias extensões e novas configurações de comitês. Diversas representações estruturais de redes wavelet têm sido desenvolvidas com base na abordagem de decomposição wavelet.3 Fractally Configured Neural Networks Como uma ferramenta para solucionar problemas envolvendo processos em alto nível ou funções cognitivas que. redes denominadas como fractal networks têm sido propostas. em adição. 2005].2 Wavelet Neural Networks Uma nova e poderosa classe de redes neurais é denominada Wavelet Neural Networks. o presente trabalho teve por objetivo apresentar algumas das mais importantes tecnologias de inteligência computacional que são amplamente utilizadas para a construção de modelos para aplicação em previsão de séries temporais: redes neurais e lógica nebulosa. 4 Conclusões Diversas modelagens são empregadas para a previsão de séries temporais. A utilização de sistemas híbridos ou comitês busca o aproveitamento dos recursos individuais de diferentes métodos para tratar um determinado problema. redes neurais convencionais não podem resolver.

SETIONO. G.. 345-377 (1995) 24 . J. ed. Time series analysis forecasting and control. pp. MENDEL. S.5 Referências ALARCON-AQUINO.. SCHAPIRE. A. S. In: Proceedings of 1993 International Joint Conference on Neural Networks. R. et al. LEONE FILHO. 2006. E. Berkeley. vol.... 2005. E. 1976. JORDAN. Previsão de carga de curto prazo usando ensembles de previsores selecionados e evoluídos por algoritmos genéticos. Learning and approximation of chaotic time series using wavelet-networks. GARCÍA-TREVIÑO. Computational Intelligence Methods. A. J. NOWLAN. DUCH. E. S. 2001. L. M. 261p.Universidade Estadual de Campinas. Optimal Linear Combinations of Neural Networks. Part I. R. GUERRERO-OJEDA. A Novel Nonlinear Neural Network Ensemble Model for Financial Time Series Forecasting. JACOBS. G. W. Tese (Doctor of Philosophy) – Purdue University. pp. LNCS 3991. R. M. São Francisco. Proceedings of the IEEE 92(5): pp. Porto Alegre: Bookman.: Fuzzy Logic Systems for Engineering: a Tutorial.. Rio de Janeiro: Campos. In: Sixth Mexican International Conference on Computer Science. ed. Diversity in Neural Network Ensembles. K. J. 2003. 1. PASSOS. 1993. University of California.): ICCS 2006. I. Adaptive mixtures of local experts.. Neural Computation. ZURADA. S. G.. 2004.. 2004. R. V. No. BREIMAN. M. G. HASHEM. 1996. M. Bagging predictors.University of Birmingham. HINTON. 3. 2006. GOLDSCHMIDT. R. 83. C.N. G. V.. ROSAS-ROMERO. R. 421. JACOBS. FREUND. LIMA. ENC 2005. BROWN.. E. In: Proc. 2.. 1339-1344. A. de M. Data Mining: Um Guia Prático. Department of Statistics. 1993. 900p. Faculdade de Engenharia Elétrica e de Computação. (Eds. Experiments with a new boosting algorithm. rep. Alexandrov et al. Hierarchical Mixtures of experts and the EM algorithm. 3. M.. E.. Califórnia: Holden-Day. for Rule-Based Data Understanding. 79-87. 1993. 2004. K. I. R. 2003. de A. Technical Report Tech. V. BOX. 771-805. pp. Y. LAI. Comitê de máquinas: uma abordagem unificada empregando máquinas de vetores-suporte. L. 1991.. Dissertação (Mestrado em Engenharia Elétrica) . Redes Neurais – princípios e prática. M. HAYKIN. 1994.. 2006. 790 – 793. Tese (Doutorado em Engenharia Elétrica) Universidade Estadual de Campinas. IEEE. JENKINS. no 1. JORDAN. In Machine Learning: Proceedings of the Thirteenth International Conference.. Tese (Doctor of Philosophy in Computer Science) .. pp.

2006. CA. Time Series Data. SILVA. 1992. R. O. P. 2003. J. 1986. POPOVIC.Universidade de São Paulo. WANG.. D. R. F. ed. PERRONE. N. Universidade Estadual de Campinas. PALIT. The MIT Press.MORETTIN. E. GOLDSCHMIDT. V. P. COOPER. P. 1998. São Paulo: Manole. Disponível em: <http://www. da. WAN. G. Previsão de Séries Temporais Utilizando Lógica Nebulosa. GOLDSCHMIDT. J. J. E. WANG.University of California at Berkeley. M. San Mateo. E. L. When Networks Disagree: Ensemble Methods for Hybrid Neural Networks. LEON N. MCCLELLAND. OZA. Morgan Kaufmann. pp... O. Trabalho de conclusão de curso de Bacharelado em Ciência da Computação. SOARES. 372p. Ensembles of Learning Machines. Tese (Doctor of Philosophy in Computer Science) . M.. FERLIN. A.. Online Ensemble Learning. In 13th Italian Workshop on Neural Nets.edu/~ericwan/data.. A. 538p.. S.. 2. Uma Proposta de Método Híbrido Fuzzy para Previsão de Séries Temporais. MENDEL. RIBEIRO. MICHAEL P. 4º CONTECSI . N.. A. Volume 1: Foundations. 2002. J. REZENDE. ed. C. 5º CONTECSI . A. 2007. 1993.html>. V. P. TOLOI. SILVA. Principles of risk minimisation for learning theory.. 2002 VAPNIK. SCHAPIRE. Junho de 2008.. K. 26(5):1651–1686.. 1. R.. M. 2006.. et al. 2006. Acesso em: 3 jun. Generating Fuzzy Rules by Learning from 25 . Previsão Multivariada da Demanda Horária de Água em Sistemas Urbanos de Abastecimento. L.cse. 2003. 1996. 3–19. Boosting the margin: A new explanation for the effectiveness of voting methods. J.Universidade de São Paulo. ed. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Londres: Springer-Verlag. Previsão de Séries Temporais Utilizando Lógica Nebulosa. LEU. Oregon Health & Science University. RUMELHART. São Paulo: Edgard Blücher.. P. Volume 2486 of Lecture Notes in Computer Science.. VALENTINI. Computational Intelligence in Time Series Forecasting. Stock Market Trend Prediction Using ARIMA-based Neural Networks. 2001. D. C. O. C. C. The Annals of Statistics. 525p. R. S. Análise de Séries Temporais. CHOREN.. 2001. M.. 4:831-838. SILVA. MASULLI. Sistemas Inteligentes: Fundamentos e Aplicações. C. 1992. R. 1. Tese (Doutorado em Engenharia Civil). Advances in Neural Information Processing Systems. R. Berlin/Heidelberg: Springer. 2005.ogi. C. Centro Universitário da Cidade do Rio de janeiro. 2003.

wasp?B1=1>. P..18. Acesso em: 18 mar.1. 2006.wessa. 2004. 22. IEEE Transactions on System. Man and Cybernetics. N. WESSA. 1992.. M. Free Statistics Software. J. WICHARD. 26 . 6. Office for Research Development and Education.Example.net/finmardata. Vol. OGORZALEK. Time Series Prediction with Ensemble Models. versão 1. D. Disponível em: <http://www.

Sign up to vote on this title
UsefulNot useful