Você está na página 1de 29

IME

ISSN 1982-9035 Monografias em Sistemas e Computao n 03/2009

Mtodos para Previso de Sries Temporais e suas Tendncias de Desenvolvimento


Claudio Vasconcelos Ribeiro Ronaldo Ribeiro Goldschmidt Ricardo Choren

Seo de Engenharia de Computao

INSTITUTO MILITAR DE ENGENHARIA PRAA GENERAL TIBRCIO 80 CEP 22290-270 RIO DE JANEIRO BRASIL

Monografias em Sistemas e Computao, No. 03/2009 Editor: Prof. Claudia Marcela Justel

ISSN: 1982-9035 Setembro, 2009

Mtodos para Previso de Sries Temporais e suas Tendncias de Desenvolvimento


Claudio Vasconcelos Ribeiro, Ronaldo Ribeiro Goldschmidt1 , Ricardo Choren
1

Instituto Superior de Tecnologia do Rio de Janeiro FAETEC

claudiovas02@yahoo.com.br, ronaldo.rgold@gmail.com, choren@ime.eb.br

Abstract. Time series forecasting is a challenge in the area of Data Mining. Predicting future values, based on past values, has become a subject of particular interest in academy and industry, with applications in production planning, electricity demand prediction and stock market price estimative, among others. There are several methods to assist in the task of time series forecasting, such as models from the statistics, as well as those derived from technologies of neural networks, fuzzy logic and the genetic algorithms, which are some examples of computational intelligence. Other approaches combine these techniques in the form of hybrid systems or committees, looking for a better performance achieved by the fusion of various experts. This paper presents some of these techniques and current trends of research in this area. Keywords: Time series, Artificial intelligence. Resumo. Previso de sries temporais um desafio da rea de Minerao de Dados. Prever valores futuros, em funo de valores passados, tem se tornado um assunto de especial interesse na academia e na indstria, com aplicaes em planejamento de produo, matriz energtica e mercado de aes, dentre outras. Existem diversos mtodos para auxiliar na tarefa de previso de sries temporais, tais como modelos provenientes da estatstica, assim como aqueles derivados de tecnologias de redes neurais, de lgica nebulosa e de algoritmos genticos, que so alguns exemplos de tcnicas inteligncia computacional. Outras abordagens que realizam a combinao destas tcnicas, na forma de sistemas hbridos ou comits, buscam alcanar um melhor desempenho por meio da fuso de vrias opinies individuais. Este trabalho apresenta algumas dessas tcnicas bem como as tendncias atuais de pesquisa nessa rea. Palavras-chave: Sries temporais, Inteligncia artificial.

iii

Responsvel por publicaes: Ricardo Choren IME Seo de Engenharia de Computao Praa General Tibrcio 80, Praia Vermelha 22290-270, Rio de Janeiro/RJ, Brasil Tel. +55 21 2546-7090 E-mail: choren@ime.eb.br

iii

1 Introduo
A importncia da anlise e previso de sries temporais na cincia, engenharia, e negcios tem crescido e continua como interesse atual de engenheiros e cientistas. De forma objetiva, [Silva et al., 2007] descrevem uma srie temporal como sendo um conjunto de observaes discretas, realizadas em perodos eqidistantes e que apresentam uma dependncia serial entre essas observaes . De forma ilustrativa, a Figura 01 exibe exemplos de sries temporais.

(a)

(b)

Figura 01: (a) Srie Dow Jones (Wessa, 2006). (b) Srie Laser (Wan, 2006).

Conhecer previamente um valor futuro pode significar a diferena entre o sucesso e o fracasso em determinadas ocasies. Diversos Sistemas de Apoio Deciso (SAD) empregam mtodos que envolvem previses de fatos e situaes futuras. Dentre eles, podem ser citados: previso de vendas para planejamento de produo industrial, demandas de energia eltrica, previses de temperaturas mdias e da altura das mars, estimativa de preos de aes na bolsa de valores. Para que seja possvel prever os valores futuros com base em valores passados, necessrio que se disponha de uma memria histrica de dados ocorridos anteriormente. Todavia, o conjunto de dados, por si s, no permite a previso dos valores futuros. Para isso, necessria a utilizao de algoritmos, tcnicas ou mtodos de previso de sries temporais, que podem envolver clculos simples ou procedimentos complexos . Existem diversos mtodos para auxiliar na tarefa de previso de sries temporais, como por exemplo: modelos de Suavizao Exponencial, modelos auto-regressivos (AR), de mdias mveis (MA) e Modelos ARIMA. Tecnologias de inteligncia computacional, tais como redes neurais, lgica nebulosa e algoritmos genticos, proporcionam a criao de metodologias avanadas de previso. Os conceitos e definies descritos anteriormente podem ser observados em maiores detalhes em [Palit e Popovic, 2005] [Ribeiro et al., 2008] [Silva et al., 2007] [Morettin e Toloi, 2006]. As capacidades e restries individuais de tecnologias de inteligncia computacional tm sido a motivao principal por trs de suas fuses para a criao de sistemas hbridos inteligentes, capazes de solucionar muitos problemas complexos. Assim, alternativas para combinao de mtodos de previso vm sendo pesquisadas. Entre elas existe a abordagem de combinao pela criao de comits de mquinas de aprendizado. Comit de mquinas de aprendizado uma abordagem que trata da fuso do conhecimento adquirido por especialistas (mtodos de previso ou simples-

mente previsores) para atingir uma deciso global que visa ser superior quela alcanvel por qualquer um deles atuando isoladamente [Haykin, 2001]. Este trabalho tem por objetivo apresentar algumas das tcnicas citadas para a previso de sries temporais, bem como as tendncias atuais de pesquisa nessa rea. A organizao desse trabalho segue em mais 3 Sees. A Seo 2 descreve as bases tericas referentes previso de sries temporais. Na Seo 3 so apresentados alguns mtodos aplicados na previso de sries temporais e as tendncias nessa rea. Finalizando o trabalho, a Seo 4 contm um resumo e as suas concluses.

2 Conceitos Bsicos
Esta seo descreve os conceitos bsicos sobre sries temporais e apresenta duas das mais importantes tecnologias de inteligncia artificial que servem de base para a criao de diversos algoritmos e mtodos de previso de sries temporais: redes neurais e lgica nebulosa.

2.1

Sries Temporais

Uma srie temporal pode ser conceituada simplesmente como qualquer conjunto de observaes ordenadas no tempo [Morettin e Toloi, 2006]. Pode-se expressar uma srie temporal por:

Z t = {Z t | t = 1,2,3...N}

Onde t um ndice temporal, e N o nmero de observaes. Considerando a existncia de observaes de uma srie temporal at o instante t, a previso no instante t+h denotada por t(h), cuja origem t e o horizonte de previso h. As previses em Z(t+1), Z(t+2), ... Z(t+h) podem ser ilustradas por meio do exemplo contido na Figura 02.

^ Z(t)

.... . ...
t

^ Z(1) ^ x Z(2) x

^ Z(h) x

t+1 t+2

.....

t+h

Tempo (t)

Figura 02: Observaes de uma srie temporal com previses de origem t e horizontes de previso iguais a um, dois e h (adaptado de [Morettin e Toloi, 2006])

Alm do horizonte de previso, outro parmetro usado pelo processo de previso o nmero de elementos histricos anteriores ao horizonte de previso. Ele chamado de janela de previso e est presente em boa parte dos mtodos de previso de sries temporais [Silva et al., 2007]. A janela de previso utilizada para formar o exemplos (padres) nos quais alguns mtodos de previso realizam a extrao do conhecimento (aprendizado) para aplicao na previso de valores futuros. O elemento que segue imediatamente janela de previso constitui o alvo, ou seja, o elemento que se deseja prever. A srie temporal normalmente dividida em dois conjuntos de elementos: o primeiro destinado ao mtodo de previso para a obteno do aprendizado (conjunto de treino) e o segundo usado para verificao de seu desempenho na previso de valores futuros (conjunto de teste). A Figura 03 mostra um exemplo da definio desses componentes para previso de uma srie temporal: a diviso da srie em conjuntos para treinamento e teste, uma janela de previso que possui cinco elementos e o horizonte de previso de um elemento (o alvo).

Figura 03: Exemplo de uma janela de previso com cinco entradas e horizonte de previso igual a um

2.2

Redes Neurais Artificiais

Em termos intuitivos, redes neurais artificiais (RNAs) so modelos matemticos inspirados nos princpios de funcionamento dos neurnios biolgicos e na estrutura do crebro [Goldschmidt e Passos, 2005]. RNAs so unidades de processamento numrico, cuja arquitetura em camada produz um fluxo de informaes com ou sem realimentao, possuindo uma estrutura de processamento de sinais com grande poder de adaptao e capacidade de representao de processos no lineares [Silva,2003]. Entre as aplicaes usuais das RNAs tm-se: reconhecimento e classificao de padres, clustering ou agrupamento, previso de sries temporais, aproximao de funes, otimizao, processamento de sinais, anlise de imagens e controle de processos. Uma rede neural se assemelha ao crebro em dois aspectos [Haykin, 2001]: O conhecimento adquirido pela rede a partir de seu ambiente atravs de um processo de aprendizagem; e Foras de conexo entre neurnios, conhecidas como pesos sinpticos, so utilizados para armazenar o conhecimento adquirido.

No processo de aprendizagem, generalizao significa que a rede neural produzir uma sada desejada para valores de entrada no utilizados durante tal processo, sendo este constitudo, geralmente, por meio de exemplos. O elemento bsico de construo de uma RNA o neurnio artificial, cuja descrio o estgio inicial para o entendimento dos conceitos associados s estruturas de redes existentes. 2.2.1 Neurnio Artificial Um neurnio uma unidade de processamento de informao que fundamental para a operao de uma rede neural. O modelo de um neurnio ilustrado na Figura 04 e sua estrutura descrita a seguir com base nos conceitos definidos em [Haykin, 2001]. Outras informaes complementares podem ser obtidas em [Goldschmidt e Passos, 2005] e [Rezende, 2003]. A estrutura de um neurnio permite um conjunto de valores como entradas (x1, x2, ..., xm) para a produo de uma sada nica (yk). Tais entradas so ponderadas por respectivos pesos sinpticos (wk1, wk2, ...wk3) e somadas ao valor de um bias bk aplicado externamente. O bias bk tem o efeito de aumentar ou diminuir a entrada lquida da funo de ativao, dependendo se ele positivo ou negativo. Em seguida uma funo de ativao (.) utilizada para restringir a amplitude do sinal de sada.

(a)

(b)

Figura 04: Modelos de um neurnio. (a) Modelo no-linear de um neurnio; (b) Grafo de fluxo de sinal de um neurnio. fonte: [Haykin, 2001]

Tipicamente, o intervalo normalizado da sada de um neurnio descrito como o intervalo unitrio fechado [0,1] ou alternativamente [-1,1]. Considerando vk como o potencial de ativao ou campo local induzido, o neurnio pode ser descrito pelas seguintes equaes:

vk = wkj x j
j= 0

yk = (vk )

A funo de ativao pode apresentar caractersticas lineares ou no-lineares, determinando a sada de um neurnio a partir do seu potencial de ativao. Dentre aquelas que possuem comportamento linear destacam-se a funo linear e a funo de limiar (referida normalmente na literatura de engenharia como funo de Heaviside, funo degrau ou degrau unipolar). Em geral, uma funo no-linear simula com maior preciso os neurnios biolgicos, sendo a funo sigmide uma das mais utilizadas. A funo sigmide pode ser definida por:

(v ) =

1 1 + e v

As funes de ativao descritas anteriormente se estendem de zero a +1. Para a utilizao de valores negativos, na forma correspondente de uma funo sigmide, podese empregar a funo tangente hiperblica definida por:

(v) = tanh(v)
A Figura 05 ilustra os tipos de grficos representados por meio das funes de ativao mencionadas.

Figura 05: Tipos de funo de ativao: (a) funo de limiar. (b) funo linear. (c) funo sigmide. (d) funo tangente hiperblica

2.2.2 Arquitetura de uma Rede Neural Artificial A estrutura da rede neural, composta de interconexes de neurnios, pode variar quanto ao nmero de camadas, neurnios em cada camada, funo de ativao dos neurnios em uma camada e a forma como as camadas so conectadas (totalmente ou parcialmente). Os detalhes de tal estrutura podem ser verificados em [Haykin, 2001] [Rezende, 2003] e [Silva, 2003]. A utilizao dessas informaes para aplicaes em previso de sries temporais podem ser encontradas em [Palit e Popovic, 2005]. Existem basicamente trs tipos de arquitetura: redes feedforward de camada nica, redes feedforward de mltiplas camadas e redes recorrentes.

As redes feedforward de camada nica so formadas por uma camada de entrada de ns fonte projetada sobre uma camada de sada de neurnios, mas no vice-versa. Um exemplo de Redes Feedforward Multicamadas so as redes fundamentadas em perceptron de multicamadas (estas conhecidas como redes MLP, do ingls Multilayer Perceptron). Perceptron um modelo de rede de um nvel capaz somente de classificar padres que sejam linearmente separveis. As redes MLP possuem uma ou mais camadas escondidas (ocultas), alm das camadas de entrada e de sada, cuja estrutura dessas redes supre as deficincias das redes do tipo perceptron. Tipicamente, os neurnios em cada camada de uma rede MLP tm como suas entradas apenas os sinais de sada da camada precedente. As redes MLP so geralmente usadas para determinar um mapeamento entre dois conjuntos de dados. A Figura 06 ilustra um exemplo de uma rede MLP.

Figura 06: Grafo arquitetural de um perceptron de mltiplas camadas com duas camadas ocultas. fonte: [Haykin, 2001]

Uma rede neural recorrente se distingue de uma rede feedforward por ter pelo menos um lao de realimentao. Em funo dessa caracterstica, tambm so chamadas de RNAs com memria, respondendo a estmulos dinamicamente, isto , aps aplicar uma nova entrada, a sada calculada e ento realimentada para modificar a entrada. Exemplos desse tipo de rede so as redes Elman e as Redes Hopfield descritas em . Diversas arquiteturas de rede so utilizadas para previso de sries temporais, merecendo destaque: redes MLP, redes de funo de base radial (ou RBF, do ingls Radial Basis Function) e redes recorrentes. As arquiteturas MLP constituem os modelos de redes neurais artificiais mais utilizados e conhecidos. A inerente capacidade de sua estrutura de rede em trs camadas promove qualquer mapeamento de entrada-sada, qualificando as redes MLP para uma previso eficiente de sries temporais. A escolha da estrutura da rede neural determina diretamente a qualidade do modelo obtido. Mesmo para uma estrutura definida, pode haver um nmero elevado ou mesmo infinito de solues possveis. Diversas atividades so necessrias para a definio da arquitetura de uma rede neural para a qual um problema especfico dever ser resolvido de forma tima. Aps a determinao do tipo de arquitetura de rede que ser empregada, conforme opes

exemplificadas anteriormente, diversas atividades so necessrias para a montagem da estrutura da rede, sendo algumas delas descritas adiante. Na maior parte das aplicaes de previso, somente uma camada oculta usada, embora algumas situaes excepcionais justifiquem um nmero maior. O nmero de neurnios nas camadas de entrada e de sada depende da dimensionalidade dos dados, enquanto que o nmero de neurnios nas camadas intermedirias depende da complexidade do problema. Quanto maior o nmero de neurnios nas camadas intermedirias, mais complexas so as funes mapeadas com a RNA. Para o caso de previso de valores futuros onde seja empregado o conceito de janela de previso, a quantidade de ns de entrada da rede diretamente determinada pelo tamanho dessa janela. A Figura 07 ilustra a quantidade de neurnios de entrada para a previso do prximo valor (previso tambm conhecida como um passo a frente, do ingls one-step-ahead prediction) em uma rede MLP, considerando-se o valor atual x(t) e uma janela de previso de n elementos. Nessa configurao ilustrada, o nmero de neurnios necessrios para a camada de sada apenas um. Outra etapa de configurao das camadas de rede a seleo das funes de ativao dos neurnios, as quais sero idnticas para todos os neurnios de uma mesma camada.

Figura 07: Nmero de neurnios de entrada para um horizonte de previso igual a um. fonte: [Palit e Popovic, 2005]

O padro de interconexo dos neurnios da rede neural refere-se a forma como a sada de cada neurnio de uma camada est conectada com a entrada de cada neurnio da camada subseqente. Uma RNA dita completamente conectada (full interconection) quando cada neurnio de uma camada, com exceo da camada de entrada, possui suas entradas ligadas s sadas de todos os neurnios da camada que a antecede. Se esta condio no for atendida, a RNA dita parcialmente conectada. 2.2.3 Metodologia de Previso A metodologia de previso geralmente compreendida como um conjunto de abordagens, mtodos e ferramentas para coleta de dados de sries temporais para serem usadas em previso de valores futuros, baseados em valores passados [Palit e Popovic, 2005]. Os passos operacionais definidos por esses autores so: preparao de dados;

determinao da arquitetura da rede; projeto da estratgia de treinamento; e avaliao dos resultados da previso. A etapa de preparao dos dados envolve, entre outros aspectos, a forma de aquisio, o pr-processamento, a normalizao, a estrutura dos dados e a definio dos conjuntos de treino e teste. As funes de ativao requerem valores normalizados e, dessa forma, h necessidade do emprego de procedimentos dedicados para preparao dos dados de entrada das redes neurais, adaptando-os s no-linearidades dos neurnios, visando no ultrapassar os limites de saturao. [Goldschmidt e Passos, 2005] descrevem diversos tipos de normalizao. Segundo esses autores, a normalizao linear consiste em considerar os valores mnimo e mximo de cada atributo no ajuste da escala, mapeando esse atributo no intervalo fechado de zero at 1(um). A equao que define a normalizao linear descrita como:

xn =
Onde: xn = valor normalizado xi

xi xmn xmx xmn

= valor do atributo a ser normalizado

xmn = valor mnimo do atributo a ser normalizado xmx = valor mnimo do atributo a ser normalizado Convm observar a necessidade de um ps-processamento dos dados ao final do processamento da rede (previso de valores), revertendo a normalizao realizada anteriormente. Na estruturao dos dados, pares de dados relacionando as entradas com as sadas desejadas devero ser construdos para a etapa de aprendizado supervisionado. Conforme ilustrada na Figura 07, a previso de um valor em x(t+1), denotado como alvo, relacionar valores passados at x(t), inclusive. De forma anloga, um valor alvo em x(t+2) utilizar dados histricos at x(t+1), seguindo assim sucessivamente para os demais pares de valores. A utilizao de um conjunto de treinamento, composto pelos pares de dados (exemplos) definidos anteriormente, permitir a rede neural extrair o conhecimento (aprendizado) necessrio para sua utilizao como previsor de valores futuros, cuja capacidade poder ser testada em um conjunto de teste dos pares de dados remanescentes. O aprendizado ser o resultado de vrias apresentaes de um determinado conjunto de exemplos de treinamento. Uma apresentao completa de todo esse conjunto de treinamento denominado uma poca. De acordo com [Palit e Popovic, 2005], as recomendaes sobre a diviso desses conjuntos em treinamento e teste vo desde um fator de 90% por 10%, at um fator de 50% por 50%. 2.2.4 Processo de Aprendizagem A propriedade que de importncia primordial para uma rede neural a sua habilidade de aprender a partir de seu ambiente e de melhorar o seu desempenho atravs da

aprendizagem, cujos algoritmos de aprendizagem diferem entre si pela forma como formulado o ajuste de um peso sinptico de um neurnio [Palit e Popovic, 2005]. Tais algoritmos ajustam iterativamente os pesos das conexes entre os neurnios at que os pares desejados de informaes de entrada(s) e sada(s) sejam obtidos e as relaes de causa e efeito possam ser estabelecidas [Leone Filho, 2006]. Os algoritmos de aprendizado podem ser classificados em trs paradigmas distintos: aprendizado supervisionado, aprendizado no-supervisionado e aprendizado por reforo. Seguem adiante algumas noes extradas de [Rezende, 2003]. A aprendizagem supervisionada, tambm conhecida como aprendizagem com um professor, caracteriza-se pela existncia de um professor ou supervisor, externo rede que tem a funo de monitorar a resposta da mesma para cada vetor de entrada. No aprendizado no-supervisionado a rede autnoma, ela no necessita de um professor, sendo o processo direcionado por correlaes existentes nos dados de entrada. O aprendizado por reforo pode ser considerado um paradigma intermedirio entre o aprendizado supervisionado e o no-supervisionado. O conjunto de treinamento formado apenas pelos vetores de entrada, mas existe um crtico externo em substituio ao supervisor do aprendizado supervisionado.

2.3

LGICA NEBULOSA

A lgica nebulosa, tambm conhecida como lgica fuzzy (do ingls fuzzy logic), uma teoria matemtica que permite modelar o modo aproximado do raciocnio humano, imitando assim a habilidade de tomada de deciso em ambientes de incerteza e impreciso [Goldschmidt e Passos, 2005]. Sistemas de apoio deciso, algoritmos para aproximao de funes e sistemas de controle esto entre as formas mais populares de utilizao dos conceitos relacionados com a lgica fuzzy [Rezende, 2003]. Esses conceitos viabilizam a construo de sistemas inteligentes que lidem com informaes imprecisas e subjetivas, tais como: investimento de alto risco, temperatura alta, presso mdia, produo baixa, demanda elevada, dentre outras. Um sistema baseado em Lgica Fuzzy nico com relao ao fato de possuir habilidade para tratar simultaneamente dados numricos e conhecimento lingstico, representando um mapeamento no-linear de um vetor de dados de entrada em uma sada escalar. O estabelecimento desse mapeamento proporcionado atravs da teoria de conjuntos fuzzy e da lgica fuzzy [Mendel, 1995]. A Lgica Fuzzy foi inicialmente construda semelhana dos conceitos j estabelecidos da lgica clssica e da tradicional Teoria dos Conjuntos. Para uma melhor compreenso desses fundamentos, uma breve descrio ser introduzida. 2.3.1 Conjuntos Nebulosos Na teoria clssica dos conjuntos, o conceito de pertinncia de um elemento a um dado conjunto A em um universo de discurso X (que prov o conjunto de valores permitidos para uma varivel), associa a cada elemento deste universo X um valor binrio. Dessa forma indicado se tal elemento pertence ou no pertence quele conjunto A. Isto pode ser expresso pela funo caracterstica fA:

fA(x) =

No mundo real existem propriedades que so vagas, incertas ou imprecisas e, portanto, impossveis de serem caracterizadas por predicados da lgica clssica bivalente. A teoria dos conjuntos fuzzy foi criada para tratar graus de pertinncia intermedirios entre a pertinncia total e a no-pertinncia de elementos de um universo de discurso com relao a um dado conjunto [Rezende, 2003]. Na lgica fuzzy a funo caracterstica foi generalizada, de forma que ela pudesse assumir um nmero infinito de valores no intervalo [0,1]. Um conjunto fuzzy A em um universo X definido por uma funo de pertinncia A(x): X [0,1], onde A(x) denominado como o grau de pertinncia do elemento x ao conjunto A, indicando o quanto x compatvel com o conjunto A. Na Figura 08.a so ilustrados dois conjuntos ordinrios (crisp), baixa e alta, que categorizam a estatura de uma pessoa. Observa-se que uma pessoa com altura de 1.79m seria classificada como baixa. Em contraste, uma pessoa que possui 1.8m seria conceituada alta. Pode-se notar que existe uma transio abrupta de conceitos, visto que uma diferena mnima de 0.01m pode ocasionar uma mudana no enquadramento do conjunto que classifica a estatura da pessoa. De forma similar, a Figura 08.b demonstra o exemplo de dois conjuntos fuzzy que definem os mesmos tipos de conceitos, baixa e alta, buscando introduzir uma transio mais suave nos citados conceitos. Nesses conjuntos uma pessoa considerada baixa se a sua estatura for igual ou inferior a 1.5m, possuindo dessa forma um grau de pertinncia 1.0 em relao ao conjunto baixa. Para o caso de uma pessoa com 1.8m de altura, esta pertence categoria baixa com grau de pertinncia 0.5 e ao mesmo tempo tambm considerada alta com grau de pertinncia 0.5. Esse ltimo caso demonstra que um determinado elemento pode pertencer a mais de um conjunto fuzzy, geralmente com diferentes graus de pertinncia.

0, somente se x A 1, somente se x A

Figura 08: (a) Conjuntos ordinrios (crisp). (b) Conjuntos fuzzy fonte: adaptada de [Palit e Popovic, 2005]).

Existem diversos formatos para a representao dos conjuntos nebulosos. A escolha de um determinado formato deve ser norteada pela compatibilidade do formato com o conceito que se deseja representar. As Figuras 09 e 10 mostram exemplos dos formatos de conjuntos triangular e trapezoidal e suas respectivas frmulas descritas abaixo [Goldschmidt e Passos, 2005]: Conjunto Triangular

10

o modelo computacional mais simples, e pode ser descrito por trs variveis (a, m, b):

0, se x a ( x a ) / ( m a ), se x ]a, m[ ( x) = ( b x ) / ( b m ), se x ] m, b[ 0, se x b

Figura 09: Grfico da Funo de Pertinncia Triangular. fonte: [Goldschmidt e Passos, 2005].

Trapezoidal

Esse modelo pode ser descrito por quatro variveis (a, b, c, d):

0, se x a ( x a ) / ( b a ), se x ]a, b[ ( x) = 1, se x [ b, c ] ( d x ) / ( d c ), se x ]c, d [ 0, se x d

Figura 10: Grfico da Funo de Pertinncia Trapezoidal.

11

fonte: [Goldschmidt e Passos, 2005].

2.3.2 Variveis Lingsticas Uma varivel lingstica definida como uma entidade utilizada para representar de modo impreciso e, portanto, lingstico, um conceito ou uma varivel de um dado problema. Ela admite como valores apenas expresses lingsticas (freqentemente chamadas de termos primrios), como frio, muito grande, aproximadamente alto etc [Rezende, 2003]. Por exemplo, a temperatura de um determinado processo pode ser uma varivel lingstica assumindo valores Muito Baixa, Baixa, Agradvel, Alta e Muito Alta, sendo estes descritos por intermdio de conjuntos fuzzy, conforme Figura 11.

Figura 11: Partio fuzzy de uma varivel lingstica representando a Temperatura.


fonte: [Rezende, 2003].

2.3.3 Operaes Nebulosas Bsicas De forma anloga ao que ocorre na clssica Teoria de Conjuntos, diversas operaes podem ser realizadas envolvendo conjuntos fuzzy. Apresentam-se aqui as mais relevantes para uma apresentao do assunto. Sendo A e B dois conjuntos nebulosos do universo de discurso U, podem ser definidas as seguintes funes de pertinncia para cada operao [Rezende, 2003]: Interseo

A funo de pertinncia do operador nebuloso de interseo entre conjuntos fuzzy pode ser generalizada por meio de famlias especficas de funes, chamadas de normas T. Dois dos exemplos mais usuais so: (Mnimo)

A B

( x) = ( x) =

min{

( x ), B ( x )}

(Produto)

A B

( x) * B ( x)

12

Assim como na Lgica Clssica, a operao de interseo corresponde ao operador lgico de conjuno E. Unio Similarmente, a funo de pertinncia do operador nebuloso de unio entre conjuntos fuzzy pode ser generalizada por meio de famlias especficas de funes, chamadas de normas S. Essas funes, tambm denominadas como T-Conorm, podem ser expressas, dentre outras formas, como: (Mximo)

A B

( x) = ( x) =

max{ min{1,

( x ), B ( x ) } ( x) +
B ( x )}

(Soma limitada)

A B

Assim como na Lgica Clssica, a operao de unio corresponde ao operador lgico de disjuno OU. Complemento A funo do operador nebuloso de complemento pode ser definida por:

( x ) = 1

( x)

A operao de complemento corresponde ao operador lgico de negao No. 2.3.4 Regras Nebulosas A maneira mais comum de armazenar informaes em uma Base de Conhecimento fuzzy a representao por meio de regras de produo fuzzy [Rezende, 2003]. Uma regra de produo (ou regra nebulosa) expressa por uma implicao do tipo: SE <antecedente> ENTO <conseqente> O antecedente formado por condies nebulosas que, quando satisfeitas, determinam o processamento do conseqente por um mecanismo de inferncia nebuloso. Essa noo descrita de forma prtica em [Goldschmidt e Passos, 2005], onde exemplificado um sistema para definio do valor de aplice de seguro de vida de clientes de uma seguradora a partir dos valores de idade e de presso desses clientes. Algumas regras possveis so: SE idade meia-idade E presso baixa ENTO seguro baixo SE idade jovem E presso alta ENTO seguro alto 2.3.5 Inferncia Fuzzy A arquitetura geral de um sistema nebuloso pode ser representada graficamente pela Figura 12. A etapa de fuzzificao mapeia nmeros (valores crisp) em conjuntos fuzzy. Isso necessrio de forma a ativar regras que esto no formato de variveis lingsticas, as quais possuem conjuntos fuzzy associadas com elas. A inferncia nebulosa a responsvel por processar as regras nebulosas existentes na base de conhecimento, gerando um conjunto fuzzy de sada a partir da composio de todas as regras disparadas.

13

Por uma regra disparada, entende-se uma regra cujo processamento do antecedente para as entradas atuais gerou graus de pertinncia no-nulos [Rezende, 2003]. Na fase final, a defuzzificao realiza a transformao de conjuntos nebulosos em sadas numricas. Dentre vrios modelos de Inferncia Fuzzy, o modelo Mamdani foi durante muitos anos um padro para a aplicao dos conceitos de Lgica Nebulosa em processamento do conhecimento [Goldschmidt e Passos, 2005].

Figura 12: Arquitetura geral de um sistema nebuloso. fonte: [Silva, 2006].

No modelo Mandami o processamento de inferncias denominado inferncia Max-Min que corresponde s operaes de unio e interseo fuzzy (operadores mximo e mnimo). Os antecedentes de cada regra so processados por meio da interseo fuzzy, gerando um grau de disparo que limitar os valores mximos dos conjuntos de sada. A composio de todas as regras disparadas (ou ativadas) realizada atravs da operao de unio fuzzy. Existem diversos mtodos para realizar a transformao dos conjuntos fuzzy de sada em valores numricos, tais como a Mdia dos Mximos e o Centro de Massa (tambm denominado Centro de Gravidade ou Centride), esse expresso pela frmula

y' =

C ( y i' ) * y i'
m i=1

C ( y i' )
m i=1

onde m o nmero de intervalos da sada, y'i o valor da varivel de sada para o intervalo i e C(y'i ) o grau de pertinncia da varivel y'i no conjunto C.

14

3 Mtodos de Previso de Sries Temporais


Um conjunto diversificado de mtodos de previso de sries temporais esto disponveis. As modelagens existentes vo desde modelos estatsticos [Box e Jenkins, 1976] at aquelas derivadas de tecnologias de inteligncia computacional, cuja teoria destas ltimas pode ser verificada com maiores detalhes em [Palit e Popovic, 2005] . Alm disso, tais modelagens podem ser combinadas, tanto na forma de sistemas hbridos como em comits. A escolha dos algoritmos e modelagens aqui descritas teve como escopo principal o uso de algumas tcnicas de inteligncia artificial, tais como lgica nebulosa e redes neurais artificiais. Essas tcnicas permitem a criao de mquinas de aprendizado, que constituem sistemas capazes de adquirir conhecimento de forma automtica. Como exemplos de mtodos que utilizam tcnicas de inteligencia computacional so descritos: o algoritmo de Wang-Mendel [Wang e Mendel, 1992], que prov um meio de obteno de regras lingsticas a partir de pares de dados numricos, gerando uma base de conhecimento para mapear o espao de entrada no espao de sada, e; um mtodo baseado no algoritmo de aprendizado Backpropagation [Rumelhart e Mcclelland, 1986], que empregado para a previso de sries a partir da utilizao de janelas de previso como exemplos para a etapa de treinamento de uma rede neural MLP. Na abordagem de comits, busca-se fundir o conhecimento adquirido por mtodos de previso construdos, basicamente, por mquinas de aprendizado, no intuito de atingir uma deciso global que visa ser superior quela alcanvel por qualquer um deles atuando isoladamente [Haykin, 2001]. Para essa abordagem a literatura utiliza uma gama de termos, tais como, comit, ensembles, combinador, classifier fusion, agregao e outros para denominar conjuntos de mquinas de aprendizado que trabalham acoplados para solucionar um problema de aprendizado de mquina [Valentini e Masulli, 2002]. Visando englobar as variaes de nomenclaturas e conceitos referentes aos citados mtodos de combinao, este trabalho adotar a expresso comit de aprendizado para descrever algumas estratgias associadas.

3.1

Algoritmo de Wang-Mendel

O algoritmo original de Wang-Mendel [Wang e Mendel, 1992] prov um mtodo genrico de gerao de regras nebulosas (fuzzy) que combina informaes numricas e lingsticas para uso, inclusive, em previso de sries temporais. O mtodo sugere uma seqncia de 5 passos para gerao de regras fuzzy: 1) Diviso dos dados de entrada e de sada em conjuntos fuzzy; 2) Gerao das Regras Fuzzy; 3) Definio de um grau para cada regra gerada; 4) Composio da Base de Conhecimento; e 5) Defuzzificao (Previso de valores futuros). Os quatro primeiros passos so responsveis pela gerao da base de conhecimento e compem a chamada etapa de treinamento. O quinto passo realiza, a partir da base de conhecimento gerada, a previso dos dados propriamente dita. Considerando-se como exemplo um vetor de entrada (X1, X2, ..., Xn) que representa dados de uma srie temporal, a Figura 13 ilustra a diviso do domnio em intervalos de mesmo tamanho para realizao do primeiro passo do mtodo. Os intervalos so divididos em 2N+1 conjuntos fuzzy. N definido pelo usurio para cada varivel. O conjunto CE (Center) representa o intervalo de valores que situa-se no ponto mdio do domnio da varivel do vetor de entrada. Os conjuntos denominados SN (Small N) referem-se aos elementos que esto abaixo do conjunto CE e BN (Big N) para aqueles que

15

esto acima. Cada conjunto associado a uma funo de pertinncia, nesse caso triangular, e tem por funo mapear o vetor de entrada. Desse mapeamento sero definidos, posteriormente, os pares de dados que representaro a entrada (janela de previso) e a sada (alvo). Os conjuntos citados so sobrepostos, como ilustrado na Figura 13.

X B3

{ CE { { S2{ S3{ UB1 S1 (X) 7 regies (N = 3) US3 S2 S1 CE B1 B2 B3

{ B2 {

Srie Temporal

U+

U+

Figura 13: Diviso dos Intervalos de domnio em conjuntos fuzzy. fonte: adaptada de [Wang e Mendel, 1992].

Para cada varivel de entrada e sada, o mtodo calcula o grau de ativao da funo de pertinncia correspondente e seleciona a maior delas. A gerao de regras nebulosas (passo 2) realizada por meio de sentenas do tipo Se <antecedentes> Ento <conseqente>, onde as variveis de entrada so designadas como antecedentes e a varivel de sada como conseqente. Para o exemplo proposto na Figura 14, a Tabela. 01 mostra a regra gerada a partir da escolha dos maiores graus de pertinncia.
Registros de Treino (antecedentes) Janela = 4 Registro de Treino (conseqente)

B3

{ B2{ {

X U+ B1

S3

{ CE { S1{ S2 {
U(X)
0,9 0,8 0,7 0,6 0,4 0,3 0,2 0,1 t1 t5 t3 t2 t4

t
B1 B2 B3

S3

S2

S1

CE

x3

x2 x1 x4 x5

U+

Figura 14: Mapeamento das Variveis de Entrada e Sada para uma Janela de Previso igual a 4

16

ANTECEDENTES X1=

CONSEQUENTE

X3=

{ {

B1= 0,4 B2= 0,6 B1= 0,1 CE= 0,9

X2=

X4=

{ {

B2= 0,3 B1= 0,7 CE= 0,4 B1= 0,6

X5=

B2= 0,2 B1= 0,8

Regra: SE X1 = B2 E X2 = B1 E X3 = CE E X4 = B1 ENTO X5 = B1 Tabela 01: Regra gerada a partir da escolha dos maiores graus de pertinncia para o exemplo proposto na Figura 14.

Todas as regras geradas so armazenadas em uma base de conhecimento de onde as regras conflitantes (mesmos antecedentes) so excludas, sendo preservadas aquelas que possuem maior grau (gerado pelo produto de todos os antecedentes e do respectivo conseqente), concluindo-se, assim, o terceiro e quarto passo. Para a previso de valores futuros (quinto passo), os dados de entrada so recebidos e a base de conhecimento previamente construda aplicada, onde um processo de defuzzificao combina as sadas das regras ativadas e calcula o valor previsto pelo mtodo do Centro de Massa (ou Gravidade). Maiores detalhes sobre o algoritmo de Wang-Mendel podem ser obtidos em [Wang e Mendel, 1992] [Silva et al., 2007] [Ribeiro et al., 2008] [Goldschmidt e Passos, 2005].

3.2

Algoritmo Backpropagation

O algoritmo de treinamento backpropagation emergiu como o algoritmo padro para o treinamento de perceptrons de mltiplas camadas (redes neurais MLP). O termo backpropagation surge do fato que o algoritmo se baseia na retropropagao dos erros para realizar os ajustes de pesos das camadas intermedirias. De forma resumida, extrada de [Haykin, 2001], o algoritmo backpropagation deriva seu nome do fato de que as derivadas parciais da funo custo (medida de desempenho) em relao aos parmetros livres (pesos sinpticos e nveis de bias) da rede so determinados por retropropagao dos sinais de erro (calculados pelos neurnios de sada) atravs da rede, camada por camada. A aprendizagem por retropropagao do erro pode ser descrita, basicamente, por dois passos computacionais: processamento para frente (propagao) e processamento para trs (retropropagao). No processamento para frente (propagao), o vetor de entrada aplicado aos neurnios da rede e seu efeito se propaga atravs da rede, camada por camada. Os pesos sinpticos w permanecem fixos e o sinal funcional que aparece na sada do neurnio j calculado como:
yj ( n) = (vj ( n))

onde (vj(n)) a funo de ativao do neurnio j, sendo n o n-simo padro de treinamento e vj(n) o potencial de ativao do neurnio j. A funo de ativao define a sada do neurnio. Os tipos bsicos de funes de ativao so: Linear, Sigmide e Tangente hiperblica. Com relao ao potencial de ativao, este representado por:

17

vj (n) = wji ( n) yi ( n)
i= 0

co que conectada o neurnio i ao neurnio j, e yi(n) o sinal de entrada do neurnio j (ou de forma equivalente, o sinal funcional na sada do neurnio i). O sinal de erro para o j-simo neurnio da camada de sada definido por:
ej ( n) = dj ( n) yj (n)

onde p o nmero total de entradas aplicadas ao neurnio j, wij(n) o peso sinpti-

onde dj(n) a resposta desejada. O clculo desses sinais de erro encerra a fase de propagao do algoritmo. No processamento realizado pela retropropagao, o ajuste dos pesos realizado pelo mtodo do gradiente e pode ser descrito pela equao a seguir:

wji ( n) = (
Onde:

E ) wji

o parmetro da taxa de aprendizado (que define a magnitude de atualizao dos pesos) e E/wji a derivada parcial do erro E em relao ao peso wij.
A equao anterior conhecida como Regra Delta. Outra forma de representar esse ajuste dos pesos expressa por: wji(n) = j(n)yi(n) sendo o gradiente local j (n) definido por:

j ( n) = ej ( n) j ' (vj ( n))

j igual ao produto do respectivo sinal de erro pela derivada 'j(vj(n)) da funo de ativao relacionada. A Figura 15 ilustra um diagrama da implementao desse treinamento para um neurnio de sada.

Esta ltima equao demonstra que o gradiente local j (n) para o neurnio de sada

18

X0 = 1

W0

bias

X1 entradas

W1

X2 W2

vk

(v k )

sada

yk

Xn

Figura 15: Aplicao do treinamento de um simples neurnio localizado na camada de sada de uma rede MLP. fonte: traduzida e adaptada de [Palit e Popovic, 2005]

no pode ser obtido diretamente, pois no existe uma resposta desejada especificada para aquele neurnio. Nessa situao o clculo do citado sinal de erro deve ser determinado de forma recursiva, em termos dos sinais de erro de todos os neurnios aos quais o neurnio oculto est diretamente conectado. Dessa forma, o clculo do gradiente local redefinido para:

Para o caso de um neurnio j localizado em uma camada oculta, o sinal de erro ej(n)

onde o ndice k se refere a um neurnio que se encontra em uma camada direita do neurnio j, quando este pertence a uma camada oculta. Uma alternativa para aumentar a taxa de aprendizagem evitando causar a instabilidade da rede a incluso do termo de momento na regra delta, estendendo-a como: wji ( n) = wji ( n 1) + j ( n) yi ( n) Esta equao chamada de regra delta generalizada, pois inclui a regra delta como um caso especial onde = 0. O termo de momento representa o valor memorizado do ltimo incremento e, dessa forma, a prxima mudana no peso mantida aproximadamente na mesma direo da ltima [Palit e Popovic, 2005]. O emprego do algoritmo Backpropagation na previso de sries realizada a partir da utilizao de janelas de previso, as quais formaro os exemplos para a etapa de treinamento supervisionado em uma rede neural MLP. Uma ilustrao de configurao para uma rede MLP destinada previso de valores futuros foi exibida na figura 07. Os parmetros bsicos para configurao do algoritmo backpropagation so: a taxa de aprendizagem, o termo momento e o nmero de pocas.

....
Wn pesos sinpticos Algoritmo de Treinamento Taxa de aprendizado
k

(vk )
sada desejada

Produto

dk

j (n) = 'j (vj (n)) k (n) wkj ( n)

19

3.3

Comits de Aprendizado

Um comit de aprendizado representa a agregao de mais de uma mquina de aprendizado na produo de uma nica soluo computacional para um determinado problema [Lima, 2004]. Estas mquinas se referem, basicamente, aos mtodos de previso provenientes de tcnicas de inteligncia artificial, mas pode incluir outras derivadas da estatstica, por exemplo. Algumas destas tcnicas foram apresentadas nas sees anteriores. A Figura 16 ilustra a estrutura de um comit que combina a sada de 4 previsores (mquinas de aprendizado). Segue adiante uma descrio do processo global [Leone Filho, 2006]: Cada previsor recebe os dados de entrada do problema, que podem no ser os mesmos para previsores distintos; Cada previsor (mtodo base) faz um mapeamento f:Rm R da sada a partir de m entradas; Cada sada de cada previsor multiplicada por um peso, onde o somatrio de todos os pesos impostos s sadas deve ser igual a 1; As sadas so selecionadas para formar o comit, de tal forma que nem todas as sadas dos previsores so combinadas, mas somente aquelas que melhoram o desempenho do comit; e As sadas selecionadas e ponderadas so somadas para compor a soluo do comit.

Wi = 1
I= 1

COMIT

Sada Combinada

Sada i Wi
I=1

(Sada 1)*W1

(Sada 2)*W2

(Sada 3)*W3

(Sada 4)*W4

Previsor 1

Previsor 2

Previsor 3

Previsor 4

Entradas

Entradas

Entradas

Entradas

Figura 16: Estrutura de um comit de previsores, considerando 4 componentes. fonte: [Leone Filho, 2006].

20

Aps a etapa de seleo dos membros do comit, a combinao dos resultados individuais de cada um destes pode ser feita por diversas maneiras. As mais comuns so votao mltipla ou votao majoritria para a tarefa de classificao de padres e mdia aritmtica ou mdia ponderada para a tarefa de regresso [Leone Filho, 2006]. Em um contexto mais amplo e no relacionado necessariamente previso de sries temporais, pode-se descrever tarefas de classificao e regresso como definidos em [Rezende, 2003]: uma tarefa de classificao consiste na predio de um valor categrico como, por exemplo, predizer se o cliente bom ou mau pagador. Na regresso, o atributo a ser previsto consiste em um valor contnuo, como por exemplo, predizer o lucro ou a perda em um emprstimo. Bagging [Breiman, 1994] e boosting [Freund e Schapire, 1997] so mtodos populares de comits de aprendizado e podem ser usados como algoritmos de lote dentro de outros comits. [Oza, 2001] descreve que estes mtodos processam repetidamente o conjunto inteiro de exemplos de treinamento e requerem no mnimo uma passagem atravs dos dados para cada modelo base que ser gerado. Este ltimo autor props uma abordagem onde os mtodos citados processam uma nica vez o citado conjunto, viabilizando a utilizao de grandes bases de dados. Algumas formas de comit so brevemente descritas adiante. 3.3.1 Combinao Linear A estratgia mais simples de combinao aplicar um somatrio ponderado das sadas individuais dos membros do comit. A equao descrita a seguir representa essa estratgia definida como combinao linear:

f c = wi f i
i= 1

Onde fc a sada combinada, M o nmero de mtodos base, fi a sada individual de cada mtodo base e wi um peso positivo associado a essa sada, sendo a soma destes pesos iguais a 1 [Wichard e Ogorzalek, 2004] [Brown, 2003]. Algumas abordagens para obteno dessas ponderaes, em busca de combinaes lineares timas, so apresentadas em [Perrone, 1993] [Hashem, 1993]. Quando os pesos so idnticos, a combinao mencionada como mdia simples, sendo expressa por:

fc =
3.3.2 Combinao No-Linear

1 M fi M i= 1

Nessa estratgia de combinao as sadas individuais dos mtodos base so interrelacionadas de forma no-linear. Esse mapeamento no-linear pode ser realizado por meio de implementaes isoladas de tecnologias de inteligncia artificial, tais como redes neurais, lgica nebulosa e abordagem hbrida [Palit e Popovic, 2000]. A equao abaixo exibe uma representao adaptada de [Lai, 2006]:

f c = ( f1 , f 2 , f 3 , ..., f n )
Onde fc a sada combinada, (f1, f2, f3,..., fn) a sada individual de cada mtodo base e (.) uma funo no-linear.

21

3.3.3 Bagging Bagging [Breiman, 1994] um mtodo para gerao de verses mltiplas de previsores e us-los para obter um previso agregada. Essa agregao realiza a mdia dessas verses quando prev um valor numrico e faz um voto majoritrio quando prev uma classe. As verses mltiplas so formadas pelo uso de tcnicas de bootstrap [Efron e Tibshirani, 1993] que replicam o conjunto de treinamento para formao de novos conjuntos de treinamento. 3.3.4 Boosting Boosting [Schapire, 1990] uma abordagem diferente da anterior, onde os conjuntos de treinamento da primeira no so gerados a partir de uma amostragem uniforme com reposio. Os membros do comit so treinados seqencialmente, e o treinamento de um membro em particular dependente do treinamento e do desempenho dos membros treinados previamente. Uma limitao prtica dessa abordagem que requer freqentemente uma grande amostra de treinamento. AdaBoost [Freund e Schapire, 1996] uma variante de boosting sendo provavelmente a mais difundida. 3.3.5 Mistura de Especialistas (ME) O princpio que rege a arquitetura de Mistura de Especialistas [Jacobs, 1991] que vrios previsores (redes neurais) estaro aptos a especializar partes especficas do espao de entrada. Uma rede de passagem (gating network) recebe as mesmas entradas e responsvel por aprender a combinao apropriada de pesos para modular as sadas de cada rede neural especialista. 3.3.6 Mistura Hierrquica de Especialistas (MHE) O modelo de Mistura Hierrquica de Especialistas (MHE) [Jordan, 1994] uma extenso natural da abordagem Mistura de Especialistas (ME). Esse modelo similar a uma rvore, na qual as redes de passagem esto em vrios pontos no-terminais da rvore e os especialistas se encontram nas folhas das rvores. Tal modelo se diferencia na medida em que o espao de entrada dividido em conjuntos aninhados de subespaos, com a informao sendo combinada e redistribuda entre os especialistas sob o controle de vrias redes de passagem arranjadas de forma hierrquica [Haykin, 2001].

3.4

Tendncias de Desenvolvimento

Na ltima dcada, observa-se o crescente interesse em algumas abordagens tais como: mquinas de vetores-suporte (SVM, do ingls support sector machines), wavelet neural networks e fractally configured neural networks. Essas tcnicas sero apresentadas adiante. Quanto s tcnicas baseadas em lgica fuzzy, merecem destaque aquelas direcionadas extrao de conhecimento a partir dos dados ou data understanding, por meio do uso de sistemas baseados em regras [Duch et al., 2004].

22

3.4.1 Mquinas de Vetores-Suporte (Support Vector Machines) Baseada em uma abordagem computacional nomeada como princpio da minimizao do risco estrutural, formulada por [Vapnik, 1992], os conceitos sobre mquinas de vetores-suporte foram fundamentados. Esses conceitos representam uma metodologia inovativa para o desenvolvimento de redes neurais para aplicaes em aproximao de funes, processamento de sinal, reconhecimento de padres e previso de sries temporais. Algumas potencialidades advindas da abordagem SVM com aquelas da abordagem de comits so exploradas conjuntamente em [Lima, 2004]. Nesse trabalho, vrias extenses e novas configuraes de comits, tendo mquinas de vetores-suporte como componentes, so propostas e implementadas. 3.4.2 Wavelet Neural Networks Uma nova e poderosa classe de redes neurais denominada Wavelet Neural Networks. Essas redes preservam todas os aspectos comuns s redes neurais, porm, em adio, possui rigorosos fundamentos matemticos. Elas possuem wavelets como funes de ativao e constituem uma alternativa para uso de redes com funes de ativao sigmide [Alarcon-Aquino, 2005]. Diversas representaes estruturais de redes wavelet tm sido desenvolvidas com base na abordagem de decomposio wavelet. O conceito wavelet deriva de uma extenso sobre a teoria da transformada de Fourier [Palit e Popovic, 2005]. 3.4.3 Fractally Configured Neural Networks Como uma ferramenta para solucionar problemas envolvendo processos em alto nvel ou funes cognitivas que, por exemplo, redes neurais convencionais no podem resolver, redes denominadas como fractal networks tm sido propostas. Essas redes so estruturadas em forma de rvores construdas a partir de agrupamentos (clusters) de subredes distribudas hierarquicamente [Palit e Popovic, 2005].

4 Concluses
Diversas modelagens so empregadas para a previso de sries temporais, estendendo-se desde os modelos clssicos da estatstica at aqueles baseados em tcnicas de inteligencia artificial. O problema geral quando se faz previso de sries temporais que no existe um nico modelo que seja eficaz em todos os tipos de sries temporais [Leone Filho, 2006]. A utilizao de sistemas hbridos ou comits busca o aproveitamento dos recursos individuais de diferentes mtodos para tratar um determinado problema. Diante das inmeras abordagens possveis para criao de mtodos de previso, o presente trabalho teve por objetivo apresentar algumas das mais importantes tecnologias de inteligncia computacional que so amplamente utilizadas para a construo de modelos para aplicao em previso de sries temporais: redes neurais e lgica nebulosa. Este trabalho apresentou ainda diversas formas de combinao de mtodos de previso e algumas tendncias de desenvolvimento nessa rea.

23

5 Referncias
ALARCON-AQUINO, V., GARCA-TREVIO, E. S., ROSAS-ROMERO, R., GUERRERO-OJEDA, L. G. Learning and approximation of chaotic time series using wavelet-networks. In: Sixth Mexican International Conference on Computer Science, ENC 2005. BOX, G. E., JENKINS, G. M., Time series analysis forecasting and control. So Francisco, Califrnia: Holden-Day, 1976. BREIMAN, L., Bagging predictors, Technical Report Tech. rep. 421, Department of Statistics, University of California, Berkeley, 1994. BROWN, G. Diversity in Neural Network Ensembles. 2003. Tese (Doctor of Philosophy in Computer Science) - University of Birmingham, 2003. DUCH, W., SETIONO, R., ZURADA, J. M. Computational Intelligence Methods, for Rule-Based Data Understanding. Proceedings of the IEEE 92(5): pp. 771-805. 2004. FREUND, Y., SCHAPIRE, R. E, Experiments with a new boosting algorithm, In Machine Learning: Proceedings of the Thirteenth International Conference, 1996. GOLDSCHMIDT, R. R., PASSOS, E. Data Mining: Um Guia Prtico. 1. ed. Rio de Janeiro: Campos, 2005. 261p. HASHEM, S. Optimal Linear Combinations of Neural Networks. 1993. Tese (Doctor of Philosophy) Purdue University, 1993. HAYKIN, S., Redes Neurais princpios e prtica. 2. ed. Porto Alegre: Bookman, 2001. 900p. JACOBS, R. A., JORDAN, M. I., NOWLAN, S. J., HINTON, G. E. Adaptive mixtures of local experts. Neural Computation, vol. 3, no 1, pp. 79-87, 1991. JORDAN, M. I., JACOBS, R. A. Hierarchical Mixtures of experts and the EM algorithm. In: Proceedings of 1993 International Joint Conference on Neural Networks, pp. 1339-1344. 1993. LAI, K. K., et al. A Novel Nonlinear Neural Network Ensemble Model for Financial Time Series Forecasting. V.N. Alexandrov et al. (Eds.): ICCS 2006, Part I, LNCS 3991, pp. 790 793, 2006. LEONE FILHO, M. de A., Previso de carga de curto prazo usando ensembles de previsores selecionados e evoludos por algoritmos genticos. 2006. Dissertao (Mestrado em Engenharia Eltrica) - Universidade Estadual de Campinas, Faculdade de Engenharia Eltrica e de Computao, 2006. LIMA, C. A. de M., Comit de mquinas: uma abordagem unificada empregando mquinas de vetores-suporte. 2004. Tese (Doutorado em Engenharia Eltrica) Universidade Estadual de Campinas, 2004. MENDEL, J. M.: Fuzzy Logic Systems for Engineering: a Tutorial. In: Proc. IEEE, V. 83, No. 3, pp. 345-377 (1995)

24

MORETTIN, P. A., TOLOI, C. M. C. Anlise de Sries Temporais. 2. ed. So Paulo: Edgard Blcher, 2006. 538p. OZA, N. C. Online Ensemble Learning. 2001. Tese (Doctor of Philosophy in Computer Science) - University of California at Berkeley, 2001. PALIT, A. K., POPOVIC, D. Computational Intelligence in Time Series Forecasting. 1. ed. Londres: Springer-Verlag, 2005. 372p. PERRONE, MICHAEL P., COOPER, LEON N., When Networks Disagree: Ensemble Methods for Hybrid Neural Networks, 1993. REZENDE, S. O. Sistemas Inteligentes: Fundamentos e Aplicaes. 1. ed. So Paulo: Manole, 2003. 525p. RIBEIRO, C. V., GOLDSCHMIDT, R. R., CHOREN, R., Uma Proposta de Mtodo Hbrido Fuzzy para Previso de Sries Temporais, 5 CONTECSI - Universidade de So Paulo, Junho de 2008. RUMELHART, D. E., MCCLELLAND, J. L. Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations, The MIT Press, 1986. SCHAPIRE, R. E., et al. Boosting the margin: A new explanation for the effectiveness of voting methods. The Annals of Statistics, 26(5):16511686, 1998. SILVA, C. S. da, Previso Multivariada da Demanda Horria de gua em Sistemas Urbanos de Abastecimento. 2003. Tese (Doutorado em Engenharia Civil), Universidade Estadual de Campinas, 2003. SILVA, P. O. M. P., Previso de Sries Temporais Utilizando Lgica Nebulosa. Trabalho de concluso de curso de Bacharelado em Cincia da Computao, Centro Universitrio da Cidade do Rio de janeiro, 2006. SILVA, P. O. M. P., GOLDSCHMIDT, R. R., SOARES, J. A., FERLIN, C., Previso de Sries Temporais Utilizando Lgica Nebulosa, 4 CONTECSI - Universidade de So Paulo, 2007. VALENTINI, G., MASULLI, F. Ensembles of Learning Machines. In 13th Italian Workshop on Neural Nets, 2002, Volume 2486 of Lecture Notes in Computer Science. Berlin/Heidelberg: Springer, pp. 319. 2002 VAPNIK, V. N. Principles of risk minimisation for learning theory, Advances in Neural Information Processing Systems, 4:831-838. Morgan Kaufmann, San Mateo, CA. 1992. WAN, E. A, Time Series Data, Oregon Health & Science University. Disponvel em: <http://www.cse.ogi.edu/~ericwan/data.html>. Acesso em: 3 jun. 2006. WANG, J., LEU, J. Stock Market Trend Prediction Using ARIMA-based Neural Networks. 1996. WANG, L., MENDEL, J. M., 1992, Generating Fuzzy Rules by Learning from

25

Example. IEEE Transactions on System, Man and Cybernetics, Vol. 22, N. 6, 1992. WICHARD, J. D., OGORZALEK, M. Time Series Prediction with Ensemble Models. 2004. WESSA. P., Free Statistics Software, Office for Research Development and Education, verso 1.1.18. Disponvel em: <http://www.wessa.net/finmardata.wasp?B1=1>. Acesso em: 18 mar. 2006.

26

Você também pode gostar