P. 1
Métodos para Previsão de Séries Temporais e Suas Tendências

Métodos para Previsão de Séries Temporais e Suas Tendências

|Views: 175|Likes:
Publicado porRogers

More info:

Published by: Rogers on Jul 15, 2011
Direitos Autorais:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

12/03/2012

pdf

text

original

IME

ISSN 1982-9035 Monografias em Sistemas e Computação n° 03/2009

Métodos para Previsão de Séries Temporais e suas Tendências de Desenvolvimento
Claudio Vasconcelos Ribeiro Ronaldo Ribeiro Goldschmidt Ricardo Choren

Seção de Engenharia de Computação

INSTITUTO MILITAR DE ENGENHARIA PRAÇA GENERAL TIBÚRCIO 80 – CEP 22290-270 RIO DE JANEIRO – BRASIL

Monografias em Sistemas e Computação, No. 03/2009 Editor: Prof. Claudia Marcela Justel

ISSN: 1982-9035 Setembro, 2009

Métodos para Previsão de Séries Temporais e suas Tendências de Desenvolvimento
Claudio Vasconcelos Ribeiro, Ronaldo Ribeiro Goldschmidt1 , Ricardo Choren
1

Instituto Superior de Tecnologia do Rio de Janeiro – FAETEC

claudiovas02@yahoo.com.br, ronaldo.rgold@gmail.com, choren@ime.eb.br

Abstract. Time series forecasting is a challenge in the area of Data Mining. Predicting future values, based on past values, has become a subject of particular interest in academy and industry, with applications in production planning, electricity demand prediction and stock market price estimative, among others. There are several methods to assist in the task of time series forecasting, such as models from the statistics, as well as those derived from technologies of neural networks, fuzzy logic and the genetic algorithms, which are some examples of computational intelligence. Other approaches combine these techniques in the form of hybrid systems or committees, looking for a better performance achieved by the fusion of various experts. This paper presents some of these techniques and current trends of research in this area. Keywords: Time series, Artificial intelligence. Resumo. Previsão de séries temporais é um desafio da área de Mineração de Dados. Prever valores futuros, em função de valores passados, tem se tornado um assunto de especial interesse na academia e na indústria, com aplicações em planejamento de produção, matriz energética e mercado de ações, dentre outras. Existem diversos métodos para auxiliar na tarefa de previsão de séries temporais, tais como modelos provenientes da estatística, assim como aqueles derivados de tecnologias de redes neurais, de lógica nebulosa e de algoritmos genéticos, que são alguns exemplos de técnicas inteligência computacional. Outras abordagens que realizam a combinação destas técnicas, na forma de sistemas híbridos ou comitês, buscam alcançar um melhor desempenho por meio da fusão de várias opiniões individuais. Este trabalho apresenta algumas dessas técnicas bem como as tendências atuais de pesquisa nessa área. Palavras-chave: Séries temporais, Inteligência artificial.

iii

Rio de Janeiro/RJ. +55 21 2546-7090 E-mail: choren@ime. Praia Vermelha 22290-270. Brasil Tel.Responsável por publicações: Ricardo Choren IME – Seção de Engenharia de Computação Praça General Tibúrcio 80.eb.br iii .

demandas de energia elétrica. podem ser citados: previsão de vendas para planejamento de produção industrial. modelos auto-regressivos (AR). De forma ilustrativa. Comitê de máquinas de aprendizado é uma abordagem que trata da fusão do conhecimento adquirido por especialistas (métodos de previsão ou simples- 1 .1 Introdução A importância da análise e previsão de séries temporais na ciência. a Figura 01 exibe exemplos de séries temporais. realizadas em períodos eqüidistantes e que apresentam uma dependência serial entre essas observações . é necessária a utilização de algoritmos. 2008] [Silva et al. lógica nebulosa e algoritmos genéticos. 2007] descrevem uma série temporal como sendo um conjunto de observações discretas. (a) (b) Figura 01: (a) Série Dow Jones (Wessa. De forma objetiva. técnicas ou métodos de previsão de séries temporais. Para isso... é necessário que se disponha de uma memória histórica de dados ocorridos anteriormente. tais como redes neurais. Todavia. Diversos Sistemas de Apoio à Decisão (SAD) empregam métodos que envolvem previsões de fatos e situações futuras. o conjunto de dados. Existem diversos métodos para auxiliar na tarefa de previsão de séries temporais. [Silva et al. 2007] [Morettin e Toloi.. 2005] [Ribeiro et al. As capacidades e restrições individuais de tecnologias de inteligência computacional têm sido a motivação principal por trás de suas fusões para a criação de sistemas híbridos inteligentes. Conhecer previamente um valor futuro pode significar a diferença entre o sucesso e o fracasso em determinadas ocasiões. (b) Série Laser (Wan. como por exemplo: modelos de Suavização Exponencial. previsões de temperaturas médias e da altura das marés. por si só. 2006). Tecnologias de inteligência computacional. proporcionam a criação de metodologias avançadas de previsão. Os conceitos e definições descritos anteriormente podem ser observados em maiores detalhes em [Palit e Popovic. Dentre eles. 2006). que podem envolver cálculos simples ou procedimentos complexos . 2006]. não permite a previsão dos valores futuros. alternativas para combinação de métodos de previsão vêm sendo pesquisadas. estimativa de preços de ações na bolsa de valores. engenharia. capazes de solucionar muitos problemas complexos. e negócios tem crescido e continua como interesse atual de engenheiros e cientistas. Entre elas existe a abordagem de combinação pela criação de comitês de máquinas de aprendizado. Para que seja possível prever os valores futuros com base em valores passados. de médias móveis (MA) e Modelos ARIMA. Assim.

A organização desse trabalho segue em mais 3 Seções. ^ Z(t) .. . cuja origem é t e o horizonte de previsão é h.N} Onde t é um índice temporal. t ^ Z(1) ^ x Z(2) x ^ Z(h) x t+1 t+2 . Este trabalho tem por objetivo apresentar algumas das técnicas citadas para a previsão de séries temporais. 2001].. dois e h (adaptado de [Morettin e Toloi. . Considerando a existência de observações de uma série temporal até o instante t. Finalizando o trabalho. Pode-se expressar uma série temporal por: Z t = {Z t ∈ ℜ | t = 1. bem como as tendências atuais de pesquisa nessa área.. A Seção 2 descreve as bases teóricas referentes à previsão de séries temporais. 2006]. a previsão no instante t+h é denotada por Ẑt(h). t+h Tempo (t) Figura 02: Observações de uma série temporal com previsões de origem t e horizontes de previsão iguais a um..2. 2 Conceitos Básicos Esta seção descreve os conceitos básicos sobre séries temporais e apresenta duas das mais importantes tecnologias de inteligência artificial que servem de base para a criação de diversos algoritmos e métodos de previsão de séries temporais: redes neurais e lógica nebulosa... Na Seção 3 são apresentados alguns métodos aplicados na previsão de séries temporais e as tendências nessa área.3..mente previsores) para atingir uma decisão global que visa ser superior àquela alcançável por qualquer um deles atuando isoladamente [Haykin. Z(t+2)... a Seção 4 contém um resumo e as suas conclusões. Z(t+h) podem ser ilustradas por meio do exemplo contido na Figura 02. .. 2006]) 2 .1 Séries Temporais Uma série temporal pode ser conceituada simplesmente como qualquer conjunto de observações ordenadas no tempo [Morettin e Toloi.... e N é o número de observações. 2. As previsões em Z(t+1).

possuindo uma estrutura de processamento de sinais com grande poder de adaptação e capacidade de representação de processos não lineares [Silva. outro parâmetro usado pelo processo de previsão é o número de elementos históricos anteriores ao horizonte de previsão.. processamento de sinais. ou seja. redes neurais artificiais (RNAs) são modelos matemáticos inspirados nos princípios de funcionamento dos neurônios biológicos e na estrutura do cérebro ” [Goldschmidt e Passos. e Forças de conexão entre neurônios. Uma rede neural se assemelha ao cérebro em dois aspectos [Haykin. Ele é chamado de janela de previsão e está presente em boa parte dos métodos de previsão de séries temporais [Silva et al. previsão de séries temporais. conhecidas como pesos sinápticos. Entre as aplicações usuais das RNAs têm-se: reconhecimento e classificação de padrões. Figura 03: Exemplo de uma janela de previsão com cinco entradas e horizonte de previsão igual a um 2. 3 . RNAs são unidades de processamento numérico. clustering ou agrupamento. 2001]:   O conhecimento é adquirido pela rede a partir de seu ambiente através de um processo de aprendizagem.2003].2 Redes Neurais Artificiais “Em termos intuitivos. 2005]. aproximação de funções. A Figura 03 mostra um exemplo da definição desses componentes para previsão de uma série temporal: a divisão da série em conjuntos para treinamento e teste. O elemento que segue imediatamente à janela de previsão constitui o alvo. A série temporal é normalmente dividida em dois conjuntos de elementos: o primeiro é destinado ao método de previsão para a obtenção do aprendizado (conjunto de treino) e o segundo é usado para verificação de seu desempenho na previsão de valores futuros (conjunto de teste).Além do horizonte de previsão. uma janela de previsão que possui cinco elementos e o horizonte de previsão de um elemento (o alvo). cuja arquitetura em camada produz um fluxo de informações com ou sem realimentação. otimização. A janela de previsão é utilizada para formar o exemplos (padrões) nos quais alguns métodos de previsão realizam a extração do conhecimento (aprendizado) para aplicação na previsão de valores futuros. o elemento que se deseja prever. 2007]. análise de imagens e controle de processos. são utilizados para armazenar o conhecimento adquirido.

(b) Grafo de fluxo de sinal de um neurônio. o intervalo normalizado da saída de um neurônio é descrito como o intervalo unitário fechado [0.1].. (a) Modelo não-linear de um neurônio. o neurônio pode ser descrito pelas seguintes equações: vk = ∑ wkj x j j= 0 m yk = ϕ (vk ) 4 . O elemento básico de construção de uma RNA é o neurônio artificial.1] ou alternativamente [-1. 2001]. Outras informações complementares podem ser obtidas em [Goldschmidt e Passos. Em seguida uma função de ativação φ(. (a) (b) Figura 04: Modelos de um neurônio. 2001] Tipicamente. fonte: [Haykin..2.) é utilizada para restringir a amplitude do sinal de saída. 2005] e [Rezende.No processo de aprendizagem. O bias bk tem o efeito de aumentar ou diminuir a entrada líquida da função de ativação. dependendo se ele é positivo ou negativo. cuja descrição é o estágio inicial para o entendimento dos conceitos associados às estruturas de redes existentes.. Tais entradas são ponderadas por respectivos pesos sinápticos (wk1. por meio de exemplos. x2. . sendo este constituído... wk2. A estrutura de um neurônio permite um conjunto de valores como entradas (x1. O modelo de um neurônio é ilustrado na Figura 04 e sua estrutura é descrita a seguir com base nos conceitos definidos em [Haykin. xm) para a produção de uma saída única (yk). 2.1 Neurônio Artificial Um neurônio é uma unidade de processamento de informação que é fundamental para a operação de uma rede neural. . generalização significa que a rede neural produzirá uma saída desejada para valores de entrada não utilizados durante tal processo. 2003]. Considerando vk como o potencial de ativação ou campo local induzido. geralmente.wk3) e somadas ao valor de um bias bk aplicado externamente.

determinando a saída de um neurônio a partir do seu potencial de ativação. Em geral. Dentre aquelas que possuem comportamento linear destacam-se a função linear e a função de limiar (referida normalmente na literatura de engenharia como função de Heaviside. 2001] [Rezende. pode variar quanto ao número de camadas. sendo a função sigmóide uma das mais utilizadas. Os detalhes de tal estrutura podem ser verificados em [Haykin. (d) função tangente hiperbólica 2.2 Arquitetura de uma Rede Neural Artificial A estrutura da rede neural. redes feedforward de múltiplas camadas e redes recorrentes.2. neurônios em cada camada. função degrau ou degrau unipolar). uma função não-linear simula com maior precisão os neurônios biológicos. composta de interconexões de neurônios. 2005]. A função sigmóide pode ser definida por: ϕ (v ) = 1 1 + e− v As funções de ativação descritas anteriormente se estendem de zero a +1. 5 . Para a utilização de valores negativos. 2003] e [Silva. Existem basicamente três tipos de arquitetura: redes feedforward de camada única. função de ativação dos neurônios em uma camada e a forma como as camadas são conectadas (totalmente ou parcialmente).A função de ativação pode apresentar características lineares ou não-lineares. A utilização dessas informações para aplicações em previsão de séries temporais podem ser encontradas em [Palit e Popovic. 2003]. na forma correspondente de uma função sigmóide. Figura 05: Tipos de função de ativação: (a) função de limiar. podese empregar a função tangente hiperbólica definida por: ϕ (v) = tanh(v) A Figura 05 ilustra os tipos de gráficos representados por meio das funções de ativação mencionadas. (b) função linear. (c) função sigmóide.

a saída é calculada e então realimentada para modificar a entrada. do inglês Multilayer Perceptron). também são chamadas de RNAs com memória. As redes MLP são geralmente usadas para determinar um mapeamento entre dois conjuntos de dados. As arquiteturas MLP constituem os modelos de redes neurais artificiais mais utilizados e conhecidos. pode haver um número elevado ou mesmo infinito de soluções possíveis. A inerente capacidade de sua estrutura de rede em três camadas promove qualquer mapeamento de entrada-saída. conforme opções 6 . fonte: [Haykin. Figura 06: Grafo arquitetural de um perceptron de múltiplas camadas com duas camadas ocultas. A escolha da estrutura da rede neural determina diretamente a qualidade do modelo obtido. mas não vice-versa. As redes MLP possuem uma ou mais camadas escondidas (ocultas). Diversas atividades são necessárias para a definição da arquitetura de uma rede neural para a qual um problema específico deverá ser resolvido de forma ótima. qualificando as redes MLP para uma previsão eficiente de séries temporais. Mesmo para uma estrutura definida. Exemplos desse tipo de rede são as redes Elman e as Redes Hopfield descritas em . os neurônios em cada camada de uma rede MLP têm como suas entradas apenas os sinais de saída da camada precedente. cuja estrutura dessas redes supre as deficiências das redes do tipo perceptron. além das camadas de entrada e de saída. do inglês Radial Basis Function) e redes recorrentes. após aplicar uma nova entrada. respondendo a estímulos dinamicamente. Perceptron é um modelo de rede de um nível capaz somente de classificar padrões que sejam linearmente separáveis. merecendo destaque: redes MLP. Após a determinação do tipo de arquitetura de rede que será empregada. isto é.As redes feedforward de camada única são formadas por uma camada de entrada de nós fonte projetada sobre uma camada de saída de neurônios. Em função dessa característica. redes de função de base radial (ou RBF. Tipicamente. A Figura 06 ilustra um exemplo de uma rede MLP. 2001] Uma rede neural recorrente se distingue de uma rede feedforward por ter pelo menos um laço de realimentação. Um exemplo de Redes Feedforward Multicamadas são as redes fundamentadas em perceptron de multicamadas (estas conhecidas como redes MLP. Diversas arquiteturas de rede são utilizadas para previsão de séries temporais.

do inglês one-step-ahead prediction) em uma rede MLP. métodos e ferramentas para coleta de dados de séries temporais para serem usadas em previsão de valores futuros. A Figura 07 ilustra a quantidade de neurônios de entrada para a previsão do próximo valor (previsão também conhecida como um passo a frente. Na maior parte das aplicações de previsão. Figura 07: Número de neurônios de entrada para um horizonte de previsão igual a um. O número de neurônios nas camadas de entrada e de saída depende da dimensionalidade dos dados. possui suas entradas ligadas às saídas de todos os neurônios da camada que a antecede. enquanto que o número de neurônios nas camadas intermediárias depende da complexidade do problema. somente uma camada oculta é usada. a RNA é dita parcialmente conectada. Nessa configuração ilustrada. a quantidade de nós de entrada da rede é diretamente determinada pelo tamanho dessa janela. Outra etapa de configuração das camadas de rede é a seleção das funções de ativação dos neurônios. 2005] O padrão de interconexão dos neurônios da rede neural refere-se a forma como a saída de cada neurônio de uma camada está conectada com a entrada de cada neurônio da camada subseqüente. fonte: [Palit e Popovic. o número de neurônios necessários para a camada de saída é apenas um.3 Metodologia de Previsão A metodologia de previsão é geralmente compreendida como um conjunto de abordagens. 2. baseados em valores passados [Palit e Popovic. 7 . Se esta condição não for atendida. embora algumas situações excepcionais justifiquem um número maior. sendo algumas delas descritas adiante. as quais serão idênticas para todos os neurônios de uma mesma camada. mais complexas são as funções mapeadas com a RNA. Os passos operacionais definidos por esses autores são: preparação de dados.2. Quanto maior o número de neurônios nas camadas intermediárias. Uma RNA é dita completamente conectada (full interconection) quando cada neurônio de uma camada. Para o caso de previsão de valores futuros onde seja empregado o conceito de janela de previsão. 2005]. considerando-se o valor atual x(t) e uma janela de previsão de n elementos. com exceção da camada de entrada. diversas atividades são necessárias para a montagem da estrutura da rede.exemplificadas anteriormente.

De acordo com [Palit e Popovic. inclusive. Segundo esses autores. visando não ultrapassar os limites de saturação. a normalização linear consiste em considerar os valores mínimo e máximo de cada atributo no ajuste da escala. a estrutura dos dados e a definição dos conjuntos de treino e teste. a forma de aquisição. a previsão de um valor em x(t+1).2. adaptando-os às não-linearidades dos neurônios. projeto da estratégia de treinamento. um valor alvo em x(t+2) utilizará dados históricos até x(t+1). 2005] descrevem diversos tipos de normalização. As funções de ativação requerem valores normalizados e. há necessidade do emprego de procedimentos dedicados para preparação dos dados de entrada das redes neurais. A equação que define a normalização linear é descrita como: xn = Onde: xn = valor normalizado xi xi − xmín xmáx − xmín = valor do atributo a ser normalizado xmín = valor mínimo do atributo a ser normalizado xmáx = valor mínimo do atributo a ser normalizado Convém observar a necessidade de um pós-processamento dos dados ao final do processamento da rede (previsão de valores). 2005]. O aprendizado será o resultado de várias apresentações de um determinado conjunto de exemplos de treinamento. seguindo assim sucessivamente para os demais pares de valores. entre outros aspectos. A utilização de um conjunto de treinamento. permitirá a rede neural extrair o conhecimento (aprendizado) necessário para sua utilização como previsor de valores futuros. 2. Conforme ilustrada na Figura 07.determinação da arquitetura da rede. cuja capacidade poderá ser testada em um conjunto de teste dos pares de dados remanescentes. pares de dados relacionando as entradas com as saídas desejadas deverão ser construídos para a etapa de aprendizado supervisionado. e avaliação dos resultados da previsão. Na estruturação dos dados. De forma análoga. revertendo a normalização realizada anteriormente. o pré-processamento. até um fator de 50% por 50%. dessa forma.4 Processo de Aprendizagem A propriedade que é de importância primordial para uma rede neural é a sua habilidade de aprender a partir de seu ambiente e de melhorar o seu desempenho através da 8 . Uma apresentação completa de todo esse conjunto de treinamento é denominado uma época. as recomendações sobre a divisão desses conjuntos em treinamento e teste vão desde um fator de 90% por 10%. a normalização. denotado como alvo. relacionará valores passados até x(t). composto pelos pares de dados (exemplos) definidos anteriormente. A etapa de preparação dos dados envolve. [Goldschmidt e Passos. mapeando esse atributo no intervalo fechado de zero até 1(um).

2003]. aprendizado não-supervisionado e aprendizado por reforço. Dessa forma é indicado se tal elemento pertence ou não pertence àquele conjunto A. 2006]. 2. O conjunto de treinamento é formado apenas pelos vetores de entrada. demanda elevada. também conhecida como lógica fuzzy (do inglês fuzzy logic). No aprendizado não-supervisionado a rede é autônoma. externo à rede que tem a função de monitorar a resposta da mesma para cada vetor de entrada. dentre outras. sendo o processo direcionado por correlações existentes nos dados de entrada.3 LÓGICA NEBULOSA A lógica nebulosa. caracteriza-se pela existência de um professor ou supervisor. O estabelecimento desse mapeamento é proporcionado através da teoria de conjuntos fuzzy e da lógica fuzzy [Mendel. Isto pode ser expresso pela função característica fA: 9 . também conhecida como aprendizagem com um professor. 1995]. imitando assim a habilidade de tomada de decisão em ambientes de incerteza e imprecisão [Goldschmidt e Passos. Sistemas de apoio à decisão. Tais algoritmos ajustam iterativamente os pesos das conexões entre os neurônios até que os pares desejados de informações de entrada(s) e saída(s) sejam obtidos e as relações de causa e efeito possam ser estabelecidas [Leone Filho. A Lógica Fuzzy foi inicialmente construída à semelhança dos conceitos já estabelecidos da lógica clássica e da tradicional Teoria dos Conjuntos. O aprendizado por reforço pode ser considerado um paradigma intermediário entre o aprendizado supervisionado e o não-supervisionado.3. Para uma melhor compreensão desses fundamentos. Esses conceitos viabilizam a construção de sistemas inteligentes que lidem com informações imprecisas e subjetivas. 2003]. produção baixa.aprendizagem.1 Conjuntos Nebulosos Na teoria clássica dos conjuntos. cujos algoritmos de aprendizagem diferem entre si pela forma como é formulado o ajuste de um peso sináptico de um neurônio [Palit e Popovic. o conceito de pertinência de um elemento a um dado conjunto A em um universo de discurso X (que provê o conjunto de valores permitidos para uma variável). ela não necessita de um “professor”. uma breve descrição será introduzida. Seguem adiante algumas noções extraídas de [Rezende. 2005]. algoritmos para aproximação de funções e sistemas de controle estão entre as formas mais populares de utilização dos conceitos relacionados com a lógica fuzzy [Rezende. tais como: investimento de alto risco. 2005]. associa a cada elemento deste universo X um valor binário. Os algoritmos de aprendizado podem ser classificados em três paradigmas distintos: aprendizado supervisionado. mas existe um crítico externo em substituição ao supervisor do aprendizado supervisionado. pressão média. Um sistema baseado em Lógica Fuzzy é único com relação ao fato de possuir habilidade para tratar simultaneamente dados numéricos e conhecimento lingüístico. A aprendizagem supervisionada. é uma teoria matemática que permite modelar o modo aproximado do raciocínio humano. 2. representando um mapeamento não-linear de um vetor de dados de entrada em uma saída escalar. temperatura alta.

“baixa” e “alta”. geralmente com diferentes graus de pertinência. A teoria dos conjuntos fuzzy foi criada para tratar graus de pertinência intermediários entre a pertinência total e a não-pertinência de elementos de um universo de discurso com relação a um dado conjunto [Rezende. A escolha de um determinado formato deve ser norteada pela compatibilidade do formato com o conceito que se deseja representar. (b) Conjuntos fuzzy fonte: adaptada de [Palit e Popovic. Existem diversos formatos para a representação dos conjuntos nebulosos. portanto. a Figura 08. As Figuras 09 e 10 mostram exemplos dos formatos de conjuntos triangular e trapezoidal e suas respectivas fórmulas descritas abaixo [Goldschmidt e Passos.b demonstra o exemplo de dois conjuntos fuzzy que definem os mesmos tipos de conceitos. uma pessoa que possui 1. Nesses conjuntos uma pessoa é considerada baixa se a sua estatura for igual ou inferior a 1. Na lógica fuzzy a função característica foi generalizada. de forma que ela pudesse assumir um número infinito de valores no intervalo [0. impossíveis de serem caracterizadas por predicados da lógica clássica bivalente. indicando o quanto x é compatível com o conjunto A. De forma similar.8m seria conceituada “alta”. buscando introduzir uma transição mais suave nos citados conceitos. incertas ou imprecisas e.01m pode ocasionar uma mudança no enquadramento do conjunto que classifica a estatura da pessoa.8m de altura. 2005]:  Conjunto Triangular 10 . “baixa” e “alta”.79m seria classificada como “baixa”. 2005]).0 em relação ao conjunto “baixa”.fA(x) = No mundo real existem propriedades que são vagas.5 e ao mesmo tempo também é considerada “alta” com grau de pertinência 0. visto que uma diferença mínima de 0.1]. { 0. Em contraste. Observa-se que uma pessoa com altura de 1.5m.a são ilustrados dois conjuntos ordinários (“crisp”). somente se x ∈ A Figura 08: (a) Conjuntos ordinários (crisp).5. Para o caso de uma pessoa com 1. possuindo dessa forma um grau de pertinência 1. 2003]. somente se x ∉ A 1. esta pertence à categoria “baixa” com grau de pertinência 0. Pode-se notar que existe uma transição abrupta de conceitos. Na Figura 08. Um conjunto fuzzy A em um universo X é definido por uma função de pertinência µA(x): X → [0. Esse último caso demonstra que um determinado elemento pode pertencer a mais de um conjunto fuzzy.1]. que categorizam a estatura de uma pessoa. onde µA(x) é denominado como o grau de pertinência do elemento x ao conjunto A.

b):  0. se x ≥ b   Figura 09: Gráfico da Função de Pertinência Triangular. m[  µ ( x) =   ( b − x ) / ( b − m ). se x ∈ ]a. e pode ser descrito por três variáveis (a. se x ≤ a   ( x − a ) / ( m − a ). b.É o modelo computacional mais simples. b[  0. b[   µ ( x) =  1. se x ∈ [ b. 2005]. se x ∈ ] m. c. d [   0.  Trapezoidal Esse modelo pode ser descrito por quatro variáveis (a. se x ∈ ]c. 11 . se x ≤ a   ( x − a ) / ( b − a ). d): 0. fonte: [Goldschmidt e Passos. se x ∈ ]a. m. se x ≥ d  Figura 10: Gráfico da Função de Pertinência Trapezoidal. c ]  ( d − x ) / ( d − c ).

fonte: [Rezende. 2003]. diversas operações podem ser realizadas envolvendo conjuntos fuzzy.3. Figura 11: Partição fuzzy de uma variável lingüística representando a Temperatura. “Agradável”. Ela admite como valores apenas expressões lingüísticas (freqüentemente chamadas de termos primários). 2005]. conforme Figura 11. a temperatura de um determinado processo pode ser uma variável lingüística assumindo valores “Muito Baixa”. sendo estes descritos por intermédio de conjuntos fuzzy. podem ser definidas as seguintes funções de pertinência para cada operação [Rezende. “Baixa”. 2003]: Interseção  A função de pertinência do operador nebuloso de interseção entre conjuntos fuzzy pode ser generalizada por meio de famílias específicas de funções. lingüístico. µ B ( x )} (Produto) A∩ B µ A ( x) * µ B ( x) 12 . Por exemplo. Apresentam-se aqui as mais relevantes para uma apresentação do assunto.fonte: [Goldschmidt e Passos.3 Operações Nebulosas Básicas De forma análoga ao que ocorre na clássica Teoria de Conjuntos. 2003]. como “frio”. 2. Dois dos exemplos mais usuais são: (Mínimo) µ µ A∩ B ( x) = ( x) = min{ µ A ( x ). Sendo A e B dois conjuntos nebulosos do universo de discurso U.3. chamadas de normas T. “Alta” e “Muito Alta”. portanto. “aproximadamente alto” etc [Rezende.2 Variáveis Lingüísticas Uma variável lingüística é definida como uma entidade utilizada para representar de modo impreciso e. “muito grande”. um conceito ou uma variável de um dado problema. 2.

µ B ( x ) } ( x) + µ B ( x )} (Soma limitada) A∪ B A Assim como na Lógica Clássica.3. chamadas de normas S. µ A ( x ). também denominadas como T-Conorm. Algumas regras possíveis são: SE idade é meia-idade E pressão é baixa ENTÃO seguro é baixo SE idade é jovem E pressão é alta ENTÃO seguro é alto 2. como: (Máximo) µ µ A∪ B ( x) = ( x) = max{ µ min{1. as quais possuem conjuntos fuzzy associadas com elas.4 Regras Nebulosas A maneira mais comum de armazenar informações em uma Base de Conhecimento fuzzy é a representação por meio de regras de produção fuzzy [Rezende. a operação de união corresponde ao operador lógico de disjunção “OU”. a operação de interseção corresponde ao operador lógico de conjunção “E”. determinam o processamento do conseqüente por um mecanismo de inferência nebuloso. a função de pertinência do operador nebuloso de união entre conjuntos fuzzy pode ser generalizada por meio de famílias específicas de funções. 2003].  União Similarmente. 2. onde é exemplificado um sistema para definição do valor de apólice de seguro de vida de clientes de uma seguradora a partir dos valores de idade e de pressão desses clientes.5 Inferência Fuzzy A arquitetura geral de um sistema nebuloso pode ser representada graficamente pela Figura 12. Essas funções. quando satisfeitas. 13 .Assim como na Lógica Clássica. 2005]. Uma regra de produção (ou regra nebulosa) é expressa por uma implicação do tipo: SE <antecedente> ENTÃO <conseqüente> O antecedente é formado por condições nebulosas que. A etapa de fuzzificação mapeia números (valores crisp) em conjuntos fuzzy.3. A inferência nebulosa é a responsável por processar as regras nebulosas existentes na base de conhecimento. podem ser expressas.  Complemento A função do operador nebuloso de complemento pode ser definida por: µ¬ A ( x ) = 1− µ A ( x) A operação de complemento corresponde ao operador lógico de negação “Não”. Isso é necessário de forma a ativar regras que estão no formato de variáveis lingüísticas. Essa noção é descrita de forma prática em [Goldschmidt e Passos. dentre outras formas. gerando um conjunto fuzzy de saída a partir da composição de todas as regras disparadas.

2006]. gerando um grau de disparo que limitará os valores máximos dos conjuntos de saída.Por uma regra disparada. A composição de todas as regras disparadas (ou ativadas) é realizada através da operação de união fuzzy. y'i é o valor da variável de saída para o intervalo “i ” e μC(y'i ) é o grau de pertinência da variável y'i no conjunto C. 2003]. fonte: [Silva. 2005]. 14 . esse expresso pela fórmula y' = ∑ µ C ( y i' ) * y i' m i=1 ∑ µ C ( y i' ) m i=1 onde “m” é o número de intervalos da saída. a defuzzificação realiza a transformação de conjuntos nebulosos em saídas numéricas. Existem diversos métodos para realizar a transformação dos conjuntos fuzzy de saída em valores numéricos. Figura 12: Arquitetura geral de um sistema nebuloso. Os antecedentes de cada regra são processados por meio da interseção fuzzy. entende-se uma regra cujo processamento do antecedente para as entradas atuais gerou graus de pertinência não-nulos [Rezende. No modelo Mandami o processamento de inferências é denominado inferência Max-Min que corresponde às operações de união e interseção fuzzy (operadores máximo e mínimo). tais como a Média dos Máximos e o Centro de Massa (também denominado Centro de Gravidade ou Centróide). Na fase final. o modelo Mamdani foi durante muitos anos um padrão para a aplicação dos conceitos de Lógica Nebulosa em processamento do conhecimento [Goldschmidt e Passos. Dentre vários modelos de Inferência Fuzzy.

. Na abordagem de comitês. Como exemplos de métodos que utilizam técnicas de inteligencia computacional são descritos: o algoritmo de Wang-Mendel [Wang e Mendel.1 Algoritmo de Wang-Mendel O algoritmo original de Wang-Mendel [Wang e Mendel. um método baseado no algoritmo de aprendizado Backpropagation [Rumelhart e Mcclelland. que constituem sistemas capazes de adquirir conhecimento de forma automática. Essas técnicas permitem a criação de máquinas de aprendizado.. 4) Composição da Base de Conhecimento. X2. ensembles. busca-se fundir o conhecimento adquirido por métodos de previsão construídos. tais como. basicamente. que é empregado para a previsão de séries a partir da utilização de janelas de previsão como exemplos para a etapa de treinamento de uma rede neural MLP. classifier fusion. e. 2001]. a Figura 13 ilustra a divisão do domínio em intervalos de mesmo tamanho para realização do primeiro passo do método. 3) Definição de um grau para cada regra gerada. Xn) que representa dados de uma série temporal. O quinto passo realiza.3 Métodos de Previsão de Séries Temporais Um conjunto diversificado de métodos de previsão de séries temporais estão disponíveis. 2) Geração das Regras Fuzzy. 3. comitê. 1976] até aquelas derivadas de tecnologias de inteligência computacional. cuja teoria destas últimas pode ser verificada com maiores detalhes em [Palit e Popovic. Além disso. N é definido pelo usuário para cada variável. O método sugere uma seqüência de 5 passos para geração de regras fuzzy: 1) Divisão dos dados de entrada e de saída em conjuntos fuzzy. gerando uma base de conhecimento para mapear o espaço de entrada no espaço de saída. tais como lógica nebulosa e redes neurais artificiais. 2005] . inclusive. Para essa abordagem a literatura utiliza uma gama de termos. em previsão de séries temporais. por máquinas de aprendizado. a partir da base de conhecimento gerada. Os quatro primeiros passos são responsáveis pela geração da base de conhecimento e compõem a chamada etapa de treinamento. As modelagens existentes vão desde modelos estatísticos [Box e Jenkins. 1992]. no intuito de atingir uma decisão global que visa ser superior àquela alcançável por qualquer um deles atuando isoladamente [Haykin. A escolha dos algoritmos e modelagens aqui descritas teve como escopo principal o uso de algumas técnicas de inteligência artificial. Considerando-se como exemplo um vetor de entrada (X1. tais modelagens podem ser combinadas. tanto na forma de sistemas híbridos como em comitês. O conjunto CE (Center) representa o intervalo de valores que situa-se no ponto médio do domínio da variável do vetor de entrada. Os conjuntos denominados SN (Small N) referem-se aos elementos que estão abaixo do conjunto CE e BN (Big N) para aqueles que 15 . 1986]. agregação e outros para denominar conjuntos de máquinas de aprendizado que trabalham acoplados para solucionar um problema de aprendizado de máquina [Valentini e Masulli. Visando englobar as variações de nomenclaturas e conceitos referentes aos citados métodos de combinação. que provê um meio de obtenção de regras lingüísticas a partir de pares de dados numéricos... 1992] provê um método genérico de geração de regras nebulosas (fuzzy) que combina informações numéricas e lingüísticas para uso. combinador. e 5) Defuzzificação (Previsão de valores futuros). Os intervalos são divididos em 2N+1 conjuntos fuzzy. este trabalho adotará a expressão comitê de aprendizado para descrever algumas estratégias associadas. a previsão dos dados propriamente dita. 2002].

4 0.3 0. como ilustrado na Figura 13.1 t1 t5 t3 t2 t4 t B1 B2 B3 S3 S2 S1 CE U - x3 x2 x1 x4 x5 U+ X Figura 14: Mapeamento das Variáveis de Entrada e Saída para uma Janela de Previsão igual a 4 16 .8 0.estão acima. posteriormente. Para cada variável de entrada e saída. fonte: adaptada de [Wang e Mendel.2 0. a Tabela. nesse caso triangular. o método calcula o grau de ativação da função de pertinência correspondente e seleciona a maior delas. Os conjuntos citados são sobrepostos. e tem por função mapear o vetor de entrada. onde as variáveis de entrada são designadas como antecedentes e a variável de saída como conseqüente.9 0. os pares de dados que representarão a entrada (janela de previsão) e a saída (alvo).6 0. 1992]. X B3 { CE { { S2{ S3{ UB1 S1 µ(X) 7 regiões (N = 3) US3 S2 S1 CE B1 B2 B3 { B2 { Série Temporal U+ t U+ X Figura 13: Divisão dos Intervalos de domínio em conjuntos fuzzy. 01 mostra a regra gerada a partir da escolha dos maiores graus de pertinência. Registros de Treino (antecedentes) Janela = 4 Registro de Treino (conseqüente) B3 { B2{ { X U+ B1 S3 { CE { S1{ S2 { Uµ(X) 0. Desse mapeamento serão definidos. A geração de regras nebulosas (passo 2) é realizada por meio de sentenças do tipo “Se <antecedentes> Então <conseqüente>”. Cada conjunto é associado a uma função de pertinência. Para o exemplo proposto na Figura 14.7 0.

o vetor de entrada é aplicado aos neurônios da rede e seu efeito se propaga através da rede. 2008] [Goldschmidt e Passos.9 X2= X4= { { B2= 0. Maiores detalhes sobre o algoritmo de Wang-Mendel podem ser obtidos em [Wang e Mendel. camada por camada. Os pesos sinápticos w permanecem fixos e o sinal funcional que aparece na saída do neurônio j é calculado como: yj ( n) = ϕ (vj ( n)) onde φ(vj(n)) é a função de ativação do neurônio j. 1992] [Silva et al. este é representado por: 17 . os dados de entrada são recebidos e a base de conhecimento previamente construída é aplicada. O termo backpropagation surge do fato que o algoritmo se baseia na retropropagação dos erros para realizar os ajustes de pesos das camadas intermediárias.. o terceiro e quarto passo. De forma resumida.2 B1= 0.. basicamente. 3. Todas as regras geradas são armazenadas em uma base de conhecimento de onde as regras conflitantes (mesmos antecedentes) são excluídas. A função de ativação define a saída do neurônio. por dois passos computacionais: processamento para frente (propagação) e processamento para trás (retropropagação). No processamento para frente (propagação).4 B2= 0. Sigmóide e Tangente hiperbólica. 2005].3 B1= 0.7 CE= 0. camada por camada.2 Algoritmo Backpropagation O algoritmo de treinamento backpropagation emergiu como o algoritmo padrão para o treinamento de perceptrons de múltiplas camadas (redes neurais MLP). assim.4 B1= 0. A aprendizagem por retropropagação do erro pode ser descrita. sendo preservadas aquelas que possuem maior grau (gerado pelo produto de todos os antecedentes e do respectivo conseqüente).6 X5= { B2= 0. sendo n o n-ésimo padrão de treinamento e vj(n) o potencial de ativação do neurônio j. o algoritmo backpropagation deriva seu nome do fato de que as derivadas parciais da função custo (medida de desempenho) em relação aos parâmetros livres (pesos sinápticos e níveis de bias) da rede são determinados por retropropagação dos sinais de erro (calculados pelos neurônios de saída) através da rede.ANTECEDENTES X1= CONSEQUENTE X3= { { B1= 0. Com relação ao potencial de ativação. concluindo-se.1 CE= 0. extraída de [Haykin. 2007] [Ribeiro et al.6 B1= 0.8 Regra: SE X1 = B2 E X2 = B1 E X3 = CE E X4 = B1 ENTÃO X5 = B1 Tabela 01: Regra gerada a partir da escolha dos maiores graus de pertinência para o exemplo proposto na Figura 14. Para a previsão de valores futuros (quinto passo). Os tipos básicos de funções de ativação são: Linear. onde um processo de defuzzificação combina as saídas das regras ativadas e calcula o valor previsto pelo método do Centro de Massa (ou Gravidade). 2001].

Outra forma de representar esse ajuste dos pesos é expressa por: ∆ wji(n) = η δ j(n)yi(n) sendo o gradiente local δj (n) definido por: δ j ( n) = ej ( n)ϕ j ' (vj ( n)) j é igual ao produto do respectivo sinal de erro pela derivada φ'j(vj(n)) da função de ativação relacionada. A Figura 15 ilustra um diagrama da implementação desse treinamento para um neurônio de saída. wij(n) é o peso sinápti- onde dj(n) é a resposta desejada. No processamento realizado pela retropropagação. A equação anterior é conhecida como Regra Delta. o ajuste dos pesos é realizado pelo método do gradiente e pode ser descrito pela equação a seguir: ∆ wji ( n) = − η ( Onde: ∂E ) ∂ wji η é o parâmetro da taxa de aprendizado (que define a magnitude de atualização dos pesos) e ∂E/∂wji é a derivada parcial do erro E em relação ao peso wij. o sinal funcional na saída do neurônio i). e yi(n) é o sinal de entrada do neurônio j (ou de forma equivalente. O cálculo desses sinais de erro encerra a fase de propagação do algoritmo. Esta última equação demonstra que o gradiente local δj (n) para o neurônio de saída 18 . O sinal de erro para o j-ésimo neurônio da camada de saída é definido por: ej ( n) = dj ( n) − yj (n) onde p é o número total de entradas aplicadas ao neurônio j.vj (n) = ∑ wji ( n) yi ( n) i= 0 p co que conectada o neurônio i ao neurônio j.

Uma ilustração de configuração para uma rede MLP destinada à previsão de valores futuros foi exibida na figura 07. 2005] não pode ser obtido diretamente. o cálculo do gradiente local é redefinido para: Para o caso de um neurônio j localizado em uma camada oculta. dessa forma. O termo de momento representa o valor memorizado do último incremento e. 2005]. Nessa situação o cálculo do citado sinal de erro deve ser determinado de forma recursiva. o sinal de erro ej(n) onde o índice k se refere a um neurônio que se encontra em uma camada à direita do neurônio j. pois não existe uma resposta desejada especificada para aquele neurônio. Uma alternativa para aumentar a taxa de aprendizagem ƞ evitando causar a instabilidade da rede é a inclusão do termo de momento α na regra delta. . em termos dos sinais de erro de todos os neurônios aos quais o neurônio oculto está diretamente conectado.. pois inclui a regra delta como um caso especial onde α = 0. o termo momento e o número de épocas. O emprego do algoritmo Backpropagation na previsão de séries é realizada a partir da utilização de janelas de previsão.X0 = 1 W0 bias X1 entradas W1 ∑ X2 W2 vk ϕ (v k ) saída yk Xn Figura 15: Aplicação do treinamento de um simples neurônio localizado na camada de saída de uma rede MLP. fonte: traduzida e adaptada de [Palit e Popovic. quando este pertence a uma camada oculta.. Wn pesos sinápticos Algoritmo de Treinamento Taxa de aprendizado k ϕ ´(vk ) saída desejada Produto ∑ + dk δ j (n) = ϕ 'j (vj (n))∑ δ k (n) wkj ( n) 19 . estendendo-a como: ∆ wji ( n) = α ∆ wji ( n − 1) + δ j ( n) yi ( n) Esta equação é chamada de regra delta generalizada.. as quais formarão os exemplos para a etapa de treinamento supervisionado em uma rede neural MLP. a próxima mudança no peso é mantida aproximadamente na mesma direção da última [Palit e Popovic. Os parâmetros básicos para configuração do algoritmo backpropagation são: a taxa de aprendizagem. Dessa forma.

que podem não ser os mesmos para previsores distintos. basicamente. Segue adiante uma descrição do processo global [Leone Filho. 20 . de tal forma que nem todas as saídas dos previsores são combinadas. Cada saída de cada previsor é multiplicada por um peso. As saídas são selecionadas para formar o comitê. por exemplo. considerando 4 componentes. aos métodos de previsão provenientes de técnicas de inteligência artificial.3. Cada previsor (método base) faz um mapeamento f:Rm →R da saída a partir de m entradas. fonte: [Leone Filho. mas pode incluir outras derivadas da estatística. onde o somatório de todos os pesos impostos às saídas deve ser igual a 1. Estas máquinas se referem. mas somente aquelas que melhoram o desempenho do comitê. 2004]. e As saídas selecionadas e ponderadas são somadas para compor a solução do comitê. A Figura 16 ilustra a estrutura de um comitê que combina a saída de 4 previsores (máquinas de aprendizado).  ∑ Wi = 1 I= 1 4 COMITÊ Saída Combinada ∑ Saída i Wi I=1 4 (Saída 1)*W1 (Saída 2)*W2 (Saída 3)*W3 (Saída 4)*W4 Previsor 1 Previsor 2 Previsor 3 Previsor 4 Entradas Entradas Entradas Entradas Figura 16: Estrutura de um comitê de previsores.3 Comitês de Aprendizado Um comitê de aprendizado representa a agregação de mais de uma máquina de aprendizado na produção de uma única solução computacional para um determinado problema [Lima. 2006]. Algumas destas técnicas foram apresentadas nas seções anteriores. 2006]:     Cada previsor recebe os dados de entrada do problema.

viabilizando a utilização de grandes bases de dados. a combinação dos resultados individuais de cada um destes pode ser feita por diversas maneiras. A equação descrita a seguir representa essa estratégia definida como combinação linear: f c = ∑ wi f i i= 1 M Onde fc é a saída combinada.3. Bagging [Breiman. predizer se o cliente é bom ou mau pagador. sendo a soma destes pesos iguais a 1 [Wichard e Ogorzalek. 21 .3.. Em um contexto mais amplo e não relacionado necessariamente à previsão de séries temporais. como por exemplo. fi é a saída individual de cada método base e wi é um peso positivo associado a essa saída. A equação abaixo exibe uma representação adaptada de [Lai. pode-se descrever tarefas de classificação e regressão como definidos em [Rezende. Esse mapeamento não-linear pode ser realizado por meio de implementações isoladas de tecnologias de inteligência artificial.. 3.. Algumas formas de comitê são brevemente descritas adiante. 2001] descreve que estes métodos processam repetidamente o conjunto inteiro de exemplos de treinamento e requerem no mínimo uma passagem através dos dados para cada modelo base que será gerado. Algumas abordagens para obtenção dessas ponderações. sendo expressa por: fc = 3. 2004] [Brown... Na regressão. . f n ) Onde fc é a saída combinada. 2003]: uma tarefa de classificação consiste na predição de um valor categórico como. em busca de combinações lineares ótimas. 1993]. (f1. 2006]: f c = ψ ( f1 . [Oza. são apresentadas em [Perrone..Após a etapa de seleção dos membros do comitê. a combinação é mencionada como média simples. f 3 . por exemplo. lógica nebulosa e abordagem híbrida [Palit e Popovic.) é uma função não-linear. 2003]. Este último autor propôs uma abordagem onde os métodos citados processam uma única vez o citado conjunto. f 2 . As mais comuns são votação múltipla ou votação majoritária para a tarefa de classificação de padrões e média aritmética ou média ponderada para a tarefa de regressão [Leone Filho. Quando os pesos são idênticos. 2006]. M é o número de métodos base. f2. 1997] são métodos populares de comitês de aprendizado e podem ser usados como algoritmos de lote dentro de outros comitês. fn) é a saída individual de cada método base e Ψ(. 1993] [Hashem. tais como redes neurais.. predizer o lucro ou a perda em um empréstimo. 1994] e boosting [Freund e Schapire. f3.2 Combinação Não-Linear 1 M ∑ fi M i= 1 Nessa estratégia de combinação as saídas individuais dos métodos base são interrelacionadas de forma não-linear.1 Combinação Linear A estratégia mais simples de combinação é aplicar um somatório ponderado das saídas individuais dos membros do comitê. o atributo a ser previsto consiste em um valor contínuo. 2000].

. Os membros do comitê são treinados seqüencialmente. 1993] que replicam o conjunto de treinamento para formação de novos conjuntos de treinamento.3. 3. Uma rede de passagem (gating network) recebe as mesmas entradas e é responsável por aprender a combinação apropriada de pesos para modular as saídas de cada rede neural especialista. 1994] é uma extensão natural da abordagem Mistura de Especialistas (ME). Tal modelo se diferencia na medida em que o espaço de entrada é dividido em conjuntos aninhados de subespaços.3.3. do inglês support sector machines). 3. 1996] é uma variante de boosting sendo provavelmente a mais difundida. 1991] é que vários previsores (redes neurais) estarão aptos a “especializar” partes específicas do espaço de entrada. Uma limitação prática dessa abordagem é que requer freqüentemente uma grande amostra de treinamento. por meio do uso de sistemas baseados em regras [Duch et al. onde os conjuntos de treinamento da primeira não são gerados a partir de uma amostragem uniforme com reposição. na qual as redes de passagem estão em vários pontos não-terminais da árvore e os especialistas se encontram nas folhas das árvores. wavelet neural networks e fractally configured neural networks.3 Bagging Bagging [Breiman.3. AdaBoost [Freund e Schapire. merecem destaque aquelas direcionadas à extração de conhecimento a partir dos dados ou data understanding. 2001].5 Mistura de Especialistas (ME) O princípio que rege a arquitetura de Mistura de Especialistas [Jacobs. As versões múltiplas são formadas pelo uso de técnicas de bootstrap [Efron e Tibshirani. Quanto às técnicas baseadas em lógica fuzzy. 1990] é uma abordagem diferente da anterior. 3.3. e o treinamento de um membro em particular é dependente do treinamento e do desempenho dos membros treinados previamente. 2004]. Essa agregação realiza a média dessas versões quando prevê um valor numérico e faz um voto majoritário quando prevê uma classe. Esse modelo é similar a uma árvore. Essas técnicas serão apresentadas adiante. observa-se o crescente interesse em algumas abordagens tais como: máquinas de vetores-suporte (SVM.6 Mistura Hierárquica de Especialistas (MHE) O modelo de Mistura Hierárquica de Especialistas (MHE) [Jordan. 22 . 3. com a informação sendo combinada e redistribuída entre os especialistas sob o controle de várias redes de passagem arranjadas de forma hierárquica [Haykin. 1994] é um método para geração de versões múltiplas de previsores e usá-los para obter um previsão agregada.4 Tendências de Desenvolvimento Na última década.4 Boosting Boosting [Schapire.

porém. Elas possuem wavelets como funções de ativação e constituem uma alternativa para uso de redes com funções de ativação sigmóide [Alarcon-Aquino. tendo máquinas de vetores-suporte como componentes. Este trabalho apresentou ainda diversas formas de combinação de métodos de previsão e algumas tendências de desenvolvimento nessa área. Essas redes são estruturadas em forma de árvores construídas a partir de agrupamentos (clusters) de subredes distribuídas hierarquicamente [Palit e Popovic. A utilização de sistemas híbridos ou comitês busca o aproveitamento dos recursos individuais de diferentes métodos para tratar um determinado problema. Nesse trabalho. Algumas potencialidades advindas da abordagem SVM com aquelas da abordagem de comitês são exploradas conjuntamente em [Lima. processamento de sinal.3 Fractally Configured Neural Networks Como uma ferramenta para solucionar problemas envolvendo processos em alto nível ou funções cognitivas que. redes neurais convencionais não podem resolver. O conceito wavelet deriva de uma extensão sobre a teoria da transformada de Fourier [Palit e Popovic. são propostas e implementadas.1 Máquinas de Vetores-Suporte (Support Vector Machines) Baseada em uma abordagem computacional nomeada como princípio da minimização do risco estrutural. 3. reconhecimento de padrões e previsão de séries temporais. estendendo-se desde os modelos clássicos da estatística até aqueles baseados em técnicas de inteligencia artificial. Diante das inúmeras abordagens possíveis para criação de métodos de previsão. Diversas representações estruturais de redes wavelet têm sido desenvolvidas com base na abordagem de decomposição wavelet. em adição. 4 Conclusões Diversas modelagens são empregadas para a previsão de séries temporais. 1992]. formulada por [Vapnik. 23 . Essas redes preservam todas os aspectos comuns às redes neurais. por exemplo. 2005]. O problema geral quando se faz previsão de séries temporais é que não existe um único modelo que seja eficaz em todos os tipos de séries temporais [Leone Filho. 2005]. 2006].4.3. Esses conceitos representam uma metodologia inovativa para o desenvolvimento de redes neurais para aplicações em aproximação de funções.2 Wavelet Neural Networks Uma nova e poderosa classe de redes neurais é denominada Wavelet Neural Networks. 2005]. o presente trabalho teve por objetivo apresentar algumas das mais importantes tecnologias de inteligência computacional que são amplamente utilizadas para a construção de modelos para aplicação em previsão de séries temporais: redes neurais e lógica nebulosa. redes denominadas como fractal networks têm sido propostas. várias extensões e novas configurações de comitês. possui rigorosos fundamentos matemáticos. os conceitos sobre máquinas de vetores-suporte foram fundamentados.4. 3.4. 2004].

Bagging predictors. 1. de M. BOX. In: Proc.. Dissertação (Mestrado em Engenharia Elétrica) . R. 79-87. Technical Report Tech. pp. 345-377 (1995) 24 . G. Porto Alegre: Bookman. 2004. ROSAS-ROMERO.. In: Proceedings of 1993 International Joint Conference on Neural Networks. 1993. BREIMAN.. 1991. 2005. Computational Intelligence Methods. SETIONO. DUCH. 790 – 793. I. LNCS 3991. S. JACOBS. V. Alexandrov et al.. Part I.. JORDAN. G. ZURADA. LAI. LIMA. 2006. 1996.. Tese (Doutorado em Engenharia Elétrica) Universidade Estadual de Campinas.. A. 1339-1344. G. Experiments with a new boosting algorithm.Universidade Estadual de Campinas. JACOBS. University of California. No. FREUND. A. K. pp. S. SCHAPIRE. JENKINS.: Fuzzy Logic Systems for Engineering: a Tutorial. E. 1993. J. 2006. no 1.N. 2003. Rio de Janeiro: Campos. In Machine Learning: Proceedings of the Thirteenth International Conference.. E. HASHEM.. M. Tese (Doctor of Philosophy in Computer Science) . G. W. 1976. E. Y. Data Mining: Um Guia Prático. PASSOS. Previsão de carga de curto prazo usando ensembles de previsores selecionados e evoluídos por algoritmos genéticos. HAYKIN.. 3. Comitê de máquinas: uma abordagem unificada empregando máquinas de vetores-suporte. L. Berkeley. R. BROWN. G. K. 2001. Learning and approximation of chaotic time series using wavelet-networks. V.. M.): ICCS 2006. 2006.. 771-805. Time series analysis forecasting and control..University of Birmingham. R. pp. MENDEL. S. 3. V. rep. JORDAN. In: Sixth Mexican International Conference on Computer Science. IEEE. 2004. Tese (Doctor of Philosophy) – Purdue University. A Novel Nonlinear Neural Network Ensemble Model for Financial Time Series Forecasting. 900p. ed. 83. C. Diversity in Neural Network Ensembles. M. M. M. 1994. Califórnia: Holden-Day. de A. pp. A. 1993. Neural Computation. GUERRERO-OJEDA.. R. GOLDSCHMIDT. HINTON. 261p. Hierarchical Mixtures of experts and the EM algorithm. J. L. for Rule-Based Data Understanding.5 Referências ALARCON-AQUINO. E. E. Adaptive mixtures of local experts. 421. J. GARCÍA-TREVIÑO. M. 2. S.. R. NOWLAN. Optimal Linear Combinations of Neural Networks. R. LEONE FILHO. vol. et al. 2004. São Francisco. Department of Statistics. Redes Neurais – princípios e prática.. 2003. Faculdade de Engenharia Elétrica e de Computação. R. Proceedings of the IEEE 92(5): pp. ENC 2005. (Eds. I... ed.

WANG. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. 26(5):1651–1686. SOARES. C. RIBEIRO. REZENDE. S. C. SILVA. R. WANG. The Annals of Statistics. C. CA. Uma Proposta de Método Híbrido Fuzzy para Previsão de Séries Temporais. 1.. MCCLELLAND. São Paulo: Manole. Online Ensemble Learning. O. J.MORETTIN. 4:831-838. P. Análise de Séries Temporais. 538p. ed. C. P. R. J. 2001. MENDEL. 1998. Previsão de Séries Temporais Utilizando Lógica Nebulosa. P.. N. Trabalho de conclusão de curso de Bacharelado em Ciência da Computação. Principles of risk minimisation for learning theory... WAN. Ensembles of Learning Machines.. COOPER. C. Berlin/Heidelberg: Springer. 1. L. D. SILVA. In 13th Italian Workshop on Neural Nets. GOLDSCHMIDT. R. San Mateo. LEON N.. 2002. 2002 VAPNIK.. A. Boosting the margin: A new explanation for the effectiveness of voting methods. ed. LEU. VALENTINI. Advances in Neural Information Processing Systems. et al. K..cse.. SILVA. Sistemas Inteligentes: Fundamentos e Aplicações. Previsão de Séries Temporais Utilizando Lógica Nebulosa. O. 1996. Computational Intelligence in Time Series Forecasting. R. D. The MIT Press. A.. MICHAEL P. Disponível em: <http://www. 2003. L. 1992. S. N. P. J.. 2001.. C. F. 2005. E. 3–19. 2. O. FERLIN. M. 525p. 2006..ogi. 2006. 372p. G. 4º CONTECSI . Junho de 2008. Stock Market Trend Prediction Using ARIMA-based Neural Networks. pp. Londres: Springer-Verlag. Oregon Health & Science University. 5º CONTECSI .Universidade de São Paulo. Tese (Doutorado em Engenharia Civil). E. 1986. Volume 1: Foundations. R. M. M. OZA. TOLOI. V. Acesso em: 3 jun. Volume 2486 of Lecture Notes in Computer Science.. Tese (Doctor of Philosophy in Computer Science) . P. POPOVIC. PERRONE.Universidade de São Paulo. PALIT. 2006. Morgan Kaufmann. R.. MASULLI. Centro Universitário da Cidade do Rio de janeiro. 2003. Time Series Data. Universidade Estadual de Campinas. Generating Fuzzy Rules by Learning from 25 . 2003.. RUMELHART. J. A. When Networks Disagree: Ensemble Methods for Hybrid Neural Networks. 2007. E. São Paulo: Edgard Blücher. V. A.University of California at Berkeley.html>. Previsão Multivariada da Demanda Horária de Água em Sistemas Urbanos de Abastecimento. ed. J.edu/~ericwan/data. da. SCHAPIRE. GOLDSCHMIDT. CHOREN.. 1992. 1993. M..

IEEE Transactions on System. OGORZALEK. M.wasp?B1=1>. Office for Research Development and Education. 2004. Disponível em: <http://www. 26 .18.. versão 1.Example. 6.net/finmardata. WESSA. Acesso em: 18 mar. 1992. J. Free Statistics Software. 22. WICHARD. P.wessa. Time Series Prediction with Ensemble Models. Vol.1. Man and Cybernetics.. 2006. D. N.

You're Reading a Free Preview

Descarregar
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->