Você está na página 1de 8

Projeto de Pesquisa:

Análise, Algoritmos e Aplicações de Processos de Decisão Markovianos

Edilson Fernandes de Arruda 27 de março de 2008

1 Introdução e Motivações

Introduzidos por Richard Bellman em um de seus trabalhos clássicos [7], processos de decisão markovianos (PDM) são uma ferramenta b astante eficiente na modelagem e solução de problemas de decisão discretos co m incertezas. Puterman [15] definiu PDM como modelos de decisão sequ encial contendo:

1. Um conjunto de instantes de decisão;

2. Um conjunto de estados (possíveis configurações do problema);

3. Um conjunto de ações de controle factíveis;

4. Um conjunto de custos imediatos, dependentes do estado e da a ção de controle;

5. Um conjunto de probabilidades de transição, funções do estado e da ação de controle.

Este modelo é bastante geral e pode ser aplicado a uma grande varie dade de problemas; veja por exemplo [6, 9, 19], entre outros. A solução de PDM pode ser obtida por meio de técnicas de programação dinâmica (PD) e xata e aproximada ou aprendizado por reforço, do termo em inglês reinforcement learning (RL). Estudos detalhados de técnicas e algoritmos de programação dinâmica podem ser encontrados em [8, 15]. Tratamentos detalhad os de técnicas e algoritmos de aprendizado por reforço e programação d inâmica aproximada (PDA) podem ser obtidos em [9, 19, 17].

Por conta de sua utilidade e versatilidade, PDM motivaram uma sólida e variada literatura. No entanto, alguns problemas inerentes ao mod elo ainda persistem, como a dificuldade de se tratar problemas com um grande ( possi- velmente infinito) número de estados [12, 19, 17]. Tais problemas req uerem alto poder de processamento e armazenamento de dados, podend o demandar mais processamento e capacidade de armazenamento do que está fis icamente disponível, o que os tornaria computacionalmente intratáveis. O des afio de se obter soluções satisfatórias para esse tipo de aplicação tem rec ebido recen- temente muita atenção na literatura especializada, tendo contribu ído para o surgimento de técnicas de aprendizado por reforço (RL) [19] e pro gramação dinâmica aproximada (PDA) [17].

2 Linhas de Investigação

O presente projeto prevê a continuação de minhas atividades de pe squisa junto ao LNCC, com foco especial em técnicas de solução exata e apr oximada de PDM. Pretende-se, além disso, desenvolver novas linhas de pesq uisa em áreas de fronteira, notadamente nas áreas de Redes Estocásticas Comple- xas [14] e Agregação Temporal em Processos de Decisão Markovianos [10]. Estudos preliminares nessas áreas estão atualmente sendo desenvolvidos. Apresenta-se a seguir uma lista de tópicos de investigação, na qual são descritos resultados já obtidos e listados avanços a serem buscad os na seqüên- cia do trabalho de investigação. As atividades incluídas nesse plano nã o ex- cluem, naturalmente, a possibilidade de inclusão de outros temas de p esquisa que possam vir a interessar o autor ou ser de interesse estratégic o do LNCC.

2.1 Estabilidade Estocástica, Programação Dinâmica Apro- ximada e Agregação Temporal

Para um problema de manufatura com gargalo de produção [3], foi p ro- vado que a política ótima é estocasticamente estável e possui uma e strutura bem definida, determinada por uma dada função de Lyapunov. Aprese ntou- se também nesse trabalho, um procedimento sub-ótimo de iteração de valor aplicada apenas a estados pertencentes à região de estabilidade, c om condi- ções de contorno arbitrárias. Utilizando como pano de fundo os resultados em [3], buscar-se-á ut ili- zar os resultados de estabilidade para estabelecer algoritmos aproximados, possivelmente utilizando simulação Monte Carlo e conceitos de agrega ção temporal [10], que iterem em um subconjunto compacto do espaço d e esta- dos S . Algoritmos baseados em agregação temporal, concebidos para res olver problemas com políticas de controle ergódicas e, portanto, estoca sticamente estáveis, normalmente assumem que fora de uma dada região finita de inte- resse, apenas uma ação de controle está disponível. Assim, pode-s e dividir o

2

espaço de estados em uma região finita e controlável e uma região comple- mentar incontrolável , já que nessa região não é necessária a escolha de uma ação de controle. Dado que são conhecidas as propriedades do pro cesso esto- cástico restrito (embedded) ao conjunto de estados de interess e, algoritmos baseados em agregação temporal [10, 16, 18] obtém a solução ex ata do PDM original com critério de custo médio. Pretende-se investigar a abor gagem de agregação temporal para problemas em que todos os estados são controlá- veis, i.e. possuem mais de uma ação de controle factível, no intuito de b uscar soluções exatas e/ou aproximadas para PDM com critério de custo m édio. Outra possível linha de pesquisa envolve a utilização de métodos Mont e Carlo para obter estimativas das probabilidades de transição e funç ões de custo do PDM restrito ao conjunto de interesse e posterior obten ção de solu- ções aproximadas para o problema original. Outro problema a ser abo rdado no presente projeto é a investigação de algoritmos mais eficientes de itera- ção de valor para serem aplicados quando da utilização da abordagem de agregação temporal. Os algoritmos existentes, e.g. [10, 16, 18], g eralmente utilizam uma função paramétrica de custo. Sendo assim, o processo itera- tivo deve estimar, implícita ou explicitamente, o parâmetro ótimo, ao m esmo tempo em que itera em busca da política ótima para o problema. Preten de-se investigar a viabilidade do emprego de algoritmos tradicionais de PD ao p ro- blema, como forma de simplificar o processo iterativo e assim obter gan hos computacionais.

2.2 Programação Dinâmica Aproximada

Métodos programação dinâmica aproximada (PDA) são métodos sub - ótimos que utilizam aproximações da função valor V do problema. Para tanto, faz-se necessária a definição de uma arquitetura de aproxim ação ar- bitrária, por exemplo o conjunto dos polinômios em S de ordem 2, ou um conjunto de nós e camadas que defina a estrutura de uma rede neur al. De- finida a arquitetura, busca-se em seu domínio a função que aproxime V satisfatoriamente. Convém mencionar que a arquitetura de aprox imação é definida à priori pelo usuário e permanece inalterada durante a execu ção de um algoritmo de PDA. Denota-se por A a arquitetura de aproximação utilizada, por R o con- junto de parâmetros admissíveis e por V := A(r), r ∈ R um elemento da arquitetura, isto é, uma função valor aproximada. A estrutura da função V deve ser definida de forma que a avaliação de V (x) para qualquer estado x S possa ser facilmente obtida. Ao final do processo, substitui-se a função valor V (x), x S , por uma aproximação V (x) = A(r, x) e utiliza-se no estado x o controle sub-ótimo π˜(x) que satisfaz à expressão

π˜(x) = arg min E h(x, π) + p xy (π)V (y) .

π

y S

3

Na expressão acima, p xy (π) denota a probabilidade de transição do estado x ao estado y . Busca-se, através do uso de aproximações, solucionar problemas com um grande número de estados utilizando-se arquiteturas de aproxima ção A as- sociadas a vetores de parâmetros r de pequenas dimensões, de modo a se obter um algoritmo aproximado com custo computacional significativa mente reduzido em relação ao algoritmo de PD padrão. Busca-se, naturalm ente, escolher r iterativamente de modo a obter uma função V que aproxime V satisfatoriamente. Assim, a determinação da função V envolve:

1.

Definir a arquitetura de aproximação A;

2.

Obter o vetor de parâmetros r de maneira a minimizar uma medida de erro entre V e V .

2.2.1

Resultados e Perspectivas

Em [2] foram derivados alguns resultados interessantes para o pr oblema de programação dinâmica aproximado (PDA). Apresenta-se, no re ferido tra- balho, um procedimento de iteração de valor que se utiliza de uma aproxi- mação paramétrica a cada iteração, denominado algoritmo aproxima do de iteração de valor. Os resultados obtidos para o problema PDA generalizam resultados e xis- tentes na arquitetura, tais como [11] e estabelecem condições pa ra a conver- gência de algoritmos aproximados de iteração de valor, independent emente da aproximação paramétrica utilizada. Trata-se de um avanço signific ativo, uma vez que a convergência de algoritmos PDA fora apenas estabele cida para arquiteturas de aproximação particulares. Pretende-se ap rofundar nas linhas de pesquisa introduzidas em [2], obtendo, se possível, melhore s garan- tias de desempenho para algoritmos PDA, em conjunção com a garantia de convergência já apresentada. Vislumbra-se, além disso, a utilizaçã o de apro- ximações paramétricas em conjunto com observações acerca da e stabilidade estocástica, a fim de se estabelecer procedimentos mais eficientes de obtenção de soluções aproximadas em problemas de decisão markovianos (PDM ). Em [4] estabelece-se uma conexão entre PD e otimização convexa e propõe-se algoritmos baseados em programação convexa para ob tenção de soluções sub-ótimas em algoritmos de programação dinâmica aproxim ada. Pretende-se aprofundar nessa linha de pesquisa por meio da utilizaç ão de técnicas de busca direta [13], visando a obtenção de uma solução ap roxi- mada com mínimo resíduo de Bellman, e.g. [5] dentro da arquitetura de aproximação da função valor empregada.

2.3 Programação Dinâmica

Em [1] foi desenvolvido um procedimento de aceleração de converg ência para uma classe de algoritmos com convergência linear (CL), que englo ba

4

o algoritmo de iteração de valor. Esse procedimento maximiza a taxa d e

convergência de um dado algoritmo com respeito ao esforço comput acional. Baseado nesse procedimento, apresentou-se nesse mesmo trab alho um algo- ritmo de iteração de valor com informações parciais (sigla em inglês PIVI) ,

que maximiza a eficiência do algoritmo de iteração de valor com respeito ao esforço computacional. Esse algoritmo utiliza uma matriz de trans ição truncada, refinada linearmente com uma taxa determinística. Pretende-se desenvolver e aplicar variantes do algoritmo PIVI para outros algoritmos da classe CL. Além disso, buscar-se-á aplicar o algoritmo PIV I e suas variantes a problemas de controle e pesquisa operacional.

2.4 Redes Estocásticas Completas e Outros Tópicos de In- teresse

Sean Meyn, em seu livro recente [14], chama a atenção para a impor- tância de redes estocásticas e sua aplicação a problemas bastante relevantes atualmente. Um exemplo típico de aplicação é a área de redes sem fio ( wi- reless networks ), tópico bastante em voga atualmente. Tomando como base

o referido livro, pretende-se realizar estudos temáticos na área v isando o de-

senvolvimento de contribuições originais, especialmente no tocante a técnicas de solução. Pretende-se investigar as propriedades de políticas discretas ótim as em

problemas de redes estocásticas, notadamente problemas rotea mento e filas. Pretende-se também estudar as condições de estabilidade estocá stica, com

possível utilização dessas propriedades na elaboração de algoritmo s eficientes para obtenção da solução ótima. Um possível desdobramento a ser verificado

é a aplicação de teoria de Martingales na caracterização de comport amentos- limite em problemas discretos de roteamento. Outros tópicos de interesse envolvem a aplicação de modelos markov ianos

e a extensão dos modelos de manufatura previamente estudados a problemas reais de expansão de capacidade, como por exemplo problemas de ex pansão da rede elétrica ou telefônica.

3 Plano de Trabalho

No intuito de alcançar os objetivos propostos no presente plano de pes- quisa, prevê-se a realização da lista de atividades abaixo.

1. Revisão Bibliográfica: Busca na literatura de trabalhos contendo novas contribuições nos diversos campos relacionados a processo s de decisão markovianos (PDM) e redes estocásticas complexas.

2. Estudos de Técnicas de Agregação Temporal

(a) Problemas com subconjunto finito de estados controláveis.

5

(b) Problemas com mais de uma ação de controle em todos os estados .

3. Algoritmos de Programação Dinâmica Aproximada (PDA) em PDM

(a)

Investigação e aplicação de técnicas de busca direta em problema s de PDA.

(b)

Busca de garantias de desempenho e limitantes para algoritmos convergentes de programação dinâmica aproximada (PDA).

(c)

Desenvolvimento e aplicação de variantes do algoritmo PIVI [1] a algoritmos PDA.

4. Estudo de técnicas e algoritmos aplicados a redes estocásticas complexas

5. Publicação dos Resultados Obtidos.

3.1 Cronograma de Atividades

A Tabela 1 apresenta o cronograma do plano trabalho definido para a realização do presente projeto pesquisa.

 

Cronograma

 
 

05/2008

11/2008

05/2009

11/2009

Fases

10/2008

04/2009

10/2009

04/2010

1

• •

   

• •

2a

• •

     

2b

     

• •

3a

• •

     

3b

     

• •

3c

     

• •

4

• •

   

• •

5

 

 

• •

Tabela 1: Cronograma do plano de trabalho

4

Conclusões

Foram apresentados alguns resultados preliminares obtidos pelo au tor nos campos de estabilidade estocástica, controle ótimo e programação dinâmica aproximada em problemas de decisão markovianos - PDM’s. Os referid os re- sultados foram aplicados particularmente a problemas de produção e estoque - P&E, e comunicados através de artigos em conferências e e periód icos.

6

Foram apontadas direções e planos visando estender e aperfeiçoa r os re- sultados acima referidos, além de novas perspectivas em áreas de d esenvolvi- mento recente. O autor pretende seguir as linhas de pesquisa indica das neste plano durante o período de validade da bolsa de Pós Doutorado por ele pre- tendida junto ao Laboratório Nacional de Computação Científica - LNCC . As atividades incluídas nesse plano não excluem, naturalmente, a inclu - são de outros temas de pesquisa que possam vir a interessar o auto r ou ser de interesse estratégico do LNCC.

Referências

[1] A. Almudevar and E. F. Arruda. Optimal approximation schedules for iterative algorithms with application to dynamic programming. In Proceedings of the 46 th IEEE International Conference on Decision and Control, pages 4087–4094, New Orleans, 2007.

[2] E. F. Arruda and J. B. R. do Val. Approximate dynamic programmin g based on expansive projections. In Proceedings of the 45 th IEEE In- ternational Conference on Decision and Control , pages 5537–5542, San Diego, 2006.

[3] E. F. Arruda and J. B. R. do Val. Stability and optimality of a multi- product production and storage system under demand uncertainty. Eu- ropean Journal of Operational Research , 188(2):406–427, 2008.

[4] E. F. Arruda, M. D. Fragoso, and J. B. R. do Val. An application of con- vex optimization concepts to approximate dynamic programming. In To be included in the Proceedings of the 2008 American Control Conference , New Orleans, 2008.

[5] L. C. Baird. Residual algorithms: Reinforcement learning with func - tion approximation. In International Conference on Machine Learning , pages 30–37, 1995.

[6] R. Bellman. Dynamic programming . Princeton University Press, Prin- ceton, NJ, 1957.

[7] R. Bellman. A markovian decision process. Journal of Mathematics and Mechanics , 6(5):679–684, 1957.

[8] D. P. Bertsekas. Dynamic programming and optimal control , volume 1-2. Athena Scientific, Belmont, 2 edition, 1995.

[9] D. P. Bertsekas and J. N. Tsitsiklis. Neuro-dynamic programming . Athena Scientific, Belmont, 1996.

7

[10] X. Cao, Z. Ren, S. Bhatnagar, M. Fu, and S. Marcus. A time agg rega- tion approach to Markov decision processes. Automatica , 38(6):929–943,

2002.

[11] G. Gordon. Stable function approximation in dynamic programmin g. In Proceedings of the IMCL ’95 , 1995.

[12] O. Hernández-Lerma. Adaptive Markov control processes . Springer- Verlag, New York, 1989.

[13] R. M. Lewis, V. Torczon, and M. W. Trosset. Direct search metho ds:

then and now. Journal of Computational and Applied Mathematics , 12:191–207, 2000.

[14] S. Meyn. Control Techniques for Complex Networks . Cambridge Uni- versity Press, New York, 2008.

[15] M. L. Puterman. Markov decision processes: Discrete stochastic dyna- mic programming . John Wiley & Sons, New York, 1994.

[16] Z. Ren and B. H. Krogh. Markov decision processes with fractio nal costs. IEEE Transactions on Automatic Control, 50(5):646–650, 2005.

[17] J. Si, A. Barto, W. Powell, and D. Wunsch. Handbook of learning and approximate dynamic programming . John Wiley & Sons-IEEE Press, Piscataway-NJ, 2004.

[18] T. Sun, Q. Zhao, and P. B. Luh. Incremental value iteration for t ime aggregated markov decision processes. IEEE Transactions on Automatic Control, 52(11):2177–2182, 2007.

[19] R. S. Sutton and A. G. Barto. Reinforcement learning: an introduction . MIT Press, Cambridge, 1998.

8