Você está na página 1de 17

Topicos em

Planejamento em
Inteligencia Artificial
Planejamento Probabilistico (EP3)

Professora Dr.ª Karina


Valdivia Delgado

Henrique Dias Pastor


David Silva Baptista
Rodrigo Antonio de Freitas Vieira

Escola de Artes Ciencias e


Humanidades - USP
São Paulo - Julho de 2015
Introdução - Planejamento
• Planejamento Clássico
• Ambiente
• Completamente observável
• Estático
• Discreto
• Deterministico
• Busca Progressiva e Regressiva
• Algoritmos: Busca em Largura, Profundidade, A*

• Planejamento Estocástico
• Probabilistico
• Markov decision processes
Markov decision processes
Segundo RUSSEL e NORVIG (2010):

Um MDP, Markov decision processes, é um problema


sequencial de decisões para um ambiente estocástico e
totalmente observável, com um modelo de transição
Markoviano e recompensas aditivas.

•Um Processo de Decisão Markoviano consiste então de:


•Conjunto de estados S (com um estado inicial s0),
•Conjunto ACTIONS(s) de ações para cada estado
•Modelo de transição P(s’ | s, a)
•Função recompensa R(s) ou R(s,a,s’).
Modelo de Transição
Markoviano
Ações estocásticas -> Modelo de transição probabilistico
P(Xt | X0:t-1)

Suposição Markoviana: o estado atual depende apenas


de um numero fixo de estados finitos anteriores.
P(Xt |X0:t−1) = P(Xt |Xt−1)
Políticas
•Ambiente deterministico
•Sequência de ações a serem tomadas

•Ambiente
•Política (π)
•π(s) ação recomendada para s
•π* política ótima
Função Utilidade

A comparação de politicas é dado pela análise da utilidade


esperada da política, onde a política ótima(π∗) possui o maior
valor utilidade.
Iteração de Valor
Improved Prioritized Sweeping

•Prioritized Sweeping
•Fila de Prioridade
•Execução até a convergencia de todos os estados
•Custoso para MDP deterministico ou semi-deterministico

•Improved Prioritized Sweeping


•Fila de Prioridade
•Execução até a convergencia dos estados com funções de
transição estocásticas
Improved Prioritized Sweeping

Pseudocódigo do Dijkstra para MDPs estocásticos


Improved Prioritized Sweeping
GridWorld
GridWorld
GridWorld
Implementação
•Estruturas:

•MDP:
•stateSet
•Actions
•Discount
•initialState
•goalState

•Action:
•actionName
•currentState
•successorState
•actionProbability
•cost.
Implementação
•Estruturas:

•State:
•stateName
•utilityValue
•actions
•transaction
•optimalPolicy.

•Transation:
•probability
•stateDestino.
Implementação
Outras classes:

• Arquivo: Realiza a leitura do arquivo de entrada com a


representação do gridworld do problema retornando uma
instancia do mdp.

• ValueIteration: Realiza a o algoritmo de iteração de valor


para uma instancia de mdp, atribuindo os valores utilidades
para cada estado da instancia bem como suas políticas
ótimas.
Bibliografia
•RUSSEL, Stuart, NORVIG, Peter. Artificial Intelligence: A
Modern Approach, 3 ed., Prentice Hall, 2010.

•Hansen, Eric A., and Shlomo Zilberstein. "LAO : A heuristic


search ∗ algorithm that finds solutions with loops." Artificial
Intelligence 129.1 (2001): 35-62.

•McMahan, H. Brendan, and Geoffrey J. Gordon. "Fast Exact


Planning in Markov Decision Processes." ICAPS. 2005.

•http://isites.harvard.edu/fs/docs/icb.topic540049.files/cs181_le
c03_handout.pdf

•Mausam, Markov Decision Processes, disponivel em <


http://homes.cs.washington.edu/~mausam/>

Você também pode gostar