Apresentação EP3 Planejamento em IA

Topicos em
Planejamento em
Inteligencia Artificial
Planejamento Probabilistico (EP3)
Professora Dr.ª Karina

Valdivia Delgado
Henrique Dias Pastor

David Silva Baptista
Rodrigo Antonio de Freitas Vieira
Escola de Artes Ciencias e

Humanidades - USP
São Paulo - Julho de 2015
Introdução - Planejamento
• Planejamento Clássico
• Ambiente
• Completamente observável
• Estático
• Discreto
• Deterministico
• Busca Progressiva e Regressiva
• Algoritmos: Busca em Largura, Profundidade, A*
• Planejamento Estocástico
• Probabilistico
• Markov decision processes
Markov decision processes
Segundo RUSSEL e NORVIG (2010):
Um MDP, Markov decision processes, é um problema

sequencial de decisões para um ambiente estocástico e
totalmente observável, com um modelo de transição
Markoviano e recompensas aditivas.
•Um Processo de Decisão Markoviano consiste então de:

•Conjunto de estados S (com um estado inicial s0),
•Conjunto ACTIONS(s) de ações para cada estado
•Modelo de transição P(s’ | s, a)
•Função recompensa R(s) ou R(s,a,s’).
Modelo de Transição
Markoviano
Ações estocásticas -> Modelo de transição probabilistico
P(Xt | X0:t-1)
Suposição Markoviana: o estado atual depende apenas

de um numero fixo de estados finitos anteriores.
P(Xt |X0:t−1) = P(Xt |Xt−1)
Políticas
•Ambiente deterministico
•Sequência de ações a serem tomadas
•Ambiente
•Política (π)
•π(s) ação recomendada para s
•π* política ótima
Função Utilidade
A comparação de politicas é dado pela análise da utilidade

esperada da política, onde a política ótima(π∗) possui o maior
valor utilidade.
Iteração de Valor
Improved Prioritized Sweeping
•Prioritized Sweeping
•Fila de Prioridade
•Execução até a convergencia de todos os estados
•Custoso para MDP deterministico ou semi-deterministico
•Improved Prioritized Sweeping

•Fila de Prioridade
•Execução até a convergencia dos estados com funções de
transição estocásticas
Pseudocódigo do Dijkstra para MDPs estocásticos

GridWorld
GridWorld
GridWorld
Implementação
•Estruturas:
•MDP:
•stateSet
•Actions
•Discount
•initialState
•goalState
•Action:
•actionName
•currentState
•successorState
•actionProbability
•cost.
Implementação
•Estruturas:
•State:
•stateName
•utilityValue
•actions
•transaction
•optimalPolicy.
•Transation:
•probability
•stateDestino.
Implementação
Outras classes:
• Arquivo: Realiza a leitura do arquivo de entrada com a

representação do gridworld do problema retornando uma
instancia do mdp.
• ValueIteration: Realiza a o algoritmo de iteração de valor

para uma instancia de mdp, atribuindo os valores utilidades
para cada estado da instancia bem como suas políticas
ótimas.
Bibliografia
•RUSSEL, Stuart, NORVIG, Peter. Artificial Intelligence: A
Modern Approach, 3 ed., Prentice Hall, 2010.
•Hansen, Eric A., and Shlomo Zilberstein. "LAO : A heuristic

search ∗ algorithm that finds solutions with loops." Artificial
Intelligence 129.1 (2001): 35-62.
•McMahan, H. Brendan, and Geoffrey J. Gordon. "Fast Exact

Planning in Markov Decision Processes." ICAPS. 2005.
•http://isites.harvard.edu/fs/docs/icb.topic540049.files/cs181_le
c03_handout.pdf
•Mausam, Markov Decision Processes, disponivel em <

http://homes.cs.washington.edu/~mausam/>

Apresentação EP3 Planejamento em IA

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apresentação EP3 Planejamento em IA

Enviado por

Direitos autorais:

Formatos disponíveis

Topicos em

Professora Dr.ª Karina

Henrique Dias Pastor

Escola de Artes Ciencias e

Um MDP, Markov decision processes, é um problema

•Um Processo de Decisão Markoviano consiste então de:

Suposição Markoviana: o estado atual depende apenas

A comparação de politicas é dado pela análise da utilidade

•Improved Prioritized Sweeping

Pseudocódigo do Dijkstra para MDPs estocásticos

• Arquivo: Realiza a leitura do arquivo de entrada com a

• ValueIteration: Realiza a o algoritmo de iteração de valor

•Hansen, Eric A., and Shlomo Zilberstein. "LAO : A heuristic

•McMahan, H. Brendan, and Geoffrey J. Gordon. "Fast Exact

•Mausam, Markov Decision Processes, disponivel em <

Você também pode gostar