【强化学习/概率论笔记】马尔可夫决策过程


0.介绍

Refer: Wikipedia

在数学中,马尔可夫决策过程(英语:Markov Decision Process,MDP)是离散时间随机控制过程.它提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。MDP对于研究通过动态规划解决的优化问题很有用。MDP至少早在1950年代就已为人所知;一个对马尔可夫决策过程的核心研究是 罗纳德·霍华德于1960年出版的《动态规划和马尔可夫过程》.它们被用于许多领域,包括机器人学,自动化,经济学和制造业。MDP的名称来自俄罗斯数学家安德雷·马尔可夫,因为它们是马尔可夫链的推广。

在每个时间步骤中,随机过程都处于某种状态 \(s\) ,决策者可以选择在状态 \(s\) 下可用的动作 \(a\) .该随机过程在下一时间步骤会随机进入新状态 \(s'\) ,并给予决策者相应的回馈 \({R_a}(s,s')\)

随机过程进入新状态 \(s\) 的概率受所选操作影响.具体来说,它是由状态变换函数 \({P_a}(s,s')\) 给出的.因此,下一个状态 \(s'\) 取决于当前状态 \(s\) 和决策者的动作 \(a\) .但是给定 \(s\)\(a\) ,它条件独立于所有先前的状态和动作; 换句话说,MDP的状态变换满足马尔可夫性质。

马尔可夫决策过程是马尔可夫链的推广,不同之处在于添加了行动(允许选择)和奖励(给予动机)。反过来说,如果每个状态只存在一个操作和所有的奖励都是一样的,一个马尔可夫决策过程可以归结为一个马尔可夫链。

1.定义

1.1 定义

马尔可夫决策过程是一个4元组 \((S,A,{P_a},{R_a})\) ,其中:

  • \(S\) 是状态空间的集合,
  • \(A\) 是动作的集合,也被称为动作空间(比如说 \(A_s\) 是状态 \(s\) 中可用的动作集合)
  • $ {P_a} (s,s' ) = \Pr ( {s_{t + 1} } = s' \mid {s_t} = s,{a_t} = a) $ 是 $t$ 时刻 $s$ 状态下的动作 $a$ 导致 $t+1$ 时刻进入状态 $s'$ 的概率
  • \(R_{a}(s,s')\) 状态 \(s\) 经过动作 \(a\) 转换到状态 \(s'\) 后收到的即时奖励(或预期的即时奖励)。

状态和行动空间可能是有限的,也可能是无限的。一些具有可数无限状态和行动空间的过程可以简化为具有有限状态和行动空间的过程。

策略函数 \(\pi\) 是从状态空间( \(S\) )到动作空间( \(A\) )的(潜在概率)映射。


文章作者: sfc9982
版权声明: 本博客所有文章除特別声明外,均采用 CC BY-NC-ND 4.0 许可协议。转载请注明来源 sfc9982 !
  目录