【强化学习/概率论笔记】马尔可夫决策过程

机器学习 ML RL 强化学习概率论

数学

发布日期: 2021-11-24

更新日期: 2023-07-19

文章字数: 690

阅读时长: 2 分

阅读次数:

0.介绍

Refer: Wikipedia

在数学中，马尔可夫决策过程（英语：Markov Decision Process，MDP）是离散时间随机控制过程.它提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。MDP对于研究通过动态规划解决的优化问题很有用。MDP至少早在1950年代就已为人所知；一个对马尔可夫决策过程的核心研究是罗纳德·霍华德于1960年出版的《动态规划和马尔可夫过程》.它们被用于许多领域，包括机器人学，自动化，经济学和制造业。MDP的名称来自俄罗斯数学家安德雷·马尔可夫，因为它们是马尔可夫链的推广。

在每个时间步骤中，随机过程都处于某种状态 $s$ ，决策者可以选择在状态 $s$ 下可用的动作 $a$ .该随机过程在下一时间步骤会随机进入新状态 $s'$ ，并给予决策者相应的回馈 ${R_a}(s,s')$ 。

随机过程进入新状态 $s$ 的概率受所选操作影响.具体来说，它是由状态变换函数 ${P_a}(s,s')$ 给出的.因此，下一个状态 $s'$ 取决于当前状态 $s$ 和决策者的动作 $a$ .但是给定 $s$ 和 $a$ ，它条件独立于所有先前的状态和动作；换句话说，MDP的状态变换满足马尔可夫性质。

马尔可夫决策过程是马尔可夫链的推广，不同之处在于添加了行动（允许选择）和奖励（给予动机）。反过来说，如果每个状态只存在一个操作和所有的奖励都是一样的，一个马尔可夫决策过程可以归结为一个马尔可夫链。

1.定义

1.1 定义

马尔可夫决策过程是一个4元组 $(S,A,{P_a},{R_a})$ ，其中:

$S$ 是状态空间的集合，
$A$ 是动作的集合，也被称为动作空间（比如说 $A_s$ 是状态 $s$ 中可用的动作集合)
$ {P_a} (s,s' ) = \Pr ( {s_{t + 1} } = s' \mid {s_t} = s,{a_t} = a) $ 是 $t$ 时刻 $s$ 状态下的动作 $a$ 导致 $t+1$ 时刻进入状态 $s'$ 的概率
$R_{a}(s,s')$ 状态 $s$ 经过动作 $a$ 转换到状态 $s'$ 后收到的即时奖励（或预期的即时奖励)。