读懂强化学习核心思想（读懂强化学习核心思想）

空缱绻 2022-11-14 12:04:14

收藏赞分享

基本概念

先看差分的定义：

读懂强化学习核心思想（读懂强化学习核心思想）(1)

百度百科

差分表示一种差异，小区间上的增量，可以类比于函数中的导数，度量变化的一个指标。直觉上，当系统趋于稳定时，自变量的变化引起的函数值的变化趋近于0。

在强化学习中，差分是指

读懂强化学习核心思想（读懂强化学习核心思想）(2)

我们希望它越小越好，使系统趋于稳定。

那时序又是指什么？在强化学习场景下，Agent不断地与环境交互，产生数据，本身就是时序的，这是大背景。

时序差分还有更重要的特性：

读懂强化学习核心思想（读懂强化学习核心思想）(3)

时序的另一层含义是自举(bootstrap)是基于时序的，自举可以简单地理解为真实分布采样数据基础之上，进行局部重采样，以衡量真实分布采样数据的感兴趣的统计量特性(比如均值)，自举之后，方差更小。

对于强化学习来说，局部的小序列使学习变得更简单可行。基于时序的自举示意图如下，黑点代表原始数据，圆圈序列代表自举之后的block:

读懂强化学习核心思想（读懂强化学习核心思想）(4)

Efron <An Introdution to the Bootstrap

block的大小也就对应于one-step, n-steps. 自举之后的小序列用于评估期望奖赏(Expected Return)，最终差分的形式如下：

读懂强化学习核心思想（读懂强化学习核心思想）(5)

我们的目标就是找到最好的θ，使差分趋近于0，从机器学习的角度，G是V(s)的Ground Truth/Label。这个学习过程无需对p(|s,a)建模即Model-Free。

TD(0)

one-step Temporal-Difference，过程如下：

读懂强化学习核心思想（读懂强化学习核心思想）(6)

one step 是针对Excepted Return的估计来说的，只考虑当前Action的Reward，未来的Rewards由V近似。

以上是个示意流程，采用深度机器学习的话，会先采样数据，然后批量梯度更新，最优化方法采用最小二乘法，其中G为Label。

n-step TD

读懂强化学习核心思想（读懂强化学习核心思想）(7)

可以参照时序自举采样的示意图来理解， n越大，block的序列越长，G考虑的累计future rewards越长；采用深度学习批量梯度下降方法，更新方式与one-step一致。

TD(λ)

读懂强化学习核心思想（读懂强化学习核心思想）(8)

λ-return是对n-step的G进行了加权平均，同时为了保证权重之和为1，乘以1-λ，可以通过对等比数列的求和公式求极限推导。

总结

时序差分学习是一种通过时序自举(bootstrap)的方式采样数据，通过最小化差分更新参数的一种model-free学习方法。根据Expected Return的不同近似方法，分为one-step、n-step、TD(λ)、蒙特卡洛方法等，参数更新形式可以统一起来：

读懂强化学习核心思想（读懂强化学习核心思想）(9)

以上英文图片摘自Richard S. Sutton and Andrew G. Barto的《Reinforcement Learning: An Introduction》。

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

读懂强化学习核心思想（读懂强化学习核心思想）

猜您喜欢

白百何新电影名称（38岁白百何新片来了）

狱长与黑老大小说（黑帮大佬和我的365日）

后现代主义设计有哪些（什么是后现代设计）

秒懂英语特殊疑问句第一步（疑问句笔记分享）

天蝎座和金牛座长大会变成什么鬼（2022年金牛座天蝎座日月食）

微信新功能红包在哪里（最新版微信还有这个新变化）

微信又出了什么新功能（微信又一神秘新功能上线）

热门推荐

排行榜