论文链接:https://arxiv.org/pdf/1903.00374
代码链接:https://github.com/tensorflow/tensor2tensor/tree/master/tensor2tensor/rl
发表会议:2020 ICLR
无模型RL可以用于学习复杂任务(例如Atari游戏)的有效策略,甚至可以从图像观察中学习。但是,这通常需要非常大量的互动——实际上,与人类学习相同游戏所需的互动相比,实际上互动的数量要多得多。人们如何能如此迅速地学习?答案的部分原因可能是人们可以了解游戏的运作方式并预测哪些动作将导致理想的结果。在本文中,我们探索视频预测模型如何类似地使智能体能够以比无模型方法更少的交互来解决Atari游戏。我们描述了模拟策略学习(SimPLe),这是一种完全基于模型的深度RL算法(基于视频预测模型),并提供了几种模型结构的比较,其中包括一种在我们的环境中能产生最优结果的新颖结构。我们的实验在智能体与环境之间进行100k交互的低数据状态下的一系列Atari游戏中评估SimPLe,这相当于两个小时的实时播放。在大多数游戏中,SimPLe的性能优于最新的无模型算法,在某些游戏中,SimPLe的性能超过一个数量级。
人类玩家可以在几分钟内学会玩Atari游戏。但是,一些最优的无模型RL算法需要数以千万计的时间步骤——相当于数周的实时训练。人们如何才能更快地学习这些游戏?困惑的部分原因可能是人类对游戏中所代表的物理过程有直观的了解:我们知道飞机可以飞行,球可以滚动,子弹可以摧毁外星人。因此,我们可以预测我们动作的结果。
启发:人类能够学习游戏的运行规律,并预测出哪些动作序列将导致理想结果
研究目标SimPLe:模拟策略学习 (Simulated Policy Learning),构建一个游戏模型(视频预测)来学习选择动作的质量策略,提高采样效率
在本文的方法中,智能体利用由预测模型生成的想象经验完成学习。为此,至关重要的一点是,收集到的关于环境的数据必须足够多样化,以确保习得模型能够在所有关键场景下正确复现出环境的动态。在绝大多数雅达利游戏中,随机探索(exploration)并不足以实现此目标。为了以更直接的方式进行探索,研究人员使用了迭代过程,由以下阶段交替组成:数据收集、模型训练、策略训练,借此,随着策略变得更优,所收集到的数据也具有更多意义,因此可以学习逐渐变好的模型。策略训练使用的是 PPO 算法。
图1:SimPLe 的主要循环过程
本文的智能体从视频预测模型所生成的原始像素观测结果中学习。研究人员试验了几种架构,效果最好的模型是前馈卷积神经网络。它利用一组卷积对一系列输入帧进行编码,并给定智能体采取的行动,然后利用一组解卷积对下一帧进行解码。奖励是基于瓶颈表征(bottleneck representation)预测的。
研究人员发现,将随机性引入模型会带来不错的效果,可以让策略在训练阶段尝试更多不同的场景。为此,研究人员添加了一个隐变量,而来自的样本被添加至瓶颈表征。在离散变量该设定下效果最优,被编码为比特序列。模型的整体架构类似于,其中隐变量上的后验是基于整个序列(输入帧+目标帧)近似得到,从该后验中抽取一个值,并将该值与输入帧和行动一起用于预测下一帧。在推断阶段,潜代码(latent code)由自回归 LSTM 网络生成。
图2:带有离散隐变量的随机模型架构。模型输入是 4 个堆叠的帧(以及智能体选择的策略),输出则是预测的下一帧及预期奖励。利用全连接层嵌入输入像素和行动,在输出中有像素级的 softmax(256 色)函数。该模型有两个主要组成部分。首先,网络底部由带有残差连接的卷积编码器和解码器组成。为了根据智能体的行动调节输出,解码器中每一层的输出都乘以(习得的)嵌入行动。模型的第二部分是卷积推断网络,类似于 Babaeizadeh 等人 (2017) 的观点,它在给定下一帧的条件下近似估计后验。在训练阶段,从近似后验抽样得到的隐变量值将离散化为比特。为使模型可微,反向传播根据 Kaiser & Bengio (2018) 的方法避开离散化,并训练第三个基于 LSTM 的网络,以在给定先前比特时近似估计当前比特。在推断阶段,利用该网络自回归地预测隐比特。确定性模型(deterministic model)与上图架构相同,但不包含推断网络。
研究人员对本文方法与 Rainbow(在雅达利游戏上当前表现最佳的无模型算法)进行了比较,然后根据该方法与环境的一百万次交互重新调整,以获得最优结果。并与训练中使用的 PPO 实现进行了对比。结果表明本文方法可以将大多数游戏上的样本效率提升两倍不止。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!