Active Information Gathering Agent

June 11, 2023 RL Active Exploration Model-Based MuJoCo Chinese

摘要

强化学习（RL）在智能体适应特定环境和动力学方面长期面临“样本效率”和“泛化能力”难题。本工作受启发于人类主动探索未知环境的能力，提出在智能体策略目标中直接纳入“期望信息增益”，鼓励RL智能体自主探索、主动适应，并在MuJoCo等动态可变环境中验证性能效果。该方法在同等样本下，获得2倍性能提升且样本量不足1/3。

Introduction

现实机器人控制中的主要挑战在于测试阶段能否快速适应新环境，以及复杂系统动态。人类面对新情境会主动测试/收集信息（如试着加速、刹车），而RL智能体常常缺乏这种“自主探查”的能力。本研究提出激励RL智能体主动交互环境以提升泛化和Sim2Real落地效果。智能体通过最大化策略下的信息增益，适应不同场景、动力学，显著缩小了仿真与现实世界的样本差距。

方法：主动信息收集框架

主动信息收集RL智能体框架主要关注两个核心问题：

如何度量信息增益？
如何利用信息增益调整策略？

信息增益的度量

本工作将信息增益形式化为： $I = H(s) - H(s|o)$ 其中 $s$ 是状态的潜在表示，$o$ 是当前观测，$H$ 是熵。我们通过适应模块（Adaptation Module）逼近信息增益： $I = f(s_t | o_{t-1}, a_{t-1}, ...) - f(s_t | o_t, a_t, o_{t-1}, a_{t-1}, ...)$

三种常见设计：

EPI类方法：轨迹编码器 $f(s_t o_t,a_t,…)$ 直接在连续轨迹上学习信息增益。
RMA类方法：轨迹编码器与特权信息编码器协同训练（后者只在训练阶段可见）。
Dreamer类方法（RSSM）：状态 $s$ 分为循环隐藏态 $h_t$ 和后验 $z_t$，用RNN/变分方法学习潜空间动力学。

三类世界模型结构对比如下：

三类世界模型结构草图（左：EPI/RMA，右：Dreamer RSSM细节） RSSM模型推理与生成流程

主动收集的算法伪代码

Initialize Adaptation Module f(s_t|o_t,a_t,...), RL policy π(a_t|s_t)
while policy not converged:
    Run adjusted policy, collect data
    Train Adaptation Module,抽象潜在状态和重建观测
    用标准RL流程训练policy
    获取包含自适应模块反馈的adjusted policy

实验与分析

本实验基于 MuJoCo 平台评估主动信息收集框架与PPO基线对比。

环境设置

不同环境参数（训练/测试）：

参数	训练区间	测试区间
Gravity	[-30, -7]	[-7, -1]
Friction	[0.3, 0.9]	[0.1, 0.3]
Stiffness	[6, 20]	[2, 6]

主要实验流程与对比

基线设置：

PPO baseline：多环境训练（无真实参数输入），多环境测试。
Privilege PPO：训练/测试均注入真实环境参数。
Normal PPO：固定单环境训练/测试。

曲线与模拟结果

MuJoCo环境设定与信息收集示意信息收集策略的raw training curve

主要结论

主动信息收集方法在 MuJoCo setting 下最终性能提升 2.0x，所需样本减少 3.2x。
Privilege PPO 收益 > PPO baseline，但远低于 Normal PPO（说明环境信息极其宝贵）。
直接将信息增益作为intrinsic reward虽平滑训练曲线，但最终收敛分数略降（agent探索欲望过强，原任务达成率受影响）。

OmniDrones 扩展实验

除MuJoCo外，实验还拓展至无人机环境（OmniDrones，含风干扰测试）：

OmniDrones环境任务示例风扰动场景下的信息收集实验曲线

主要结论：

Privilege PPO ≈ Normal PPO > PPO baseline：注入环境信息极大提升表现，风扰下主动适应能力尤甚。
提示信息收集机器人（如无人机）实测极易受环境扰动影响，主动探索与自适应方案能帮助表现逼近有标签参数的上限。

结论与未来展望

主动信息收集智能体显著提升了样本效率与泛化能力。
信息增益的设计与利用让RL模型具备更强环境自适应能力，对现实机器人sim2real落地有重要意义。
后续可尝试理论证明、全自监督RL、跨任务泛化、复杂物理机器人和现实世界场景实测。

主要参考文献

Hafner et al., 2019. Dream to control: Learning behaviors by latent imagination. arXiv:1912.01603.
Tobin et al., 2017. Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World. arXiv:1703.06907.
Zhou et al., 2019. Environment probing interaction policies. arXiv:1907.11740.
Kumar et al., 2021. Rapid motor adaptation for legged robots. arXiv:2107.04034.
Hafner et al., 2023. Mastering Diverse Domains through World Models. arXiv:2301.04104.
Schulman et al., 2017. Proximal policy optimization algorithms. arXiv:1707.06347.