Active Information Gathering Agent
June 11, 2023
RL
Active Exploration
Model-Based
MuJoCo
Chinese
摘要
强化学习(RL)在智能体适应特定环境和动力学方面长期面临“样本效率”和“泛化能力”难题。本工作受启发于人类主动探索未知环境的能力,提出在智能体策略目标中直接纳入“期望信息增益”,鼓励RL智能体自主探索、主动适应,并在MuJoCo等动态可变环境中验证性能效果。该方法在同等样本下,获得2倍性能提升且样本量不足1/3。
Introduction
现实机器人控制中的主要挑战在于测试阶段能否快速适应新环境,以及复杂系统动态。人类面对新情境会主动测试/收集信息(如试着加速、刹车),而RL智能体常常缺乏这种“自主探查”的能力。本研究提出激励RL智能体主动交互环境以提升泛化和Sim2Real落地效果。智能体通过最大化策略下的信息增益,适应不同场景、动力学,显著缩小了仿真与现实世界的样本差距。
方法:主动信息收集框架
主动信息收集RL智能体框架主要关注两个核心问题:
- 如何度量信息增益?
- 如何利用信息增益调整策略?
信息增益的度量
本工作将信息增益形式化为: \(I = H(s) - H(s|o)\) 其中 $s$ 是状态的潜在表示,$o$ 是当前观测,$H$ 是熵。我们通过适应模块(Adaptation Module)逼近信息增益: \(I = f(s_t | o_{t-1}, a_{t-1}, ...) - f(s_t | o_t, a_t, o_{t-1}, a_{t-1}, ...)\)
三种常见设计:
-
EPI类方法:轨迹编码器 $f(s_t o_t,a_t,…)$ 直接在连续轨迹上学习信息增益。 - RMA类方法:轨迹编码器与特权信息编码器协同训练(后者只在训练阶段可见)。
- Dreamer类方法(RSSM):状态 $s$ 分为循环隐藏态 $h_t$ 和后验 $z_t$,用RNN/变分方法学习潜空间动力学。
三类世界模型结构对比如下:

主动收集的算法伪代码
Initialize Adaptation Module f(s_t|o_t,a_t,...), RL policy π(a_t|s_t)
while policy not converged:
Run adjusted policy, collect data
Train Adaptation Module,抽象潜在状态和重建观测
用标准RL流程训练policy
获取包含自适应模块反馈的adjusted policy
实验与分析
本实验基于 MuJoCo 平台评估主动信息收集框架与PPO基线对比。
环境设置
不同环境参数(训练/测试):
| 参数 | 训练区间 | 测试区间 |
|---|---|---|
| Gravity | [-30, -7] | [-7, -1] |
| Friction | [0.3, 0.9] | [0.1, 0.3] |
| Stiffness | [6, 20] | [2, 6] |
主要实验流程与对比
基线设置:
- PPO baseline:多环境训练(无真实参数输入),多环境测试。
- Privilege PPO:训练/测试均注入真实环境参数。
- Normal PPO:固定单环境训练/测试。
曲线与模拟结果

主要结论
- 主动信息收集方法在 MuJoCo setting 下最终性能提升 2.0x,所需样本减少 3.2x。
- Privilege PPO 收益 > PPO baseline,但远低于 Normal PPO(说明环境信息极其宝贵)。
- 直接将信息增益作为intrinsic reward虽平滑训练曲线,但最终收敛分数略降(agent探索欲望过强,原任务达成率受影响)。
OmniDrones 扩展实验
除MuJoCo外,实验还拓展至无人机环境(OmniDrones,含风干扰测试):

主要结论:
- Privilege PPO ≈ Normal PPO > PPO baseline:注入环境信息极大提升表现,风扰下主动适应能力尤甚。
- 提示信息收集机器人(如无人机)实测极易受环境扰动影响,主动探索与自适应方案能帮助表现逼近有标签参数的上限。
结论与未来展望
- 主动信息收集智能体显著提升了样本效率与泛化能力。
- 信息增益的设计与利用让RL模型具备更强环境自适应能力,对现实机器人sim2real落地有重要意义。
- 后续可尝试理论证明、全自监督RL、跨任务泛化、复杂物理机器人和现实世界场景实测。
主要参考文献
- Hafner et al., 2019. Dream to control: Learning behaviors by latent imagination. arXiv:1912.01603.
- Tobin et al., 2017. Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World. arXiv:1703.06907.
- Zhou et al., 2019. Environment probing interaction policies. arXiv:1907.11740.
- Kumar et al., 2021. Rapid motor adaptation for legged robots. arXiv:2107.04034.
- Hafner et al., 2023. Mastering Diverse Domains through World Models. arXiv:2301.04104.
- Schulman et al., 2017. Proximal policy optimization algorithms. arXiv:1707.06347.