扩散策略:Diffusion Policy for Robotic Manipulation
文章目录
- 每日一句正能量
- 一、引言:为什么机器人需要"生成式动作建模"?
- 二、多模态动作分布:问题的本质
- 2.1 空间多模态性
- 2.2 时间多模态性
- 三、Diffusion Policy 架构详解
- 3.1 总体架构
- 3.2 两种去噪网络实现
- 四、去噪过程:从噪声到动作序列
- 4.1 前向扩散(训练)
- 4.2 反向去噪(推理)
- 4.3 DDIM 加速
- 五、滑动窗口执行:Receding Horizon Control
- 六、核心代码实现
- 6.1 完整训练流程
- 七、实验结果与性能分析
- 7.1 基准对比
- 7.2 关键发现
- 八、进阶主题与扩展
- 8.1 语言条件扩散策略
- 8.2 扩散策略 + 强化学习
- 8.3 扩散策略的世界模型
- 九、挑战与未来方向
- 9.1 当前挑战
- 9.2 未来方向
- 十、总结
每日一句正能量
勇敢告别的人会被奖励一个新的开始。
👉 离开消耗自己的关系或环境,不是失败,而是一种勇气。新的空间、新的可能性,会自然到来。
一、引言:为什么机器人需要"生成式动作建模"?
在机器人模仿学习中,一个长期困扰研究者的核心问题是多模态动作分布(Multimodal Action Distribution)。考虑一个简单的推方块任务:机器人可以从方块的左侧推,也可以从右侧推,两种轨迹都是有效的演示。然而,传统的行为克隆(Behavior Cloning, BC)使用均方误差(MSE)损失,会将两种模式平均为一个无效的中间轨迹。
这一问题不仅存在于空间维度(同一时刻的多个有效动作),还存在于时间维度(同一任务的不同执行顺序)。2023 年,Columbia University 和 Toyota Research Institute 的研究者提出了Diffusion Policy——将扩散模型(Diffusion Model)引入机器人策略学习,通过生成式建模天然地表达多模态分布,在 15 项真实机器人操作任务上取得了 SOTA 性能。
本文将从生成式动作建模和多模