扩散策略：Diffusion Policy for Robotic Manipulation

2026/6/16 14:36:53

文章目录

- 每日一句正能量
- 一、引言：为什么机器人需要"生成式动作建模"？
- 二、多模态动作分布：问题的本质
- - 2.1 空间多模态性
  - 2.2 时间多模态性
- 三、Diffusion Policy 架构详解
- - 3.1 总体架构
  - 3.2 两种去噪网络实现
- 四、去噪过程：从噪声到动作序列
- - 4.1 前向扩散（训练）
  - 4.2 反向去噪（推理）
  - 4.3 DDIM 加速
- 五、滑动窗口执行：Receding Horizon Control
- 六、核心代码实现
- - 6.1 完整训练流程
- 七、实验结果与性能分析
- - 7.1 基准对比
  - 7.2 关键发现
- 八、进阶主题与扩展
- - 8.1 语言条件扩散策略
  - 8.2 扩散策略 + 强化学习
  - 8.3 扩散策略的世界模型
- 九、挑战与未来方向
- - 9.1 当前挑战
  - 9.2 未来方向
- 十、总结

每日一句正能量

勇敢告别的人会被奖励一个新的开始。
👉 离开消耗自己的关系或环境，不是失败，而是一种勇气。新的空间、新的可能性，会自然到来。

一、引言：为什么机器人需要"生成式动作建模"？

在机器人模仿学习中，一个长期困扰研究者的核心问题是多模态动作分布（Multimodal Action Distribution）。考虑一个简单的推方块任务：机器人可以从方块的左侧推，也可以从右侧推，两种轨迹都是有效的演示。然而，传统的行为克隆（Behavior Cloning, BC）使用均方误差（MSE）损失，会将两种模式平均为一个无效的中间轨迹。

这一问题不仅存在于空间维度（同一时刻的多个有效动作），还存在于时间维度（同一任务的不同执行顺序）。2023 年，Columbia University 和 Toyota Research Institute 的研究者提出了Diffusion Policy——将扩散模型（Diffusion Model）引入机器人策略学习，通过生成式建模天然地表达多模态分布，在 15 项真实机器人操作任务上取得了 SOTA 性能。

本文将从生成式动作建模和多模