扩散策略:Diffusion Policy for Robotic Manipulation

文章目录

    • 每日一句正能量
    • 一、引言:为什么机器人需要"生成式动作建模"?
    • 二、多模态动作分布:问题的本质
      • 2.1 空间多模态性
      • 2.2 时间多模态性
    • 三、Diffusion Policy 架构详解
      • 3.1 总体架构
      • 3.2 两种去噪网络实现
    • 四、去噪过程:从噪声到动作序列
      • 4.1 前向扩散(训练)
      • 4.2 反向去噪(推理)
      • 4.3 DDIM 加速
    • 五、滑动窗口执行:Receding Horizon Control
    • 六、核心代码实现
      • 6.1 完整训练流程
    • 七、实验结果与性能分析
      • 7.1 基准对比
      • 7.2 关键发现
    • 八、进阶主题与扩展
      • 8.1 语言条件扩散策略
      • 8.2 扩散策略 + 强化学习
      • 8.3 扩散策略的世界模型
    • 九、挑战与未来方向
      • 9.1 当前挑战
      • 9.2 未来方向
    • 十、总结

每日一句正能量

勇敢告别的人会被奖励一个新的开始。
👉 离开消耗自己的关系或环境,不是失败,而是一种勇气。新的空间、新的可能性,会自然到来。

一、引言:为什么机器人需要"生成式动作建模"?

在机器人模仿学习中,一个长期困扰研究者的核心问题是多模态动作分布(Multimodal Action Distribution)。考虑一个简单的推方块任务:机器人可以从方块的左侧推,也可以从右侧推,两种轨迹都是有效的演示。然而,传统的行为克隆(Behavior Cloning, BC)使用均方误差(MSE)损失,会将两种模式平均为一个无效的中间轨迹。

这一问题不仅存在于空间维度(同一时刻的多个有效动作),还存在于时间维度(同一任务的不同执行顺序)。2023 年,Columbia University 和 Toyota Research Institute 的研究者提出了Diffusion Policy——将扩散模型(Diffusion Model)引入机器人策略学习,通过生成式建模天然地表达多模态分布,在 15 项真实机器人操作任务上取得了 SOTA 性能。

本文将从生成式动作建模多模