VLA-Adapter论文解读(二):三大关键发现

论文链接:[2509.09372] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action ModelAbstract page for arXiv paper 2509.09372: VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Modelhttps://arxiv.org/abs/2509.09372

项目主页:VLA-Adapter

一、引言

尽管现有的VLA模型设计当中均采用了VL到A的各种桥接范式,但是关于如何将VL表征映射到动作空间是一个核心问题。目前几乎所有的方法都默认使用VLM最后一层特征作为动作生成的输入。然而,动作生成与图文检索有着本质的不同,动作需要细粒度的空间信息,而深层特征为了服务语义理解,已经丢失了这些细节。因此,论文作者详细探究了以下两个问题:

问题一:VLM内部的哪一层特征对Policy网络更有效?

问题二:ActionQuery特征是否比Raw特征更好的选择?

这两个问题属于论文的核心驱动,作者通过回答了这两个问题,得到了上一节提到的“三大关键发现”,并最终确定了VLA-Adapter的架构设计。

二、实验设计

2.1 两类特征

特征类型符号来源特点
Raw特征VLM前向传播的中间层输出

来自预训练VLM,

被动提供

ActionQuery特征可学习token插入VLM末尾从零训练,主动优化

2.2 四种条件配置

配置特征类型层级图示对应
aRaw单层(分别测试第1、8、9、13、17、21、24层)图a
bAQ单层(分别测试第1、8、13、17、21、24层)图b
cRaw全层(1-24层逐层对齐)图c
dAQ全层(1-24层逐层对齐)图d

2.3 评估基准:LIBERO-Long

论文的VLA-Adapter框架在LIBERO-Long中评估了四种条件,图中蓝色和绿色线条分别表示为单层和单层。蓝色和绿色柱状图分别为全层和全层

三、三大关键发现

  • 发现一:Raw特征中间层最优
Raw层数10任务平均成功率Subtask 7Subtask 9
187.6%78%92%
889.8%94%84%
9-1388-90%82-90%74-84%
2485.8%88%56%
全层融合96.6%96%96%

中间层效果最好,浅层信息太原始,缺少语义;深层过于抽象,丢失了空间细节。动作生成需要在‘看得清’和‘看得懂’之间找到平衡——中间层恰好提供了平衡点。

  • 发现二:AQ特征深层层最优
AQ层数10任务平均成功率Subtask 7Subtask 9
178.2%76%78%
1386.8%66%58%
2490.2%74%84%
全层融合92.6%96%96%

AQ是从零开始学习的可查询tokjen,它需要经过足够多的Transformer层才能充分聚合多模态信息。

  • 发现三:多层特征>单层特征
特征类型单层最优全层融合提升幅度
Raw89.8%96.6%+6.8%
AQ90.2%92.6%+2.4%

全层融合性能更好,更稳健——避免了单层在某些任务上表现极差的风险,还省去了手工选层的麻烦。

四、总结

VLA-Adpter的三大关键发现:动作生成需要‘中间层的视觉细节’+‘深层的任务语义’+‘全层的丰富信息’——三者缺一不可。这三条发现可以直接推导出Bridge Attention的设计,并且也解释了为什么0.5B模型可以跑出SOTA性能的原因。