VLA-Adapter论文解读（二）：三大关键发现

2026/6/30 23:36:25

论文链接：[2509.09372] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action ModelAbstract page for arXiv paper 2509.09372: VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Modelhttps://arxiv.org/abs/2509.09372

项目主页：VLA-Adapter

一、引言

尽管现有的VLA模型设计当中均采用了VL到A的各种桥接范式，但是关于‘如何将VL表征映射到动作空间’是一个核心问题。目前几乎所有的方法都默认使用VLM最后一层特征作为动作生成的输入。然而，动作生成与图文检索有着本质的不同，动作需要细粒度的空间信息，而深层特征为了服务语义理解，已经丢失了这些细节。因此，论文作者详细探究了以下两个问题：

问题一：VLM内部的哪一层特征对Policy网络更有效？

问题二：ActionQuery特征是否比Raw特征更好的选择？

这两个问题属于论文的核心驱动，作者通过回答了这两个问题，得到了上一节提到的“三大关键发现”，并最终确定了VLA-Adapter的架构设计。

二、实验设计

2.1 两类特征

特征类型

符号

来源

特点

Raw特征

VLM前向传播的中间层输出

来自预训练VLM，

被动提供

ActionQuery特征

可学习token插入VLM末尾

从零训练，主动优化

2.2 四种条件配置

配置	特征类型	层级	图示对应
a	Raw	单层（分别测试第1、8、9、13、17、21、24层）	图a
b	AQ	单层（分别测试第1、8、13、17、21、24层）	图b
c	Raw	全层（1-24层逐层对齐）	图c
d	AQ	全层（1-24层逐层对齐）	图d

2.3 评估基准：LIBERO-Long

论文的VLA-Adapter框架在LIBERO-Long中评估了四种条件，图中蓝色和绿色线条分别表示为单层和单层。蓝色和绿色柱状图分别为全层和全层。

三、三大关键发现

发现一：Raw特征中间层最优

Raw层数	10任务平均成功率	Subtask 7	Subtask 9
1	87.6%	78%	92%
8	89.8%	94%	84%
9-13	88-90%	82-90%	74-84%
24	85.8%	88%	56%
全层融合	96.6%	96%	96%

中间层效果最好，浅层信息太原始，缺少语义；深层过于抽象，丢失了空间细节。动作生成需要在‘看得清’和‘看得懂’之间找到平衡——中间层恰好提供了平衡点。

发现二：AQ特征深层层最优

AQ层数	10任务平均成功率	Subtask 7	Subtask 9
1	78.2%	76%	78%
13	86.8%	66%	58%
24	90.2%	74%	84%
全层融合	92.6%	96%	96%