NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning<br>NoRD:一种无需推理、数据高效驱动的视觉-语言-动作模型<br>[摘要](abstracts/2602.21172.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作(VLA)模型正通过以统一的端到端架构替代模块化流水线,推动自动驾驶技术的发展。然而,当前VLA模型面临两项成本高昂的要求:(1)大规模数据集的收集,以及(2)密集的推理标注。本研究通过提出\modelname(\textbf{No} \textbf{R}easoning for \textbf{D}riving,简称NoRD)来同时应对这两项挑战。与现有VLA模型相比,NoRD在仅使用少于60%的数据且无需推理标注的情况下实现了具有竞争力的性能,其训练令牌数量减少了3倍。我们发现,当应用于此类小型、无推理标注数据集训练的策略时,标准的组相对策略优化(GRPO)方法未能带来显著改进。我们证明这一局限源于难度偏差,即在GRPO框架内,该偏差会不成比例地惩罚那些产生高方差轨迹的场景所对应的奖励信号。NoRD通过整合Dr.~GRPO(一种近期提出的旨在减轻大语言模型中难度偏差的算法)克服了这一问题。因此,NoRD在Waymo和NAVSIM数据集上仅用少量训练数据且无推理开销的情况下,实现了具有竞争力的性能,从而为构建更高效的自动驾驶系统提供了可能。

← Back