Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models<br>行动、思考或放弃：面向视觉-语言-动作模型的复杂度感知自适应推理框架<br>[摘要](abstracts/2603.05147.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

当前针对视觉-语言-动作（VLA）模型的研究主要集中于通过成熟的推理技术提升泛化能力。尽管这些方法有效，但其改进不可避免地增加了计算复杂度与推理延迟。此外，这些机制通常被不加区分地应用，导致在简单任务上资源分配低效，同时未能提供必要的置信度估计以防范分布外任务带来的灾难性失败。受人类认知机制启发，我们提出一种自适应框架，能根据感知状态的复杂度动态路由VLA的执行流程。该方法通过将潜在嵌入投影至参数化与非参数化估计器的集成系统中，将VLA的视觉-语言主干转化为主动检测工具，从而使系统能够：对已知任务立即执行（行动），对模糊场景进行推理（思考），并在遇到显著物理或语义异常时预先中止执行（放弃）。在实证分析中，我们观察到一种现象：由于语言具有语义不变性，仅凭视觉嵌入在推断任务复杂度方面表现更优。在LIBERO和LIBERO-PRO基准测试及真实机器人上的评估表明，我们的纯视觉配置仅需5%的训练数据即可达到80%的F1分数，证明了其作为可靠高效的任务复杂度检测器的有效性。

← Back