How VLAs (Really) Work In Open-World Environments<br>开放环境下视觉-语言-动作模型的实际运作方式<br>[摘要](abstracts/2604.21192.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作模型在机器人应用中被广泛使用，并在各类操作问题中取得了显著成功。近期，VLAs被应用于长时域任务，并基于BEHAVIOR1K等基准进行评估，以解决复杂家务。此类基准通常采用成功率或基于非过程感知标准的局部评分作为进度衡量指标，即仅考虑物体的最终状态，而忽略导致该状态的事件过程。本文指出，此类评估方案无法反映操作的安全性，且可能夸大报告性能，削弱未来实际部署中的核心挑战。为此，我们针对B1K挑战赛中的先进模型展开深入分析，从鲁棒性（通过可复现性与性能一致性）、操作安全性、任务感知能力及任务未完成的关键因素四个维度评估策略。随后，我们提出能够捕捉安全违规行为的评估方案，以更准确地衡量策略在复杂交互场景中的真实表现。最后，本文讨论了现有VLAs的局限性，并展望未来研究方向。

← Back