Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning<br>探究驾驶视觉语言模型的可靠性：从响应不一致到基于时序的推理<br>[摘要](abstracts/2603.09512.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

一个可靠的驾驶助手应能基于观察到的信息，通过时序推理提供一致的响应。本研究探讨了视觉语言模型（VLMs）作为驾驶助手时，是否能保持响应一致性，并理解当前观察如何影响未来结果，还是其输出仅反映训练中记忆的模式，缺乏时序推理基础。尽管近期研究已将VLMs整合到自动驾驶中，但先前工作通常侧重于场景理解和指令生成，隐含假设强大的视觉解释能力自然能实现一致的未来推理，从而确保可靠决策——这一观点我们进行了批判性检验。我们聚焦于限制VLM在此场景下可靠性的两大挑战：响应不一致性（即微小输入扰动导致不同答案，有时甚至退化为近乎随机的猜测）和有限的时序推理能力（即模型无法从当前观察中推理并对齐序列事件，常导致错误甚至矛盾的响应）。此外，我们发现具有强大视觉理解能力的模型在需要时序推理的任务上未必表现最佳，这表明模型倾向于过度依赖预训练模式而非建模时序动态。为解决这些问题，我们采用现有评估方法，并引入FutureVQA——一个专门设计用于评估未来场景推理的人工标注基准数据集。此外，我们提出了一种简单而有效的自监督调优方法，结合思维链推理，无需时序标签即可提升一致性和时序推理能力。

← Back