See2Refine: Vision-Language Feedback Improves LLM-Based eHMI Action Designers<br>See2Refine:视觉-语言反馈提升基于大语言模型的eHMI行为设计能力<br>[摘要](abstracts/2602.02063.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

自动驾驶车辆缺乏与其他道路使用者的自然沟通渠道,因此外部人机界面(eHMI)对于在共享环境中传达意图和维持信任至关重要。然而,大多数eHMI研究依赖于开发者手工设计的消息-行为配对,难以适应多样且动态的交通场景。一种有前景的替代方案是利用大语言模型(LLM)作为行为设计器,生成基于上下文的eHMI行为,但此类设计器缺乏感知验证,通常依赖固定提示或昂贵的人工标注反馈进行改进。我们提出了See2Refine,一种无需人工干预的闭环框架,利用视觉-语言模型(VLM)的感知评估作为自动化视觉反馈,以优化基于LLM的eHMI行为设计器。给定驾驶场景和候选eHMI行为,VLM评估该行为的感知适宜性,并利用此反馈迭代修正设计器的输出,从而实现无需人工监督的系统性优化。我们在三种eHMI模态(光条、眼睛和手臂)及多种LLM模型规模下评估了该框架。在所有设置中,我们的框架在基于VLM的指标和人类受试者评估中均持续优于仅使用提示的LLM设计器及手动指定的基线方法。结果进一步表明,改进效果在不同模态间具有泛化性,且VLM评估与人类偏好高度一致,这支持了See2Refine在可扩展行为设计中的鲁棒性和有效性。

← Back