See2Refine: Vision-Language Feedback Improves LLM-Based eHMI Action Designers<br>See2Refine：视觉-语言反馈提升基于大语言模型的eHMI行为设计能力<br>[摘要](abstracts/2602.02063.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

自动驾驶车辆缺乏与其他道路使用者的自然沟通渠道，因此外部人机界面（eHMI）对于在共享环境中传达意图和维持信任至关重要。然而，大多数eHMI研究依赖于开发者手工设计的消息-行为配对，难以适应多样且动态的交通场景。一种有前景的替代方案是利用大语言模型（LLM）作为行为设计器，生成基于上下文的eHMI行为，但此类设计器缺乏感知验证，通常依赖固定提示或昂贵的人工标注反馈进行改进。我们提出了See2Refine，一种无需人工干预的闭环框架，利用视觉-语言模型（VLM）的感知评估作为自动化视觉反馈，以优化基于LLM的eHMI行为设计器。给定驾驶场景和候选eHMI行为，VLM评估该行为的感知适宜性，并利用此反馈迭代修正设计器的输出，从而实现无需人工监督的系统性优化。我们在三种eHMI模态（光条、眼睛和手臂）及多种LLM模型规模下评估了该框架。在所有设置中，我们的框架在基于VLM的指标和人类受试者评估中均持续优于仅使用提示的LLM设计器及手动指定的基线方法。结果进一步表明，改进效果在不同模态间具有泛化性，且VLM评估与人类偏好高度一致，这支持了See2Refine在可扩展行为设计中的鲁棒性和有效性。

← Back