MERGE: Guided Vision-Language Models for Multi-Actor Event Reasoning and Grounding in Human-Robot Interaction<br>MERGE：面向人机交互中多参与者事件推理与情境感知的引导式视觉语言模型<br>[摘要](abstracts/2603.18988.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们提出了MERGE系统，用于在动态人机群体交互中对参与者、物体和事件进行情境感知与定位。在此类场景中实现有效协作需要基于对人员与物体的持续表征及事件的情节抽象，建立一致的情境感知能力。MERGE通过唯一识别参与者（人类或机器人）与物体的物理实例，并将其组织为“参与者-动作-物体”关系结构，确保交互过程中的时间一致性。MERGE的核心在于将视觉语言模型（VLM）与感知流程相结合：轻量级流式处理模块持续分析视觉输入以检测变化，并仅在必要时选择性调用VLM。这种解耦设计既保留了VLM的推理能力和零样本泛化性，又提升了效率，避免了逐帧描述带来的高经济成本、延迟以及碎片化输出问题。针对多参与者协作领域缺乏合适基准的现状，我们引入了GROUND数据集，该数据集提供了多人及人机交互的细粒度情境标注。在此数据集上，我们的方法相较于纯VLM基线模型（包括GPT-4o、GPT-5和Gemini 2.5 Flash）将平均定位分数提升至2倍，同时将运行时间缩短至1/4。代码与数据已公开于www.github.com/HRI-EU/merge。

← Back