Abstract not available.
多模态大语言模型在视频时序定位任务中展现出强大性能,但其粗粒度识别能力不足以支撑细粒度时序理解,使得任务特定微调成为必需。这种微调导致模型倾向于记忆数据集特定的捷径模式,而非忠实依据实际视觉内容进行定位,从而导致跨域泛化能力较差。对象中心学习通过将场景分解为实体级表征提供了有前景的解决方案,但现有方法需要从头重新运行完整的多阶段训练流程。我们提出SlotVTG框架,以最小成本引导多模态大语言模型实现对象中心、基于输入的视觉推理。SlotVTG引入轻量级槽位适配器,通过槽注意力机制将视觉标记分解为抽象槽位并重建原始序列,其中来自自监督视觉模型的对象性先验促进了语义连贯的槽位形成。在标准视频时序定位基准上的跨域评估表明,该方法在保持竞争力的域内性能同时,以最小开销显著提升了跨域鲁棒性。