InfBaGel: Human-Object-Scene Interaction Generation with Dynamic Perception and Iterative Refinement<br>InfBaGel：基于动态感知与迭代优化的人-物-场景交互生成<br>[摘要](abstracts/2604.04843.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

人-物-场景交互（HOSI）生成在具身人工智能、仿真与动画领域具有广泛应用。相较于人-物交互（HOI）和人-场景交互（HSI），HOSI生成需对动态的物-场景变化进行推理，且面临标注数据有限的挑战。为解决这些问题，我们提出一种从粗到细的指令条件化交互生成框架，该框架与一致性模型的迭代去噪过程显式对齐。具体而言，我们采用动态感知策略，利用前序优化步骤中的轨迹更新场景上下文，并在一致性模型的每个去噪步骤中作为后续优化的条件，从而生成连贯的交互。为减少物理伪影，我们引入碰撞感知引导机制，在无需精细场景几何信息的情况下缓解采样过程中的碰撞与穿透问题，实现实时生成。针对数据稀缺性，我们设计了混合训练策略：通过将体素化场景占据信息注入HOI数据集合成伪HOSI样本，并与高保真HSI数据联合训练，在保持真实场景感知的同时学习交互模式。大量实验表明，我们的方法在HOSI与HOI生成任务中均达到最先进性能，并对未见场景展现出强大的泛化能力。项目页面：https://yudezou.github.io/InfBaGel-page/

← Back