pFedNavi: Structure-Aware Personalized Federated Vision-Language Navigation for Embodied AI<br>pFedNavi:面向具身AI的结构感知个性化联邦视觉语言导航<br>[摘要](abstracts/2602.14401.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航(VLN)需要来自私有室内环境的大规模轨迹指令数据,这引发了显著的隐私担忧。联邦学习(FL)通过将数据保留在设备端来缓解这一问题,但传统的FL在VLN中面临环境和指令风格的极端跨客户端异构性挑战,导致单一的全局模型效果不佳。本文提出了pFedNavi,一种专为VLN设计的结构感知且动态自适应的个性化联邦学习框架。我们的核心思想是在关键处实现个性化:pFedNavi通过分层混合系数自适应地识别客户端特定层,并对选定组件(如编码器-解码器投影层和环境敏感的解码器层)执行细粒度参数融合,以平衡全局知识共享与本地专业化。我们在两个标准VLN基准测试R2R和RxR上评估了pFedNavi,使用了ResNet和CLIP两种视觉表示。在所有指标上,pFedNavi均一致优于基于FedAvg的VLN基线,导航成功率提升高达7.5%,轨迹保真度增益高达7.8%,同时在非独立同分布条件下收敛速度加快1.38倍。

← Back