pFedNavi: Structure-Aware Personalized Federated Vision-Language Navigation for Embodied AI<br>pFedNavi：面向具身AI的结构感知个性化联邦视觉语言导航<br>[摘要](abstracts/2602.14401.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航（VLN）需要来自私有室内环境的大规模轨迹指令数据，这引发了显著的隐私担忧。联邦学习（FL）通过将数据保留在设备端来缓解这一问题，但传统的FL在VLN中面临环境和指令风格的极端跨客户端异构性挑战，导致单一的全局模型效果不佳。本文提出了pFedNavi，一种专为VLN设计的结构感知且动态自适应的个性化联邦学习框架。我们的核心思想是在关键处实现个性化：pFedNavi通过分层混合系数自适应地识别客户端特定层，并对选定组件（如编码器-解码器投影层和环境敏感的解码器层）执行细粒度参数融合，以平衡全局知识共享与本地专业化。我们在两个标准VLN基准测试R2R和RxR上评估了pFedNavi，使用了ResNet和CLIP两种视觉表示。在所有指标上，pFedNavi均一致优于基于FedAvg的VLN基线，导航成功率提升高达7.5%，轨迹保真度增益高达7.8%，同时在非独立同分布条件下收敛速度加快1.38倍。

← Back