UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models<br>UAV-Track VLA：基于视觉-语言-动作模型的无人机具身化空中跟踪<br>[摘要](abstracts/2604.02241.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

具身化视觉跟踪对于无人机执行复杂现实任务至关重要。在具有复杂语义需求的动态城市场景中，视觉-语言-动作模型因其跨模态融合与连续动作生成能力展现出巨大潜力。为在此类环境中建立多模态跟踪的基准，我们构建了一个专门的评估基准和一个大规模数据集，涵盖超过89万帧图像、176项任务和85种多样化目标。此外，针对现有VLA模型中存在的时间特征冗余与空间几何先验缺失问题，我们提出了一种改进的VLA跟踪模型——UAV-Track VLA。该模型基于π_{0.5}架构，引入了时间压缩网络以高效捕捉帧间动态特征；同时设计了一个包含空间感知辅助定位头与流匹配动作专家的并行双分支解码器，用于解耦跨模态特征并生成细粒度连续动作。在CARLA仿真器中的系统实验验证了本方法优越的端到端性能。在具有挑战性的远距离行人跟踪任务中，UAV-Track VLA实现了61.76%的成功率与269.65的平均跟踪帧数，显著优于现有基线模型。此外，该方法在未见环境中表现出强大的零样本泛化能力，且单步推理延迟较原始π_{0.5}模型降低33.4%（至0.0571秒），实现了高效实时的无人机控制。数据样本与演示视频详见：https://github.com/Hub-Tian/UAV-Track_VLA。

← Back