空中具身智能论文精选 • 20Bytes Log

📋 Table of Contents

	Section	Description
🤖	VLA Models & End-to-End Navigation	视觉-语言-动作大模型与端到端导航
🗺️	Zero-Shot Navigation & Exploration	零样本目标导航与自主探索建图
📊	Benchmarks, Datasets & Simulation	评测基准、数据集与仿真平台
📦	Dataset Comparison	数据集结构化对比
🎮	Simulator Comparison	仿真平台结构化对比
🔄	Sim-to-Real	模拟到现实迁移
📝	Surveys & Perspectives	综述与前瞻
📌	Other Foundational Works	其他基础工作
🔗	Related Works	相关资源

📋 论文排序 — 同一年份内按月份降序排列（最新的在前）。特别有影响力或代表性的工作，无论日期均可能被置于顶部。

💡 欢迎贡献 — 本仓库持续更新！如有尚未收录的论文、项目或资源，请提交 Pull Request 或开 Issue。

条目格式： [日期][会议-描述] 标题 [[arxiv]] [[hjfy]] [[github]] + 团队行 + 概览行 + 末尾技术标签 `New` `Method` `Backbone` `Env`

🤖 VLA Models & End-to-End Navigation

2026

[2026.04][ CVPR 2026 - 方向感知空中视觉语言导航 - LookasideVLN ] Direction-Aware Aerial Vision-and-Language Navigation [arxiv] [hjfy] New Hierarchical Transformer
- 团队：宁宇伟(Yuwei Ning)-中大、李冠彬(Guanbin Li)-中大、赵甘龙-港中文(CUHK)、刘偲-北航、林倞-中大、Yipeng Qin-卡迪夫(Cardiff)
- 概览：提出了方向感知的无人机视觉语言导航新范式。针对现有方法过度依赖地标而忽视方向线索的问题，通过自我中心的旁视提取图（ELG）和空间地标知识库（SLKB），有效利用语言指令中的方向信息，显著提升了无人机空间推理的准确性与计算效率。
[2026.03][ AAAI 2026 - 在线对话引导的无人机导航 - AerialVLA ] A Vision-Language-Action Model for Aerial Navigation with Online Dialogue [aaai] [github] End-to-end VLA
- 团队：陈金宇(Jinyu Chen)-CoLab-北航、刘偲(Si Liu)-CoLab-北航
- 概览：提出了一种通过在线对话引导的空中导航视觉-语言-动作模型，引入了进度驱动的导航-查询交替机制，允许无人机主动向人类询问指导以克服导航歧义。
[2026.03][ CVPR 2026 - 免训练空中对话导航 ] Parse, Search, and Confirmation: Training-Free Aerial Vision-and-Dialog Navigation with Chain-of-Thought Reasoning and Structured Spatial Memory New Zero-Shot LLM (CoT)
- 团队：刘偲(Si Liu)-北航、汪萌(Meng Wang)-合肥工业大学
- 概览：提出了一种免训练（Training-Free）的空中视觉与对话导航框架。创新性地利用大语言模型的思维链（Chain-of-Thought）推理能力与结构化的空间记忆，将复杂的导航指令拆解为"解析、搜索与确认"三个阶段，无需对模型进行微调即可在复杂环境中实现精准的指令跟随。
[2026.03][ arXiv 2026 - 机载零样本视觉语言导航 - OnFly ] Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency [arxiv] [hjfy] [github] Zero-Shot Qwen3-VL-4B-AWQ AirSim+UE4
- 团队：郑桂勇(Guiyong Zheng)-中大、周博宇(Boyu Zhou)-STAR Lab-南科大、张明杰-南科大、郑珏鹏-中大
- 概览：提出了一个全机载的零样本空中视觉-语言导航框架，通过分离目标生成与进度监控，结合语义-几何验证器，在保证安全的前提下大幅提升了导航成功率。
[2026.03][ arXiv 2026 - 极简端到端无人机VLA - AerialVLA (Xu) ] AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control [arxiv] [hjfy] [github] New End-to-end OpenVLA OpenUAV
- 团队：许鹏(Peng Xu)-电子科大(UESTC)、邓正楠(Zhengnan Deng)-电子科大、邓嘉言(Jiayan Deng)-电子科大、顾宗华(Zonghua Gu)-霍夫斯特拉(Hofstra)、万少华(Shaohua Wan)-电子科大
- 概览：提出了基于OpenVLA的极简端到端无人机视觉-语言-动作模型，在OpenUAV平台上验证，通过最小化控制信号设计实现高效的空中导航策略学习。
[2026.02][ ICLR 2026 - 野外无人机自主导航VLA模型 - AutoFly ] Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [arxiv] [hjfy] [project] End-to-end LLaMA2-7B
- 团队：孙小楼(Xiaolou Sun)-东南、紫金山实验室、司吴飞(Wufei Si)-紫金山实验室、倪文辉(Wenhui Ni)-东南、李云天(Yuntian Li)-紫金山实验室、黄永明(Yongming Huang)-东南、关润伟(Runwei Guan)-港科广(HKUST-GZ)、丁恒辉(Henghui Ding)-复旦、吴东明-MMLab-港中文(CUHK)、谢飞-上交、熊辉-港科广(HKUST-GZ)
- 概览：提出了专为未知野外环境设计的端到端无人机视觉-语言-动作（VLA）模型，引入伪深度编码器增强3D空间推理，并构建了大规模多模态自主导航数据集。
[2026.02][ arXiv 2026 - 视频模型做零样本3D导航 - NavDreamer ] Video Models as Zero-Shot 3D Navigators [arxiv] [hjfy] New Zero-Shot Qwen-VL3 (Wan2.6 + π³)
- 团队：黄希杰(Xijie Huang)-浙大、吴宇泽(Yuze Wu)-浙大、高飞(Fei Gao)-浙大
- 概览：提出基于视频生成模型的零样本3D导航框架NavDreamer，将语言指令转化为视频预测再提取航点轨迹，通过采样优化和VLM评分选择最优路径，在未见环境中展现强泛化能力。
[2026.01][ arXiv 2026 - 大规模真实世界UAV VLN数据集 - AirNav ] A Large-Scale Real-World UAV Vision-and-Language Navigation Dataset with Natural and Diverse Instructions [arxiv] [hjfy] New End-to-end VLM+RL
- 团队：蔡恒星(Hengxing Cai)-中大、钟任新(Renxin Zhong)-中大
- 概览：提出基于真实城市航拍数据构建的大规模UAV VLN基准AirNav，包含自然多样的导航指令，并引入AirVLN-R1结合监督微调与强化微调提升泛化性能。

2025

[2025.12][ AAAI 2026 - 历史增强两阶段空中VLN - HETT ] History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation [arxiv] [hjfy] `` End-to-end Transformer (Two-Stage) New
- 团队：丁希辰(Xichen Ding)-南航、高建哲(Jianzhe Gao)-浙大、秦杰(Jie Qin)-南航、王文冠(Wenguan Wang)-浙大
- 概览：提出两阶段Transformer框架（HETT），首先结合地标和历史上下文预测粗粒度的全局目标方位，然后再通过历史栅格地图聚合视觉特征，执行局部的细粒度动作调整（Coarse-to-fine）。
[2025.12][ AAAI 2026 - 室内无人机视觉语言导航基准 - IndoorUAV ] Benchmarking Vision-Language UAV Navigation in Continuous Indoor Environments [arxiv] [hjfy] New End-to-end
- 团队：刘旭(Xu Liu)-北大、刘宇(Yu Liu)-北大、连宙辉(Zhouhui Lian)-北大
- 概览：提出首个面向室内无人机的视觉语言导航基准IndoorUAV，包含IndoorUAV-VLN（长时导航）和IndoorUAV-VLA（短时规划）两个子集，并提出IndoorUAV-Agent利用LLM分段指令再由VLA执行飞行控制。
[2025.12][ arXiv 2025 - 长距离UAV视觉语言导航 - LongFly ] Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration [arxiv] [hjfy] New End-to-end Attention/GRU
- 团队：蒋文(Wen Jiang)-北理工、许斌(Bin Xu)-北理工、季向阳(Xiangyang Ji)-清华
- 概览：提出面向长距离UAV VLN的时空上下文建模框架LongFly，将碎片化冗余的历史数据转化为结构化紧凑的表征，有效提升长时程导航中的语义对齐和路径规划稳定性。
[2025.12][ arXiv 2025 - 复杂环境下的机载VLA导航框架 - VLA-AN ] An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments [arxiv] [hjfy] End-to-end 3D-GS
- 团队：吴宇泽(Yuze Wu)-FAST-Lab-浙大、高飞(Fei Gao)-FAST-Lab-浙大
- 概览：提出了一种渐进式训练的高效机载视觉-语言-动作（VLA）飞行框架，采用基于3D高斯喷溅（3D-GS）的高保真仿真来弥合 Sim-to-Real 差异，并能以极低延迟部署在受限机载硬件上。
[2025.12][ arXiv 2025 - 空中导航世界模型 - ANWM ] Aerial World Model for Long-horizon Visual Generation and Navigation in 3D Space [arxiv] [hjfy] New World Model
- 团队：张伟辰(Weichen Zhang)-清华、唐培之(Peizhi Tang)-清华、朱文武(Wenwu Zhu)-清华、李勇(Yong Li)-清华、高晨-清华、陈新雷-清华
- 概览：提出一种空中导航世界模型（ANWM），利用"未来帧投影（FFP）"模块将过去帧映射到未来视角以提供几何先验。智能体能以此对未来画面进行长距离预测并依据语义合理性去评估规划路线。
[2025.11][ arXiv 2025 - 开放世界空中视觉语言导航 - OpenVLN ] Open-world Aerial Vision-Language Navigation [arxiv] [hjfy] New End-to-end
- 团队：林佩灿(Peican Lin)-华工、孙淦(Gan Sun)-华工、刘晨曦-中科院自动化所、任卫红-哈工大(深圳)
- 概览：提出面向开放世界的空中视觉语言导航框架OpenVLN，利用强化学习和值模型应对数据稀缺和长视域规划的双重挑战，在复杂空中环境中实现语言引导飞行。
[2025.09][ CoRL 2025 - 免训练VLM无人机导航框架 ] See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation [arxiv] [hjfy] [github] New Zero-Shot VLM (GPT-4V)
- 团队：Chih Yao Hu-台湾大学(NTU)、Yu-Lun Liu-阳明交通大学(NYCU)
- 概览：提出免训练的空中VLN框架SPF，将导航决策重新定义为2D空间定位任务，VLM直接在图像上标注下一步航点，无需任何任务特定训练即可实现视觉-语言对齐导航，在主要基准上超越现有方法63%。
[2025.08][ ACM MM 2025 - 双无人机协同VLN - AeroDuo ] Aerial Duo for UAV-based Vision and Language Navigation [arxiv] [hjfy] New End-to-end
- 团队：吴瑞璞(Ruipu Wu)-北航、刘偲(Si Liu)-CoLab-北航、黄林江-北航、王亮-中科院自动化所
- 概览：提出了一种双无人机协同的视觉-语言导航（VLN）框架。高空无人机利用多模态大模型进行目标推理，低空无人机利用轻量级多阶段策略进行精细导航与目标定位，两者仅交换最小坐标信息即可实现高效协同。
[2025.07][ arXiv 2025 - 流式视觉语言导航 - StreamVLN ] Streaming Vision-and-Language Navigation via SlowFast Context Modeling [arxiv] [hjfy] [project] New End-to-end SlowFast
- 团队：魏萌(Meng Wei)-上海AI Lab、庞江淼(Jiangmiao Pang)-上海AI Lab、刘希慧(Xihui Liu)-港大(HKU)
- 概览：为应对真实环境的长视频流处理，提出混合的SlowFast上下文建模策略。Fast支路通过滑动窗口实现低延迟流式响应，Slow支路通过Token剪枝实现历史状态的记忆更新，极大提升了流式VLN效率。
[2025.07][ ACM MM demo 2025 - 无人机多模态交互与智能助手 ] "Hi AirStar, Guide Me to the Badminton Court." [arxiv] [hjfy] New End-to-end LLM
- 团队：王子琴(Ziqin Wang)-北航、刘偲(Si Liu)-CoLab-北航、黄林江-北航
- 概览：推出了一款名为 AirStar 的无人机具身智能助理系统。该系统将大语言模型作为认知核心，支持用户通过自然语音和手势直接与无人机交互，内置长程地理知识导航与短程精细控制等功能，摆脱了传统遥控器。
[2025.05][ ACL 2025 - 分层语义规划空中VLN - CityNavAgent ] Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [arxiv] [hjfy] New GSM LLM (Hierarchical)
- 团队：张伟辰(Weichen Zhang)-清华、高晨(Chen Gao)-清华、陈新雷(Xinlei Chen)-清华、李勇-清华
- 概览：提出分层语义规划与全局记忆结合的空中VLN智能体CityNavAgent，通过LLM进行高层语义规划并维护全局地标记忆，在CityNav基准上取得SOTA性能。
[2025.04][ AAAI 2025 - 细粒度对齐的空中视觉对话导航 ] Learning Fine-Grained Alignment for Aerial Vision-Dialog Navigation [aaai] New
- 团队：苏一飞(Yifei Su)-中科院自动化所、安东(Dong An)-MBZUAI、黄岩(Yan Huang)-中科院自动化所、王亮(Liang Wang)-中科院自动化所
- 概览：针对空中视觉对话导航（AVDN）中细粒度跨模态对齐问题，构建了实体-地标级标注数据集FG-AVDN，并提出FELA方法通过定位、描述和对比学习三种辅助任务显式学习实体-地标对齐，SR提升3.2%。
[2025.03][ arXiv 2025 - 竞速无人机VLA导航 - RaceVLA ] VLA-based Racing Drone Navigation with Human-like Behaviour [arxiv] [hjfy] New End-to-end
- 团队：Valerii Serpiva-斯科尔科沃(Skoltech)、Artem Lykov-斯科尔科沃(Skoltech)、Dzmitry Tsetserukou-斯科尔科沃(Skoltech)
- 概览：首个专为竞速无人机设计的VLA大模型，模型输入FPV视频和自然语言，直接输出4D连续控制信号（三轴线速度+偏航角速度），使无人机在动态场景中表现出类人的自主避障和穿梭能力。
[2025.02][ ICLR 2026 - 监督到强化自适应空中VLN - Openfly ] OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation [arxiv] [hjfy] [project] End-to-end LLaMA OpenFly
- 团队：高云鹏(Yunpeng Gao)-上海AI Lab、王志刚(Zhigang Wang)-西工大、赵斌(Bin Zhao)-上海AI Lab、李学龙-中国电信人工智能研究院(TeleAI)
- 概览：提出从监督学习到强化学习的自适应训练框架，结合大规模空中 VLN 数据集与仿真工具链，显著提升无人机在复杂真实环境中的导航成功率。
- 个人评价：目前最好用的 benchmark 和数据生成工具链，算力要求较高 8 张 A100（每张 80 G）
[2025.01][ IEEE HRI 2025 - 大规模空中任务生成 - UAV-VLA ] Vision-Language-Action System for Large Scale Aerial Mission Generation [arxiv] [hjfy] New End-to-end VLM+GPT
- 团队：Oleg Sautenkov-斯科尔科沃(Skoltech)、Dzmitry Tsetserukou-斯科尔科沃(Skoltech)
- 概览：提出一种将卫星图像处理、VLM与基于GPT的规划相结合的系统，仅需简单的文本指令即可全局生成无人机的航路点与动作序列，在大规模任务生成上比人类操作快6.5倍。

2024

[2024.11][ arXiv 2024 - 多尺度城市街景融合无人机VLN - NavAgent ] NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation [arxiv] [hjfy] New End-to-end VLM
- 团队：刘友志(Youzhi Liu)-中科院空天信息创新研究院、姚方龙(Fanglong Yao)-中科院空天信息创新研究院、岳元昌(Yuanchang Yue)-中科院空天信息创新研究院、许广鸾(Guangluan Xu)-中科院空天信息创新研究院、孙显(Xian Sun)-中科院空天信息创新研究院、傅坤(Kun Fu)-中科院空天信息创新研究院
- 概览：提出多尺度城市街景融合的无人机VLN框架NavAgent，通过融合不同粒度的城市街景信息增强空间推理，提升城市级复杂环境下的导航能力。
[2024.10][ ICLR 2025 - 真实感UAV导航基准与大模型方法 ] Towards realistic uav vision-language navigation: Platform, benchmark, and methodology [arxiv] [hjfy] [github] End-to-end LLaMA AirSim+UE4
- 团队：王向宇(Xiangyu Wang)-北航、廖越(Yue Liao)-MMLab-港中文(CUHK)、李鸿升(Hongsheng Li)-MMLab-港中文(CUHK)、刘偲(Si Liu)-CoLab-北航
- 概览：构建了基于虚幻引擎的连续飞行导航基准，并提出了基于多模态大模型的层次化轨迹生成方法。

2023

[2023.12][ arXiv 2023 - LLM驱动无人机飞行控制 - TypeFly ] TypeFly: Flying Drones with Large Language Model [arxiv] [hjfy] [github] New Zero-Shot LLM (MiniSpec)
- 团队：陈国均(Guojun Chen)-耶鲁(Yale)、余晓靖(Xiaojing Yu)-耶鲁(Yale)、凌霓文(Neiwen Ling)-耶鲁(Yale)、钟林(Lin Zhong)-耶鲁(Yale)
- 概览：提出ChatFly系统，利用自定义的MiniSpec语言大幅降低LLM在无人机控制中的响应延迟（减少62%），使大语言模型能够高效、实时地驱动无人机完成复杂飞行任务。
[2023.08][ ICCV 2023 - 开篇之作 - AerialVLN ] Vision-and-Language Navigation for UAVs [arxiv] [hjfy] [github] End-to-end CMA AirSim+UE4
- 团队：刘树博(Shubo Liu)-西工大、张洪生(Hongsheng Zhang)-西工大、吴琦(Qi Wu)-阿德莱德(Adelaide)、王鹏-西工大、张艳宁-西工大
- 个人评价：benchmark 不好用，复现结果不一致，算力要求一般
[2022.05][ ACL 2023 Findings - 空中视觉对话导航 - AVDN ] Aerial Vision-and-Dialog Navigation [arxiv] [hjfy] [project] New End-to-end Transformer
- 团队：范越(Yue Fan)-UC Santa Cruz、陈文松(Winson Chen)-UC Santa Cruz、蒋铜舟(Tongzhou Jiang)-UC Santa Cruz、周春(Chun Zhou)-UC Santa Cruz、张翼(Yi Zhang)-UC Santa Cruz、王鑫(Xin Eric Wang)-UC Santa Cruz
- 概览：提出了空中视觉与对话导航（AVDN）任务和数据集，无人机通过多轮自然语言对话与人类协作完成目标定位，是对话引导式空中导航的早期基础工作（ACL 2023 Findings）。

🗺️ Zero-Shot Navigation & Exploration

2026

[2026.02][ arXiv 2026 - 解耦语义与几何的零样本空中导航 - Fly0 ] Decoupling Semantic Grounding from Geometric Planning for Zero-Shot Aerial Navigation [arxiv] [hjfy] [github] New GSM MLLM + Ego-Planner
- 团队：徐振兴(Zhenxing Xu)-国防科大、鲍卫东(Weidong Bao)-国防科大、王吉(Ji Wang)-国防科大
- 概览：提出将语义推理与几何规划解耦的零样本空中导航框架Fly0，MLLM仅负责将指令定位到2D像素坐标，再通过深度投影获取3D目标并由Ego-Planner生成无碰撞轨迹，SR提升超20%。
[2026.02][ arXiv 2026 - 轻量级UAV零样本目标导航 - USS-Nav ] Unified Spatio-Semantic Scene Graph for Lightweight UAV Zero-Shot Object Navigation [arxiv] [hjfy] [github] New Zero-Shot LLM (Scene Graph)
- 团队：盖伟琦(Weiqi Gai)-北航、高飞(Fei Gao)-FAST-Lab-浙大、孟志军(Zhijun Meng)-北航
- 概览：构建了轻量级的统一时空语义场景图，结合大语言模型（LLM）的推理能力，实现了轻型无人机在未知环境中的实时（15Hz）零样本开放词汇目标导航。
[2026.02][ CVPR 2026 - 解耦记忆异步空中目标导航 - APEX ] A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation [arxiv] [hjfy] [github] New GSM+RL Spatio-Semantic Map
- 团队：张道轩(Daoxuan Zhang)-哈工大深圳、杨硕(Shuo Yang)-哈工大深圳、夏小波-新加坡国立(NUS)、苏秀-中南、甄瑞辰-美团机器人研究院
- 概览：提出分层异步并行框架APEX，通过动态时空语义建图记忆、强化学习动作决策和开放词汇目标定位三个模块并行运行，有效绕过VLM推理延迟，在UAV-ON基准上显著超越现有方法。
[2026.01][ arXiv 2026 - 室内空中双策略目标导航 - AION ] Aerial Indoor Object-Goal Navigation Using Dual-Policy Reinforcement Learning [arxiv] [hjfy] New RL Dual-Policy
- 团队：Zichen Yan-新加坡国立(NUS)、Lin Zhao-新加坡国立(NUS)
- 概览：提出端到端双策略强化学习框架AION，将探索行为和目标趋近行为解耦为两个专用策略，无需外部定位或全局地图即可实现室内空中目标导航。
[2026.01][ arXiv 2026 - VLM语义与连续规划结合的导航 - AirHunt ] Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation [arxiv] [hjfy] GSM VLM (3D Value Map)
- 团队：陈学成(Xuecheng Chen)-清华深圳、王学谦(Xueqian Wang)-清华深圳、周博宇(Boyu Zhou)-南科大
- 概览：采用双路径异步架构，桥接了低频的VLM语义推理与高频的连续飞行规划，实现了高效且安全的空中目标导航。
[2026.01][ arXiv 2026 - 大模型赋能无人机开放世界扫描 - FlyCo ] Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments [arxiv] [hjfy] [github] New VLM-driven VLM
- 团队：陈锋(Chen Feng)-港科大(HKUST)、郑贵永(Guiyong Zheng)-中大、周博宇(Boyu Zhou)-南科大、沈邵劼-港科大(HKUST)
- 概览：结合视觉语言大模型（VLM）赋能无人机，仅需简单的人类提示即可在开放世界中自主跟踪、预测并扫描复杂的 3D 目标结构。
[2026.01][ IEEE RA-L 2026 - 惯性感知空中操作 - FlyAware ] Inertia-Aware Aerial Manipulation via Vision-Based Estimation and Post-Grasp Adaptation [arxiv] [hjfy] [project] New End-to-end
- 团队：叶碧瑜(Biyu Ye)-中大、范娜(Na Fan)-港科大(HKUST)、陈启峰(Qifeng Chen)-港科大(HKUST)、吕希民(Ximin Lyu)-港科大(HKUST)
- 概览：提出一种面向空中操作的惯性感知框架，集成基于视觉的抓前惯性估计模块与抓后自适应机制，实现对未知负载的实时惯性动力学估计与自适应控制，真实世界实验验证了其有效性。

2025

[2025.12][ IEEE RA-L 2026 - 单目RGB杂乱环境飞行与3D辐射场 ] Flying in clutter on monocular rgb by learning in 3d radiance fields with domain adaptation [arxiv] [hjfy] [github] RL Domain Adaptation 3DGS
- 团队：黄希捷(Xijie Huang)-FAST-Lab-浙大、韩志超(Zhichao Han)-FAST-Lab-浙大、高飞(Fei Gao)-FAST-Lab-浙大
- 概览：利用3D高斯喷溅（3DGS）渲染生成高保真仿真环境，结合对抗性域自适应（Domain Adaptation），实现了仅依赖单目RGB相机的强化学习策略在真实复杂杂乱环境中的零样本泛化飞行。
[2025.09][ ICRA 2026 - 零样本远距离户外导航 - EzReal ] Enhancing Zero-Shot Outdoor Robot Navigation toward Distant Targets under Varying Visibility [arxiv] [hjfy] New Zero-Shot
- 团队：曾天乐(Tianle Zeng)-南科大、张宏(Hong Zhang)-南科大
- 概览：针对大规模户外环境中远距离目标的零样本导航，提出利用目标轮廓记忆和方向推理的方法，在目标间歇性可见的条件下实现鲁棒导航。
[2025.06][ IEEE RA-L 2025 - VLM+3DGS机载无人机导航 - GRaD-Nav++ ] Vision-Language Model Enabled Visual Drone Navigation with Gaussian Radiance Fields and Differentiable Dynamics [arxiv] [hjfy] New RL VLM+3DGS (MoE)
- 团队：Qianzhong Chen-斯坦福(Stanford)、JunEn Low-斯坦福(Stanford)、Mac Schwager-斯坦福(Stanford)
- 概览：提出轻量级全机载VLA框架GRaD-Nav++，在3DGS仿真器中通过可微强化学习训练，结合混合专家（MoE）动作头实现多任务泛化，真实硬件上达到67%成功率。
[2025.06][ IEEE RA-L 2025 - 跨模态无人机视觉运动策略 ] Learning Cross-Modal Visuomotor Policies for Autonomous Drone Navigation New
- 团队：Yuhang Zhang-南洋理工(NTU)、Jiaping Xiao-南洋理工(NTU)、Mir Feroskhan-南洋理工(NTU)
- 概览：提出跨模态视觉运动策略学习方法，利用对比强化学习将不同传感器模态（RGB、深度、事件相机）的表征对齐，使无人机在单一模态缺失时仍能鲁棒自主导航。
[2025.05][ AAAI 2026 - 城市空间UAV视觉目标搜索 ] Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology [arxiv] [hjfy] New Agentic VLM+LLM
- 团队：纪亚泰(Yatai Ji)-MMLab-港大(HKU)、朱正秋(Zhengqiu Zhu)-国防科大、高晨-清华、李勇-清华、殷全军(Quanjun Yin)-国防科大
- 概览：提出首个城市空间无人机视觉目标搜索基准CityAVOS及智能体方法PRPSearcher，通过感知-推理-规划三层认知架构和3D语义吸引力地图，在复杂城市环境中实现高效自主搜索，SR提升37.69%。
[2025.05][ IEEE RA-L 2025 - Sim-to-Real深度迁移无人机导航 ] Depth Transfer: Learning to See Like a Simulator for Real-World Drone Navigation [arxiv] [hjfy] New RL VAE Sim-to-Real
- 团队：Hang Yu-代尔夫特理工(TU Delft)、Christophe De Wagter-代尔夫特理工(TU Delft)、Guido de Croon-代尔夫特理工(TU Delft)
- 概览：提出基于域自适应的深度迁移方法，通过VAE将仿真深度图编码为潜在空间供RL策略使用，部署时对齐真实立体深度输入，无需微调即可实现Sim-to-Real无人机避障导航。
[2025.04][ IEEE RA-L 2025 - 零样本目标导航自适应探索 - ApexNav ] An adaptive exploration strategy for zero-shot object navigation with target-centric semantic fusion [arxiv] [hjfy] [github] Zero-Shot VLM
- 团队：张明杰(Mingjie Zhang)-南科大、周博宇(Boyu Zhou)-南科大、马骏-港科广(HKUST-GZ)
- 概览：针对零样本目标导航，提出了在语义推理和几何探索之间动态切换的自适应策略，并结合以目标为中心的语义融合来过滤错误检测。
[2025.03][ ICRA 2025 - 微型无人机免地图单目视觉导航 ] A Map-Free Deep Learning-Based Framework for Gate-to-Gate Monocular Visual Navigation Aboard Miniaturized Aerial Vehicles [arxiv] [hjfy] New End-to-end
- 团队：Lorenzo Scarciglia-IDSIA、Antonio Paolillo-IDSIA、Daniele Palossi(Daniele Palossi)-IDSIA/苏黎世联邦理工(ETH Zurich)
- 概览：提出面向掌上级微型无人机（<50g）的免地图视觉导航框架，结合轻量级深度学习门检测前端与经典视觉伺服控制后端，仅用单目相机在极受限机载算力上实现30Hz闭环穿门飞行。
[2025.03][ arXiv 2025 - 无人机搜救快速响应 - UAV-VLRR ] Vision-Language Informed NMPC for Rapid Response in UAV Search and Rescue [arxiv] [hjfy] New NMPC VLM+Control
- 团队：Yasheerah Yaqoot-斯科尔科沃(Skoltech)、Muhammad Ahsan Mustafa-斯科尔科沃(Skoltech)、Dzmitry Tsetserukou-斯科尔科沃(Skoltech)
- 概览：为无人机搜救提出视觉-语言-快速响应（VLRR）框架，将多模态大模型（解析场景与目标坐标）与非线性模型预测控制（NMPC）结合，在保证避障的同时大幅缩短急救场景的响应与飞行时间。

2024

[2024.12][ arXiv 2024 - 零样本Sim-to-Real飞行策略 - SOUS VIDE ] Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum [arxiv] [hjfy] [github] RL 3DGS
- 团队：JunEn Low-斯坦福(Stanford)、Mac Schwager-斯坦福(Stanford)
- 概览：提出在高保真3D高斯喷溅（3DGS）轻量级仿真器中端到端训练纯视觉导航策略，实现了向真实物理世界复杂环境的零样本平滑迁移与鲁棒飞行。
[2024.09][ IROS 2024 - 异构无人机协同探索建图 - SOAR ] Simultaneous exploration and photographing with heterogeneous UAVs for fast autonomous reconstruction [arxiv] [hjfy] [github] Autonomous Exploration
- 团队：张明杰(Mingjie Zhang)-中大、陈锋(Chen Feng)-港科大(HKUST)、周博宇(Boyu Zhou)-中大、沈邵劼-港科大(HKUST)
- 概览：设计了异构无人机协同系统，探索机负责快速未知空间建图，摄影机负责高分辨率图像采集，实现了针对未知环境的快速自主 3D 重建。
[2024.07][ IEEE T-RO 2024 - 快速自主空中探索导航 - Falcon ] Fast autonomous aerial exploration using coverage path guidance [arxiv] [hjfy] [github] Coverage Path Guidance
- 团队：张逸晨(Yichen Zhang)-港科大(HKUST)、沈邵劼(Shaojie Shen)-港科大(HKUST)
- 概览：提出了基于覆盖路径引导的快速自主空中探索框架，通过连通性空间分解和分层规划，有效减少了重复探索，提升了完全未知环境中的探索效率。

📊 Benchmarks, Datasets & Simulation

2026

[2026.03][ arXiv 2026 - 高层次无人机VLA基准 - HUGE-Bench ] A Benchmark for High-Level UAV Vision-Language-Action Tasks [arxiv] [hjfy] New
- 团队：郭静宇(Jingyu Guo)-墨尔本大学(Melbourne)、陈子叶(Ziye Chen)-墨尔本大学(Melbourne)、刘同亮(Tongliang Liu)-墨尔本大学(Melbourne)
- 概览：针对传统导航基准"指令过于细碎"的缺陷，提出了一个面向高层次、粗粒度指令理解的基准。基于3DGS+网格（Mesh）双表征构建数字孪生场景，创新性引入了兼顾流程保真度与物理碰撞安全性的严苛评价指标。
[2026.01][ arXiv 2026 - 大规模真实世界UAV VLN数据集 - AirNav ] A Large-Scale Real-World UAV Vision-and-Language Navigation Dataset with Natural and Diverse Instructions [arxiv] [hjfy] New End-to-end VLM+RL
- 团队：蔡恒星(Hengxing Cai)-中大、钟任新(Renxin Zhong)-中大
- 概览：提出基于真实城市航拍数据构建的大规模UAV VLN基准AirNav，包含自然多样的导航指令，并引入AirVLN-R1结合监督微调与强化微调提升泛化性能。
[2025.02][ ICLR 2026 - 目前最好的基准 - Openfly ] OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation [arxiv] [hjfy] [project] End-to-end LLaMA OpenFly
- 团队：高云鹏(Yunpeng Gao)-上海AI Lab、王志刚(Zhigang Wang)-西工大、赵斌(Bin Zhao)-上海AI Lab、李学龙-中国电信人工智能研究院(TeleAI)
- 个人评价：目前最好用的 benchmark 和数据生成工具链，算力要求较高 8 张 A100（每张 80 G）

2025

[2025.12][ NeurIPS 2025 - 动态城市机器人导航协作 - SimWorld-Robotics ] Synthesizing Photorealistic and Dynamic Urban Environments for Multimodal Robot Navigation and Collaboration [arxiv] [hjfy] [github] New
- 团队：Yan Zhuang-弗吉尼亚大学(UVA)、Jiawei Ren-加州大学圣地亚哥分校(UCSD)、Tianmin Shu-约翰霍普金斯大学(JHU)
- 概览：SimWorld 的机器人专题拓展，生成带有人群和交通系统的动态逼真城市场景。提供了"多模态指令导航"与"多智能体搜寻汇合"两个极具挑战的基准，全面测试机器人复杂感知与协作。
[2025.12][ arXiv 2025 - 多模态LLM低空无人机基准 - MM-UAVBench ] How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios? [arxiv] [hjfy] [github] New
- 团队：戴世琦(Shiqi Dai)-清华、马子智(Zizhi Ma)-南开、陈驰(Chi Chen)-清华、孙茂松(Maosong Sun)-清华
- 概览：提出面向低空无人机场景的多模态大模型综合评测基准MM-UAVBench，系统评估MLLM在感知、认知和规划三个维度的能力。
[2025.12][ NeurIPS 2025 - 开放式真实世界模拟器 - SimWorld ] An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds [arxiv] [hjfy] [project] New
- 团队：Jiawei Ren-加州大学圣地亚哥分校(UCSD)、Tianmin Shu-约翰霍普金斯大学(JHU)、Zhiting Hu-加州大学圣地亚哥分校(UCSD)
- 概览：基于虚幻引擎5（UE5）构建的开放式沙盒模拟器。支持语言驱动的程序化场景生成、多模态智能体交互和高度拟真的物理及社会规则，专为评测前沿大模型代理（如GPT-4o）的长程推理能力而生。
[2025.11][ AAAI 2026 - 多无人机协同感知推理基准 - AirCopBench ] A Benchmark for Multi-drone Collaborative Embodied Perception and Reasoning [arxiv] [hjfy] New
- 团队：扎继荣(Jirong Zha)-清华深圳、高晨(Chen Gao)-清华、陈新雷(Xinlei Chen)-清华深圳、范宇轩-港科广(HKUST-GZ)
- 概览：提出首个多无人机协同的具身感知与推理基准，包含超过1.4万个VQA问答对。着重考察多模态大模型在遮挡、信号丢失等真实"感知退化"场景下的多视角融合与决策推理能力。
[2025.09][ AAAI 2026 - 多无人机集群自主飞行数据集 - U2UData+ ] A Scalable Swarm UAVs Autonomous Flight Dataset for Embodied Long-horizon Tasks [arxiv] [hjfy] New
- 团队：冯桐桐(Tongtong Feng)-清华、王鑫(Xin Wang)-清华、朱文武(Wenwu Zhu)-清华
- 概览：提出首个面向具身长时程任务的大规模多无人机集群自主飞行数据集，由15架无人机协同采集，涵盖12个场景、720条轨迹、120小时飞行数据，并提供可扩展的在线数据采集与闭环验证平台。
[2025.08][ ACM MM 2025 - 开放世界空中目标导航基准 - UAV-ON ] A Benchmark for Open-World Object Goal Navigation with Aerial Agents [arxiv] [hjfy] New
- 团队：肖建强(Jianqiang Xiao)-哈工大(深圳)、邓翔(Xiang Deng)-哈工大(深圳)
- 概览：提出首个面向开放世界的无人机目标导航基准UAV-ON，包含14个高保真虚幻引擎环境和1270个标注目标，定义了基于语义目标描述的大规模空中ObjectNav任务。
[2025.05][ arXiv 2025 - 无人机具身智能评测基准 - BEDI ] A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs [arxiv] [hjfy] [github]
- 团队：郭明宁(Mingning Guo)-中南大学、陶超(Chao Tao)-中南大学、李海峰(Haifeng Li)-中南大学
- 概览：提出了一个用于评估无人机具身智能体（Embodied Agents）的全面基准，包含基于感知-决策-动作循环的标准化子任务，并提供了混合测试平台。
[2025.05][ arXiv 2025 - 大规模真实世界模仿学习基准 ] Uav-flow colosseo: A real-world benchmark for flying-on-a-word uav imitation learning [arxiv] [hjfy] [project]
- 团队：王翔宇(Xiangyu Wang)-北航、刘偲(Si Liu)-CoLab-北航、廖越(Yue Liao)-MMLab-港中文(CUHK)、李鸿升-MMLab-港中文(CUHK)
- 概览：收集了大量真实世界飞行数据，侧重于细粒度语言指令控制下的无人机模仿学习，直面Sim-to-Real难题。
[2025.04][ ICCV 2025 - 空中视觉定位基准 - AerialVG ] A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations [arxiv] [hjfy] New
- 团队：刘俊利(Junli Liu)-上海AI Lab/西工大、王志刚(Zhigang Wang)-西工大、李学龙(Xuelong Li)-中国电信TeleAI、赵斌(Bin Zhao)-上海AI Lab
- 概览：提出首个面向空中视角的视觉定位（Visual Grounding）基准AerialVG，包含5K真实航拍图像和50K人工标注描述，强调空间位置关系推理，并设计层次交叉注意力与关系感知定位模块。

2024

[2024.11][ ICCV 2025 - 无人机视频转BEV地理定位 - Video2BEV ] Transforming Drone Videos to BEVs for Video-based Geo-localization [arxiv] [hjfy] New
- 团队：郝菊(Hao Ju)-澳门大学(UM)、郑哲东(Zhedong Zheng)-澳门大学(UM)、刘偲-北航
- 概览：针对单张无人机图像地理定位易受遮挡和视角局限的问题，提出 Video2BEV 范式。利用 3D 高斯喷溅（3DGS）将连续的无人机视频流三维重建并投影为无畸变的鸟瞰图（BEV），大幅提高跨视角匹配准确率，并发布了首个基于视频的无人机地理定位数据集 UniV。
[2024.10][ ICLR 2025 - 真实感UAV导航基准与大模型方法 ] Towards realistic uav vision-language navigation: Platform, benchmark, and methodology [arxiv] [hjfy] [github] End-to-end LLaMA AirSim+UE4
- 团队：王向宇(Xiangyu Wang)-北航、廖越(Yue Liao)-MMLab-港中文(CUHK)、李鸿升(Hongsheng Li)-MMLab-港中文(CUHK)、刘偲(Si Liu)-CoLab-北航
- 概览：构建了基于虚幻引擎的连续飞行导航基准，并提出了基于多模态大模型的层次化轨迹生成方法。
[2024.06][ ICCV 2025 - 大规模真实世界空中导航数据集 - CityNav ] A Large-Scale Dataset for Real-World Aerial Navigation [arxiv] [hjfy] New Benchmark CityFlight
- 团队：Jungdae Lee-东京科学大学(IST)、Taiki Miyanishi-东京大学(UTokyo)、Nakamasa Inoue-东京科学大学(IST)
- 概览：提出首个大规模真实世界空中VLN数据集CityNav，包含32637条人类示范轨迹覆盖剑桥和伯明翰两座城市4.65km²，并提供地理语义地图辅助导航。
[2024/10] UAV Geo-Localization Dataset and Method Based on Cross-View Matching [mdpi] New
- 团队：Yuwen Yao-浙江水利水电学院、Cheng Sun-杭州电子科技大学
- 概览：提出了一个由数字孪生技术（结合真实环境3D建模与虚拟投影）生成的跨视角定位数据集 VDUAV，并建立了一个多尺度特征自适应加权融合的基线模型 VRLM，有效匹配无人机视角与卫星视角进行定位。

2023

[2023.08][ ICCV 2023 - 开篇之作 - AerialVLN ] Vision-and-Language Navigation for UAVs [arxiv] [hjfy] [github] End-to-end CMA AirSim+UE4
- 团队：刘树博(Shubo Liu)-西工大、张洪生(Hongsheng Zhang)-西工大、吴琦(Qi Wu)-阿德莱德(Adelaide)、王鹏-西工大、张艳宁-西工大
- 个人评价：benchmark 不好用，复现结果不一致，算力要求一般

📦 Dataset Comparison

数据集	环境	规模	指令粒度	传感器	类型	备注
AerialVLN/S	25 城市场景	8,446/3,916	分步	RGB-D	Virtual	早期 3D，飞手轨迹
CityNav	剑桥+伯明翰	32,637	分步	RGB-D	Real	真人演示轨迹
OpenFly	18 场景，150+ km²	100k	高层	RGB-D, LiDAR, PC	Real→Virtual	多引擎，跨场景
AVDN	全球卫星	3,064	对话/混合	RGB	Real	xView 卫星图
OpenUAV	22 多样场景	12k	混合	RGB-D(5), LiDAR, IMU, GPS	Virtual	城/乡/林/沙漠
IndoorUAV	室内连续环境	大规模	长/短程混合	RGB-D	Virtual	首个室内 UAV-VLN
EmbodiedCity	北京 CBD	大规模	具身任务	RGB-D, Seg, IMU, GPS	Real(重建)	动态行人/车辆
AirNav	真实城市航拍	大规模	自然多样	RGB	Real	自然语言指令

规模 = 轨迹数量 · 指令粒度 = 指令描述层级 · 类型：Virtual（仅模拟）/ Real（真实采集）/ Real→Virtual（真实数据重建为仿真）

🎮 Simulator Comparison

模拟器	引擎	环境	类型	传感器	核心特性
AerialVLN	UE4 + AirSim	25 城市场景	Virtual	RGB-D	首个 UAV-VLN 仿真器，870+ 物体，4-DoF
OpenUAV	UE4 + AirSim	22 郊区/自然场景	Virtual	RGB-D, IMU, GPS	6-DoF，天气/光照变化，复杂动力学
OpenFly	UE4/5, GTA-V, GE, 3DGS	18 场景，150+ km²	Real→Virtual	RGB, D	统一 API，多渲染引擎，跨场景泛化
CityNav	WebGL (Potree)	剑桥+伯明翰 (8.7 km²)	Real(重建)	RGB, D (PC)	真实 3D 重建，地理语义图
EmbodiedCity	UE5 + AirSim	北京 CBD	Real(重建)	RGB-D, Seg, IMU, GPS	动态行人/车辆，高精度还原
SimWorld	UE5	程序生成场景	Virtual	多模态	沙盒式，语言驱动场景生成

类型：Virtual（仅软件）/ Real（涉及硬件）/ Real→Virtual（真实数据重建为仿真）

🔄 Sim-to-Real

论文	方法	核心贡献
AutoFly (ICLR 2026)	伪深度编码器 + 端到端 VLA	引入伪深度增强 RGB-only 空间推理, 在真实野外环境中验证
SOUS VIDE (arXiv 2024)	3D Gaussian Splatting	在 3DGS 重建环境中训练策略, 直接迁移到真实无人机
Fly-DA (arXiv 2025)	域适应 + RL	通过域随机化与自适应在 3DGS 仿真与真实环境间迁移
OnFly (arXiv 2026)	零样本 + 语义-几何验证	全机载零样本框架, 无需仿真训练直接在真机部署
See, Point, Fly (CoRL 2025)	VLM 零样本 + 针孔模型	2D 像素 → 3D 位移, 零训练在真实无人机上飞行

❗ Sim-to-Real 是落地关键环节，本板块持续征集。 如有相关论文、域随机化/系统辨识技术、或真机演示视频，欢迎通过 PR / Issue 补充！

📝 Surveys & Perspectives

[2026.04][ arXiv 2026 - 迈向大模型时代的空中VLN综述 ] Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language Models [arxiv] [hjfy]
- 团队：夏星宇(Xingyu Xia)-中国军事科学院国防创新研究院、朱海(Hai Zhu)-中国军事科学院国防创新研究院、周乐凯(Lekai Zhou)-中科院空天信息创新研究院
- 概览：深度聚焦于大语言模型（LLM）和视觉语言模型（VLM）在空中导航中的整合。将领域方法划分为端到端大模型、分层架构、多智能体及对话驱动导航等类别，并深刻剖析了离散/连续动作空间与虚实迁移（Sim-to-Real）等七大开放性难题。
[2026.04][ arXiv 2026 - UAV-VLN进展、挑战与路线图 ] Vision-and-Language Navigation for UAVs: Progress, Challenges, and a Research Roadmap [arxiv] [hjfy]
- 团队：陈翰煊(Hanxuan Chen)-道通智能(Autel Robotics)、裴吉(Ji Pei)-道通智能(Autel Robotics)、郑杰-南京大学、郭瀚中-港大(HKU)
- 概览：从正式的任务定义（POMDP与连续环境）出发，梳理了从早期深度学习到当今基于多模态大模型（VLM）、视觉-语言-动作（VLA）模型以及"生成式世界模型（World Models）"结合的技术演进路线图。
[2026.04][ Preprints 2026 - 无人机与双臂操作的VLA大模型综述 ] Vision-Language-Action (VLA) Models for Unmanned Aerial Robotics and Bimanual Manipulation: A Review [link] New
- 团队：详见 preprints.org 原文（页面需手动访问获取作者列表）
- 概览：横跨2017-2026年的近200篇文献，创新性地将"无人机导航控制"与"双臂机器人操作"这两种高自由度（7+ DoF）的具身场景放在一起对比，总结了 VLA 架构、动作表征及训练配方在这两类硬件上的迁移与应用。
[2025.01][ Information Fusion 2025 - 无人机与LLM综述 ] UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility [arxiv] [hjfy] New
- 团队：田永霖(Yonglin Tian)-中科院自动化所、林飞(Fei Lin)-中科院自动化所、王飞跃-中科院自动化所、张腾超-北理工
- 概览：系统综述了LLM与无人机系统的融合，涵盖自主决策、人机交互、实时适应等方面，提出面向智能低空机动的代理化框架愿景。
[2024.08][ The Innovation 2025 - 首篇空中具身VLN全面综述 - AeroVerse-Review ] AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models [arxiv] [hjfy] New
- 团队：姚方龙(Fanglong Yao)-中科院空天信息创新研究院、岳元昌(Yuanchang Yue)-中科院空天信息创新研究院、刘友志(Youzhi Liu)-中科院空天信息创新研究院、孙显(Xian Sun)-中科院空天信息创新研究院、傅坤(Kun Fu)-中科院空天信息创新研究院
- 概览：这是该领域首篇极具系统性的全面综述。详细梳理了主流的无人机仿真模拟器（Simulators）的核心差异，将方法论演进从单机导航总结到了多机协同，并为未来的"空天地一体化无人系统"和"具身世界模型"指明了发展方向。

📌 Other Foundational Works

1. VLA Foundation Models

涵盖语义与三维空间的对齐、自然语言到物理坐标或控制信号的映射基础。

[2025.09][ ICLR 2026 - 跨具身导航基础模型 - NavFoM ] Embodied Navigation Foundation Model [arxiv] [hjfy] [project] New
- 团队：张嘉钊(Jiazhao Zhang)-北大、王鹤(He Wang)-北大、高飞-浙大、吴琦(Qi Wu)-阿德莱德(Adelaide)
- 概览：提出了一个跨智能体（四足、无人机、轮式、汽车）和跨任务的具身导航基础模型，在800万导航数据上训练，通过创新性的时空视角指示Token（TVI），无需微调即可统一处理零样本泛化导航。
[2025.06][ CVPR 2026 - 通用具身导航大模型 - OctoNav ] Towards Generalist Embodied Navigation [arxiv] [hjfy] New
- 团队：高晨(Chen Gao)-北航、刘偲(Si Liu)-北航、张嘉钊-北大、王鹤-北大
- 概览：探索通用具身导航的统一框架，旨在构建一个跨任务、跨智能体（包含无人机、轮式机器人等）的导航基础模型底座，大幅提升智能体在复杂物理环境中的零样本泛化导航能力。
[2025.06][ arXiv 2025 - VLA测试时缩放定律 - RoboMonkey ] Scaling Test-Time Sampling and Verification for Vision-Language-Action Models [arxiv] [hjfy] [project] New
- 团队：Jacky Kwok-斯坦福(Stanford)、Marco Pavone-斯坦福(Stanford)、Azalia Mirhoseini-斯坦福(Stanford)、Ion Stoica-伯克利(UC Berkeley)
- 概览：探索了VLA的"测试时计算缩放定律（Test-time Scaling）"，提出RoboMonkey框架，在部署时通过动作的高斯扰动多次采样、投票并配合VLM验证器选择最优动作，大幅提升机器人OOD泛化性。
[2025.06][ arXiv 2025 - 自回归动作世界模型 - WorldVLA ] Towards Autoregressive Action World Model [arxiv] [hjfy] New
- 团队：岑骏(Jun Cen)-阿里达摩院(Alibaba DAMO)、赵德利(Deli Zhao)-阿里达摩院(Alibaba DAMO)
- 概览：朝着自回归动作世界模型的方向探索，将状态转移预测与视觉-语言-动作策略统一在一个自回归生成框架下，提升机器人在复杂场景下的闭环动作生成能力。
[2025.03][ CVPR 2025 - 通用零样本目标导航 - UniGoal ] Towards Universal Zero-shot Goal-oriented Navigation [arxiv] [hjfy] New
- 团队：殷航(Hang Yin)-清华、徐秀伟(Xiuwei Xu)-清华、卢继文(Jiwen Lu)-清华
- 概览：提出通用零样本目标导航统一框架，利用统一图表示将物体类别、实例图像和文本描述三类目标统一建模，结合在线场景图维护与LLM图匹配推理，单一模型在三种导航任务上均达到SOTA零样本性能。
[2024.10][ arXiv 2024 - 真实城市环境具身Agent基准 - EmbodiedCity ] EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [arxiv] [hjfy] [github] New
- 团队：高晨(Chen Gao)-清华、赵百宁(Baining Zhao)-清华、张伟晨(Weichen Zhang)-清华、毛金珠(Jinzhu Mao)-清华、李勇(Yong Li)-清华、陈新磊(Xinlei Chen)-清华
- 概览：提出真实世界城市级具身智能基准平台EmbodiedCity，覆盖街景导航、交互和长距离目标搜索等任务，为跨具身（包括无人机）的城市级Agent评测提供统一框架。
[2024.02][ arXiv 2024 - 迭代视觉提示激发VLM可执行知识 - PIVOT ] PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [arxiv] [hjfy] [project] New
- 团队：Soroush Nasiriany-Google DeepMind、Fei Xia-Google DeepMind、Chelsea Finn-斯坦福(Stanford)、Sergey Levine-伯克利(UC Berkeley)、Brian Ichter-Google DeepMind
- 概览：提出迭代视觉提示框架PIVOT，通过在图像上叠加候选动作的可视化标注让VLM直接选择具身动作，无需微调即可将预训练VLM转化为零样本机器人策略，在导航和操作任务上效果显著。
[2025/X][ CVPR 2025 ] Towards Precise Embodied Dialogue Localization via Causality Guided Diffusion [cvf] New
- 团队：王乐(Le Wang)-西交
- 概览：摒弃传统将坐标定位视为受限于分辨率的"热力图生成"思路，利用因果引导的扩散模型（CGD）直接预测连续坐标分布，并通过前门和后门干预机制有效消除了数据集本身隐藏的混杂偏见。

2. World Models

涵盖结合物理控制动作的未来场景生成与环境预测。

[2025.12][ arXiv 2025 - 视觉语言世界模型导航预测 - NavForesee ] A Unified Vision-Language World Model for Hierarchical Planning and Dual-Horizon Navigation Prediction [arxiv] [hjfy] New
- 团队：刘飞(Fei Liu)-阿里高德(Amap)、谢世超(Shichao Xie)-阿里高德(Amap)、储泽东(Zedong Chu)-阿里高德(Amap)、吴小龙(Xiaolong Wu)-阿里高德(Amap)
- 概览：提出了一种统一的视觉语言世界模型，将大语言模型的高级分层规划与世界模型的"双层视野预测（短期动态与长期里程碑想象）"相结合，解决了智能体在未见环境长时程导航时容易迷失的问题。
[2025.10][ ICLR 2026 - 世界模型放大数据缩放定律 - DriveVLA-W0 ] World Models Amplify Data Scaling Law in Autonomous Driving [arxiv] [hjfy] New
- 团队：李颖妍(Yingyan Li)-中科院自动化所、商舒瑶(Shuyao Shang)-中科院自动化所、范略(Lue Fan)-中科院自动化所、张兆翔(Zhaoxiang Zhang)-中科院自动化所
- 概览：揭示了仅靠低维动作监督训练VLA会导致"监督匮乏"，创新性引入世界模型预测未来画面作为密集自监督信号，证明了世界模型能像催化剂一样放大端到端自动驾驶模型的数据Scaling Law。
[2025.06][ ICCV 2025 - VLN自进化世界模型 - NavMorph ] A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments [arxiv] [hjfy] New
- 团队：姚轩(Xuan Yao)-中科院自动化所、高俊宇(Junyu Gao)-中科院自动化所、徐常胜(Changsheng Xu)-中科院自动化所
- 概览：提出自进化世界模型NavMorph，利用紧凑潜在表示建模环境动态，结合上下文进化记忆（Contextual Evolution Memory）实现在线自适应，在VLN-CE基准上显著提升导航性能。
[2024.06][ ICLR 2025 - 潜在世界模型增强端到端驾驶 - LAW ] Enhancing End-to-End Autonomous Driving with Latent World Model [arxiv] [hjfy] New
- 团队：李颖妍(Yingyan Li)-中科院自动化所、陈云焘-港中科院CAIR、张兆翔(Zhaoxiang Zhang)-中科院自动化所、谭铁牛-中科院
- 概览：通过引入潜在空间的世界模型（Latent World Model）增强端到端自动驾驶能力，利用环境预测能力解决轨迹规划中的长时程推理与安全性问题。
[2022.12][ CVPR 2023 Best Paper - 规划导向端到端自动驾驶 - UniAD ] Planning-oriented Autonomous Driving [arxiv] [hjfy] [github] New
- 团队：代季峰-上海AI Lab、乔宇-上海AI Lab、李弘扬-上海AI Lab
- 概览：自动驾驶领域的里程碑工作（CVPR最佳论文），提出了首个以规划为导向的端到端自动驾驶统一框架UniAD，利用统一的Query设计将感知、预测和规划节点相连，显著提升安全性。
[2026/X][ ICLR 2026 - DroneDreamer ] Multi-View Low-Altitude World Model with Adaptive Control [openreview] [github] New
- 团队：李勇(Yong Li)-清华、高晨(Chen Gao)-清华
- 概览：首个聚焦于"低空飞行"的生成式世界模型（LAWM）。引入自适应视角控制机制与图像风格域适应技术，仅通过单一前视条件输入即可生成高度一致的无人机环视飞行预测视频。
[2025/X][ ACM MM 2025 - AirScape ] An Aerial Generative World Model with Motion Controllability [arxiv] [hjfy] New
- 团队：李勇(Yong Li)-清华、陈新雷(Xinlei Chen)-清华
- 概览：赋予无人机"空间想象力"的世界模型基础工作。使用两阶段训练计划（动作意图注入+时空物理约束博弈对抗），输入当前视觉和飞行指令即可生成高度真实的未来视角切换视频。

3. Multimodal Foundation Models

涵盖大语言模型定律、视觉特征提取底座及图文理解基座模型。

[2020/01] Scaling Laws for Neural Language Models [arxiv] [hjfy] New
- 团队：Jared Kaplan-OpenAI
- 概览：大语言模型（LLM）算力与数据扩展的基石论文。揭示了模型性能与算力、模型参数量和数据集规模之间呈幂律缩放关系，启发了后续大模型（包括具身VLA模型）的一系列参数缩放革命。
[2023/X][ DINOv2 ] Learning Robust Visual Features without Supervision [arxiv] [hjfy] [github] New
- 团队：Maxime Oquab-Meta AI、Timothée Darcet-Meta AI
- 概览：视觉基础模型代表作。利用1.42亿高质量清洗数据进行自监督学习，训练出具有极强泛化特征的ViT基座模型，其特征不仅直接支持分类，还能无需微调广泛用于像素级密集预测与深度估计。
[2025/X] Qwen3-VL Technical Report [arxiv] [hjfy] New
- 团队：阿里巴巴(Alibaba Qwen Team)
- 概览：全能型视觉-语言基座模型，不仅在纯文本推理上没有衰减，其最强亮点是原生支持高达 256K Token 的超长上下文混排输入。轻松拿捏长达两个小时的视频信息抽取与多页视觉复杂文档分析。

4. 3D Scene & Reconstruction

涵盖无人机对物理环境的三维建模、几何表达与渲染技术。

[2023/X][ SIGGRAPH 2023 ] 3D Gaussian Splatting for Real-Time Radiance Field Rendering [arxiv] [hjfy] New
- 团队：Bernhard Kerbl-维也纳工大(TU Wien)、Georges Drettakis-蔚蓝海岸大学(Inria)
- 概览：3DGS开山之作。摒弃了NeRF庞大的MLP隐式体渲染计算，直接将场景表示为无数可微分的带向三维高斯椭球，利用光栅化实现了照片级的高速（100+ FPS）实时三维渲染。
[2025/X][ AAAI 2025 - GigaGS ] Scaling up Planar-Based 3D Gaussians for Large Scene Surface Reconstruction [arxiv] [hjfy] New
- 团队：章国锋(Guofeng Zhang)-浙大、上海AI Lab
- 概览：针对大规模场景的 3DGS 重建面临的显存爆炸与几何不一致痛点，提出一种基于区域可见性的分块训练策略，并融合细节层次(LoD)的多视角光度一致性约束，实现了极高精度的城市场景表面重建。

5. UAV Visual Perception

涵盖传统空中视角的2D/3D目标检测、多机协同感知等基础视觉任务。

[2025.11][ AAAI 2026 - UAV场景指代多目标跟踪 - AerialMind ] Towards Referring Multi-Object Tracking in UAV Scenarios [arxiv] [hjfy] New
- 团队：陈成立钊(Chenglizhao Chen)-中国海洋大学、梁少锋(Shaofeng Liang)-中国海洋大学、关润伟(Runwei Guan)-港科广(HKUST-GZ)、孙小楼-东南、丁恒辉-复旦、Qing-Long Han-斯威本(Swinburne)
- 概览：提出首个面向无人机场景的大规模指代多目标跟踪（RMOT）基准AerialMind，开发半自动协作标注框架COALA降低标注成本，并提出HawkEyeTrack方法协同增强视觉-语言表征学习，提升UAV场景感知能力。
[2024/X][ IEEE TGRS 2024 - UCDNet ] Multi-UAV Collaborative 3D Object Detection Network by Reliable Feature Mapping [arxiv] [hjfy] New
- 团队：孙显(Xian Sun)-中科院
- 概览：面向多无人机协同的3D目标检测基础工作，创新性引入"对地深度先验"与"同源点几何一致性损失"，解决了远距离空中观测导致跨视图特征对齐困难的问题。

🔗 Related Works

jonyzhang2023/awesome-embodied-vla-va-vln — 具身 AI 前沿研究汇总（VLA / VLN / 多模态学习）
Hub-Tian/UAVs_Meet_LLMs — 无人机 × 大语言模型相关工作
Jiaaqiliu/Awesome-VLA-Robotics — 机器人领域 VLA 论文与资源
TheBrainLab/Awesome-VLA-UAVs — 面向无人机的 VLA/VLN 资源
Sautenich/Awesome-Aerial-Vision-Language-Navigation — 空中视觉语言导航资源
earth-insights/awesome-uav-vln — UAV-VLN 精选集
20bytes/Aerial-VLN-Arxiv-Daily — 本人维护的每日 arXiv 自动追踪

条目规范 — 详见 CLAUDE.md：标题行 + 团队行 + 概览行的中文撰写标准（含 Method/Backbone/Env 技术标签）。

🚁 空中具身智能论文精选

📋 Table of Contents

🤖 VLA Models & End-to-End Navigation

2026

2025

2024

2023

🗺️ Zero-Shot Navigation & Exploration

2026

2025

2024

📊 Benchmarks, Datasets & Simulation

2026

2025

2024

2023

📦 Dataset Comparison

🎮 Simulator Comparison

🔄 Sim-to-Real

📝 Surveys & Perspectives

📌 Other Foundational Works

1. VLA Foundation Models

2. World Models

3. Multimodal Foundation Models

4. 3D Scene & Reconstruction

5. UAV Visual Perception

🔗 Related Works