低空 UAV-VLN 到 UAV-VLA:一条更稳的研究主线
围绕低空无人机任务,系统梳理从 Aerial VLN 到 navigation-centric Aerial VLA 的主线论文、数据集、平台、复现顺序与论文切口。
如果把方向直接写成“低空 VLA 大模型”,它听起来足够大,也足够新,但很容易在真正开始复现和选题时迅速失焦。
更关键的问题从来不是名字够不够前沿,而是三件事:
- 任务边界能不能讲清
- 主线 benchmark 和平台能不能真的跑起来
- 第一篇论文能不能切在一个既稳、又不失前沿性的地方
这篇文章基于一套已经收束到 v3-final 的调研材料,不再按“论文列表”展开,而是按真正做研究需要的顺序重组信息:
- 先讲任务边界与动作接口
- 再讲主线论文、平台和复现优先级
- 最后收束到论文切口与导师 proposal 的表达方式
我最后认同的核心判断很明确:
研一阶段更稳的路线,不是直接追一个泛化很大的“端到端低空 VLA”,而是先以
Aerial VLN为底座,再扩展到navigation-centric Aerial VLA。
一图总览#
如果只记住这篇文章的一句话,那就是:
主线先走
AerialVLN -> CityNav -> OpenUAV / TravelUAV -> OpenFly,再把输出接口从导航结果扩展到任务级动作、交互动作与安全动作。
为了让后面的长文更好读,先把结论压成三行:
Aerial VLN是当前最成熟、最适合起步的任务底座。- 真正值得做的
Aerial VLA,应该优先落在A4 + A5的 navigation-centric action space,而不是一上来追最重的连续控制或物理操作。 - 第一篇论文最稳的切口,是在成熟 VLN 主线上补 task-level action head 与 safety-aware evaluation。
一、先把核心结论说清楚#
这份调研最重要的一句话不是某篇论文的 claim,而是下面这个方向判断:
以 Aerial VLN 为底座,扩展到 navigation-centric Aerial VLA。text这句话背后有三层意思:
- 低空无人机研究不能一上来就泛讲“具身大模型”。
- 现阶段真正成熟的是视觉语言导航主线,而不是统一的 aerial VLA 生态。
- 更稳的做法,是先把导航问题、benchmark 和平台跑顺,再把输出接口扩展为任务级动作、交互动作和安全动作。
换成更适合对外表达的题目,可以写成:
Navigation-centric Aerial VLA for Low-altitude UAV Tasks
也就是:
- 先解决语言引导导航
- 再引入低空作业动作
- 再把安全、交互、过程评测补全
二、Aerial VLN 和 Aerial VLA 到底差在哪#
这份材料最清楚的一点,是它不拿“VLA”当营销词,而是严格按任务和接口来区分。
1. Aerial VLN 是任务范式#
Aerial Vision-Language Navigation 讨论的是:
无人机如何根据自然语言和视觉观测完成目标到达、路径跟随、地标定位或导航辅助。
它的输入通常是:
- language instruction
- visual observations
- optional pose / map / depth / history / odometry
它的输出可以是:
- goal
- landmark
- waypoint
- route
- discrete navigation action
- stop signal
也就是说,VLN 更强调:
- 目标理解
- 路径规划
- 视觉-语言 grounding
- 是否成功到达
2. Aerial VLA 是动作生成接口#
Aerial Vision-Language-Action 讨论的是:
模型是否直接或分层地产生进入闭环执行的动作。
这里的动作不只是一串底层控制量,也包括更高层的任务动作。
材料里给出的动作空间很完整:
- continuous control:
vx, vy, vz, yaw_rate, attitude, thrust - discrete navigation actions
- skill actions
- interaction actions
- physical manipulation actions
所以更准确的说法不是“VLA 必须有机械臂”,而是:
只要模型输出进入闭环执行,它就已经在 VLA 语境里了。
3. 最有用的理解方式:按动作接口分层#
这份调研把 action interface 分成了 A0-A6 六个层级,这个视角非常有用:
| Level | 输出接口 | 例子 | 更像什么 |
|---|---|---|---|
| A0 | 目标/地标 | red building, bridge | grounding / modular VLN |
| A1 | 航点/路径 | route, trajectory | waypoint-based VLN |
| A2 | 离散导航动作 | forward / left / stop | end-to-end VLN / weak VLA |
| A3 | 连续飞控动作 | vx, vy, vz, yaw_rate | locomotion Aerial VLA |
| A4 | 任务级技能动作 | NAVIGATE, APPROACH, ORBIT, CAPTURE, LAND | navigation-centric Aerial VLA |
| A5 | 交互动作 | ASK, CONFIRM, REPLAN, SAFE_STOP | interactive Aerial VLA |
| A6 | 物理操作动作 | DROP, RELEASE, GRASP, DOCK | full aerial manipulation VLA |
这也是为什么这份调研明确提出:
对低空任务最重要的不是一上来追 A3 或 A6,而是先把
A4 + A5建起来。
三、为什么不能直接泛讲“低空 VLA”#
如果把方向直接写成“低空 VLA”,看起来很大,但研究上会立刻遇到三个问题:
- 边界太宽
- benchmark 不稳
- 第一篇论文不好切
因为“低空 VLA”很容易把这些问题混在一起:
- 低空视觉语言导航
- 城市级地理语义推理
- 连续飞行控制
- 对话式决策
- 跟踪、巡检、拍摄、降落、返航
- 物理交互
- 多机协同
老师追问的时候,通常会卡在这些地方:
- 你的任务到底是什么?
- benchmark 是什么?
- action 到底定义在哪一层?
- 你是在做导航,还是做 controller,还是做 embodied manipulation?
所以这份调研明确反对两种说法:
- 把低空 VLA 讲成一个泛化很大的“无人机具身大模型故事”
- 把所有 UAV VLM reasoning 都算进 VLA
它推荐的更稳表达是:
从语言引导导航走向低空任务级动作执行。
四、这个方向真正成熟的主线是什么#
这套调研最后收束出的主路线非常清楚:
AerialVLN
->
CityNav
->
OpenUAV / TravelUAV
->
OpenFly
->
navigation-centric Aerial VLAtext这条主线之所以重要,不只是因为它列出了几篇论文,而是因为它对应了一条逐步提升真实度和动作复杂度的研究路径。
1. AerialVLN:canonical 起点#
AerialVLN 是第一代 canonical aerial VLN benchmark。
它把无人机导航正式放进了:
- 户外
- 第一视角
- 城市级场景
- 语言条件导航
这让后续很多工作都可以共享一套基本任务语境。
2. CityNav:真实城市 grounding#
CityNav 的意义在于,它把问题推进到:
- real-world 3D city scans
- geographic grounding
- long-horizon urban semantics
也就是说,从这里开始,问题已经不只是“合成场景里飞得对不对”,而是“城市语义、地图和目标描述能不能真正对上”。
3. OpenUAV / TravelUAV:realistic UAV-VLN#
这条线的重要性是,它把 aerial VLN 往 realistic execution 推了一大步:
- 更真实的连续飞行
- 多视角感知
- assistant-guided benchmark
- 更接近闭环执行的问题设定
这也是为什么这份调研把它放在从 VLN 走向 VLA 的桥梁位置。
4. OpenFly:平台化与规模化#
OpenFly 的作用,不只是“更大”,而是:
- 把 aerial VLN 工具链化
- 把数据生成规模化
- 把 benchmark 和平台层连接起来
它更像长期主线平台,而不是第一阶段最容易上手的 baseline。
五、这个方向是怎么发展到今天的#
这套材料把时间线理得很清楚,基本可以看成五个阶段。
2018:地面 VLN 与早期 aerial 影子#
R2R把 ground VLN 变成 mainstream embodied task。LANI引入了 aerial-perspective instruction/trajectory 数据。- 这时已经能看到四旋翼语言控制的雏形,但还谈不上成熟 aerial VLN。
2020-2022:对话分支出现#
VLN-CE强化了连续环境 VLN 的重要性。AVDN打开了 dialog-based aerial navigation 这一支。
2023:canonical baseline 成形#
AerialVLN成为第一代 outdoor UAV VLN benchmark。TG-GAT成为 AVDN 支线上最早的一批强方法。
2024-2025:realism、平台和 reasoning 开始扩张#
CityNav把重心推向 real-city grounding。OpenUAV / TravelUAV把连续 6-DoF、assistant guidance 和 realism 推上来。OpenFly把平台和 toolchain 的规模做大。CityNavAgent、FlightGPT、GeoNav、SkyVLN、LookasideVLN等工作把 LLM/VLM reasoning、memory、dual-scale planning 接到了 aerial VLN 上。FELA等后续工作把对话导航里的细粒度对齐做得更深。
2026:从 survey 到 aerial VLA#
- 总览型 survey 正式把任务、方法、数据集、simulator、metrics 和 open problems 收拢。
AutoFly、AerialVLA Minimalist、AerialVLA Online Dialogue、UAV-Track VLA这些工作,让 aerial VLA 不再只是一个模糊方向,而变成可以按 action interface 具体讨论的研究对象。
所以今天更合理的判断不是:
“低空 VLA 已经全面成熟”
而是:
“低空 / 空中方向正在从成熟的 aerial VLN,逐步走向更强的 action-centric aerial VLA。”
六、这份调研为什么可信:它不是堆论文,而是按方法论构建的#
这版材料很完整,一个关键原因是它连“怎么调研”都做了显式设计。
1. 检索策略不是靠标题硬搜#
它明确规定:
- 从 seed papers 出发
- 看 references
- 查 citations
- 查作者与团队的前后续工作
- 查项目页、GitHub、数据集页
- 单独检索 benchmark、simulator、model name 和 dataset name
主要来源优先级也写得很清楚:
- paper PDF / arXiv / CVF / OpenReview / AAAI OJS
- official project page
- official GitHub / dataset page
- Semantic Scholar / OpenAlex
- blogs / awesome lists 只做发现入口
2. 它对每类对象都定义了统一 schema#
这套材料不是自由摘要,而是给下面几类条目都定义了统一字段:
- paper
- dataset
- benchmark
- simulator / framework
- codebase
- team
比如论文条目至少会记录:
- title / authors / year / source
- task axis / action axis
- input modalities / output space
- dataset / simulator
- main contributions / limitations
- reproducibility level
- quality level
这能明显减少“只记结论,不记上下文”的问题。
3. 它把质量和复现做成了显式等级#
状态分成:
verifiedpartially_verifiedneeds_verificationexcluded
质量等级分成:
Q0到Q5
可复现性分成:
R0到R5
这让“这个工作能不能用”不再只是主观印象,而是有标准的。
4. 它专门防止标题膨胀#
如果某篇论文标题写了 VLA,这份调研不会直接买账,而是继续问:
- 最终输出是不是 action
- 有没有 closed-loop execution
- planner / controller 在里面是不是主角
- action space 到底落在哪一层
- benchmark 和 metrics 是否支持它真是一个 VLA 问题
这条规则非常关键,因为它直接避免了把“带一点动作味道的 VLN”都误当成 aerial VLA。
七、哪些论文应该先读,哪些应该后读#
这份调研给出的阅读顺序非常稳,不是“从最新 VLA 论文开读”,而是:
survey -> dataset/platform -> method -> VLA extension -> benchmark
Week 1:先把领域定义清楚#
第一周最该读的是:
Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language ModelsAerialVLNCityNavTowards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
这四篇负责定义:
- 什么是 aerial VLN
- canonical 主线是谁
- realism 从哪里开始上升
- 为什么后面可以自然延伸到 aerial VLA
Week 2:理解规模、真实度和方法分支#
第二周推荐进入:
OpenFlyAVDNTG-GATFELACityNavAgentFlightGPTGeoNavSkyVLNLookasideVLN
这周的重点不是逐行实现,而是理解:
- 主线 method 怎么演化
- dialog 分支怎么长出来
- LLM/VLM reasoning 是怎么接到 aerial VLN 上的
Week 3:再进入 VLA 扩展层#
这时才建议看:
AutoFlyAerialVLA MinimalistAerialVLA Online DialogueUAV-Track VLA
这说明一个很清楚的判断:
VLA 是建立在更成熟 VLN 底座之上的扩展层,而不是第一天就该跳进去的入口。
Week 4:最后看 broader benchmark#
最后才系统看:
BEDIUAV-Flow ColosseoAeroVerseEmbodiedCityUAV-ON
因为 benchmark 扩张层很重要,但它不应该先于任务定义。
八、最该长期跟踪的团队和机构#
这份材料的另一个强点,是它没有只列论文,而是把值得长期跟踪的团队挖出来了。
1. canonical aerial VLN 源头#
Northwestern Polytechnical University + University of Adelaide- 代表工作:
AerialVLN
2. 大规模平台与 toolchain#
Shanghai AI Laboratory IPEC- 代表工作:
OpenFly
3. realistic UAV-VLN 与 fine-grained control 的桥梁#
Beihang University + CUHK MMLab / CPII + Hangzhou International Innovation Institute- 代表工作:
OpenUAV / TravelUAV,UAV-Flow,AerialVLA Online Dialogue
4. dialog-based aerial navigation 主线#
UCAS + Institute of Automation, CAS + MBZUAI / CMU / Tencent Robotics X- 代表工作:
TG-GAT,FELA
5. real-city grounding 主线#
University of Tokyo / Institute of Science Tokyo / ATR / NII- 代表工作:
CityNav
6. CityNav 之后的 reasoning 方法线#
值得长期跟的是:
EmbodiedCity / Tsinghua-related urban embodied groupSun Yat-Sen University + DP Technology + BUPT + ICT CAS + Tongji + ChulalongkornAerospace Information Research Institute, CAS / UCASHKUST(GZ) Systems Hub / Intelligent TransportationNational University of Defense Technology + Tsinghua University
对应的重要工作包括:
CityNavAgentFlightGPTNavAgentSkyVLNGeoNav
7. aerial VLA 新源头#
值得单独盯住的还有:
AutoFly对应团队AerialVLA Minimalist对应团队UAV-Track VLA对应团队BEDI对应团队Flightmare / UZH RPG这一类 simulator 背景团队
因为这些团队决定了后面 aerial VLA 会往哪里长。
九、哪些数据集和 benchmark 最值得先掌握#
这份材料最实用的一层,是它把“哪个数据集值得先碰”说得很具体。
1. AerialVLN:最稳的 canonical baseline#
它的关键信息包括:
25个城市级场景8,446条路径25,338条指令- 第一视角 RGB / depth
- 离散
4-DoF动作空间 - public code + simulator
这让它成为最适合做第一站的 aerial VLN baseline。
2. CityNav:最强 real-city grounding 入口#
核心特征是:
32,637条人类演示轨迹4.65 km²真实城市区域- real-world 3D point clouds
- RGB-D
- geographic semantic maps
它真正的价值不是“更大”,而是把 aerial VLN 推向真实城市语义和地图推理。
3. TravelUAV / UAV-Need-Help:realism-oriented 平台#
关键特征包括:
12,149条轨迹22个场景89个对象- 多视角 RGB / depth / LiDAR / state
- 连续
6-DoF轨迹
这是从经典导航走向 realistic execution 的最好桥梁之一。
4. OpenFly:长期主线平台#
它的代表性在于:
100ktrajectories18scenes15.6kvocabulary- multi-renderer toolchain
更适合放到主线已经稳定之后,再去做规模化平台。
5. 其他关键 benchmark#
还需要重点记住这些:
AVDN:dialog-based aerial navigationUNOD:online dialogue navigation benchmarkUAV-Flow / UAV-Flow-Sim:fine-grained UAV imitation / controlBEDI:UAV embodied benchmarkUAV-Track VLA benchmark:动态目标跟踪AeroVerse、EmbodiedCity:更宽的 embodied evaluation
十、benchmark 和评测不能只盯 SR / SPL#
这份材料对指标层的判断也很成熟。
1. 经典 VLN 指标仍然要保留#
SRSPLNEOSRnDTW
2. UAV realism 指标必须补上#
进入 realistic 平台之后,还必须看:
- collision rate
- geofence violation rate
- altitude violation rate
- energy / flight time
- trajectory smoothness
- control stability
- timeout rate
- safety stop accuracy
3. 真正进入 VLA 后还要看过程指标#
- action success rate
- task completion rate
- subgoal completion rate
- tool-use success
- tracking success
- average tracking frames
- inference latency
- query count
- useful query ratio
- human intervention count
这也是为什么这套调研一直强调:
不要只看终点成功率,还要看过程质量、安全性和交互成本。
十一、平台层怎么选,决定你是在做研究还是修环境#
这份材料对 simulator / framework 的定位非常清楚。
1. AirSim:老牌主线底座#
优点:
- 学界采用广
- 与
AerialVLN、TravelUAV等主线强绑定 - 视觉和 UAV API 足够成熟
风险:
- 上游已不再是高速演化中的活跃基础设施
结论:适合复现主线,但不要把它误当未来长期唯一平台。
2. PX4 SITL / Gazebo / ArduPilot:更像真实飞控桥#
它们更适合:
- controller-in-the-loop
- realistic flight stack
- multi-vehicle / robotics integration
但不适合作为第一步,因为工程复杂度会迅速淹没研究问题。
3. Flightmare / Isaac Sim:更偏 future VLA#
这些更适合:
- continuous control
- RL-heavy setup
- synthetic data
- sim-to-real future pipeline
它们重要,但不是当前第一入口。
4. OpenFly / OpenUAV / CityFlight:平台层关键节点#
OpenFly:toolchain + benchmark + scaleOpenUAV / TravelUAV:realistic UAV-VLN and continuous executionCityFlight:web-based city grounding collection / simulation
十二、哪些代码库真的能动,哪些还只是论文信号#
这份材料非常明确地区分了可复现性等级。
当前最稳的 R4 主栈#
AirVLN/AirVLNwater-cookie/citynavprince687028/TravelUAVSHAILAB-IPEC/OpenFly-Platform
这些仓库的共同特征是:
- official
- training / evaluation / assets 入口相对完整
- 虽然重,但不是只有论文没有执行面
R3:评测能做,但工程风险更高#
比较典型的是:
CityNavAgentTG-GATAerialVLA MinimalistUAV-FlowBEDIFlightGPT
它们不是没价值,而是:
- 依赖树更复杂
- 训练和评测路径常常分裂
- 外部资源更多
- 需要先有主线经验再进
R1:典型 paper-to-code gap#
这类工作当前不适合作为第一复现目标:
FELA:仓库仍然写Code coming soonAutoFly:更像 project page,不像完整 releaseUAV-Track VLA:样例公开,但完整训练/评测栈还需进一步确认
这类工作适合:
- 阅读
- 方向判断
- 设计 future ablation
但不适合第一轮“必须跑通”的主线。
十三、如果今天开始复现,最稳的路径是什么#
这份材料给出的主线复现顺序非常好,我基本完全认同:
AerialVLN
->
CityNav
->
TravelUAV / OpenUAV
->
AerialVLA Minimalist on TravelUAV
->
OpenFlytextStage 1:AerialVLN#
环境特征:
- Python
3.8 airsim==1.7.0pytorch-transformers==1.2.0
已知风险:
- simulator 资源大
- 端口
30000 - 图像通道顺序要核对
Stage 2:CityNav#
这里更推荐先走 mgp,不要第一天就上完整 vlnce。
环境特征:
- Python
3.10 - PyTorch
2.2.2 - CUDA
11.8 - SoM、LLaVA、GroundingDINO、MobileSAM 等依赖很重
Stage 3:TravelUAV / OpenUAV#
环境特征:
- Python
3.10 torch==2.0.1cu118
已知风险:
requirement.txt和常规命名不一致- README 与脚本文件名不一致
30000/25000端口不统一DDP_MASTER_PORT 80005是无效端口
环境分离规则#
这份材料明确建议:
不要把
AerialVLN、CityNav、TravelUAV、UAV-Flow混进一个 conda 环境。
这是很实际的建议,因为每个栈的 Python / Torch / CUDA / 依赖图都不同。
十四、dialog 和 fine-grained control 支线怎么推进#
这条材料没有把所有问题都塞进主线,而是单独拆了 side track。
支线 A:AVDN -> TG-GAT -> FELA#
这条线最适合研究:
- top-down disambiguation
- query / clarify / ask 行为
- entity-landmark alignment
但它不是默认主线,而是主线稳定后的专题方向。
支线 B:UAV-Flow#
它更适合:
- short-range low-altitude skills
- language-conditioned fine control
- imitation learning 风格的 UAV action execution
但它本身就是两套环境:
openvlaunrealcv
而且默认训练就是 8 卡,显然不适合作为第一条 first-success route。
十五、这份调研真正指出的 research gaps 是什么#
材料里把 open problems 收得很清楚,最后可以压成五个最直接的机会点。
1. discrete-to-continuous mismatch#
当前 aerial VLN 仍大量依赖:
- discrete actions
- synthetic scenes
- planner-controller split
而 aerial VLA 才开始显式处理:
- continuous control
- executable actions
- richer task interfaces
2. safety-aware evaluation 太弱#
传统指标大多只看终点。
但低空 UAV 场景显然还应该看:
- collision
- altitude violation
- geofence
- latency
- safe-stop
- recovery
3. low-altitude task actions 还没有统一定义#
这份材料给出的 compact action vocabulary 很有价值:
NAVIGATE
SEARCH
APPROACH
ORBIT
CAPTURE
TRACK
ASK
SAFE_STOP
REPLAN
LAND
RETURN_HOMEtext这比空泛地说“做低空 VLA”更像一篇可以写出来的论文起点。
4. dialog evaluation 还不成熟#
现在更该看的不是“有没有问”,而是:
- query timing
- query utility
- recovery behavior
5. sim-to-real 还没有被系统打通#
更好的叙事不是只选一个 benchmark,而是把它们看成一条 realism ladder:
AirVLN
->
CityNav
->
TravelUAV / OpenUAV
->
AirNavtext十六、第一篇论文最适合怎么切#
这版材料其实已经把 proposal 级别的思路写出来了。
方向 A:task-level action extension#
这是最稳的第一选择。
核心问题:
能不能把现有 aerial VLN benchmark 上的输出,从 route / discrete action 扩展到 task-level skill actions?
这条线的优势是:
- 贴合“低空 VLA”表述
- 但不脱离成熟 VLN 底座
- 容易引入 safety-aware evaluation
方向 B:CityNav grounding + TravelUAV execution#
核心问题:
能不能把城市级地理语义推理,接到更 realistic 的 UAV execution 上?
这条线很有研究张力,因为它正好补上:
- long-horizon reasoning
- continuous execution
之间的断裂。
方向 C:ask-or-act 的交互式 aerial action#
核心问题:
无人机何时该继续飞,何时该提问?
这条线很前沿,但也明显更高风险,因为 runnable code 和 benchmark 生态还弱于主线。
十七、如果把它收成给老师看的 proposal,最该怎么讲#
这份材料新增的一个很强的部分,是它已经把导师 proposal 也收束出来了。
最值得保留的不是完整标题,而是这一句表述:
我们不把低空 VLA 直接定义成端到端底层飞控,也不把它等同于机械臂操作。更合理的路线,是先以 Aerial VLN 建立 navigation backbone,再把 action space 扩展为低空作业动作和交互 / 安全动作,形成 navigation-centric Aerial VLA。
这句话之所以强,是因为它同时满足三件事:
- 足够前沿
- 足够可复现
- 足够容易切成第一篇论文
如果再压成更简的版本,那就是:
- 先把
AerialVLN -> CityNav -> OpenUAV/TravelUAV -> OpenFly跑顺。 - 再把输出从目标/路径扩展到低空任务级 action。
- 把 safety、process、interaction 评测补进来。
- 第一篇论文优先做
navigation-centric Aerial VLA,而不是空泛追“更大的 UAV VLA”。
十八、最后的判断#
这套 v3 调研真正完成的,不是“证明低空 VLA 很热”,而是把这个方向从一个模糊口号,压成了一条研究上能执行的路线:
更成熟的任务底座:Aerial VLN
更现实的平台推进:CityNav / OpenUAV / TravelUAV / OpenFly
更前沿的接口扩展:navigation-centric Aerial VLA
更像论文的切口:task-level actions + safety/process/interaction evaluationtext所以如果今天要给这个方向下一个最准确的定义,我会写成:
面向低空任务的 navigation-centric Aerial VLA:从视觉语言导航,到安全闭环任务动作执行。
这比泛讲“低空具身大模型”更清楚,也更有机会真的做出第一篇像样的工作。