低空航拍中的 VLA 与 VLN：主线、复现与选题

如果直接把方向写成“低空 VLA 大模型”，它听起来很新，但也很容易失焦。
真正的问题不是名字够不够大，而是任务边界是否清楚、主线是否可复现、第一篇论文能否切得准。

基于一套完整的低空/空中视觉语言研究材料，我最后收束出的判断很明确：

最合理的切入不是直接泛讲“低空 VLA”，而是先以 Aerial VLN 为底座，再扩展到 navigation-centric Aerial VLA。

这篇文章想回答五个问题：

Aerial VLN 和 Aerial VLA 到底怎么区分。
这个方向真正成熟的主线是什么。
哪些数据集、benchmark、平台和代码库最值得优先吃透。
如果今天就开始复现，最稳的路径应该怎么排。
第一篇论文最可能的高质量切口在哪里。

一、为什么不能上来就泛讲“低空 VLA”#

“低空 VLA”这个说法最大的问题不是太前沿，而是太宽。

它很容易把几类其实差别很大的问题混在一起：

无人机视觉语言导航
真实飞控闭环
城市场景中的地理语义推理
低空短程技能动作执行
目标跟踪、搜救、投送、巡检
多机协同、世界模型、具身基准

如果边界不先讲清，后面就会连续出现三个问题：

老师会追问：你的任务到底是什么？
复现会失控：什么都想碰，什么都跑不通。
论文切口会失焦：最后只剩下“想做一个更大的系统”。

所以这套调研的核心结论不是“低空 VLA 很重要”，而是：

先把语言引导导航这条主线讲清，再把输出接口从导航结果扩展到可执行动作。

这就是为什么这条路线最后会落到一句很关键的话：

Aerial VLN 是任务定义，Aerial VLA 是动作生成接口。

二、Aerial VLN 和 Aerial VLA 到底怎么区分#

1. Aerial VLN 是任务#

Aerial VLN 讨论的是：无人机如何根据自然语言指令和视觉观测完成导航。

它的输入通常包括：

语言指令
第一视角或多视角视觉观测
可选的位姿、历史、地图、深度、里程计

它的输出可以是：

目标点
地标
航点
路径
离散导航动作
停止信号

也就是说，VLN 的核心是任务目标：要不要到达、能不能找对、路径是否符合语言条件。

2. Aerial VLA 是接口#

Aerial VLA 讨论的是：模型是否直接或分层地产生可执行动作。

它更关心输出接口，比如：

速度
姿态
yaw rate
6-DoF 轨迹
waypoint-action
技能动作
交互动作

对无人机场景来说，动作不只是一串飞控数值，也可以是更高层的技能：

NAVIGATE
APPROACH
ORBIT
CAPTURE
TRACK
ASK
LAND
RETURN
SAFE_STOP

所以真正该记住的关系是：

VLN = 任务
VLA = 接口

text

VLA 可以解决 VLN 任务。
VLN 不一定已经进入 VLA 形态。
低空 VLA 最自然的落点，不是凭空定义一个新世界，而是在已有 aerial VLN 任务上扩展动作空间。

三、这条方向现在最稳的研究主线是什么#

从已有论文、数据集、平台、benchmark 和代码可获得性综合看，当前最稳的主线是：

AerialVLN
  ->
CityNav
  ->
OpenUAV / TravelUAV
  ->
OpenFly
  ->
navigation-centric Aerial VLA

text

这条主线的含义不是“论文越新越强”，而是它恰好对应了一条逐步增加真实度和动作复杂度的路线：

从 canonical 的空中 VLN benchmark 出发
走向真实城市级地理语义 grounding
再过渡到更 realistic 的连续飞行和任务级执行
最后才进入更像 aerial VLA 的动作生成范式

两条重要扩展支线#

主线之外，还有两条很值得盯住的支线。

AVDN -> TG-GAT -> FELA -> AerialVLA Online Dialogue

text

这条线关心的是：

当语言有歧义时，无人机何时继续飞，何时提问
ASK / clarify / recover 这类交互动作如何建模
dialog-based navigation 如何自然过渡到 interaction-aware aerial VLA

支线 B：fine-grained low-altitude control#

TravelUAV / realistic UAV-VLN
        +
UAV-Flow
        ->
fine-grained aerial action execution

text

这条线关心的是：

低空短程、细粒度、语言条件下的技能动作如何执行
导航和动作执行的边界在哪里
低空任务级动作词表应该如何定义

四、从时间线上看，这个方向是怎么长出来的#

如果把这条研究线摊开看，它不是突然从 2026 年的 aerial VLA 论文里长出来的。

2018：雏形阶段#

R2R 把地面 VLN 做成了具身任务基准。
LANI 在更简化的 2D 条件下，引入了 aerial-perspective instruction/trajectory 数据。
同期已经出现四旋翼语言控制相关工作，为后来的 aerial VLA 埋下伏笔。

2020-2022：交互分支出现#

VLN-CE 强化了连续环境下的 VLN 设定。
Aerial Vision-and-Dialog Navigation (AVDN) 开出了空中对话导航这一支。

2023：canonical baseline 成形#

AerialVLN 成为空中第一视角户外 UAV VLN 的 canonical benchmark。
TG-GAT 成为 AVDN 分支里第一批强 follow-up。

2024：真实度上升#

CityNav 把重点转向真实城市 3D 扫描和地理语义 grounding。
OpenUAV / TravelUAV 开始强调连续 6-DoF 轨迹、多视角感知和 assistant-guided benchmark。
AeroVerse、EmbodiedCity 等工作开始把空中具身 benchmark 面扩得更宽。

2025：方法开始分叉#

CityNavAgent、SkyVLN、FlightGPT、GeoNav、LookasideVLN 等工作，把 LLM planning、hierarchical memory、dual-scale reasoning 引入 aerial VLN。
FELA 等后续工作进一步强化了对话导航里的 entity-landmark 对齐。
BEDI、UAV-ON、UAV-Flow Colosseo 开始把研究从纯导航扩展到 embodied evaluation 和 imitation。
OpenFly 把 toolchain + benchmark 平台化这件事推得更远。

2026：从 survey 到 aerial VLA#

总览型 survey 把 AVIN/AVDN、方法家族、数据集、平台、指标和 open problems 全部系统化。
AutoFly 把问题更明确地往端到端 aerial VLA 上推。
AerialVLA Minimalist 让“navigation-centric aerial VLA”这条说法第一次变得很自然。
UAV-Track VLA 进一步把动作接口从导航扩展到动态跟踪。

换句话说，这个方向现在真正成熟的不是“泛无人机具身大模型”，而是：

从空中视觉语言导航，逐步走向更 realistic、更连续、更任务级的动作执行。

五、这份调研不是堆论文，而是按方法论构建的#

这份材料最可贵的地方，不是它列出了很多名字，而是它把“怎么调研这个方向”也一起定义清楚了。

1. 检索不是靠标题关键词硬搜#

这套调研明确反对只靠标题搜索。更稳的扩展方式是：

从 seed papers 出发。
读引用文献。
查 citation graph。
查作者和实验室后续工作。
查 project page、GitHub、数据集页面。
单独检索 benchmark、simulator、model name 和 dataset name。

它使用的主要来源包括：

arXiv
OpenReview
CVF Open Access
AAAI OJS
ACM Digital Library
IEEE Xplore
Semantic Scholar
OpenAlex
PapersWithCode
GitHub
Hugging Face
official project pages

Google Scholar、Connected Papers、CatalyzeX、Awesome Lists 只被当成发现入口，而不是最终证据。

2. 检索词是按任务簇设计的#

这套材料没有把“无人机具身”混成一团，而是分别设计了四组词：

Aerial VLN
Aerial VLA
Embodied UAV benchmark
Simulators and frameworks

这意味着它在一开始就区分了：

任务定义
动作范式
benchmark 层
平台层

这也是为什么后面的结论会比“搜到几篇大模型论文”更稳。

3. 每个条目都有统一输出标准#

这份调研不是自由写摘要，而是给论文、数据集、benchmark、framework、代码库、团队都定义了统一 schema。

以论文为例，它要求至少记录这些字段：

标题、作者、年份、来源
任务轴和动作轴
输入模态和输出空间
用了哪些数据集和 simulator
主要贡献和局限
与 aerial VLN / VLA 的关系
可复现性等级
质量等级

这件事非常重要，因为如果不统一字段，最后很容易把“任务、动作、平台、可复现性”混着写。

4. 它把“核实”也做成了显式规则#

这份材料的质量控制不是一句“要严谨”，而是显式地给出了状态、质量和复现等级。

条目状态分四类：

verified
partially_verified
needs_verification
excluded

质量等级从 Q0 到 Q5：

Q0：无关或低质量
Q1：只有博客、demo 或弱证据
Q2：有预印本或 workshop，但证据有限
Q3：可靠的 arXiv / OpenReview 工作
Q4：强 conference/journal 或被广泛使用的平台、数据集
Q5：field-defining 的 survey、benchmark 或平台

可复现性从 R0 到 R5：

R0：没有代码或数据
R1：repo 存在，但不完整
R2：只能跑 inference
R3：可以 evaluation
R4：可以训练
R5：训练、评测、数据、模型都完整可复现

5. 它专门防止两个常见误判#

第一种误判是标题膨胀。

如果一篇论文标题写了 VLA，这份调研不会直接接受，而是继续追问：

最终输出到底是什么
有没有闭环执行
planner / controller 在里面扮演什么角色
action space 到底多强
是不是只是在导航任务上换了个名字

第二种误判是空中相关性不足。

只有满足下面至少一条，才会被纳入主调研：

agent 本身就是 UAV / drone / aerial robot
数据集或 simulator 是 UAV-specific
任务是 aerial navigation / tracking / inspection / delivery
方法输出 UAV action 或在 UAV 环境里评测
benchmark 明确评估 UAV embodied agent

进一步，如果要被归到“低空相关”，还需要涉及：

urban low-altitude navigation
building-level / infrastructure-level tasks
inspection / patrol / delivery / rescue
geofence / obstacle / altitude constraints
near-ground / near-building operation

这几条规则其实决定了这份调研为什么没有滑向“泛 robotics 大杂烩”。

六、如果只看论文主干，应该按什么顺序读#

这份材料给出的阅读顺序非常克制，不是“从最新 VLA 论文开始”，而是：

survey -> dataset/platform -> method -> VLA extension -> benchmark

这条原则非常对，因为如果没有 VLN 底座，后面很容易把 action interface 误读成任务定义。

1. Week 1：先把领域定义清楚#

第一周最该读的是：

Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language Models
AerialVLN
CityNav
Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

这四篇基本决定了：

什么是 aerial VLN
主线 benchmark 是谁
realism 从哪里开始上升
后面为什么能顺理成章走到 aerial VLA

2. Week 2：理解 scale、realism 和方法支线#

第二周建议进入：

OpenFly
Aerial Vision-and-Dialog Navigation
TG-GAT
FELA
CityNavAgent
FlightGPT
GeoNav
SkyVLN
LookasideVLN

这一周的重点不是把所有细节都吃透，而是理解三个问题：

aerial VLN 如何从 baseline 走向更强的 reasoning
dialog-based aerial navigation 到底成立在哪
scale 和 realism 是怎么被工具链、地图和 VLM 方法推高的

3. Week 3：再从 VLN 走向 VLA#

真正进入 VLA 层时，这份调研建议看：

AutoFly
AerialVLA Minimalist
AerialVLA Online Dialogue
UAV-Track VLA

这一步其实是在问：

action interface 什么时候开始变强
哪些工作已经从离散导航走到连续控制
哪些工作还只是“名字上更像 VLA”

4. Week 4：最后再看 broader benchmark#

最后一周才建议系统看：

BEDI
UAV-Flow Colosseo
AeroVerse
EmbodiedCity
UAV-ON

这说明一个很关键的判断：

benchmark 扩展层很重要，但不应该先于主线任务定义。

七、哪些团队和机构值得长期跟#

这份调研没有把注意力只放在论文标题上，而是明确给出了“值得长期跟踪的团队”。

1. AerialVLN 主线源头#

Northwestern Polytechnical University + University of Adelaide
代表工作：AerialVLN
价值：定义了第一代 canonical aerial VLN benchmark 和 simulator 语境

2. 大规模平台与 toolchain 方向#

Shanghai AI Laboratory IPEC
代表工作：OpenFly
价值：这是当前最像“把 aerial VLN 平台化、规模化”的团队

3. realistic UAV-VLN 到 fine-grained control 的桥梁#

Beihang University + CUHK MMLab / CPII + Hangzhou International Innovation Institute
代表工作：OpenUAV / TravelUAV, UAV-Flow, AerialVLA Online Dialogue
价值：这是当前最值得盯住的一条“从 realistic VLN 走向控制与对话式 aerial VLA”的连续线

UCAS + Institute of Automation, CAS + MBZUAI / CMU / Tencent Robotics X
代表工作：TG-GAT, FELA
价值：这是 AVDN 分支里最清晰、最连续的后续方法线

5. real-city grounding 主线#

University of Tokyo / Institute of Science Tokyo / ATR / NII
代表工作：CityNav
价值：这是城市级真实 aerial grounding 的关键来源

6. CityNav 之后的 reasoning 分支#

EmbodiedCity / Tsinghua-related urban embodied group
Sun Yat-Sen University + DP Technology + BUPT + ICT CAS + Tongji + Chulalongkorn
Aerospace Information Research Institute, CAS / UCAS
HKUST(GZ) Systems Hub / Intelligent Transportation
National University of Defense Technology + Tsinghua University

对应的重要工作包括：

CityNavAgent
FlightGPT
NavAgent
SkyVLN
GeoNav

这些团队共同推动的是：

城市场景语义推理
多尺度地图建模
hierarchy / memory / VLM reasoning

7. Aerial VLA 方向的几个新源头#

值得单独盯住的还有：

AutoFly 对应团队
AerialVLA Minimalist 对应团队
UAV-Track VLA 对应团队
BEDI 对应团队
UZH Robotics and Perception Group 及其 Flightmare 背景

它们分别对应：

end-to-end aerial VLA
navigation-centric aerial VLA
embodied aerial tracking
UAV embodied benchmark
future continuous-control simulator 基础

八、哪些数据集和 benchmark 最值得先掌握#

这份调研里最有价值的一点，不是论文列表本身，而是明确给出了一个“先看什么、为什么”的顺序。

1. AerialVLN：最稳的起点#

AerialVLN / AerialVLN-S 仍然是最适合做起点的 canonical baseline。

它的关键特征是：

25 个城市级场景
8,446 条路径
25,338 条指令
第一视角 RGB / depth
离散 4-DoF 无人机动作空间
公开 simulator 和代码

它最大的价值是：简单、标准、后续工作多。

如果实验室还没有把任何一套 aerial stack 跑起来，从它开始比直接碰更新的 aerial VLA 项目稳得多。

2. CityNav：真实城市语义 grounding 的关键节点#

CityNav 是当前最强的 real-world 城市级语言目标空中导航数据集之一。

它的核心特征是：

32,637 条人类演示轨迹
覆盖 4.65 km² 真实城市区域
使用真实 3D 点云、RGB-D 和地理语义地图
输出仍然偏离散导航动作

它的重要性在于：这里开始真正引入了城市语义、地图辅助推理和真实场景 grounding。
如果只做 AerialVLN，会很容易停留在“synthetic city + discrete action”的阶段。

3. TravelUAV / OpenUAV：从导航走向 realistic execution#

TravelUAV / UAV-Need-Help 是目前最适合作为 realism-oriented 连续飞行平台的一个核心入口。

关键特征包括：

12,149 条轨迹
22 个场景
89 个对象
多视角 RGB / depth / LiDAR / state
连续 6-DoF 轨迹
assistant-guided benchmark 设计

它的重要性不只是“更难”，而是它开始接近这样的问题：

如果语言目标是真实低空任务，动作接口要不要连续
如何把地图推理、视觉 grounding 和真实飞行执行接起来
aerial VLA 应该从哪里过渡进来

4. OpenFly：更大规模的平台化扩展#

OpenFly 的定位更像“大规模平台 + benchmark + 数据生成工具链”。

它的特征包括：

100k 轨迹
18 个场景
15.6k 词汇规模
更强的平台化、自动化、toolchain 叙事

它更适合放在前面几套栈已经稳定之后。
原因不是它不重要，而是它的工程复杂度明显高于 AerialVLN 和 CityNav。

5. 什么时候该看 UAV-Flow 和 BEDI#

UAV-Flow / UAV-Flow-Sim 更适合回答细粒度动作执行问题：

30,692 条真实轨迹
10,109 条仿真轨迹
关注短程、语言条件下的 fine-grained UAV imitation

它不是长航程 aerial VLN 的替代品，更像是低空短程 skill execution 的关键补充。

BEDI 则更像 capability benchmark，而不是第一套导航复现环境：

覆盖 perception、planning、tool use、action 等子能力
更适合在实验室已经有一套可运行 agent 后，做能力审计

九、真正应该跟住的指标，不只是一组 SR/SPL#

如果只沿用地面 VLN 的指标体系，你很容易高估一篇 aerial 方法的真实价值。

经典 VLN 指标#

当前仍然应该保留的经典指标包括：

SR
OSR
SPL
NE
nDTW

这些指标仍然是主线比较的基础。

UAV realism 指标#

一旦进入更 realistic 的平台，就必须额外看：

collision rate
altitude violation
geofence violation
smoothness
latency
safety stops
energy / time

这部分非常关键，因为很多看起来“导航成功”的方法，一旦接入真实飞行语境，问题就会暴露在动作质量和安全约束上。

VLA / embodied 指标#

当问题不再只是“到没到”，还要看：

task completion
subgoal completion
query quality
tracking frames
action validity

这也是为什么这份调研强调：

未来真正有价值的工作，不只是把动作从离散变连续，而是把安全、交互和任务完成度一起纳入评价。

十、平台层怎么选，决定了你后面是在做研究还是在修环境#

这份材料对平台层的判断很实用：不要把 simulator 当成背景，它本身就会决定你后续的问题定义。

1. AirSim：主线复现的老牌底座#

AirSim 对 aerial VLN 很重要，因为：

AerialVLN
TravelUAV
不少老的 UAV VLN 栈

都和它深度绑定。

它的优点是学界采用广、视觉效果够用、接口成熟；缺点是上游已经不再是一个高速演化的活跃底座，所以你要有“维护旧栈”的心理准备。

2. PX4 SITL / Gazebo / ArduPilot：更接近真实飞控#

如果目标是把语言导航往 controller-in-the-loop 推，这些栈会更重要。

但它们不适合作为第一步，因为一上来就会把大量精力烧在：

firmware
robotics toolchain
simulator integration
middleware

而不是研究问题本身。

3. Flightmare / Isaac Sim：更偏未来连续控制和 RL#

这类平台更适合未来的 aerial VLA、continuous control、synthetic data 和 sim-to-real 管线。

但如果当前任务还是“建立第一条稳定主线”，它们更像第二阶段平台，而不是第一站。

4. OpenUAV / TravelUAV 和 OpenFly：研究平台化的两个关键点#

OpenUAV / TravelUAV 更适合 realism-oriented UAV-VLN 与 continuous execution
OpenFly 更适合大规模平台、benchmark 自动扩展、synthetic-to-real 工程化

换句话说，一个偏 realistic execution，一个偏 platform scaling。

十一、现在有哪些代码库是真的能动，哪些还只是论文信号#

这部分很重要，因为它直接决定复现顺序。

这里最好把“能不能动”再说得更标准一点：

R4：训练和评测主线都能建立起来
R3：至少评测面可跑
R1：repo 虽然存在，但还不构成真实复现入口

从这份材料的判断看，当前最稳的 R4 级主栈就是：

AirVLN/AirVLN
water-cookie/citynav
prince687028/TravelUAV
SHAILAB-IPEC/OpenFly-Platform

当前“可立即使用”或接近可立即使用的主力代码库#

最值得优先下手的几套是：

AirVLN/AirVLN
water-cookie/citynav
prince687028/TravelUAV
SHAILAB-IPEC/OpenFly-Platform

这些仓库共同特征是：

官方性明确
代码和脚本可见
数据或环境入口相对清楚
虽然重，但不是“只有论文，没有执行面”

部分可跑，但要谨慎判断的 `R3` 级栈#

这些工作很有价值，但更适合在主线稳定后进入：

CityNavAgent
TG-GAT
AerialVLA Minimalist
UAV-Flow
BEDI
FlightGPT

它们的问题通常不是“没有内容”，而是：

依赖栈更重
外部资源更多
训练和评测步骤分裂
代码可运行面不如主线 VLN 栈稳定

当前明显存在 paper-to-code gap 的 `R1` 级条目#

至少有几类工作现在不应该作为第一复现目标：

FELA：官方仓仍写着 Code coming soon
AutoFly：当前更像 project page，不像完整可执行 release
UAV-Track VLA：公开样例和演示可见，但完整训练/评测面还需要进一步核查

这类工作适合：

阅读
方向判断
设计 future ablation

但不适合拿来做第一轮“必须跑通”的栈。

十二、如果今天开始复现，最稳的顺序是什么#

这份调研给出的复现排序，我认为是整个材料里最实用的一部分：

AerialVLN
  ->
CityNav
  ->
TravelUAV / OpenUAV
  ->
AerialVLA Minimalist on TravelUAV
  ->
OpenFly

text

为什么是这个顺序#

因为它不是按论文新旧排，而是按“研究线是否连贯 + 执行风险是否可控”来排。

Stage 1：AerialVLN#

这是 canonical baseline，对后续大量工作都有参照意义。

已知环境特征：

Python 3.8
airsim==1.7.0
pytorch-transformers==1.2.0

已知风险：

simulator 资源大，约 35 GB
端口 30000
图像通道顺序需要额外确认

Stage 2：CityNav#

这里的推荐不是直接上完整 VLNCE，而是先走 map-guided goal predictor 这条更短的成功路径。

已知环境特征：

Python 3.10
PyTorch 2.2.2
CUDA 11.8
依赖包括 SoM、LLaVA、GroundingDINO、MobileSAM

这里真正的难点不是模型，而是依赖图非常重。

Stage 3：TravelUAV / OpenUAV#

这一步是主线里最接近 realistic continuous execution 的地方。

已知环境特征：

Python 3.10
torch==2.0.1
cu118

已知风险包括：

仓库里是 requirement.txt 不是 requirements.txt
README 和脚本文件名不一致
端口 30000 / 25000 不统一
DDP_MASTER_PORT 80005 是无效端口

这类问题非常典型：真正难的不是论文想法，而是工程细节不一致。

为什么不要把这些环境混在一起#

调研给出的一个非常实用的规则是：

每一套主栈单独 conda 环境，不要合并。

原因很现实：

AerialVLN
CityNav
TravelUAV
UAV-Flow

它们的 Python 版本、Torch/CUDA 组合、依赖树都不同。
如果一开始试图“统一成一个研究环境”，最后大概率是在修环境，而不是在复现方法。

十三、dialog 和 fine-grained control 这条支线该怎么切#

如果后面你想做对话导航或细粒度低空动作控制，这份调研的判断也很清楚：

AVDN -> TG-GAT -> FELA#

这条线适合回答：

什么时候该提问
如何利用 query 消除歧义
semantic grounding 如何提升对话导航

但它不是第一默认入口。
更准确地说，它是“主线稳定后”的专题分支。

UAV-Flow#

这条线适合回答：

短程、低空、语言条件下的动作执行
imitation learning 风格的细粒度 aerial control

但它工程上是另一条独立栈：

openvla 环境
unrealcv 环境

而且默认训练路径就是 8 卡，明显不适合作为一开始的 first success route。

所以最稳的处理方式是：

主线先跑 AerialVLN -> CityNav -> TravelUAV
对话分支后上 AVDN -> TG-GAT
UAV-Flow 放到更后面，或者在另一台机器上独立推进

十四、这份调研真正指出的研究缺口是什么#

这里最重要的不是“列出 open problems”，而是把它们翻译成能做论文的问题。

1. discrete-to-continuous mismatch#

当前 aerial VLN 仍然大量停留在：

离散动作
synthetic data
planner-controller split

而 aerial VLA 开始给出：

连续动作
更真实的执行接口

但二者之间的桥，还没有被系统搭稳。

2. safety-aware evaluation 太弱#

现在大量工作仍主要报告：

但对于真实 UAV 场景，这明显不够。
未来更有价值的评测，应当把 collision、altitude violation、latency、safe-stop 和 intervention 一起引入。

3. low-altitude task actions 还没有被明确定义#

这里最值得做的一件事，不一定是上来训练更大的模型，而是先把低空任务级 action vocabulary 定义清楚。

像下面这组动作就很有代表性：

NAVIGATE
APPROACH
ORBIT
CAPTURE
TRACK
ASK
LAND
RETURN
SAFE_STOP

text

这比空泛地说“做低空 VLA”要清楚得多。

4. dialog evaluation 还不成熟#

现在对话导航里最该补的，不只是最后有没有成功，而是：

query timing
query utility
recovery behavior

也就是：问得值不值、问得晚不晚、问完有没有真正帮助恢复。

5. sim-to-real 还是太窄#

一条非常好的研究叙事是，把现有数据集看成 realism ladder：

AirVLN
  ->
CityNav
  ->
TravelUAV / OpenUAV
  ->
AirNav

text

这比只抓住其中一个 benchmark 单点突破，更有体系感。

十五、第一篇论文最可能的三个切口#

这份材料最后给出的三个方向，我认为都合理，但优先级不一样。

方向 A：在强 VLN 底座上加 task-level action head#

这是我认为最稳的第一选择。

核心问题是：

能不能在 TravelUAV / OpenUAV 这类平台上，保留语言导航问题本身，但把输出从 route / discrete action 扩展到 task-level action？

这条线的优点是：

贴近“低空 VLA”的外部表述
又不脱离更成熟的 VLN benchmark 主线
更容易设计出安全评测和动作词表

方向 B：把 CityNav 的语义 grounding 接到 TravelUAV 的执行接口上#

这条线更像“增强版主线”。

核心问题是：

能不能把 CityNav 的城市级语义推理能力，接到 TravelUAV 风格的 realistic execution 上？

它的价值在于：

把地理语义 reasoning 和连续执行之间的断裂补起来
比纯端到端 aerial VLA 更容易说清贡献

方向 C：主动提问的 aerial action#

这条线最前沿，但风险也最高。

核心问题是：

无人机何时应该继续飞，何时应该提问？

这条线的理论价值很强，但因为 benchmark、代码和 runnable 栈都不如主线稳定，所以更适合作为第二阶段支线。

十六、如果把它压成一句话，该怎么向老师汇报#

我觉得这套调研里最值得保留下来的，不是某篇论文名字，而是这一句话：

我们不是直接做泛化低空 VLA，而是先做更成熟的 Aerial VLN 主线，再把输出从导航结果扩展到任务级动作，这就是 navigation-centric Aerial VLA。

这句话的好处是：

任务边界清楚
benchmark 入口明确
平台路线可复现
后续论文切口自然

如果再压缩成最短版本，那就是：

先把 AerialVLN -> CityNav -> OpenUAV/TravelUAV -> OpenFly 这条主线吃透。
再把动作接口从导航结果扩展到可执行任务级动作。
第一篇论文优先做 task-level action extension，而不是空泛地追“更大的低空 VLA 模型”。

这不是更保守，而是更能落地。

一、为什么不能上来就泛讲“低空 VLA”#

二、Aerial VLN 和 Aerial VLA 到底怎么区分#

1. Aerial VLN 是任务#

2. Aerial VLA 是接口#

三、这条方向现在最稳的研究主线是什么#

两条重要扩展支线#

支线 A：dialog-based aerial navigation#

支线 B：fine-grained low-altitude control#

四、从时间线上看，这个方向是怎么长出来的#

2018：雏形阶段#

2020-2022：交互分支出现#

2023：canonical baseline 成形#

2024：真实度上升#

2025：方法开始分叉#

2026：从 survey 到 aerial VLA#

五、这份调研不是堆论文，而是按方法论构建的#

1. 检索不是靠标题关键词硬搜#

2. 检索词是按任务簇设计的#

3. 每个条目都有统一输出标准#

4. 它把“核实”也做成了显式规则#

5. 它专门防止两个常见误判#

六、如果只看论文主干，应该按什么顺序读#

1. Week 1：先把领域定义清楚#

2. Week 2：理解 scale、realism 和方法支线#

3. Week 3：再从 VLN 走向 VLA#

4. Week 4：最后再看 broader benchmark#

七、哪些团队和机构值得长期跟#

1. AerialVLN 主线源头#

2. 大规模平台与 toolchain 方向#

3. realistic UAV-VLN 到 fine-grained control 的桥梁#

4. dialog-based aerial navigation 主线#

5. real-city grounding 主线#

6. CityNav 之后的 reasoning 分支#

7. Aerial VLA 方向的几个新源头#

八、哪些数据集和 benchmark 最值得先掌握#

1. AerialVLN：最稳的起点#

2. CityNav：真实城市语义 grounding 的关键节点#

3. TravelUAV / OpenUAV：从导航走向 realistic execution#

4. OpenFly：更大规模的平台化扩展#

5. 什么时候该看 UAV-Flow 和 BEDI#

九、真正应该跟住的指标，不只是一组 SR/SPL#

经典 VLN 指标#

UAV realism 指标#

VLA / embodied 指标#

十、平台层怎么选，决定了你后面是在做研究还是在修环境#

1. AirSim：主线复现的老牌底座#

2. PX4 SITL / Gazebo / ArduPilot：更接近真实飞控#

3. Flightmare / Isaac Sim：更偏未来连续控制和 RL#

4. OpenUAV / TravelUAV 和 OpenFly：研究平台化的两个关键点#

十一、现在有哪些代码库是真的能动，哪些还只是论文信号#

当前“可立即使用”或接近可立即使用的主力代码库#

部分可跑，但要谨慎判断的 R3 级栈#

当前明显存在 paper-to-code gap 的 R1 级条目#

十二、如果今天开始复现，最稳的顺序是什么#

为什么是这个顺序#

Stage 1：AerialVLN#

Stage 2：CityNav#

Stage 3：TravelUAV / OpenUAV#

为什么不要把这些环境混在一起#

十三、dialog 和 fine-grained control 这条支线该怎么切#

AVDN -> TG-GAT -> FELA#

UAV-Flow#

十四、这份调研真正指出的研究缺口是什么#

1. discrete-to-continuous mismatch#

2. safety-aware evaluation 太弱#

3. low-altitude task actions 还没有被明确定义#

4. dialog evaluation 还不成熟#

5. sim-to-real 还是太窄#

十五、第一篇论文最可能的三个切口#

方向 A：在强 VLN 底座上加 task-level action head#

方向 B：把 CityNav 的语义 grounding 接到 TravelUAV 的执行接口上#

方向 C：主动提问的 aerial action#

十六、如果把它压成一句话，该怎么向老师汇报#

部分可跑，但要谨慎判断的 `R3` 级栈#

当前明显存在 paper-to-code gap 的 `R1` 级条目#