低空 UAV-VLN 到 UAV-VLA：一条更稳的研究主线

如果把方向直接写成“低空 VLA 大模型”，它听起来足够大，也足够新，但很容易在真正开始复现和选题时迅速失焦。
更关键的问题从来不是名字够不够前沿，而是三件事：

任务边界能不能讲清
主线 benchmark 和平台能不能真的跑起来
第一篇论文能不能切在一个既稳、又不失前沿性的地方

这篇文章基于一套已经收束到 v3-final 的调研材料，不再按“论文列表”展开，而是按真正做研究需要的顺序重组信息：

先讲任务边界与动作接口
再讲主线论文、平台和复现优先级
最后收束到论文切口与导师 proposal 的表达方式

我最后认同的核心判断很明确：

研一阶段更稳的路线，不是直接追一个泛化很大的“端到端低空 VLA”，而是先以 Aerial VLN 为底座，再扩展到 navigation-centric Aerial VLA。

一图总览#

如果只记住这篇文章的一句话，那就是：

主线先走 AerialVLN -> CityNav -> OpenUAV / TravelUAV -> OpenFly，再把输出接口从导航结果扩展到任务级动作、交互动作与安全动作。

为了让后面的长文更好读，先把结论压成三行：

Aerial VLN 是当前最成熟、最适合起步的任务底座。
真正值得做的 Aerial VLA，应该优先落在 A4 + A5 的 navigation-centric action space，而不是一上来追最重的连续控制或物理操作。
第一篇论文最稳的切口，是在成熟 VLN 主线上补 task-level action head 与 safety-aware evaluation。

一、先把核心结论说清楚#

这份调研最重要的一句话不是某篇论文的 claim，而是下面这个方向判断：

以 Aerial VLN 为底座，扩展到 navigation-centric Aerial VLA。

text

这句话背后有三层意思：

低空无人机研究不能一上来就泛讲“具身大模型”。
现阶段真正成熟的是视觉语言导航主线，而不是统一的 aerial VLA 生态。
更稳的做法，是先把导航问题、benchmark 和平台跑顺，再把输出接口扩展为任务级动作、交互动作和安全动作。

换成更适合对外表达的题目，可以写成：

Navigation-centric Aerial VLA for Low-altitude UAV Tasks

也就是：

先解决语言引导导航
再引入低空作业动作
再把安全、交互、过程评测补全

二、Aerial VLN 和 Aerial VLA 到底差在哪#

这份材料最清楚的一点，是它不拿“VLA”当营销词，而是严格按任务和接口来区分。

1. Aerial VLN 是任务范式#

Aerial Vision-Language Navigation 讨论的是：

无人机如何根据自然语言和视觉观测完成目标到达、路径跟随、地标定位或导航辅助。

它的输入通常是：

language instruction
visual observations
optional pose / map / depth / history / odometry

它的输出可以是：

goal
landmark
waypoint
route
discrete navigation action
stop signal

也就是说，VLN 更强调：

目标理解
路径规划
视觉-语言 grounding
是否成功到达

2. Aerial VLA 是动作生成接口#

Aerial Vision-Language-Action 讨论的是：

模型是否直接或分层地产生进入闭环执行的动作。

这里的动作不只是一串底层控制量，也包括更高层的任务动作。

材料里给出的动作空间很完整：

continuous control: vx, vy, vz, yaw_rate, attitude, thrust
discrete navigation actions
skill actions
interaction actions
physical manipulation actions

所以更准确的说法不是“VLA 必须有机械臂”，而是：

只要模型输出进入闭环执行，它就已经在 VLA 语境里了。

3. 最有用的理解方式：按动作接口分层#

这份调研把 action interface 分成了 A0-A6 六个层级，这个视角非常有用：

Level	输出接口	例子	更像什么
A0	目标/地标	`red building`, `bridge`	grounding / modular VLN
A1	航点/路径	route, trajectory	waypoint-based VLN
A2	离散导航动作	forward / left / stop	end-to-end VLN / weak VLA
A3	连续飞控动作	`vx, vy, vz, yaw_rate`	locomotion Aerial VLA
A4	任务级技能动作	`NAVIGATE`, `APPROACH`, `ORBIT`, `CAPTURE`, `LAND`	navigation-centric Aerial VLA
A5	交互动作	`ASK`, `CONFIRM`, `REPLAN`, `SAFE_STOP`	interactive Aerial VLA
A6	物理操作动作	`DROP`, `RELEASE`, `GRASP`, `DOCK`	full aerial manipulation VLA

这也是为什么这份调研明确提出：

对低空任务最重要的不是一上来追 A3 或 A6，而是先把 A4 + A5 建起来。

三、为什么不能直接泛讲“低空 VLA”#

如果把方向直接写成“低空 VLA”，看起来很大，但研究上会立刻遇到三个问题：

边界太宽
benchmark 不稳
第一篇论文不好切

因为“低空 VLA”很容易把这些问题混在一起：

低空视觉语言导航
城市级地理语义推理
连续飞行控制
对话式决策
跟踪、巡检、拍摄、降落、返航
物理交互
多机协同

老师追问的时候，通常会卡在这些地方：

你的任务到底是什么？
benchmark 是什么？
action 到底定义在哪一层？
你是在做导航，还是做 controller，还是做 embodied manipulation？

所以这份调研明确反对两种说法：

把低空 VLA 讲成一个泛化很大的“无人机具身大模型故事”
把所有 UAV VLM reasoning 都算进 VLA

它推荐的更稳表达是：

从语言引导导航走向低空任务级动作执行。

四、这个方向真正成熟的主线是什么#

这套调研最后收束出的主路线非常清楚：

AerialVLN
  ->
CityNav
  ->
OpenUAV / TravelUAV
  ->
OpenFly
  ->
navigation-centric Aerial VLA

text

这条主线之所以重要，不只是因为它列出了几篇论文，而是因为它对应了一条逐步提升真实度和动作复杂度的研究路径。

1. AerialVLN：canonical 起点#

AerialVLN 是第一代 canonical aerial VLN benchmark。

它把无人机导航正式放进了：

户外
第一视角
城市级场景
语言条件导航

这让后续很多工作都可以共享一套基本任务语境。

2. CityNav：真实城市 grounding#

CityNav 的意义在于，它把问题推进到：

real-world 3D city scans
geographic grounding
long-horizon urban semantics

也就是说，从这里开始，问题已经不只是“合成场景里飞得对不对”，而是“城市语义、地图和目标描述能不能真正对上”。

3. OpenUAV / TravelUAV：realistic UAV-VLN#

这条线的重要性是，它把 aerial VLN 往 realistic execution 推了一大步：

更真实的连续飞行
多视角感知
assistant-guided benchmark
更接近闭环执行的问题设定

这也是为什么这份调研把它放在从 VLN 走向 VLA 的桥梁位置。

4. OpenFly：平台化与规模化#

OpenFly 的作用，不只是“更大”，而是：

把 aerial VLN 工具链化
把数据生成规模化
把 benchmark 和平台层连接起来

它更像长期主线平台，而不是第一阶段最容易上手的 baseline。

五、这个方向是怎么发展到今天的#

这套材料把时间线理得很清楚，基本可以看成五个阶段。

2018：地面 VLN 与早期 aerial 影子#

R2R 把 ground VLN 变成 mainstream embodied task。
LANI 引入了 aerial-perspective instruction/trajectory 数据。
这时已经能看到四旋翼语言控制的雏形，但还谈不上成熟 aerial VLN。

2020-2022：对话分支出现#

VLN-CE 强化了连续环境 VLN 的重要性。
AVDN 打开了 dialog-based aerial navigation 这一支。

2023：canonical baseline 成形#

AerialVLN 成为第一代 outdoor UAV VLN benchmark。
TG-GAT 成为 AVDN 支线上最早的一批强方法。

2024-2025：realism、平台和 reasoning 开始扩张#

CityNav 把重心推向 real-city grounding。
OpenUAV / TravelUAV 把连续 6-DoF、assistant guidance 和 realism 推上来。
OpenFly 把平台和 toolchain 的规模做大。
CityNavAgent、FlightGPT、GeoNav、SkyVLN、LookasideVLN 等工作把 LLM/VLM reasoning、memory、dual-scale planning 接到了 aerial VLN 上。
FELA 等后续工作把对话导航里的细粒度对齐做得更深。

2026：从 survey 到 aerial VLA#

总览型 survey 正式把任务、方法、数据集、simulator、metrics 和 open problems 收拢。
AutoFly、AerialVLA Minimalist、AerialVLA Online Dialogue、UAV-Track VLA 这些工作，让 aerial VLA 不再只是一个模糊方向，而变成可以按 action interface 具体讨论的研究对象。

所以今天更合理的判断不是：

“低空 VLA 已经全面成熟”

而是：

“低空 / 空中方向正在从成熟的 aerial VLN，逐步走向更强的 action-centric aerial VLA。”

六、这份调研为什么可信：它不是堆论文，而是按方法论构建的#

这版材料很完整，一个关键原因是它连“怎么调研”都做了显式设计。

1. 检索策略不是靠标题硬搜#

它明确规定：

从 seed papers 出发
看 references
查 citations
查作者与团队的前后续工作
查项目页、GitHub、数据集页
单独检索 benchmark、simulator、model name 和 dataset name

主要来源优先级也写得很清楚：

paper PDF / arXiv / CVF / OpenReview / AAAI OJS
official project page
official GitHub / dataset page
Semantic Scholar / OpenAlex
blogs / awesome lists 只做发现入口

2. 它对每类对象都定义了统一 schema#

这套材料不是自由摘要，而是给下面几类条目都定义了统一字段：

paper
dataset
benchmark
simulator / framework
codebase
team

比如论文条目至少会记录：

title / authors / year / source
task axis / action axis
input modalities / output space
dataset / simulator
main contributions / limitations
reproducibility level
quality level

这能明显减少“只记结论，不记上下文”的问题。

3. 它把质量和复现做成了显式等级#

状态分成：

verified
partially_verified
needs_verification
excluded

质量等级分成：

Q0 到 Q5

可复现性分成：

R0 到 R5

这让“这个工作能不能用”不再只是主观印象，而是有标准的。

4. 它专门防止标题膨胀#

如果某篇论文标题写了 VLA，这份调研不会直接买账，而是继续问：

最终输出是不是 action
有没有 closed-loop execution
planner / controller 在里面是不是主角
action space 到底落在哪一层
benchmark 和 metrics 是否支持它真是一个 VLA 问题

这条规则非常关键，因为它直接避免了把“带一点动作味道的 VLN”都误当成 aerial VLA。

七、哪些论文应该先读，哪些应该后读#

这份调研给出的阅读顺序非常稳，不是“从最新 VLA 论文开读”，而是：

survey -> dataset/platform -> method -> VLA extension -> benchmark

Week 1：先把领域定义清楚#

第一周最该读的是：

Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language Models
AerialVLN
CityNav
Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

这四篇负责定义：

什么是 aerial VLN
canonical 主线是谁
realism 从哪里开始上升
为什么后面可以自然延伸到 aerial VLA

Week 2：理解规模、真实度和方法分支#

第二周推荐进入：

OpenFly
AVDN
TG-GAT
FELA
CityNavAgent
FlightGPT
GeoNav
SkyVLN
LookasideVLN

这周的重点不是逐行实现，而是理解：

主线 method 怎么演化
dialog 分支怎么长出来
LLM/VLM reasoning 是怎么接到 aerial VLN 上的

Week 3：再进入 VLA 扩展层#

这时才建议看：

AutoFly
AerialVLA Minimalist
AerialVLA Online Dialogue
UAV-Track VLA

这说明一个很清楚的判断：

VLA 是建立在更成熟 VLN 底座之上的扩展层，而不是第一天就该跳进去的入口。

Week 4：最后看 broader benchmark#

最后才系统看：

BEDI
UAV-Flow Colosseo
AeroVerse
EmbodiedCity
UAV-ON

因为 benchmark 扩张层很重要，但它不应该先于任务定义。

八、最该长期跟踪的团队和机构#

这份材料的另一个强点，是它没有只列论文，而是把值得长期跟踪的团队挖出来了。

1. canonical aerial VLN 源头#

Northwestern Polytechnical University + University of Adelaide
代表工作：AerialVLN

2. 大规模平台与 toolchain#

Shanghai AI Laboratory IPEC
代表工作：OpenFly

3. realistic UAV-VLN 与 fine-grained control 的桥梁#

Beihang University + CUHK MMLab / CPII + Hangzhou International Innovation Institute
代表工作：OpenUAV / TravelUAV, UAV-Flow, AerialVLA Online Dialogue

UCAS + Institute of Automation, CAS + MBZUAI / CMU / Tencent Robotics X
代表工作：TG-GAT, FELA

5. real-city grounding 主线#

University of Tokyo / Institute of Science Tokyo / ATR / NII
代表工作：CityNav

6. CityNav 之后的 reasoning 方法线#

值得长期跟的是：

EmbodiedCity / Tsinghua-related urban embodied group
Sun Yat-Sen University + DP Technology + BUPT + ICT CAS + Tongji + Chulalongkorn
Aerospace Information Research Institute, CAS / UCAS
HKUST(GZ) Systems Hub / Intelligent Transportation
National University of Defense Technology + Tsinghua University

对应的重要工作包括：

CityNavAgent
FlightGPT
NavAgent
SkyVLN
GeoNav

7. aerial VLA 新源头#

值得单独盯住的还有：

AutoFly 对应团队
AerialVLA Minimalist 对应团队
UAV-Track VLA 对应团队
BEDI 对应团队
Flightmare / UZH RPG 这一类 simulator 背景团队

因为这些团队决定了后面 aerial VLA 会往哪里长。

九、哪些数据集和 benchmark 最值得先掌握#

这份材料最实用的一层，是它把“哪个数据集值得先碰”说得很具体。

1. AerialVLN：最稳的 canonical baseline#

它的关键信息包括：

25 个城市级场景
8,446 条路径
25,338 条指令
第一视角 RGB / depth
离散 4-DoF 动作空间
public code + simulator

这让它成为最适合做第一站的 aerial VLN baseline。

2. CityNav：最强 real-city grounding 入口#

核心特征是：

32,637 条人类演示轨迹
4.65 km² 真实城市区域
real-world 3D point clouds
RGB-D
geographic semantic maps

它真正的价值不是“更大”，而是把 aerial VLN 推向真实城市语义和地图推理。

3. TravelUAV / UAV-Need-Help：realism-oriented 平台#

关键特征包括：

12,149 条轨迹
22 个场景
89 个对象
多视角 RGB / depth / LiDAR / state
连续 6-DoF 轨迹

这是从经典导航走向 realistic execution 的最好桥梁之一。

4. OpenFly：长期主线平台#

它的代表性在于：

100k trajectories
18 scenes
15.6k vocabulary
multi-renderer toolchain

更适合放到主线已经稳定之后，再去做规模化平台。

5. 其他关键 benchmark#

还需要重点记住这些：

AVDN：dialog-based aerial navigation
UNOD：online dialogue navigation benchmark
UAV-Flow / UAV-Flow-Sim：fine-grained UAV imitation / control
BEDI：UAV embodied benchmark
UAV-Track VLA benchmark：动态目标跟踪
AeroVerse、EmbodiedCity：更宽的 embodied evaluation

十、benchmark 和评测不能只盯 SR / SPL#

这份材料对指标层的判断也很成熟。

1. 经典 VLN 指标仍然要保留#

SR
SPL
NE
OSR
nDTW

2. UAV realism 指标必须补上#

进入 realistic 平台之后，还必须看：

collision rate
geofence violation rate
altitude violation rate
energy / flight time
trajectory smoothness
control stability
timeout rate
safety stop accuracy

3. 真正进入 VLA 后还要看过程指标#

action success rate
task completion rate
subgoal completion rate
tool-use success
tracking success
average tracking frames
inference latency
query count
useful query ratio
human intervention count

这也是为什么这套调研一直强调：

不要只看终点成功率，还要看过程质量、安全性和交互成本。

十一、平台层怎么选，决定你是在做研究还是修环境#

这份材料对 simulator / framework 的定位非常清楚。

1. AirSim：老牌主线底座#

优点：

学界采用广
与 AerialVLN、TravelUAV 等主线强绑定
视觉和 UAV API 足够成熟

风险：

上游已不再是高速演化中的活跃基础设施

结论：适合复现主线，但不要把它误当未来长期唯一平台。

2. PX4 SITL / Gazebo / ArduPilot：更像真实飞控桥#

它们更适合：

controller-in-the-loop
realistic flight stack
multi-vehicle / robotics integration

但不适合作为第一步，因为工程复杂度会迅速淹没研究问题。

3. Flightmare / Isaac Sim：更偏 future VLA#

这些更适合：

continuous control
RL-heavy setup
synthetic data
sim-to-real future pipeline

它们重要，但不是当前第一入口。

4. OpenFly / OpenUAV / CityFlight：平台层关键节点#

OpenFly：toolchain + benchmark + scale
OpenUAV / TravelUAV：realistic UAV-VLN and continuous execution
CityFlight：web-based city grounding collection / simulation

十二、哪些代码库真的能动，哪些还只是论文信号#

这份材料非常明确地区分了可复现性等级。

当前最稳的 `R4` 主栈#

AirVLN/AirVLN
water-cookie/citynav
prince687028/TravelUAV
SHAILAB-IPEC/OpenFly-Platform

这些仓库的共同特征是：

official
training / evaluation / assets 入口相对完整
虽然重，但不是只有论文没有执行面

`R3`：评测能做，但工程风险更高#

比较典型的是：

CityNavAgent
TG-GAT
AerialVLA Minimalist
UAV-Flow
BEDI
FlightGPT

它们不是没价值，而是：

依赖树更复杂
训练和评测路径常常分裂
外部资源更多
需要先有主线经验再进

`R1`：典型 paper-to-code gap#

这类工作当前不适合作为第一复现目标：

FELA：仓库仍然写 Code coming soon
AutoFly：更像 project page，不像完整 release
UAV-Track VLA：样例公开，但完整训练/评测栈还需进一步确认

这类工作适合：

阅读
方向判断
设计 future ablation

但不适合第一轮“必须跑通”的主线。

十三、如果今天开始复现，最稳的路径是什么#

这份材料给出的主线复现顺序非常好，我基本完全认同：

AerialVLN
  ->
CityNav
  ->
TravelUAV / OpenUAV
  ->
AerialVLA Minimalist on TravelUAV
  ->
OpenFly

text

Stage 1：AerialVLN#

环境特征：

Python 3.8
airsim==1.7.0
pytorch-transformers==1.2.0

已知风险：

simulator 资源大
端口 30000
图像通道顺序要核对

Stage 2：CityNav#

这里更推荐先走 mgp，不要第一天就上完整 vlnce。

环境特征：

Python 3.10
PyTorch 2.2.2
CUDA 11.8
SoM、LLaVA、GroundingDINO、MobileSAM 等依赖很重

Stage 3：TravelUAV / OpenUAV#

环境特征：

Python 3.10
torch==2.0.1
cu118

已知风险：

requirement.txt 和常规命名不一致
README 与脚本文件名不一致
30000 / 25000 端口不统一
DDP_MASTER_PORT 80005 是无效端口

环境分离规则#

这份材料明确建议：

不要把 AerialVLN、CityNav、TravelUAV、UAV-Flow 混进一个 conda 环境。

这是很实际的建议，因为每个栈的 Python / Torch / CUDA / 依赖图都不同。

十四、dialog 和 fine-grained control 支线怎么推进#

这条材料没有把所有问题都塞进主线，而是单独拆了 side track。

支线 A：AVDN -> TG-GAT -> FELA#

这条线最适合研究：

top-down disambiguation
query / clarify / ask 行为
entity-landmark alignment

但它不是默认主线，而是主线稳定后的专题方向。

支线 B：UAV-Flow#

它更适合：

short-range low-altitude skills
language-conditioned fine control
imitation learning 风格的 UAV action execution

但它本身就是两套环境：

openvla
unrealcv

而且默认训练就是 8 卡，显然不适合作为第一条 first-success route。

十五、这份调研真正指出的 research gaps 是什么#

材料里把 open problems 收得很清楚，最后可以压成五个最直接的机会点。

1. discrete-to-continuous mismatch#

当前 aerial VLN 仍大量依赖：

discrete actions
synthetic scenes
planner-controller split

而 aerial VLA 才开始显式处理：

continuous control
executable actions
richer task interfaces

2. safety-aware evaluation 太弱#

传统指标大多只看终点。
但低空 UAV 场景显然还应该看：

collision
altitude violation
geofence
latency
safe-stop
recovery

3. low-altitude task actions 还没有统一定义#

这份材料给出的 compact action vocabulary 很有价值：

NAVIGATE
SEARCH
APPROACH
ORBIT
CAPTURE
TRACK
ASK
SAFE_STOP
REPLAN
LAND
RETURN_HOME

text

这比空泛地说“做低空 VLA”更像一篇可以写出来的论文起点。

4. dialog evaluation 还不成熟#

现在更该看的不是“有没有问”，而是：

query timing
query utility
recovery behavior

5. sim-to-real 还没有被系统打通#

更好的叙事不是只选一个 benchmark，而是把它们看成一条 realism ladder：

AirVLN
  ->
CityNav
  ->
TravelUAV / OpenUAV
  ->
AirNav

text

十六、第一篇论文最适合怎么切#

这版材料其实已经把 proposal 级别的思路写出来了。

方向 A：task-level action extension#

这是最稳的第一选择。

核心问题：

能不能把现有 aerial VLN benchmark 上的输出，从 route / discrete action 扩展到 task-level skill actions？

这条线的优势是：

贴合“低空 VLA”表述
但不脱离成熟 VLN 底座
容易引入 safety-aware evaluation

方向 B：CityNav grounding + TravelUAV execution#

核心问题：

能不能把城市级地理语义推理，接到更 realistic 的 UAV execution 上？

这条线很有研究张力，因为它正好补上：

long-horizon reasoning
continuous execution

之间的断裂。

方向 C：ask-or-act 的交互式 aerial action#

核心问题：

无人机何时该继续飞，何时该提问？

这条线很前沿，但也明显更高风险，因为 runnable code 和 benchmark 生态还弱于主线。

十七、如果把它收成给老师看的 proposal，最该怎么讲#

这份材料新增的一个很强的部分，是它已经把导师 proposal 也收束出来了。

最值得保留的不是完整标题，而是这一句表述：

我们不把低空 VLA 直接定义成端到端底层飞控，也不把它等同于机械臂操作。更合理的路线，是先以 Aerial VLN 建立 navigation backbone，再把 action space 扩展为低空作业动作和交互 / 安全动作，形成 navigation-centric Aerial VLA。

这句话之所以强，是因为它同时满足三件事：

足够前沿
足够可复现
足够容易切成第一篇论文

如果再压成更简的版本，那就是：

先把 AerialVLN -> CityNav -> OpenUAV/TravelUAV -> OpenFly 跑顺。
再把输出从目标/路径扩展到低空任务级 action。
把 safety、process、interaction 评测补进来。
第一篇论文优先做 navigation-centric Aerial VLA，而不是空泛追“更大的 UAV VLA”。

十八、最后的判断#

这套 v3 调研真正完成的，不是“证明低空 VLA 很热”，而是把这个方向从一个模糊口号，压成了一条研究上能执行的路线：

更成熟的任务底座：Aerial VLN
更现实的平台推进：CityNav / OpenUAV / TravelUAV / OpenFly
更前沿的接口扩展：navigation-centric Aerial VLA
更像论文的切口：task-level actions + safety/process/interaction evaluation

text

所以如果今天要给这个方向下一个最准确的定义，我会写成：

面向低空任务的 navigation-centric Aerial VLA：从视觉语言导航，到安全闭环任务动作执行。

这比泛讲“低空具身大模型”更清楚，也更有机会真的做出第一篇像样的工作。

一图总览#

一、先把核心结论说清楚#

二、Aerial VLN 和 Aerial VLA 到底差在哪#

1. Aerial VLN 是任务范式#

2. Aerial VLA 是动作生成接口#

3. 最有用的理解方式：按动作接口分层#

三、为什么不能直接泛讲“低空 VLA”#

四、这个方向真正成熟的主线是什么#

1. AerialVLN：canonical 起点#

2. CityNav：真实城市 grounding#

3. OpenUAV / TravelUAV：realistic UAV-VLN#

4. OpenFly：平台化与规模化#

五、这个方向是怎么发展到今天的#

2018：地面 VLN 与早期 aerial 影子#

2020-2022：对话分支出现#

2023：canonical baseline 成形#

2024-2025：realism、平台和 reasoning 开始扩张#

2026：从 survey 到 aerial VLA#

六、这份调研为什么可信：它不是堆论文，而是按方法论构建的#

1. 检索策略不是靠标题硬搜#

2. 它对每类对象都定义了统一 schema#

3. 它把质量和复现做成了显式等级#

4. 它专门防止标题膨胀#

七、哪些论文应该先读，哪些应该后读#

Week 1：先把领域定义清楚#

Week 2：理解规模、真实度和方法分支#

Week 3：再进入 VLA 扩展层#

Week 4：最后看 broader benchmark#

八、最该长期跟踪的团队和机构#

1. canonical aerial VLN 源头#

2. 大规模平台与 toolchain#

3. realistic UAV-VLN 与 fine-grained control 的桥梁#

4. dialog-based aerial navigation 主线#

5. real-city grounding 主线#

6. CityNav 之后的 reasoning 方法线#

7. aerial VLA 新源头#

九、哪些数据集和 benchmark 最值得先掌握#

1. AerialVLN：最稳的 canonical baseline#

2. CityNav：最强 real-city grounding 入口#

3. TravelUAV / UAV-Need-Help：realism-oriented 平台#

4. OpenFly：长期主线平台#

5. 其他关键 benchmark#

十、benchmark 和评测不能只盯 SR / SPL#

1. 经典 VLN 指标仍然要保留#

2. UAV realism 指标必须补上#

3. 真正进入 VLA 后还要看过程指标#

十一、平台层怎么选，决定你是在做研究还是修环境#

1. AirSim：老牌主线底座#

2. PX4 SITL / Gazebo / ArduPilot：更像真实飞控桥#

3. Flightmare / Isaac Sim：更偏 future VLA#

4. OpenFly / OpenUAV / CityFlight：平台层关键节点#

十二、哪些代码库真的能动，哪些还只是论文信号#

当前最稳的 R4 主栈#

R3：评测能做，但工程风险更高#

R1：典型 paper-to-code gap#

十三、如果今天开始复现，最稳的路径是什么#

Stage 1：AerialVLN#

Stage 2：CityNav#

Stage 3：TravelUAV / OpenUAV#

环境分离规则#

十四、dialog 和 fine-grained control 支线怎么推进#

支线 A：AVDN -> TG-GAT -> FELA#

支线 B：UAV-Flow#

十五、这份调研真正指出的 research gaps 是什么#

1. discrete-to-continuous mismatch#

2. safety-aware evaluation 太弱#

3. low-altitude task actions 还没有统一定义#

4. dialog evaluation 还不成熟#

5. sim-to-real 还没有被系统打通#

十六、第一篇论文最适合怎么切#

方向 A：task-level action extension#

方向 B：CityNav grounding + TravelUAV execution#

方向 C：ask-or-act 的交互式 aerial action#

十七、如果把它收成给老师看的 proposal，最该怎么讲#

十八、最后的判断#

当前最稳的 `R4` 主栈#

`R3`：评测能做，但工程风险更高#

`R1`：典型 paper-to-code gap#