20Bytes Log

如果把方向直接写成“低空 VLA 大模型”,它听起来足够大,也足够新,但很容易在真正开始复现和选题时迅速失焦。
更关键的问题从来不是名字够不够前沿,而是三件事:

  • 任务边界能不能讲清
  • 主线 benchmark 和平台能不能真的跑起来
  • 第一篇论文能不能切在一个既稳、又不失前沿性的地方

这篇文章基于一套已经收束到 v3-final 的调研材料,不再按“论文列表”展开,而是按真正做研究需要的顺序重组信息:

  • 先讲任务边界与动作接口
  • 再讲主线论文、平台和复现优先级
  • 最后收束到论文切口与导师 proposal 的表达方式

我最后认同的核心判断很明确:

研一阶段更稳的路线,不是直接追一个泛化很大的“端到端低空 VLA”,而是先以 Aerial VLN 为底座,再扩展到 navigation-centric Aerial VLA

一图总览#

低空 UAV-VLN 到 UAV-VLA 的总路线图

如果只记住这篇文章的一句话,那就是:

主线先走 AerialVLN -> CityNav -> OpenUAV / TravelUAV -> OpenFly,再把输出接口从导航结果扩展到任务级动作、交互动作与安全动作。

为了让后面的长文更好读,先把结论压成三行:

  1. Aerial VLN 是当前最成熟、最适合起步的任务底座。
  2. 真正值得做的 Aerial VLA,应该优先落在 A4 + A5 的 navigation-centric action space,而不是一上来追最重的连续控制或物理操作。
  3. 第一篇论文最稳的切口,是在成熟 VLN 主线上补 task-level action head 与 safety-aware evaluation。

一、先把核心结论说清楚#

这份调研最重要的一句话不是某篇论文的 claim,而是下面这个方向判断:

以 Aerial VLN 为底座,扩展到 navigation-centric Aerial VLA。
text

这句话背后有三层意思:

  1. 低空无人机研究不能一上来就泛讲“具身大模型”。
  2. 现阶段真正成熟的是视觉语言导航主线,而不是统一的 aerial VLA 生态。
  3. 更稳的做法,是先把导航问题、benchmark 和平台跑顺,再把输出接口扩展为任务级动作、交互动作和安全动作。

换成更适合对外表达的题目,可以写成:

Navigation-centric Aerial VLA for Low-altitude UAV Tasks

也就是:

  • 先解决语言引导导航
  • 再引入低空作业动作
  • 再把安全、交互、过程评测补全

二、Aerial VLN 和 Aerial VLA 到底差在哪#

这份材料最清楚的一点,是它不拿“VLA”当营销词,而是严格按任务接口来区分。

1. Aerial VLN 是任务范式#

Aerial Vision-Language Navigation 讨论的是:

无人机如何根据自然语言和视觉观测完成目标到达、路径跟随、地标定位或导航辅助。

它的输入通常是:

  • language instruction
  • visual observations
  • optional pose / map / depth / history / odometry

它的输出可以是:

  • goal
  • landmark
  • waypoint
  • route
  • discrete navigation action
  • stop signal

也就是说,VLN 更强调:

  • 目标理解
  • 路径规划
  • 视觉-语言 grounding
  • 是否成功到达

2. Aerial VLA 是动作生成接口#

Aerial Vision-Language-Action 讨论的是:

模型是否直接或分层地产生进入闭环执行的动作。

这里的动作不只是一串底层控制量,也包括更高层的任务动作。

材料里给出的动作空间很完整:

  • continuous control: vx, vy, vz, yaw_rate, attitude, thrust
  • discrete navigation actions
  • skill actions
  • interaction actions
  • physical manipulation actions

所以更准确的说法不是“VLA 必须有机械臂”,而是:

只要模型输出进入闭环执行,它就已经在 VLA 语境里了。

3. 最有用的理解方式:按动作接口分层#

这份调研把 action interface 分成了 A0-A6 六个层级,这个视角非常有用:

Level输出接口例子更像什么
A0目标/地标red building, bridgegrounding / modular VLN
A1航点/路径route, trajectorywaypoint-based VLN
A2离散导航动作forward / left / stopend-to-end VLN / weak VLA
A3连续飞控动作vx, vy, vz, yaw_ratelocomotion Aerial VLA
A4任务级技能动作NAVIGATE, APPROACH, ORBIT, CAPTURE, LANDnavigation-centric Aerial VLA
A5交互动作ASK, CONFIRM, REPLAN, SAFE_STOPinteractive Aerial VLA
A6物理操作动作DROP, RELEASE, GRASP, DOCKfull aerial manipulation VLA

这也是为什么这份调研明确提出:

对低空任务最重要的不是一上来追 A3 或 A6,而是先把 A4 + A5 建起来。

三、为什么不能直接泛讲“低空 VLA”#

如果把方向直接写成“低空 VLA”,看起来很大,但研究上会立刻遇到三个问题:

  • 边界太宽
  • benchmark 不稳
  • 第一篇论文不好切

因为“低空 VLA”很容易把这些问题混在一起:

  • 低空视觉语言导航
  • 城市级地理语义推理
  • 连续飞行控制
  • 对话式决策
  • 跟踪、巡检、拍摄、降落、返航
  • 物理交互
  • 多机协同

老师追问的时候,通常会卡在这些地方:

  • 你的任务到底是什么?
  • benchmark 是什么?
  • action 到底定义在哪一层?
  • 你是在做导航,还是做 controller,还是做 embodied manipulation?

所以这份调研明确反对两种说法:

  • 把低空 VLA 讲成一个泛化很大的“无人机具身大模型故事”
  • 把所有 UAV VLM reasoning 都算进 VLA

它推荐的更稳表达是:

从语言引导导航走向低空任务级动作执行。

四、这个方向真正成熟的主线是什么#

这套调研最后收束出的主路线非常清楚:

AerialVLN
  ->
CityNav
  ->
OpenUAV / TravelUAV
  ->
OpenFly
  ->
navigation-centric Aerial VLA
text

这条主线之所以重要,不只是因为它列出了几篇论文,而是因为它对应了一条逐步提升真实度和动作复杂度的研究路径。

1. AerialVLN:canonical 起点#

AerialVLN 是第一代 canonical aerial VLN benchmark。

它把无人机导航正式放进了:

  • 户外
  • 第一视角
  • 城市级场景
  • 语言条件导航

这让后续很多工作都可以共享一套基本任务语境。

2. CityNav:真实城市 grounding#

CityNav 的意义在于,它把问题推进到:

  • real-world 3D city scans
  • geographic grounding
  • long-horizon urban semantics

也就是说,从这里开始,问题已经不只是“合成场景里飞得对不对”,而是“城市语义、地图和目标描述能不能真正对上”。

3. OpenUAV / TravelUAV:realistic UAV-VLN#

这条线的重要性是,它把 aerial VLN 往 realistic execution 推了一大步:

  • 更真实的连续飞行
  • 多视角感知
  • assistant-guided benchmark
  • 更接近闭环执行的问题设定

这也是为什么这份调研把它放在从 VLN 走向 VLA 的桥梁位置。

4. OpenFly:平台化与规模化#

OpenFly 的作用,不只是“更大”,而是:

  • 把 aerial VLN 工具链化
  • 把数据生成规模化
  • 把 benchmark 和平台层连接起来

它更像长期主线平台,而不是第一阶段最容易上手的 baseline。

五、这个方向是怎么发展到今天的#

这套材料把时间线理得很清楚,基本可以看成五个阶段。

2018:地面 VLN 与早期 aerial 影子#

  • R2R 把 ground VLN 变成 mainstream embodied task。
  • LANI 引入了 aerial-perspective instruction/trajectory 数据。
  • 这时已经能看到四旋翼语言控制的雏形,但还谈不上成熟 aerial VLN。

2020-2022:对话分支出现#

  • VLN-CE 强化了连续环境 VLN 的重要性。
  • AVDN 打开了 dialog-based aerial navigation 这一支。

2023:canonical baseline 成形#

  • AerialVLN 成为第一代 outdoor UAV VLN benchmark。
  • TG-GAT 成为 AVDN 支线上最早的一批强方法。

2024-2025:realism、平台和 reasoning 开始扩张#

  • CityNav 把重心推向 real-city grounding。
  • OpenUAV / TravelUAV 把连续 6-DoF、assistant guidance 和 realism 推上来。
  • OpenFly 把平台和 toolchain 的规模做大。
  • CityNavAgentFlightGPTGeoNavSkyVLNLookasideVLN 等工作把 LLM/VLM reasoning、memory、dual-scale planning 接到了 aerial VLN 上。
  • FELA 等后续工作把对话导航里的细粒度对齐做得更深。

2026:从 survey 到 aerial VLA#

  • 总览型 survey 正式把任务、方法、数据集、simulator、metrics 和 open problems 收拢。
  • AutoFlyAerialVLA MinimalistAerialVLA Online DialogueUAV-Track VLA 这些工作,让 aerial VLA 不再只是一个模糊方向,而变成可以按 action interface 具体讨论的研究对象。

所以今天更合理的判断不是:

“低空 VLA 已经全面成熟”

而是:

“低空 / 空中方向正在从成熟的 aerial VLN,逐步走向更强的 action-centric aerial VLA。”

六、这份调研为什么可信:它不是堆论文,而是按方法论构建的#

这版材料很完整,一个关键原因是它连“怎么调研”都做了显式设计。

1. 检索策略不是靠标题硬搜#

它明确规定:

  1. 从 seed papers 出发
  2. 看 references
  3. 查 citations
  4. 查作者与团队的前后续工作
  5. 查项目页、GitHub、数据集页
  6. 单独检索 benchmark、simulator、model name 和 dataset name

主要来源优先级也写得很清楚:

  1. paper PDF / arXiv / CVF / OpenReview / AAAI OJS
  2. official project page
  3. official GitHub / dataset page
  4. Semantic Scholar / OpenAlex
  5. blogs / awesome lists 只做发现入口

2. 它对每类对象都定义了统一 schema#

这套材料不是自由摘要,而是给下面几类条目都定义了统一字段:

  • paper
  • dataset
  • benchmark
  • simulator / framework
  • codebase
  • team

比如论文条目至少会记录:

  • title / authors / year / source
  • task axis / action axis
  • input modalities / output space
  • dataset / simulator
  • main contributions / limitations
  • reproducibility level
  • quality level

这能明显减少“只记结论,不记上下文”的问题。

3. 它把质量和复现做成了显式等级#

状态分成:

  • verified
  • partially_verified
  • needs_verification
  • excluded

质量等级分成:

  • Q0Q5

可复现性分成:

  • R0R5

这让“这个工作能不能用”不再只是主观印象,而是有标准的。

4. 它专门防止标题膨胀#

如果某篇论文标题写了 VLA,这份调研不会直接买账,而是继续问:

  • 最终输出是不是 action
  • 有没有 closed-loop execution
  • planner / controller 在里面是不是主角
  • action space 到底落在哪一层
  • benchmark 和 metrics 是否支持它真是一个 VLA 问题

这条规则非常关键,因为它直接避免了把“带一点动作味道的 VLN”都误当成 aerial VLA。

七、哪些论文应该先读,哪些应该后读#

这份调研给出的阅读顺序非常稳,不是“从最新 VLA 论文开读”,而是:

survey -> dataset/platform -> method -> VLA extension -> benchmark

Week 1:先把领域定义清楚#

第一周最该读的是:

  1. Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language Models
  2. AerialVLN
  3. CityNav
  4. Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

这四篇负责定义:

  • 什么是 aerial VLN
  • canonical 主线是谁
  • realism 从哪里开始上升
  • 为什么后面可以自然延伸到 aerial VLA

Week 2:理解规模、真实度和方法分支#

第二周推荐进入:

  • OpenFly
  • AVDN
  • TG-GAT
  • FELA
  • CityNavAgent
  • FlightGPT
  • GeoNav
  • SkyVLN
  • LookasideVLN

这周的重点不是逐行实现,而是理解:

  • 主线 method 怎么演化
  • dialog 分支怎么长出来
  • LLM/VLM reasoning 是怎么接到 aerial VLN 上的

Week 3:再进入 VLA 扩展层#

这时才建议看:

  • AutoFly
  • AerialVLA Minimalist
  • AerialVLA Online Dialogue
  • UAV-Track VLA

这说明一个很清楚的判断:

VLA 是建立在更成熟 VLN 底座之上的扩展层,而不是第一天就该跳进去的入口。

Week 4:最后看 broader benchmark#

最后才系统看:

  • BEDI
  • UAV-Flow Colosseo
  • AeroVerse
  • EmbodiedCity
  • UAV-ON

因为 benchmark 扩张层很重要,但它不应该先于任务定义。

八、最该长期跟踪的团队和机构#

这份材料的另一个强点,是它没有只列论文,而是把值得长期跟踪的团队挖出来了。

1. canonical aerial VLN 源头#

  • Northwestern Polytechnical University + University of Adelaide
  • 代表工作:AerialVLN

2. 大规模平台与 toolchain#

  • Shanghai AI Laboratory IPEC
  • 代表工作:OpenFly

3. realistic UAV-VLN 与 fine-grained control 的桥梁#

  • Beihang University + CUHK MMLab / CPII + Hangzhou International Innovation Institute
  • 代表工作:OpenUAV / TravelUAV, UAV-Flow, AerialVLA Online Dialogue

4. dialog-based aerial navigation 主线#

  • UCAS + Institute of Automation, CAS + MBZUAI / CMU / Tencent Robotics X
  • 代表工作:TG-GAT, FELA

5. real-city grounding 主线#

  • University of Tokyo / Institute of Science Tokyo / ATR / NII
  • 代表工作:CityNav

6. CityNav 之后的 reasoning 方法线#

值得长期跟的是:

  • EmbodiedCity / Tsinghua-related urban embodied group
  • Sun Yat-Sen University + DP Technology + BUPT + ICT CAS + Tongji + Chulalongkorn
  • Aerospace Information Research Institute, CAS / UCAS
  • HKUST(GZ) Systems Hub / Intelligent Transportation
  • National University of Defense Technology + Tsinghua University

对应的重要工作包括:

  • CityNavAgent
  • FlightGPT
  • NavAgent
  • SkyVLN
  • GeoNav

7. aerial VLA 新源头#

值得单独盯住的还有:

  • AutoFly 对应团队
  • AerialVLA Minimalist 对应团队
  • UAV-Track VLA 对应团队
  • BEDI 对应团队
  • Flightmare / UZH RPG 这一类 simulator 背景团队

因为这些团队决定了后面 aerial VLA 会往哪里长。

九、哪些数据集和 benchmark 最值得先掌握#

这份材料最实用的一层,是它把“哪个数据集值得先碰”说得很具体。

1. AerialVLN:最稳的 canonical baseline#

它的关键信息包括:

  • 25 个城市级场景
  • 8,446 条路径
  • 25,338 条指令
  • 第一视角 RGB / depth
  • 离散 4-DoF 动作空间
  • public code + simulator

这让它成为最适合做第一站的 aerial VLN baseline。

2. CityNav:最强 real-city grounding 入口#

核心特征是:

  • 32,637 条人类演示轨迹
  • 4.65 km² 真实城市区域
  • real-world 3D point clouds
  • RGB-D
  • geographic semantic maps

它真正的价值不是“更大”,而是把 aerial VLN 推向真实城市语义和地图推理。

3. TravelUAV / UAV-Need-Help:realism-oriented 平台#

关键特征包括:

  • 12,149 条轨迹
  • 22 个场景
  • 89 个对象
  • 多视角 RGB / depth / LiDAR / state
  • 连续 6-DoF 轨迹

这是从经典导航走向 realistic execution 的最好桥梁之一。

4. OpenFly:长期主线平台#

它的代表性在于:

  • 100k trajectories
  • 18 scenes
  • 15.6k vocabulary
  • multi-renderer toolchain

更适合放到主线已经稳定之后,再去做规模化平台。

5. 其他关键 benchmark#

还需要重点记住这些:

  • AVDN:dialog-based aerial navigation
  • UNOD:online dialogue navigation benchmark
  • UAV-Flow / UAV-Flow-Sim:fine-grained UAV imitation / control
  • BEDI:UAV embodied benchmark
  • UAV-Track VLA benchmark:动态目标跟踪
  • AeroVerseEmbodiedCity:更宽的 embodied evaluation

十、benchmark 和评测不能只盯 SR / SPL#

这份材料对指标层的判断也很成熟。

1. 经典 VLN 指标仍然要保留#

  • SR
  • SPL
  • NE
  • OSR
  • nDTW

2. UAV realism 指标必须补上#

进入 realistic 平台之后,还必须看:

  • collision rate
  • geofence violation rate
  • altitude violation rate
  • energy / flight time
  • trajectory smoothness
  • control stability
  • timeout rate
  • safety stop accuracy

3. 真正进入 VLA 后还要看过程指标#

  • action success rate
  • task completion rate
  • subgoal completion rate
  • tool-use success
  • tracking success
  • average tracking frames
  • inference latency
  • query count
  • useful query ratio
  • human intervention count

这也是为什么这套调研一直强调:

不要只看终点成功率,还要看过程质量、安全性和交互成本。

十一、平台层怎么选,决定你是在做研究还是修环境#

这份材料对 simulator / framework 的定位非常清楚。

1. AirSim:老牌主线底座#

优点:

  • 学界采用广
  • AerialVLNTravelUAV 等主线强绑定
  • 视觉和 UAV API 足够成熟

风险:

  • 上游已不再是高速演化中的活跃基础设施

结论:适合复现主线,但不要把它误当未来长期唯一平台。

2. PX4 SITL / Gazebo / ArduPilot:更像真实飞控桥#

它们更适合:

  • controller-in-the-loop
  • realistic flight stack
  • multi-vehicle / robotics integration

但不适合作为第一步,因为工程复杂度会迅速淹没研究问题。

3. Flightmare / Isaac Sim:更偏 future VLA#

这些更适合:

  • continuous control
  • RL-heavy setup
  • synthetic data
  • sim-to-real future pipeline

它们重要,但不是当前第一入口。

4. OpenFly / OpenUAV / CityFlight:平台层关键节点#

  • OpenFly:toolchain + benchmark + scale
  • OpenUAV / TravelUAV:realistic UAV-VLN and continuous execution
  • CityFlight:web-based city grounding collection / simulation

十二、哪些代码库真的能动,哪些还只是论文信号#

这份材料非常明确地区分了可复现性等级。

当前最稳的 R4 主栈#

  • AirVLN/AirVLN
  • water-cookie/citynav
  • prince687028/TravelUAV
  • SHAILAB-IPEC/OpenFly-Platform

这些仓库的共同特征是:

  • official
  • training / evaluation / assets 入口相对完整
  • 虽然重,但不是只有论文没有执行面

R3:评测能做,但工程风险更高#

比较典型的是:

  • CityNavAgent
  • TG-GAT
  • AerialVLA Minimalist
  • UAV-Flow
  • BEDI
  • FlightGPT

它们不是没价值,而是:

  • 依赖树更复杂
  • 训练和评测路径常常分裂
  • 外部资源更多
  • 需要先有主线经验再进

R1:典型 paper-to-code gap#

这类工作当前不适合作为第一复现目标:

  • FELA:仓库仍然写 Code coming soon
  • AutoFly:更像 project page,不像完整 release
  • UAV-Track VLA:样例公开,但完整训练/评测栈还需进一步确认

这类工作适合:

  • 阅读
  • 方向判断
  • 设计 future ablation

但不适合第一轮“必须跑通”的主线。

十三、如果今天开始复现,最稳的路径是什么#

这份材料给出的主线复现顺序非常好,我基本完全认同:

AerialVLN
  ->
CityNav
  ->
TravelUAV / OpenUAV
  ->
AerialVLA Minimalist on TravelUAV
  ->
OpenFly
text

Stage 1:AerialVLN#

环境特征:

  • Python 3.8
  • airsim==1.7.0
  • pytorch-transformers==1.2.0

已知风险:

  • simulator 资源大
  • 端口 30000
  • 图像通道顺序要核对

Stage 2:CityNav#

这里更推荐先走 mgp,不要第一天就上完整 vlnce

环境特征:

  • Python 3.10
  • PyTorch 2.2.2
  • CUDA 11.8
  • SoM、LLaVA、GroundingDINO、MobileSAM 等依赖很重

Stage 3:TravelUAV / OpenUAV#

环境特征:

  • Python 3.10
  • torch==2.0.1
  • cu118

已知风险:

  • requirement.txt 和常规命名不一致
  • README 与脚本文件名不一致
  • 30000 / 25000 端口不统一
  • DDP_MASTER_PORT 80005 是无效端口

环境分离规则#

这份材料明确建议:

不要把 AerialVLNCityNavTravelUAVUAV-Flow 混进一个 conda 环境。

这是很实际的建议,因为每个栈的 Python / Torch / CUDA / 依赖图都不同。

十四、dialog 和 fine-grained control 支线怎么推进#

这条材料没有把所有问题都塞进主线,而是单独拆了 side track。

支线 A:AVDN -> TG-GAT -> FELA#

这条线最适合研究:

  • top-down disambiguation
  • query / clarify / ask 行为
  • entity-landmark alignment

但它不是默认主线,而是主线稳定后的专题方向。

支线 B:UAV-Flow#

它更适合:

  • short-range low-altitude skills
  • language-conditioned fine control
  • imitation learning 风格的 UAV action execution

但它本身就是两套环境:

  • openvla
  • unrealcv

而且默认训练就是 8 卡,显然不适合作为第一条 first-success route。

十五、这份调研真正指出的 research gaps 是什么#

材料里把 open problems 收得很清楚,最后可以压成五个最直接的机会点。

1. discrete-to-continuous mismatch#

当前 aerial VLN 仍大量依赖:

  • discrete actions
  • synthetic scenes
  • planner-controller split

而 aerial VLA 才开始显式处理:

  • continuous control
  • executable actions
  • richer task interfaces

2. safety-aware evaluation 太弱#

传统指标大多只看终点。
但低空 UAV 场景显然还应该看:

  • collision
  • altitude violation
  • geofence
  • latency
  • safe-stop
  • recovery

3. low-altitude task actions 还没有统一定义#

这份材料给出的 compact action vocabulary 很有价值:

NAVIGATE
SEARCH
APPROACH
ORBIT
CAPTURE
TRACK
ASK
SAFE_STOP
REPLAN
LAND
RETURN_HOME
text

这比空泛地说“做低空 VLA”更像一篇可以写出来的论文起点。

4. dialog evaluation 还不成熟#

现在更该看的不是“有没有问”,而是:

  • query timing
  • query utility
  • recovery behavior

5. sim-to-real 还没有被系统打通#

更好的叙事不是只选一个 benchmark,而是把它们看成一条 realism ladder:

AirVLN
  ->
CityNav
  ->
TravelUAV / OpenUAV
  ->
AirNav
text

十六、第一篇论文最适合怎么切#

这版材料其实已经把 proposal 级别的思路写出来了。

方向 A:task-level action extension#

这是最稳的第一选择。

核心问题:

能不能把现有 aerial VLN benchmark 上的输出,从 route / discrete action 扩展到 task-level skill actions?

这条线的优势是:

  • 贴合“低空 VLA”表述
  • 但不脱离成熟 VLN 底座
  • 容易引入 safety-aware evaluation

方向 B:CityNav grounding + TravelUAV execution#

核心问题:

能不能把城市级地理语义推理,接到更 realistic 的 UAV execution 上?

这条线很有研究张力,因为它正好补上:

  • long-horizon reasoning
  • continuous execution

之间的断裂。

方向 C:ask-or-act 的交互式 aerial action#

核心问题:

无人机何时该继续飞,何时该提问?

这条线很前沿,但也明显更高风险,因为 runnable code 和 benchmark 生态还弱于主线。

十七、如果把它收成给老师看的 proposal,最该怎么讲#

这份材料新增的一个很强的部分,是它已经把导师 proposal 也收束出来了。

最值得保留的不是完整标题,而是这一句表述:

我们不把低空 VLA 直接定义成端到端底层飞控,也不把它等同于机械臂操作。更合理的路线,是先以 Aerial VLN 建立 navigation backbone,再把 action space 扩展为低空作业动作和交互 / 安全动作,形成 navigation-centric Aerial VLA。

这句话之所以强,是因为它同时满足三件事:

  • 足够前沿
  • 足够可复现
  • 足够容易切成第一篇论文

如果再压成更简的版本,那就是:

  1. 先把 AerialVLN -> CityNav -> OpenUAV/TravelUAV -> OpenFly 跑顺。
  2. 再把输出从目标/路径扩展到低空任务级 action。
  3. 把 safety、process、interaction 评测补进来。
  4. 第一篇论文优先做 navigation-centric Aerial VLA,而不是空泛追“更大的 UAV VLA”。

十八、最后的判断#

这套 v3 调研真正完成的,不是“证明低空 VLA 很热”,而是把这个方向从一个模糊口号,压成了一条研究上能执行的路线:

更成熟的任务底座:Aerial VLN
更现实的平台推进:CityNav / OpenUAV / TravelUAV / OpenFly
更前沿的接口扩展:navigation-centric Aerial VLA
更像论文的切口:task-level actions + safety/process/interaction evaluation
text

所以如果今天要给这个方向下一个最准确的定义,我会写成:

面向低空任务的 navigation-centric Aerial VLA:从视觉语言导航,到安全闭环任务动作执行。

这比泛讲“低空具身大模型”更清楚,也更有机会真的做出第一篇像样的工作。

低空 UAV-VLN 到 UAV-VLA:一条更稳的研究主线
https://20bytes.github.io/auto-research/low-altitude-uav-vln-vla-v3
Author 昙柏
Published at May 2, 2026