低空具身智能：从空中 VLN 到空中 VLA

区分空中 VLN 与 VLA#

2025-2026 年出现的一批空中具身工作会让 VLN / VLA 的边界显得很模糊：它们都在解决“无人机如何听懂语言并飞到目标位置”的问题，但有的论文叫 VLN，有的论文叫 VLA。这个模糊感是合理的，因为大模型正在把“找路（Navigation / Planning）”和“控制（Action / Control）”揉进同一个网络里。

核心判断不要看论文任务名，而要看两个东西：

神经网络最后一层的输出空间（Output Space）。
系统架构中是否仍然依赖传统规划器或控制器兜底。

判别标准#

空中 VLN（Aerial Vision-Language Navigation）

网络输出：离散的高级指令（如前、后、左、右、上、下、停止）或三维空间航点（Waypoints，x/y/z 坐标）。

架构特征：AI 当“向导”，传统模块当“飞行员”。大模型主要负责理解语言、看图、选目标点或生成航点，然后交给传统局部规划器或控制器去执行，例如 A*、Receding-Horizon Planner、路径平滑、MPC 或避障模块。

关键点：导航和路径选择是显式的，底层飞行控制没有被神经网络完全接管。

空中 VLA（Aerial Vision-Language-Action）

网络输出：底层的、连续的物理控制信号。在没有机械臂的纯飞行任务中，通常就是连续速度控制指令，例如三轴线速度 v_x/v_y/v_z 加偏航角速度 yaw rate；如果带机械臂，还可能包括夹爪、关节角或末端执行器动作。

架构特征：AI 同时当“向导”和“飞行员”。系统强调端到端（End-to-End），网络高频输出下一步物理动作，避障、减速、侧移、绕行等行为都由策略网络隐式完成，而不是显式交给外部传统规划器。

关键点：动作直接改变具身智能体的物理状态，网络不只是告诉无人机“去哪”，而是直接决定“此刻怎么飞 / 怎么动”。

概念对比#

维度	空中 VLN	空中 VLA
通俗比喻	活地图 / 飞行向导	自动驾驶飞行员 / 空中具身智能体
核心任务	听懂指令，规划三维路线，到达目的地	听懂指令，直接控制底层飞行动作，甚至进行物理交互
输出层	离散方向、目标点、航点序列、候选目标	连续速度、角速度、姿态、推力、机械臂关节或夹爪动作
系统架构	模块化，常带传统 Planner / Controller	端到端，网络直接输出 Action
研究重点	语言理解、视觉定位、航点选择、长程规划	视觉-语言-动作对齐、动态控制、避障、Sim-to-Real
判断关键词	`waypoint`、`candidate goal`、`planner`、`navigation`	`velocity command`、`action space`、`end-to-end`、`visuomotor policy`

VLA 是否涵盖 VLN？#

可以从两个层面回答：

严格算法定义上：VLN 不是 VLA 的简单子集。 VLN 是宏观规划层面的任务，强调“根据语言和视觉找到路”；VLA 是动作控制层面的范式，强调“根据语言和视觉直接输出动作”。
任务能力和系统能力上：VLA 可以涵盖 VLN。 如果一个 VLA 模型接收“飞到红色屋顶上方”的语言指令，并通过连续速度控制最终到达目标位置，那么它已经完成了 VLN 的导航任务。区别是传统 VLN 把“找路”显式输出为航点或决策序列，而 VLA 把“找路”内化到神经网络隐藏状态中，直接吐出最终物理动作。

更直观地说：VLN 像导航地图，告诉你路线；VLA 像自动驾驶系统，不仅知道路线，还直接控制方向、速度和避障。因此，在能力上可以认为 VLA 向下兼容 VLN，但在论文分类时仍要看输出空间和系统架构。

Action 的边界争议#

广义 VLA：Locomotion Action

在无人机领域，端到端输出速度本身就可以被视为 Action。原因是无人机需要在三维空间中对抗重力、气流和动态障碍，保持稳定飞行并完成长程导航。这个控制难度不亚于很多地面机器人的运动控制。因此，Velocity Commands、姿态控制或高频运动控制可以构成空中 VLA 的动作空间。

这类工作通常也可以叫 Locomotion VLA，也就是移动控制型 VLA。

狭义 VLA：Manipulation Action

更严格的具身智能定义会要求智能体不仅移动，还要改变物理世界状态，例如抓取、搬运、投放、组装或操作工具。对应到无人机场景，完全体空中 VLA 往往是“无人机 + 机械臂 / 夹爪”的 Aerial Manipulation，需要同时控制飞行平台和末端执行器。

这类工作更接近 Locomotion + Manipulation 的完整 VLA。

Title Inflation

当前学术界存在一定的“标题通胀”：VLA 是热门关键词，很多过去可能被称为 visuomotor policy 或端到端控制策略的工作，现在会被包装成 VLA。判断时不要只看标题，要回到输出空间：如果只是输出航点并依赖 Planner，仍然更接近 VLN；如果直接输出速度、姿态或机械动作，才更接近 VLA。

代表性论文分类#

阵营一：模块化 Aerial VLN

OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency
- 归类：标准的零样本空中 VLN。
- 原因：核心思路是让 VLM 输出目标候选点（Candidate Goals），再通过语义几何验证器和传统局部规划器（如 Receding-Horizon Planner）保证安全与效率。
- 判断：AI 主要负责看图找航点，最后怎么飞过去、怎么避障，仍由规划器兜底，因此是典型 VLN 范式。
OpenFly: Aerial Vision-Language Navigation via Supervised-to-Reinforced Adaptation
- 归类：基于学习的空中 VLN。
- 原因：它关注从监督学习到强化学习的适应过程，用 RL 提升长序列路径决策的成功率，核心仍是“如何更好地到达终点”。
- 判断：优化对象是导航决策序列，而不是直接高频输出底层飞行控制信号，因此属于 VLN。

阵营二：端到端 Aerial VLA

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild
- 归类：典型的 Locomotion VLA。
- 原因：论文强调端到端 VLA，并直接输出无人机速度控制指令（UAV Velocity Commands）。
- 判断：它抛弃预设航点和传统规划器，让网络直接根据视觉、语言和空间编码输出飞行动作，实现自主避障和导航，因此属于 VLA。
AerialVLA: A Vision-Language-Action Model for Aerial Navigation with Online Dialogue
- 归类：交互式 Aerial VLA。
- 原因：它不仅输出移动动作（Moving Action），还将“向人提问 / 请求澄清”建模为查询动作（Query Action）。
- 判断：系统输出直接决定具身智能体下一步行为：飞行、停留、询问或继续探索。这种把移动与交互都纳入 Action Space 的设计，体现了 VLA Agent 的思想。

一句话判断法#

看模型结构图的最后一层：

如果输出的是坐标点、航点、离散方向，或者系统框图里还有 Planner、A*、MPC、Receding-Horizon Planner 等模块，优先归为 VLN。
如果网络直接输入图像和语言，直接输出 speed、velocity command、姿态控制、推力、机械臂关节参数，并强调 End-to-End，优先归为 VLA。

空中具身的发展路线#

阶段一：纯 Aerial VLN。 AI 做向导，传统规划与控制模块兜底。
阶段二：移动控制型 Aerial VLA。 端到端输出速度或姿态动作，完成避障、抗扰和导航。
阶段三：空中移动操作。 无人机搭载机械臂或夹爪，实现抓取、搬运和投放等物理交互。
阶段四：多智能体协作 VLA。 无人机蜂群通过大模型进行协同搜索、救援、搭建或巡检。

入局建议#

对于刚进入空中具身领域的研究者，较稳妥的路线不是继续卷纯找路 VLN，也不是一开始就做复杂的无人机机械臂真机控制，而是选择 Benchmark + Locomotion VLA 的组合。

学习新一代物理仿真平台，例如 Nvidia Isaac Sim 或 Genesis，尽量避免完全依赖较老的 AirSim 流程。
复现一个端到端输出速度的 baseline，用模仿学习（IL）或强化学习（RL）跑通从文本、图像到三轴线速度 / 角速度的完整数据流。
做一个“小而美”的空中具身 benchmark，例如动态风扰、狭窄空间穿越、空中磁吸 / 抓取、长程语言导航中的实时避障。
做 Sim-to-Real 闭环验证，例如使用 Crazyflie 这类轻量、耐摔、飞控开源的平台，把模型部署到真实无人机上，形成物理世界中的闭环展示。

基建方面#

Base Model#

Dataset#

Benchmark#

Framework#

VLA#

Task：类似于机器人领域的 VLA 任务，只不过这里的 A (Action) 是描述无人机的速度。

VLN（视觉语言导航）#

Task：给定一个自然语言指令，指导无人机在环境中导航。

1. 什么是空中视觉语言导航？#

输入 (Input)	处理 (Process)	输出 (Output)
📜 自然语言指令 📽️ 自我中心视觉流	➡️ 🧠 UAV 智能体 ➡️	✈️ 飞行轨迹 ⚙️ 低级控制指令

特征维度	地面VLN	空中VLN (Air VLN)
环境尺度	房间级、街道级（路径通常小于100米）	城市级、大型室外区域（路径超过600米）
动作空间	二维/二维半（前进、转向、停止）	三维/六自由度（上升/下降、翻滚、俯仰、偏航）
路径复杂性	受走廊、街道约束；常基于预定义图	无约束的三维轨迹；规划复杂度呈指数级增长
语义密度	高（房间/街道中有密集的物体和地标）	稀疏且多变（物体更小、更远）
主要挑战	在杂乱场景中的跨模态对齐	长时程规划、三维空间推理、模拟到现实的迁移鸿沟

2. 空中视觉语言导航的独特挑战：#

三维路径规划与六自由度控制#

维度增加。无人机在完整的6 DOF（自由度）空间中运行，导致动作空间的复杂性呈指数级增长，使传统规划算法在计算上难以处理。
从路径到轨迹。挑战不仅在于找到航点（路径规划），还在于生成平滑且动态可行的飞行轨迹（轨迹规划），必须考虑无人机的物理约束。
三维障碍物规避。碰撞规避不再是二维问题。无人机必须在杂乱的三维环境中导航，避开静态和动态障碍物，需要实时、全方位的感知。

从空中视角进行语义理解#

多变的视角。无人机灵活的视角导致在不同高度和角度下对物体的感知发生巨大的变化，使得一致性识别变得困难。
稀疏的语义信息。空中视角通常覆盖广阔区域，与指令相关的地标可能很小、很远或在视觉上不突出，形成稀疏的语义景观。使得跨模态对齐变得更具挑战性。（vision-language alignment）
对鲁棒语义分割的需求。智能体必须对航拍图像进行鲁棒的语义分割，将像素分类为“建筑”、“道路”等类别，以理解环境结构。