HUGE-Bench: A Benchmark for High-Level UAV Vision-Language-Action Tasks<br>HUGE-Bench:面向高级无人机视觉-语言-动作任务的基准测试平台<br>[摘要](abstracts/2603.19822.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

现有的无人机视觉-语言导航(VLN)基准测试已实现语言引导飞行,但其主要关注基于长序列、分步式路径描述并以目标为中心进行评估,这使得它们对实际操作的诊断性不足,因为实际操作中需将简短的高级指令转化为安全的多阶段行为。我们提出了HUGE-Bench,这是一个面向高级无人机视觉-语言-动作(HL-VLA)任务的基准测试平台,旨在检验智能体能否理解简洁语言并执行复杂、面向过程且具备安全意识的轨迹。HUGE-Bench包含4个真实世界数字孪生场景、8项高级任务以及总长256万米的轨迹数据,并基于对齐的3D高斯点云-网格表示构建,该表示结合了逼真渲染与支持碰撞检测的几何结构,以实现可扩展的生成和碰撞感知评估。我们引入了面向过程和碰撞感知的指标,以评估过程保真度、终端精度和安全性。对代表性先进VLA模型的实验表明,其在高级语义完成和安全执行方面存在显著差距,凸显了HUGE-Bench作为高级无人机自主性诊断测试平台的价值。

← Back