Abstract not available.
机器人视觉-语言-动作(VLA)模型在开放式操作任务中表现出良好的泛化能力,但其感知系统在极端低光、运动模糊和黑场裁剪等传感退化条件下表现脆弱。本文提出E-VLA,一种事件增强的VLA框架,旨在当传统帧式视觉不可靠时提升操作鲁棒性。E-VLA无需从事件流重建图像,而是直接利用事件流中的运动与结构线索,在恶劣条件下保持语义感知与感知-动作一致性。我们构建了基于DAVIS346事件相机的开源遥操作平台,并收集了涵盖多任务与多光照条件的真实世界同步RGB-事件-动作操作数据集。同时,我们提出了轻量级、与预训练模型兼容的事件集成策略,并研究了事件窗口化与融合方法以实现稳定部署。实验表明,即使是简单的无参数融合(例如将累积事件图叠加到RGB图像上),也能显著提升黑暗与强模糊场景下的鲁棒性:在20勒克斯光照下的抓放任务中,成功率从纯图像模型的0%提升至叠加融合的60%,采用我们的事件适配器后可达90%;在严重运动模糊(1000毫秒曝光)条件下,抓放任务成功率从0%提升至20-25%,分类任务从5%提升至32.5%。总体而言,E-VLA系统性地证明了事件驱动感知可有效集成至VLA模型中,为超越传统帧式成像的鲁棒具身智能指明了方向。代码与数据集将在https://github.com/JJayzee/E-VLA公开。