E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes<br>E-VLA：面向黑暗与模糊场景的事件增强视觉-语言-动作模型<br>[摘要](abstracts/2604.04834.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

机器人视觉-语言-动作（VLA）模型在开放式操作任务中表现出良好的泛化能力，但其感知系统在极端低光、运动模糊和黑场裁剪等传感退化条件下表现脆弱。本文提出E-VLA，一种事件增强的VLA框架，旨在当传统帧式视觉不可靠时提升操作鲁棒性。E-VLA无需从事件流重建图像，而是直接利用事件流中的运动与结构线索，在恶劣条件下保持语义感知与感知-动作一致性。我们构建了基于DAVIS346事件相机的开源遥操作平台，并收集了涵盖多任务与多光照条件的真实世界同步RGB-事件-动作操作数据集。同时，我们提出了轻量级、与预训练模型兼容的事件集成策略，并研究了事件窗口化与融合方法以实现稳定部署。实验表明，即使是简单的无参数融合（例如将累积事件图叠加到RGB图像上），也能显著提升黑暗与强模糊场景下的鲁棒性：在20勒克斯光照下的抓放任务中，成功率从纯图像模型的0%提升至叠加融合的60%，采用我们的事件适配器后可达90%；在严重运动模糊（1000毫秒曝光）条件下，抓放任务成功率从0%提升至20-25%，分类任务从5%提升至32.5%。总体而言，E-VLA系统性地证明了事件驱动感知可有效集成至VLA模型中，为超越传统帧式成像的鲁棒具身智能指明了方向。代码与数据集将在https://github.com/JJayzee/E-VLA公开。

← Back