BioProVLA-Agent: An Affordable, Protocol-Driven, Vision-Enhanced VLA-Enabled Embodied Multi-Agent System with Closed-Loop-Capable Reasoning for Biological Laboratory Manipulation<br>BioProVLA-Agent：一种经济实惠、协议驱动、视觉增强的VLA赋能具身多智能体系统，具备闭环推理能力用于生物实验室操作<br>[摘要](abstracts/2605.07306.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

生物实验室自动化可以减少重复性手动工作并提高可重复性，但在湿实验室环境中实现可靠的具身执行仍具挑战。实验方案通常是非结构化的，实验器材经常透明或反光，多步骤流程需要状态感知执行，而非一次性指令跟随。现有机器人系统通常依赖昂贵的硬件、固定工作流程、专用仪器或面向机器人的接口。在此，我们提出BioProVLA-Agent，一种经济实惠、协议驱动、视觉增强的具身多智能体系统，由视觉-语言-动作（VLA）模型驱动，用于生物操作。该系统以实验方案为任务接口，集成协议解析、视觉状态验证和具身执行于闭环工作流中。定制化LLM协议智能体将方案转化为可验证的子任务；VLM-RAG验证智能体通过观察、机器人状态、检索知识及成功/失败示例评估就绪度和完成情况；VLA具身智能体通过轻量策略执行已验证的子任务。为提升湿实验室视觉扰动下的鲁棒性，我们开发了AugSmolVLA，一种针对透明器皿、反射、光照变化和过度曝光的在线增强策略。我们在一个分层基准上评估系统，涵盖15个原子任务、6个组合工作流和3个双臂任务，包括试管装载、分拣、废物处理、旋盖和液体倾倒。在正常和高曝光设置下，AugSmolVLA比ACT、X-VLA和原始SmolVLA提升了执行稳定性，尤其在精确定位、透明物体操作、组合工作流和视觉退化场景中。这些结果表明了一种通往经济、以协议为中心且具备验证能力的具身AI用于生物操作的实用路径。

← Back