From Mirage to Grounding: Towards Reliable Multimodal Circuit-to-Verilog Code Generation<br>从幻象到根基：迈向可靠的多模态电路到Verilog代码生成<br>[摘要](abstracts/2604.27969.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型（MLLMs）日益被用于将视觉产物转化为代码，从UI设计图到HTML、科研图表到Python脚本。电路图可被视作硬件的视觉领域特定语言：它编码了时序、拓扑和比特级语义，这些对日常检视而言不可见，但一旦在硅片上制造出来则关乎安全。因此，将此类图转化为寄存器传输级（RTL）代码，代表了视觉到代码生成的一项极端可靠性测试。我们揭示了一种称为“幻象”的现象：将电路图替换为空白图像，Pass@k保持不变甚至更高，因为模型绕过了视觉输入，而是利用模块头中的标识符语义来检索规范的RTL模板。这构成了AI辅助代码生成中一类新型、高度隐蔽的缺陷，直接削弱了MLLMs的可信度。为量化此效应，我们构建了C2VEVAL，并在配对Normal/Anony协议下评估了八个MLLMs，其中Anony模式对图中的标识符和模块头均进行匿名化；所有模型的Anony模式分数均急剧下降，证实高Normal模式准确率很大程度上是一种“幻象”。随后我们提出VeriGround（4B），其训练使用了标识符匿名化、拒绝增强以及D-ORPO（决策聚焦ORPO）偏好对齐，后者提升了关键“生成或拒绝”令牌的权重。VeriGround在Normal/Anony模式下达到46.11%/42.51%的功能通过率，误拒绝率仅为1.20%/0.00%，同时在空白图像上维持>92%的拒绝率。仅凭4B参数，VeriGround在Normal模式下与GPT-5.4表现相当，并在Anony模式下显著优于所有基线，证实了真实的视觉根基。

← Back