Abstract not available.
多模态大语言模型(MLLMs)日益被用于将视觉产物转化为代码,从UI设计图到HTML、科研图表到Python脚本。电路图可被视作硬件的视觉领域特定语言:它编码了时序、拓扑和比特级语义,这些对日常检视而言不可见,但一旦在硅片上制造出来则关乎安全。因此,将此类图转化为寄存器传输级(RTL)代码,代表了视觉到代码生成的一项极端可靠性测试。我们揭示了一种称为“幻象”的现象:将电路图替换为空白图像,Pass@k保持不变甚至更高,因为模型绕过了视觉输入,而是利用模块头中的标识符语义来检索规范的RTL模板。这构成了AI辅助代码生成中一类新型、高度隐蔽的缺陷,直接削弱了MLLMs的可信度。为量化此效应,我们构建了C2VEVAL,并在配对Normal/Anony协议下评估了八个MLLMs,其中Anony模式对图中的标识符和模块头均进行匿名化;所有模型的Anony模式分数均急剧下降,证实高Normal模式准确率很大程度上是一种“幻象”。随后我们提出VeriGround(4B),其训练使用了标识符匿名化、拒绝增强以及D-ORPO(决策聚焦ORPO)偏好对齐,后者提升了关键“生成或拒绝”令牌的权重。VeriGround在Normal/Anony模式下达到46.11%/42.51%的功能通过率,误拒绝率仅为1.20%/0.00%,同时在空白图像上维持>92%的拒绝率。仅凭4B参数,VeriGround在Normal模式下与GPT-5.4表现相当,并在Anony模式下显著优于所有基线,证实了真实的视觉根基。