Abstract not available.
全景牙科X光片需要精细的空间推理、双侧对称性理解以及多步骤诊断验证,然而现有的视觉-语言模型在静态单次处理范式下运行,限制了其临床可靠性。本文介绍了OralGPT-Plus,一种代理式视觉-语言模型,旨在为全景牙科X光片分析执行迭代且对称感知的诊断推理。为支持此范式,我们构建了DentalProbe数据集,包含五千张图像及专家标注的诊断轨迹,为局部检查和对比侧比较提供结构化监督。我们进一步开发了一种再检查驱动的强化学习框架,通过基于评估标准的奖励和条件诊断驱动奖励,鼓励具有临床意义的重新检查并稳定长时程推理。同时,我们提出了MMOral-X,首个用于全景诊断的整体基准,包含300个开放式问题及跨多个难度级别的区域级标注。OralGPT-Plus在MMOral-X和现有全景基准测试中展现出相对于强基线模型一致且可靠的改进,表明交互式和对称感知推理的有效性。我们的工作凸显了代理式建模在牙科影像中的价值,并为未来临床对齐的全景X光片分析研究奠定了基础。