OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis<br>OralGPT-Plus：通过强化学习掌握视觉工具用于全景X射线分析<br>[摘要](abstracts/2603.06366.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

全景牙科X光片需要精细的空间推理、双侧对称性理解以及多步骤诊断验证，然而现有的视觉-语言模型在静态单次处理范式下运行，限制了其临床可靠性。本文介绍了OralGPT-Plus，一种代理式视觉-语言模型，旨在为全景牙科X光片分析执行迭代且对称感知的诊断推理。为支持此范式，我们构建了DentalProbe数据集，包含五千张图像及专家标注的诊断轨迹，为局部检查和对比侧比较提供结构化监督。我们进一步开发了一种再检查驱动的强化学习框架，通过基于评估标准的奖励和条件诊断驱动奖励，鼓励具有临床意义的重新检查并稳定长时程推理。同时，我们提出了MMOral-X，首个用于全景诊断的整体基准，包含300个开放式问题及跨多个难度级别的区域级标注。OralGPT-Plus在MMOral-X和现有全景基准测试中展现出相对于强基线模型一致且可靠的改进，表明交互式和对称感知推理的有效性。我们的工作凸显了代理式建模在牙科影像中的价值，并为未来临床对齐的全景X光片分析研究奠定了基础。

← Back