Abstract not available.
本报告评估了近期视觉语言模型在处理具有挑战性的法语文档时的PDF转Markdown转换能力。文档解析是检索增强生成流程中的关键步骤,转录和布局错误会传播至下游的检索与内容锚定环节。现有基准测试通常侧重于英语或中文,并可能过度惩罚那些对下游应用影响甚微的良性格式与线性化选择(如换行符、列表分段、替代表格渲染方式)。我们引入了一个专注于法语的基准测试集,通过模型分歧采样从包含60,000份文档的语料库中筛选出困难页面,涵盖手写表格、复杂布局、密集表格及图形丰富的页面。评估采用单元测试风格的检查方法,针对具体故障模式(文本存在性、阅读顺序及局部表格约束),并结合针对特定类别的标准化处理,以忽略仅影响呈现方式的差异。在15个模型的测试中,我们发现最强专有模型在手写体和表格处理上表现出显著更高的鲁棒性,而多个开源权重系统在标准印刷布局上仍保持竞争力。