摘要
我们研究预测性多语言评估:即当某个任务在目标语言上缺乏直接评测结果时,如何估计模型在该任务上的表现。这一问题在多语言部署场景中十分常见——评测覆盖往往稀疏,不同语言、任务和模型家族之间的公开证据也极不均衡。
我们构建了一个受控的评测基准,涵盖六项任务和五种证据情景,共包含一千五百个问题。该基准将可访问的证据与真实答案相分离,从而能够评估那些必须从不完整的文献证据中推断缺失结果的系统。
我们还提出了Litmus (Re)Agent——一个基于有向无环图编排的智能体系统,它将查询分解为若干假设,检索证据,并通过特征感知的聚合方式来合成预测。
在六个对比系统中,Litmus (Re)Agent取得了最佳的综合表现,尤其在直接证据薄弱或缺失的迁移主导情景中获得了最大的提升。这些结果表明,结构化的智能体推理是在不完整证据下进行多语言性能估计的一种有前景的方法。
引言
大型语言模型正日益被期望在众多任务和众多语言上运行,然而多语言评测仍然高度不完整。对于许多任务–模型–语言组合,尤其是在低资源环境下,直接的评测结果往往缺失、散见于各篇论文中、在不可比的条件下报告,或者复现成本过高。因此,实践者在进行部署和模型选择决策时,常常无法获得理想中所需的精确证据。这就引出了一个实际问题:当某个任务在目标语言上缺少直接评测结果时,模型在该语言上的表现会如何?我们将此称为任务–模型–语言预测问题。
现有方法只能部分解决这一问题。多语言评测套件扩大了评测覆盖范围,但仍然留下了任务–模型–语言空间中大片未被观察的区域。预测性迁移方法使用类型学、表征或信息论信号,但通常依赖固定特征,而非对科学证据进行推理。以大型语言模型作为评判的方法可以规模化评测,但并不能直接从不完整的文献证据中解决缺失结果预测的问题,而且还引发了关于偏差和可复现性的担忧。较新的智能体系统能够从研究论文中检索和综合信息,但在系统性的证据限制条件下进行预测性推理仍然未被充分探索。因此,该领域仍然缺乏一个用于研究系统如何从不完整的文献证据中推断缺失的多语言性能的受控框架。
为了填补这一空白,我们同时引入了一个评测基准和一个系统。首先,我们构建了一个用于预测性多语言评估的受控基准。该基准包含六项任务和五种证据情景下的一千五百个问题,并将推理时可访问的证据与真实答案相分离。系统仅使用一个缩减后的论文语料库进行评估,而答案则定义自一个更大的组合语料库。这使得我们能够在不同证据条件下对预测性推理进行受控研究。该基准涵盖两种互补的能力:数值性能预测和比较性多语言推理。
其次,我们提出了适用于该场景的Litmus (Re)Agent——一个基于有向无环图编排的智能体系统。该系统将查询分解为假设,检索基于引文的证据,提取语言层面和任务层面的信号,并将它们聚合成最终预测。相对于较早的基于有向无环图的系统,我们的版本强化了专家知识检索,扩展了配备语言特征库的编码器支持,并改进了提示策略,以实现更稳定、更贴近专家思维的推理。
我们将Litmus (Re)Agent与五个基线系统进行比较,包括较早的基于有向无环图的系统、单智能体和非有向无环图的智能体变体、直接的GPT-4.1基线,以及一个通用多智能体框架。在整个基准上,Litmus (Re)Agent取得了最强的综合表现,在直接证据薄弱或缺失的迁移主导情景中获得了最大的提升。我们还提供了按任务、证据情景、指标类型以及内部智能体行为进行的进一步分析,并开展了一项人工评估研究。
我们的贡献有三点:第一,我们引入了一个用于不完整证据下预测性多语言评估的受控基准,涵盖六项任务、五种证据情景,以及数值预测和比较性推理两种能力;第二,我们提出了Litmus (Re)Agent,一个基于有向无环图编排、基于引文检索的系统,用于从不完整的文献证据中估计多语言性能;第三,我们提供了全面的实证分析,包括与五个基线的比较、按任务和证据情景的细分、内部智能体行为诊断,以及一项人工评估研究。