【LLM】CL-bench:评估LLM学新知识的能力
2026/5/3 13:47:40 网站建设 项目流程

note

  • CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。
  • CL-bench 揭示了一个不能被忽视的现象:当今的前沿语言模型还仍然不会利用 context ,从 context 中学习。

文章目录

  • note
  • 一、CL-bench覆盖的内容
  • 二、CL-bench设计原则
  • 三、CL-bench评估结果
  • Reference

一、CL-bench覆盖的内容

1、CL-bench 涵盖了四种广泛的现实世界 context 学习场景:

领域知识推理: context 中提供特定的领域知识(例如 虚构的法律体系、创新的金融工具或小众专业知识)。模型需要利用这些知识来推理并解决具体问题。

规则系统应用: context 中提供新定义的正式系统(例如 新的游戏机制、数学形式体系、编程语法或技术标准)。模型必须理解并应用这些规则来执行任务。

程序性任务执行: context 中提供复杂的过程系统(例如 工作流、产品手册和操作指南)。模型必须理解并应用这些程序性信息来完成任务。

经验发现与模拟: context 中提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同,这一类专注于归纳推理,也是最具挑战性的。模型必须从数据中发现潜在的定律或结论,并应用它们来解决任务。

二、CL-bench设计原则

CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。

三、CL-bench评估结果

结果揭示了当前模型几乎不能从复杂 context 中学习来解决真实场景的问题。实验也解释了一些更有趣的发现。平均而言,模型仅解决了 17.2% 的任务。即便是表现最好的模型 GPT-5.1 (High),也仅达到了 23.7%。换句话说,尽管 context 中拥有解决每个任务所需的全部信息,模型在绝大多数任务上都失败了。这表明当前最前沿的模型几乎不会从 context 中学习。

Reference

[1] https://hy.tencent.com/research/100025?langVersion=zh

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询