【LLM】CL-bench：评估LLM学新知识的能力-酒店常州论坛

note

CL-bench 围绕一个简单但严格的设计原则构建：每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含（Self-contained）的。解决任务所需的所有信息都显式地提供在 context 本身之中：不需要外部检索，也不允许隐藏假设。
CL-bench 揭示了一个不能被忽视的现象：当今的前沿语言模型还仍然不会利用 context ，从 context 中学习。

文章目录

note
一、CL-bench覆盖的内容
二、CL-bench设计原则
三、CL-bench评估结果
Reference

一、CL-bench覆盖的内容

1、CL-bench 涵盖了四种广泛的现实世界 context 学习场景：

领域知识推理： context 中提供特定的领域知识（例如虚构的法律体系、创新的金融工具或小众专业知识）。模型需要利用这些知识来推理并解决具体问题。

规则系统应用： context 中提供新定义的正式系统（例如新的游戏机制、数学形式体系、编程语法或技术标准）。模型必须理解并应用这些规则来执行任务。

程序性任务执行： context 中提供复杂的过程系统（例如工作流、产品手册和操作指南）。模型必须理解并应用这些程序性信息来完成任务。

经验发现与模拟： context 中提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同，这一类专注于归纳推理，也是最具挑战性的。模型必须从数据中发现潜在的定律或结论，并应用它们来解决任务。

二、CL-bench设计原则

CL-bench 围绕一个简单但严格的设计原则构建：每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含（Self-contained）的。解决任务所需的所有信息都显式地提供在 context 本身之中：不需要外部检索，也不允许隐藏假设。

三、CL-bench评估结果

结果揭示了当前模型几乎不能从复杂 context 中学习来解决真实场景的问题。实验也解释了一些更有趣的发现。平均而言，模型仅解决了 17.2% 的任务。即便是表现最好的模型 GPT-5.1 (High)，也仅达到了 23.7%。换句话说，尽管 context 中拥有解决每个任务所需的全部信息，模型在绝大多数任务上都失败了。这表明当前最前沿的模型几乎不会从 context 中学习。

Reference

[1] https://hy.tencent.com/research/100025?langVersion=zh

企业官网建设流程全解析

note

文章目录

一、CL-bench覆盖的内容

二、CL-bench设计原则

三、CL-bench评估结果

Reference

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

note

文章目录

一、CL-bench覆盖的内容

二、CL-bench设计原则

三、CL-bench评估结果

Reference

热门文章

文章分类

标签云

相关文章

需要专业的网站建设服务？