2025_NIPS_Incentivizing Truthful Language Models via Peer Elicitation Games
2026/4/18 8:33:38 网站建设 项目流程

文章核心总结与翻译

一、主要内容

文章针对大型语言模型(LLMs)存在的不一致性和幻觉问题,提出了一种无需训练、基于博弈论的框架——Peer Elicitation Games(PEG)。该框架通过生成器与多个鉴别器的多智能体互评机制,在不依赖真实标签和模型微调的情况下,激励模型输出真实、一致的结果。理论上证明了真实报告是纳什均衡,且通过在线镜像下降算法可实现次线性遗憾和末次迭代收敛;实证上在ARC、MMLU等多个基准数据集上,事实准确率提升超10%,小型模型(如7B参数)性能可匹配甚至超越大型模型(如65B参数)。

二、创新点

  1. 提出无监督无微调框架:无需真实标签和模型微调,仅通过多智能体互评实现LLMs真实性对齐,解决了传统方法计算成本高、依赖标注的问题。
  2. 博弈论激励机制:基于行列式互信息分数设计效用函数,证明真实报告是占优策略和纳什均衡,避免了共识类方法可能出现的合谋或无信息均衡。
  3. 理论保障完备:首次为多智能体LLM对齐提供次线性遗憾和末次迭代收敛的理论证明,确保系统长期稳定且真实。
  4. 跨模型协同能力:支持异构鉴别器协同,让小型模型通过集体智能超越单个大型模型,提升资源受限场景的实用性。

三、核心部分翻译(Markdown格式)

Abstract

大型语言模型(LLMs)已展现出强大的生成能力,但仍容易出现不一致性和幻觉问题。本文提出了同伴启发博弈(PEG),这是一种

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询