文章核心总结与翻译
一、主要内容
文章针对大型语言模型(LLMs)存在的不一致性和幻觉问题,提出了一种无需训练、基于博弈论的框架——Peer Elicitation Games(PEG)。该框架通过生成器与多个鉴别器的多智能体互评机制,在不依赖真实标签和模型微调的情况下,激励模型输出真实、一致的结果。理论上证明了真实报告是纳什均衡,且通过在线镜像下降算法可实现次线性遗憾和末次迭代收敛;实证上在ARC、MMLU等多个基准数据集上,事实准确率提升超10%,小型模型(如7B参数)性能可匹配甚至超越大型模型(如65B参数)。
二、创新点
- 提出无监督无微调框架:无需真实标签和模型微调,仅通过多智能体互评实现LLMs真实性对齐,解决了传统方法计算成本高、依赖标注的问题。
- 博弈论激励机制:基于行列式互信息分数设计效用函数,证明真实报告是占优策略和纳什均衡,避免了共识类方法可能出现的合谋或无信息均衡。
- 理论保障完备:首次为多智能体LLM对齐提供次线性遗憾和末次迭代收敛的理论证明,确保系统长期稳定且真实。
- 跨模型协同能力:支持异构鉴别器协同,让小型模型通过集体智能超越单个大型模型,提升资源受限场景的实用性。
三、核心部分翻译(Markdown格式)
Abstract
大型语言模型(LLMs)已展现出强大的生成能力,但仍容易出现不一致性和幻觉问题。本文提出了同伴启发博弈(PEG),这是一种