AI的能力正在从模型内部(参数、算力)转移到模型外部。
从Prompt、工具调用,到记忆、Skills、协议,再到今天统摄这一切的Harness,大模型正在塑造肉身和脚手架。
业界越来越认识到Harness的重要性,它很大程度上决定了智能系统的上限。
Harness就是包裹在模型外围的代码框架、控制程序或者说约束。
AI进化太快了!Harness这才刚刚兴起,它已经开始自己设计Harness了。
麻省理工学院与斯坦福大学的研究团队刚刚发布了Meta-Harness系统。
Meta-Harness系统能让具备编程能力的智能体,自动查阅底层日志,亲自动手重写外围控制程序,在数学推理、长周期编程与文本分类任务上,全面击败人类顶级工程师手工编写的最优架构。
自动化控制架构搜索
控制架构Harness全权负责系统核心调度,精准决定信息存储内容、检索时机以及向大模型展示数据的底层逻辑。
人工精调架构耗时费力,工程师必须手动调整提示词、重写上下文规则并反复测试工具调用逻辑。
现有文本优化方案如OPRO(优化提示词推理)、TextGrad(文本梯度优化)、AlphaEvolve和GEPA(生成式评估提议智能体)等,大多停留在短周期反馈层面。
系统仅能根据当前候选代码、单一评分或LLM提取的简短摘要设定优化条件,操作建立在高度压缩的信息流之上。压缩反馈必然丢失关键代码执行细节,导致系统完全无法将后续出现的多步推理错误精准追溯到早期决策环节。
表1详细列出了文本优化方法及其设置对比情况。Meta-Harness 是唯一保留完整历史、全量日志、分数的方案。
先前测试环境中,单次优化步骤系统可利用的上下文容量大多在100到30000个词元之间。Meta-Harness在最苛刻任务下,单次架构评估可生成高达10000000个词元的诊断信息,数据维度和挖掘深度远超以往所有测试方法的总和。
开放完整文件权限
Meta-Harness构建了一个极简且极具穿透力的外层循环系统。
核心提案者(Agentic Proposer),是一个自带强大编程与逻辑推理能力的智能体,能够熟练调用各类开发者命令行工具,并直接修改项目源代码。
研究团队突破常规限制,为其全面开放了底层文件系统的读取权限。系统为每一个历史候选架构分配独立存储空间,详细记录源代码、评估分数以及涵盖提示词构建、工具调用、模型输出与状态更新的完整执行轨迹。
提案者智能体通过调用grep和cat等标准命令行操作指令,自由检索文件系统中的庞大历史数据。
系统无需将数百万字的历史记录强行截断并塞入单一提示词中。面对最复杂的任务场景,提案者在每次迭代中平均主动查阅82个底层文件,交叉对比超过20个前置候选架构。
研究团队开展了详尽的消融实验,验证开放完整底层接口对系统表现的具体影响。实验在在线文本分类任务中严格对比了3种权限级别,包含仅提供分数、提供分数加摘要,以及开放完整Meta-Harness接口并允许查阅原始执行轨迹。
表3直观反映出不同信息权限下提案者的实际表现差异。表格中>ZS列代表超越零样本基线数量的运行次数。获取原始执行轨迹是实现高水平搜索的绝对核心要素,开放完整接口的Meta-Harness全面压制其他限制性方案。
仅提供分数的权限下,智能体得出的中位数准确率为34.6,最高准确率停留在41.3。
增加摘要信息后,中位数准确率微弱上升至34.9,最高准确率反而下降至38.7。
完整的Meta-Harness一举将中位数准确率推高至50.0,最高准确率飙升至56.7。
完整的执行轨迹权限起到了决定性作用。大模型生成的摘要完全无法还原代码执行失败时的深层细节,过度压缩无可避免地删减掉了具有极高诊断价值的报错片段,严重误导了后续优化方向。
系统当前设定的核心提案者为Claude Code配合Opus 4.6版本模型。提案者仅接收极其基础的领域规则引导,系统刻意避免设定任何硬编码的启发式搜索规则。Meta-Harness在后台维护一个动态评估架构种群和帕累托前沿。
提案者提出全新方案时,不受固定筛选机制限制,自由查阅任何先验架构及其执行轨迹。
团队设定固定的演化迭代次数,并在帕累托前沿上实施最终独立测试集评估。伴随编程智能体底层能力的持续进化,系统整体优化上限也会自动抬升。
直接在代码空间内进行优化操作,意味着极其微小的逻辑分支变动都会产生长远影响,系统要求提案者必须仔细阅读前期代码和所有报错日志,精准剥离负面干扰动作,并在经历测试成绩下滑后,及时转向更加稳妥的增量式修改策略。
3大领域全胜记录
研究团队精心挑选了在线文本分类、数学推理以及长周期编程3大高难度领域进行终极检验。
在所有测试验证区内,Meta-Harness全自动发掘的底层架构均以大幅优势击败了当前最高水平的人工设计方案。
在线文本分类测试中,大模型需要逐一接收带有标签的训练样本,动态更新内部记忆并在隔离测试集上接受严格考核。系统选用具备1200亿参数的GPT OSS 120B作为主力分类器。
团队同步启用了3个跨专业领域的独立据集,涵盖包含215个分类类别的复杂刑事指控预测集LawBench、包含22个分类类别的疾病症状预测集Symptom2Disease,以及包含180个分类类别的化学产品前体反应物预测集USPTO 50k。
对比基准池囊括了当前业界绝对领先的人工架构,包含ACE(代理上下文工程)和MCE(元上下文工程)。ACE通过复杂底层代码设计实现反思性记忆整理机制。MCE则在系统后台维护并持续演化专属自然语言技能数据库。
表2详尽统计了各架构在3个高难度测试集上的核心指标。Ctx列代表额外输入的词元总数(以千为单位)。Meta-Harness在大幅度削减额外输入上下文资源的同时,显著拔高了在线分类的综合准确率。
经历20次深度迭代并筛选出40个候选方案后,Meta-Harness成功锁定最优架构。
该架构斩获了48.6%的平均准确率,以7.7分的绝对优势超越ACE架构,并将与MCE架构的分差强行拉大到8.6分。
整个测试过程仅消耗11400个上下文词元,其内存占用量远远低于ACE的50800个和MCE的28500个。
由于Meta-Harness在代码层面进行自由形态的全面调优,研究人员能够同时设定对高准确率和低上下文成本的双重严苛偏好。面对多维度指标权衡诉求,提案者在极度宽广的帕累托前沿范围内精准发掘出了最优性能平衡点。
表4横向对比了各类顶级文本优化器提出架构的最终分类准确率。
在自动架构优化竞速赛道上,Meta-Harness在满负荷评估次数降至OpenEvolve和TTT-Discover两套方案10%的极端苛刻条件下,不仅在极短时间内追平了先验最佳成绩,最终准确率更是将其余所有对比方案甩开超过10分。
为极限测试架构的跨领域泛化能力,团队额外挑选了9个在整个搜索优化期被完全隔离的OOD(分布外)全新数据集(包括SciC、FiNER、Amz5、FPB、GoEmo、Bank77、News、SciT与TwHate)进行多轮验证。
表5汇总了全部9个分布外数据集的实弹评估结果。
Meta-Harness在面对未见过的全新任务考验时,平均得分依旧高出排名第二的候选方法整整2.9分,稳稳取得73.1%的最佳平均准确率,并在其中6个独立数据集上登顶性能榜首。
数学推理攻坚任务区内,团队引入了前沿的检索增强技术直接挑战IMO(国际数学奥林匹克)级别的硬核难题。
严谨的数学证明推导过程,天然共享着高度可重复使用的逻辑底座,历史推理记录完全包含着有助于破解后续高难度方程的核心密码。
团队耗费巨资搭建了包含超过50万个已完美解答问题的开源综合数学语料库,数据源提取自IMO AnswerBench、IMO ProofBench以及ArXivMath等核心平台,并在代码准入层面严格排除了所有可能与验证集产生重叠的污染数据。
系统在这个庞大的数学题库海洋中持续进行40次迭代冲锋,接连生成并无情淘汰了109个瑕疵架构,最终沉淀出最具鲁棒性的数学检索引擎。
表6全面罗列了针对200个IMO级别问题应用检索增强技术的数据。Meta-Harness全自研的检索架构在5个处于隔离状态的测试模型上全面推高了推理表现,综合测试成绩比无检索基准线平均暴涨4.7分。
整个架构优化手术直接在底层代码空间内对BM25词汇检索栈完成解剖重构,全流程彻底摒弃了繁重迟缓的密集编码器。
该完全自动化的架构在GPT 5.4 nano、GPT 5.4 mini、Gemini 3.1 Flash Lite、Gemini 3.1 Flash以及GPT OSS 20B这5个截然不同的核心底层模型上,均交出了稳定超越无检索基线的完美答卷。
它精准规避了传统密集检索模块极易引发的性能雪崩效应,整体多模态测试得分一举盖过经过大量人力手工调校的BM25顶配基准设置。
评判系统长周期编程能力上限的终极战场,选定在业界闻名的TerminalBench 2基准测试集上。测试集严选包含89个地狱级难度的复杂开发任务,强制要求智能体在千头万绪的代码依赖关系,和深不可测的领域知识图谱下实现长周期纯自主操作。
表7直观呈现了TerminalBench 2通过率全战报。Meta-Harness在所有以Opus 4.6为核心基础的代理矩阵中稳居第2名,在所有Haiku 4.5代理阵营中直接横扫千军勇夺第1名。
启动Claude Opus 4.6重型引擎时,系统历经多轮深潜代码搜索后当场抛出了一套通过率冲上76.4%的架构,彻底压碎了由顶尖人类团队耗费无数日夜打造的Terminus-KIRA架构防线(通过率74.7%)。
在切换到性能稍受限制的Haiku 4.5轻量级模型上运转时,系统的绝对优势被进一步放大,斩获37.6%的恐怖通过率,将紧随其后的智能体Goose无情甩开2.1分。
在复盘追踪系统全时执行日志时,研究人员看清了智能体冷酷且精准的排错逻辑链路。
系统在某次早期试探性迭代中,曾大胆尝试强行混合结构修复代码和提示词修改指令。在通过监控面板察觉两套方案相互干涉造成测试成绩断崖式暴跌后,智能体立刻调用权限读取原始执行底层日志展开深度逆向诊断,迅速查明并剔除提示词更改带来的污染干扰源,完好保留纯粹且有效的结构性变更,随后果断转向具备极高安全边际的增量添加式修改预案。
Meta-Harness在仅耗时几个小时的计算周期内,便产出了具备极高工程可读性、且能在各类模型平台间实现无缝移植的高质量代码策略。
未来AI智能系统的开发,可能会变成一种元编程体验。
你只负责定义边界和提供底层的工具接口,剩下的交给AI自己在试错中编译和演化。
参考资料:
https://arxiv.org/pdf/2603.28052