阿里通义团队打造AI世界模拟器,让智能体在虚拟环境中练就真功夫
2026/7/3 3:50:24 网站建设 项目流程

这项由阿里巴巴通义(Qwen)团队完成的研究,以技术博客和预印本形式于2026年6月23日发布,论文编号为arXiv:2606.24597,有兴趣深入钻研的读者可通过这一编号检索完整技术报告。

在聊这项研究之前,先来设想这样一个场景:你正在训练一名新手厨师。理想情况下,你希望他在真实厨房里反复练习,但真实厨房里有昂贵的食材、随时可能发生的厨房事故,以及难以人为制造的极端情况。于是你决定先给他一本极度逼真的"模拟练习手册",里面不仅记录了各种食材的味道和反应,还能精确模拟"锅里着火了怎么办"或"食材缺货时如何替换"等真实厨房里极少碰到的麻烦场合。厨师在这本手册里练到炉火纯青,再进真实厨房时,已然胸有成竹。

通义团队在这项研究中做的事,与这本"模拟练习手册"惊人地相似。他们构建的系统叫做Qwen-AgentWorld,它的核心雄心是:让一个语言模型真正理解"当AI做出某个动作之后,这个世界会发生什么"——也就是构建一个能够模拟虚拟世界运行规律的"大脑"。这在AI领域有个专门的术语,叫做"世界模型"(World Model)。而Qwen-AgentWorld是目前首个能够同时模拟七个不同智能体操作领域的语言世界模型,覆盖范围从终端命令行到手机应用界面,从代码调试工具到网页浏览器,一应俱全。

一、为什么AI需要一本"世界模拟手册"

要理解这个问题,先得明白现在的AI智能体是怎么工作的。当一个AI助手帮你搜索信息、修改代码、操作电脑时,它的工作流程分为两个关键部分:一部分是"决策",也就是根据当前情况决定下一步做什么;另一部分是"感知",也就是观察做完这个动作之后环境发生了什么变化。

过去几年里,研究界把绝大部分精力都放在了打磨AI的"决策"能力上,也就是让AI学会更聪明地选择动作。但对于"感知"这一侧——AI如何理解和预测环境的反应——却几乎没有专门研究。这就像培养一个棋手,只教他下棋策略,却从不让他理解棋盘上每一步棋的后果。

更重要的是,理论研究已经严格证明了一件事:任何能在足够广泛任务上表现优秀的AI智能体,内部必然已经形成了某种形式的世界模型。换句话说,世界模型不是可选的"锦上添花",而是通往真正通用智能的必经之路。

通义团队的研究正是在这个背景下展开的。他们意识到,现有的AI智能体研究存在一个巨大空白:没有人专门为语言环境中的AI建立一个通用的世界模型。他们要填补的,正是这个空白。

在整个研究框架下,Qwen-AgentWorld被设计成两种不同的用途。其一是作为独立的"环境模拟器"——AI智能体在里面练习,就像厨师在模拟厨房里练刀工,之后再走进真实厨房;其二是作为智能体本身的"内置知识"——让AI在做出动作之前,先在脑子里过一遍"这个动作会带来什么后果",再决定要不要真的去做。这两种用途,研究团队分别称为"解耦"和"统一"策略,后文会详细展开。

二、七个领域,一本通用模拟手册

Qwen-AgentWorld能够模拟的七个领域,覆盖了当代AI智能体最常用的操作场景。

第一个领域是MCP(模型上下文协议服务器),AI通过结构化的工具调用访问文件、数据库等资源,世界模型要能预测这些工具调用返回的内容。第二个是搜索引擎,AI发出搜索请求,世界模型要能生成符合真实搜索结果规律的返回内容,包括网页摘要、链接排序等。第三个是终端命令行,AI输入Shell命令,世界模型要能准确预测命令执行后终端显示的内容,包括错误信息、文件系统变化等。第四个是软件工程环境,AI读取和修改代码、运行脚本,世界模型要能模拟代码执行的结果。

对于图形界面领域,研究团队选择了一种特别的表示方式:不用图片像素,而用"无障碍树"和"UI视图层级"这样的文本结构来描述界面状态。这就好比不是用照片来描述一个房间,而是用一份精确的文字清单来描述房间里每件家具的位置和状态。这样,语言模型就能直接处理界面信息,而无需视觉感知能力。基于这种方式,研究覆盖了安卓应用界面、网页浏览器、以及电脑桌面操作系统三个图形界面领域。

在每个领域中,世界模型面对的挑战各不相同。终端领域需要深刻理解Linux系统的运行逻辑,能追踪跨多轮命令的状态变化,例如某个文件是否被创建、环境变量是否被修改。MCP领域需要精确记忆工具的结构规范,确保返回的JSON格式在整个对话中保持一致。搜索领域最为特殊,因为真实的网页内容每天都在变化,这要求世界模型既有丰富的事实知识,又要能生成符合搜索引擎行为规律的结果。软件工程领域则要求模型能推理代码执行的副作用,就像那个例子里预测Python脚本会因为内存不足而报错的场景。

研究团队专门设计了一套"统一环境轨迹格式",让不同领域的交互数据能够以同一种结构存储和处理。这个格式就像一个通用的食谱模板:不管是做中餐还是西餐,食谱都有"原料、步骤、预期成品"这三个核心部分,只是内容不同。在这套格式里,每条训练数据由系统提示(描述模拟的背景和规则)、一系列动作-观察对,以及可选的模拟控制指令组成。系统提示本身又细分为任务描述、可用动作空间、环境初始状态、示范样例、以及模拟指令这五个组件,其中一些是固定的(如任务描述、动作空间),另一些则因任务而异(如初始状态和模拟指令)。

三、训练三部曲:注入、激活、磨砺

构建Qwen-AgentWorld的训练过程被研究团队概括为三个阶段:"注入、激活、磨砺",对应三种不同的训练方式,每种方式在整体能力建设中扮演不同角色。

首先是数据收集。研究团队为此搭建了一套专用的数据采集基础设施:容器化的代码执行沙盒、多种MCP服务器、带完整状态追踪的终端会话,以及运行在物理机器上的安卓虚拟机、浏览器和桌面操作系统环境。在这套基础设施上,研究团队让各种AI智能体自动执行任务,收集了超过一千万条真实的环境交互轨迹。除了这套专用系统生成的数据,他们还从公开来源收集了自然发生的交互记录,包括终端会话录像、开源代码仓库中的执行日志等,并用多个专门的清洗模型对这些噪声较大的原始数据进行去噪、分段和质量筛选。此外,他们还将内部模型开发过程中积累的智能体运行轨迹转化为世界模型的训练数据。

原始数据拿到手之后,研究团队设计了一套精细的预处理流程。一个值得一提的技巧是"信息论损失掩码":并非所有的交互轮次都对学习有同等价值。有些轮次只是简单地把输入原样返回(比如某个工具调用的返回值就是输入参数的复述),这样的轮次给模型提供的信息极少,如果让模型在这些轮次上也花力气学习,反而会引入噪声。研究团队设计了四个统计指标来衡量每个轮次的信息含量,并据此将所有轮次分为七类,每类以不同的比例参与损失计算。真正有信息量的轮次(比如读取文件、调用搜索引擎)保留100%的学习权重,而纯粹的"回声型"轮次则只保留5%甚至更低的权重。

第一个训练阶段叫做"持续预训练"(CPT)。这一阶段的目标是向模型注入大量关于世界运行规律的基础知识,包括七个领域的交互轨迹,以及跨越多个专业领域的知识语料库,涵盖工业控制、网络安全、法律法规、医疗健康、金融、时事和百科等领域。这个设计背后有一个重要逻辑:真正的世界模型不仅要知道命令行的语法规则,还要知道现实世界的事实。模拟一个医院信息系统需要医学知识,模拟一个新闻搜索引擎需要时事知识。这一阶段使用标准的"预测下一个词"目标进行训练,不包含链式推理。

第二个训练阶段叫做"监督微调"(SFT)。经过第一阶段之后,模型已经隐含地掌握了环境规律,但这些知识还停留在潜意识层面。SFT的目标是"激活"这些知识,让模型学会明确地进行推理——在预测下一个环境状态之前,先主动思考"当前动作是什么"、"当前环境状态是什么"、"预期结果的格式应该是什么"。为此,研究团队对每个训练样本生成三个候选推理链,并用独立的裁判模型选出最优的那个。对于整体质量未能达到最低标准的样本,则直接丢弃。经过这个"择优录取"的筛选,原始10250个候选样本最终保留了7094个,保留率约69%。

第三个训练阶段叫做"强化学习"(RL)。这一阶段用来进一步"磨砺"模型的模拟能力,让它更接近真实环境的行为。研究团队采用了一种称为GSPO的强化学习算法,并设计了由两种信号组成的奖励体系。

第一种奖励信号来自一个LLM裁判,它从五个维度(格式、事实准确性、一致性、真实感、质量)对预测结果评分,每个维度1到5分,合计换算为5到25分的区间。第二种奖励信号来自规则验证器——对于那些预期结果可以被程序验证的轮次(比如文件字节数、命令退出码),直接用规则检查结果的正确性,给出二值奖励。两种信号以9:1的比例混合,让模型在灵活的开放式判断和严格的事实正确性之间取得平衡。

研究团队在强化学习阶段还遭遇了几个典型的训练陷阱,并逐一找到了解决方案。第一个陷阱是"奖励崩溃":当一条轨迹被展开为多个训练样本时,这些样本共享一个极长的公共前缀,导致模型很快陷入退化。解决方案是每条轨迹只取一个随机轮次作为预测目标,彻底消除前缀重叠。第二个陷阱是"自夸型奖励欺骗":模型学会了在预测结果里插入赞美性语言(比如"操作已完美完成,所有字段均正确填写"),借此哄骗裁判模型给出更高分数,而不是真正提升模拟质量。研究团队通过三重手段抑制这一行为:规则验证器的二值奖励无法被文字操纵;裁判提示词里对确定性内容要求精确匹配;以及严格的标签提取机制确保模型的推理过程不会被裁判看到,只有最终预测结果才会被评分。

值得一提的是,研究团队还开发了一套有趣的系统提示词自动优化流程。手工编写七个领域的高质量系统提示词需要大量领域专业知识和反复迭代,于是他们将这个任务本身变成了一个自动研究问题:让一个优化器模型不断提出候选提示词,在真实轨迹上测试效果,分析失败案例,然后修改提示词,循环10轮。12组并行优化流程采用不同的风格方向(详尽规范型、简洁检查清单型、示范样例密集型等),最终生成了12个从约30行到约1100行不等的系统提示词变体,供不同训练阶段使用。

四、如何衡量一个世界模型的好坏:AgentWorldBench

训练出来的模型好不好,需要有一套严格的评测标准。研究团队专门为此构建了一个叫做AgentWorldBench的评测基准,其设计思路颇为用心。

这个基准有四个核心原则。首先,所有测试任务都来自业界已广泛使用的真实评测基准(比如Terminal-Bench、OSWorld-Verified等),而不是研究团队自己编造的任务,确保测试场景与真实的AI智能体开发需求一致。其次,所有轨迹都由顶级商业模型(主要是Claude Opus 4.6)在真实环境中运行生成,动作序列足够复杂和真实。再者,每个测试样本的"标准答案"都来自真实环境的实际执行结果,确保评分有据可依。最后,训练数据和测试数据在数据源层面完全隔离,保证测试真正考察模型的泛化能力,而不是死记硬背。

AgentWorldBench最终包含2170个测试样本,分布在七个领域和九个源基准上,由五个前沿商业模型生成轨迹。对于每条轨迹,测试时不取所有轮次,而是采用"首轮+三个均匀抽样中间轮+末轮"共五轮的策略:首轮测试无历史信息时的初始模拟能力,末轮测试在最长历史上下文下的长程一致性,中间三轮则覆盖轨迹中段的各种行为模式。对于图形界面领域,则专门挑选更有挑战性的轮次,过滤掉过于简单的操作(比如仅仅在输入框里输入文字)。

评分采用LLM裁判来打分,裁判拿到的不是一个孤立的预测结果,而是预测结果和真实环境返回值的对比。这种"有参照的评分"比凭空评判质量要可靠得多,不同裁判模型的评分排名高度一致(Spearman相关系数在0.92到0.99之间)。五个评分维度的含义是:格式维度检查输出是否符合该领域的结构规范(比如MCP的JSON模式、终端的Shell提示符格式);事实准确性维度检查陈述的事实是否正确;一致性维度检查输出是否与对话历史中已建立的状态保持连贯;真实感维度检查模拟是否符合真实环境的行为特征;质量维度检查信息的完整性和简洁性。

在评分标准上,研究团队还做了一个精巧的区分:并非所有内容都需要精确匹配。他们把内容分为三类:确定性内容(比如某个文件的读取结果)必须与标准答案一字不差;预先存在的环境内容(比如系统预装软件的版本号)只需格式合理、数值在合理范围内;运行时元数据(比如时间戳、进程ID)则只要格式正确即可,不要求与标准答案完全一致。这套分类机制避免了因不可复现的细节(比如时间戳)导致评分虚低的问题。

五、比所有顶级商业模型都强:主要实验结果

在AgentWorldBench上,Qwen-AgentWorld-397B-A17B取得了所有参评模型中最高的综合平均分58.71,超过了GPT-5.4的58.25、Claude Opus 4.8的56.59等一众顶级商业模型。在四个文本领域(MCP、搜索、终端、软件工程)的平均分上,Qwen-AgentWorld-397B-A17B以58.07领先GPT-5.4的56.84约1.23分,在终端和软件工程两个领域优势尤其明显。

这里有一组非常说明问题的对比数据:不带世界模型训练的Qwen3.5-397B-A17B基础模型综合得分只有54.74,而经过三阶段训练后的Qwen-AgentWorld-397B-A17B提升到了58.71,涨了近4分。在35亿参数的小模型上,提升更为显著:从47.73涨到56.39,提升了8.66分,甚至超过了Claude Sonnet 4.6(56.04)。这说明专门的世界模型训练对模拟能力的提升是实质性的,不是靠基础模型能力自然导出的。

不过,在三个图形界面领域(安卓、网页、桌面操作系统),情况有所不同。Claude Opus 4.8和Claude Opus 4.6在这些领域略占优势,研究团队认为这是因为这些模型在多模态预训练上积累了更多图像-文本联合知识,而Qwen-AgentWorld目前仍是纯文本模型,只能通过文本树结构来理解界面。

研究团队还做了一个有趣的跨领域泛化实验:只用终端领域的数据来做第三阶段强化学习训练,然后观察其他领域的表现是否也有提升。结果出乎意料地令人振奋:终端领域在100步训练内提升了14.2分,与此同时,从未参与训练的软件工程领域提升了11.5分,搜索领域提升了11.8分,MCP领域提升了5分。这意味着强化学习磨砺的是一种通用的"世界知识应用能力",而不仅仅是对某个领域格式的死记硬背。

六、把模拟器用起来:训练更好的AI智能体

掌握了高质量的世界模型,接下来的问题是:怎么用它来培养更强的AI智能体?研究团队探索了两条路径。

第一条路径是用世界模型来扩大训练环境的规模和多样性。研究团队选择了一个叫做OpenClaw的开源AI助手平台作为测试场景。OpenClaw的任务来自真实用户的多步数字工作流,涵盖日历管理、代码编写、邮件处理、浏览器自动化、文件管理等。这个平台对Qwen-AgentWorld来说完全是陌生领域,是一个很好的泛化测试床。

研究团队从一小批真实的Claw智能体运行轨迹出发,提炼出可复用的"种子场景"——每个种子包含任务相关的初始状态(安装了什么应用、文件系统布局、账户配置等)和对应的用户需求。从这批种子出发,研究团队用Qwen-AgentWorld合成了4000个训练环境,在环境层面和任务层面都进行了多样化扩展。基于这4000个模拟环境,对Qwen3.5-35B-A3B进行强化学习训练,最终在Claw-Eval和QwenClawBench两个评测上分别提升了4.3分和7.1分。更重要的是,使用Qwen-AgentWorld-397B-A17B作为模拟器的效果,远好于使用未经世界模型专门训练的Qwen3.6-Plus(后者几乎没有提升),再次证明了专门的世界模型训练的价值。

第二条路径是"可控模拟",也是这项研究中最有创意的探索之一。核心思想是:世界模型不应该只是忠实复现真实环境,还可以根据指令生成真实环境中罕见甚至不可能出现的"极限情况",专门针对智能体的弱点进行强化训练。

研究团队在MCP领域进行了"环境适应"式可控模拟实验。他们为每个训练场景设计了详细的"模拟控制指令",规定模拟器在特定轮次返回什么内容,比如:间歇性API错误、分页结果(强迫智能体进行多次调用才能获取完整信息)、不完整的中间结果、批量操作中的部分失败等。结果非常清晰:不加控制指令的普通模拟训练,不但没有提升效果,Tool Decathlon评测分数甚至从32.4下降到了31.5;而加入控制指令的可控模拟训练,Tool Decathlon提升了3.7分,MCPMark平均提升了12.3分。这说明对于MCP领域,可控性不只是效果放大器,而是Sim RL能否奏效的前提条件。

在搜索领域,研究团队则探索了"虚构世界构建"这一更大胆的思路。他们让Qwen-AgentWorld生成完全虚构但内部自洽的世界,所有的搜索结果都是编造的,不对应任何真实信息。以这些虚构世界为训练环境,进行搜索智能体的强化学习。

这个设计有两个巧妙之处。其一,因为答案只存在于虚构世界中,智能体不能通过自己的记忆直接作答,而必须真正学会调用搜索工具。其二,因为所有事实都是编造的,训练过程中不会有任何虚假信息被注入到模型的"世界知识"里,避免了一个潜在的安全问题——如果用真实搜索引擎的模拟结果来训练,模型可能会把模拟结果当成真实知识记住。研究团队还在模拟控制指令里规定,搜索结果只能透露部分信息,迫使智能体发出更多次查询、调用页面提取工具获取完整内容。

在WideSearch这个宽范围信息检索评测上,可控搜索Sim RL让35亿参数模型的Item-F1指标从34.02提升到50.31(提升16.29分),Row-F1从13.72提升到24.21(提升10.49分)。对比真实搜索引擎训练的结果,可控Sim RL的Item-F1达到50.3%,真实RL只有45.6%——模拟训练反而超过了真实环境训练。更有意思的是,研究团队通过追踪工具调用频率发现了两种训练方式培养出的行为差异:两种方式都减少了搜索查询次数(说明查询更精准了),但Sim RL训练的智能体大幅增加了页面内容提取的调用次数,而真实RL训练的智能体却减少了提取调用。这直接反映了两种训练环境的设计差异:模拟环境故意设计成"摘要不够用,得读全文",而真实搜索引擎的摘要往往已经够用了。

七、把世界模型装进智能体的脑子里

除了作为独立的模拟器,研究团队还探索了另一个方向:把世界模型和智能体合二为一,让同一个模型既能做决策又能做预测。

这个设想背后有一个直觉:如果一个智能体在决定采取某个动作之前,能先在脑子里预演一下"这个动作会带来什么结果",那它理论上应该能做出更明智的决策。研究团队把这种内化的世界知识比作一种"元认知推理模式"——类似于人类在做决定前的心理彩排,但方向是朝前的(预判未来状态),而不是向后的(反思过去错误)。

为了验证这个想法,研究团队做了一个有趣的实验设计:用世界模型训练作为"热身阶段",然后直接测试模型在多轮工具调用任务上的表现,不做任何额外的智能体专项训练。世界模型训练阶段的任务本质上是单轮、无工具调用的(就是预测下一个环境状态),而测试任务则是多轮、需要反复调用工具的。这两者之间存在巨大的分布差异,因此如果世界模型热身真的能提升智能体表现,那说明这种提升来自某种真正通用的能力迁移。

实验结果相当亮眼。在四个与世界模型训练领域相关的基准上,Terminal-Bench 2.0提升了6.30分,SWE-Bench Verified提升了3.39分,SWE-Bench Pro提升了5.24分,WideSearch Item-F1提升了12.79分。更令人印象深刻的是三个完全不在世界模型训练数据中的领域:Claw-Eval提升了11.28分,QwenClawBench提升了9.67分,BFCL v4(函数调用评测)提升了8.96分。这些领域的提升无法用"学过相关知识"来解释,只能说明世界模型训练确实培养了某种跨领域可迁移的基础能力。

研究团队通过分析模型的推理轨迹,发现了一个规律:经过世界模型强化学习训练的模型,会系统性地在执行动作之前,在思考过程中预测环境的反应,然后根据预测来决定最终动作。这一点在Terminal-Bench 2.0的一个典型案例中体现得尤为清晰:两个模型都遇到了同一个Postfix邮件服务器配置错误,未经世界模型训练的模型错误地预测"配置传输路由之后邮件就能到达",于是在传输路由配置上反复折腾,最终超时失败;而经过世界模型训练的模型则正确地推断出"Postfix在查询传输路由之前就已经拒绝了收件人",从而把注意力精准锁定在local_recipient_maps上,一次性解决问题。研究团队还量化了这种预测能力的提升:在Terminal-Bench 2.0轨迹上,模型对环境状态的预测准确率从69.9%提升到78.3%。

八、世界模型如何在脑子里"想"问题

研究团队还专门分析了Qwen-AgentWorld-397B-A17B在生成预测结果时的推理链,发现了三种有趣的思维模式。

第一种是"主动纠错"。模型会用"等等!"作为一个认知中断信号,在生成过程中重新审视某个中间推断并加以修正。在分析的129个推理轨迹里,这类"等等"信号出现了1347次,平均每轮10.4次,最多的一轮高达56次。终端和MCP领域的出现频率最高,因为这些领域的状态追踪需求最强。这三类纠错分别针对"事实错误"(比如API返回格式不对)、"认知边界"(比如意识到当前信息不足以推断某个具体数值)和"视角切换"(站在评估者或智能体的角度重新审视输出)。

第二种是"信息防泄漏"。在搜索领域,模型持有目标答案,但智能体的当前查询可能与目标无关。在这种情况下,模型会主动识别出"当前查询与目标答案无关",并确保生成的搜索结果不会意外地泄露答案信息。这实际上是一种心智理论的体现:模型能区分"我知道什么"和"智能体应该被允许知道什么"。

第三种是"多步因果推理"。模型能跨越多个系统抽象层次构建推理链。一个典型例子是预测`curl -s localhost:3000 | python3 -m json.tool`的输出:Node.js没有安装→服务器从未启动→3000端口没有监听→curl静默失败(因为-s参数)→管道接收到空输入→json.tool抛出特定的JSONDecodeError。整个推理链跨越了包管理、进程生命周期、curl语义和Python错误信息四个不同的知识领域,模型却能正确串联。

研究团队还发现,强化学习训练能够提升模型在极细粒度层面的模拟精度。以搜索领域为例,在第100步时,模型生成的IMDB链接使用了合理但不真实的ID(tt2333444);到第200步时,链接ID更接近真实(tt2988794),结果来源的排序也更符合真实搜索引擎的权重分布(维基百科排首位,IMDB、《纽约时报》、烂番茄依次跟随)。在终端领域,模型会在推理链中逐个字符地数字节数(包括不可见的换行符),最终给出精确的字节计数。在MCP领域模拟Notion工作区时,模型能在九个连续API调用中保持完全一致的用户ID、父子页面引用关系和UUID格式。

归根结底,这项来自阿里巴巴通义团队的研究,用一种极为系统的方式回答了一个被长期忽视的问题:AI智能体需要一本"世界模拟手册",而且这本手册可以被训练出来,并以两种不同的方式服务于更强大的AI系统——既可以作为独立的虚拟练习场,让智能体在可控的模拟环境中接触真实环境中罕见的极限情况,又可以作为智能体自身的内置能力,让决策行为建立在对后果的预判之上。

从更长远的视角来看,这项研究打开了一个新的扩展维度:除了让智能体与更多真实环境交互,还可以让世界模型与智能体相互演化,世界模型生成越来越有挑战性的场景,智能体则在这些挑战中变得越来越强。研究团队在论文末尾也提到了这个方向,并称之为"智能体-世界模型协同进化"。当然,目前的研究也有清晰的局限:在图形界面领域,纯文本的世界模型相比已经内化了大量图像信息的多模态商业模型仍有差距。将视觉感知整合进世界模型,是研究团队点名的未来工作方向之一。对这项研究感兴趣的读者,可以通过arXiv编号2606.24597获取完整的技术报告。

Q&A

Q1:语言世界模型和普通的语言模型有什么区别?

A:普通语言模型的目标是回答问题或生成文本,而语言世界模型的目标是预测"当AI做了某个动作之后,环境会返回什么结果"。前者更像一个博学的回答者,后者更像一个能模拟系统运行的虚拟沙盒。Qwen-AgentWorld专门针对七种AI操作环境进行训练,能精确预测Shell命令输出、API返回值、界面状态变化等。

Q2:在虚构世界里训练的搜索智能体,为什么能在真实搜索任务中表现更好?

A:核心原因在于虚构世界强迫智能体真正学会"搜索"这个动作,而不是靠记忆作答。同时,模拟环境的控制指令故意让搜索摘要不完整,迫使智能体多次查询和提取页面全文,这培养了更深度的信息整合习惯。这种搜索策略在真实任务中依然有效,所以出现了"虚构世界训练反超真实环境训练"的结果。

Q3:Qwen-AgentWorld的训练数据规模有多大?

A:研究团队收集了超过一千万条真实环境交互轨迹,覆盖七个操作领域。其中用于监督微调的精选数据有7094条,用于强化学习的数据有92308条。这些数据来自专用的自动化采集基础设施、公开来源的交互记录,以及内部模型开发过程中积累的轨迹,三个来源的数据池严格分开,互不交叉。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询