今天我们分享解读的是一篇由山东大学、中国人民大学、清华大学、卡内基梅隆大学、腾讯等顶尖高校和机构的众多学者联合发表的万字长文综述——《Deep Research: A Systematic Survey》。大型语言模型(LLM)已从文本生成器进化为强大的问题解决者,但许多开放性任务需要批判性思维、多源信息整合和可验证的输出,这些都超出了单次提问或标准RAG(检索增强生成)的能力范畴。
近期,一个名为“深度研究(Deep Research, DR)”的新范式应运而生。它旨在将LLM的推理能力与搜索引擎等外部工具相结合,赋能LLM扮演“研究智能体”的角色,以完成复杂的、开放式的任务。这篇综述为“深度研究”系统提供了一个全面而系统的概览,包括清晰的发展路线图、核心组件拆解、实践技术总结、重要挑战和未来方向。对于希望系统性了解和入门这一前沿领域的读者来说,这篇综述无疑是一份宝贵的“武功秘籍”。
摘要
大型语言模型(LLM)已从文本生成器迅速演变为强大的问题解决者。然而,许多开放式任务要求批判性思维、多源信息和可验证的输出,这超出了单次提问或标准检索增强生成(RAG)的能力。近期,大量研究探索了深度研究(Deep Research, DR),其目标是结合LLM的推理能力与外部工具(如搜索引擎),从而赋能LLM作为能够完成复杂、开放式任务的研究智能体。
本综述为深度研究系统提供了一个全面而系统的概览,包括清晰的路线图、基础组件、实用实现技术、重要挑战和未来方向。具体来说,本文的主要贡献如下:
•(i) 形式化了一个三阶段路线图,并区分了深度研究与相关范式;
•(ii) 介绍了四个关键组件:查询规划、信息获取、记忆管理和答案生成,每个组件都配有细粒度的子分类;
•(iii) 总结了优化技术,包括提示工程、监督微调和智能体强化学习;
•(iv) 整合了评估标准和开放性挑战,旨在指导和促进未来的发展
1. 引言
许多现实世界任务本质上是开放式的,需要批判性思维、事实依据以及生成独立的报告。这超出了LLM通过其固有的参数化知识所能提供的范畴。为了弥合这一差距,深度研究(DR)范式应运而生。DR将LLM置于一个端到端的研究工作流中,该工作流能够迭代地分解复杂问题、通过工具获取证据,并将经过验证的见解合成为连贯的长篇答案。
尽管进展迅速,但目前仍缺乏对DR进行系统性分析的综述。本文旨在填补这一空白,通过描绘其核心组件、整合关键技术和评估方法,为AI驱动的研究提供一个坚实的基础。
[图1:深度研究系统的四个关键组件概览]
图1解读:此图展示了一个通用的深度研究系统所包含的四个环环相扣的核心组件:
1
查询规划 (Query Planning):将复杂的初始问题分解为一系列更简单、可执行的子问题。
2
信息获取 (Information Acquisition):调用外部工具(如搜索引擎)来获取回答子问题所需的证据。
3
记忆管理 (Memory Management):存储、更新和遗忘在研究过程中获得的中间发现,以维持长期任务的上下文。
4
答案生成 (Answer Generation):综合所有收集到的证据,生成一个结构化、连贯且可验证的最终报告。
2. 深度研究的初步概念
2.1 什么是深度研究?
DR旨在赋予LLM一个端到端的研究工作流,使其能够作为智能体,以最少的人类监督,自主地生成连贯的、有事实依据的报告。
2.2 从三个阶段理解深度研究
作者提出了一个三阶段的路线图,来描绘DR系统能力逐步扩展的轨迹。
[表1:传统RAG与深度研究三阶段的对比]
表格解读:此表清晰地对比了传统RAG与DR三个阶段在能力上的演进。
•标准RAG**:能力最窄,只有搜索引擎访问和长文本生成能力。
•阶段I:智能体搜索 (Agentic Search)**:增加了工具使用、反思修正和记忆管理能力。
•阶段II:集成研究 (Integrated Research)**:与阶段I类似,但更强调长篇报告的生成和验证。
•阶段III:全栈AI科学家 (Full-stack AI Scientist)**:在阶段II的基础上,增加了代码执行和创新性假说提出的能力,最终产出形式为学术论文。
•阶段I:智能体搜索 (Agentic Search)
该阶段的系统专注于找到正确的信源并提取答案,合成需求较少。它们通常会对用户查询进行改写或分解,以提高检索召回率,然后对检索到的文档进行重排和过滤,最后给出有明确引用的简洁答案。这类系统的评估重点是答案的精确匹配率、召回率和引用正确性。
•阶段II:集成研究 (Integrated Research)该阶段的系统超越了孤立的事实,旨在生成连贯的、结构化的报告,能够整合来自不同来源的异构证据,并处理其中的冲突和不确定性。研究循环变得明确迭代:系统规划子问题,检索和提取关键证据,最终合成为全面的叙事性报告。这类系统的评估重点转向事实性、引用验证、结构连贯性和关键点覆盖率。
•阶段III:全栈AI科学家 (Full-stack AI Scientist)
这是DR最宏伟的阶段,目标是推动科学理解和创造。该阶段的智能体不仅要聚合证据,还要能生成假说、进行实验验证、批判现有主张,并提出新颖的观点。其应用场景包括论文审稿、科学发现和实验自动化。评估重点也转向了发现的新颖性、论证的连贯性以及主张的可复现性。
2.3 深度研究与RAG的比较
相比于传统的、通常被视为启发式增强步骤的RAG,DR在三个方面有根本性的不同:
1与数字世界的灵活互动:DR智能体可以主动与动态环境(如搜索引擎、API、代码执行器)进行多步交互,而不仅仅是查询一个静态的、预先索引好的语料库。
2具有自主工作流的长远规划:DR智能体通过闭环控制和多轮推理,能够自主地规划、修正和优化其工作流,以实现长远目标。
3面向开放任务的可靠语言接口:DR系统引入了可验证的机制,将自然语言输出与有来源的证据对齐,解决了LLM在开放环境中容易产生幻觉的问题。
3. 深度研究系统的关键组件
本节详细拆解了DR系统的四大核心组件。
[图2:本综述主要内容的分类学]
图2解读:这是一张信息量巨大的思维导图,它系统地梳理了本文所涵盖的所有主题。从四大核心组件(查询规划、信息获取、记忆管理、答案生成)到每个组件下的细分技术,再到优化DR系统的三大类方法(提示工程、SFT、RL),以及最终的评估体系,为读者提供了一个清晰的导航图。
3.1 查询规划 (Query Planning)
查询规划是将一个复杂问题分解为一系列可执行子查询的过程。
[图3:三种常用的查询规划类型]
图3解读:
•>并行规划 (Parallel Planning):一次性将原始问题分解为多个独立的子问题,可以并行处理,效率高。
•>顺序规划 (Sequential Planning):迭代地、一步步地分解问题,后一步的分解依赖于前一步的结果。
•>树状规划 (Tree-based Planning):将问题分解过程构建成一棵树或有向无环图,允许进行更复杂的探索和剪枝。
•并行规划:优点是高效,但缺点是忽略了子问题之间的依赖关系,且无法根据中间结果进行调整。
•顺序规划:能够处理有逻辑依赖的复杂任务,并根据中间反馈动态调整。但可能导致过多的推理轮次,增加延迟和计算成本。
•树状规划:结合了前两者的优点,通过MCTS(蒙特卡洛树搜索)等算法在结构化的搜索空间中进行探索,平衡了效率和效果。但训练一个鲁棒的树状规划模块极具挑战性。
3.2 信息获取 (Information Acquisition)
•检索工具:从传统的基于词汇的检索(如BM25)、基于语义的稠密检索,发展到使用商业搜索引擎API来获取实时信息,再到能够处理图表、表格等多模态信息的多模态检索。
•检索时机:即“何时进行检索?”。因为盲目检索会增加开销并可能引入噪声,所以智能体需要学会判断自己何时“知识不足”。这从早期的每步都检索,发展到基于模型置信度(通过概率、一致性、内部状态、或直接的语言表达来判断)的自适应检索,再到通过强化学习来端到端地优化检索策略。
•信息过滤:对检索到的嘈杂信息进行筛选和提纯。主要有三类方法:
1文档选择:对候选文档进行重排序,选出最相关的Top-k个。
2内容压缩:将冗长的文档压缩成简洁的摘要或关键证据。
3基于规则的清洗:针对特定结构的数据(如HTML网页、表格)进行规则化的清洗。
3.3 记忆管理 (Memory Management)
记忆管理是DR智能体能够执行长远任务的核心,它确保了上下文的连贯性。
[图5:记忆管理的四个关键阶段]
图5解读:
1
记忆巩固 (Consolidation):将原始的、瞬时的信息(如对话、工具输出)转化为稳定、持久的表征。可以是非结构化的(如生成摘要或关键事件日志),也可以是结构化的(如存入数据库、构建知识图谱或树状结构)。
2
记忆索引 (Indexing):为巩固后的记忆创建高效的检索路径,如同图书馆的目录。方法包括信号增强索引、基于图的索引和基于时间线的索引。
3
记忆更新 (Updating):根据新信息修正或完善已有的知识。可以是非参数化的(直接修改外部存储的数据),也可以是参数化的(通过继续训练或模型编辑来修改模型权重)。
4
记忆遗忘 (Forgetting):选择性地移除过时、不相关或错误的信息。可以是被动遗忘(模仿艾宾浩斯遗忘曲线,随时间衰减),也可以是主动遗忘(通过明确的DELETE指令或模型反学习来擦除特定知识)。
3.4 答案生成 (Answer Generation)
这是DR系统的最后一步,旨在生成一个连贯、全面且有证据支持的答案。
[图6:DR中答案生成过程的示意图]
图6解读:答案生成是一个层层递进的过程:
1
整合上游信息:将来自查询规划、信息获取和记忆系统的信息整合起来。
2
综合证据并保持连贯性:解决不同信源之间的矛盾,并维持长篇报告的逻辑一致性。
3
构建推理与叙事结构:通过CoT等方式,清晰地展示推理过程。
4
最终呈现生成:将答案以文本、图表、视频、PPT等多种形式呈现。
4. 优化深度研究系统的实践技术
如何让上述四大组件协同工作,并提升DR系统的整体性能?作者总结了三种主流范式。
4.1 工作流提示工程 (Workflow Prompt Engineering)
这是构建DR系统最简单有效的方式,即通过精心设计的提示语,构建一个由多个智能体协作的复杂工作流。作者以Anthropic的深度研究系统为例,详细拆解了其设计原则,包括查询分层、任务委派、工具选择、并行收集、最终报告生成等。
4.2 监督微调 (Supervised Fine-Tuning, SFT)
SFT通常用作DR智能体RL训练前的“冷启动”。由于人工标注专家轨迹成本高昂,自动构建高质量SFT数据集成为关键。
[图7:三种数据合成方法的比较]
图7解读:
•
强到弱蒸馏 (Strong-to-weak Distillation):用一个强大的“教师”模型(如GPT-5)生成高质量的解决轨迹,来训练一个较小的“学生”模型。可以是单个教师,也可以是多个专家组成的“教师团”。
•
迭代自进化 (Iterative Self-Evolving):模型通过不断生成新的训练数据来微调自己,实现能力的逐步提升。
4.3 端到端智能体强化学习 (End-to-End Agentic Reinforcement Learning)
这是最先进、最强大的优化范式,通过PPO或GRPO等RL算法来端到端地优化整个DR工作流。这可以是优化特定模块(如只用RL优化查询规划器),也可以是优化整个流水线(从查询分解到答案生成的全过程)。大量SOTA的搜索智能体(如Search-R1, WebDancer)都采用了这种端到端RL优化的范式。
5. 深度研究系统的评估
如何评估一个DR系统的好坏?作者将评估场景分为三大类。
[表4 & 5:DR系统相关基准测试的全面概览]
表格解读:这两张表格极其详尽地列出了当前用于评估DR系统的所有主流基准,涵盖了从QA到报告生成,再到AI辅助科研的方方面面。
•5.1 智能体信息搜寻:评估智能体获取信息的能力。这从早期的静态、单跳问答(如NQ),发展到需要多跳推理的复杂问答(如HotpotQA),再到需要在动态、真实的网页环境中进行交互的基准(如BrowseComp, WebArena)。
•5.2 综合报告生成:评估系统生成长篇、结构化报告的能力。包括综述生成(如AutoSurvey)、长篇报告生成(如DeepResearch Bench)以及更具挑战性的海报生成和幻灯片生成。
•5.3 AI辅助科研:这是DR的终极应用场景。评估维度包括想法生成的新颖性、实验执行的准确性、学术写作的质量以及同行评审的水平。
6. 挑战与展望
作者最后总结了DR领域面临的四大核心挑战:
1检索时机:如何更智能地判断何时需要检索,避免“过度检索”或“检索不足”。
2记忆进化:如何让记忆从被动的历史记录,进化为能进行主动预测的用户模型?如何将认知科学启发的结构化记忆与自主更新机制结合?如何通过RL让记忆管理变得目标导向?
3训练算法的不稳定性:在多轮交互中,RL训练极易崩溃。如何通过过滤无效交互、缓解“回声陷阱”等方法来稳定训练过程,是亟待解决的问题。DR系统的评估:如何评估长篇报告的逻辑一致性?如何区分创新与幻觉?如何缓解和提升LLM-as-Judge的偏见和效率?这些都是评估领域的开放性问题。
7. 开放讨论:从深度研究到通用智能
最后,作者将视野提升到AGI的高度,讨论了DR在通往通用智能的道路上,必须面对的创造力、公平性、安全性与可靠性等终极问题。
思考与展望
这篇综述为我们系统地梳理了“深度研究”这一激动人心的领域,它不仅仅是RAG的简单升级,而是一个全新的、更接近人类研究行为的AI范式。
1DR:通往“自主科学”的必由之路
DR的最终愿景,是构建一个“全栈AI科学家”。这个愿景的实现,将彻底改变科学研究的模式。它不仅仅是加速了某个环节,而是将整个科研工作流——从提出假说到设计实验,再到撰写论文——都整合进一个自主的闭环中。这让我们离“自主科学”(Autonomous Science)的梦想又近了一步。
2**“规划”与“记忆”:智能体的任督二脉**
这篇综述清晰地揭示了,一个DR智能体要超越简单的问答机器人,必须打通“规划”和“记忆”这两条“任督二脉”。查询规划(无论是并行的、顺序的还是树状的)决定了智能体能否将一个大问题拆解成可执行的小步骤,这体现了其“逻辑思维”能力。而记忆管理(巩固、索引、更新、遗忘)则决定了智能体能否在长远的时间跨度上维持上下文、积累知识、修正错误,这体现了其“持续学习”和“自我进化”的能力。
3从“数据驱动”到“模型驱动”的数据飞轮
SFT和RL的成功,越来越依赖于高质量的训练数据。而DR的发展,特别是“迭代自进化”和各种智能体数据合成流水线的出现,标志着一个范式转变:我们正在从依赖于人类标注或网络爬取的“数据驱动”模式,转向由AI模型自己生成训练数据的“模型驱动”模式。一个强大的DR系统,不仅能解决问题,还能为自己创造出更难、更多样的问题和更高质量的解题轨迹,从而进入一个正向的“数据飞-轮”,实现能力的自我增强。
4未来的挑战:从“能做”到“做好”
当前的DR系统已经证明了其在许多任务上“能做”的潜力,但未来的挑战在于如何“做好”。这篇综述指出的几个挑战都切中要害:
评估的困境:如何评估一个AI生成的“新颖”想法?如何区分有价值的“创造力”和无意义的“幻觉”?这已经超出了传统NLP评测的范畴,进入了更深层次的认识论和科学哲学领域。
•训练的稳定性:端到端的RL虽然强大,但其“脆弱性”是目前最大的瓶颈。如何设计出更鲁棒、对奖励信号不那么敏感、能从稀疏信号中高效学习的RL算法,是算法层面的核心挑战。
•长远价值对齐:一个DR智能体在追求短期任务目标(如回答一个问题)时,如何保证其行为符合长远的、更宏大的价值(如科学诚信、学术公平)?这是“对齐”问题在更复杂、更自主的智能体系统中的延伸。
总而言之,这篇综-述是一份极其宝贵的文献。它不仅为从业者提供了一张清晰的“技术地图”,更为我们所有人描绘了一个关于AI如何从一个“信息检索员”成长为一个“独立研究员”的、激动人心的未来。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。