一、RAG基础核心知识
1.RAG的严谨学术定义与工程落地定义。
学术定义:检索增强生成(Retrieval-Augmented Generation),是利用外部非参数化知识库,通过检索相关信息来增强大模型生成内容的一类范式,核心是在生成前引入外部可信证据;
工程定义:将文档进行切块、向量化并存储到向量数据库,用户发起查询时从库中召回相关文本片段,拼入提示词后送入大模型生成答案。
2.RAG的核心设计思想与运行逻辑是什么?
核心思想:用外部可更新、可校验的可信知识,弥补大模型参数记忆不足、易幻觉、知识陈旧等固有缺陷;
运行逻辑:遵循“先检索、后生成”,把检索到的相关知识作为强上下文输入模型,让生成严格依据外部证据。
3.RAG从哪些维度提升大模型生成质量?
显著提升回答的事实准确性、知识时效性、专业深度与可控性,有效降低模型幻觉,并让答案具备可溯源、可验证的能力。
4.RAG与传统检索加生成流水线的本质差异是什么?
传统检索生成是固定规则拼接,检索与生成相互独立、不可联合优化;
RAG是端到端可优化的融合范式,检索结果深度参与生成过程,可整体迭代优化。
5.引入RAG技术的核心动因与业务价值是什么?
解决大模型幻觉严重、内置知识过时、无法使用私有数据、数据隐私不可控等问题;
落地成本低、迭代速度快、知识更新灵活、数据安全可控,适合企业级快速上线。
6.如何判定一个RAG系统是否达标、是否可用?
回答无明显幻觉、信息来源准确、响应速度满足线上要求;
稳定支撑真实业务场景,用户体验一致可靠,满足业务指标与安全规范。
7.对比RAG、Prompt工程、模型微调,三者的适用场景有哪些?
Prompt:适合简单轻量、知识需求少的场景;
RAG:适合知识密集、需要实时更新、强调事实准确的场景;
微调:适合深度领域定制、风格强约束、逻辑复杂的场景。
8.哪些场景必须使用RAG,无法用Prompt或微调替代?
需要实时知识更新、数据敏感不能上传、专业度极高且必须可溯源、知识库频繁变动的场景必须用RAG。
9.RAG相比全参数微调、LoRA微调,有哪些不可替代的优势?
成本更低、更新更快、数据更安全,无需训练即可接入新文档,维护成本极低,支持秒级知识更新。
10.RAG相比纯LLM生成,解决了哪些核心问题?
解决模型幻觉、知识陈旧、信息不可靠、无法使用私有数据、答案不可溯源等核心痛点。
11.什么是大模型幻觉,RAG抑制幻觉的原理是什么?
模型编造不存在的事实、数据、引用等内容;
通过提供真实检索片段作为硬性依据,强制模型只能依据给定上下文生成,从源头减少虚构。
12.RAG相比传统知识库问答系统,先进性体现在哪里?
支持自然对话、复杂意图理解、多轮交互,答案更流畅自然,不依赖固定问答模板,泛化能力与用户体验更强。
13.RAG系统的核心组成模块有哪些?
包含文档处理、文本切块、向量嵌入、向量库、检索模块、重排模块、提示词构造、大模型生成八大核心模块。
二、RAG标准全流程
1.详细拆解RAG端到端离线加在线完整流程。
离线:文档加载、清洗去重、切块、向量化、建立索引、存入向量库;
在线:用户查询、解析与嵌入、向量检索、重排精排、上下文拼接、大模型生成、返回结果。
2.离线知识库构建的完整链路与关键步骤。
包括文档加载、格式清洗、噪声去除、数据去重、语义切块、向量嵌入、索引构建、元数据存储与版本管理。
3.在线问答推理的完整链路与关键步骤。
包括查询解析、查询向量化、粗检索、重排精排、上下文拼接、提示词构造、模型生成、结果后处理与返回。
4.文档预处理包含哪些操作,各自的作用是什么?
清洗去噪:剔除乱码、空格、广告,保证文本干净;
格式统一:统一编码、分段、标题结构,便于后续处理;
去重:避免重复片段干扰检索,提升召回精度与效率。
5.文档Chunk切分有哪些主流策略,各自适用场景是什么?
固定长度切分:适合简单纯文本、结构简单的文档;
语义切分:适合需要保持语义完整、专业内容强相关的场景;
递归切分:适合长文档、结构复杂、层级清晰的书籍/报告。
6.固定长度切分、语义切分、递归切分的优缺点对比。
固定切分:简单高效,但容易割裂语义与逻辑;
语义切分:语义完整,但计算开销更大、速度更慢。
递归切分:兼顾效率与完整性,适合大多数复杂场景。
7.文档块重叠长度如何合理设置,重叠的核心作用是什么?
一般设置为切块长度的1/10~1/5。重叠可防止关键信息被切块割裂,保证上下文连贯,避免信息丢失。
8.如何平衡Chunk大小、信息完整性、检索效率三者关系?
小块检索更快但信息碎片化;
大块信息完整但检索与推理更慢;
通常取200~500词折中,兼顾效率与完整性。
9.长文档拆分有哪些特殊技巧,避免关键信息割裂?
按章节、段落、标题层级拆分;
使用语义分割算法;
设置合理重叠;
保留结构元数据,避免破坏逻辑关系。
10.查询向量化的底层逻辑是什么?
将自然语言查询映射到与文档同一向量空间,使语义相似的文本在向量空间中距离更近,常用余弦相似度衡量相关性。
11.什么是上下文召回,主流召回方式有哪些?
召回是从向量库中快速取出与查询最相关的片段;
主流方式包括语义检索、关键词检索、混合检索。
12.关键词检索、语义检索、混合检索的差异与适用场景?
关键词:匹配精确,但不理解深层语义;
语义:理解意图,但对专业术语、生僻词较弱;
混合:兼顾字面与语义,效果最稳定,适合工业级场景。
13.什么是上下文重排,Rerank在RAG中的必要性是什么?
重排是对初检结果进行精细排序,大幅提升相关片段排名,保证模型优先读到最有用信息,是提升RAG效果的关键步骤。
14.上下文窗口截断的成因与解决方案有哪些?
成因:召回片段总长度超过模型上下文上限;
方案:优化切块、使用重排精简片段、上下文压缩、选用长上下文模型。
15.多轮对话RAG的实现逻辑,如何管理历史上下文?
将历史对话进行摘要或关键信息提取,与当前查询一起送入检索与生成,保证上下文连贯与意图一致。
16.长文档RAG的核心难点与优化思路?
信息分散、易被截断、检索不准、推理困难;
分层检索、层级索引、长上下文模型、多跳召回。
17.什么是自我查询RAG,完整工作流程是怎样的?
由大模型先将用户自然查询转为结构化检索条件,再执行精准检索,最后依据检索结果生成答案。
18.向量库构建时,如何处理时间衰减对召回精度的影响?
给新文档赋予更高权重,按时间过滤,或结合时间戳进行加权检索,降低旧信息对结果的干扰。
19.增量数据如何接入现有RAG系统,实现无感更新?
增量数据直接切块、嵌入后插入向量库,支持动态添加,不影响在线服务,实现无感实时更新。
20.向量入库的完整流程,包含元数据存储逻辑?
文本切块;生成向量;与来源、页码、时间、权限等元数据一起存入向量库,支持过滤、条件检索。
21.历史对话压缩与摘要,在RAG系统中如何应用?
通过压缩或摘要减少历史长度,保留关键意图与信息,用于上下文理解和检索,避免窗口溢出。
22.RAG系统中,上下文拼接的规则与技巧有哪些?
按相关性从高到低拼接;
添加来源标识;
控制总长度不超限;
用分隔符区分片段,提升模型理解效率。
三、RAG编码嵌入模型与向量库
1.适用于RAG的主流文本嵌入模型有哪些,各自特点?
BGE:检索能力强、效果稳定,适合高精度场景;
GTE:均衡通用,速度与精度平衡较好;
E5:多语言表现优秀;
Sentence-BERT:轻量易用,部署成本低。
2.面向RAG场景的句子嵌入模型工作原理与训练目标?
将文本映射为低维稠密向量,训练目标是让语义相似的文本距离更近,不相似的更远,优化检索排序效果。
3.BGE系列模型用于RAG的技术特点、优缺点与选型理由?
特点:双向监督训练,检索表征能力强;
优点:召回精度高、鲁棒性强;
缺点:资源消耗略高;
适合对检索精度要求高的专业场景。
4.E5、GTE、Sentence-BERT适配RAG场景的优缺点对比?
E5:多语言强,但单语言略弱于BGE;
GTE:均衡稳定,通用性强;
Sentence-BERT:轻量快速,但检索精度相对较低。
5.如何系统性评估嵌入模型在RAG场景下的检索效果?
使用命中率、MRR、召回率、精确率等指标,在真实业务数据集上进行对比测试,综合判断模型效果。
6.针对RAG场景微调嵌入模型的流程与实际收益?
用领域数据构造正负样本对进行训练,收益是领域内检索精度明显提升,更贴合专业术语与业务逻辑。
7.通用嵌入模型与领域专用嵌入模型在RAG中的差异?
通用:泛化能力强,但专业场景精度一般;
领域专用:在垂直领域精度更高,术语理解更准。
8.适配RAG场景的主流向量数据库有哪些,选型考量指标?
FAISS、Milvus、Chroma、Pinecone等;
选型看检索性能、扩展性、部署成本、运维难度、生态支持。
9.FAISS常用索引类型,以及在RAG中的适用场景?
Flat:精确检索,适合小数据量;
IVF:大数据量下检索更快,支持近似搜索;
PQ:向量压缩,节省存储与计算资源。
10.RAG场景下,FAISS索引构建、批量插入、优化步骤?
先构建并训练索引,再批量插入向量;
优化量化中心与参数,提升检索速度与召回率。
11.海量知识库下,如何保证RAG向量检索的低延迟?
使用分布式索引、向量量化、热点查询缓存、分批检索、多级召回策略。
12.RAG系统中,向量压缩、量化的常用方法与效果?
常用PQ、FP16、INT8量化,可大幅压缩存储空间、提升检索速度,精度损失可控可接受。
13.向量数据库索引维护、扩容、数据淘汰机制?
支持动态扩容;按时间或热度淘汰旧数据;
定期重建索引,保证检索效率与稳定性。
14.RAG向量检索常用相似度计算方式,优缺点对比?
余弦相似度:稳定通用,最常用;
点积:计算更快,适合归一化向量;
欧式距离:适合未良好归一化的数据。
15.RAG系统中,向量库与传统数据库的配合使用方案?
向量库负责语义检索;
关系型数据库存储元数据、原文、用户信息、业务数据,实现检索与管理分离。
16.向量库筛选、过滤逻辑在RAG召回中的应用?
按用户权限、文档类型、时间范围、部门等条件过滤,提升检索相关性、安全性与业务合规性。
四、RAG重排序Rerank技术
1.适用于RAG场景的Rerank模型分为哪几类?
分为交叉编码器、双塔模型,以及轻量级规则/统计模型三大类。
2.交叉编码器在RAG重排中的原理、优缺点?
原理:将查询与片段联合编码,深度交互计算相关性;
优点:精度极高;
缺点:速度慢、计算量大,不适合超大规模初排。
3.双塔模型在RAG重排中的原理、优缺点?
原理:查询与片段分别编码,通过相似度打分;
优点:速度快、效率高,支持大规模数据;
缺点:精度略低于交叉编码器。
4.RAG系统中,检索后精排的完整流程与执行逻辑?
先通过粗检索快速召回一批候选片段,再用精排模型打分排序,选取最高分片段送入生成环节。
5.常用的RAG重排模型有哪些,适配场景是什么?
如BGE Rerank、Cohere Rerank等,适合对精度要求高的医疗、法律、金融等专业场景。
6.如何优化RAG重排序效果,提升整体回答质量?
使用领域数据微调模型;
构建高质量训练样本;
调整排序数量与阈值;
结合业务规则增强。
7.RAG系统中,粗排与精排的分工差异?
粗排:快速筛选海量数据,保证速度与召回;
精排:对少量候选精细打分,保证高精度。
8.舍弃Rerank步骤,会对RAG系统造成哪些负面影响?
检索精度明显下降,无关片段增多,模型更容易生成错误答案,幻觉风险大幅上升。
9.Rerank模型的输入输出格式,如何接入RAG流程?
输入:查询+候选片段对;
输出:相关性分数;
接入位置在检索之后、生成之前。
五、RAG分类与进阶RAG技术
1.RAG有哪些主流分类方式,各类别特点?
按架构分为朴素、高级、迭代RAG;
按模态分为文本RAG、多模态RAG,支持不同数据类型与复杂度。
2.按实现架构划分,RAG分为哪几类?
分为Naive RAG、Advanced RAG、Iterative RAG、GraphRAG等。
3.按数据模态划分,RAG分为哪几类?
分为文本RAG、多模态RAG,多模态支持图文、音视频等混合信息检索与生成。
4.什么是多模态RAG,核心解决什么问题?
支持图文音视频联合检索与生成,解决纯文本RAG无法处理多模态信息、理解非文本内容的问题。
5.多模态RAG有哪些主流实现框架?
基于CLIP、多模态大模型、统一多模态向量空间等方案实现跨模态检索与生成。
6.什么是伪多模态RAG,具体实现方式?
先将图像转为文本描述,再用文本RAG流程处理,并非真正端到端多模态。
7.什么是真正多模态RAG,具体实现方式?
使用统一多模态编码器,将图像、文本等直接映射到同一向量空间,实现真正跨模态检索。
8.伪多模态RAG与真正多模态RAG的核心区别?
伪多模态依赖图像转文本,信息有损失;
真正多模态端到端编码,语义理解更强、信息更完整。
9.CLIP模型适用于哪一类多模态RAG,原因是什么?
适合图文多模态RAG,CLIP可将图像与文本映射到同一向量空间,支持跨模态相似度计算。
10.传统Naive RAG存在哪些核心痛点与缺陷?
切块不合理、检索精度低、无重排、易上下文截断、长文档效果差、不支持复杂推理。
11.什么是GraphRAG,核心设计思路是什么?
将知识组织为知识图谱结构,通过实体与关系进行推理检索,提升深度问答与多跳推理能力。
12.GraphRAG的完整实现流程与步骤?
文本抽取实体与关系、构建知识图谱、实体/关系向量化、结合图谱检索、生成可推理答案。
13.GraphRAG的核心技术难点有哪些?
知识抽取噪声大、图谱构建与更新复杂、实体对齐困难、检索与推理融合难度高。
14.GraphRAG如何应对增量数据更新场景?
增量抽取三元组,动态插入图谱与向量库,不破坏原有结构,支持增量实时更新。
15.哪些场景必须用GraphRAG,传统RAG无法解决?
需要多跳推理、关联分析、逻辑推导、复杂关系问答的深度场景,必须用GraphRAG。
16.GraphRAG构建知识图谱时,Chunk划分规则?
按实体、事件、语义单元切块,保持语义完整,便于关系抽取与图谱构建。
17.GraphRAG相比传统RAG,核心优势有哪些?
支持深度推理与关联分析,答案更具逻辑性与解释性,适合复杂专业问答。
18.RAG融合知识图谱的实现方式,与GraphRAG差异?
融合是图谱作为辅助增强;GraphRAG以图谱为核心结构,检索与生成全程围绕图谱展开。
19.什么是Correction RAG、Iterative RAG?
Correction RAG:对生成结果进行校验与修正,减少错误;
Iterative RAG:多轮检索迭代生成,逐步完善答案。
六、RAG评估体系
1.完整的RAG评估体系包含哪些核心维度?
包含检索质量、生成质量、事实一致性、响应速度、系统稳定性与可扩展性。
2.RAG评估体系中,最核心、最重要的指标是什么?
最核心是事实一致性与检索准确率,直接决定系统是否可用、是否安全可信。
3.RAG检索模块常用评估指标有哪些?
命中率、召回率、MRR、精确率、F1值。
4.RAG生成模块常用评估指标有哪些?
事实一致性、流畅性、完整性、有用性、人工满意度、可溯源性。
5.什么是检索命中率Hit Rate,如何计算?
命中指TopN结果包含正确片段。
6.什么是平均倒数排名MRR,如何计算?
MRR是正确结果排名倒数的平均值,数值越高检索越准。
7.如何计算RAG系统的召回率、精确率、F1值?
8.RAG系统人工评估的流程与评判标准?
人工从事实准确、有用性、流畅性、完整性打分,标准为无幻觉、信息完整、来源可靠、回答合理。
9.RAG系统自动化评估的方法与常用工具?
用大模型作为自动裁判,工具包括RAGAS、Arize、Phoenix等,支持自动化指标评测。
10.如何评估RAG回答的事实一致性?
对比答案与检索原文,判断是否存在编造、偏离、错误信息,确保完全依据上下文。
11.如何评估RAG回答的信息完整性?
检查是否覆盖问题所有要点,是否遗漏关键信息,是否满足用户真实信息需求。
12.如何评估检索结果与用户query的相关性?
按语义匹配程度打分,判断检索内容是否能有效支撑答案生成,是否与问题高度相关。
13.端到端RAG效果评估的常用方式?
人工评测+自动化指标相结合,使用真实用户对话日志,综合评估线上真实效果。
七、RAG优化与故障排查
1.RAG效果不佳时,有哪些常用纠偏与优化方案?
优化切块策略、升级嵌入模型、加入重排、调整召回数量、优化提示词、清洗知识库。
2.什么是检索漂移,成因与解决办法?
检索到不相关内容即为检索漂移;
成因:切块差、嵌入弱、查询模糊;
解决:优化检索、加强重排、清洗数据。
3.如何彻底解决RAG上下文窗口截断问题?
合理切块、使用重排精简片段、上下文压缩、选用更长上下文模型、控制召回数量。
4.RAG系统缓存机制的设计思路与实现方式?
缓存高频查询与结果,使用内存数据库存储,命中直接返回,显著降低延迟与计算压力。
5.低资源场景下,轻量化RAG如何实现?
使用小嵌入模型、向量量化、简化检索流程、轻量级向量库、减少召回数量。
6.如何系统性优化RAG召回链路,提升精度?
优化嵌入、混合检索、加入重排、元数据过滤、业务规则增强、领域微调。
7.如何定位RAG错误答案来源:检索模块or生成模块?
查看检索内容是否正确;
检索正确仍答错:生成问题;
检索本身错误:检索问题。
8.如何设计RAG故障归因实验?
控制变量法:固定检索结果只换生成模型;
固定生成只换检索链路,分别定位问题模块。
9.多文档融合推理场景,RAG系统如何设计?
跨文档召回、加权融合、按主题聚合、多跳检索、全局上下文整合。
10.如何优化Chunk切分策略,提升RAG效果?
按语义切块、设置合理重叠、保留段落结构、适配模型窗口、结合标题层级。
11.如何调整检索参数,改善RAG召回质量?
调整召回数量、相似度阈值、时间权重、元数据过滤条件、混合检索比例。
12如何解决检索结果不相关、不精准问题?
升级嵌入模型、使用重排、混合检索、清洗去重知识库、优化查询表达。
13.如何解决生成结果偏离检索知识的问题?
加强提示词约束、强制模型依据上下文生成、增加事实校验、后处理修正。
14.RAG系统中,如何处理冗余、重复知识库内容?
入库前做文本去重、相似向量过滤,合并重复信息,减少检索干扰与存储浪费。
八、RAG+Agent与工程落地
1.Agent场景中,RAG的核心作用是什么?
为Agent提供外部可信知识、工具信息与业务数据,增强决策准确性、专业性与可信度。
2.Agent落地时,RAG会遇到哪些延迟问题,如何优化?
多轮检索导致延迟高;
缓存、量化、异步检索、精简召回数、优化索引。
3.Agent落地时,RAG会遇到哪些正确率问题,如何解决?
检索不准导致决策错误;
重排、自检、多查询扩展、结果校验机制。
4.RAG结合知识图谱的Agent系统,图谱更新机制?
增量更新实体与关系,定时重构与实时插入结合,保证知识新鲜与准确。
5.多轮对话Agent搭配RAG的实现方案?
维护对话状态与历史摘要,将历史信息与当前查询联合检索,保证上下文连贯生成。
九、RAG业务场景实践题
1.医疗专业领域,如何搭建完整RAG智能助手链路?
医学文献、指南清洗切块,使用专业嵌入模型,严格检索校验,生成答案附加免责声明与来源引用。
2.法律专业领域,如何搭建完整RAG智能助手链路?
法条、案例结构化入库,精确检索,强制引用原文,保证答案合规、可溯源、具备法律效力。
3.智能客服场景,SpringAI+RAG的具体实现方案?
对接客服知识库构建向量库,SpringAI负责接口与流程管理,实时检索应答,提升回答准确率。
4.用户输入界面截图,如何用多模态RAG解析组件功能?
图像编码后检索界面文档,结合OCR与多模态模型,理解组件功能与使用说明。
5.多模态RAG中,如何区分图片框、视频框这类相似组件?
增加细分类标记,结合位置、内容、特征增强向量区分度,提升检索识别精度。
6.推荐系统引入RAG的原因,以及知识库构建流程?
提升推荐可解释性与准确性;
构建物品、用户、场景知识向量库,支持语义级推荐。
7.金融专业领域,RAG系统如何搭建?
接入公告、研报、财报等实时数据,严格更新校验,加强事实核查与风险提示,保证合规。
8.教育问答场景,RAG系统如何搭建?
教材、题库结构化处理,按知识点切块,保证答案准确、易懂、贴合教学逻辑。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~