RAGFlow 系列教程 第十二课:混合检索引擎 -- 从索引到召回
2026/5/5 10:13:28 网站建设 项目流程

系列: RAGFlow v0.25.0 源码深度解析
作者: 耿雨飞
前置知识: 已完成第十一课"文本分块策略详解"的学习


导读

在 RAG 系统中,检索质量直接决定生成质量——如果检索阶段无法召回正确的知识片段,后续的 LLM 生成只能"巧妇难为无米之炊"。纯向量搜索虽然擅长语义匹配,但面对代码标识符、法规编号、专有名词等精确匹配需求时往往力不从心;纯关键词搜索则对同义表达和跨语言查询无能为力。

RAGFlow 采用混合检索(Hybrid Search)架构:将 BM25 全文搜索与向量语义搜索在引擎层融合,通过加权评分公式Final Score = BM25_score * 0.05 + Vector_score * 0.95获得兼顾精确匹配和语义理解的召回结果。在此基础上,RAGFlow 还提供了查询扩展(关键词加权、同义词注入、否定词过滤)、多路重排序(客户端混合相似度 + 外部 Rerank 模型)、Rank Feature 标签评分TOC 增强检索Parent-Child 回溯等进阶能力。

本课将深入rag/nlp/search.pyrag/nlp/query.py两个核心文件,逐层拆解 RAGFlow 的检索引擎——从查询表达式构建、

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询