HiRAG：层次化检索增强生成架构解析与实战指南-酒店常州论坛

1. 项目概述：当检索增强遇上层次化思维

最近在折腾RAG（检索增强生成）应用时，我一直在思考一个问题：当用户抛出一个复杂、多层次的查询时，传统的“检索-生成”管道是不是有点力不从心？比如，用户问：“帮我分析一下我们公司上个季度在北美市场的营销活动效果，并给出下个季度的优化建议。” 这背后其实隐含了多个子问题：上个季度的具体活动有哪些？各项活动的关键指标（如CTR、转化率）是多少？北美市场的竞争环境如何？过往的成功案例是什么？一个简单的向量检索，很可能返回一堆零散的文档片段——可能是某个活动的总结、一份市场报告的一页、或者一个案例研究的部分内容。LLM（大语言模型）拿到这些碎片后，要拼凑出一个连贯、深入且结构化的回答，挑战不小，容易产生幻觉或遗漏关键层面。

正是在这种背景下，我注意到了hhy-huang/HiRAG这个项目。HiRAG，全称Hierarchical Retrieval-Augmented Generation，即层次化检索增强生成。它不是一个全新的RAG框架，而是一种精巧的架构思想和方法论，旨在让RAG系统具备“分而治之”的智能。其核心在于，面对一个复杂查询，系统不是一次性检索所有相关内容然后一股脑塞给LLM，而是先对查询进行层次化分解，形成一棵“问题树”，然后针对树中的每一个子问题或子主题，进行定向、精准的检索，最后再综合所有层次的检索结果，生成最终答案。这就像一位经验丰富的分析师，接到一个复杂课题后，不会马上埋头查资料，而是先列出一个分析提纲（分解），然后按照提纲的每个部分去查阅相应的专业资料（定向检索），最后综合所有资料撰写报告（综合生成）。

这个项目在GitHub上开源，它提供了一种实现层次化RAG的参考架构和关键组件，对于想要提升复杂问答、报告生成、深度分析类应用效果的朋友来说，非常有借鉴意义。它适合已经熟悉基础RAG概念（如向量数据库、Embedding、Prompt工程）的开发者、算法工程师以及AI应用架构师，用于解决传统RAG在应对多跳问答、多维度分析和需要深度推理的场景下的瓶颈。

2. HiRAG的核心设计思想与架构拆解

2.1 为什么需要“层次化”？传统RAG的瓶颈

要理解HiRAG的价值，得先看看我们常用的“扁平化”RAG流程遇到了什么麻烦。

2.1.1 信息过载与噪声干扰当查询复杂时，为了确保召回率，我们往往会设置一个较大的top-k（例如检索20个片段）。这些片段可能来自不同的文档、涉及不同的子主题，质量参差不齐。LLM的上下文窗口是宝贵的，大量无关或低质量信息挤占空间，会稀释关键信息，甚至引导模型走向错误的方向。这好比让厨师用一筐未经分类的、包含蔬菜、肉类、调味料甚至一些无关工具的食材来做一道特定菜系的名菜，难度极大。

2.1.2 缺乏逻辑与结构关联检索到的片段之间是孤立的，缺乏显式的逻辑关系。对于“分析A并对比B”这类查询，模型需要自己从一堆片段中识别出哪些在讲A、哪些在讲B、哪些在对比，这对模型的推理能力要求很高，且不稳定。

2.1.3 多跳推理的断裂对于需要多步推理（多跳问答）的问题，例如“苹果公司CEO的妻子从事什么职业？”，传统RAG可能直接检索“蒂姆·库克的妻子”相关信息，但这类信息很可能不存在于知识库中。实际上，它需要先检索“苹果公司CEO是谁”（第一跳：蒂姆·库克），再检索“蒂姆·库克的配偶信息”（第二跳）。扁平检索很难自动串联这个过程。

HiRAG的“层次化”思想，正是为了系统性地解决这些问题。它将复杂的推理和检索任务，分解为一系列更简单、更专注的子任务。

2.2 HiRAG的三层核心架构解析

HiRAG的架构通常可以抽象为三个核心层次，这构成了其方法论的基础：

2.2.1 查询分解层这是流程的起点，也是智能的体现。该层的任务是将用户的原始复杂查询Q，分解为一组有逻辑关联的子查询{q1, q2, ..., qn}。分解的逻辑可以基于：

问题类型：将“分析效果并提出建议”分解为“效果分析”和“优化建议”两部分。
时间维度：将“对比去年和今年的业绩”分解为“去年业绩”和“今年业绩”。
空间/部门维度：将“公司各部门Q3总结”分解为“市场部Q3总结”、“研发部Q3总结”等。
概念维度：将“介绍神经网络和Transformer”分解为“神经网络基础”和“Transformer原理”。

实现上，这通常由一个“分解器”来完成，它可以是一个经过提示工程优化的LLM（如GPT-4， Claude-3），也可以是一个微调过的更小模型。提示词（Prompt）的设计是关键，需要明确要求模型按特定逻辑进行分解，并输出结构化的结果（如JSON列表）。

2.2.2 定向检索与证据收集层这是执行层。对于分解后得到的每一个子查询qi，系统独立地进行一次检索。这里的“定向”体现在：

独立的检索过程：每个子查询使用自己的向量进行相似度计算，从知识库中获取最相关的片段。
可定制的检索策略：针对不同的子问题，可以采用不同的检索策略。例如，对于事实性子问题（“某产品的发布时间”），可以使用高精度的向量检索；对于需要概括性的子问题（“某市场的趋势”），可以结合关键词检索（BM25）以获取更广泛的背景信息。HiRAG架构允许灵活集成多种检索器。
证据标注：为每个检索到的片段打上来源（子查询ID）和相关性分数标签，形成“证据集合”。

这一层相当于派出了多个专业的侦察兵，每人只负责摸清一个特定方向的情报。

2.2.3 综合生成层这是汇总与产出层。该层接收两样东西：1) 原始的复杂查询Q；2) 来自所有子查询的、经过组织和标注的证据集合。它的任务是：

证据融合与去重：合并来自不同子查询但指向相同事实的证据，去除重复信息。
结构化解构：按照子查询分解所隐含的逻辑结构（如先分析后建议，先分论点后总结），来组织证据材料。
生成最终答案：LLM基于结构化的证据和原始查询，生成一个全面、连贯、层次分明的最终答案。此处的Prompt需要精心设计，以明确告知模型证据的组织结构和回答的格式要求。

2.3 与相关技术范式的对比

2.3.1 HiRAG vs. 传统单轮RAG这是最主要的对比。传统RAG是“一锅烩”，HiRAG是“分餐制”。前者简单直接，适合简单QA；后者通过增加“分解”这一步，用可控的复杂度提升，换取了处理复杂任务时答案的准确性、深度和结构性的显著优势。

2.3.2 HiRAG vs. Agent（智能体）Agent框架（如LangChain的Agent、AutoGPT）也具备任务分解能力，但其目标更宏大，强调自主规划、工具使用和循环迭代。HiRAG更专注、更轻量，它聚焦于“检索增强生成”这一特定任务内的层次化解构，不涉及调用外部API、执行代码等复杂动作。你可以把HiRAG看作是一个专门为复杂RAG场景设计的、具有固定分解-检索-合成模式的“特化型Agent”。

2.3.3 HiRAG vs. 查询重写（Query Rewriting）查询重写是将一个查询改写成多个不同表述或角度的查询，然后并行检索，旨在提高召回率。HiRAG的查询分解则强调逻辑上的层次和结构，子查询之间是互补且有序的，目的是为了更好的信息组织和生成结构，而不仅仅是召回。

3. 关键组件实现与实操要点

理解了架构思想，我们来看看如何动手实现一个HiRAG系统。hhy-huang/HiRAG项目提供了可参考的代码结构，我们可以基于此进行拆解和深化。

3.1 查询分解器的实现方案

这是HiRAG的“大脑”，其质量直接决定后续流程的成败。

3.1.1 基于Prompt Engineering的实现（推荐起步）对于大多数场景，使用强大的通用LLM（如GPT-4-Turbo, Claude-3 Opus）配合精心设计的提示词，是性价比最高的方案。

# 示例：一个用于分解分析类查询的Prompt DECOMPOSE_PROMPT_TEMPLATE = """ 你是一个专业的分析助手。请将以下复杂查询分解为一系列逻辑上连贯、易于独立检索的子查询。 分解应遵循“背景/事实获取 -> 分析/对比 -> 总结/建议”的通用分析框架。 原始查询：{original_query} 请以JSON格式输出，包含一个名为“sub_queries”的列表，列表中的每个元素是一个字典，包含“id”（从1开始）和“query”两个字段。 同时，提供一个“logic_flow”字段，用简短语句描述这些子查询之间的逻辑关系。 示例输出格式： {{ "sub_queries": [ {{"id": 1, "query": "子查询1内容"}}, {{"id": 2, "query": "子查询2内容"}} ], "logic_flow": "首先通过子查询1获取背景信息，然后通过子查询2进行深入分析..." }} """

实操要点：

提供清晰范例：在Prompt中给出1-2个贴近你业务场景的分解示例（Few-shot Learning），能极大提升分解的准确性和格式稳定性。
约束输出格式：强制要求JSON等结构化输出，便于程序化处理。LLM有时会“自言自语”，在JSON前后添加解释性文字，需要在代码中做清洗（如提取````json`之间的内容）。
分解粒度控制：通过Prompt控制分解的细致程度。例如，“请分解为3-5个关键子查询”，避免分解得过细或过粗。

3.1.2 基于微调模型的实现（追求性能与成本）当有大量领域特定的复杂查询数据时，可以考虑微调一个较小的模型（如Llama 3 8B, Qwen 7B）来专门做查询分解。这能降低API调用成本，提高响应速度。

数据准备：需要构建(原始复杂查询，结构化子查询列表)的配对数据集。
训练目标：将分解任务视为一个文本到结构化文本（JSON）的生成任务。
优点：私有化部署，无数据泄露风险；单次调用成本低。
缺点：需要数据积累和训练成本；泛化能力可能不如超大通用模型。

3.2 层次化检索策略的设计

分解得到子查询后，需要对每个子查询进行检索。这里有几个关键设计点。

3.2.1 检索器的选择与混合

稠密检索：使用向量模型（如text-embedding-3-small,bge-large-zh-v1.5）将子查询和文档片段转换为向量，计算余弦相似度。这是核心方法，擅长语义匹配。
稀疏检索：结合BM25等算法。对于包含特定关键词、实体、技术术语的子查询，稀疏检索效果直接且稳定。例如，子查询“Python中asyncio.create_task的用法”，其中的函数名就是精确匹配的关键。
混合检索：将稠密检索和稀疏检索的结果进行融合（如加权分数、轮盘合并）。LangChain等框架提供了EnsembleRetriever来支持这一点。对于HiRAG，可以为每个子查询独立配置一个混合检索器。

3.2.2 知识库的索引策略层次化检索对知识库的索引方式提出了更高要求。单纯的“大文档切块”可能不够。

多粒度索引：除了标准的文本块（chunk）索引外，可以同时建立文档级（document-level）的索引。当子查询是关于文档整体概览时（如“介绍一下XX白皮书的主要内容”），直接检索文档级别的元数据摘要可能更有效。
元数据增强：为每个文本块添加丰富的元数据，如文档标题、章节、所属产品、日期等。在检索时，可以将子查询与元数据结合进行过滤。例如，对于子查询“2023年某产品的更新日志”，可以先用元数据过滤出product=某产品且date=2023的块，再进行语义检索，精度更高。

3.2.3 检索结果的去重与排序不同子查询的检索结果可能存在重叠。在送入最终生成器之前，需要进行去重和全局排序。

基于内容哈希的去重：对检索到的文本片段内容计算哈希值，去除完全相同的片段。
基于相似度的去重：对于高度语义相似的片段（如同一事实的不同表述），可以通过向量相似度阈值进行去重，保留分数最高的一个。
全局重排序：将所有去重后的片段，根据其与原始复杂查询Q（而非子查询）的相关性进行重新排序。这可以借助一个交叉编码器模型来实现，它比向量点积更能精确判断相关性，但计算开销更大，通常只对top N个片段进行重排。

3.3 综合生成器的Prompt工程

这是“画龙点睛”的一步，需要引导LLM利用好层次化的证据。

3.3.1 Prompt的核心结构

你是一个资深的分析报告撰写助手。请基于以下提供的“原始问题”和“研究证据”，撰写一份结构清晰、论据充分的回答。 # 原始问题 {original_query} # 研究证据（按主题组织） 以下是围绕原始问题分解出的各个子问题所找到的证据材料： ## 子问题1: [子查询1的内容] 证据1: [相关文本片段，来源：文档A] 证据2: [相关文本片段，来源：文档B] ## 子问题2: [子查询2的内容] 证据3: [相关文本片段，来源：文档C] ... # 回答要求 1. 请严格按照“子问题1 -> 子问题2 -> ...”的逻辑顺序组织你的回答。 2. 对于每个部分，必须综合该部分下的所有证据进行阐述，并注明关键信息的来源（如“根据证据1显示...”）。 3. 确保回答完整覆盖所有子问题，并在最后提供一个整体的总结或建议。 4. 如果某些子问题下的证据不足或存在矛盾，请明确指出这一点。

3.3.2 关键技巧

显式结构化证据：在Prompt中清晰地将证据按子查询分组呈现，这是HiRAG价值传递的关键。这相当于给了LLM一个现成的报告大纲和素材库。
强调引用与溯源：明确要求模型引用证据编号，这不仅能增加可信度，也方便用户回溯核查，是生产级应用的必要特性。
处理证据冲突：指示模型在遇到矛盾证据时进行说明，而不是强行融合，这体现了系统的严谨性。

4. 实战构建：从零搭建一个简易HiRAG流水线

让我们抛开框架，用最直接的代码逻辑来理解HiRAG的完整流程。假设我们有一个关于“科技公司”的知识库，包含产品介绍、财报、新闻等文档。

4.1 环境准备与知识库构建

# 安装核心库 # pip install langchain langchain-openai chromadb pypdf import os from langchain_community.document_loaders import PyPDFLoader, TextLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain_openai import OpenAIEmbeddings, ChatOpenAI from langchain_community.vectorstores import Chroma from langchain.retrievers import BM25Retriever, EnsembleRetriever from langchain.retrievers.document_compressors import LLMChainExtractor from langchain.retrievers import ContextualCompressionRetriever # 1. 加载与分割文档 loaders = [PyPDFLoader("path/to/apple_report.pdf"), TextLoader("path/to/tech_news.txt")] documents = [] for loader in loaders: documents.extend(loader.load()) text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200) texts = text_splitter.split_documents(documents) # 2. 创建向量存储与检索器 embeddings = OpenAIEmbeddings(model="text-embedding-3-small") vectorstore = Chroma.from_documents(texts, embeddings) vector_retriever = vectorstore.as_retriever(search_kwargs={"k": 5}) # 3. （可选）创建稀疏检索器 bm25_retriever = BM25Retriever.from_documents(texts) bm25_retriever.k = 5 # 4. 创建混合检索器 ensemble_retriever = EnsembleRetriever( retrievers=[vector_retriever, bm25_retriever], weights=[0.7, 0.3] # 赋予稠密检索更高权重 )

注意：知识库的构建质量是RAG的天花板。务必根据文档特点调整chunk_size和chunk_overlap。对于结构严谨的文档（如API手册），可以按章节分割；对于非结构化文本，递归字符分割是通用选择。

4.2 实现查询分解器

import json from langchain_core.prompts import ChatPromptTemplate from langchain_core.output_parsers import JsonOutputParser class QueryDecomposer: def __init__(self, llm): self.llm = llm self.parser = JsonOutputParser() self.decompose_prompt = ChatPromptTemplate.from_messages([ ("system", "你是一个专业的查询分析员。你的任务是将用户的复杂问题分解成一系列逻辑子问题。"), ("human", """ 请分解以下问题，以便可以并行搜索信息来全面回答它。 输出必须为JSON格式，包含一个'sub_queries'列表，每个元素有'id'和'query'字段。 原始问题：{question} 示例： 问题：'特斯拉Model 3和比亚迪汉EV在续航、价格和智能驾驶方面有什么优劣？' 输出：{{ "sub_queries": [ {{"id": 1, "query": "特斯拉Model 3的续航里程、价格和智能驾驶系统特点"}}, {{"id": 2, "query": "比亚迪汉EV的续航里程、价格和智能驾驶系统特点"}}, {{"id": 3, "query": "特斯拉Model 3和比亚迪汉EV的对比分析"}} ] }} 你的输出： """) ]) self.chain = self.decompose_prompt | self.llm | self.parser def decompose(self, question): try: result = self.chain.invoke({"question": question}) # 确保返回的是列表 sub_queries = result.get("sub_queries", []) if not isinstance(sub_queries, list): raise ValueError("解析结果不是列表格式") return [sq["query"] for sq in sub_queries] except Exception as e: print(f"分解查询时出错: {e}") # 降级策略：返回原始查询作为单一子查询 return [question] # 初始化LLM llm = ChatOpenAI(model="gpt-4-turbo-preview", temperature=0) decomposer = QueryDecomposer(llm) # 测试分解 complex_question = "OpenAI的GPT-4模型相比GPT-3.5，在模型架构、训练成本和主要应用场景上有哪些改进和不同？" sub_queries = decomposer.decompose(complex_question) print("分解出的子查询：") for i, q in enumerate(sub_queries, 1): print(f"{i}. {q}")

实操心得：这里的temperature设为0是为了保证分解的稳定性和可重复性。务必添加健壮的异常处理，因为LLM的输出可能不符合JSON格式。降级策略（返回原查询）保证了系统在分解失败时仍能以基础RAG模式运行。

4.3 实现层次化检索与证据整合

class HierarchicalRetriever: def __init__(self, base_retriever): self.base_retriever = base_retriever # 这里传入我们之前创建的ensemble_retriever def retrieve_for_subqueries(self, sub_queries): """为每个子查询执行检索，并整合结果""" all_docs = [] seen_content = set() # 用于基于内容去重 for sub_q in sub_queries: print(f"\n为子查询检索: '{sub_q}'") docs = self.base_retriever.invoke(sub_q) for doc in docs: # 简单的内容去重 content_hash = hash(doc.page_content[:200]) # 取前200字符哈希 if content_hash not in seen_content: seen_content.add(content_hash) # 为文档添加元数据，标记它来自哪个子查询 doc.metadata["retrieved_for"] = sub_q all_docs.append(doc) print(f" -> 收录: {doc.page_content[:80]}...") else: print(f" -> 去重跳过") return all_docs # 使用混合检索器作为基础检索器 hierarchical_retriever = HierarchicalRetriever(ensemble_retriever) # 执行层次化检索 retrieved_docs = hierarchical_retriever.retrieve_for_subqueries(sub_queries) print(f"\n总共检索到 {len(retrieved_docs)} 个去重后的文档片段。")

4.4 实现综合生成

def synthesize_answer(original_question, sub_queries, retrieved_docs, llm): """综合所有证据生成最终答案""" # 1. 按子查询组织证据 evidence_by_subquery = {sq: [] for sq in sub_queries} for doc in retrieved_docs: subq = doc.metadata.get("retrieved_for", "Unknown") if subq in evidence_by_subquery: evidence_by_subquery[subq].append(doc.page_content[:500]) # 截取部分内容 # 2. 构建Prompt evidence_text = "" for sq, ev_list in evidence_by_subquery.items(): evidence_text += f"\n## 子问题: {sq}\n" for i, ev in enumerate(ev_list, 1): evidence_text += f"证据{i}: {ev}\n" synthesis_prompt = f""" 你是一位技术分析师。请基于以下提供的原始问题和按子问题组织的证据，撰写一份详细、结构化的分析报告。 # 原始问题 {original_question} # 按子问题组织的证据 {evidence_text} # 报告撰写要求 1. 报告结构应清晰反映子问题的逻辑顺序。 2. 每个部分必须综合其下的所有证据进行阐述。 3. 在回答中，请通过引用“证据X”的方式注明信息来源。 4. 如果某些子问题证据不足，请明确指出“该方面信息有限”。 5. 在报告最后，提供一个简明的总结。 现在，请开始撰写报告： """ # 3. 调用LLM生成 response = llm.invoke(synthesis_prompt) return response.content # 生成最终答案 final_answer = synthesize_answer(complex_question, sub_queries, retrieved_docs, llm) print("\n" + "="*50) print("生成的最终答案：") print("="*50) print(final_answer)

4.5 完整流程串联

class SimpleHiRAGPipeline: def __init__(self, decomposer, retriever, llm): self.decomposer = decomposer self.retriever = retriever self.llm = llm def run(self, question): print(f"【原始问题】: {question}") # 步骤1: 查询分解 print("\n【步骤1: 查询分解】") sub_queries = self.decomposer.decompose(question) print(f"分解为 {len(sub_queries)} 个子查询。") # 步骤2: 层次化检索 print("\n【步骤2: 层次化检索】") docs = self.retriever.retrieve_for_subqueries(sub_queries) print(f"检索到 {len(docs)} 个唯一文档片段。") # 步骤3: 综合生成 print("\n【步骤3: 综合生成】") answer = synthesize_answer(question, sub_queries, docs, self.llm) return { "original_question": question, "sub_queries": sub_queries, "retrieved_docs_count": len(docs), "answer": answer } # 初始化并运行管道 pipeline = SimpleHiRAGPipeline(decomposer, hierarchical_retriever, llm) result = pipeline.run(complex_question) print("\n" + "="*50) print("管道执行完成！") print("="*50)

5. 性能优化、常见问题与演进方向

构建出基础管道只是第一步，要让HiRAG在实际生产中稳定、高效地运行，还需要考虑很多优化和问题。

5.1 性能优化策略

5.1.1 减少LLM调用延迟分解和生成两步都需要调用LLM，是延迟的主要来源。

并行化：子查询的检索过程是完全独立的，可以并行执行，利用asyncio或线程池大幅缩短I/O等待时间。
缓存：对常见的、标准的查询分解结果进行缓存。对于检索结果，也可以考虑对向量进行缓存，但需注意知识库更新时的缓存失效问题。
使用更快的模型：在分解步骤，可以尝试使用速度更快、成本更低的模型（如GPT-3.5-Turbo， Claude Haiku），只要其分解能力足够。在最终生成步骤再用更强大的模型。

5.1.2 检索精度与召回率的平衡

动态Top-K：根据子查询的复杂性动态调整检索数量。简单事实查询可以设置较小的k（如3），复杂、开放的查询可以设置较大的k（如8）。
重排序：在混合检索后，使用一个轻量级的交叉编码器模型对所有候选片段进行重排序，将最相关的3-5个片段送给生成器，能显著提升答案质量。
查询扩展：在检索每个子查询前，先用LLM对其进行小幅改写或扩展（例如，生成同义词、相关实体），然后用扩展后的查询集去检索，最后合并结果，这有助于提高召回率。

5.2 常见问题与排查技巧

5.2.1 查询分解不准确或过度分解

现象：系统将简单问题也分解成多个子问题，或分解出的子问题与原始问题关联不大。
排查：检查分解Prompt中的示例是否恰当。示例应覆盖你业务场景中的典型复杂查询类型。可以尝试在Prompt中加入约束，如“如果问题本身是简单、单一的，则无需分解，直接返回原问题”。
解决：引入一个“分解决策器”——先用一个极简的分类器（或规则）判断问题是否需要分解。例如，通过检测问题中的连接词（“和”、“与”、“对比”、“分析”等）和长度来初步判断。

5.2.2 证据整合混乱或生成答案偏离主题

现象：最终答案没有按照子问题的结构组织，或者引用了错误的证据。
排查：检查synthesize_answer函数中构建的Prompt，确保证据是按子查询清晰分组的，并且格式易于LLM解析。在Prompt中强烈要求模型“严格遵循提供的证据结构”。
解决：在生成步骤使用更结构化、约束性更强的输出格式，例如要求模型以Markdown标题（## 子问题1：...）的形式组织答案。甚至可以要求模型先输出一个证据引用对照表。

5.2.3 处理知识库中不存在的信息

现象：对于某些子查询，知识库中没有相关信息，导致该部分答案空洞或模型产生幻觉。
解决：在综合生成Prompt中明确指示模型：“如果某个子问题下的证据列表为空或证据明显不足，请在回答中明确声明‘关于[子问题]，现有知识库中未找到相关信息’，而不要编造。” 这比让模型自己猜测要安全得多。

5.2.4 系统延迟过高

现象：从提问到获得答案耗时过长。
排查：使用性能分析工具，确定瓶颈是在分解、检索还是生成步骤。通常检索（尤其是向量检索）和LLM调用是主要瓶颈。
解决：
1. 检索优化：确保向量数据库使用了高效索引（如HNSW）。对文本块建立索引时，考虑其大小和重叠。
2. 异步与并行：如前所述，将子查询检索并行化。
3. 流式输出：对于最终生成，如果LLM支持，使用流式响应（streaming），让用户能尽快看到答案的开头部分，提升体验。

5.3 HiRAG的演进方向

5.3.1 动态层次化当前的HiRAG是“静态”分解，即一次性分解后执行。更高级的模式是“动态”或“递归”层次化。即系统在回答一个子问题的过程中，如果发现需要更深层的信息，可以自动发起新的、更细粒度的子查询。这更接近人类的思考方式，但实现和控制也更复杂。

5.3.2 与智能体（Agent）融合将HiRAG作为一个强大的“研究”或“信息收集”工具，嵌入到一个更大的智能体工作流中。智能体负责规划复杂任务，当需要深度研究某个主题时，就调用HiRAG子任务。HiRAG返回结构化的研究摘要，智能体再据此决定下一步行动。

5.3.3 自我反思与迭代引入一个“验证与修正”环节。生成初步答案后，让另一个LLM（或同一LLM的不同角色）基于原始问题和检索到的证据，对答案的准确性、完整性和结构性进行评分。如果评分过低，则触发新一轮的、更精准的检索或分解。这可以构建一个自我改进的闭环系统。

5.3.4 领域自适应为不同的垂直领域（如法律、医疗、金融）定制专用的分解逻辑、检索策略和生成模板。例如，在法律领域，分解可能基于“案件事实”、“法律适用”、“判例参考”等维度；在医疗领域，则可能基于“症状描述”、“病史”、“检查结果”、“用药史”等。这需要领域专家的知识注入。

构建HiRAG系统的过程，是一个在“系统复杂性”和“答案质量”之间寻找最佳平衡点的过程。对于大多数复杂问答场景，引入层次化思维带来的收益是显而易见的。它迫使系统更深入、更有条理地思考问题，而不仅仅是进行关键词匹配。hhy-huang/HiRAG这个项目为我们提供了一个清晰的起点，但真正的挑战和乐趣在于如何根据你自己的数据、你的业务场景和你的用户需求，去调整、优化和扩展这一范式。

企业官网建设流程全解析

1. 项目概述：当检索增强遇上层次化思维

2. HiRAG的核心设计思想与架构拆解

2.1 为什么需要“层次化”？传统RAG的瓶颈

2.2 HiRAG的三层核心架构解析

2.3 与相关技术范式的对比

3. 关键组件实现与实操要点

3.1 查询分解器的实现方案

3.2 层次化检索策略的设计

3.3 综合生成器的Prompt工程

4. 实战构建：从零搭建一个简易HiRAG流水线

4.1 环境准备与知识库构建

4.2 实现查询分解器

4.3 实现层次化检索与证据整合

4.4 实现综合生成

4.5 完整流程串联

5. 性能优化、常见问题与演进方向

5.1 性能优化策略

5.2 常见问题与排查技巧

5.3 HiRAG的演进方向

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1. 项目概述：当检索增强遇上层次化思维

2. HiRAG的核心设计思想与架构拆解

2.1 为什么需要“层次化”？传统RAG的瓶颈

2.2 HiRAG的三层核心架构解析

2.3 与相关技术范式的对比

3. 关键组件实现与实操要点

3.1 查询分解器的实现方案

3.2 层次化检索策略的设计

3.3 综合生成器的Prompt工程

4. 实战构建：从零搭建一个简易HiRAG流水线

4.1 环境准备与知识库构建

4.2 实现查询分解器

4.3 实现层次化检索与证据整合

4.4 实现综合生成

4.5 完整流程串联

5. 性能优化、常见问题与演进方向

5.1 性能优化策略

5.2 常见问题与排查技巧

5.3 HiRAG的演进方向

热门文章

文章分类

标签云

相关文章

为什么92%的隐私计算平台在2026年将被淘汰？SITS框架的4项硬指标已超ISO/IEC 20889:2023最新标准

QKeyMapper：Windows上最强大的免费开源按键映射工具完全指南

Windows驱动存储清理神器：DriverStoreExplorer全面指南

需要专业的网站建设服务？