RAG实战指南：小白/程序员快速上手大模型，附收藏版学习路径-酒店常州论坛

本文深入解析RAG（检索增强生成）技术的原理和应用，对比RAG、微调和长上下文的适用场景，强调检索质量对RAG成败的关键作用。文章详细阐述了分块策略、混合检索与重排、评测方法、权限与合规以及向量库选型等核心环节，并提供了基于PostgreSQL和pgvector的最小RAG实现方案。最后，文章提出了企业落地RAG的步骤和优化建议，帮助读者从零开始构建高效、准确、合规的RAG系统。

这篇文章帮你回答什么

如果你是个人用户：

1. **RAG 到底是什么？什么时候该用、什么时候不该用？** 2. **它和“微调”“长上下文”有什么区别，怎么选？** 3. **为什么别人的 AI 知识库能答准，我的总是胡说？**

如果你是企业用户：

1. **怎么搭一个“答得准、可控、合规、还省钱”的知识库？** 2. **RAG 不准时，问题到底出在哪一环，怎么定位、怎么修？** 3. **分块、检索、重排、评测、权限、向量库——每一步的关键决策是什么？**

时间口径：2026 年 6 月。工具和模型变化快，文中数值代表写作时点的行业共识，最终以官方文档为准。

RAG 一分钟原理：检索 + 生成两步走

RAG 工作原理

RAG（Retrieval-Augmented Generation，检索增强生成）的本质只有一句话：

❝
让模型先去你的知识库里“查资料”，再基于查到的内容作答——而不是凭它训练时的记忆瞎答。

它分两段：

离线建库：把文档切成块（Chunk）→ 每块转成语义向量（Embedding）→ 连同原文和权限标签存进向量库。
在线问答：用户提问 → 把问题也向量化 → 去库里检索最相关的 Top-K 片段 → 重排 → 拼成提示词（问题 + 片段）→ 交给 LLM 生成带引用的答案。

记住这张图最底下那句话:模型答得准不准，七成取决于"检索到的片段对不对",而不是模型本身有多强。这是整篇文章的主线。

第一步：先判断要不要 RAG

RAG vs 微调 vs 长上下文

很多团队一上来就做 RAG，其实应该先分清三种手段解决的是不同问题：

手段	解决什么	典型场景	不擅长
RAG	让模型用上你的私有/会变的知识	知识库问答、客服、文档检索	改不了模型的“说话风格”
微调	改模型的风格、格式、固定行为	固定输出格式、统一术语口吻	记不住会变的知识
长上下文	一次性塞少量文档进去问	临时问一份合同、一篇报告	文档一多就又贵又慢

一句话决策：

知识会变 / 要引用 / 文档多 / 要权限 → RAG 改风格 / 格式 / 固定行为 → 微调 文档少 / 一次性 / 做原型 → 长上下文

企业知识库 90% 的情况，主体是 RAG，微调只用来“调风格”，长上下文用来“兜底大段原文”。三者常常一起用，不是二选一。

为什么你的 RAG 不准：80% 的问题在检索，不在模型

RAG 失败点地图

这是全文最重要的一节。行业里一句被反复验证的话：

❝
检索质量——而不是提示词或模型选择——通常是企业 RAG 成败的头号因素。

沿管线逐环看，故障基本都集中在检索侧：

环节	常见故障	在哪一侧
① 分块	块太大/太小、在句中或表格中被切断，答案被割裂	检索侧
② 向量化	embedding 模型不匹配领域，中文/专业词表现差	检索侧
③ 检索	只用向量，错过编号、SKU、版本号等精确匹配	检索侧
④ 重排	没做重排，对的块排在第 8 位，模型根本没看到	检索侧
⑤ 上下文拼接	塞太多无关片段，淹没答案、还抬高成本	检索侧
⑥ 生成	片段是对的，但模型“自由发挥”编造（忠实度低）	生成侧
⑦ 提示约束	没要求“只用上下文 + 给引用”，答案无法溯源	生成侧

所以修 RAG 的正确顺序是：先修检索，再考虑换模型。把分块、检索、重排修好，弱一点的模型也能答对；检索是垃圾，再强的模型也救不回来。

分块：从“怎么切”就决定成败

分块策略对比

分块没有万能切法，按文档结构选：

策略	怎么切	优	劣	用于
固定长度	按字符/Token 数硬切	简单快、可预测	易在句中切断、割裂语义	纯文本、日志
递归/按结构	段落→句→标点逐级切	不破坏语义边界、通用默认	需按文档类型调参	大多数文档
语义分块	按主题相似度断点切	块内主题集中、召回精准	建库成本高、较慢	高价值知识库
父子（小切大召）	小块去检索、回带父块原文	精确 + 上下文完整	实现/存储更复杂	长文档问答

不管用哪种，两条铁律不能省：

① 加重叠：相邻块重叠 10–20%，避免答案正好卡在边界被切断 ② 带元数据：每块附上来源、标题、章节、时间、【权限标签】 —— 检索过滤和引用溯源全靠它

另外，表格、代码、FAQ 要单独处理，别和正文用同一套切法——这是实战里最常被忽略、又最容易翻车的地方。

检索：混合检索 + 重排（两阶段）

混合检索 + 重排

只用向量检索是不够的。一个经典反例：用户搜错误码ERR_SSL_PROTOCOL_ERROR或型号WX-4200，纯向量检索完全不知道该怎么办——语义相似度对一个序列号毫无意义。

所以生产级检索是两阶段：

阶段一 · 混合检索（保证“不漏”）

语义检索（向量/Dense）：擅长自然语言、改述、“怎么做”类问题 关键词检索（BM25/Sparse）：擅长编号、SKU、条款、版本号 → 两路并行，用 RRF（倒数排名融合）合并，取 Top 20–50 候选

阶段二 · 重排（保证“最对的排第一”）

用 Cross-encoder 重排模型，对候选集逐一精算相关度 → 留下 Top 5–10 喂给 LLM

为什么要分两段：混合检索保证高召回（不漏），重排保证高精度（最对的排第一）。因为 LLM 只看得到 top-k，对的块若排在第 8 位，答案质量就会掉。

代价是延迟：Cross-encoder 准但慢（重排能把检索 MAP 从 0.52 拉到 0.80，但查询延迟可能涨几十倍），所以只对候选集跑、候选别取太多，按延迟预算权衡 K 值。

经验默认值：混合检索取 ~20–50 候选 → 重排留 ~5–10。这是大多数企业 RAG 的稳妥起点。

评测：不是“感觉准”，而是四个分项指标

RAG 评测指标

❝
大多数 RAG 在 Demo 里看着没问题，一上生产就崩——因为你没法靠“眼睛看”发现问题。

评测的关键是把“检索”和“生成”分开打分，这样才能定位问题在哪一环（RAGAS 四件套，括号内为常用阈值参考）：

指标	问的是	低了说明	参考阈值
上下文召回率 Context Recall	该用的信息有多少被检索回来	漏检（最致命）	≥ 0.8
上下文精确率 Context Precision	检索回来的有多少真相关	噪声多、抬成本	≥ 0.7
忠实度 Faithfulness（主指标）	答案每条主张是否都有上下文依据	编造/幻觉	≥ 0.75
答案相关性 Answer Relevancy	答案是否真的回答了问题	答非所问	≥ 0.8

再加两个排序指标看“重排有没有效”：MRR（第一个相关结果排第几）、NDCG（与端到端质量相关性更强）。注意BLEU/ROUGE 对 RAG 基本没用——它们只比字面相似度，和“是否忠实于检索内容”没关系。

四项要一起看才能定位：

召回低 → 修分块 / 检索 精确低 → 加重排 / 过滤 忠实低 → 改提示 + 强约束 相关低 → 改问题理解

工具上：RAGAS（做实验 + 生成合成评测集）、DeepEval（接 CI/CD 当质量门禁）、Langfuse（生产链路追踪）。大量打分用 LLM-as-judge，少量人工校准。

❝
落地第一步：先建一个几十条的“黄金问答集”，每次改动都回归一遍。这是 RAG 工程的地基，没有它，所有优化都是“感觉”。

权限与合规：企业 RAG 最容易踩的雷

RAG 权限与合规

核心原则一句话：

❝
权限要在“检索阶段”就过滤掉，绝不能“先检索全部、再让模型别说”。

✗ 错误：检索所有文档，再在提示词里嘱咐模型“无权的别讲”。机密内容已经进了上下文，可被诱导泄漏；越权文档还会污染排序，挤掉本该看到的结果。
✓ 正确：把权限标签写进每个块的 metadata，检索时带用户身份/角色一起过滤，无权文档从一开始就不进上下文——既不泄漏，也不影响排序。

四个配套动作：

维度	做法
行级/文档级 ACL	权限写进 metadata，检索即过滤；多租户用租户 ID 强隔离
数据脱敏	入库前对 PII/密钥脱敏或掩码，该删的别只“盖住”
引用与审计	答案带来源链接；谁查了什么留日志，可溯源、可追责
注入防护	文档内容可能含提示注入，检索到的内容 ≠ 可信指令，要隔离

权限是检索的前置条件，不是生成的事后请求。把 ACL 做进 metadata 过滤，是企业 RAG 的合规底线。

向量库与成本选型

一个反直觉但重要的结论：

❝
检索准不准，主要取决于 embedding 模型、分块策略和是否重排——而不是用哪个向量库。主流库（pgvector、Qdrant、Milvus、Pinecone、Weaviate 等）大多用 HNSW，召回率相近；向量库的真正差异在“带过滤的检索”和“运维/扩展性”。

按规模选（经验法则，候选不分先后）：

规模	建议	说明
< 100 万向量	已用 Postgres 就上 pgvector，否则 Qdrant	省一套独立系统的运维
100 万 – 5000 万	pgvector（调优）或 Qdrant	Qdrant 适合“过滤优先”的复杂检索
5000 万 – 1 亿	pgvector 上限附近 / 转专用库	HNSW 重建时间开始成为瓶颈
1 亿以上 / 要横向扩展	Milvus（或托管 Zilliz）	重型、可 GPU 加速，但运维复杂

两个省钱/省事的提醒：

① 尽早规划“混合检索”：几乎所有 RAG 上线 90 天内都会加上 向量 + 关键词 + 元数据过滤，选原生支持混合的库可省一次大重构 ② embedding 和重排是按调用计费的，做缓存（相同问题/相同块） 能显著降本；离线批量建库走批处理

动手实现：一个能跑的最小 RAG（pgvector 版）

前面讲的是“为什么”，这一节给“怎么做”。下面是一套可照抄、可改的最小实现，技术栈全部可替换，这里给一套不挑供应商、单库就能跑的组合：

存储/检索：PostgreSQL + pgvector（向量）+ 内置全文检索（关键词） 中文分词：zhparser 或 pg_jieba（全文检索用，英文可省） 向量化：任意 embedding 服务（下文用 embed() 封装） 重排：任意 cross-encoder reranker（下文用 reranker.score() 封装） 生成：任意 LLM（下文用 llm.chat() 封装） 评测：RAGAS

① 建库：Schema（向量 + 关键词 + 权限一张表）

CREATE EXTENSION IFNOTEXISTS vector; CREATETABLE chunks ( id BIGSERIAL PRIMARY KEY, doc_id TEXTNOTNULL, contentTEXTNOTNULL, -- 块原文（用于拼上下文） embedding VECTOR(1024), -- 维度对应你的 embedding 模型 tsv TSVECTOR, -- 关键词检索（中文需配分词） tenant_id TEXTNOTNULL, -- 多租户隔离 acl_roles TEXT[] NOTNULL, -- 可访问角色：权限过滤靠它 sourceTEXT, title TEXT, updated_at TIMESTAMPTZ, meta JSONB DEFAULT'{}' ); -- 向量索引（HNSW + 余弦） CREATEINDEXON chunks USING hnsw (embedding vector_cosine_ops); -- 关键词索引 CREATEINDEXON chunks USING gin (tsv); -- 常用过滤列建索引，加速带权限的检索 CREATEINDEXON chunks (tenant_id);

❝
权限、来源、向量、关键词同处一张表，是后面“检索时一次过滤掉无权内容”的前提。

② 分块 + 入库

from langchain_text_splitters import RecursiveCharacterTextSplitter splitter = RecursiveCharacterTextSplitter( chunk_size=500, # 一块约 500 token，按 embedding 上限调 chunk_overlap=80, # 10–20% 重叠，防答案卡边界被切断 separators=["\n## ", "\n### ", "\n\n", "\n", "。", " ", ""], # 先按结构，再退化 ) defindex_document(doc_text, doc_id, tenant, roles, source, title, mtime, conn): pieces = splitter.split_text(doc_text) vecs = embed(pieces) # 批量向量化，省调用费 with conn.cursor() as cur: for content, v in zip(pieces, vecs): cur.execute(""" INSERT INTO chunks (doc_id, content, embedding, tsv, tenant_id, acl_roles, source, title, updated_at) VALUES (%s,%s,%s, to_tsvector('simple', %s), %s,%s,%s,%s,%s) """, (doc_id, content, v, content, tenant, roles, source, title, mtime)) conn.commit()

❝
中文把to_tsvector('simple', ...)换成你配好的分词配置（如'zhcfg'）。表格/代码/FAQ 建议单独走一套切分逻辑，别和正文混用。

③ 混合检索 + RRF 融合（权限在这一步就过滤）

这是整套实现的核心。一条 SQL 同时做向量检索、关键词检索、RRF 融合、权限过滤：

-- 入参：:qvec 问题向量, :q 问题文本, :tenant 租户, :roles text[] 用户角色 WITH vec AS ( -- 向量检索 Top-50 SELECTid, ROW_NUMBER() OVER (ORDERBY embedding <=> :qvec::vector) AS rnk FROM chunks WHERE tenant_id = :tenant AND acl_roles && :roles-- ← 权限过滤 ORDERBY embedding <=> :qvec::vector LIMIT50 ), kw AS ( -- 关键词检索 Top-50 SELECTid, ROW_NUMBER() OVER (ORDERBY ts_rank_cd(tsv, q) DESC) AS rnk FROM chunks, plainto_tsquery('simple', :q) q WHERE tenant_id = :tenant AND acl_roles && :rolesAND tsv @@ q -- ← 权限过滤 ORDERBY ts_rank_cd(tsv, q) DESCLIMIT50 ), fused AS ( -- RRF：两路排名各取 1/(60+rank) 求和 SELECTid, SUM(1.0 / (60 + rnk)) AS score FROM (SELECTid, rnk FROM vec UNIONALLSELECTid, rnk FROM kw) u GROUPBYid ) SELECT c.id, c.content, c.source, c.title, f.score FROM fused f JOIN chunks c ON c.id = f.id ORDERBY f.score DESC LIMIT50; -- 这 50 条候选，交给下一步重排

❝
注意acl_roles && :roles写在WHERE里：无权文档从一开始就不进候选集，既不会泄漏，也不影响排序。这就是“权限是检索的前置条件”的代码落地。
一个实测踩到的坑：问题向量参数要显式写::vector转型，否则 psycopg 会把 Python list 当成double precision[]，报operator does not exist: vector <=> double precision[]。INSERT 不用转是因为目标列类型已知。

④ 重排：候选 50 → 留 8

defrerank(question, candidates, top_n=8): pairs = [(question, c["content"]) for c in candidates] # candidates = 上面 SQL 返回的 50 条 scores = reranker.score(pairs) # cross-encoder，看 query+doc 同时打分 ranked = sorted(zip(scores, candidates), key=lambda x: x[0], reverse=True) return [c for _, c in ranked[:top_n]]

⑤ 生成：把话说死，逼模型只用检索内容

defanswer_with_rag(question, top_chunks): context = "\n\n".join( f"[{i+1}] 来源：{c['title']}（{c['source']}）\n{c['content']}" for i, c in enumerate(top_chunks) ) system = ( "你是企业知识库助手。只能依据【参考资料】回答；" "资料中没有的，直接说“资料中未提及”，禁止编造。" "每个结论后用 [编号] 标注来源。" ) user = f"【参考资料】\n{context}\n\n【问题】{question}" return llm.chat(system=system, user=user, temperature=0) # temperature=0 降编造

❝
“只用参考资料 + 给引用 + 没有就说没有”——这三句约束，是把忠实度（Faithfulness）从 0.5 拉到 0.8 最便宜的手段。

⑥ 评测：用 RAGAS 跑黄金问答集

from datasets import Dataset from ragas import evaluate from ragas.metrics import (context_recall, context_precision, faithfulness, answer_relevancy) data = Dataset.from_dict({ "question": questions, # 你的黄金问答集（几十条起步） "answer": answers, # 系统实际产出 "contexts": retrieved_contexts, # 每题检索到的片段列表 "ground_truth": references, # 标准答案 }) report = evaluate(data, metrics=[context_recall, context_precision, faithfulness, answer_relevancy]) print(report) # 低于阈值(0.8/0.7/0.75/0.8)就按“四象限”定位修哪一环

⑦ 完整可运行版本（已实测）

上面六步整理成了一个可离线跑通的脚本rag.py（见随附rag-demo/），无需任何 API Key——用确定性本地向量 + 词重叠重排做占位，真实落地时只替换embed()/rerank()/llm_chat()三个函数。已在PostgreSQL 16 + pgvector实测通过，含权限过滤的正确性验证（staff 查“confidential salary”取不到机密文档，admin 可以）。

三步跑起来：

# 1) 起一个带 pgvector 的 Postgres docker run -d --name ragpg -e POSTGRES_PASSWORD=pw -p 5433:5432 pgvector/pgvector:pg16 # 2) 装依赖 pip install "psycopg[binary]" pgvector langchain-text-splitters # 3) 跑（建库 → 入库 → 混合检索 → 重排 → 拼 prompt） python rag.py

实测输出（节选）——同一句“confidential salary”，权限不同结果不同，证明 ACL 真的生效：

>>> [staff] 问: confidential salary 命中候选: ['VPN 指南', 'SSL 排错'] # 机密薪酬被挡在检索外 >>> [admin] 问: confidential salary 命中候选: ['机密薪酬', 'VPN 指南', 'SSL 排错'] # admin 可见

⑧ 接真实服务（OpenAI 兼容 + 开源 cross-encoder）

把上面三个占位函数换成真实服务，就这一个文件providers.py（已实测）：

import os from openai import OpenAI from sentence_transformers import CrossEncoder _client = OpenAI(base_url=os.getenv("OPENAI_BASE_URL"), # OpenAI / vLLM / Ollama / 兼容网关 api_key=os.getenv("OPENAI_API_KEY")) _reranker = CrossEncoder(os.getenv("RERANKER_MODEL", "cross-encoder/ms-marco-MiniLM-L-6-v2")) # 开源，本地跑，约 80MB defembed(texts):# 批量向量化 resp = _client.embeddings.create(model=os.getenv("EMBED_MODEL"), input=texts) return [d.embedding for d in resp.data] defrerank(question, candidates, top_n=8):# 开源 cross-encoder 重排 pairs = [(question, c["content"]) for c in candidates] scores = _reranker.predict(pairs) ranked = sorted(zip(scores, candidates), key=lambda x: float(x[0]), reverse=True) return [c for _, c in ranked[:top_n]] defllm_chat(system, user):# OpenAI 兼容 chat resp = _client.chat.completions.create( model=os.getenv("CHAT_MODEL"), temperature=0, messages=[{"role": "system", "content": system}, {"role": "user", "content": user}]) return resp.choices[0].message.content

切换方式（rag.py检测到RAG_REAL=1自动用上面的真实实现）：

pip install openai sentence-transformers export RAG_REAL=1 EMBED_DIM=1536 OPENAI_BASE_URL=".../v1" OPENAI_API_KEY="sk-..." export EMBED_MODEL="text-embedding-3-small" CHAT_MODEL="gpt-4o-mini" python rag.py

❝
实测记录：embed()/llm_chat()的 OpenAI 兼容调用结构已对本地“假兼容服务器”跑通；rerank()用真实cross-encoder/ms-marco-MiniLM-L-6-v2验证能把最相关项重排到第 1（相关项 +9.1、无关项 −11）。EMBED_DIM要和 embedding 模型维度对齐（如 text-embedding-3-small=1536、bge-large=1024）。

把这六步串起来，就是一个带权限、可评测、可溯源的最小可用 RAG。先让它跑通，再按下面的路线逐步加固。

落地路线：一步步把 RAG 做对

1. 先建黄金问答集（几十条），定义“准”的标准 2. 跑通最小管线：递归分块 + 向量检索 + 基础提示（先有基线） 3. 加混合检索（向量 + BM25）→ 召回率明显上一个台阶 4. 加重排（候选 20–50 → 留 5–10）→ 精确率和忠实度跟着涨 5. 按 RAGAS 四指标做回归，定位瓶颈逐项修 6. 接权限过滤、脱敏、引用审计（上生产前必做） 7. 做缓存、按规模选库、控制上下文长度——优化成本

不要跳步。没有评测集，就别谈优化；没有权限过滤，就别上生产。

一页纸总结

个人：RAG = 让模型先查你的资料再答。知识会变/要引用就用 RAG，改风格用微调，少量文档用长上下文。别人的知识库答得准，靠的是检索做得好，不是模型更贵。

企业：

RAG 不准 → 先查检索侧（分块/检索/重排），别急着换模型 做准 → 混合检索保召回 + 重排保精度 + 四指标做回归 做对 → 权限在检索阶段过滤、脱敏、引用审计 做省 → 缓存 + 按规模选库 + 控制上下文长度

一句话口诀：

检索决定上限，重排决定体验，评测决定能不能持续优化，权限决定能不能上生产。

最后

如果说程序员已经是高薪职业，那么干AI的程序员，就是高薪中的高薪。

现在的市场，已经用数据给程序员指明了方向：学AI大模型，就是冲刺高薪的最优解！

看着身边越来越多的同行转型大模型、拿到高薪offer，很多人心里都动了心，但真正的难题来了：零基础小白不知道从哪入门？有基础的程序员找不到系统学习路径？实战项目练手无门？面试不知道考什么？

别慌！今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包，覆盖从入门到实战、从理论到面试、从基础到进阶的全流程，所有资料均已整理归档，无冗余、无套路，免费分享给每一位想抓住AI风口的程序员和小白！

👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

2、大模型学习书籍&文档

3、AI大模型最新行业报告

4、大模型项目实战&配套源码

5、大模型大厂面试真题

四阶段精细化学习规划（附时间节点，可直接照做）

结合上述资源，给大家整理了一份可直接落地的四阶段学习规划，总时长约2个月，小白可循序渐进，程序员可根据自身基础调整节奏，高效掌握大模型核心能力，快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

6、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

企业官网建设流程全解析

这篇文章帮你回答什么

RAG 一分钟原理：检索 + 生成两步走

第一步：先判断要不要 RAG

为什么你的 RAG 不准：80% 的问题在检索，不在模型

分块：从“怎么切”就决定成败

检索：混合检索 + 重排（两阶段）

评测：不是“感觉准”，而是四个分项指标

权限与合规：企业 RAG 最容易踩的雷

向量库与成本选型

动手实现：一个能跑的最小 RAG（pgvector 版）

① 建库：Schema（向量 + 关键词 + 权限一张表）

② 分块 + 入库

③ 混合检索 + RRF 融合（权限在这一步就过滤）

④ 重排：候选 50 → 留 8

⑤ 生成：把话说死，逼模型只用检索内容

⑥ 评测：用 RAGAS 跑黄金问答集

⑦ 完整可运行版本（已实测）

⑧ 接真实服务（OpenAI 兼容 + 开源 cross-encoder）

落地路线：一步步把 RAG 做对

一页纸总结

最后

1、大模型系统化学习路线

2、大模型学习书籍&文档

3、AI大模型最新行业报告

4、大模型项目实战&配套源码

5、大模型大厂面试真题

四阶段精细化学习规划（附时间节点，可直接照做）

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

6、这些资料真的有用吗？

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

这篇文章帮你回答什么

RAG 一分钟原理：检索 + 生成两步走

第一步：先判断要不要 RAG

为什么你的 RAG 不准：80% 的问题在检索，不在模型

分块：从“怎么切”就决定成败

检索：混合检索 + 重排（两阶段）

评测：不是“感觉准”，而是四个分项指标

权限与合规：企业 RAG 最容易踩的雷

向量库与成本选型

动手实现：一个能跑的最小 RAG（pgvector 版）

① 建库：Schema（向量 + 关键词 + 权限一张表）

② 分块 + 入库

③ 混合检索 + RRF 融合（权限在这一步就过滤）

④ 重排：候选 50 → 留 8

⑤ 生成：把话说死，逼模型只用检索内容

⑥ 评测：用 RAGAS 跑黄金问答集

⑦ 完整可运行版本（已实测）

⑧ 接真实服务（OpenAI 兼容 + 开源 cross-encoder）

落地路线：一步步把 RAG 做对

一页纸总结

最后

1、大模型系统化学习路线

2、大模型学习书籍&文档

3、AI大模型最新行业报告

4、大模型项目实战&配套源码

5、大模型大厂面试真题

四阶段精细化学习规划（附时间节点，可直接照做）

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

6、这些资料真的有用吗？

热门文章

文章分类

标签云

相关文章

富文本编辑器安全防护：从XSS防御到wangEditor实战配置

3步解锁百度网盘高速下载：告别100KB/s限制的完整解决方案

VMware安装MySQL必做的6项安全加固：防火墙、SELinux、root权限隔离——合规审计前最后一道防线

需要专业的网站建设服务？