RAG实战指南:小白/程序员快速上手大模型,附收藏版学习路径
2026/6/26 8:40:43 网站建设 项目流程

本文深入解析RAG(检索增强生成)技术的原理和应用,对比RAG、微调和长上下文的适用场景,强调检索质量对RAG成败的关键作用。文章详细阐述了分块策略、混合检索与重排、评测方法、权限与合规以及向量库选型等核心环节,并提供了基于PostgreSQL和pgvector的最小RAG实现方案。最后,文章提出了企业落地RAG的步骤和优化建议,帮助读者从零开始构建高效、准确、合规的RAG系统。

这篇文章帮你回答什么

如果你是个人用户:

1. **RAG 到底是什么?什么时候该用、什么时候不该用?** 2. **它和“微调”“长上下文”有什么区别,怎么选?** 3. **为什么别人的 AI 知识库能答准,我的总是胡说?**

如果你是企业用户:

1. **怎么搭一个“答得准、可控、合规、还省钱”的知识库?** 2. **RAG 不准时,问题到底出在哪一环,怎么定位、怎么修?** 3. **分块、检索、重排、评测、权限、向量库——每一步的关键决策是什么?**

时间口径:2026 年 6 月。工具和模型变化快,文中数值代表写作时点的行业共识,最终以官方文档为准。


RAG 一分钟原理:检索 + 生成两步走

RAG 工作原理

RAG(Retrieval-Augmented Generation,检索增强生成)的本质只有一句话:

让模型先去你的知识库里“查资料”,再基于查到的内容作答——而不是凭它训练时的记忆瞎答。

它分两段:

  • 离线建库:把文档切成块(Chunk)→ 每块转成语义向量(Embedding)→ 连同原文和权限标签存进向量库。
  • 在线问答:用户提问 → 把问题也向量化 → 去库里检索最相关的 Top-K 片段 → 重排 → 拼成提示词(问题 + 片段)→ 交给 LLM 生成带引用的答案。

记住这张图最底下那句话:模型答得准不准,七成取决于"检索到的片段对不对",而不是模型本身有多强。这是整篇文章的主线。


第一步:先判断要不要 RAG

RAG vs 微调 vs 长上下文

很多团队一上来就做 RAG,其实应该先分清三种手段解决的是不同问题

手段解决什么典型场景不擅长
RAG让模型用上你的私有/会变的知识知识库问答、客服、文档检索改不了模型的“说话风格”
微调改模型的风格、格式、固定行为固定输出格式、统一术语口吻记不住会变的知识
长上下文一次性塞少量文档进去问临时问一份合同、一篇报告文档一多就又贵又慢

一句话决策:

知识会变 / 要引用 / 文档多 / 要权限 → RAG 改风格 / 格式 / 固定行为 → 微调 文档少 / 一次性 / 做原型 → 长上下文

企业知识库 90% 的情况,主体是 RAG,微调只用来“调风格”,长上下文用来“兜底大段原文”。三者常常一起用,不是二选一。


为什么你的 RAG 不准:80% 的问题在检索,不在模型

RAG 失败点地图

这是全文最重要的一节。行业里一句被反复验证的话:

检索质量——而不是提示词或模型选择——通常是企业 RAG 成败的头号因素。

沿管线逐环看,故障基本都集中在检索侧

环节常见故障在哪一侧
① 分块块太大/太小、在句中或表格中被切断,答案被割裂检索侧
② 向量化embedding 模型不匹配领域,中文/专业词表现差检索侧
③ 检索只用向量,错过编号、SKU、版本号等精确匹配检索侧
④ 重排没做重排,对的块排在第 8 位,模型根本没看到检索侧
⑤ 上下文拼接塞太多无关片段,淹没答案、还抬高成本检索侧
⑥ 生成片段是对的,但模型“自由发挥”编造(忠实度低)生成侧
⑦ 提示约束没要求“只用上下文 + 给引用”,答案无法溯源生成侧

所以修 RAG 的正确顺序是:先修检索,再考虑换模型。把分块、检索、重排修好,弱一点的模型也能答对;检索是垃圾,再强的模型也救不回来。


分块:从“怎么切”就决定成败

分块策略对比

分块没有万能切法,按文档结构选:

策略怎么切用于
固定长度按字符/Token 数硬切简单快、可预测易在句中切断、割裂语义纯文本、日志
递归/按结构段落→句→标点逐级切不破坏语义边界、通用默认需按文档类型调参大多数文档
语义分块按主题相似度断点切块内主题集中、召回精准建库成本高、较慢高价值知识库
父子(小切大召)小块去检索、回带父块原文精确 + 上下文完整实现/存储更复杂长文档问答

不管用哪种,两条铁律不能省:

① 加重叠:相邻块重叠 10–20%,避免答案正好卡在边界被切断 ② 带元数据:每块附上来源、标题、章节、时间、【权限标签】 —— 检索过滤和引用溯源全靠它

另外,表格、代码、FAQ 要单独处理,别和正文用同一套切法——这是实战里最常被忽略、又最容易翻车的地方。


检索:混合检索 + 重排(两阶段)

混合检索 + 重排

只用向量检索是不够的。一个经典反例:用户搜错误码ERR_SSL_PROTOCOL_ERROR或型号WX-4200,纯向量检索完全不知道该怎么办——语义相似度对一个序列号毫无意义。

所以生产级检索是两阶段

阶段一 · 混合检索(保证“不漏”)

语义检索(向量/Dense):擅长自然语言、改述、“怎么做”类问题 关键词检索(BM25/Sparse):擅长编号、SKU、条款、版本号 → 两路并行,用 RRF(倒数排名融合)合并,取 Top 20–50 候选

阶段二 · 重排(保证“最对的排第一”)

用 Cross-encoder 重排模型,对候选集逐一精算相关度 → 留下 Top 5–10 喂给 LLM

为什么要分两段:混合检索保证高召回(不漏),重排保证高精度(最对的排第一)。因为 LLM 只看得到 top-k,对的块若排在第 8 位,答案质量就会掉。

代价是延迟:Cross-encoder 准但慢(重排能把检索 MAP 从 0.52 拉到 0.80,但查询延迟可能涨几十倍),所以只对候选集跑、候选别取太多,按延迟预算权衡 K 值。

经验默认值:混合检索取 ~20–50 候选 → 重排留 ~5–10。这是大多数企业 RAG 的稳妥起点。


评测:不是“感觉准”,而是四个分项指标

RAG 评测指标

大多数 RAG 在 Demo 里看着没问题,一上生产就崩——因为你没法靠“眼睛看”发现问题。

评测的关键是把“检索”和“生成”分开打分,这样才能定位问题在哪一环(RAGAS 四件套,括号内为常用阈值参考):

指标问的是低了说明参考阈值
上下文召回率 Context Recall该用的信息有多少被检索回来漏检(最致命)≥ 0.8
上下文精确率 Context Precision检索回来的有多少真相关噪声多、抬成本≥ 0.7
忠实度 Faithfulness(主指标)答案每条主张是否都有上下文依据编造/幻觉≥ 0.75
答案相关性 Answer Relevancy答案是否真的回答了问题答非所问≥ 0.8

再加两个排序指标看“重排有没有效”:MRR(第一个相关结果排第几)、NDCG(与端到端质量相关性更强)。注意BLEU/ROUGE 对 RAG 基本没用——它们只比字面相似度,和“是否忠实于检索内容”没关系。

四项要一起看才能定位:

召回低 → 修分块 / 检索 精确低 → 加重排 / 过滤 忠实低 → 改提示 + 强约束 相关低 → 改问题理解

工具上:RAGAS(做实验 + 生成合成评测集)、DeepEval(接 CI/CD 当质量门禁)、Langfuse(生产链路追踪)。大量打分用 LLM-as-judge,少量人工校准。

落地第一步:先建一个几十条的“黄金问答集”,每次改动都回归一遍。这是 RAG 工程的地基,没有它,所有优化都是“感觉”。


权限与合规:企业 RAG 最容易踩的雷

RAG 权限与合规

核心原则一句话:

权限要在“检索阶段”就过滤掉,绝不能“先检索全部、再让模型别说”。

  • ✗ 错误:检索所有文档,再在提示词里嘱咐模型“无权的别讲”。机密内容已经进了上下文,可被诱导泄漏;越权文档还会污染排序,挤掉本该看到的结果。
  • ✓ 正确:把权限标签写进每个块的 metadata,检索时带用户身份/角色一起过滤,无权文档从一开始就不进上下文——既不泄漏,也不影响排序。

四个配套动作:

维度做法
行级/文档级 ACL权限写进 metadata,检索即过滤;多租户用租户 ID 强隔离
数据脱敏入库前对 PII/密钥脱敏或掩码,该删的别只“盖住”
引用与审计答案带来源链接;谁查了什么留日志,可溯源、可追责
注入防护文档内容可能含提示注入,检索到的内容 ≠ 可信指令,要隔离

权限是检索的前置条件,不是生成的事后请求。把 ACL 做进 metadata 过滤,是企业 RAG 的合规底线。


向量库与成本选型

一个反直觉但重要的结论:

检索准不准,主要取决于 embedding 模型、分块策略和是否重排——而不是用哪个向量库。主流库(pgvector、Qdrant、Milvus、Pinecone、Weaviate 等)大多用 HNSW,召回率相近;向量库的真正差异在“带过滤的检索”和“运维/扩展性”。

按规模选(经验法则,候选不分先后):

规模建议说明
< 100 万向量已用 Postgres 就上 pgvector,否则 Qdrant省一套独立系统的运维
100 万 – 5000 万pgvector(调优)或 QdrantQdrant 适合“过滤优先”的复杂检索
5000 万 – 1 亿pgvector 上限附近 / 转专用库HNSW 重建时间开始成为瓶颈
1 亿以上 / 要横向扩展Milvus(或托管 Zilliz)重型、可 GPU 加速,但运维复杂

两个省钱/省事的提醒:

① 尽早规划“混合检索”:几乎所有 RAG 上线 90 天内都会加上 向量 + 关键词 + 元数据过滤,选原生支持混合的库可省一次大重构 ② embedding 和重排是按调用计费的,做缓存(相同问题/相同块) 能显著降本;离线批量建库走批处理

动手实现:一个能跑的最小 RAG(pgvector 版)

前面讲的是“为什么”,这一节给“怎么做”。下面是一套可照抄、可改的最小实现,技术栈全部可替换,这里给一套不挑供应商、单库就能跑的组合:

存储/检索:PostgreSQL + pgvector(向量)+ 内置全文检索(关键词) 中文分词:zhparser 或 pg_jieba(全文检索用,英文可省) 向量化:任意 embedding 服务(下文用 embed() 封装) 重排:任意 cross-encoder reranker(下文用 reranker.score() 封装) 生成:任意 LLM(下文用 llm.chat() 封装) 评测:RAGAS

① 建库:Schema(向量 + 关键词 + 权限一张表)

CREATE EXTENSION IFNOTEXISTS vector; CREATETABLE chunks ( id BIGSERIAL PRIMARY KEY, doc_id TEXTNOTNULL, contentTEXTNOTNULL, -- 块原文(用于拼上下文) embedding VECTOR(1024), -- 维度对应你的 embedding 模型 tsv TSVECTOR, -- 关键词检索(中文需配分词) tenant_id TEXTNOTNULL, -- 多租户隔离 acl_roles TEXT[] NOTNULL, -- 可访问角色:权限过滤靠它 sourceTEXT, title TEXT, updated_at TIMESTAMPTZ, meta JSONB DEFAULT'{}' ); -- 向量索引(HNSW + 余弦) CREATEINDEXON chunks USING hnsw (embedding vector_cosine_ops); -- 关键词索引 CREATEINDEXON chunks USING gin (tsv); -- 常用过滤列建索引,加速带权限的检索 CREATEINDEXON chunks (tenant_id);

权限、来源、向量、关键词同处一张表,是后面“检索时一次过滤掉无权内容”的前提。

② 分块 + 入库

from langchain_text_splitters import RecursiveCharacterTextSplitter splitter = RecursiveCharacterTextSplitter( chunk_size=500, # 一块约 500 token,按 embedding 上限调 chunk_overlap=80, # 10–20% 重叠,防答案卡边界被切断 separators=["\n## ", "\n### ", "\n\n", "\n", "。", " ", ""], # 先按结构,再退化 ) defindex_document(doc_text, doc_id, tenant, roles, source, title, mtime, conn): pieces = splitter.split_text(doc_text) vecs = embed(pieces) # 批量向量化,省调用费 with conn.cursor() as cur: for content, v in zip(pieces, vecs): cur.execute(""" INSERT INTO chunks (doc_id, content, embedding, tsv, tenant_id, acl_roles, source, title, updated_at) VALUES (%s,%s,%s, to_tsvector('simple', %s), %s,%s,%s,%s,%s) """, (doc_id, content, v, content, tenant, roles, source, title, mtime)) conn.commit()

中文把to_tsvector('simple', ...)换成你配好的分词配置(如'zhcfg')。表格/代码/FAQ 建议单独走一套切分逻辑,别和正文混用。

③ 混合检索 + RRF 融合(权限在这一步就过滤)

这是整套实现的核心。一条 SQL 同时做向量检索、关键词检索、RRF 融合、权限过滤:

-- 入参::qvec 问题向量, :q 问题文本, :tenant 租户, :roles text[] 用户角色 WITH vec AS ( -- 向量检索 Top-50 SELECTid, ROW_NUMBER() OVER (ORDERBY embedding <=> :qvec::vector) AS rnk FROM chunks WHERE tenant_id = :tenant AND acl_roles && :roles-- ← 权限过滤 ORDERBY embedding <=> :qvec::vector LIMIT50 ), kw AS ( -- 关键词检索 Top-50 SELECTid, ROW_NUMBER() OVER (ORDERBY ts_rank_cd(tsv, q) DESC) AS rnk FROM chunks, plainto_tsquery('simple', :q) q WHERE tenant_id = :tenant AND acl_roles && :rolesAND tsv @@ q -- ← 权限过滤 ORDERBY ts_rank_cd(tsv, q) DESCLIMIT50 ), fused AS ( -- RRF:两路排名各取 1/(60+rank) 求和 SELECTid, SUM(1.0 / (60 + rnk)) AS score FROM (SELECTid, rnk FROM vec UNIONALLSELECTid, rnk FROM kw) u GROUPBYid ) SELECT c.id, c.content, c.source, c.title, f.score FROM fused f JOIN chunks c ON c.id = f.id ORDERBY f.score DESC LIMIT50; -- 这 50 条候选,交给下一步重排

注意acl_roles && :roles写在WHERE里:无权文档从一开始就不进候选集,既不会泄漏,也不影响排序。这就是“权限是检索的前置条件”的代码落地。

一个实测踩到的坑:问题向量参数要显式写::vector转型,否则 psycopg 会把 Python list 当成double precision[],报operator does not exist: vector <=> double precision[]。INSERT 不用转是因为目标列类型已知。

④ 重排:候选 50 → 留 8

defrerank(question, candidates, top_n=8): pairs = [(question, c["content"]) for c in candidates] # candidates = 上面 SQL 返回的 50 条 scores = reranker.score(pairs) # cross-encoder,看 query+doc 同时打分 ranked = sorted(zip(scores, candidates), key=lambda x: x[0], reverse=True) return [c for _, c in ranked[:top_n]]

⑤ 生成:把话说死,逼模型只用检索内容

defanswer_with_rag(question, top_chunks): context = "\n\n".join( f"[{i+1}] 来源:{c['title']}({c['source']})\n{c['content']}" for i, c in enumerate(top_chunks) ) system = ( "你是企业知识库助手。只能依据【参考资料】回答;" "资料中没有的,直接说“资料中未提及”,禁止编造。" "每个结论后用 [编号] 标注来源。" ) user = f"【参考资料】\n{context}\n\n【问题】{question}" return llm.chat(system=system, user=user, temperature=0) # temperature=0 降编造

“只用参考资料 + 给引用 + 没有就说没有”——这三句约束,是把忠实度(Faithfulness)从 0.5 拉到 0.8 最便宜的手段。

⑥ 评测:用 RAGAS 跑黄金问答集

from datasets import Dataset from ragas import evaluate from ragas.metrics import (context_recall, context_precision, faithfulness, answer_relevancy) data = Dataset.from_dict({ "question": questions, # 你的黄金问答集(几十条起步) "answer": answers, # 系统实际产出 "contexts": retrieved_contexts, # 每题检索到的片段列表 "ground_truth": references, # 标准答案 }) report = evaluate(data, metrics=[context_recall, context_precision, faithfulness, answer_relevancy]) print(report) # 低于阈值(0.8/0.7/0.75/0.8)就按“四象限”定位修哪一环

⑦ 完整可运行版本(已实测)

上面六步整理成了一个可离线跑通的脚本rag.py(见随附rag-demo/),无需任何 API Key——用确定性本地向量 + 词重叠重排做占位,真实落地时只替换embed()/rerank()/llm_chat()三个函数。已在PostgreSQL 16 + pgvector实测通过,含权限过滤的正确性验证(staff 查“confidential salary”取不到机密文档,admin 可以)。

三步跑起来:

# 1) 起一个带 pgvector 的 Postgres docker run -d --name ragpg -e POSTGRES_PASSWORD=pw -p 5433:5432 pgvector/pgvector:pg16 # 2) 装依赖 pip install "psycopg[binary]" pgvector langchain-text-splitters # 3) 跑(建库 → 入库 → 混合检索 → 重排 → 拼 prompt) python rag.py

实测输出(节选)——同一句“confidential salary”,权限不同结果不同,证明 ACL 真的生效:

>>> [staff] 问: confidential salary 命中候选: ['VPN 指南', 'SSL 排错'] # 机密薪酬被挡在检索外 >>> [admin] 问: confidential salary 命中候选: ['机密薪酬', 'VPN 指南', 'SSL 排错'] # admin 可见

⑧ 接真实服务(OpenAI 兼容 + 开源 cross-encoder)

把上面三个占位函数换成真实服务,就这一个文件providers.py(已实测):

import os from openai import OpenAI from sentence_transformers import CrossEncoder _client = OpenAI(base_url=os.getenv("OPENAI_BASE_URL"), # OpenAI / vLLM / Ollama / 兼容网关 api_key=os.getenv("OPENAI_API_KEY")) _reranker = CrossEncoder(os.getenv("RERANKER_MODEL", "cross-encoder/ms-marco-MiniLM-L-6-v2")) # 开源,本地跑,约 80MB defembed(texts):# 批量向量化 resp = _client.embeddings.create(model=os.getenv("EMBED_MODEL"), input=texts) return [d.embedding for d in resp.data] defrerank(question, candidates, top_n=8):# 开源 cross-encoder 重排 pairs = [(question, c["content"]) for c in candidates] scores = _reranker.predict(pairs) ranked = sorted(zip(scores, candidates), key=lambda x: float(x[0]), reverse=True) return [c for _, c in ranked[:top_n]] defllm_chat(system, user):# OpenAI 兼容 chat resp = _client.chat.completions.create( model=os.getenv("CHAT_MODEL"), temperature=0, messages=[{"role": "system", "content": system}, {"role": "user", "content": user}]) return resp.choices[0].message.content

切换方式(rag.py检测到RAG_REAL=1自动用上面的真实实现):

pip install openai sentence-transformers export RAG_REAL=1 EMBED_DIM=1536 OPENAI_BASE_URL=".../v1" OPENAI_API_KEY="sk-..." export EMBED_MODEL="text-embedding-3-small" CHAT_MODEL="gpt-4o-mini" python rag.py

实测记录:embed()/llm_chat()的 OpenAI 兼容调用结构已对本地“假兼容服务器”跑通;rerank()用真实cross-encoder/ms-marco-MiniLM-L-6-v2验证能把最相关项重排到第 1(相关项 +9.1、无关项 −11)。EMBED_DIM要和 embedding 模型维度对齐(如 text-embedding-3-small=1536、bge-large=1024)。

把这六步串起来,就是一个带权限、可评测、可溯源的最小可用 RAG。先让它跑通,再按下面的路线逐步加固。


落地路线:一步步把 RAG 做对

1. 先建黄金问答集(几十条),定义“准”的标准 2. 跑通最小管线:递归分块 + 向量检索 + 基础提示(先有基线) 3. 加混合检索(向量 + BM25)→ 召回率明显上一个台阶 4. 加重排(候选 20–50 → 留 5–10)→ 精确率和忠实度跟着涨 5. 按 RAGAS 四指标做回归,定位瓶颈逐项修 6. 接权限过滤、脱敏、引用审计(上生产前必做) 7. 做缓存、按规模选库、控制上下文长度——优化成本

不要跳步。没有评测集,就别谈优化没有权限过滤,就别上生产


一页纸总结

个人:RAG = 让模型先查你的资料再答。知识会变/要引用就用 RAG,改风格用微调,少量文档用长上下文。别人的知识库答得准,靠的是检索做得好,不是模型更贵。

企业:

RAG 不准 → 先查检索侧(分块/检索/重排),别急着换模型 做准 → 混合检索保召回 + 重排保精度 + 四指标做回归 做对 → 权限在检索阶段过滤、脱敏、引用审计 做省 → 缓存 + 按规模选库 + 控制上下文长度

一句话口诀:

检索决定上限,重排决定体验,评测决定能不能持续优化,权限决定能不能上生产。

最后

如果说程序员已经是高薪职业,那么干AI的程序员,就是高薪中的高薪。

现在的市场,已经用数据给程序员指明了方向:学AI大模型,就是冲刺高薪的最优解!

看着身边越来越多的同行转型大模型、拿到高薪offer,很多人心里都动了心,但真正的难题来了:零基础小白不知道从哪入门?有基础的程序员找不到系统学习路径?实战项目练手无门?面试不知道考什么?

别慌!今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包,覆盖从入门到实战、从理论到面试、从基础到进阶的全流程,所有资料均已整理归档,无冗余、无套路,免费分享给每一位想抓住AI风口的程序员和小白!

👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

2、大模型学习书籍&文档

3、AI大模型最新行业报告

4、大模型项目实战&配套源码

5、大模型大厂面试真题

四阶段精细化学习规划(附时间节点,可直接照做)

结合上述资源,给大家整理了一份可直接落地的四阶段学习规划,总时长约2个月,小白可循序渐进,程序员可根据自身基础调整节奏,高效掌握大模型核心能力,快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

👇👇扫码免费领取全部内容👇👇

6、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询