想象你在一个电商网站上问 AI:「列出所有同时支持无线充电和 eSIM 的三星手机。」传统的 RAG 系统会把问题变成向量,然后找语义最相近的文档块。但它会返回什么?一堆包含「无线充电体验超棒」的营销文案,然后漏掉了规格表里确切的型号列表。
这不是 RAG 不够好,是语义检索本身就有盲区。当你需要的是「精确过滤」和「穷举列表」,靠「语义相似度」再准也没用。
Samsung AI 的一篇新论文提出了 DualGraph,用两张图解决了一个问题:同一份文档集,应该同时有模糊检索和精确查询两种入口。
致命盲区:当「像」不如「是」
标准 RAG 的工作方式很简单:把问题和文档都变成向量,找余弦相似度最高的十来段,塞给 LLM 出答案。
这个方法对开放式问题极其有效——「这款手机怎么样?」「有哪些适合老年人的手机?」——都能找到相关内容。但一旦问题变成:
- 「列出所有支持 HDMI 2.1 且刷新率超过 120Hz 的电视」
- 「有哪些手机同时支持 5G 和 eSIM,并且价格低于 400 英镑?」
- 「比较 Galaxy S 系列和 A 系列的电池容量」
语义检索就露馅了。
原因很简单:语义相似度只知道「像不像」,不知道「是不是」。它能找到包含「5G」「eSIM」「价格」这些词的文档块,但它不知道:
- 哪些产品真的同时满足这些条件(需要逻辑与运算)
- 是不是所有满足条件的产品都列出来了(需要穷举,而不是 Top-K)
- 价格 399 是不是小于400(需要数值比较)
这些操作都是符号系统的强项——SPARQL、SQL、规则引擎——但它们的问题是:扛不住自然语言的噪声和歧义。「支持 5G」在规格表里可能写成「5G Sub6」「5G mmWave」「NR CA」等完全不同的表达。
DualGraph 的核心思路
DualGraph 的做法很直接:同一份文档集,构建两张互补的图,按需调用。
TKG(文本知识图谱):给模糊问题兜底
TKG 是一个无向实体图。每个节点是一个实体(产品、功能、类别),附带一段从所有相关文档块聚合生成的文本描述。检索的时候,先找与问题最相似的实体,再用实体投票选出最相关的文档块。
这张图保留了自然语言的上下文和歧义,适合处理开放式问题。你不确定用户用「无线充电」还是「Qi charging」还是「感应式充电」,TKG 的语义匹配都能兜住。
SKG(符号知识图谱):给精确查询兜底
SKG 是一个有向三元组图:产品 → 价格 → 399,产品 → 支持 → 5G,产品 → 屏幕类型 → AMOLED。每个三元组都是类型化的 subject-predicate-object,支持 SPARQL 精确查询。
关键不在于「又建了一个知识图谱」,而在于建图的细节:
- 从半结构化数据自动提取:不是手工标注,而是从产品页面的规格表自动解析 triples
- 数值归一化:原始文本里的「6.7 英寸」「6.7-inch」「6.7"」被统一成可比较的数值格式
- 规则推理:Datalog 规则自动推导高阶特征——如果产品支持 5G 的几个子标准,就推断「支持 5G」
- 图模式检索辅助 SPARQL 生成:不是让 LLM 盲写 SPARQL,而是先检索最相关的图模式片段做 grounded 生成
7 种编排策略:怎么组合最有讲究
DualGraph 不止有双图,还提供了 7 种组合策略:
| 策略 | 做法 | 适用场景 |
|---|---|---|
| TKG only | 只用语义检索 | 开放式推荐 |
| SKG only | 只用符号查询 | 纯规格过滤 |
| TKG+SKG concat | 两种结果拼接 | 需要全面信息的复杂问题 |
| SKG+TKG fallback | 先符号,失败则语义 | 规格为主 + 兜底 |
| Router | LLM 判断走哪条 | 问题类型分布均衡 |
| Router+TKG fallback | 路由 + 语义兜底 | 通用场景最优 |
| Agentic | LLM agent 迭代调整 | 极复杂的多步推理 |
实验证明,SKG+TKG fallback 在精确查询(列表匹配)上最强,Router+TKG fallback 在通用场景(事实正确性)上最强。
SpecsQA:让 RAG 系统在真实电商场景下裸考
论文还贡献了一个新基准 SpecsQA:从 2025 年 11 月的三星英国官网抓了 2162 个产品页面,涵盖 26 个产品类别。手工编写了 117 个问题,分为四类:
- 反向查询:哪些产品满足某属性?(如「列出所有支持 eSIM 的手机」)
- 多条件组合:同时满足多个约束?(如「5G + AMOLED + 电池 > 4000mAh」)
- 群组对比:跨产品线比较?(如「Galaxy S 和 A 系列的屏幕尺寸对比」)
- 推理类:更开放的推荐和偏好场景
因为用的是历史快照,答案不回随时间变化,避免了 LLM 靠预训练记忆「作弊」。同时提供了自然语言答案和符号列表两种标注,方便不同维度评估。
实验结果
在所有指标上,DualGraph 都超越了现有最好方法:
- 事实正确性(Factual Correctness):Router+TKG fallback 最高。RAPTOR 是最强的纯语义基线,但在精确过滤类问题上明显吃亏。
- 列表匹配(List Match):SKG+TKG fallback 最高。Wikontic 是最强的纯符号基线,但索引和查询成本高得多,且开放问题上不如 DualGraph。
- 成本效率:DualGraph 的索引成本与 HippoRAG2 / AriGraph 相当,远低于微软 GraphRAG 和 Wikontic。
消融实验揭示了一个关键发现:SKG 的 SPARQL 查询质量高度依赖Spec 图模式——去掉它后,SPARQL 生成成功率大幅下降,事实正确性和列表匹配都受到严重影响。而 Category 模式反而是多余的,去掉后性能还有小幅提升。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~