假设我们要建设一个科技史知识服务系统,围绕詹姆斯·瓦特(James Watt)回答一组连续问题:
• 詹姆斯·瓦特是谁?
• James Watt 与蒸汽机(steam engine)是什么关系?
• 他属于哪一类人物?
• 他与格拉斯哥大学(University of Glasgow)有什么关系?
• 他所处的时代背景是什么?
如果系统只能做关键词匹配,它可以返回一批网页、文献或词条;但若要围绕同一对象持续回答问题,就必须把人物、技术、机构、时代背景及其联系组织起来。
知识图谱(Knowledge Graph)正是为此服务的一种结构化知识表示方式。它的重点不在“把知识画成图”,而在“把知识组织成可连接、可查询、可扩展的结构”。
在人工智能(Artificial Intelligence,AI)中,知识图谱的重要意义在于:它为机器提供了较清楚的对象、关系与语义结构,使系统不仅能处理数据,还能在一定程度上理解对象之间的联系,并支持检索、问答、推荐、推理等任务。
一、从返回资料到直接回答:知识图谱的提出背景
传统的信息检索(Information Retrieval)擅长帮助用户找到资料来源,但“找到资料”并不等于“得到答案”。
例如,当用户询问“James Watt 与 steam engine 是什么关系”时,系统若只返回若干链接,用户仍需自行阅读、筛选和判断。
而知识服务希望系统能够围绕对象直接组织答案。要做到这一点,系统就不能只识别词语,还要识别对象、关系和上下文。
例如,它需要知道 James Watt 是人物实体,steam engine 是技术对象,University of Glasgow 是机构实体,Industrial Revolution 是历史背景实体,并进一步表示这些对象之间的联系。
因此,知识图谱的提出,实际上对应着系统能力的一次转变:从“返回信息来源”走向“组织知识并回答问题”。
只有先把知识组织起来,系统才能支持连续提问、关联查询和一定程度的推理。对人工智能而言,这种转变也很重要,因为它意味着系统不再只处理表面词语,而开始处理较稳定的对象结构与语义关系。
延伸阅读:
《知识图谱 01:从信息检索到知识表示》
二、从对象集合到结构表达:实体、关系、属性与三元组
知识图谱的基本要素通常有三类:实体(entity)、关系(relation)和属性(attribute)。
在 James Watt 的任务中:
• 实体:James Watt、steam engine、University of Glasgow、Industrial Revolution
• 关系:improved、connected with、associated with
• 属性:birth year、occupation、period 等
知识图谱中最常见的基本表达单位是三元组(triple),即“主体—谓词—客体”。例如:
James Watt — improved — steam engineJames Watt — connected with — University of GlasgowJames Watt — associated with — Industrial Revolution属性也常可写成类似结构:
James Watt — birth year — 1736James Watt — occupation — engineer这说明,知识图谱并不是简单保存句子,而是把句子中的知识拆解成可存储、可连接、可查询的结构单元。对人工智能系统来说,这种结构化表达很重要,因为它使对象识别、关系检索、知识问答和规则推理都有了更清楚的基础。
通过这种方式,系统处理的就不再是松散文本,而是结构化知识。
延伸阅读:
《实体、关系、属性:知识图谱三大基本要素详解》
三、从事实记录到分类组织:概念、类别、实例与层级
只有实体、关系和属性还不够。若系统要回答“James Watt 属于哪一类人物”“steam engine 属于哪一类技术对象”,就必须进一步建立分类基础,包括概念(concept)、类别(class/category)、实例(instance)和层级结构(hierarchy)。
例如:
person、engineer、inventor 是类别institution、university 是类别machine、historical period 是类别James Watt、University of Glasgow、steam engine 是实例这里最重要的是区分类别与实例。
“engineer”是类别,“James Watt”是实例;“university”是类别,“University of Glasgow”是实例。若把二者混在一起,图谱中的层级就会混乱,后续查询与推理也会不稳定。
同时,类别之间还常存在上下位关系。
例如,engineer 和 inventor 可以看作 person 的下位类别,university 可以看作 institution 的下位类别。这样一来,系统不仅能记录事实,还能把事实放进一个更稳定的概念体系中。
对于人工智能而言,分类体系的意义在于,它帮助机器从“知道一个对象”进一步走向“知道这个对象属于哪一类、与哪些更一般的概念有关”。
有了这种“类—实例—层级”结构,系统就可以进一步推出:如果 James Watt 属于 engineer,而 engineer 属于 person,那么 James Watt 也属于 person。
延伸阅读:
《知识图谱 02:概念、类别、实例与层级结构》
四、从自然语言到机器可处理:知识表示的基本思路
知识图谱之所以重要,不只是因为它能“存知识”,更因为它把知识写成了机器可处理的形式。这就涉及知识表示(Knowledge Representation)的问题。
知识表示本来就是人工智能中的基础问题之一,因为人工智能不仅要处理数据,还要回答“知识怎样写出来,机器才能利用”。
如果系统只保存原始文本,例如 “James Watt improved the steam engine”,它并不容易稳定地区分谁是对象、谁是关系、谁属于什么类别,更不容易进一步推出新结论。因此,知识必须从自然语言转化为结构化表示。
在知识工程中,几类典型表示思路尤其重要:
• 逻辑表示:强调形式化和严格表达。
• 规则表示:强调“如果……那么……”的条件推导。
• 语义网络表示:强调对象之间如何连接。
• 框架表示:强调围绕某个对象组织其属性。
知识图谱正是在这些思路基础上形成的综合性知识组织方式。它既吸收了语义网络对“关系连接”的重视,也吸收了框架表示对“对象结构”的重视,还能够与逻辑和规则推理结合。因此,从人工智能发展史来看,知识图谱并不是孤立出现的新概念,而是知识表示在现代条件下的一种重要延续。
延伸阅读:
《知识图谱 03:知识表示方法》
五、从知识表示到形式模型:RDF、RDFS、OWL 与属性图
当知识图谱进一步走向形式化表达时,还要回答:这些知识具体用什么模型表示。常见模型各有侧重。
RDF(Resource Description Framework,资源描述框架)负责事实表达。它用三元组统一表示知识事实,是最基础的表示层。
RDFS(RDF Schema,RDF 架构描述语言)负责模式结构。在 RDF 基础上进一步表示类、属性、子类、定义域和值域。
OWL(Web Ontology Language,网络本体语言)负责更强的语义约束与推理能力。
属性图(Property Graph)强调“节点—边—属性”的灵活建模,更便于表示图结构中的遍历与关联分析。
此外,还可以有向量表示(Embedding),把实体和关系转化为向量,用于相似性计算、链接预测与知识补全。
这些模型并非彼此排斥,而是对应不同层面的问题。对人工智能来说,RDF、RDFS、OWL 等更偏显式符号表示,而向量表示更偏统计学习与计算表示。二者结合,正体现了现代人工智能中“符号方法”与“学习方法”的互补关系。
从教学角度看,只需先把握它们的大致分工:RDF 写事实,RDFS 管结构,OWL 强化语义,属性图表示图结构,向量表示服务于学习与预测。
延伸阅读:
《知识图谱 04:知识表示模型》
六、从原始数据到知识系统:知识图谱的构建框架与实现路径
知道了知识图谱的要素与模型,还要进一步回答:它是怎样建成的。
从整体流程看,知识图谱构建通常包括四个阶段:
• 信息抽取:从结构化、半结构化、非结构化数据中识别实体、关系和属性。
• 知识融合:解决多源描述之间的重复、冲突和歧义。
• 知识加工:进行本体构建、质量评估和知识推理。
• 维护更新:随着新数据进入和旧知识修订而持续演化。
在实现路径上,又可分为三种思路。
• 自顶向下:先设计本体和模式,再填充事实。
• 自底向上:先从数据中抽取事实,再逐步整理结构。
• 混合构建:先有基本骨架,再持续补充内容并同步调整结构。
对于 James Watt 的科技史知识服务系统,更接近真实做法的往往是混合构建:先设计“人物—技术—机构—时代”这一基本框架,再从百科、文献、课程资料等来源持续抽取和补充事实。
对人工智能而言,这说明知识图谱并不是若干静态三元组的堆积,而是支撑智能问答、知识服务与语义推理的持续知识工程过程。
延伸阅读:
《知识图谱 05:从构建框架到实现路径》
七、从知识组织到系统应用:知识图谱与专家系统的结合
知识图谱并不排斥规则推理。相反,在很多知识系统中,知识图谱负责组织知识,规则系统负责在此基础上推出新结论,这时才真正体现出它在人工智能应用中的系统价值。
仍以科技史知识服务系统为例。图谱可以组织如下知识:
James Watt 属于 engineerengineer 属于 personJames Watt 改进了 steam engineJames Watt 与 University of Glasgow 有关联在此基础上,还可以加入规则,例如:
如果某对象属于 engineer,而 engineer 属于 person,那么该对象也属于 person。
如果某人改进了重要机器,那么他可以视为 inventor 的候选。
于是,系统既能回答“James Watt 与什么有关”,又能解释“为什么可进一步推出某种判断”。
这正是人工智能中“知识组织 + 规则推理”的典型结合方式:图谱负责组织对象、类别和关系,规则负责进行条件匹配与结论推出,最终共同服务于问答、检索、辅助分析与智能应用。
这一关系也可以通过“动物识别”案例更直观地理解:规则系统可依据“有毛发”“有羽毛”等条件逐步判断类别,而知识图谱则把动物、特征、类别及其关系统一组织起来。由此可见,知识图谱在工程应用中并不是孤立工作的,而是常与规则系统、数据库、检索系统和学习模型结合,形成更完整的人工智能系统。
延伸阅读:
《知识图谱 06:从专家系统到知识图谱(以动物识别为例)》
📘 小结
知识图谱是人工智能中的重要知识表示方式。它把实体、关系、属性和类别层级组织为可查询、可扩展、可推理的知识结构,使系统从返回资料进一步走向组织知识与智能服务。
“点赞有美意,赞赏是鼓励”