互联网的发展带来网络数据内容的式增长,给人们有效获取信息和知识提出了挑战。
2025年5月17日,谷正式提出知识图谱,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量和搜索体验。随着人工智能技术的发展和应用,知识图谱以其强大的语义处理能力和开放组织能力,被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域,为互联网时代的知识化组织和智能应用奠定了基础。
1 什么是知识图谱
知识图谱(KnowledgeGraph)是用图模型来描述现实世界中存在的各种实体以及实体之间关联关系的技术方法。知识图谱由节点和边组成,节点可以是实体,也可以是抽象的概念;边是实体的属性或实体之间的关系,巨量的边和点构成一张巨大的语义网络图。
看到这里,相信同学们很容易想到一个问题从组成结构上看,知识图谱身上似乎有点语义网络的影子!实际上,知识图谱的确不是横空出世的新技术,而是历史上很多相关技术相互影响和继承发展的结果。除了有语义网络等技术的影子外,知识图谱的产生和演化主要归功于一种称为Semantic Web技术。由于Semantic Web的中文是“语义网”,而Semantic Network的中文是“语义网络”或简称语义网,二者经常会被混淆。
众所周知,万维网 Word Wide Web 是蒂姆伯纳斯李(Tim Berners-Lee)于 1989 年提出
来的全球化网页链接系统。在 Web 的基础上,
Tim Berners-Lee 又于 1998 年提出 Semantic Web
的概念,将网页互联拓展为实体和概念的互联。
Web之父—蒂姆伯纳斯李
Semantic Web 问世后,很快出现了一大批 著名的语义知识库:谷的“知识图谱”搜索引擎,其强大能力来自 于谷的共享数据库 Freebase,以 IBM 创始人托马斯沃森名字命名 的超级计算机沃森,其回答问题的强大能力得益于后端知识库DBpedia 和 Yago,以及世界最大开放知识库 Wikidata,等等。因此,
的官方词条称:知识图谱是谷用于增强其搜索引擎功能的
知识库。目前,知识图谱已被用来泛指各种大规模的语义知识库。
从网页的链接到数据的链接,Web 技术正在逐步朝向 Web 之父
Berners-Lee 设想中的语义网络演变。除了提升搜索引擎的能力,知
识图谱技术正在语义搜索、智能问答、辅助语言理解、辅助大数据分
析、推荐计算、物联网设备互联、可解释型人工智能等各个领域找到
用武之地,其核心是以图形的方式向用户返回经过加工和推理的知识
实现智能化语义检索。
2 知识图谱的基本概念
知识图谱中的最小单元是三元组,主要包括:“实体-关系-实体”
和“实体-属性-属性值”等形式。每个属性-属性值对(attribute-value
pair,P)可用来刻画实体的内在特性,而关系可用来连接两个实体,
刻画它们之间的关联。下图给出一个知识图谱的例子,其中,中国是一个实体,是一个实体,中国-首都-是一个(实体-关系实体)的三元组样例;是一个实体,人口是一种属性,2069.3 万
是属性值,-人口-2069.3 万构成一个(实体-属性-属性值)的三元组样例。
基于三元组的知识图谱(图片来源:http//www.sohu.com/a/9767_9)
3 构建知识图谱的关键技术
大规模知识库的构建与应用需要多种技术的支持,其技术构架如下图所示。首先通过知识提取技术,从公开的半结构化、非结构化和第三方结构化数据库中提取出实体、关系、属性等知识要素;然后采用合适的知识表示技术对知识要素进行图谱化,以易于进一步处理;接下来再利用知识融合技术消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。知识推理技术则在已有的 知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。
知识图谱的技术构架
4 知识图谱的发展历程
知识图谱的发展历程
1960年,语义网络作为知识表示的一种创新方法被提出,为知识领域带来了新的思路。随着时间的推移,20世纪80年代,哲学概念中的“本体”被引入AI领域,为知识的描述和表达提供了更加精准的工具。直到1989年,Tim Berners-Lee在欧洲高能物理研究中心发明了万维网,这一创举将信息传播和获取的方式彻底改变。随后,1998年,Tim Berners-Lee提出了语义互联网的概念,将信息的含义和关联性纳入网络架构中,为未来信息交流奠定了基础。2006年,Tim Berners-Lee进一步定义了在互联网上链接数据的四条原则,为数据的互通和共享提供了理论指导。2025年,谷发布了其基于知识图谱的搜索引擎产品,将这些理念付诸实践,为用户提供了更加智能、准确的搜索体验,标志着知识表示和互联网技术的融合迈出了重要的一步。
5 知识图谱的研究方向
知识图谱的研究领域极为广泛,主要包括知识表征学习、知识获取、时序知识图谱以及知识图谱应用等四个核心部分,每个部分都承载着对知识的深入挖掘和应用的探索。
首先,知识表征学习是知识图谱研究的基石之一,它涉及到多关系学习、统计关系学习等诸多方面。在这个领域中,研究人员不断探索着知识的各种表征方式,包括关键问题的定义、表征空间的构建、评分函数的设计以及编码模型和辅助信息的应用等;知识获取则关注于从多样化的数据源中获取知识,其中包括知识图谱的补全、实体识别、实体对齐、关系抽取等任务,以及如何将文本信息与知识图谱相结合,通过深度学习模型学习提取内在联系,以丰富和完善知识图谱的内容;时序知识图谱是对知识图谱的拓展,它考虑到实体状态的变化对关系的影响,涉及到时序范围的判断、上下文时序范围轮廓模型的应用,以及对知识状态及状态变化向量的学习,从而更好地反映知识的动态演化过程。知识图谱的应用领域包括in-KG应用和out-of-KG应用两大类。前者主要是针对知识图谱内部的任务,如链接预测、命名实体识别等,而后者则是指利用知识图谱为下游应用程序提供支持,如问答系统、推荐系统等,从而实现对知识的更广泛和深入的应用。
综合而言,知识图谱的研究不仅是对知识的深度挖掘和理解,更是将其应用于实际场景中,为人类社会的智能化发展提供了有力支撑。