logo
企业版

行业科普NUC2022

肖仰华教授:知识图谱与图计算研究分享|NUC 2022

本文整理自 复旦大学-计算机科学技术学院-肖仰华教授在 NebulaGraph 2022 年度用户大会上的分享,现场视频可见 B站

肖仰华 x NebulaGraph:知识图谱与图计算研究分享

认知智能的起源与发展

认知智能的发展路径

图计算有很多应用场景,知识图谱是近几年或者是未来一段时间里,图计算非常重要的应用场景之一。

为什么有这个判断?因为整个人类社会已经进入了所谓的智能时代,而当下我们尤为迫切的需要是发展机器的认知能力,从而不但代替我们的体力劳动,更多的要代替我们简单的脑力劳动,让更多的知识工作由机器来协助我们完成,当然了,最终的决策权还是要由我们人类来完成。所以让机器具备人类的,尤其是行业的认知能力,让机器能够理解我们行业的数据,具备一定的推理能力、解释能力、规划决策能力,以这样一种形态为代表的认知智能已经在各行各业发生,可以说每一个行业的智能化发展都对机器具备认知智能提出了要求

从大的趋势来看,如果说过去10多年,机器是具备了人的感知和运动能力,那么下一步大家看到了一个很鲜明的趋势是让机器具备人类的心理能力。认知是我们的心灵里面最重要的一种能力,所以基本上可以做出这么一个判断——未来,认知智能将是进一步释放整个人工智能产业发展的红利和价值的一个非常重要的出口,可以说,认知智能对推动各行业的智能化发展具备一个非常重要的作用。

认知智能的实现需要AI三大流派的形成合力

实现认知智能需要人工智能很多的思想技术,比如说深度学习,比如说联结主义,它本质上通过训练深度学习这种神经网络来解决问题,本质上是让机器具备了我们大脑的这样一种快思考的能力。比如说问大家:3x4 等于多少?我想所有人不假思索地会给我答案 12,你为什么能够做到这一点?那是因为你小时候很多次背诵乘法运算表,背诵的过程就是在强化“3×4” 这个输入和 “12” 这个输出之间的关联,这个就和我们现在训练神经网络的过程本质是一致的。

所以联结主义,是一定程度上在实现人类的这种快思考的能力,而知识图谱是要在实现什么?实际上很大程度上是在实现我们人类的慢思考

慢思考一个典型的问题就是,如果问大家:345×1234 等于多少?这个时候估计很少有人立马给我答案了,但是如果你有笔有纸,你就会把你小时候学的乘法运算的过程规则书写下来,把整个计算过程书写下来本质上在做这些数字符号的加工和运算,那么以这种符号去表达知识然后用这种架构运算,本质上表达了一种推理过程,符号表示再加上推理这样一种解决问题的方式,实际上就是符号主义解决问题的一个基本的思路。

而刚才这种解题的过程中,我们可能要花多长时间?可能要花个一分钟;而刚才 3×4 花了多少,可能几毫秒?所以这个是完全不同量级的,这是一种典型的慢系统,它是以符号推理为主要形态的一种解决问题的方式,也是知识图谱解决问题的非常重要的一种方式

那么未来我们可能还需要借助进化和行为主义,他们的基本观点认为,人的智能是靠从环境中获得反馈,不断演化得来的。那么机器智能是不是也要去放在某个环境中去演化呢?这对于实现机器的这种社会认知、物理环境的交互是尤为重要。事实上,整个认知智能发现要把这三大流派形成合力才能够形成,知识图谱基本上也属于用符号主义解决问题的一种方式

符号主义是知识图谱解决问题的重要方式

符号主义要去解决问题的重要前提是我们如何去表达,如何去承载符号知识?那么这就用到了知识图谱。本质上它是一种语义网络,它可以认为是现在大数据时代,知识最重要的一种表示方式,它把很多实体、概念关联在一起,我们甚至可以沿着这种关联关系逐步地探索下去,所以知识图谱就是一种人类知识非常重要的载体。

事实上,我们现在已经在建各行各业的知识图谱,其实就是希望用它去表达、沉淀行业的知识。可以说,知识图谱已经成为大数据时代最为重要的知识表示方式

知识图谱是一种大数据知识工程

那么知识图谱实际上是什么?从学科上来讲,它本质上是整个大数据知识工程的一个核心技术,它实际上是从互联网应用诞生的,是从搜索引擎诞生的。大家知道最早知识图谱这个词,就是谷歌在 2012 年发布了自己的知识图谱,当时是为了应对互联网的一些大规模开放应用,比如说我搜一个词,这个词我不理解它,那么有了知识图谱,我就能理解你搜的是什么。

比如说,我要搜这个洲际酒店,然后上海,实际上意图很明显,我要搜一个在上海附近的洲际酒店,那么你就要知道上海是一个地方,洲际是个酒店品牌,没有这种背景知识就不知道用户的搜索意图,我们就需要有大量的背景知识支撑,才能够让用户理解这种搜索——所以当初搜索引擎为什么提出知识图谱,很大程度上就是为了让机器理解搜索

那么我们说互联网的发展,就带来很多大数据是吧?大数据的诞生使得知识图谱的发展也具备了相应的条件,一方面有前所未有的大数据,可以发展很多数据驱动的知识获取的方法,另外一方面现在有很多机器学习的模型,这些机器学习的模型可以使我们从海量文本里面去抽取这些知识。另外一方面我们还有很多前所未有的算力,所以在算力和数据的支撑下,知识图谱的发展插上了翅膀

知识图谱是认知智能的基石

可以说,知识图谱在今天已经成为各行业认知智能的基石。每个行业要想发展自己的认知智能,总要把自己的知识表达出来,沉淀下来,所以说,知识图谱已经成为每个行业去实现语言认知(的基础)。

比如说很多机器不能理解的基本的背景知识,很多行业像金融、医疗、司法都需要一些可解释的东西,图谱里面的很多实体概念都是我们解释的来源,所以知识图谱对各行业形成解释的能力也很重要,它对于提升当下广泛应用的机器学习的一些性能,突破它的瓶颈也是非常有意义的。我们看到知识图谱在搜索、推荐、问答、解释、决策等等应用场景下有诸多的应用。

图视角下的知识图谱

那么知识图谱跟图数据有什么关系?实际上知识图谱天然就是一张图,它本质是一个语义网络,而语义网络是一种用图的形式来表达的一种知识表示。他用点表达实体和概念,用边表示这种语义关系,这就是知识初步的表示。

所以知识图谱从本质上来讲,是一种基于图的表示,如果把很多实体概念都展开来,它就变成一张带有很多语义关系的巨大的语义网络。

知识图谱视角下图的多种表示形式

那么从图的视角来看知识图谱你会发现这个知识图谱实际上有图的形态是很复杂的,很多样的。它可以是有向图,也可以是无向图;它可以是属性图,就是说这里的点边上带属性,比如说柏拉图出生在雅典,可以把出生地属性再附上出生时间是一个属性图;它还可以是树状图,比如说我们很多概念层级体系,很多行业有商品类目什么的,本质上是一个概念层级体系,是一个树状图,有的时候实际上如果你这个层级体系里面这个是用词来表达的,它实际上还有可能构成一个有向无环图,还有一些是用概率来表示某个关系成立的可能性,比如说汉堡是不是健康食物?可能有的人认为是有的认为不是,所以用概率来表达它是健康食物的程度,那是很合适的。我们还可以用叫异构信息网络来表达图,所以知识图谱的视角下,图的表示是非常多元的。

图系统管理知识图谱对必要性

正因为图的表达很丰富很多样,就对于如何系统化地管理知识图谱提出了要求。

我们需要在刚才说的各种各样的知识图谱上去查询和检索,这里就有很多事,第一如何表达查询?你需要一些查询语言,需要一些图数据库的查询语言来表达你的意图。然后查询意图也可以很复杂,可以是查子结构,可以是带关键字的查询,可以查一个路径,还可以查模糊匹配的增长表达式的匹配等等,所以查询的意图表示如果没有一个图系统性的支撑的话,我们每个人自己去写那是很痛苦的,一定要有一个规范化的查询语言。

然后执行的时候又有很多问题,这个数据这到底之前应该去匹配哪个答案?怎么去检索怎么去 raking 呢?谁的匹配最可信呢?还有存储、还有索引等等问题。

知识图谱应用面临的挑战

知识图谱对图数据管理提出了非常高的要求

所以,知识图谱对图数据管理提出了非常高的一个要求,不单单是有这个必要性,同时你会发现知识图谱其实对图数据管理也提出了很多挑战。首先知识图谱作为一个图数据,它的数据结构很复杂,上面很多数据的操作和访问,它实际上沿着边在做一些随机的访问,那么这种随机访问实际上是对我们传统数据库基于局部特性的一些缓存优化提出了非常大的挑战。

而且图上的很多计算,像深度优先遍历,实际上下一步走哪一个是依赖于前面走的,所以它实际上是对前序的过程有依赖关系,这种有很强的依赖关系的算子它是很难并行化的。现在加速很多都是靠并行,但是图上的很多计算很难并行,所以图数据底层实际上是很复杂的,那么这种复杂性一定要向用户交割清楚,用户不应该去面对这种复杂性,专业的事情还得给专业的人来做。

图计算的计算类型也很复杂。图计算可以是离线的分析型计算,也可以是在线去做查询,比如说查一条路径或者查这两个实体,尤其在欺诈的应用中有没有一些潜在的关系?这都对实时性要求很高,他对吞吐量有时候要求也很高,所以它的计算也是很复杂。

那么知识图谱本身很多样,知识图谱结构也很复杂,某些知识图谱它很密集,某些又可能很稀疏,还有一些知识图谱会呈现一定的状态,比如说像工业在很多场景下,他就要求用工业类的知识要求来表达,所以它实际上更像是一个偏序列的一张图。

那么还有一个很大的挑战,就很多领域的图谱规模巨大。最近有报告说有人已经在百万亿规模的图布上去做这种疫情防控——划一个风险区域,哪个时间点到哪个省、一周之内去过这个地方的所有人跟这个地点发生关系了?它就是有风险的,那么这张图谱可以是非常巨大的。

知识图谱的复杂性和更新需求对图系统提出的独特挑战

那么知识图谱本身还对服务系统提出一些很独特的挑战。

比如说图谱有时候为了追求规模,它的模式定义并不精确,这就要求我们的图数据管理具有一定的容错能力。属性值往往是很多的,定长的管理一般来讲在数据库管理是容易的,变长管理大家很害怕。还有比如说如何定义实体的类型?如果说实体只有一个概念,就是一个模板,这个我们只要套用一套的模式来去管理它;但是很多时候一个实体往往有多个角色,比如说乔布斯,他可以是 CEO,他还可以有其他角色比如亿万富翁,不同的角色的模板不一样,所以处理也很困难。

还有很重要一点,就是更新。数据要更新,知识库里面的知识要更新,我们的模式有的时候也要更新,比如说美国总统换届了,那么美国总统这个知识你就要换。还有的模式它也要更新,我们的认知某个场景它会发生变化,比如说电动车的归属,一开始可能没有电动车这种新的车品,比如现在有独轮车,独轮电动车到底应该归到哪一个类?像这种新型的东西,它的模式也会影响更新。

还有就是逻辑推理,我们本意是希望知识图谱能够做很多很复杂的推理,那么这个推理往往要沿着路径跳很多地方,这个时候如果6步跳出去会怎么样?可能就要触及全图,那么这个代价是非常大,所以这种推理如何做得高效也很非常困难。

知识图谱应用正从消费互联网向垂直应用场景转变

知识图谱发展到今天,应该不是一个新鲜的事物了。实际上整个知识工程从上个世纪七八十年代就已经发展到了知识图谱时代的大数据知识工程时代,主要是互联网的应用推动的。

从谷歌提出知识图谱到今天,差不多有正好十年的时间,那么这十年基本上知识图谱已经解决了很多头部应用场景,尤其是在消费互联网的应用场景,知识图谱已经解决得很不错了,大家看到了百度、美团、淘宝等上面的搜索关联推荐,都是知识图谱在现在大规模应用场景的一些落地。

但是从差不多从17、18年开始,你会发现越来越多的诉求转向了垂直行业的应用,面向企业的场景现在越来越多:像医疗、司法、工业、金融等等,都是一种典型的我们称作叫小规模复杂应用场景。

为什么说小规模?你说它的数据量也不小,但跟搜索跟互联网比好像也比不了。然后它的应用其实又非常的复杂,比如像工业里面应用太复杂了对吧,医疗更不用说。然后它的知识应用得很深入,而且跟互联网不一样,你得了什么病?为什么得这个病?不是行业内的人员,你根本就不知道这个知识。所以它往往涉及大量的专家知识,尤其是聚焦某个场景、某个工种某个问题,它的数据量是非常稀少的,所以这个都构成了知识图谱应用的一个非常复杂的挑战。

深度学习发展迅速机器隐性知识兴起

其次从大的技术生态里看的话,你会发现现在大规模训练语言模型正在崛起。大家最近应该听到很多这种新闻,什么 GPT 能够代替人去写小说、多模态的大模型能去画画、给个文本就直接生成视频……这个都是大模型的崛起。实际上它本质是什么?它从海量的数据里面训练出来,因此学到了很多人类还没有意识到的隐性的知识。

如果说大模型现在已经有很多成功应用的话,基本说明一个问题,我们人类已知积累的这些知识,在知识图谱里面积累这些知识都是显性的符号知识,很重要对吧?但是在数据中可能还蕴含了大量的我们没法表达的,隐性的,很难言说的一些知识,就是大模型的威力。

所以未来,我们会想更重要的是把知识图谱这里面的这种符号知识,专家知识,显性知识和大模型中的隐性知识结合来解决行业的问题,所以技术生态的变化也对知识图谱的应用提出了挑战

知识图谱面临成本和效用之间的矛盾

另外一个是非常重要的挑战,就是成本和效用的矛盾。其实现在很多领域已经在建知识图谱,也在用知识图谱,但是发现周围落地还是面临一些挑战。

第一,很多场景它是为了突破而突破,应用场景并不明确。第二,其实图谱的应用很多是锦上添花的,并不是这种雪中送炭的应用。第三,就是图谱的很多技术它也不定型,比如说从文本中去抽知识,这个技术路线可以很多,可以基于规则,可以基于传统机器学习,现在基于深度学习可以用大模型做底座,也可以不用大模型做底座。它有很多种丰富技术路线,所以技术发展路线仍然在变化过程当中,但是图谱本身的建设是又耗了大量的数据成本、构建成本、运维成本,所以成本和效用的矛盾也是日益突出。

图计算如何帮助知识图谱应对挑战

知识图谱对图计算提出了哪些问题和挑战

正是因为有这些新的挑战,我们提出了一些问题,我们这个图计算怎么帮助我们知识图谱应对这些挑战?

首先,图计算如何支撑知识图谱尽快突破当前的一些瓶颈?主要从三个角度,第一个从知识表示,第二个从知识获取,第三个从知识管理的角度。

知识表示

知识表示:知识图谱的分布式数值表示

从知识表示的角度来讲,现在一个非常重要的趋势,就是把知识图谱分布式用数值来表示,现在拿到的是一个符号化的表示,但是要把它变成向量变成数值化的表示,因为只有变成数值化的表示,它才能进入深度模型,去协助深度模型更好地解决问题,所以知识图谱的分布式表示是非常重要的。

大规模知识图谱的分布式表示的高效管理技术

但是现在绝大部分图数据库管理系统针对知识图谱仍然还只是符号的,一旦把知识图谱变成一个分布式的离散向量,我们的图还能不能有效管理,这仍然是一个开放的问题。

比如说一级以上的知识图谱,它本身如何得到有效的分布式表述?其次你如何表示?是不是要降维?如何降维?比如说用50维有很大的存储代价,那30维行不行?20维行不行?到什么边界能接受?那么高维现象能不能压缩表达?如何去做有效的组织和索引?现在完全是个开放性问题。

知识表示:概念的分布式表(基于结构)

那么图谱里面其实除了实体知识之外,还有很多概念知识,这种概念知识的表达跟实体是不一样的,如何有效的向量表示?这个也仍然是一个开放问题。

知识表示:概念的分布式表(基于原型)

那么这里我们也做了很多研究工作,比如说基于人类认知的原型理论,去让机器去认知。比如说人是怎么认识猫?你对猫这个概念的认知来自于很多具体的概念,把它融合在一起变成一个语言表示。机器能不能也利用这种原型来认知这个概念,这就是知识图谱为概念的表示。

知识表示:KG将向大规模知识网络演进

另外现在越来越多的行业应用把各种知识表示联合应用,这里面有本体、有框架、有规则、有逻辑、有语言模型。我们现在很多系统它还是单一的,它可能只支持知识图谱,一旦要去跟大模型融合,要去跟什么规则结合,你会发现就很不方便,所以这个也是一个非常重要的趋势。

知识表示:人机知识的定量化实证分析

另外就是说知识定量化的分析,最后你知识图谱里有了很多知识,那么这个抽出来的知识和专家认知有什么不一样,你从互联网抽到的知识或者从教材里抽的知识和专家视角的知识,和业务上要用的知识有什么不同?这个都是要去研究的。

知识表示:“表示+推理”一体化

还有表示和推理的一体化,这个也是很有意思的问题。

我们传统整个知识工程走的路线就是先表示再推理,就是先用知识图谱把知识表达出来,然后再利用知识图谱去做路径推理。但实际上人类的专家真正解决问题的时候,他是把表示和推理一体化在应用。就是我看到问题我就知道应该怎么解决,大部分专家你问他是怎么解决的,实际上是一种事后的解释,真正形成那个角色和答案的时候,实际上是一种直觉式的,这就叫做表示和推理一体化。

那么我们基于知识图谱的表示和基于知识图谱的推理,如何去做到这种一体化的决策?这个都是当下最有挑战性的研究问题,像这种问题在很多实际应用场景很有用,比如说在工业中的这种故障诊断,老师傅看到这个现象立马就知道问题出在了,如果新手问他是怎么解决的,他就想一想我是怎么解决,但它实际上是一种直觉的决策,它是把表示和推理一体化在做,所以这个对我们的行业应用都非常关键。

知识获取

知识获取:基于图模型的概念图谱补全

在知识获取方面,图系统其实是可以发挥很多的威力的。我们的很多知识获取是从现有的知识图谱里面去推断出更多的知识,这里面很多的算法都是一些知识图谱上一些缺失的链接的推荐算法。比如,我们可以看到一个词是不是应该有某个上位词,就可以看他的邻居是不是有这上位词,这是一个典型的协同过滤的思想,那么我们的图计算的系统能不能支持这种协同过滤的思想呢,

在图谱纠错这块,你会发现有很多图谱里面有些边,比如说它是不是这样构成了一些环,尤其是在这种层级关系里面,如果有环是很奇怪的,那么把这环给去掉,破除这个环就有可能得到一个更干净的知识图谱。

知识获取:基于图模型的概念图谱纠错

这个时候你就可以把这个问题建模成图的一些计算问题,建模成从图上去掉一些环、破除一个环,然后得到一个有效无环图,然后这张图可能是你这个概念图谱更好的一种表达。

知识获取:基于图模型的概念图谱纠错

那么还有就是领域突破,比如像现在一些新的词,我应该挂载到哪一个属性上,我们可以用图的一些随机游走的算法去算一算新词和这个图上的其他的一些属性,其他的这些值之间是不是有很强的相似性?那图上的这种随机游走都是基于传统的图的一些算法,所以我们可以利用图系统提供大量的图算法来做知识图谱的优化、补全、纠错等等。

知识管理

知识图谱的质量评估体系如何建立

那么在知识管理的角度,我们仍然有很多需要这个图系统来支撑的。知识图谱已经到了什么阶段了呢?大部分单位都已经做了一次性建设,未来几年知识图谱一个非常重要的趋势就是知识图谱的持续运营和持续建设。现在很多企业已经上线了知识图谱系统,已经跟应用系统挂钩了,这个时候应用可能会反馈出一些问题,我的图谱应该如何去更新?如何更好适配应用?都对知识图谱的评估提出了挑战。

从哪些方面评估,实际上很多人都会有这个困惑,要从准确一致完整实效等很多角度去评估,而且还要考虑图谱规模巨大的问题,你很难全量评估,采样怎么采这又是一个很大的问题,所以这个都对图系统提出了挑战,如果我们的系统能够提供这种能力,我们用户是不是更愿意买单是吧?

知识图谱的几大评估维度

那么从哪些维度去评估呢?你要从很多级别,从单条三元组,多条三原主的的维度,还有整个知识库,你整个知识库里面是不是会不会有一块是冗余的,会不会有一块是不完整的,结构上是不是很奇怪,这个都是我评估的一些维度。

知识图谱准确性评估

我们首先要去评估你是不是准确,准确性评估最大的问题在哪?图谱很大,现在很多企业的图动不动几亿实体?一条一条人工评估肯定受不了,所以人工评估只能去采样评估,你采什么样就很重要对吧,到底是以节点为中心采样,还是以三元组为中心采样了,这里面都有很多问题。

知识图谱实时性评估

再进一步去评估初步是不是实时的。

比如说有很多知识是会变的,美国总统 5 年要变一次的对吧,但有些是不会变的,比如地球是圆的,你不可能过几年地球变成方的了。这个秦始皇是哪一年统一中国的,除非出来新的史料,否则不会变,其实大部分知识是不会变的,但是有很多知识会经常变,我们去评估哪些知识容易变,哪些知识不容易变,这个叫实时性评估

知识图谱完整性评估

还有完整性评估,实际上是一个非常有意思的问题。

很多的行业应用现在提出这个诉求,说你给我做了一个知识图谱,你怎么保证你是完整的?现在这个问题是很难回答的,因为完整往往是相对的,那么怎么办?实际上最近还是有一些方案,你这个领域可能有语料有文档,那么我们能不能利用现在已有的文档看我这图谱是不是完整的,文档里面提到的所有东西是不是我初步都能够涵盖,这些现在已经能有一些解决方案了。

知识图谱结构性评估

再进一步,图谱这个结构上是不是有问题。

实际上你会发现建了一个很大的行业图谱之后,它应该呈现出一些基本的特性。比如说那些有高频的知识、重要领域的核心知识可能浓密度很高,那些长尾的知识它可能浓密度比较稀疏,所以知识图谱应该是有一些结构特性的,可以从它的度分布,从很多角度去研究这个问题。

知识图谱的冗余性评估

还有就是一个很有价值的问题,就是图谱的冗余性评估。实际上我觉得现在很多人说要建图谱,然后甲方说我肯定要给乙方一个指标,图谱建多大是吧,很多甲方就求大求全,就觉得越大越全越好,但实际上现在整个图谱的建设是不宜盲目地求大求全的。

我们最近做了个研究,现在有很多图谱规模虽然很大,但是它里面冗余性很成问题。最近做出来一个很有意思的结果,就是说大家看有很多像右边这是很多规则,比如说 A 出生在 B,那国籍可能也是 B,比如你的出生地是中国,你的国籍可能也是中国,这就是一个推理规则。那么既然我可以有推理规则,你就会发现知识图谱里面很多三元组是可以通过有限的几条规则压缩掉的。大部分人出生在哪一个国家,国籍可能就是哪一个国家,你只要知道你出生地了,然后再存一条这种处理规则,不就可以了吗?那是不是就可以不要存每个人的国籍了,每个人一个国籍的事实就要一条三元组,我们中国 13 亿人就得 13 亿条三元组,那也就是我用这一条规则,就可以压掉 13 亿条三元组。事实证明的确是这样的,有很多通用领域是可以被压掉百分之三四十,然后就通过 10 条 20条这种规则就可以了,那意味着什么?你辛辛苦苦去抽取,辛辛苦苦人肉去标,花了那么多钱,最后发现你还不如写一条规则对吧?一条规则可能抵得上几百万条三元组,所以这就告诉我们不能盲目求大求全,所以一定要考虑你的知识是否冗余。

知识图谱的众包构建

还有图谱的众包构建。

刚才说知识图谱构建,很多是抽取来的或者从关系数据库转换来的,但是这些图谱往往还需要一些众包的人为干预,比如说错了就错了一条,重新跑一遍抽取算法肯定没必要,还不如人来编辑一下。还有很多知识他需要撒给很多专家一起来确证到底对还是不对。所以众包的过程是非常重要的,对于知识的质量来讲很重要,那么我们整个众包的过程能不能也融入到我们知识图谱的管理系统里面,对吧。

人机协作是知识图谱落地的关键

还有一个就是刚才说的人机协作。就刚才说了人机协作非常重要。因为现在很多行业应用,人类能表达的知识往往是有(左边)这些特点,比如语言知识、决策知识、模糊知识、异常知识,这都是人擅长表达的。

但是机器擅长表达一些什么事实?静态的、常规的、隐蔽的,所以人机的知识体系是互补的。所谓机器的知识,很多是数据驱动的,从数据里面提炼出来一些隐性的表示,所以人的知识要和从数据中提炼出来的机器的知识互补,才有可能很好的解决人类的问题,这种互补关系非常重要,整个体系不能只是支撑我们的显性知识,要对隐性知识机械知识,尤其是大模型,大模型里面语言模型里面的知识实际上已经成为知识图谱知识的一个非常重要的补充。

预训练语言模型成为KG的重要知识补充

所以我们甚至在提议,我们除了系统在支撑知识图谱的时候,是不是也可以有一个模块能够把大模型融入进来。

知识管理面向语言模型的查询处理

那么面向这种大模型,我们又有很多问题要去处理。

大模型和知识图谱怎么样去做协同查询和处理,我们现在很多查询只能针对知识图谱去查,但是实际上大规模训练模型也能够查到很多知识,不过他查询方式和大知识图谱的查询是不一样的,你要去声明你的查询语言,这种获取知识的方式和知识图谱这种显性查询的方式是不同的,如何针对大模型和知识图谱协同去做产品,实际上现在在很多领域这个需求是很迫切的,已经越来越迫切了。

大规模图神经网络对于巨图的分布式计算提出了新的挑战

还有另外一个非常重要,知识图谱它本身也是一个图,提炼图的结构性特征一个非常有效的手段,是大规模的图神经网络(GNN),图神经网络实际上是知识图谱,未来我认为它和知识图谱一定会合流。我们会利用图形的网络去提炼知识图谱中基于结构的很多特征,当然知识图谱除了结构特性之外,它还有很丰富的语义特性,那么利用图神经网络提炼这种结构特性,再加上知识图谱的语义特性,就能够比较好地捕捉知识图谱上各种各样的信息。

这套框架非常重要,将来图系统、大模型知识图谱、图神经网络这三者融合在一起是有可能解决绝大部分行业的一个问题,成为解决问题的通用的框架,所以我们的图系统对于图神经网络的支持也是势在必行。

图数据库与知识图谱:共创关联价值

世界普遍关联,关联创造价值

最后简单总结一下——这个世界本质上是普遍关联的,图数据库和知识图谱的技术联姻和共舞,我们认为将会进一步释放关联数据的能量,提升数据产业的发展能级

NUC 2022 往期精彩内容回顾:


交流图数据库技术?加入 Nebula 交流群请先填写下你的 Nebula 名片,Nebula 小助手会拉你进群~~

关注公众号