logo
企业版

用户案例NUC2022

五矿期货:图数据库在金融期货行业的应用与实践探索

本文整理自 五矿集团-五矿期货有限公司副总经理-张剑锋 在 NebulaGraph 2022 年度用户大会上的分享。现场视频如下——

大家好,我是五矿期货的张剑锋,今天十分感谢悦数科技(Vesoft)能够提供这样一个非常好的机会跟各位专家,还有行业技术大拿们有这样一个当面的学习和交流。

今天分享的题目是《五矿期货在图数据库应用领域的实践探索》,我主要从用户和使用者的角度去给大家分享一下 NebulaGraph 图数据库在期货领域的一些应用。

期货行业及五矿期货介绍

期货行业基本情况介绍

第一部分是期货行业的基本情况介绍。在中国的六大金融行业里面,银行,保险,还有信托,是银保监会体系下的,俗称大金融行业。我们属于证监会管辖下的,有证券期货和基金,是属于小金融行业。

我们这个行业有三大主要的功能:发现价格,管理风险,还有配置资源。发现价格重点给大家介绍一下,因为这和投研的业务场景是有关系的,因为期货市场的参与者众多,除了有生产者、贸易商,还有我们消费者,以及市场上大量的投机者。因为有这样不同类型的大量的交易者在期货市场上通过多空博弈产生出来一个价格,是相对客观和真实的,所以可以用于指导这些产业客户和实体经济相关参与者安排自己的生产和经营活动。

期货行业最主要的作用,是服务实体经济和产业客户,所以我们这个行业的特点也是和实体经济挂钩会比较紧密。这几年才兴起的像保险加期货、乡村振兴、场外期权等等都是直接服务产业客户的业务模式。

整个期货行业的构成,除了刚才我介绍的期货交易者之外,还有期货金融机构,也就像我们五矿期货这样的期货公司。还有行业的监管机构,证监会以及各地的一个派出监管机构,还有期货交易所就是交易场所。

目前国内有五大交易所,除了上海的上期所和中期所之外,大连、郑州各有一家,还有接下来很快就要成立上市交易的广州期货交易所,以及计算期货的结算机构。另外期货服务机构主要包含资产管理公司、会计师事务所,还有律所等等,还有像咱们悦数也算是,因为期货行业还有很多信息技术服务机构,这也是这个行业的一个重要参与者。

另外就是期货行业协会,这属于一个行业的自律性组织,整个行业目前有 150 家期货经营机构,整个行业客户的总权益最新是 1.6 万亿。

中国的期货行业至今成立有 32 年,90 年成立的第一家郑州商品交易所,虽然这个行业现在的规模依然很小,但是发展十分迅速,也经过这么多年发展,目前期货行业里面上市的品种已经超过 100 个了,包含国民生计的方方面面,有农产品,有色、黑色、贵金属、 能源化工、 以及像金融期货,还有期权等等。

今年我们行业有一个很大的事件,就是 8 月 1 号《期货和衍生品法》的颁布实施,这是一个国家级的大法。在六大金融行业里面,期货是最后才有国家法律的。所以法律的发布实施,我觉得也为我们这个行业开了很多想象空间,一定会有更大的发展。

五矿期货简介

下面介绍下五矿期货的一些情况。 五矿期货是中国五矿集团旗下的金融企业,五矿集团是 16 年五矿集团和中冶集团两家世界 500 强企业战略性重组,最新的世界 500 强排名是 58位。五矿集团是国家的金属资源领域的冶金建设国家队,我们的控股股东是五矿资本有限公司,是 A 股的上市公司,也是隶属五矿集团的,然后我们也是一个 A 股市场稀缺的全牌照的金融控股公司

五矿期货在行业里面成立也是比较早的,是 1993 年成立的,也是国内最早的一批期货公司之一,注册资本金 27.15 亿元。

我们的业务也基本上是在期货公司里面也是全牌照了,除了经济期货经纪业务、资产管理、风险管理、国际业务投资咨询等等。我们总部位于深圳,还有成立有 3 家全资子公司,还有 4 家分公司以及 17 家营业部,大家如果对期货感兴趣可以联系我们。

五矿期货知识中台建设历程

五矿期货知识中台建设历程

第二部分就是我们知识中台建设历程。

其实我们公司金融科技的发展是从 2018 年开始的,因为期货行业整体来说是起步比较晚的,18 年的时候我们请德勤做了 130 年的 IT 战略规划,因为当时这个规划对我们公司科技发展来说,我认为是很关键的,指明了我们未来该走的道路,至今我们也是沿着这个道路去走的。

随即 2019年的时候,我们就在期货行业内比较早开展了数据治理、数据资产化,同年上线了大数据平台一期的项目,为接下来金融科技数字化转型打了比较好的一个数据基础。

2020 年的时候,我们在投入大数据安全还有投研数据平台的建设,然后把更多的数据应用到业务场景中去。

2021 年的时候是我们公司的十四五战略规划年,我们也启动了数字化转型的这样一个项目。我们也请了普华永道做了一个数字化转型的咨询,公司也把数字化转型作为十四五的一个战略目标,写到了公司整体的这样一个规划中去了。我们也在私有云大数据二期,还有我们全面风险管理等数字化项目做了一些比较深入的一些工作。

接下来,今年我们往人工智能领域做了一些探索和尝试。我们知识中台这个平台已经基本建成,然后在这上面也做了很多的尝试和梳理工作。另外就是线上试点,我们也都在做一些尝试。

知识图谱的价值

知识图谱的价值

关于知识图谱的价值,我来谈一下我们的理解。

因为期货行业是一个信息高度密集的行业,我们日常的经营过程中会产生大量的结构化数据,数据类型很多。除了像各种的客户的交易数据,还有一些像客户行为买点的数据,以及用户事件数据等等。同时还有很多非结构化的数据, 像各类研究报告,新闻资讯。

还有我们业务特殊性要求,监管要求的要双录,客户开通特定品种,或者说我们给客户提供下单服务或者强评的服务,会产生大量的音频视频的数据。所以利用大量的这种多维的数据,多种类型的数据,这是我们这个行业的一个特点,整个金融行业也都是这样,所以我们认为利用知识图谱能够实现数据的汇集和治理,还有知识挖掘和应用以及辅助业务分析和决策

另外期货行业同时也是知识密集型行业,因为期货行业的业务规则很复杂,而且还经常会变化。所以我们如何把知识沉淀到公司,作为公司一个知识的传承,知识的沉淀,还有在知识基础上做相应的智能化的应用,所以我们认为知识图谱在我们这个行业会有很大的一个作用和意义。

知识图谱的优点

知识图谱的优点

从技术方面,知识图谱的优点我们的理解大概有四个方面。

第一个就是灵活的多维数据的叠加,因为图结构是比较灵活的,孤岛的数据其实是没有太多的意义的,也不利于数据的挖掘和分析,通过图的点面关系,可以把有价值的多维数据叠加和连接在一起,会有更大的意义。

第二就是依托经验分析可解释,因为在图谱上模型设计和决策,它的计算路径和过程是我们认为是很清晰的,可以使用图很方便地回溯推导过程,并可以和人的经验相互去做验证。

第三是数据的高效直观表达,因为图是相对来说是比较容易可视化的,将知识图谱可视化展示给用户,可以使用户快速学习或者是发现新的知识。

第四点就是可以增强现有模型的准确率。因为使用知识图谱技术把整个数据拉通之后,有助于数据的数据质量的提升,同时可以提高整个模型的准确率。

使用过程中面临的困境

使用知识图谱面临的困境

在我们实践和探索过程中,我们也遇到了比较多的一些困难。总结起来主要有三点,第一个就是因为知识图谱技术相对来说比较新,在我们这个行业里应用几乎没有,我们可以说是行业里面走在前面的探索的人,正因为行业里面没有最佳实践,同时也鲜有厂商愿意在这个行业里面去尝试提供这样一个解决方案,所以我们只能去摸着石头过河去一步一步来,这个过程其实蛮艰辛的。

第二个就是人才。我们对传统的数据库还是有一些人才储备的,但是现有新的领域,招聘人员、储备人员、培养人员都需要很长的时间,这是第二个痛点。

第三个其实也是我认为最关键的,虽然我们技术部门对这个技术很感兴趣,也觉得很有价值很有意义,但是业务部门认知是不到位的,这也导致参与度不高,所以推进就没那么快,所以刚建的时候走走停停,有些时候可能技术部推一下,就可能积极参与一段时间,但是很快因为影响到实际一些工作,所以我们推的过程就比较困难。

如何走出困境

五矿期货是如何成功走出困境的

面临这种困境,我们很庆幸就是说找到两家很好的合作伙伴,一个是今天的东道主悦数科技,我们认为他们是一家很好、很可靠的公司,NebulaGraph 图数据库除了稳定可靠、性能高效,另外还是国产的,而且是支持信创的。因为我们公司是证监会指定的信创试点单位,所以综合考虑我们认为 NebulaGraph 图数据库是最佳的选择方案

另外要感谢的就是普适智能,因为我们是缺乏技术储备的,我们就比较依赖厂商的支持。普适智能是很专业地专注于知识图谱的应用,而且他们愿意深耕金融行业,对金融行业的业务模式有比较深的沉淀,所以他们可以给我们提供一站式的知识图谱平台的解决方案

我们很多的业务场景都是 NebulaGraph 和普适在驻场很多很久和我们业务部门、技术部门一起配合很长时间梳理清楚,把业务搬到知识平台上,帮我们一步一步搭建起到现在这样一个平台,所以在此十分感谢这两个公司。

知识图谱在期货领域的应用及探索

整体架构

五矿期货知识中台整体架构

第三部分就是我们知识中台的一个整体架构,分三个层次。

第一个就是我们知识中台的一个底座,首先我们使用的 NebulaGraph 图数据库,加上是普适智能搭建整个中台的底座,中间这块是我们的能力层,因为这个平台给我们了很多能力,包括智能运维的能力,还有元数据治理的能力,还有我们的 OneID 认证、投研分析的能力、合规的能力,还有我们决策模型构建能力,这些能力会贯穿到我们从 IT 运维,还有数据加工处理以及模型构建,还有我们业务场景构建这整个环节中的赋能。

所以我们认为这个平台是一个很好的平台,也是完全适合我们公司的这样一个平台,也会有助于我们公司实现数字化和智能化。

应用架构

五矿期货知识中台应用架构

这是普适的智能中台的一个应用的架构。

我们构建了三个平台,最底层就是图谱构建平台。我们在这个平台里可以很便捷地去做图谱的构建,然后通过既有的知识去构建出我们的本体。我们可以很清晰地完成多种数据源的映射以及数据标准的校验,还有子图的切分,然后图谱构建的流程管理等等。

在我们图谱分析平台,除了离线计算,这个平台也支持实时的计算。业务部门可以很轻易地在这个平台上做一些指标和规则的构建。另外就在图算法分析这一块,我们这个平台也支持社区的切分,还有标签的预测,相似度分析以及中心度计算等等。

最上层的是我们的一个图谱应用平台,这个平台里面也预设了很多应用模板,可以很容易去应用到各个业务场景中去。它的应用配置权限管控,还有模型的发布以及管理都是很易用的。

有了这三套平台,我们可以让公司的知识资产,还有整个公司的知识体系落地到这个平台里,去给整体业务去赋能。

本体模型

五矿期知识图谱本体模型

这是我们初步建立的一个本体模型,主要是以用户还有品种为核心去展开的。当然这个还是比较小的一个模型,随着业务场景或者业务诉求的一些变化,我们再去把本体模型构建地更加丰富和完善。

用户的视角来说,和它相关的像 IP 和 MAC 地址可以应用到客户的一些实控关系上,就是合规风险的场景上,他的交易数据,结算单的居间人等等,我们可以去用到客户的洞察场景。品种这一块影响的关联实体也比较多,像产业链、行业、事件、观点等等,都会对这个品种的价格走势进行影响,所以我们做了这样一个简单的设计。

其实我们最开始想把知识图谱应用到投研领域,因为我们是一个产业背景的期货公司,十分重视期货投研,尤其是像产业链的研究,我们有相对比较强大的这样一个投研团队。最开始我们先建立了一个投研的数据平台,当时就是两个出发点——第一个就是我们投研的人员,他们的主要精力其实是在数据搜集阶段,因为他们做一些研究分析或者写研究报告需要各种各样的数据,基本上都是网上去找或者说购买一些软件去采集的,然后自己去维护到表格里或者说数据库,这块的工作耗费了大量的时间和精力,但我们认为他们的核心价值应该是在他们的研究框架里,因为培养一个研究员其实需要耗费大量时间,他们不应该把这个精力放在这里。

第二个就是期货行业里面有 100 多个品种,我们的研究员可能才 30 多个,很多研究员可能一个人要研究两三个甚至三四个品种,而且很多研究人员没有互相备份的,其实他的研究数据也好,研究方法论也好,那是公司经过长时间的培养形成的,这些都是公司最核心的资产。如果这个人走了,公司相当于这块资产就丢失了,如果换了新人,就换了别的研究员过去替代,其实这个时间成本也很高。

所以基于这两个原因,我们希望能把一个研究人员研究的数据,它的研究的这个思路和框架把它落地到一个平台里,作为公司的能力传承下去沉淀下去。

知识图谱在期货行业的应用场景

场景一:辅助投研

五矿期货知识图谱应用场景一:辅助投研

这是我们投研平台知识图谱应用的一个逻辑图。首先我们公司会有一些很多的内部数据,包括可能有集团一些非公开的数据,还有行业的数据,还有一些外部数据,包括我们购买的很多商业数据源,网上的数据研报等等。内外部数据打通之后,我们依托知识图谱这样一个知识中台,实现了知识的沉淀复用,然后为我们的产业链的研究,还有研报的生成,以及我们的风险预计等等这些业务场景去做赋能

五矿期货知识图谱应用场景一:辅助投研

这是我们整个投研过程的一个描绘,第一个就是研究员先从发现线索出发,然后整理的相关资料,经过分析研究框架的判断,最终形成投资决策,然后去应用。

传统来说以前就是数据纯粹的罗列,检索也比较简单,然后我们用这个平台可以实现自定义的投研主页,让用户每天高效获取他所需要的信息,而不需要去浪费过多时间去找线索。另外就是我们优化了检索算法和信息展示的交互界面,形成了更加贴合用户习惯的页面,提升了信息获取的效率和用户的使用感受。

之前数据比较割裂,因为搜集数据的渠道来源很多,也很不方便,通过这个平台把多维的数据整合,加上自有数据的上传,还有指标编辑等功能,实现了数据收集效率的一个大幅提升。

然后我们底层使用的是批流一体的图谱技术,让数据更加及时,拓展性也更强了。以前的分析判断过程是研究人员分析判断完全依赖个人经验,而且分析工具也比较小,所以导致他们效率比较低。我们通过机器学习来辅助他们去进行数据的分析和挖掘,能够主动定位可能的分析方向,来提高他们探索的一个效率。另外平台还提供了多种分析的手段,能够高效的进行分析。

在决策和应用阶段,以前研究人员仅是能够生成这个报告,但是写的报告一个是精度可能比较低,另外很多可能也不会看,因为它的准确度有可能会比较模糊,所以我们联通了用户的分析过程和报告产生的过程,然后能够快速获取他们研究分析所依赖的这样一个数据以及分析的流程,帮助他们去提升整个分析的逻辑,去和他们的个人经验去做一个验证,有可能他的知识或者他的框架可能有错误和偏差,通过这样的数据分析也可以优化。

五矿期货知识图谱应用场景一:辅助投研

辅助投研场景是这样,是因为期货行业里面有很多品种,它是存在比较强的相关关系的。比如说原油,它可能会衍生品很多,比如说一个是燃料油,还有化纤,还有是那些化工类产品,它还有沥青等等,它都是一些原有的附带品或者衍生品。

一个品种的价格变动,其实是对相关的品种是有影响的,所以我们投研平台第一步就要先要找到相应的这样一个关系,然后我们把它在这个平台上用图谱的形式去展示出来,然后通过一些模型的训练,除了找到他影响的关系之外,还要找到影响的程度,就是它的权重。

当然了,这要经过大量的模型训练或者说验证,才能逐渐找到它的影响程度,实现一个品种的价格变化传导到其他相关品种的价格,进而辅助研究人员做相应的研判

五矿期货知识图谱应用场景一:辅助投研

除了品种之间有较强的相关性之外,期货行业的有些相关品种,它的产业链是比较强的,因为上游可能有很多层级,下游的需求这块,消费方可能也有很多的节点,所以我们以研究员的视角,在平台上绘制出整个产业链的这样一个结构图,目的是找到整个产业链的价格传导机制。

图上展示的就是黑色板块的一个产业链。从最上面的像煤炭,它除了上面列的,还有像国家的一些政策会影响到煤炭的生产之外,煤炭的衍生品就是产业链下游就是焦煤焦炭,还有动力煤。动力煤是用来发电的,焦煤焦炭是用来炼钢的,第一步先练成粗钢,然后粗钢再炼成螺纹钢和热轧卷板,同时钢这个黑色品种它又和铁矿石又有关系,铁矿石除了炼钢之外,它还有像锰铁锰硅之类的一些副产,所以我们都让研究人员在这个平台上把整个这个品种的上下游产业链和它的关联关系去描绘出来。

然后是对研究人员本身来说,他借助这个平台可以提升自己的知识,同时这个平台在使用过程中也会逐渐的增强它的能力和价值

五矿期货知识图谱应用场景一:辅助投研

我们接下来智能通信平台要做的四个步骤。

第一个阶段多维数据的产业化,我们要整合产业的多维的数据,然后构建投研的产业图谱,提供产业投研的一个视角。第二个阶段就是依托这个图机器学习构建智能化的一个分析底座,挖掘品种之间的一个潜在关系。第三个阶段,我们会将投研平台能力赋能于多个上层场景,构建投研的应用生态。第四个阶段,除了满足个人认知在使用上面的一个不同需求之外,我们也会打造千人千面的这样一个平台能力。

场景二:金融事件分析

五矿期货知识图谱应用场景二:金融事件分析

第二个场景是金融事件分析。因为期货行业的价格影响,除了既有的产业链模型之外,还有很多突发性的东西,类似于黑天鹅事件, 所以舆情或者资讯这一块,对商品的价格可能会有很大的影响。

所以我们也做这样一个模型出来,而且这个模型会持续地去打上时间的标签,因为时间对行情的影响是有很大的影响的,越老的资讯可能影响度就更低一些。

五矿期货知识图谱应用场景二:金融事件分析

举个例子,年初的俄乌战争对期货市场上的行情就影响比较大,主要影响到是两个,一个是镍这个品种大家可能都知道或者都看到过。因为俄罗斯是镍主要的供应国,发生了战争之后,它很多镍不能够给中国出口了,所以导致镍出现了极端的行情。同时,像不锈钢主要是用镍去生产的,所以也会影响到不锈钢这个品种的价格走势。

所以我们希望能够以关联这个数据为基础,从期货行业固有的逻辑和实时事件双管齐下,通过平台的实施洞察不同事件组合对特定商品的价格的影响强度,同时也支持查看期货相关联的历史事件。

场景三:合规风控

五矿期货知识图谱应用场景三:合规风控

场景三是合规风控,因为期货行业是一个高风险行业,这里是保证金交易的,所以无论从监管,包括还是期货公司自身的合规风控都是十分严格的,合规风控能力也是我们一个核心竞争力。我们在这里以用户视角做了一个合规风险合规风控的本体模型。

我们有两类风控模型,一个是如果是不同的客户在同一个 MAC 地址下,他买卖期货合约的品种以及它的交易行为时间点高度一致,它可能会存在“拖拉机账户”,也就说是我一个客户操控了多个账户,但是在期货行业里是不允许的,所以从这个图上我们可以通过他的交叉关系或者汇聚的密集程度,合规风控人员很容易地去判断出来哪些人是哪类。

另外一类就是如果是同一个账户,同时存在多个交易的 IP 和 MAC 地址,这类行为我们会认定为有可能是配资嫌疑的,结合我们的其他数据和模型,我们可以更加精准得判断它是否存在配资的嫌疑,对我们的合规风控来说,就极大的提高了它的判断能力,我们可以对这类交易进行提前的干预,有效避免合规风险。

场景四:客户洞察

五矿期货知识图谱应用场景四:客户洞察

第四类场景是客户的洞察,我们基于客户交易行为,这些特征我们可以进行汇总,把他们的进行一些社群划分,比如感兴趣交易哪些品种、感兴趣哪类研报,我们把这些作为一些划分,用于进行相对来说精准的一些推送。

因为期货行业服务的同质化比较严重,所以我们也希望能够通过数据来做数字化的运营,给客户提供差异化的服务和相对精准的一个营销,实现我们公司营销方面更好的客户体验。

场景五:智能运维 AIOps

五矿期货知识图谱应用场景五:智能运维AIOps

AIOps 是我们最近才梳理的一个场景。因为我们 IT 部门本身也有很多数据,那是不是可以在 IT 部门内部先去找一些场景用到知识图谱技术呢?

像我们公司有十几个机房部署在全国各地,可能有上千台服务器,而且都是跑的很多业务系统,整个交易系统会产生大量的数据,大量的日志等,而且不同的机房不同的系统之间网络也都是通的,一些应用组件也都是互相调用的关系,它其实本身就是一个巨大的网络。

所以我们把这些运维的数据,服务调用的数据,还有批量作业数据设备部署的数据以及系统运行的日志数据,整合到这个平台里,然后把他们的关系提取出来,实体也提取出来,构建这样一个智能运维的模型。

我们可以更加细化到具体的运维设计场景,比如说故障影响分析,那一个节点或者一台设备出现故障时,和它有关联的系统或应用也可能会存在问题。接下来根据业务调用关系,它(故障)有可能会传达到别的系统,还有可能会影响到不同类型的客户,所以我们要把关系描绘出来,然后可以及时进行一些系统切换或者说故障通知等等。

另外就是变更,因为像业务系统 80% 的风险,或者说它的故障运维事件,都是因为这个系统升级变更造成的。我升级某一个组件可能会影响到哪些系统,哪些客户需要哪些部门的人去做一些干预或协调,怎么更好地去应急,我觉得在这个图谱上都可以实现,以便更好地指导我们的日常运营工作。

还有像系统架构的分析,就是系统架构合不合理,有没有存在单点的故障,这些我觉得都可以在图谱这个平台上去实现。

五矿期货知识图谱应用场景五:智能运维 AIOp

还有运维对象的一个洞察。这是技术部门希望接下来能够用到我们运维上的,有助于实现整体集中监控的这样一个功能。这是我们初步构建的,涉及到运维的一个本体模型,因为除了我们实实在存在的这种网络设备物理机之外,我们还有一些抽象的,像一些应用变更单等等这些,我们把它的关系基本上就理出来了。

场景六:网络安全

五矿期货知识图谱应用场景六:网络安全

另外一个就是网络安全,这块我们觉得也是可以应用到的。因为我们现在有这样一个安全监控平台,它的规则是基于系统产生的日志,如果日志发生了或者是平台感受到它和现有的规则可能有些不匹配,它会产生告警信息。但是告警信息是一种孤岛, 就是说哪里出现问题哪里告警,但是我们想做的就是能够把整个安全模型去构建出来,然后找出他们的关系,这样通过安全系统或者说我们的硬件产生的安全日志,找到它的传导机制,进而分析出它可能会对哪些系统或者说我们的网络安全环境造成影响,这是一个方面。

另外一个就是很多攻击行为或者说病毒,它在我们发现在某台服务器上会有这样一个记录,在接下来可能会传导到哪个机器进一步攻击到哪些层面……通过这个知识图谱,就可以更加方便有效地回溯它的路径或者预测攻击行为,这样能够更加智能化地去辅助我们的安全管理人员去做好安全管理工作。

所以安全知识图谱,我们认为是作为安全领域的一个专用知识图谱,它可以结合安全知识经验和数据能够发挥知识整合的优势,将离散分布的多元异构的安全数据组织起来,加速安全领域的智能化和自动化

总结&期望

上面是我站在期货行业一个用户的角度来做的比较简单的汇报,因为这个技术对我们来说确实比较新,很多业务场景也需要我们进一步去深挖,而且我们公司整体的技术储备也要进一步提升。作为第一家跟普适和 NebulaGraph 合作的(期货)公司,我们很荣幸,也希望让更多的技术专家能够关注一下期货这个行业,能够输送人才去指导期货行业金融科技的发展。

我们行业也逐渐认识到知识图谱的重要性,最近跟行业里面交流的过程中,我们都聊到这样一个技术,一些像交易所技术公司也在做相应的探索和研究工作,他们也希望能把这个能力给整个行业做一个输出,所以最后感谢悦数科技,谢谢大家。

NUC 2022 往期精彩内容回顾:


交流图数据库技术?加入 Nebula 交流群请先填写下你的 Nebula 名片,Nebula 小助手会拉你进群~~

关注公众号