logo
企业版

技术分享

从小众到火爆,图数据库能为我们解决什么问题?

“本文系 DTCC(中国数据库技术大会)对演讲嘉宾——Dr.min.wu 的专访,吴敏博士的演讲稿参见推文[《开源分布式图数据库的思考和实践》](从小众到火爆,图数据库能为我们解决什么问题? ),文章首发于 ITPUB 公众号

从小众到火爆,图数据库能为我们解决什么问题?

电信诈骗越来越猖狂,与诈骗犯斗智斗勇进行反欺诈,疫情流调,在人潮人海中快速找到密接人员……这背后很可能都有数据库当红炸子鸡图数据库的技术支撑。

什么是图数据库?图数据库能解决什么问题?是否图数据库要替代关系型数据库?在日前DTCC2021中国数据库技术大会上,IT168&ITPUB采访了开源分布式图数据库厂商悦数科技PD & CR吴敏,就相关问题进行了探讨。

图数据库领域的中国力量

从小众到火爆,图数据库能为我们解决什么问题?

从上图DB-Engines数据库流行度变化可以看到,图数据库一枝独秀成为近10年来关注度增长最快的数据库,也吸引了投资者的青睐,目前为止数据库领域最大单笔融资就诞生在图数据库。从2021年8月到11月,三个月时间DB-Engines收录的图数据库产品数量从32家增加到36家,可见其火爆程度,其中有4家国产图数据库产品上榜,悦数科技NebulaGraph排名15。在图数据库领域,国内外基本处于同一起跑线。

图数据库并不是存储图像的数据库,图数据库是用点和边来表达数据之间的关系,是更自然的存储方式,更专注于对象之间的关联。悦数科技认为,数据间的关联关系将会是下一个重要的业务增长点,而快速挖掘数据背后的关联价值便是提升业务价值的关键。Gartner发布的2020年十大科技趋势预测中,关联关系被认为是一切数据分析产生价值的基础。专注于数据关联关系的图数据库成为刻画及利用数据关系最佳的基础设施,而传统的关系型数据库产品已经很难胜任这种海量复杂的分析需求,这也是图数据库能够快速发展的核心因素之一。

2018年悦数科技成立,创始团队来自于Facebook、阿里巴巴、华为等国内外各大知名公司,在图数据库、大数据等领域有丰富的开发和业务经验。公司于2019年5月正式开源发布分布式图数据库NebulaGraph AlphaV1.0版本,同年12月上线首个商业版本,并被DB-Engines收录,成为目前DB-Engines排名最高的中国图数据库产品。

吴敏介绍,NebulaGraph在立项之初,团队便定了四个目标:规模、生产、OLTP、开源生态,而这4个目标直至今日依旧影响NebulaGraph产品规划。

规模方面,考虑到未来数据库处理的数据规模会很大,摩尔定律失效,而单机情况并不能很好地应对海量数据爆发式增长,便研究分布式数据库是如何处理数据。此外,数据规模大时,图数据分析属性多,NebulaGraph采用属性图模型设计,支持上百属性。

生产方面,NebulaGraph针对生产工业级别的数据量万亿点边数据量而设计,做到工业级别可用。此外,还考虑查询语言如何设计,更好满足可视化、可编程、运维等要求。

OLTP方面,NebulaGraph初始设计目标是优先考虑TP场景,即使到今天也是一样,NebulaGraph是一个在线、高并发、低延迟的图数据库。

开源方面,NebulaGraph先有开源版本后有商业的企业版本,除了构建开源技术社区、开发者生态之外,也对接了大数据生态,以及与图计算、训练框架进行结合。

NebulaGraph之所以能够在DB-Engines排名那么靠前,在于当初设计时立足未来的长远规划,更在于实现。吴敏强调,NebulaGraph采用存储计算分离架构,计算层和存储层可以根据各自的情况弹性扩容、缩容,使水平扩展成为可能。此外,NebulaGraph具有低延时、高并发特性,整个核心代码采用C++编写,保证了执行效率。

其次,NebulaGraph做了很多并行和异步执行的优化。第三是计算下推,在分布式系统里面,硬件上网络对整体性能的影响最大,所以数据搬迁很低效。比如,1万条数据最终过滤出100条,相当于99%的网络传输浪费掉。NebulaGraph采用移动计算,将计算下推到存储层,同样在1万条数据中过滤出100条,直接在存储层做完过滤再回传计算层,速度提升100倍。此外,架构和产品特性之外,NebulaGraph作为一款开源的分布式图数据库,社区活跃度极高,问题响应速度快,也是排名靠前的一个重要因素。

开源是今年数据库发展的一个重要趋势,“在图领域,开源是一件很常见的事,反而闭源并不常见。因为图本身在过去几年是个小领域,只是最近慢慢地火起来。所以,选择开源是一个挺好的Branding,建立自己技术品牌的方式。再者,开源的方式可以吸引更多的人来用它,同更多的人交流图技术,促进彼此思考。以及,在用户使用过程中,反馈过来的使用建议能迭代、快速完善产品。”吴敏表达了他对开源的思考。 Gartner的分析师预计,到2022年,企业图形处理和图形数据库将以每年100%的速度增长,到2023年,将促进30%的组织的决策。

图数据库的落地与挑战

在DTCC2021中国数据库技术大会上,图数据库专场广受关注,让我们更能感受到图数据库的火爆,目前图数据库已经在很多场景有了落地。

以NebulaGraph为例,目前NebulaGraph的用户覆盖金融、互联网、政府、制造业、物联网、人工智能、商业智能、机器学习等多个领域。2021年是NebulaGraph商业化元年,也是Nebula企业用户突破200大关的一年。

吴敏介绍,金融领域典型的场景有反欺诈、反洗钱,实时甄别高风险资金流动等。互联网的典型场景有智能助理、本地生活化推荐、威胁情报分析、反作弊、数据治理等;政府可能涉及到公安技侦、疫情防控中的密接分析等。 比如众安保险将NebulaGraph用于反欺诈社群发现场景,知乎将NebulaGraph作为反作弊工具,有效防止用户刷赞等作弊行为,快手将NebulaGraph用于安全情报平台,提供给多个业务部门使用等。

而根据今年10月IDC发布的《IDC TechBrief:图数据库》,从全球来看,图数据的使用仍处于早期阶段,市场饱和度不足5%。

毫无疑问图数据库有非常广阔的市场前景,但是当下的起步阶段,市场上也有一些质疑声音,有人指出图数据库应用场景太少,很多关系型数据库也能做,包括金融场景在内的很多场景是为了用而用。吴敏特别强调,同关系型数据库相比,图数据库有天然的优势,点边结构的数据库是天然贴近现实世界,能直观表达现实世界中的实体及其对应关联关系,这点在找寻数据关联关系的场景下尤其明显,在数据规模到达一定量级之后,查询数据的多层关联关系,关系型数据库的性能远低于图数据库,根据天然的图数据结构特点能快速返回查询结果。

“我一直没觉得图数据库的市场和关系型数据库市场有多大的重叠,也没啥竞争关系,虽然当前,取的名字都叫‘数据库’。更多场景应用在探索阶段,有些行业已经有明确用途了,有些行业下定论还有点早,也许再过两三年回头看,可以大概知道。”吴敏认为现在下结论还为时尚早。他指出,虽然,目前图数据库还存在许多挑战需要解决,比如数据的完备性、一致性,分布式事务的支持以及 OLAP 和 OLTP 融合等。但是图数据库这个领域目前为止还保持了稳定的增速,已经在一些数字化较高的行业得到了不错的渗透。从市场的角度看,在更广更深的领域取得关键系统应用是极为重要的事,这也更依赖于全行业的努力。

从使用门槛的角度看,NebulaGraph自研的图数据库查询语言nGQL是种类SQL语言,对于开发人员比较友好,极易上手。自V2.0版本开始,nGQL逐步兼容openCypher 9标准。吴敏认为,随着GQL标准的制定,对于提升行业标准化,降低用户学习和迁移成本会有很大的帮助。

对于正在发展初期的图数据库而言,需要全行业共同努力,一起呵护,既看到优势也看到不足,积跬步以致千里,期待图数据库更多的落地。


交流图数据库技术?加入 Nebula 交流群请先填写下你的 Nebula 名片,Nebula 小助手会拉你进群~~

【活动】Nebula Hackathon 2021 进行中,一起来探索未知,领取 ¥ 150,000 奖金 →→ https://nebula-graph.com.cn/hackathon/