世界上几乎所有的事物都有内在的关联性。
传统的关系型数据库的建模系统会提取实体之间的关系,并将关系单独存储到表和列中,而实体的类型和属性则存储在其他
列甚至其他表中,这使得数据管理费时费力。
而图数据库(Graph Database)作为一种新兴的数据库类型,在处理复杂关系上有着天然优势,特别是在海量数据、多对
多的复杂实体联系场景中有着异常突出的表现。它能够高效地将关联数据的实体作为顶点(vertex)存储,关系作为边
(edge)存储,并允许对这些点边结构进行高性能的检索和查询,也可以为这些点和边添加属性。正因为这个特有的存储结
构,图数据库能够以最接近人类直观认知的方式呈现数据。
比如,企查查或者 BOSS 直聘这类的公司,用图数据库来建模 商业股权关系网络。这个网络中,点通常是一个自然人或者是 一家企业,边通常是某自然人与某企业之间的股权关系。点上 的属性可以是自然人姓名、年龄、身份证号等。边上的属性可 以是投资金额、投资时间、董监高等职位关系。
了解案例
以《权力的游戏》的人物关系网为例:点为人物,边为人物之 间的互动关系;点的属性为人物姓名、年龄、阵营等,边的属 性(距离)为两个人物之间的互动次数,互动越频繁距离越 近。此外,我们还可以结合机器学习算法,为这些人群分出不 同的阵营,图的存储方式让关系一目了然。
了解案例
图也可以用于 IT 系统内部的治理。例如,对于像微众银行这样 的公司,通常有着非常庞大的数据仓库,以及相应的数仓管理 工具。这些管理工具记录了数仓内 Hive 表之间通过 Job 实现的 ETL 关系,这样的 ETL 关系,可以非常方便地用图的形式呈现 和管理,当出现问题时也可以非常方便地追溯根源。
了解案例例如,在一个银行间账户资金流向网络里,点是账户,边是账 户之间的转账记录。边属性记录了转账的时间、金额等。例如 同盾、邦盛、半云科技等公司采用图技术可以方便地通过图 的方式探索发现明显的资金挪用、“以贷还贷”、“团伙贷 款”等现象。
用户登录记录的网络构成了黑产群体网络的团伙作案特征。360 数科、快手、微信、知乎、携程金融这些公司都通过图技术 实时(毫秒级)识别超过百万个的黑产社群。
例如,新冠病毒的流行病学溯源,点是人物,边是人与人之间的接触;点属性为人物的身份证、发病时间等信息,边属性为 人物之间发生密切接触的时间和地理位置等。为卫生防疫部门快速识别高风险人群和其行为轨迹提供帮助。
地理位置与图的结合也可以用于一些 O2O 的场景,例如基于 POI (Point-of-Interest) 的实时美食推荐,使得美团这类本 地生活服务平台公司能在消费者在打开 APP 的时候,实时推荐出更为合适的商家。
图还可以用于更深度的知识推理,华为、vivo、OPPO、微信、美团等公司,将图用于表征底层知识关系的数据模型。特别
是图与AI的结合领域,其研究正处于爆发性的阶段,并有望成为下一代 AI 的基石。
例如,最近比较热门的深度学习方法——图神经网络(GNNs),就在很大程度上受到卷积神经网络(CNN)和图嵌入的启
发,能够处理以图形式表示的数据。目前,这项技术已在蛋白质预测、药物发现与合成、推荐系统、交通预测、视觉场景理
解等领域展现了强大的洞察能力。
总之,Graph is everywhere(图,无处不在)。 作为一项兴起多年现在风头正劲的新型技术,我们希望通过本册内容为您展现更多企业的实践案例,激发您使用图数据技术
的灵感,找到通过理解数据来实现更高业务价值的精彩之路。
NebulaGraph Database 是一款安全可靠、性能高效的原生分布式图数据库产品,擅长处理千亿节点万亿条边的超大规模数据集,同时保持毫秒级查询延时。产品发布以来被多家互联网头部企业竞相采用,广泛应用于金融风控、实时推荐、知识图谱等业务场景。
阿里云免费试用 NebulaGraph