用户案例

BIGO:元数据平台的建设与管理

本文整理自 BIGO 在 nMeetp 上的主题分享,详情见 博客

公司简介

BIGO 是欢聚时代(YY 直播母公司)成立的独立公司,致力于打造全球领先的社区化视频直播应用与品牌。旗下主打产品 BIGO LIVE,上线仅一个月就荣登泰国免费 APP 榜首。

业务挑战

1、元数据杂乱无标准:没有统一的搜索和管理平台 2、数据没有血缘关系:各个开发平台如同数据孤岛 3、没有业务类元数据:业务方难以查询及统一口径 4、数据权限管控粗放:权限申请及审批流程原始化

解决方案

Product architecture

BIGO 元数据平台架构(使用 NebulaGraph 替换掉了原本使用的数据库软件)

通过 NebulaGraph 搭建了元数据管理平台 OneMeta 来解决上述问题。元数据平台里面存储着技术元数据、业务元数据、数据血缘、数据计量、规范模型、权限内容等,再基于元数据平台对接应用层,包括:REST 接口、数据地图、实时血缘、即席查询、数仓建模、可视化建表、离职交接、权限管理等应用。

OneMeta 的平台能力如下:

  1. 全域元数据实时入库及管理功能,统一构建公司个人及团队数据资产目录。
  2. 数据地图、取数查询、数据治理、血缘姻联、权限管理、规范模型等应用存储管理能力。
  3. 支持 HIVE / HDFS / OOZIE / CLICKHOUSE / BAINA / SPARKSQL / KYUUBI / KAFKA 等元数据及血缘关系的存储。
  4. 精准计量业务元数据:各式各样的元数据的操作次数、冷热程度、业务归属等信息更新。

应用场景1:数据地图

支持全域元数据(HIVE、HDFS、CK、BAINA)搜索与发现、结果排序和下载、支持筛选、支持高级搜索等功能;并可点击查看技术明细、数据计量、业务归属、生命周期、历史趋势等元数据基础信息。

应用场景2:实时血缘

BIGO 数据血缘-可视化视图模式 实时展示工作流的执行状态,后台可选择展示某个元数据的上下游,并支持选择以某个元数据为中心的上下游层数(深度)。

应用场景3:数据治理

BIGO 数据治理 TTL 管理部分截图

从数据地图详情部分点击【编辑】按钮即可对数据进行 TTL 生命周期管理,用于管理通用打点表各个事件的生命周期。

应用场景4:数据建模

在数据建模方面,元数据统一平台提供 SQL 脚本方式用来创建表模型,供数仓开发者和数据分析师交互使用。

应用场景5:监控大盘

用于实时展示公司数据,包括资源总量、各业务线资源占比、变化趋势和热门资源等,推动团队、业务线进行成本优化。

除了以上场景之外,数据资产管理平台还有模板取数、权限管理、离职交接、群组管理、数据预览,以及收藏下载等应用。

使用收益

1、搜索性能显著提升

原本的数据库需要耗时 2s 多,因为业务总存在大搜索,会拖慢搜索速度。相较于原来,NebulaGraph 的搜索速度提升 5 倍以上,从原先的 5s 返回结果降低到了 1s 以内;而且再也不会出现偶尔搜索不到数据的问题,系统维护也无需额外维护索引,还支持了高并发和超大数据量存储。

2、企业数据管理&呈现能力明显加强

OneMeta 平台支持 HIVE / HDFS / OOZIE / CLICKHOUSE / BAINA / SPARKSQL / KYUUBI / KAFKA 等元数据及血缘关系的存储,通过统一构建公司个人及团队数据资产目录,提升全域元数据实时入库及管理功能,帮助业务团队有效提升管理和分析的精确性和有效性。


Tag
Recommended for you
green iguana

技术分享

使用 nebula-spark-connector 3.6 版本搭建备集群实践
green iguana

技术分享

来自开发者的认可,NebulaGraph Star 突破 10,000 大关
green iguana

技术分享

多年 NLP 从业者对 LLM 和知识图谱的一些看法