用户案例
BIGO:元数据平台的建设与管理
本文整理自 BIGO 在 nMeetp 上的主题分享,详情见 博客
公司简介
BIGO 是欢聚时代(YY 直播母公司)成立的独立公司,致力于打造全球领先的社区化视频直播应用与品牌。旗下主打产品 BIGO LIVE,上线仅一个月就荣登泰国免费 APP 榜首。
业务挑战
1、元数据杂乱无标准:没有统一的搜索和管理平台 2、数据没有血缘关系:各个开发平台如同数据孤岛 3、没有业务类元数据:业务方难以查询及统一口径 4、数据权限管控粗放:权限申请及审批流程原始化
解决方案
BIGO 元数据平台架构(使用 NebulaGraph 替换掉了原本使用的数据库软件)
通过 NebulaGraph 搭建了元数据管理平台 OneMeta 来解决上述问题。元数据平台里面存储着技术元数据、业务元数据、数据血缘、数据计量、规范模型、权限内容等,再基于元数据平台对接应用层,包括:REST 接口、数据地图、实时血缘、即席查询、数仓建模、可视化建表、离职交接、权限管理等应用。
OneMeta 的平台能力如下:
- 全域元数据实时入库及管理功能,统一构建公司个人及团队数据资产目录。
- 数据地图、取数查询、数据治理、血缘姻联、权限管理、规范模型等应用存储管理能力。
- 支持 HIVE / HDFS / OOZIE / CLICKHOUSE / BAINA / SPARKSQL / KYUUBI / KAFKA 等元数据及血缘关系的存储。
- 精准计量业务元数据:各式各样的元数据的操作次数、冷热程度、业务归属等信息更新。
应用场景1:数据地图
支持全域元数据(HIVE、HDFS、CK、BAINA)搜索与发现、结果排序和下载、支持筛选、支持高级搜索等功能;并可点击查看技术明细、数据计量、业务归属、生命周期、历史趋势等元数据基础信息。
应用场景2:实时血缘
BIGO 数据血缘-可视化视图模式 实时展示工作流的执行状态,后台可选择展示某个元数据的上下游,并支持选择以某个元数据为中心的上下游层数(深度)。
应用场景3:数据治理
BIGO 数据治理 TTL 管理部分截图
从数据地图详情部分点击【编辑】按钮即可对数据进行 TTL 生命周期管理,用于管理通用打点表各个事件的生命周期。
应用场景4:数据建模
在数据建模方面,元数据统一平台提供 SQL 脚本方式用来创建表模型,供数仓开发者和数据分析师交互使用。
应用场景5:监控大盘
用于实时展示公司数据,包括资源总量、各业务线资源占比、变化趋势和热门资源等,推动团队、业务线进行成本优化。
除了以上场景之外,数据资产管理平台还有模板取数、权限管理、离职交接、群组管理、数据预览,以及收藏下载等应用。
使用收益
1、搜索性能显著提升
原本的数据库需要耗时 2s 多,因为业务总存在大搜索,会拖慢搜索速度。相较于原来,NebulaGraph 的搜索速度提升 5 倍以上,从原先的 5s 返回结果降低到了 1s 以内;而且再也不会出现偶尔搜索不到数据的问题,系统维护也无需额外维护索引,还支持了高并发和超大数据量存储。
2、企业数据管理&呈现能力明显加强
OneMeta 平台支持 HIVE / HDFS / OOZIE / CLICKHOUSE / BAINA / SPARKSQL / KYUUBI / KAFKA 等元数据及血缘关系的存储,通过统一构建公司个人及团队数据资产目录,提升全域元数据实时入库及管理功能,帮助业务团队有效提升管理和分析的精确性和有效性。