内容
活动
关注

2022云栖精选—AnalyticDB MySQL 湖仓版在B站的最佳实践

简介: 陈浩哔哩哔哩Bilibili资深数据开发专家

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

一、公司及业务介绍

image.png

猫耳FM是哔哩哔哩旗下专注于二次元ACG音频赛道的一款APP应用,对标喜马拉雅、网易云音乐、荔枝FM。平台内容包括中日广播剧、有声漫画、有声小说、电台、声优直播、配音活动等二次元及泛二次元音频内容。

其主要业务是与相关作品版权方合作,将国内市场火热的IP制作成广播剧、火山漫画等音频形式,最后由用户在平台上进行付费收听,完成商业闭环。

image.png

目前,该平台每月数据增长量将近8TB。平台通过数据为产品及运营决策提供支持。例如,运营部门需要客户活跃、留存率、 APP停留时长、付费转化率等指标指导日常运营决策;财务部门需要月度、年度的周期性支出及营收情况,用于对账、审计;产品部门则需要数据进行A/B测试,评估不同产品方案效果。

其次,搭建推荐系统需要基于用户的搜索、点击、收听、付费等行为构建用户画像,并向用户推荐广播剧、主播等。

最后,在业务运行过程中还会经常会遇到一些用户恶意行为,需要进行风控拦截,比如IOS用户充值退款问题,账号出租共享行为以及活动期间的刷榜行为等。

直接在业务路上进行分析会导致业务库CPU飙升,影响业务,造成请求响应超时,页面加载不出来等问题。

随着数据量的增长、报表需求的增多,直接在业务路上进行聚合分析的方式已经行不通,需要搭建专门的OA系统作为技术支撑。


二、历史架构及挑战

image.png

2018 年,该平台搭建了离线数仓,并使用该数仓进行实时在线分析。但由于是首次构建,技术能力有限,该数仓处于摸索阶段,暂时解决了短期爆款输出的问题。

该历史架构存在的问题比较明显,一是分析时效性差,部分离线ETL任务无法在T+1内运行完成,依赖这些任务的下游节点报表产出也发生滞后。另外一些日志数据导入到离线数仓的过程中,数据的拷贝超过24小时。

另外资源无弹性。凌晨时段是任务运行高峰期,但由于机器人数量固定,大量任务推进等待程序调动,CPU处于满负荷运行状态,任务无法及时运行完成。统计用户年度收听报告期间,统计用户最长收音时段数据的任务运行超过24小时,产品验收测试进度滞后。

最后运维成本高。服务故障时,需要进行数据排查报重并进行修复。其维护过程中数据开发及BI系统中断需要一个小时以上,遇到比较异常的主线问题时,系统不可用往往会持续一天以上的时间。


三、湖仓版架构及优势

image.png

将离线数仓迁移到ADB湖仓版主要基于以下几个优势。

首先,ADB湖仓版可以根据任务繁忙程度对资源进行弹性伸缩。离线ETL任务主要发生在0点到5点,这段时间资源需求高,资源弹性可以使资源更充足,避免任务因为等待资源而大量堆积。另外进行临时的修复数据时,根据资源需求进行弹性伸缩,及时释放资源,降低使用成本。

另外,测试分析、收益统计,需要实时反映最新的收益情况。但由于合作方的分成模式比较复杂,会有按固定比例分成按订单量梯度分成按时间梯度分成。使用离线数仓处理达不到实时要求,在线分析性能存在统计的瓶颈。

ADB通过DTS数据传输服务,数据入仓后可以实现一份数据同时在线分析和离线处理的需求,订单数据可以实现毫秒级增删改,面对查询时能在数秒内完成响应,极大提高时效性。

最后,ADB可根据数据扫描量自动优化执行模式,智能选择执行模式,加速任务的运行。

image.png

ADB时效性高,可用于在线特性。猫耳FM业务中,除收益统计后台需要实时分析反映最新的交易情况,在广播剧的打赏主板中也用到了这一特性。

在广播剧打赏主板,基于ADB应对复杂查询的特性,榜单的更新周期从小时级别提高到秒级,提高客户参与积极性,提升用户的停留时长及付费转化率。

另外,在直播业务中,平台可以对中奖概率进行实时监控。如果中奖的概率超出预设值,运营可以及时收到报警的通知,进行调整或下架,控制成本收益。

这一特性也用于监测活动期间的刷榜行为,直播间管理人员可以及时予以处置,避免榜单排名的异常变动。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
2月前
|
SQL 缓存 分布式计算
【跨国数仓迁移最佳实践5】MaxCompute近线查询解决方案助力物流电商等实时场景实现高效查询
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第5篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
147 8
|
3月前
|
SQL 分布式计算 运维
【跨国数仓迁移最佳实践3】资源消耗减少50%!解析跨国数仓迁移至MaxCompute背后的性能优化技术
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第3篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
192 0
|
7月前
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
541 17
|
5月前
|
监控 关系型数据库 MySQL
DTS实时同步进阶:MySQL到AnalyticDB毫秒级ETL管道搭建
本方案采用“Binlog解析-数据清洗-批量写入”三级流水线架构,实现MySQL到AnalyticDB的高效同步。通过状态机解析、内存格式转换与向量化写入技术,保障毫秒级延迟(P99<300ms)、50万+ TPS吞吐及99.99%数据一致性,支持高并发、低延迟的数据实时处理场景。
151 10
|
6月前
|
存储 缓存 分布式计算
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
本文将深入探讨基于 StarRocks 和 Iceberg 构建的云原生湖仓分析技术,详细解析两者结合如何实现高效的查询性能优化。内容涵盖 StarRocks Lakehouse 架构、与 Iceberg 的性能协同、最佳实践应用以及未来的发展规划,为您提供全面的技术解读。 作者:杨关锁,北京镜舟科技研发工程师
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
|
4月前
|
存储 SQL 人工智能
【跨国数仓迁移最佳实践1】Append Delta Table 统一存储格式创新
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第一篇,跨国数仓迁移背后 MaxCompute 的统一存储格式创新。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
110 0
|
10月前
|
SQL 监控 关系型数据库
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
本文整理自用友畅捷通数据架构师王龙强在FFA2024上的分享,介绍了公司在Flink上构建实时数仓的经验。内容涵盖业务背景、数仓建设、当前挑战、最佳实践和未来展望。随着数据量增长,公司面临数据库性能瓶颈及实时数据处理需求,通过引入Flink技术逐步解决了数据同步、链路稳定性和表结构差异等问题,并计划在未来进一步优化链路稳定性、探索湖仓一体架构以及结合AI技术推进数据资源高效利用。
719 25
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
688 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

热门文章

最新文章

相关产品

  • 云原生数据仓库AnalyticDB MySQL版
  • 推荐镜像

    查看更多
    下一篇