淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路

简介: 本文整理自淘宝闪购(饿了么)大数据架构师王沛斌在 Flink Forward Asia 2025 上海站的分享,深度解析其基于 Apache Flink 与 Paimon 的 Lakehouse 架构演进与落地实践,涵盖实时数仓发展、技术选型、平台建设及未来展望。

摘要:本文整理自淘宝闪购(饿了么)大数据架构师王沛斌老师在 Flink Forward Asia 2025 城市巡回上海站的分享。

引言

在数字化转型的浪潮中,企业对实时数据处理的需求日益增长。传统的实时数仓架构在面对业务快速变化和数据规模爆炸性增长时,逐渐暴露出数据孤岛、成本高企、研发效率低下等问题。淘宝闪购(饿了么)作为阿里巴巴集团重要的本地生活服务平台,在数据架构演进过程中积累了丰富的实践经验。

本文将从三个维度深入分析淘宝闪购(饿了么)基于 Apache Flink 和 Paimon的 Lakehouse 生产实践:回顾实时数仓的演进历程(前世),深入解析湖仓应用的落地实践(今生),并展望未来的技术发展方向(未来)。

一、实时数仓演进之路:从烟囱式架构到统一平台

1.1 淘宝闪购(饿了么)大数据架构现状

淘宝闪购(饿了么)的大数据架构经历了从分散到集中、从烟囱式到平台化的发展历程。作为服务亿万用户的本地生活平台,饿了么每天产生海量的订单、用户行为、商户运营等多维度数据,这些数据的实时处理和分析直接影响着平台的运营效率和用户体验。

1.2 实时数仓架构的三个发展阶段

实时数仓 1.0:烟囱式重复开发时代

在早期阶段,饿了么面临着典型的烟囱式开发问题。各业务线独立构建实时处理链路,导致了严重的数据孤岛现象。由于缺乏统一的数据标准和处理规范,不同系统间数据一致性差异显著,给业务决策带来了困扰。同时,重复的基础设施建设和运维工作带来了巨大的成本压力,包括计算存储资源的重复投入和运维人力的分散投入。

实时数仓 2.0:初步整合与新挑战

为了解决 1.0 时代的问题,饿了么开始推进数据中台建设,通过成熟的 CDM 资产复用,显著提升了数据一致性,降低了计算存储和运维成本。然而,随着业务的快速发展,新的挑战开始显现。

2.0 架构虽然在一定程度上实现了数据复用,但仍然面临"伪"流批一体的问题。DWD 层需要维护两份存储,分别支持流式和批处理场景,这种重复存储不仅增加了成本,也带来了数据同步的复杂性。在成本和性能方面,TT(消息队列服务)存在带宽和性能瓶颈,而 Hologres 内表的性能优化也面临限制。研发效率方面,TT 无法支持检索分析功能,调试成本居高不下,新兴业务难以快速响应。

1.3 Lakehouse探索与技术选型

面对 2.0 架构的局限性,饿了么开始探索 Lakehouse 架构。初期基于云上 EMR 进行了大量的选型评测工作,重点对比了不同湖存储格式和 OLAP 引擎的性能表现。

关键技术选型对比

经过大约十轮的深度测试,饿了么得出了几个重要结论:

湖存储格式对比:Paimon vs Hudi

从对比测试结果来看,Paimon 在多个关键指标上显著优于 Hudi。首先是端到端延迟表现,Paimon 能够提供更低的数据处理延迟,这对于实时业务场景至关重要。在流式更新的稳定性方面,Paimon 表现出更好的一致性和可靠性。此外,在写放大控制方面,Paimon 的优化策略更加有效,能够显著降低存储系统的负载压力。

OLAP 引擎性能评估

在 OLAP 层面的测试中,StarRocks 和 Hologres 各有千秋,两者的查询性能表现接近,但都显著优于 Trino。特别值得注意的是,通过引入 Deletion Vector 和 Data Cache 等性能特性,StarRocks 和 Hologres 查询 Paimon 外表的性能能够接近内表水平,这样基本能够满足现阶段的 OLAP 查询需求。

架构兼容性挑战

明确了 Flink+Paimon+StarRocks/Hologres 这三大 lakehouse 引擎,由于我们原有的大数据架构主要做阿里弹内内部部署 与云上 EMR 的生态还是难以完美兼容,这对我们内部快速应用带来了一定障碍.所以我们亟需一套好用的研发平台

二、Alake 平台赋能:一站式湖仓开发的关键转折

2.1 Alake项目背景与价值

幸运的是,在这个关键时刻饿了么遇到了阿里内部的 Alake 项目。Alake 是阿里巴巴内部从 Data Warehouse 向 Lakehouse 转变,并在后期逐步演进到 Data +AI 的大数据平台架构的关键载体。

Alake 目前已在淘宝、天猫、阿里云、饿了么、高德等多个业务单元得到广泛应用,其成熟度和稳定性经过了大规模生产环境的验证。

2.2 Alake平台核心能力

一站式开发平台

Alake 为饿了么提供了基于 DataWorks 的一站式湖仓开发平台。由于饿了么此前的离线数仓也是基于 DataWorks 开发,这种技术栈的一致性使得研发团队能够快速、便捷地迁移到湖仓架构,显著降低了迁移门槛和学习成本。

湖计算资源统一管理

Alake的一个核心优势是实现了湖计算资源的统一管理。Spark、StarRocks、Flink 等所有计算相关的资源都可以在 Alake 平台上进行统一管理和调度。这种资源池化的设计支持灵活的资源调度,例如今天 Spark 使用 1000 个 CU,明天可以快速调整挪出 500 个 CU 给 Flink 使用,这种动态资源分配能力大大提升了资源利用效率。

统一湖存储格式

Alake在底层构建了统一的湖存储格式,基于Paimon和Pangu实现了无限扩展的存储能力。这种统一存储架构的最大价值在于消除了数据搬迁的需求,避免了因存储容量限制导致的数据孤岛问题。所有数据都存储在统一的湖存储中,不同计算引擎可以直接访问,实现了真正的存储与计算分离。

数据湖元数据管理(DLF)

Alake 在数据湖层面提供了优秀的 DLF(Data Lake Formation)元数据管理服务。通过 DLF,湖仓的元数据可以与原有的数据安全和权限管理系统无缝对接,同时支持与 ODPS 元数据的互通,实现了跨系统的数据流通能力。

三、湖仓架构落地实践:分钟级实时数据Pipeline

3.1 整体架构设计

有了强大的引擎+人性化的研发平台后, 我们就在 24 年下半年就基于 ALake 结合具体业务场景开始规模化的构建了自己的 Streaming Lakehouse pipeline, 大致方案如下:

  • 基于Paimon流读流写的ETL链路:实现分钟级的端到端流式处理能力

  • SR/Holo外表/MV的数据服务链路:提供低延迟的即席分析能力

  • Spark/ODPS的离线批处理:支持传统的BI智能分析范式

3.2 传统实时数仓vs湖仓架构对比

数据一致性与存储优化

传统实时数仓架构面临数据冗余和数据孤岛严重的问题,不同系统间数据一致性差,存储成本过高。湖仓架构通过统一存储显著减少了数据孤岛,数据一致性得到大幅提升,存储成本明显下降。

时效性与研发效率平衡

传统架构虽然能够提供强时效性的秒级延迟,但受限于单一架构约束,研发成本高,技术选型有限,研发门槛较高。湖仓架构虽然在时效性上有所妥协,实现分钟级延迟(依赖 checkpoint 机制,通常为1-5分钟),但通过多查询引擎兼容性,显著提升了研发效率,提供多种研发范式,大幅降低了研发门槛。

3.3 生产规模与稳定性验证

规模化运行成果

从湖仓的整体规模来看,饿了么实现了十倍以上的规模增长。目前大约有 15 万以上的 CU 在运行,包括湖仓的流处理和批处理工作负载。这种规模化的部署验证了湖仓架构的可扩展性和实用性。

大促稳定性认证

在每周一次累计十多次的大促活动过程中,湖仓的稳定性得到了充分验证和认证。这种高强度、大并发的业务场景对系统稳定性提出了极高要求,湖仓架构能够在这种压力下保持稳定运行,证明了其在生产环境中的可靠性。

技术栈多样化发展

对于数仓团队而言,整体的数据链路现在实现了非常多样化的发展。团队不再局限于以前单一的离线链路或 Flink 流处理链路,现在拥有多种技术选型可供使用,这种技术栈的丰富性为不同业务场景提供了更好的适配能力。

四、典型应用场景:淘宝闪购业务实践

4.1 业务背景与挑战

淘宝闪购作为饿了么湖仓架构的重要应用场景,具有强数据驱动特征和业务快速变化的特点。传统的T+1时效已无法满足业务需求,近实时的数据处理能力成为业务成功的关键因素。

在线应用需求

在线应用场景包括用户投放、搜索推荐、营销定价、商物流实时联动等多个维度。这些场景都需要基于最新的数据状态进行决策,任何延迟都可能影响用户体验和业务效果。

业务决策支持

业务决策层面需要实时决策大屏、运营效率诊断、商家生意参谋、流量效率分析、AB实验体系等多种数据产品。这些应用要求数据不仅要实时,还要准确、一致。

监控预警体系

监控预警方面涵盖了库存监控、商户营业预警、业务风险监控、实时数据订正等关键场景。这些场景对数据的时效性和准确性都有极高要求。

4.2 解决方案设计思路

面对多样化的业务需求,饿了么采用了基于功能重要程度、查询频率、时效性要求、复杂度等多维度评估的交付策略。通过 Func(重要程度, 查询频率, 时效性, 复杂度)函数来确定最适合的数据解决方案。

4.3 典型案例分析

UV统计场景优化

UV 统计是一个典型的实时分析场景,常见于趋势图和同环比分析。挑战在于需要计算每分钟的天累计指标,这要求系统既要处理增量数据,又要维护准确的累计状态。

湖仓架构通过 Flink 的状态管理能力和 Paimon 的增量更新机制,实现了高效的 UV 去重和累计计算,既保证了计算的准确性,又满足了分钟级的时效性要求。

近实时AB实验

AB 实验系统对数据的实时性和准确性都有极高要求。传统架构下,实验数据的延迟可能影响实验效果的及时评估。湖仓架构通过实时数据流和统一存储,实现了 AB 实验数据的近实时处理,使得实验效果能够快速反馈,大大提升了产品迭代效率。

4.4 应用实践小结

通过淘宝闪购等业务场景的实践验证,湖仓架构在支持多样化业务需求方面表现出色。无论是在线应用的实时响应,还是业务决策的数据支持,或是监控预警的及时性,都得到了有效保障。

五、未来规划与技术展望

5.1 核心技术发展方向

饿了么的湖仓架构未来规划主要聚焦于三个核心技术链路和基础架构的持续优化。在众多可能的发展方向中,团队最关心和最想推进的重点项目是引入 Fluss 技术。

Fluss 技术引入计划

引入 Fluss 的主要动机有两个方面:首先是希望能够替换现有的 TT 方案;其次,Fluss 已经为团队勾勒了一个美好的技术蓝图。Fluss 与 Paimon 的结合能够实现热数据与温数据的一体化融合,这种融合将使得之前的"伪"流批一体方案升级为"真流批一体"方案,这是团队非常期待落地探索的技术方向。

湖仓与AI能力融合

湖仓与 AI 的结合一直是团队想要探索的重要方向。目前在 Alake 平台上已经有一些简单的 notebook 环境,可以支持基础的数据科学和简单的 AI 能力。但是更深层次的AI能力整合仍需要进一步发掘,特别是需要找到更多的落地场景来验证和完善这种结合的价值。

5.2 未来愿景与目标

饿了么对湖仓架构未来发展提出了四个重要愿景:

真正的流批一体

实现真正的流批一体架构,让数据流动像血液一样自然,消除批处理和流处理之间的界限。这不仅是技术架构的统一,更是数据处理范式的根本性变革。

智能化数据服务

构建智能化的数据服务体系,让数据工程师从"数据搬运工"转变为"智囊团"。通过自动化和智能化的数据处理流程,释放工程师的创造力,专注于更高价值的数据洞察和业务创新。

湖仓AI深度融合

推动湖仓与AI的深度融合,让数据不仅被分析,更能主动"思考"和"预测"。这种融合将为业务决策提供更加智能的支持,实现从被动响应到主动预判的转变。

开放生态体系

拥抱更加开放的生态体系,让不同的技术能够和谐共存,发挥各自优势。避免技术栈的单一化,通过开放的架构设计支持多样化的业务需求。

5.3 基于 Fluss & Paimon 的流批一体畅想

在具体的技术实现路径上,饿了么特别关注基于 Fluss 和 Paimon 的流批一体解决方案。这种组合有望实现真正意义上的流批统一,为未来的数据架构发展奠定坚实基础。

结论

饿了么基于 Flink 和 Paimon 的 Lakehouse 生产实践,不仅是一次成功的技术架构升级,更是企业数字化转型过程中的重要里程碑。从实时数仓的演进历程,到湖仓架构的落地实践,再到未来技术发展的前瞻规划,这个完整的实践案例为行业提供了宝贵的参考价值。

核心成果总结

通过湖仓架构的实施,饿了么实现了多个重要突破:数据一致性得到大幅提升,存储成本显著下降,研发效率明显改善,系统稳定性经受了大促考验。特别是 15 万以上 CU 规模的稳定运行,证明了湖仓架构在大规模生产环境中的可行性。

技术选型经验

在技术选型方面,Paimon 相对于 Hudi 在端到端延迟、流式更新稳定性、写放大控制等关键指标上的优势,为湖仓架构的成功奠定了基础。同时,Alake 平台的一站式开发环境和统一资源管理能力,大大降低了迁移成本和运维复杂度。

业务价值验证

通过淘宝闪购等典型业务场景的应用验证,湖仓架构在支持实时决策、在线应用、监控预警等多样化需求方面表现出色,真正实现了技术服务业务的价值转化。

未来发展方向

面向未来,饿了么的湖仓架构将继续朝着真正的流批一体、智能化数据服务、湖仓AI深度融合、开放生态体系等方向发展。特别是Fluss技术的引入和湖仓AI能力的深度融合,将为数据架构的下一轮创新提供强劲动力。

这个实践案例表明,湖仓架构不仅是技术趋势,更是企业数据能力提升的重要路径。随着技术的不断成熟和应用场景的日益丰富,湖仓架构必将在更多企业的数字化转型中发挥关键作用。

关于阿里云DLF

阿里云数据湖构建(Data Lake Formation,简称 DLF)是一款全托管的统一元数据和数据存储及管理平台,为淘宝闪购(饿了么)提供元数据管理、权限管理、存储管理、存储优化、版本管理、冷热分层等功能。DLF 基于 Lakehouse 湖仓一体架构,以 Paimon 为核心 Lakehouse Format,兼容 Iceberg,构建统一多模态湖表存储服务,支持结构化、半结构化、非结构化等多模态数据存储、管理、优化,通过智能算法和存储结构优化大幅提升数据读写及存储效率,如果大家对这个产品感兴趣,也欢迎到阿里云官网搜索新版 DLF 进行体验。


关于演讲者

王沛斌 现任饿了么大数据架构师,专注于大数据平台架构设计和湖仓技术实践。在实时数仓架构演进、流批一体化技术、湖仓生产落地等领域具有丰富的实战经验。主导了饿了么从传统实时数仓向现代湖仓架构的完整转型,在大规模生产环境下验证了湖仓技术的可行性和价值。


更多内容

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
6月前
|
存储 消息中间件 OLAP
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
本文整理自淘天集团高级数据开发工程师朱奥在Flink Forward Asia 2024的分享,围绕实时数仓优化展开。内容涵盖项目背景、核心策略、解决方案、项目价值及未来计划五部分。通过引入Paimon和Hologres技术,解决当前流批存储不统一、实时数据可见性差等痛点,实现流批一体存储与高效近实时数据加工。项目显著提升了数据时效性和开发运维效率,降低了使用门槛与成本,并规划未来在集团内推广湖仓一体架构,探索更多技术创新场景。
1293 3
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
|
7月前
|
消息中间件 存储 监控
Lalamove基于Flink实时湖仓演进之路
本文由货拉拉国际化技术部资深数据仓库工程师林海亮撰写,围绕Flink在实时数仓中的应用展开。文章首先介绍了Lalamove业务背景,随后分析了Flink在实时看板、数据服务API、数据监控及数据分析中的应用与挑战,如多数据中心、时区差异、上游改造频繁及高成本问题。接着阐述了实时数仓架构从无分层到引入Paimon湖仓的演进过程,解决了数据延迟、兼容性及资源消耗等问题。最后展望未来,提出基于Fluss+Paimon优化架构的方向,进一步提升性能与降低成本。
284 11
Lalamove基于Flink实时湖仓演进之路
|
7月前
|
存储 监控 数据挖掘
京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等。同时,文章详细介绍了基于StarRocks的湖仓一体方案,优化存储成本并提升查询效率,以及存算分离的应用实践。最后,对未来数据服务的发展方向进行了展望,计划推广长周期数据存储服务和原生数据湖建设,进一步提升数据分析能力。
668 1
京东物流基于Flink & StarRocks的湖仓建设实践
|
2月前
|
存储 JSON 数据处理
Flink基于Paimon的实时湖仓解决方案的演进
本文源自Apache CommunityOverCode Asia 2025,阿里云专家苏轩楠分享Flink与Paimon构建实时湖仓的演进实践。深度解析Variant数据类型、Lookup Join优化等关键技术,提升半结构化数据处理效率与系统可扩展性,推动实时湖仓在生产环境的高效落地。
278 0
Flink基于Paimon的实时湖仓解决方案的演进
|
6月前
|
SQL 存储 NoSQL
Flink x Paimon 在抖音集团生活服务的落地实践
本文整理自抖音集团数据工程师陆魏与流式计算工程冯向宇在Flink Forward Asia 2024的分享,聚焦抖音生活服务业务中的实时数仓技术演变及Paimon湖仓实践。文章分为三部分:背景及现状、Paimon湖仓实践与技术优化。通过引入Paimon,解决了传统实时数仓开发效率低、资源浪费、稳定性差等问题,显著提升了开发运维效率、节省资源并增强了任务稳定性。同时,文中详细探讨了Paimon在维表实践、宽表建设、标签变更检测等场景的应用,并介绍了其核心技术优化与未来规划。
568 10
Flink x Paimon 在抖音集团生活服务的落地实践
|
3月前
|
存储 分布式计算 数据处理
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。
432 0
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
3463 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
zdl
|
12月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
489 56

相关产品

  • 实时计算 Flink版
  • 下一篇