首页 > 商业 > 正文

阿里收购德国开源数据公司 押注双十一背后的实时流处理框架Flink

2019-01-12 07:00:00  21世纪经济报道 张涵

“与阿里的合作可以让我们上升一个新的维度,我们将有机会开拓新的领域,将公司成为更有价值的实时数据处理系统。” Data Artisan合伙人Kostas Tzoumas在新闻稿中表示。

在微软宣布GitHub免费开放私有代码库的同一天,阿里巴巴确认收购德国初创企业Data Artisan。后者创建的 Apache Flink是全球顶级的开源流处理框架,它不但是双十一大规模数据实时处理的秘密武器,更是荷兰国际集团、Netflix和Uber在内的国际巨头不可或缺的工具。

Data Artisans 由开源流处理框架 Apache Flink 的创建者 Kostas Tzoumas 等人于 2014 年创建。作为大数据流处理方面为数不多的前沿技术,Flink为企业部署大规模的数据处理解决方案,以便他们能够即时响应数据,并做出更好更快的业务决策。

远在此项投资公布的三年多前,阿里巴巴已经成为Apache Flink框架的用户。目前,阿里基于Flink开发的内部平台Blink已经广泛服务于阿里集团内外、包括广告、搜索等大量核心实时业务,并多次为双十一的极端运算要求赋能。

当地时间1月8日,德国媒体率先爆料后,阿里和Data Artisan纷纷发布新闻稿确认了双方合作的消息。

“我们相信这一战略合作将进一步加强Flink社区的发展,加速数据处理技术并为全球开发人员提供协作和建设性的开放环境。”阿里巴巴集团副总裁周靖人在新闻稿中表示。

从微软收购Github到IBM巨资334亿美元收购开源软件巨头红帽,收购具有独特技术和资源的开源企业,无疑是巨头们在 2018年最重要的并购趋势之一。而本次阿里的收购,代表了全球第三大云厂商对这一前沿领域的技术布局。

根据德国媒体报道,该项收购金额在9000万欧元,但双方官方均未确认金额。该公司曾在2016年获得英特尔旗下投资基金及Btov、Tengelmann Ventures共650万欧元的A轮融资,以及一轮未公开的B轮融资。

根据Market Insights Reports的数据,预计到2025年全球流媒体分析市场规模将达到477.5亿美元,从2017年到2025年将增长34.98%。

火爆流框架

城市车流快速移动、工厂流水线不等人、医院在排号、叫的外卖在快跑,打车、点餐、网购等等,人们无法忍受长时间等待,等待意味着订单流失。所以,毫秒级、亚秒级大数据分析就凸显极大价值。

随着大数据、人工智能的兴起及5G技术发展,即时性成为了各个领域的刚需。上述场景还可以延展至高速公路监测、ADAS 高级辅助驾驶、广告推荐、电商搜索推荐、股票交易市场、金融实时智能反欺诈等产业端。

据悉,Data Artisans所掌握的大数据流处理技术Flink可以在很大程度上解决越来越迫切的数据迅速处理问题。Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。

根据其官网显示,2014 年 Flink 作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。经过4年的快速发展,Apache Flink社区已经培养出了42名Committer和19名PMC Member。

以核心用户Netflix为例,大型视频内容服务的处理需求之大几乎是不可想象的。 每天有超过1.09亿的消费者,通过在线用户服务享受1.25亿小时的电视和电影内容。这对公司的数据提取管道和流处理引擎提出了很高的要求,这些引擎必须处理涉及12 PB数据和3万亿日常事件。

Netflix流处理管理员Steve Wu表示,Flink for Netflix的关键元素是它能够定位有状态标注的应用程序,包括支持事件的时间戳,例如回滚和重放视频等。

经过几年的发展,中国的互联网巨头也开始了流计算的广泛应用,腾讯、华为、滴滴、美团、字节跳动等公司也将 Flink 作为首选的流处理引擎。

阿里Blink野心

尽管鲜有人听说,但Flink技术距离我们并不遥远。每年双十一阿里总部大屏幕的实时成交数字,就是通过巨大的网络流量,汇总各地方的报表、数据库,在毫秒级别时间进行计算,并汇总为单一视图的方式。

根据阿里巴巴Flink平台开发负责人之一、高级技术专家王绍翾曾在接受InfoQ采访中表示,2015 年起,阿里巴巴就开始调研新一代流计算引擎。“我们当时的目标就是要设计一款低延迟、exactly once(一次就准确)、流(运算)和批(处理)统一的,能够支撑足够大体量的复杂计算的引擎。”

最终,Flink以高吞吐、低延迟的计算引擎、同时支持批处理和流运算等特性获得了阿里巴巴的青睐。

阿里巴巴计算平台事业部资深技术专家莫问曾在2018云栖大会的演讲中表示,阿里一直在寻找一种方式来开发一套统一的大数据引擎。“解决通用大数据计算需求,批流融合的计算引擎,才是大数据技术的发展方向,并且最终我们选择了Flink。”

基于 Flink,阿里巴巴搭建的平台于 2016 年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。

“彼时的 Flink 不管是规模还是稳定性尚未经历实践,成熟度有待商榷。”阿里巴巴实时计算团队在一篇文章中写道。团队决定在阿里内部建立一个 Flink 分支 Blink,并对 Flink 进行大量的修改和完善,让其适应阿里巴巴这种超大规模的业务场景。

在这个过程当中,该团队不仅对 Flink 在性能和稳定性上做出了很多改进和优化,同时在核心架构和功能上也进行了大量创新和改进 。

关于Flink在阿里巴巴的大规模应用,莫问披露,Flink最初上线阿里巴巴只有数百台服务器,目前规模已达上万台,此等规模在全球范围内也是屈指可数的;基于Flink,阿里内部积累起来的状态数据已经是PB级别规模;如今每天在阿里Flink的计算平台上,处理的数据已经超过万亿条;在峰值期间可以承担每秒超过4.72亿次的访问,最典型的应用场景是阿里巴巴双11大屏。

2018年4月,以Blink 为基础的阿里云实时计算正式商业化,使用用户已经超过2000家。在已有的用户中,实时计算主要应用于实时互联网数据分析、实时数据大屏、实时金融风控、电商实时推荐等诸多领域。

阿里集团内淘宝、天猫、天弘基金、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术,在集团外,也有包括众安保险、全民TV、新华智云、贵州茅台等诸多公司的应用案例。

巨头+开源

从微软到IBM,再到此时的阿里, 对以大数据、人工智能、云计算为核心的企业服务领域,开源的价值极其显著。与此同时,开源项目也需要足够多资金、项目和运营不断发展出更多的应能用领域。

华为云高级技术专家时金魁近日撰文认为,开源项目后面的商业公司若不在,项目本身必然走向灭亡,纯粹靠分散的发烧友的力量无法支撑一个成功的开源项目。

同样是在流计算领域,Flink尽管有一定技术优势,但仍然是竞争者众。 根据Newstack.com网站显示,流数据处理开源框架很多,如Google 的Beam,Intel 的Gearpump, IBM 的Edgent,这三家巨头都提前对流计算做出了布局。同时,Storm、LinkedIn的Samza也凭借独特的优势各领风骚。

业界认为,阿里对Data Artisans的收购无疑可以进一步整合Flink的整个生态资源,作出更有利于Flink发展的规划。“与阿里的合作可以让我们上升一个新的维度,我们将有机会开拓新的领域,使公司具有为更有价值的实时数据处理系统。” Data Artisan合伙人Kostas Tzoumas在新闻稿中表示。

根据阿里最新发布的消息,在本月之内,阿里也将把内部软件Blink开源给整个社区,这一凝结两年多阿里开发人员心血、助力阿里各项核心业务的软件即将被更多的企业和开发者使用。此外,阿里巴巴还将致力于推动 Flink 在生态上得到更多语言的支持,不仅仅是 Java、Scala 语言,甚至是机器学习下用的 Python、Go 语言。

业内人士分析,在云端、AI混战中,全球厂商都在寻找关键技术来提升自己的竞争优势。此次收购后,Flink必将转化为阿里云的核心竞争力之一。但在流分析服务方面,亚马逊和微软早已经实现托管的高速实时流分析服务,阿里云还需进一步完善。

(编辑:辛灵,如有任何问题或建议请联系:xinlingfly2007@163.com)