关于ZAKER 宙世代元宇宙 ZAKER智慧云 免费视频剪辑 合作 加入
钛媒体 2022-12-07

阿里巴巴深度用云背后透露哪些技术趋势?

图片来源 @视觉中国

技术周期和商业周期并不总是同步,从历史发展来看,每一次商业周期的下行阶段,常常伴随技术周期新的开端。

过去两年,全球云计算基础设施投资已经超过了传统 IT 领域的技术投资,世界正在加速驶向云计算。在 2022 年财报里,阿里巴巴披露了其用云支出达到了 200 多亿。在前段时间的云栖大会上,阿里技术风险与效能负责人张瓅玶表示,经过持续多年上云用云,今年阿里巴巴集团在 PaaS(包括大数据、机器学习平台、数据库中间件等)支持的业务形态中支出占用云总成本达 43%。与此同时,阿里巴巴今年也正式确立了以 " 云原生 " 作为集团整体技术架构的战略,正式进入 " 全面云原生深度用云 " 阶段。

在外界对阿里巴巴深度用云的诸多解读中,增效降本成为了一个避不开的话题。的确,增效降本确实是企业数字化转型的最关键的目标,但对于阿里巴巴来说,增效降本只是深度用云的效果之一,这背后的更多深意是一家中国互联网公司在技术长征路上,不断创新和探索的新故事。

新一轮的科技变革正在深入发展,以云为核心的新型计算体系正在形成,软件研发范式也正在发生新的变革。" 深度用云 " 更高层次的意义在于对计算体系结构的创新,以及以此而带来的长尾创新,这包括数据库、芯片等核心技术领域的自研突破,以及企业本身生产经营范式等面临的大变化。

作为全球首家将所有业务放在公共云上的科技企业,阿里巴巴在过去十年经历了云计算能力从单点试验到规模化应用的跃迁式变革。从 " 阿里巴巴上云 " 到 " 云上的阿里巴巴 ",阿里正在引领一个全面深度用云的时代。这种底层自研技术的进化,将带来未来业务的敏捷创新及消费体验的变革,引领商业与社会系统走向更全面深度的融合。

深度用云 " 先行者 "

阿里巴巴首席技术官程立曾公开表示,云计算开启了开源新时代——云是数字世界的基座,云也为开源软件提供了最佳运行环境,云 + 开源共同成为数字世界的根。云与开源的结合,将激发基础软件和技术的进一步创新。

2009 年创立之时,阿里巴巴就启动了搜索、推荐业务上云。搜索推荐业务对技术性能有极致的要求,彼时阿里云的云技术尚未成熟。2015 年,阿里电商业务增长,开始双 11 弹性上云以解决大促资源的计算缺口。2019 年阿里巴巴实现核心系统上云,因为淘宝、天猫等业务体量庞大,一开始的阶段最主要关注技术架构的性能稳定性。

到了 2020 年,阿里巴巴开始实现全面云原生化,直至 2021 年阿里完成了包括电商主营业务在内的数千万核心算力、数万应用的全面上云。

从阿里巴巴深度用云的过程可以看出,早期的云计算技术发展更关注自身产业链的完整,补足从基础设施、平台到应用的各个层次。如今,以云原生为代表的新一代云计算技术,重在提升效率,赋能业务生产,这是技术逐步发展成熟的一个标志。

阿里巴巴自身作为阿里云的真实客户,通过十多年来业务的实际需求和系统演进,协助打磨提升了阿里云的核心能力,实现了阿里自研技术能力的提升,这在后来成为阿里云能更好服务外部客户的基础前提。

" 阿里云的技术需要满足每一个超越当下产品能力的要求,而这个过程,也有效促进了阿里云的技术不断成长,帮助内部节省成本,也给行业、客户提供了重要的价值。" 张瓅玶补充道。

在阿里看来,通过用好云能够实现整体的增效降本,并且实现基础软件和硬核技术创新。借助用好云和自研技术组合,也推动了自身业务增长以及用户和商家体验创新。更重要的是,这将改变企业内部技术人才设计,更有效利用和释放云的能力。

以云计算发展历程来看,用云形态主要包括 IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)三类。企业在数字化转型初期,主要借助云计算能力构建 IaaS 资源平台,统一云上云下资源以提升效率。

随着大数据、AI 产业发展,带来了算力需求的变化,用云形态也发生改变,对 PaaS 投入比重高,意味着用云进入深入阶段。据 IDC 报告显示,2021 年中国公有云(IaaS+PaaS)市场 PaaS 支出占比为 16.8%。

据张瓅玶介绍,在 2022 年的用云支出里面 IaaS 层的比例是 57%,而 PaaS 层,包括大数据、中间件等占到了 43%,相比之下,阿里巴巴在 PaaS 投入比重已超过业内平均水平。这样的高占比的支出,也是一个典型的深入用云的标志。

在阿里看来,未来三年 PaaS 的比重还将持续增加。由于业务形态对算力增长的需求会倾斜在大数据 AI,这一侧的增长随着技术发展会指数增长的,例如图像识别的模型去年到今年就有了 10 倍规模的提升。机器学习、大数据支持用户的体验,要增长一两个百分点的效率,模拟训练就要扩大很多倍,这也是 PaaS 占比持续提升的原因。

基于全面弹性架构,构建未来的数字世界

这种 " 灵活弹性 " 效果在今年的双 11 体现得淋漓尽致。

今年双 11 是三峰叠加的第一年,在 11 月 10 号晚上 8 点开始,用户发现:下单、预售尾款支付、退款功能都同时打开了。即使在下单高峰期,消费者也可以随时随心想退就退。

应对三峰叠加压力的背后,和阿里的深度用云、全面弹性能力密不可分。

实际上,每年双 11 开卖的那一刻,千万用户同时在线下单,导致瞬间服务器的压力是平时流量的数百倍,为了保障稳定,阿里每年要提前买很多机器保障大促,只要交易不出问题、系统不出问题,即使很多体验会因此折损,也是成功的。

今年,阿里开始非常关注用户体验,云计算全面弹性的优势也发挥了出来。弹性的架构能力使得业务能够部署到公有云的全球站点,具备全球站点快速拉起服务的能力。所以,今年的双 11 从信息流到详情、店铺、购物车等核心链路,包括各层面的基础设施都发生了很多变化。

借助云的随申随用,弹性资源供给能力,不仅可以支持流量峰值、提供性价比更优的算力支撑,研发运维、大促保障的方法也正在发生相应的改变。

张瓅玶表示: " 成本要以业务单位算力成本来看,而非传统认知中把物理机器成本做简单的分摊。既要看到整个机房和集群的分配、闲置的影响,也要看到业务架构、资源利用率水平,存储和网络的弹性能力等对成本和效能的影响。"

以阿里推动上云业务升级的云产品 Flink 为例,业务主体在两个月时间内就完成了云上迁移,并实现了性能提升 30% 以上,成本下降 30%,整个过程不需要关注原有集群机器闲置成本以及产品研发团队投入。

在过去三年,阿里从核心系统上云、到全面深度用云,已经正式实现了从统一调度到全面 FinOps(云成本优化)实践,即运用成本管理体系支撑优化,通过云计算的弹性能力实现了机器闲置率下降和支持峰值分配率的提升、神龙虚拟化架构带来的 CPU 利用率提升、以及存储、网络弹性成本下降,最终带来业务整体单位算力成本下降。

除了成本优化,全面深度用云也带来了阿里业务的敏捷创新。通过用云产品灵骏智能计算快速实现超大规模机器学习模型训练交付,在大规模稀疏场景中,训练万亿样本数据时间从两周缩短到半周,提效四倍,训练集群成本下降 50%。

通过对阿里集团调用量最大的数据库之一 Tair 的用云优化,今年双 11 淘宝购物车扩容技术以轻量化连接、异步支持技术支撑起超大连接数,使单集群访问流量达到 100GB/s,承载数亿用户同时在线加大购物车。

据介绍,今年阿里使用了 60 多款重点 PaaS/SaaS 产品,这些产品全球多 region 开箱即用、无需运维维护,减少了大量运维成本,并实现了随时弹性。

在阿里巴巴看来,未来的数字世界,必须基于弹性、敏捷的架构来构建,全面深度云原生化则是实现弹性、敏捷的必由之路。随着 " 全面深度云原生化 ",也将打开越来越多的限制、创造更多的业务可能性。

从 " 深度用云 ",看阿里的技术进化

经历了十多年的业务实战,阿里早已预判未来业务、技术架构、相互依赖将变得越来越复杂,而开发者面临的技术挑战也将越来越巨大。阿里希望不仅只是依靠云的能力来优化成本,还应全面升级研发模式和应用架构,来帮助开发者提效。

Serverless 就是关键的发展趋势之一。

今年,阿里巴巴内部确立了以 " 云原生 " 作为集团整体技术架构的战略,向 Serverless 化迈进,以实现更加弹性和敏捷的系统架构。同时阿里云也在今年的云栖大会宣布核心产品走向全面 Serverless,云正在通过产品能力提升致力让开发者用云就像用电一样简单,为云上业务敏捷提供更强力的支撑。

基于 Serverless 架构,云上研发方式正在发生根本性的改变。开发者不需要关心过多的资源配置等工作,直接在云上高效进行研发、运维、部署、建站。Serverless 还能够降低软件开发门槛,提供更多的预制模块,大幅提高软件生产效率,开启云上研发新模式。

程立表示,云原生 Serverless 化正在加速重塑阿里应用架构和研发模式。

今年双 11,淘宝首页就实现了 100% Serverless 化,通过更轻量灵活规范地用云,实现了应用轻量化和运维效率的显著提升,应用部署时长缩短一半。

Serverless 将让云计算从一种资源真正变成一种能力。当云计算全面 Serverless 化,客户不再需要关心运维问题,只需要关注开发业务逻辑,充分利用云的弹性能力,让应用依赖标准化云服务,让应用可以随时在云上环境弹性部署、随申随用云资源,帮助开发者和企业实现敏捷创新。

值得一提的是,阿里正在努力向社会化大协同迈进,还将不少技术完全开源给全社会。

其一是大规模搜索技术。Havenask 是阿里巴巴内部广泛使用的大规模分布式搜索引擎,是阿里电商搜索和推荐业务中最核心部分的图化引擎之一。它的实时检索效率高,能够支持千亿级别数据实时检索,百万 QPS 查询,百万 TPS 高时效性写入保障,毫秒级查询延迟和数据更新。Havenask 支持了淘宝、天猫、菜鸟、优酷在内的整个阿里巴巴集团的搜索业务,也是过去十多年阿里在整个电商领域积累下来的核心竞争力的产品,在今年双 11 期间正式开源。不仅是在电商、互联网行业,借助大规模搜索系统,将会有更多产业实现效率升级和体验进步。

其二是大规模混部系统。阿里巴巴早在 2016 年就启动了混部技术研发,作为云原生混部的践行者,阿里巴巴是真刀真枪地在生产环境中推进混部技术理念,在 2021 年双 11 就实现了混部技术全面升级,支撑了全球数十个数据中心、数百万容器、数千万核的大规模资源调度。

为了帮助企业更快速获取云原生混部带来的资源效率红利,阿里在今年开源了 Koordinator 项目,并在云栖大会发布了 Koordinator 1.0,在标准化、通用化上做出了更多的突破。Koordinator 可以解决企业应用混部的过程中面临的两大挑战:应用如何接入到混部平台;应用如何在平台上能够运行稳定、高效 ,帮助企业真正意义上的用上混部,提高全局的资源利用效率。从 2022 年 4 月正式开源以来,Koordinator 社区吸引了包括阿里巴巴、小米、小红书、爱奇艺、360 在内的企业参与贡献。

秉持着开放共赢的态度,阿里巴巴将技术大规模开源,持续降低使用门槛,让技术融入社会的方方面面。

阿里巴巴的深度用云之路,也给各行各业建立了新的范本。庞大的技术投入要聚焦于自身的核心竞争力,其次,还要有架构和研发模式升级的决心。

基于当下,探索未来。不管是 Serverless,还是开源,阿里巴巴技术探索的未来,就像程立说的那样:" 让所有人都可以使用,而且可以直接在云上使用。"

(本文首发钛媒体 App)

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App