关于ZAKER 合作
雷科技 09-27

联想详解 AI 导向基础设施 “软硬一体”赋能四大场景

9 月 25 日,联想在杭州举办以 " 全栈智能 全程陪伴 " 为主题的新 IT 思享会,集中展示了联想基于新 IT 架构的全栈智能产品与服务,引领行业智能变革的强大实力。

当前,以 ChatGPT 为代表的 AI 模型席卷全球,不仅实现了 AI 技术质变性突破,还推动 AI 应用与产业融合,加速 AI 落地千行百业。

在此背景下,联想中国区基础设施事业部架构师耿太平在会上,重点详细解读了联想 AI 算力战略,以及具体落地实践。他表示:" 在实际业务实践中,联想 AI 导向的基础设施聚焦大模型训练、训推一体、AI For Science 和 AI 生成四大 AI 应用场景,提供软硬件整体方案来落地联想 AI 算力战略。"

(联想中国区基础设施事业部架构师耿太平)

锚定 AI 算力,聚焦四大场景打造 AI 导向基础设施

全球人工智能发展汹涌澎湃,算力规模不断攀升。截止 2021 年,中国的算力规模达到 203EFLOPS,仅次于美国位居世界第二,年增长率为 53%,高于全球平均的增长率 10 个百分点。会上,耿太平表示,目前 AI 算力规模已经超过通用算力,未来预计到 2026 年,仅中国的 AI 算力规模就会达到 1271.4 EFLOPS,年复合增长率达 52.3%,AI 算力成为算力发展的主要方向。

面对日益增长的 AI 算力需求,联想在今年 8 月,正式发布 AI 算力战略,全面打造以 AI 为导向的算力基础设施。耿太平介绍道,联想 AI 算力战略具备 AI 赋智和绿色赋能两大特征。其中,AI 赋智为,100% 算力基础设施产品支持 AI,50% 基础设施研发投入在 AI 领域,全面 AI 技术覆盖全域 AI 应用;绿色赋能是指,全面布局和引领液冷技术,打造液冷集群方案灯塔,以绿色算力基础设施助推智算产业可持续发展。

(联想全面打造 AI 导向的基础设施)

AI 算力战略引导下,耿太平分享称,在实际的业务实践中,联想推出了 AI 算力全栈全域框架,聚焦四大应用场景,提供软硬件的整体方案来推动 AI 战略不断落地。具体来看,联想不仅提供丰富的 AI 算力所需的基础设施,还通过整合不同算力需求的 AI 软件平台,高效覆盖大模型训练、训推一体、AI for Science 和 AI 生成四大应用场景,从而更好地赋能 AI 行业生态。

耿太平进一步阐述道:"AI 大模型训练服务器和 AI 训推一体服务器 +Lenovo AI Master 软件的方案,可以覆盖大模型训练和训推一体场景的应用;科学计算异构服务器 +LiCO 软件的组合,可以覆盖 AI for Science 场景的应用;AI 生成服务器 +NVIDIA OVE 软件的组合,可以覆盖 AI 生成场景的应用。"

截至目前,联想已成为全球第三大 AI 基础设施和服务器供应商,全面覆盖云端、边缘算力场景,同时满足 AI 大模型和传统模型的训练、推理需求,并实现 AI 应用场景的深度覆盖,目前已实现智慧制造、智慧医疗、地质勘探等领域的应用。

澎湃算力,构筑坚实 AI 基础设施底座

AI 通用大模型以燎原之势席卷全球,带动算力需求和参数量呈指数级增长,构建满足其发展的 AI 算力最为紧迫。

第一大场景是 AI 大模型训练。会上,耿太平分析称,Open AI 最新 GPT-4 模型算力需求是 GPT-3 的 59 倍,模型参数量是 GPT-3 的 10 倍以上。为满足大规模数据训练需求,AI 算力基础设施需具备纵向高性能扩展和横向灵活扩展能力。联想在今年 8 月推出的联想问天 WA7780 G3 AI 大模型训练服务器很好的满足了这一需求,具有澎湃性能巨幅提升、灵活架构按需配比和扩展不同算力等特点。

(联想问天 WA7780 G3 AI 大模型训练服务器)

性能方面,该服务器可提供 32PFLOPS 的 AI 算力,支持高达 400Gb/s 的高性能网络,拥有高达 640GB 的 HBM3 高速显存。由于搭载的 H800GPU 相较上一代的 GPU AI 性能有高达 3.44 倍的提升,同时升级了第 4 代 Tensor Core 和 Transformer 的引擎,使得大模型 AI 训练提升 9 倍,大模型 AI 推理性能提升 30 倍。灵活架构方面,该服务器通过采用了 GPU Direct Storage ( GDS ) 技术,让 GPU 与 NVMe 直接进行数据的通讯,同时实现 GPU 与 NVMe 灵活配比(1:1 或 2:1),大幅提高程序载入数据的速度,提升大模型训练的性能。

第二大场景是训推一体场景。为应对大模型推理和传统训练以及云游戏、模拟仿真等多元算力需求,联想问天 WA5480 G3 AI 训推一体服务器可支持业界主流的 PCle 规格的 AI 加速卡,可以按照场景要求模块化配置 GPU 算力。该服务器还支持丰富生态,通过对系统拓扑和结构的兼容性设计以及软件的调优,可支持 Intel、寒武纪、摩尔等多元 AI 芯片。此外,该服务器安全可靠,通过 N+N 冗余的电源设计和动态的软件监控,可确保无间断运行和稳定的性能。

可以看出,联想问天 WA7780 G3 AI 大模型训练服务器和 WA5480 G3 AI 训推一体服务器专为 AI 大模型而生,满足 AI 大模型所需的数据训练和推理需求。耿太平还表示,两款服务器在保证高性能的同时实现了低功耗运行。其中,联想问天 WA7780 G3 AI 大模型训练服务器通过创新三层独立风道设计,根据不同的部件,散热特征进行优化,可以节省散热功耗 1000 瓦。

绿色算力,加速 AI 技术高效利用

除了 AI 大模型蓬勃发展, AI 技术与产业融合带动 AI 应用不断落地掀起产业智能化变革。联想不仅聚焦通用人工智能领域,还看重 AI 与产业深度融合,致力于为行业智能化变革打造算力 " 新基建 "。

第三大场景是 AI for Science,科学计算和 AI 在加速融合。一方面 AI 算法科学应用实现了创新发展。如在气象领域,ForecastNet 模型可将气象预测的速度提升 4.5 万倍。在生命科学领域,Alpha Fold2 可以帮助科学家精准预测蛋白质的结构。另一方面,针对计算密集型应用,原来在 CPU 上的科学算法在不断向异构计算进行迁移,如材料科学领域的 VASP 和冷冻电镜 RELION,因此当前科学计算算力基础设施既需要满足传统的科学计算,又需要兼顾日益增长的 AI 需求。

基于此,联想推出了科学异构计算服务器——联想 Think System SD650-I V3。这款服务器可实现异构多元,CPU 和 GPU 的比例是 1:2,可以进行最佳的异构计算。此外,GPU 的双精度算力单节点额可达到 210TFLOPS,GPU 之间可通过 XeLink 进行高速互联。该服务器还具有极致高密和绿色节能的特点:42U 整机柜可以支持多达 144 颗 GPU,提供 7.5PFLOPS 的双精度算力; PUE 小于 1.1, 全水冷设计,零噪音,可支持余热回收。

(联想 Think System SD650-I V3)

最后一个是 AI 生成场景,即 AI 生成技术与各行各业深度结合,在未来数字工厂、数字孪生地球、火势蔓延模拟、5G 信号模拟等虚拟应用场景加速落地,不断刷新 AI 创新行业的想象力。而这些应用背后都需要强大的 AI 算力支持,逼真且低延迟的渲染能力、整合离散的设计工具和协同多人在线实时工作能力等。

联想在这些领域进行了领先布局,推出了 AI 生成 OVX 基础设施方案。该方案包含高速全闪存储(DSS-G)用于存放海量的数据、国内首款 OVX3.0 认证的 AI 生成服务器,OVX SR675 V3,搭载英伟达 Omniverse Enterprise 软件一起来提供 AI+ 渲染能力,同时可实现多种软件工具和多人多地的在线实时协作,还包含高速的交换机,为纵向和横向的扩展部署提供便利。

(联想 AI 生成 OVX 基础设施方案)

耿太平表示,在 AI 浪潮下,AI 正加速与产业融合推动智能生产力重塑产业。联想将以 AI 赋智、绿色赋能全面打造 AI 导向算力基础设施建设,为助力 AI 赋能行业提供源源不断的发展动能。

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享