作者 | 丸都山
编辑 | 苗正卿
头图 | 虎嗅拍摄
7 月 26 日,世界人工智能大会(WAIC)在上海正式拉开帷幕。
在展会现场,具身智能无疑是最备受瞩目的行业。从灵活完成格斗动作的人形机器人,到能精准执行家务、康复辅助的服务型机器人,这些具备物理交互能力的智能体凭借流畅的动作、自然的交互赚足了观众眼球。
然而,在这场科技盛宴中,当人们沉浸在具身智能带来的震撼体验时,人工智能产业的核心底座——以芯片、板卡、服务器、计算集群等为核心构成的算力基础设施,依然是整个行业绕不开的关键话题。
往年展台上随处可见的 " 参数竞赛 " 已悄然淡去,各厂商送展的芯片和服务器展品中,很少再有将某项极致性能参数用醒目字体刻意标记出来的情况。
曾经被重点标注的技术指标,如今更多地融入到具体的产业解决方案中,或是隐藏在真实的应用场景演示里。
现场的讨论也多是基于 " 碎片化算力资源统筹 "、" 低功耗与低成本 " 与 " 垂类产品软硬件整合 " 这些非常务实的话题。
全链路国产化进行时
在算力基础设施的务实转型浪潮中," 全链路国产化 " 的推进节奏尤为引人关注。
过去几年,全球供应链波动引发的芯片断供风险,以及核心技术 " 卡脖子 " 的现实挑战,反复挑动着国内人工智能产业的神经。在全行业已默契达成 " 居安思危 " 共识的背景下,即便部分产品应用尚未受到外部限制,国内算力基础设施厂商也主动将国产化的边界从单一芯片突破,拓展至从架构设计、软硬件生态到产业落地的全链路自主可控。
这种主动出击的国产化实践,在本届 WAIC 的展台间随处可见。
从芯片底层架构的自主研发,到操作系统、编译器等软件工具链的国产化适配,再到与本土服务器厂商、行业应用企业的深度协同,一条贯穿 " 芯片—软件—整机—场景 " 的国产化链条正在加速成型。
刚刚提交上市辅导备案的沐曦,算是其中较为典型的代表。
本届展会上,沐曦首次公开展示了其最新研发的训推一体 GPU 曦云 C600。据悉,其采用自研的 XCORE 1.5 架构及指令集,面向云端人工智能训练与推理、通用计算、AI for Science 等计算任务,且拥有丰富的标量、矢量和张量计算单元,支持多种混合精度计算。
鉴于曦云 C600 在本月刚刚回片,展会上并未出现基于这枚芯片打造的板卡及服务器。
而基于上代产品曦云 C500 系列芯片,沐曦在现场展示了 PCIe 服务器、OAM 服务器和光互连服务器解决方案,这些服务器基本都实现了 " 全链路国产化 ",即从编译器、驱动程序,再到卡间互联协议完全自研,或是第三方国内合作伙伴打造。
该公司打造的 " 刹那 " 系列 TPU,采用完全可控的 IP 核与自研指令集、计算平台,其可重构多级存储、存算一体的设计,配合 Chiplet 技术实现 2.5D 封装,在相同 AI 计算任务下能耗可降低三成。
据现场工作人员介绍,目前 " 泰则 " 计算集群系统,已完成对 AIGC 大模型计算、高级无人驾驶模型训练、蛋白质结构精密预测在内的各类高强度运算场景的适配。
下沉到场景中
在两个月前的鲲鹏昇腾开发者大会上,作为华为今年来在算力基础设施上的集大成者,"384 超节点 " 被首次公开,基于昇腾超节点技术,实现了业界规模最大的 384 卡高速总线互联。
在场景适配上,基于昇腾软硬件能力、训练与推理解决方案及开源开放的软硬件生态,华为联合伙伴展示互联网、运营商、金融、政务、医疗、油气、交通等行业解决方案实践。
另一家国产 GPU 企业摩尔线程,在现场展示的场景适配上则要更加细致。
在摩尔线程展位,该公司共带来了包括生命科学、物理仿真、空间智能、视频超分在内的 12 项面对不同行业打造的 Demo。
令笔者印象较为深刻的是视频超分技术 MTVSR。该技术可在端侧提供 2-4 倍的视频实时超分,并提供多档质量设定,能够显著提升低分辨率视频在高分辨率屏幕下的播放清晰度,且以 SDK 形式支持播放器、浏览器等 APP 集成调用,可为终端用户提供无缝的视频超分体验。
华为以超节点技术夯实大模型训练的算力底座,通过广泛的行业适配构建生态护城河;摩尔线程则聚焦细分场景,用轻量化技术方案打通算力应用的 " 最后一公里 "。两者虽聚焦不同层面,但却很好地反映出了眼下国产算力基础设施所呈现出 " 高低搭配、全域覆盖 " 的发展态势。