关于ZAKER 一起剪 合作 加入
砍柴网 2021-11-29

寒武纪发布新品思元 370:算力翻倍,客户适配表现超预期

继年初发布的思元 290 之后,寒武纪于 11 月初发布了本年度第二款新品思元 370,以及基于思元 370 的两款加速卡。这也是寒武纪的首款第四代产品。

思元 370 在算力上,基于台积电 7nm 制程工艺、整体集成 390 亿个晶体管的思元 370 最大算力达到 256TOPS(INT8),相比上一代思元 270 算力实现翻倍。

思元 370 还是寒武纪首款采用 chiplet(芯粒)技术的 AI 芯片,在国内应该也属于行业首颗 chiplet AI 芯片。由于思元 370 在一颗芯片中封装 2 颗 AI 计算芯粒(MLU-Die),每一个 MLU-Die 都具备独立的 AI 计算单元、内存、IO 以及 MLU-Fabric 控制和接口,不同 MLU-Die 可以组合规格多样化的产品,可以为用户提供适用不同场景的高性价比 AI 芯片。

值得注意的是,在架构上,思元 370 属于寒武纪第四代自研智能芯片架构,第一代架构 MLUarch00 主打智能加速 IP 核,第二代 MLUarch01 主打多核架构,第三代 MLUarch02 主打多核共享片内存储,本次发布的第四代 MLUarch03 拥有新一代张量运算单元,内置 Supercharger 模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代 MLUarch02 的 2 倍、片上共享缓存容量最高是 MLUarch02 的 2.75 倍;推出全新 MLUv03 指令集,更完备,更高效且向前兼容。凭借全新的我 MLUarch03,相较于峰值算力的提升,思元 370 实测性能表现非常亮眼:同功率性能超过 NVIDIA T4 两倍还多,完成同样的任务,功耗可以是 A10 的一半。

自思元 100 以来,寒武纪在三年之内已经连续推出三代云端 AI 芯片,最新一代产品在工艺制程、架构、指令集和软件等方面有了全面的提升,实现了同级芯片的顶尖水平。

特别值得一提的是,新品思元 370,是在去年三季度流片、相关加速卡产品在今年二季度陆续送测客户后才进行的发布。目前,部分客户已完成测试、导入,产品进入早期销售阶段。

百度异构计算架构师黎世勇就对寒武纪的思元 370 充满期待," 自 2018 年起,百度与寒武纪展开了多维度的软硬件协作,思元 100 等产品服务百度语音合成等多种业务场景。我们相信,随着思元 370 等新产品的落地,双方软硬件充分结合的生态势必将发挥更大的效能,助力人工智能行业多场景落地。"

思元 370 系列加速卡也已与国内主流服务器合作伙伴完成适配。浪潮信息副总裁、人工智能和高性能产品线总经理刘军表示:" 浪潮跟寒武纪长久以来保持着紧密合作,思元 370 在性能、能效等方面较之思元 270 均有大幅提升,我们期待双方未来能够携手为更多行业和领域提供人工智能计算相关服务。"

刘军还介绍了与寒武纪之前合作的进展:" 浪潮搭载寒武纪芯片的 AI 服务器已经在中国移动、互联网、智算中心等客户和行业中实现落地。"

有媒体专门求证了中国移动集采中标的知情人士,其提到,中国移动 2021 年至 2022 年人工智能通用计算设备集中采购中,整个标包三里的中标产品(浪潮、中兴)都有用到寒武纪的加速卡思元 270。

近年来,寒武纪在智慧金融、智慧能源、智慧交通等行业与合作伙伴共同完成了诸多落地案例。众所周知,芯片行业呈现典型的 " 投资前置,收益后置 " 特征,产品从起量到规模化量产销售需要一个相对漫长的过程,相比其他行业更难实现商业化的跳跃式发展。但从产品策略及落地应用角度看,寒武纪无疑切实跳出了 PPT,正稳健地践行着自己的 " 中立通用芯片设计公司 " 定位,切实为客户创造实际价值。

以上内容由"砍柴网"上传发布 查看原文
一起剪

一起剪

ZAKER旗下免费视频剪辑工具

一起剪

觉得文章不错,微信扫描分享好友

扫码分享