关于ZAKER 合作 加入

1.2 万亿晶体管,史上最大半导体芯片诞生,比最大的 GPU 大 56.7 倍

1.2 万亿晶体管,史上最大半导体芯片诞生,比最大的 GPU 大 56.7 倍

大数据文摘编辑部出品

来源:venturebeat

之前文摘菌报道了一家印度初创公司打着 AI 的旗号,干的却是人工的活,还拿到了 2950 万美元的融资。

但是大部分 AI 公司拿到融资还是真正去做 AI 的,比如这家名叫 Cerebras 的公司,在 2016 年也获得 2500 万美元的投资用于开发深度学习硬件设备。

如今,研究终于出了成果。据 ventruebeat 报道,Cerebras 推出了拥有 1.2 万亿晶体管的史上最大半导体芯片。

看来投资人可以松口气了。

1.2 万亿晶体管构建,史上最大芯片

1971 年英特尔首款 4004 处理器拥有 2,300 个晶体管,最近的 Advanced Micro Devices 处理器拥有 320 亿个晶体管。而这款史上最大的芯片 Cerebras Wafer Scale Engine 拥有 1.2 万亿个晶体管。

大多数芯片是在 12 英寸硅晶片上创建芯片集合,并在芯片工厂中批量处理。但 Cerebras Systems 芯片是在单个晶圆上互连的单芯片。这些互连设计使其全部保持高速运行的状态,因此 1.2 万亿个晶体管全部一起工作。

通过这种方式,Cerebras Wafer Scale Engine 是有史以来最大的处理器,它专门设计用于处理人工智能应用程序。该公司本周正在加利福尼亚州帕洛阿尔托的斯坦福大学举行的 Hot Chips 会议上讨论这项设计。

此前三星已经制造了一个很大的闪存芯片,即 eUFS,拥有 2 万亿个晶体管。但 Cerebras 芯片专为流程加工而设计,拥有 400,000 个内核,42,225 平方毫米。它比最大的 Nvidia GPU 大 56.7 倍。

WSE 还包含 3,000 倍的高速片上存储器和 10,000 倍的存储器带宽。

40 万 AI 优化的计算内核

WSE 包含 400,000 个 AI 优化的计算内核(compute cores)。被称为 SLAC(Sparse Linear Algebra Cores),计算内核灵活,支持编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。SLAC 的可编程性确保内核可以在日新月异的机器学习领域中运行所有神经网络算法。

由于稀疏线性代数内核针对神经网络计算进行了优化,因此它们可实现业界最佳资源利用率——通常是图形处理单元的三倍或四倍。此外,WSE 内核包括 Cerebras 发明的稀疏性收集技术,以及加速稀疏工作负载(包括 0 的工作负载)的计算性能,如深度学习。

0 在深度学习计算中很普遍。通常,要相乘的向量和矩阵中的大多数元素都是 0。然而,乘以零是浪费资源,功率和时间的行为。

因为 GPU 和 CPU 是密集的执行引擎——引擎的设计是永不遇到 0 ——它们即使在遇到 0 时也会进行计算。当 50%-98%的数据为零时,比如深度学习中的情况,大多数乘法都没有意义。而 Cerebras 稀疏线性代数内核不会乘以零,所有零数据都会被过滤,直接在硬件中跳过,从而可以释放资源完成其他有用的工作。

更靠近计算的内存

内存是计算机体系结构的关键部分。更接近计算的内存意味着计算速度更快、更低的延迟和更好的数据移动效率。高性能深度学习需要大量计算,并且频繁访问数据。这需要计算内核和存储器之间的紧密接近,这在 GPU 中并非如此。

Cerebras Wafer Scale Engine 则包含更多内核,具有比迄今为止任何芯片都有更多的本地内存,并且在一个时钟周期内可以通过其内核访问 18GB 的片上内存。WSE 上的内核本地内存集合可提供每秒 9PB 的内存带宽——比领先的 GPU 多 3,000 倍的片上内存和 10,000 倍的内存带宽。

低延迟,高带宽的通信结构

Swarm 通信结构是 WSE 上使用的处理器间通信结构,它以传统通信技术的功耗的一小部分实现突破性带宽和低延迟。Swarm 提供低延迟,高带宽的 2D 网格,可连接 WSE 上的所有 400,000 个核,每秒带宽为 100 petabits。Swarm 支持单字活动消息,可以直接通过接收内核来处理。

路由、可靠的通信和同步在硬件中处理。消息会自动激活每个到达消息的应用程序处理程序 Swarm 为每个神经网络提供独特的优化通信路径。软件根据正在运行的特定用户定义的神经网络的结构,配置通过 400,000 个内核的最佳通信路径以连接处理器。

一个 Cerebras WSE 的总带宽为每秒 100petabits,不需要诸如 TCP/IP 和 MPI 之类的通信协议。并且该架构中的通信能量成本远低于 1 焦耳每比特,这比 GPU 低近两个数量级。通过结合大的带宽和极低的延迟,Swarm 通信结构使 Cerebras WSE 能够比任何当前可用的解决方案进行更快地学习。

解决了大芯片制造的技术挑战

承担计算任务的芯片尺寸在 AI 应用中非常重要,因为更大的芯片可以更快地处理信息,在更短的时间内得出结果。训练时间的减少,可以使研究人员能够进行更多测试,使用更多数据并解决新的问题。谷歌、Facebook、OpenAI、腾讯、百度都认为,今天人工智能的基本限制是训练模型需要很长时间。因此,训练时间是整个 AI 行业进步的主要瓶颈。

当然,一般芯片制造商不会生产这么大的芯片是有原因的。在单个晶圆片上,在制造过程中通常会出现一些杂质。如果一个杂质可以导致芯片的故障,那么晶圆片上的多个杂质就会击穿几片芯片。从而导致实际的效益只是实际工作的芯片的一部分。如果晶圆片上只有一个晶片,那么它含有杂质的可能性是 100%,杂质会使晶片失效。但是 Cerebras 芯片是设计成冗余的,所以一个杂质不会使整个芯片失效。

" 而设计的人工智能工作,Cerebras WSE 包含基本的创新,解决了几十年以来限制芯片尺寸的技术挑战,如 cross-reticle 的连接性、产量、功率输出和包装,"Cerebras 的创始人兼 CEO Feldman 在一份声明中说," 每一个架构决策都是为了优化人工智能工作的性能,其结果是,Cerebras WSE 在功耗和空间很小的情况下,根据工作负载提供了现有解决方案数百或数千倍的性能。"

Linley Group 首席分析师 Linley Gwennap 在一份声明中表示:"Cerebras 在晶片规模的技术上取得了巨大进步,在一块硅片上实现的处理性能超出想象。" 为了实现这一壮举,该公司已经解决了困扰该行业数十年的一系列工程挑战,包括实现高速模对模通信、解决制造缺陷、封装如此大的芯片、提供高密度电源和冷却。通过将不同学科的顶尖工程师聚集在一起,Cerebras 创造了新技术,并在短短几年内交付了一个产品,这是一个令人印象深刻的成就。"

关于 Cerebras 公司

Cerebras 是一家致力于加速深度学习的计算机系统公司,其联合创始人兼首席执行官 Andrew Feldman 是一位致力于推动计算领域的企业家。

在加入 Cerebras 之前,他是 SeaMicro 的联合创始人兼首席执行官,SeaMicro 是节能,高带宽微服务器的先驱。SeaMicro 于 2012 年被 AMD 以 3.57 亿美元收购。在 SeaMicro 之前,Andrew 曾担任 Force10 Networks 的产品管理,营销和 BD 副总裁,后来以 8 亿美元的价格出售给戴尔计算机公司。在加入 Force10 Networks 之前,Andrew 在 RiverStone Networks 担任营销和企业发展副总裁,从公司成立到 2001 年首次公开股,Andrew Feldman 拥有斯坦福大学的 MBA 学位。

Andrew Feldman

网友在 twitter 上的评论也是众说纷坛,有提问此芯片是否是加速器的独立芯片?

还有关于保持散热、稳定方面的疑问:

多数网友持乐观的态度,认为这是令人印象深刻的第一个芯片,在朝正确的方向迈进!

相关报道 :

https://venturebeat.com/2019/08/19/cerebras-systems-unveils-a-record-1-2-trillion-transistor-chip-for-ai/amp/?from=timeline

实习 / 全职编辑记者招聘 ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京 · 清华东门,在大数据文摘主页对话页回复" 招聘 "了解详情。简历请直接发送至 zz@bigdatadigest.cn

点「在看」的人都变好看了

相关标签 高铁

觉得文章不错,微信扫描分享好友

扫码分享