关于ZAKER 合作
量子位 18分钟前

DeepSeek 突然拥抱国产 GPU 语言!TileLang 对标 CUDA 替代 Triton,华为昇腾 Day0 官宣支持适配

DeepSeek v3.2 有一个新改动,在论文里完全没提,只在官方公告中出现一次,却引起墙裂关注。

开源 TileLang 版本算子,其受关注程度甚至超过新稀疏注意力机制 DSA,从画线转发的数量就可以看出来。

海外社区也注意到 DeepSeek 使用了它而不是 OpenAI 开发的 Triton 语言。

有接触过的开发者感叹 TileLang 是一种非常优雅的语言,只需不到 100 行代码就能写出比 Flash Attention 2 原版快 30% 的注意力实现。

那么什么是 TileLang,又为何引人瞩目?

首先,TileLang 是一种专门用来开发 GPU 内核的领域专用语言,性能上可以对标英伟达 CUDA,DeepSeek 官方推荐使用此版本做实验,在方便调试和快速迭代上有优势。

更重要的是,TileLang 与国产算力生态适配,连华为昇腾都要在第一时间公告对 TileLang 的支持。

在几周前的华为全联接大会 2025 的开发者日上,TileLang 团队成员董宇骐就介绍了 TileLang 实现 FlashAttention 算子开发,代码量从 500+ 行减少至 80 行,并保持了与官方版本持平的性能。

此外 TileLang 团队成员王磊和沐曦集成电路的高级总监董兆华也在同一个圆桌沙龙上出现过,讨论了沐曦 GPU 与 TileLang 的适配。

DeepSeek 为什么选择 TileLang

DeepSeek 与 TileLang 第一次同框亮相,其实是在 6 月的北京智元大会。

在 DeepSeek 实习过的北大博士袁境阳,在报告中就提到 "TileLang 的算子实现会更快一点 "。

TileLang 的发起人之一,北大博士研究生王磊当时还专门发帖感谢 DeepSeek 尝试他们的语言。

TileLang 由北大团队主导开发,核心人物除了王磊、董宇骐,还有北大计算机学院的副研究员、博士生导师杨智。

2025 年 1 月,TileLang 在 GitHub 上正式开源,至今已获得 1.9k 标星。

简单来说,Tile 语言 ( tile-lang ) 是一种简洁的领域专用语言,旨在简化高性能 GPU/CPU 内核的开发。tile-lang 采用 Python 式语法,并在 TVM 之上构建底层编译器基础架构,使开发者能够专注于提高生产力,而无需牺牲实现最佳性能所需的底层优化。

王磊曾在 7 月 HyperAI 超神经主办的 Meet AI Compiler 技术沙龙分享 TileLang 的核心设计理念:

将调度空间(包括线程绑定、内存布局、张量化和流水线等)与数据流解耦,并将其封装为一组可自定义的注解和原语。这种方法允许用户专注于内核的数据流本身,而将大部分优化工作交给编译器完成。

TileLang 将 "Tile" 作为编程模型的核心概念,通过显式的 Tile 抽象,让开发者能够直观地控制数据在全局内存、共享内存和寄存器之间的流动。

TileLang 提供了三个不同层次的编程接口,满足不同水平开发者的需求。

初学者可以使用硬件无关的高层接口,专注于算法逻辑而不必关心底层细节。

有经验的开发者可以使用 ile Library,这里包含了各种针对不同硬件架构优化过的预定义操作。

对于追求极致性能的专家用户,TileLang 还提供了线程原语级别的控制,允许他们直接操作线程同步、内存合并等底层特性。

DeepSeek 显然就属于追求极致性能的专家用户了,根据 v3.2 公告的说法,在早期 DeepSeek 团队使用 TileLang 快速开发原型,之后用更底层的方法进一步优化性能。

v3.2 论文中提到在内核层面共享 k-v 提升计算效率,让 DSA 的闪电索引器机制(lightning indexer)运行速度远超传统实现。

在 TileLang 的文档中也有相关的技术介绍,在计算过程中缓存中间数据,比全局内存快得多。

TileLang 与 DeepSeek 双向奔赴

更早之前,在 DeepSeek 连续一周发布开源代码库的第一天,王磊就曾向 DeepSeek 团队推荐 TileLang 语言。

后来 TileLang 也以 DeepSeek 在这天发布的 FlashMLA 内核作为评测基准,在 H100 上的 MLA 解码速度,TileLang 编写的内核做到与 FlashMLA 相当。

在最新的 DeepSeek v3.2 发布之后,王磊也发帖致敬 DeepSeek 敢于使用一门新的编程语言来开发核心产品。

并且 DeepSeek v3.2 也验证了 TileLang 确实可以用来训练模型。

DeepSeek V3.2 技术报告:

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

TileLang:

https://github.com/tile-ai/tilelang

参考链接:

[ 1 ] https://x.com/Lei_Wang_1999/status/1932331703747698786

[ 2 ] https://x.com/nathancgy4/status/1972613835598299245

[ 3 ] https://bbs.pku.edu.cn/v2/post-read-single.php?bid=322&postid=28065519

[ 4 ] https://hub.baai.ac.cn/view/46173

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见

相关标签