DeepSeek v3.2 有一个新改动,在论文里完全没提,只在官方公告中出现一次,却引起墙裂关注。
开源 TileLang 版本算子,其受关注程度甚至超过新稀疏注意力机制 DSA,从画线转发的数量就可以看出来。
有接触过的开发者感叹 TileLang 是一种非常优雅的语言,只需不到 100 行代码就能写出比 Flash Attention 2 原版快 30% 的注意力实现。
首先,TileLang 是一种专门用来开发 GPU 内核的领域专用语言,性能上可以对标英伟达 CUDA,DeepSeek 官方推荐使用此版本做实验,在方便调试和快速迭代上有优势。
更重要的是,TileLang 与国产算力生态适配,连华为昇腾都要在第一时间公告对 TileLang 的支持。
此外 TileLang 团队成员王磊和沐曦集成电路的高级总监董兆华也在同一个圆桌沙龙上出现过,讨论了沐曦 GPU 与 TileLang 的适配。
DeepSeek 为什么选择 TileLang
DeepSeek 与 TileLang 第一次同框亮相,其实是在 6 月的北京智元大会。
在 DeepSeek 实习过的北大博士袁境阳,在报告中就提到 "TileLang 的算子实现会更快一点 "。
TileLang 的发起人之一,北大博士研究生王磊当时还专门发帖感谢 DeepSeek 尝试他们的语言。
将调度空间(包括线程绑定、内存布局、张量化和流水线等)与数据流解耦,并将其封装为一组可自定义的注解和原语。这种方法允许用户专注于内核的数据流本身,而将大部分优化工作交给编译器完成。
TileLang 将 "Tile" 作为编程模型的核心概念,通过显式的 Tile 抽象,让开发者能够直观地控制数据在全局内存、共享内存和寄存器之间的流动。
TileLang 提供了三个不同层次的编程接口,满足不同水平开发者的需求。
初学者可以使用硬件无关的高层接口,专注于算法逻辑而不必关心底层细节。
有经验的开发者可以使用 ile Library,这里包含了各种针对不同硬件架构优化过的预定义操作。
对于追求极致性能的专家用户,TileLang 还提供了线程原语级别的控制,允许他们直接操作线程同步、内存合并等底层特性。
v3.2 论文中提到在内核层面共享 k-v 提升计算效率,让 DSA 的闪电索引器机制(lightning indexer)运行速度远超传统实现。
更早之前,在 DeepSeek 连续一周发布开源代码库的第一天,王磊就曾向 DeepSeek 团队推荐 TileLang 语言。
并且 DeepSeek v3.2 也验证了 TileLang 确实可以用来训练模型。
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
TileLang:
https://github.com/tile-ai/tilelang
参考链接:
[ 1 ] https://x.com/Lei_Wang_1999/status/1932331703747698786
[ 2 ] https://x.com/nathancgy4/status/1972613835598299245
[ 3 ] https://bbs.pku.edu.cn/v2/post-read-single.php?bid=322&postid=28065519
[ 4 ] https://hub.baai.ac.cn/view/46173
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见