关于ZAKER 合作
超能网 21小时前

英特尔“ Project Battlematrix ”软件更新:优化 AI 推理性能

英特尔在今年 5 月发布了一款可扩展且易于存取的工作站级至强平台,代号 "Project Battlematrix," 帮助 AI 开发者解决其所面临的难题。其支持最多八块锐炫 Pro B60 24GB 显卡,实现多卡并行,拥有高达 192GB 的显存,可运行高达 1500 亿参数的中等规模且精度高的 AI 模型。英特尔希望通过简化设计,搭配经过优化的最新推理软件,加速其 GPU 与 AI 战略。

近日英特尔分享了 LLM Scaler container 1.0 版本的最新进展,对于早期客户的支持至关重要,其中包括:

vLLM 优化

针对长输入长度(>4K)的 TPOP 性能优化 - 在 32B KPI 模型上,40K 序列长度的效能提升高达 1.8 倍;在 70B KPI 模型上,40K 序列长度的效能提升高达 4.2 倍。

相比于上次发布,进行了性能优化,8B-32B KPI 模型的输出吞吐量提升约 10%。

逐层在线量化,以减少所需的显存。

vLLM 中的 PP(pipeline parallelism)支持(实验性)。

torch.compile(实验性)。

推测译码(实验性)。

支持嵌入、重新排序模型。

增强的多模态模型支持。

最大长度自动检测。

数据平行支持。

OneCCL 基准测试工具启用

XPU 管理员

GPU 功耗

GPU 固件更新

GPU 诊断

GPU 显存带宽

英特尔计划在今年第三季度末推出 LLM Scaler 的强化版本,并新增额外功能,预计第四季度发布完整的功能集。

相关标签

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享