英特尔在今年 5 月发布了一款可扩展且易于存取的工作站级至强平台,代号 "Project Battlematrix," 帮助 AI 开发者解决其所面临的难题。其支持最多八块锐炫 Pro B60 24GB 显卡,实现多卡并行,拥有高达 192GB 的显存,可运行高达 1500 亿参数的中等规模且精度高的 AI 模型。英特尔希望通过简化设计,搭配经过优化的最新推理软件,加速其 GPU 与 AI 战略。
vLLM 优化
针对长输入长度(>4K)的 TPOP 性能优化 - 在 32B KPI 模型上,40K 序列长度的效能提升高达 1.8 倍;在 70B KPI 模型上,40K 序列长度的效能提升高达 4.2 倍。
相比于上次发布,进行了性能优化,8B-32B KPI 模型的输出吞吐量提升约 10%。
逐层在线量化,以减少所需的显存。
vLLM 中的 PP(pipeline parallelism)支持(实验性)。
torch.compile(实验性)。
推测译码(实验性)。
支持嵌入、重新排序模型。
增强的多模态模型支持。
最大长度自动检测。
数据平行支持。
OneCCL 基准测试工具启用
XPU 管理员
GPU 功耗
GPU 固件更新
GPU 诊断
GPU 显存带宽
英特尔计划在今年第三季度末推出 LLM Scaler 的强化版本,并新增额外功能,预计第四季度发布完整的功能集。