9 月 29 日,DeepSeek-V3.2-Exp 模型正式在 Hugging Face 平台发布并开源。
该版本作为迈向下一代架构的重要中间步骤,在 V3.1-Terminus 的基础上引入了团队自研的 DeepSeek Sparse Attention ( DSA ) 稀疏注意力机制,旨在对长文本的训练和推理效率进行探索性优化与验证。这种架构能够降低计算资源消耗并提升模型推理效率。
目前,华为云已完成对 DeepSeek-V3.2-Exp 模型的适配工作,最大可支持 160K 长序列上下文长度。
每日经济新闻综合公开消息
每日经济新闻