4 月 24 日,DeepSeek 正式推出、并开源全新系列模型 DeepSeek-V4 的预览版本。据了解,DeepSeek-V4 可支持百万字超长上下文,号称在 Agent 能力、世界知识和推理性能上均实现了国内与开源领域的领先。
据 DeepSeek 方面介绍,DeepSeek-V4 开创了一种全新的注意力机制,在 Token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,相比于传统方法大幅降低了对计算和显存的需求。同时,DeepSeek-V4 针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行了适配和优化,在代码任务、文档生成任务等方面表现均有提升。
据了解,DeepSeek-V4 分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。其中,DeepSeek-V4-Pro 参数达 1.6T,激活参数达 49B,在数学、STEM、竞赛型代码的测评中,超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。在世界知识测评中,DeepSeek-V4-Pro 也大幅领先其他开源模型,仅稍逊于 Gemini-Pro-3.1。
Agent 能力层面,DeepSeek-V4-Pro 在 Agentic Coding 评测中已达到当前开源模型最佳水平,并在其他 Agent 相关评测中同样表现优异。据 DeepSeek 方面透露,目前该模型已成为内部员工使用的 Agentic Coding 模型,而且据评测反馈其使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但与 Opus 4.6 思考模式存在一定差距。
而 DeepSeek-V4-Flash 的参数则达 284B,激活参数 13B,虽然在世界知识储备方面稍逊一筹,但展现出了接近 DeepSeek-V4-Pro 的推理能力。在 Agent 测评中,DeepSeek-V4-Flash 在简单任务上与 DeepSeek-V4-Pro 旗鼓相当,但在高难度任务上仍有差距。
目前,用户登录 DeepSeek 官网、官方 App 即可与 DeepSeek-V4 对话,其中专家模式由 DeepSeek-V4-Pro 支持,快速模式由 DeepSeek-V4-Flash 支持。
需要注意的是,继不久前有消息称,DeepSeek 正就首次引入外部资本展开洽谈,并且腾讯、阿里均有意参与后。日前有消息源透露,DeepSeek 计划本轮增资 500 亿元,其中内部增资 200 亿元,对外募资 300 亿元,且所有参与投资的机构需 50 亿元起投。而在估值方面,据称 DeepSeek 本轮融前估值为 3000 亿元。
但对此消息,DeepSeek 方面尚未进行回应。
【本文图片来自网络】