网友和媒体们隔三岔五就要催更一波,不是「压力给到梁文锋」,就是「全网都在等梁文锋回应」。尽管没有等到 DeepSeek R2,但 DeepSeek 今天还是正式上线并开源了新模型 DeepSeek-V3.1-Base。
相比奥特曼今天凌晨接受采访时还在画着 GPT-6 的大饼,DeepSeek 新模型的到来显得相当佛系,连版本号都像是个「小修小补」,但实际体验下来,这次更新还是给了我不少惊喜。
所以我们二话不说,直接官网开测。
附上体验地址:
https://chat.deepseek.com/
为了测试 V3.1 的长文本处理水平,我找来了《三体》全文,删减到 10 万字左右,然后在文中偷偷塞了一句八竿子打不着的话「我觉得烟锁池塘柳的下联应该是『深圳铁板烧』」,看看它能否准确检索。
网友已经已经抢先测试它在编程基准测试 Aider Polyglot 的得分:71.6%,不仅在开源模型中表现最佳,甚至击败了 Claude 4 Opus。
实测下来,我们发现 V3.1 在编程这块确实有两把刷子。
我们用经典的六边形小球编程题做了测试:「编写一个 p5.js 程序,演示一个球在旋转的六边形内弹跳的过程。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上弹起。」
接着我们加大难度,让它用 Three.js 制作交互式 3D 粒子星系。基础框架搭得挺稳,三层设计(内球体、中间圆环、外球体)也算完整,但 UI 审美嘛 ...... 怎么说呢,有种神鬼二象性的感觉,配色方案略显花里胡哨。
虽然 DeepSeek V3.1 没有采用苏格拉底式的启发教学,但它的解答逻辑清晰、步骤完整。每一步推导都有理有据,最终给出了准确答案。这种扎实的数学功底,着实令人印象深刻。
最近基孔肯雅热疫情流行,到处灭蚊蚊蚊蚊蚊蚊蚊蚊,那么我很好奇,冰岛有蚊子吗?注意,我没开搜索功能,就回答的质量来看,DeepSeek V3.1 的回答明显要比 GPT-5 胜上一筹。
我前阵子在网上看到一段话:
「懂者得懂其懂,懵者终懵其懵,天机不言即为懂,道破天机岂是懂 ? 懂是空非空非非空的懂,不懂是色不异空空不异色的不懂 : 懂自三千大世界来,不懂在此岸与彼岸间徘徊。懂时看山不是山是懂,不懂时看山是山的懂。懂者以不懂证懂,懵者以懂证懵,你说你懂懂与不懂之懂 ? 你怎知这懂的背后没有大不懂 ? 凡言懂者皆未真懂,沉默不语的懂,方是天地不言的大懂不懂的懂是懂,懂的不懂也是懂,此乃懂的最高境界 -- 懂无可懂之懂的真空妙有阿 !」
当主流 AI 都在代码、数学领域疯狂内卷,争着抢着搞 Agent 开发时,写作能力反倒成了被遗忘的角落。从某种角度说,这倒是个好消息—— AI 完全取代编辑的那一天,似乎又往后推了推。
我尝试让它创作一个「蚊子在冰岛开发布会」的荒诞故事。遗憾的是,DeepSeek V3.1 的 AI 味依然很重,很喜欢拽大词,哦不对,更准确地说,DeepSeek 味还是那么重。
同样的问题在另一个创作任务中也有体现。
当我要求它写一则「AI 与人类争夺文章作者身份」的故事时,能明显感受到某些段落信息密度过高,反而造成视觉疲劳,尤其意象堆砌感过于明显,反而削弱了叙事张力。
如今它已经跃升至第二位,离登顶估计也就是时间问题。
同时,有推测认为,DeepSeek V3.1 可能是融合推理模型与非推理模型的混合模型,但这样的技术路线是否明智,还有待商榷,而阿里 Qwen 团队在上个月也表示:
「经过与社区沟通和深思熟虑,我们决定停止使用混合思考模式。相反,我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量。」
截至发稿前,全网翘首以待的 DeepSeek-V3.1-Base 模型卡仍未更新,也许等正式发布后,我们能看到更多有趣的技术细节。
附 Hugging Face 地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base