DeepSeek R1 横空出世第 128 天,已经把整个大模型市场搅得天翻地覆!
首先,它以一己之力把推理模型的价格打下来,OpenAI 六月更新的 o3 价格相比 o1 直接打了2 折。
DeepSeek 刚发布时确实火得一塌糊涂,但四个多月过去了,情况却有点微妙。
从数据来看,DeepSeek 自家网站和 API 的流量不升反降,市场份额也在持续下滑。
到了 5 月,全网 DeepSeek 模型产生的 token 中,来自 DeepSeek 本家的份额已经只占16%了。
这种 " 墙内开花墙外香 " 的现象,背后其实大有文章。
SemiAnalysis 指出,DeepSeek 为了把成本压到极致,在服务质量上还是做了大量妥协。
用户在 DeepSeek 官方平台上使用模型,经常要等上好几秒才能看到第一个字蹦出来,可以用首 token 延迟(First token latency)这个指标来衡量。
相比之下,其他平台虽然普遍价格更贵,但响应速度快得多,有些甚至能做到几乎零延迟。
在 Parasail 或 Friendli 等平台,只需支付 3-4 美元就可以获得几乎没有延迟的 100 万 token 额度。
如果想选择更大更稳定的服务商,微软 Azure 平台价格是 DeepSeek 官方的 2.5 倍,但延迟减少了整整 25 秒。
从另一个角度看,DeepSeek 官方甚至不是同等延迟下价格最低的一家 DeepSeek 模型服务商。
在有限的推理计算资源下,只提供 64k 上下文窗口的服务,在主流模型提供商中算是最小的之一。
在需要读取整个代码库的编程场景里,64K 根本不够用,用户只能选择第三方平台。
而同样价格下,Lambda 和 Nebius 等平台能提供 2.5 倍以上的上下文窗口。
大模型下半场:提升每个 token 的智能
需要明确的是,这些降本策略都是 DeepSeek 主动做出的决定。
他们目前看上去对用户体验不怎么感兴趣,既无意从用户身上赚钱,也无意通过聊天应用或 API 服务向用户提供大量 token,更多地是专注于实现 AGI。
从这些优化策略就可以看出,DeepSeek 把尽可能少的算力用作推理服务给外部使用,大量的算力资源留在内部研发用途。
同时配合开源策略,让其他云服务托管他们的模型,赢得影响力和培养生态,两不耽误。
说到底,AI 竞赛拼的还是算力资源。
在 DeepSeek 影响下,Claude 也开始降低速度缓解算力紧张的问题,但为了营收还是在努力平衡用户体验。
Claude 4 Sonnet 发布以来,输出速度已经下降了 40%,但仍然比 DeepSeek 快不少。
另外 Claude 模型被设计成生成更简洁的回复,回答同样的问题,DeepSeek 和 Gemini 可能要多花 3 倍的 token。
不仅仅是提高模型的智能上限,而是提升每个 token 能提供的智能。
参考链接: [ 1 ] https://semianalysis.com/2025/07/03/deepseek-debrief-128-days-later/#speed-can-be-compensated-for
本文来自微信公众号" 量子位 ",作者:关注前沿科技,36 氪经授权发布。