Perplexity 每一次纳入新模型,都是很强的信号:这一次,亮的是 Kimi K2。
7 月 13 日,Perplexity 联合创始人兼 CEO Aravind Srinivas 在 X 上发布消息:"Kimi K2 的内部评测结果非常惊艳,我们很快会启动 post-training。"
这背后反映出一个有趣的现象:对于全球开发者来说,Perplexity 用不用某个开源模型,实际上已经演变成了一个重要的风向标。它所指向的,不仅仅是技术优劣,更是开源模型能否经受住真实产业环境考验的关键信号。
AI 搜索是离 " 真实世界任务 " 最近的试炼场,而 Perplexity 对模型的需求远不止 " 便宜 " 这么简单。
Aravind 曾在 Reddit 上解释为什么没有接入 GPT-4.5:"GPT-4.5 的解码速度只有 11 个 token/ 秒,相比之下,4o 是 110 个 token/ 秒(快 10 倍),我们自己的 Sonar 模型是 1200 个 token/ 秒(快 100 倍)。这导致用户体验不佳,因为他们期望快速、准确的答案。"
今年 4 月,Aravind 预告了 Perplexity 的系列新功能,他强调这不是简单的产品改动,而是底层模型的重构:" 我们需要重写基础设施才能大规模实现。"
他描述的核心功能是更强大的深度研究代理,能够思考 30 分钟或更长时间," 包括工具使用、交互式和代码执行功能,就像 Manus 等最近的原型所展示的那样。"
这本质上是一个纯 Agent 模式:给定自然语言需求,模型必须自主拆解任务、调用工具、执行代码,最终生成完整报告。这种能力恰好与 Kimi K2 的 " 模型即 Agent" 理念完全对齐—— K2 不是把 Agent 能力当作后训练插件,而是在预训练阶段就将原生 Agent 技能刻入权重。
K2 在训练阶段引入了数百万条合成 Agent 任务,覆盖搜索、浏览器、日历、Python、SQL 等 17 种真实工具调用场景。模型学会在单一会话内连续编排 16-20 步操作,无需人类编写工作流。官方演示中,K2 用 16 次 IPython 调用将 13 万行原始数据完成清洗、建模、绘图并输出交互网页报告,全程零人工干预——这直接对应 Perplexity 设想的 "30 分钟自主研究 "。
当然,选择开源模型的更深层原因在于完整的控制权。拥有完整权重意味着 Perplexity 可以任意进行 LoRA、RLHF、工具蒸馏,无需担心调用频率、并发上限或隐私合规问题。K2 采用 MIT 改协议,月活低于 1 亿即可商用,Hugging Face 直接提供 fp8/fp16 全套权重,128K 上下文窗口足够一次性处理整份财报。对 Perplexity 而言,这意味着 " 模型 - 索引 - 工具 " 三层架构可以完全私有化,不再受任何闭源条款约束。
Perplexity 在其发展过程中,逐步从依赖 OpenAI 的 GPT 模型转向使用开源模型,并在此基础上进行了自研和微调。
2023 年下半年,Perplexity 宣布推出两款新的 "pplx-7b-online" 和 "pplx-70b-online",分别基于开源模型 Mistral-7b 和 LLaMA 2-70b 构建。" 我们从 LLaMA-2 发布之日起就开始使用开源模型,"Aravind Srinivas 说道。
从模型特点来看,Mistral-7B 以轻量化和高速度成为早期尝试,验证了小模型在特定任务的可行性;Llama-2-70B 提供了更广的知识覆盖面;随后,Perplexity 还采用了 Code Llama-34B,补强了代码相关的垂直能力。
真正的转折点出现在 2025 年 2 月,DeepSeek-R1 让 Perplexity 完成了从 " 使用开源模型 " 到 " 基于开源模型自研 " 的关键跳跃,获得了完整的权重控制能力。而后,Perplexity 又继续深度调优 Sonar 模型,展现了自研能力的成熟,专门针对搜索问答场景进行优化。
如今选择 Kimi K2,正是这一战略的最新体现——不仅在速度和成本上优于 R1,其原生 Agent 能力更完美契合了 "30 分钟自主研究 " 的产品需求。
综合来看,Perplexity 的模型选型必须在高性价比与高性能之间找到平衡,同时满足特定的产品需求。由于目前尚无开源模型能完全达到其标准,Perplexity 只能阶段性地选择最优解,这种 " 择优而用 " 的策略反而让其成为了开源模型能力评判的重要风向标。