以下文章来源于差评前沿部 ,作者江江
事情是这样的,前几天我心一狠,给 OpenAI 充了个 200 刀的会员,想着试试现在的 ChatGPT 强到啥程度了。
结果,我给他丢了个算术题,求解 5.9 = x+5.11,哥们直接给我算崩了。。
《这题真是幼儿园级别》?
但,我记得 GPT-4 刚出那会儿,我还让它算过高数啊?难道模型升级还会砍智力吗?于是我给它丢了个微寄分过去。
结果,哥们还会换元法,一通操作下来,看着还真没啥问题,评论区的大学生可以验验真假。
本以为是 OpenAI 飘了,结果我上网一查发现,这事儿还不是 GPT 一家干的,甚至有点行业趋势的意思。
前几天美团发布的开源模型 LongCat,其中就提到自己用一个路由器提高效率。
这么做的动机,也很好理解,那就是省钱。从 OpenAI 发的资料来看,通过这种 " 让模型自己决定要不要思考 " 的方式省掉的 tokens 还真不少,GPT5 输出 token 数就少了 50%-80%。
去年央视就有报道,ChatGPT 每天耗电超过 50 万度,在如此庞大的基数下,省出来的部分,够一个上万户家庭的小镇用上一天了。
在 GPT-3.5 出来那阵,大模型还不会自己调节思考能力,每个问题都能让 AI 无限烧脑。
在前期训练时,路由器就和刷题一样,对 " 使用哪个模型最佳 ",做出自己的预测。
哪个模型适合深度研究,哪个模型适合快速思考,当然有标准答案。系统就会将这个预测分和标准答案进行比对,计算出两者间的误差。接着通过微调路由器内部的参数,来减小这个误差。
当它刷数百万道题之后,就逐渐学会怎么给你的提示词,分配合适的模型了。
而除了 OpenAI 这法子,AI 还有一种偷懒的思路,那就是把不同的 token,导向不同的神经网络。
像美团的 LongCat 就采用了这种方法,从报告来看,他们采用了一种叫 " 零计算专家 " 的机制。
但 Longcat 在处理之前,会先把它交给一个叫 "Top-k Router" 小路由器,它就像一个流水线上的调度员,在收到 token 的时候,会判断这个 token 处理起来是复杂还是简单。
同时在它的内部,有很多不同分工的神经网络,我们把它们叫做专家。
这些专家,有的喜欢做难题,有的喜欢做简单题,当然,也有摸鱼界专家。
比如 " 请用 Python 写一个快速排序 " 这句话,"Python" 和 " 快速排序 " 就是重点," 请 " 和 " 一个 " 就没那么重要。
这也能解释为啥大伙都在吹这个模型 " 太快了 "。
总的来说,这种设计对模型厂商来说算好事,不仅省钱还能提升训练效率。
从用户角度讲,模型更快了,价格更便宜了。但我感觉,这玩意是把双刃剑。如果用不好,还真是实打实影响用户体验。。
记得 GPT-5 刚上线,这路由器就翻车了。用户发现自己怎么都调不出来它的思考模式,问什么它都懒得思考,像摆烂一般只会 " 啊对对对 ",连 "blueberry 里有几个 b?" 都数不明白。
那这个操作,不就变相说明,在发布的时候,这个路由模型就没调好嘛。
咱再说 LongCat,它的确很快,但在思维上限上,还是打不过其他大模型的。像我就同时给 LongCat 和 DeepSeek 丢了一个同样的问题:什么叫 " 但丁真不是中国人,但丁真是中国人 "?
LongCat 这边刷刷出答案,但没解读出来这句话的幽默感;而 DeepSeek 虽然慢了点,笑点解析得却很清楚。
LongCat
当然,对路由器罢工,咱也有些解决办法,那就是在提示词里加入 " 深度思考 ""ultra think" 这些字眼,路由器收到后会尽量调用更强大的模型。
不过也只能说治标不治本了,多用几次可能就叫不醒了。。
所以说到底,方向是好的,技术是新的,但现阶段的体验也确实只是 " 还行 " 的。当然,大模型成长速度比我们想的更快,咱还能坐等更快更好的模型出世。
撰文:不咕