文 | 硅基星芒
自 8 月 8 号 GPT-5 正式发布以来,这款产品的口碑似乎一直不怎么样,吐槽此起彼伏。
GPT-5 在发布前打出的旗号,是一款具有博士水平智能的 AI 产品。
官方似乎非常自信,直接下架了以前的旧模型,表示 GPT-5 可以 " 吊打一切 "。
不过仅仅几天,就因为使用体验遭到反噬,被迫紧急恢复旧版模型使用。
事实上,从测试和跑分的角度来看,GPT-5 的技术优势确实非常明显。
不少评测人员表示,现在的 GPT-5 是完完全全的 " 理科生 "。
在科学和技术领域,它的表现相当出色。解数学难题、编写复杂代码是它的拿手好戏。
而 GPT-5 的智商上限虽然有所提高,却表现出了极高的 " 不稳定性 "。
有的时候,它也会在简单的问题上犯错。
此外,它在面对原先擅长的写邮件、阅读理解等涉及人类情感的任务时,就像一个机器人。
创意能力也并未发现明显提升,因此 GPT-5 的实用性饱受质疑。
不过,大家最难以接受的原因,是它的 " 情商 " 跌破了用户的下限。
它不再是以前那个什么都能聊的网友,而是变成了一个专业的工作学习助手。
智商上升,情商下降,GPT-5 反而变得更不好用了。
因此,在发布后的 72 小时内,OpenAI 就收到了大量的退订诉求。
01 被忽视的提示词指南
其实,在 GPT-5 发布的前一天,OpenAI 发布了一篇 GPT-5 的提示词指南。
这份指南中给出了一些用户平时可能不会注意的使用技巧,并通过解释部分运行机制回应了外界的质疑。
更重要的是,它解释了一个重要的事实:
并非 GPT-5 变得不好用了,而是用户与 AI 的交互方式还停留在上一个时代。
还记得我们先前谈过的提示词工程的重要性吗?
很多人总是习惯于把 GPT-5 这类 AI 产品当作一个搜索引擎或者 " 工具人 " 来使用,但 GPT-5 已经进化成了一个拥有自主规划和深度思考能力的 " 数字心智 "。
因此,老旧的沟通方式自然是无法生效,是时候进行 " 强制更新 " 了。
首先,先来看下 GPT-5 的变化。
根据指南中的内容,它的核心进化分为四个方面:
1. 智能体任务性能(Agentic Task Performance):
它不再是那个 " 问一句答一句 " 的人机客服了。
现在的 GPT-5,更像是一个项目经理。
它能够理解较为复杂的目标,自主规划完成的步骤,选择合适的工具,并持续工作直至任务完成。
2. 编码能力(Coding)
前段时间,我们发布了一篇测评国内 AI 大模型写代码的能力的文章。
如果把以前的 AI 比作程序员,那 GPT-5 可以称的上是一名全栈工程师。
它能够处理大型代码库的重构、修复较为复杂的 Bug,甚至能够从零起步构建一个功能完备的应用。
3. 原始智能(Raw Intelligence)
相比旧版本模型,GPT-5 拥有更强的逻辑推理能力、常识理解能力和创造力。
当然,考虑到 GPT-5 先前差评如潮的情况,这一方面还要打个问号。
4. 可引导性(Steerability)
这才是我们要关注的核心。
GPT-5 对指令的细微差别非常敏感。
因此,用户可以像使用科研仪器一样,精确控制它的行为、语气和输出风格。
除此之外,官方还推荐了一个新工具,名为 Responses API。
今年 5 月 21 日,OpenAI 宣布扩展 Responses API,支持远程连接 MCP 服务器、图像生成等功能,用于帮助开发者构建更智能的智能体应用。
这个工具的应用,好比给 GPT-5 额外加装了一个 " 短期记忆芯片 "。
过去与 AI 交互,经常需要复述上下文背景,从而浪费大量 tokens,徒增成本。
而现在,只需要传递一个 "previous_response_id",就可以让 AI 记住上一步的思考过程和推理链。
官方数据显示,GPT-5 在 Tau-Bench 测试(零售场景)中的分数由 73.9% 提升至 78.2%。
简单来说,就是性能更好、延迟更低、成本更省。
对于所有需要多个步骤完成的复杂任务,Responses API 恐怕将成为必选项。
02 驯服 AI 智能体
GPT-5 自 Chatbot 进化为智能体后,其双刃剑效应变得更加明显。
用好了,它能实现博士级别的智能;用不好,它就又变回了 " 人工智障 "。
OpenAI 把这种双刃剑效应定义为智能体急切性(Agentic Eagerness)。
因此,用户在使用 GPT-5 时面临的最大难题,是如何成为一个优秀的 " 驯兽师 "。
指南中给出了下面几个应用场景:
1. 追求效率与简洁:即如何 " 拉住缰绳 "
在使用各类 AI 产品的时候,各位肯定都经历过,明明只是想让 AI 给出一个简单、易于理解的答案,但 AI 却要思考半天,然后列出一大段让人压根不想看也没必要看的内容。
OpenAI 给出了两种解决方法:
一是降低推理强度(reasoning_effort)。
这是一个 API 的参数,用户可以把它设置成 low 或 medium。
这就像告诉一名员工:" 别想太多,照着流程走,快速给我结果。"
二是在提示词中设立 " 红绿灯 "。
首先,要明确目标与方法,告诉 AI" 快 " 才是第一要务;
其次,设定提前停止标准,如 " 只要找到 XX,就立刻停止搜索 ",打断它复杂的思考过程;
再次,设置工具调用预算,规定 AI" 最多只能调用两次联网搜索 ";
最后,提供 " 逃生舱口 ",加入一句 " 即使答案可能不完全正确 ",避免 AI 为了追求 100% 正确而进行过度思考和探索。
看完这部分内容,感觉 OpenAI 又把我的 AI 世界观给 " 强制刷新 " 了一遍。
以前我在用 AI 的时候,最多是在提示词结尾加一句 " 只需要告诉我 XX 即可,不要添加额外内容 "。
但抛开修改 API 参数不谈,我确实没想到还可以通过限制搜索次数,甚至是不要求答案完全正确的方式来加快 AI 的运行。
2. 鼓励自主与探索:即如何 " 放手一搏 "
另一种经常在使用 AI 时遇到的情况是,在我们只有一个初期目标或者大方向时,需要 AI 给出一套完善的思路、框架时,AI 只能给出一个 " 半成品 "。
与前面对应,OpenAI 同样提供了两种方法:
一是提高推理强度(reasoning_effort)。
也就是把 API 的参数设为 high,告诉员工 " 给你充分授权,动用一切资源,把问题研究透彻 "。
二是在提示词中注入 " 信念感 "。
明确告诉 AI 遇到困难时要怎么办,而不是停下来求助用户。
3. 善用工具前导提示:让 AI" 汇报工作 "
在完成工程量较大的复杂任务时,为了避免 AI 成为一个闷头干活的 " 黑箱 ",可以要求 AI 定期进行汇报。
操作很简单,在提示词中加入对汇报风格和频率的要求即可。
在复杂的智能体中,这种类似于 print ( ) 函数的监控和调控过程是非常重要的。
03 从规划到执行的全流程优化
除去系统性的说明,这份指南中还给出了一些来自一线客户的 " 宝贵经验 "。
我们仍然用一些应用场景来说明:
1. 让 AI 成为 " 架构师 "
适用场景:从零开始构建新应用
目前,AI 产品正在实现 " 低门槛 " 的目标。
各行各业的用户都在频繁地使用 AI,但大部分用户都不可能同时具备多个领域的专业知识。
因此,只有产品经理而没有程序员的情况已经很常见。
指南中给出的方法是使用 " 自我反思(self-reflection)" 提示法。
我们要做的,不是上来就让 AI 写代码,而是先去引导它进行思考。
用户则需要确定 AI 生成的方案是否与其预想类似,并以此进行微调或修改。
先输出一份高质量的设计文档再严格执行,虽然看起来步骤有些繁琐,但根据实际使用经验来看,最终输出的代码的质量和结构性都有明显的提升。
2. 发给 AI 一本 " 程序员培训手册 "
适用场景:在现有项目中添加功能或进行重构
这个功能同样应用地相当频繁。
现实工作中,不仅是程序员的代码,很多项目都需要进行反复修改和完善。
必要时,也可能需要 " 删掉重写 "。
但是,工作交接是有风险的,新程序员和老程序员的写代码风格可能不一样,新员工和老员工的工作方式也有所差别。
因此,给 AI 提供一套具体而细致的规则,才能让 AI 生成的内容无缝融入项目,避免风格冲突和低级错误的出现。
想要写出这种提示词,可能需要经验丰富的 " 老员工 " 提供一些技术指导。
3. 额外的一些实战经验
一些用户在使用 GPT-5 后发现,有时候它在对话中就是个话痨,有时候生成的内容又过于简洁。
看起来很矛盾,是不是?
解决方案倒也出人意料的简单,把全局 API 参数 verbosity 设为 low,让它少说话。
再在提示词里写清楚:" 请给出详细、可读性强的注释 ",让它不许省略关键信息。
另一个需要注意的变化是,对 GPT-4 很有效的强制性提示,比如 " 请务必彻底、全面地分析上下文 ",对 GPT-5 可能适得其反。
GPT-5 天生喜欢思考和探索,而过度的强调可能让它在简单的任务上来一出 " 大炮打蚊子 "。
为了避免这种浪费时间、浪费资源的行为,提示词就得更柔和、更具引导性一些。
04 通用的控制技巧
下面的技巧适用于所有类型的任务。
1. 全新的控制器:verbosity 和 reasoning_effort
这两个词其实前面我们已经提到过了,它们很重要,不过看起来似乎有些容易混淆:
推理强度(reasoning_effort):决定 AI 思考的有多深、多努力。
详细度(verbosity):决定 AI 最终回答的有多长、多仔细。
2.GPT-5 的 " 阿喀琉斯之踵 ":指令冲突
相比以前的旧模型,GPT-5 有了一个新的特点:较真儿。
作为一个严谨而可靠的 AI 助手,它会严格遵循用户输入的每一条指令。
这就带来了一个问题:结构不良的提示词(poorly-constructed prompts)对它造成的伤害容易 " 触发暴击 "。
对于一般的用户来说,在编写完提示词后肯定不会再去专门检查一遍表述是否有问题。
但若是提示词中无意间包含了相互矛盾或者模棱两可的指令时可就出问题了。
GPT-5 不会像旧模型一样随机选一个执行,而是会尝试去调和这些矛盾。
在这个过程中,伴随着大量资源(时间和 tokens)的消耗。
而最终的结果,很有可能就是性能下降、逻辑混乱甚至任务失败。
OpenAI 给出的示例是医疗助手的场景:
指令 A:未经患者明确同意,绝不安排预约。
指令 B:对于高危病例,自动分配最早的当日时段以降低风险。
在我们看来,可能指令 B 更具备优先性;但在 GPT-5 看来,这就是个僵持不下的死局。
而对于这个问题,OpenAI 给出的解决方案有三条:
一是审查提示词,检查是否存在逻辑冲突;
二是建立指令层级,明确指出在特定情况下不同规则的优先级;
三是使用官方工具,指南中提及的 prompt optimizer tool 可用于帮助自动识别这类问题。
前两条解决方案,都需要用户亲自动手,与 " 自动化 " 需求背道而驰。
第三条解决方案,如果用户不看这份指南,又没有来自外部的指点,根本不可能知道。
05 锦上添花的高阶玩法
最后,指南中还分享了一些 " 独门秘籍 "。
1. 极速模式:最小化推理
这是专门为了低延迟场景而设计的一种模式。
在保留推理能力的基础之上,尽可能加快了模型的运行速度。
但这么做的代价,是模型自身的规划能力的降低。
因此,这一模式非常看重提示词的质量,用户最开始就得主动要求 GPT-5 对任务进行规划。
此外,用户的指令必须足够清晰,不能有矛盾或模棱两可之处。
而用户还需要强化 " 持久性提醒 ",反复告知 AI" 要完成整个任务 " 或其他细节性要求。
2. 元提示(Metaprompting)
这又是我们平时不太容易想到的一种与 GPT-5 交互的方式:
让 GPT-5 教用户如何向它提问。
当我们发送提示词给 GPT-5 但没得到满意的结果时,不必自己费劲修改,直接再丢给 GPT-5:
当然,提示词这部分的优化,也可以用我们先前介绍过的 PromptPilot 或是其他大模型完成。
06 写在最后
看完 OpenAI 这份被大多数人忽视的官方指南,我多少理解了一些 GPT-5 的差评。
相比于前代模型,GPT-5 的改动有些过大了,让大部分 AI 使用者一时间难以适应。
如果不细看 OpenAI 给出的这份 " 官方剧透 ",很多资深 AI 玩家恐怕都束手无策。
在这场风波中,我意识到,像我这样的普通人对于 AI 的了解程度,可能和人类对于宇宙的了解程度,差别并不大:
我们的直觉是错的。
我们习惯性地认为,对 AI 下达强势而全面的指令会获得更好的效果,但却让天生 " 想太多 " 的 GPT-5 走上低效和混乱的道路。
我们看不见的 " 开关 " 太多了。
平时只是点开网页版 GPT-5 的我们,谁能想到还有专门的按钮(reasoning_effort 和 verbosity)来控制 AI 思考的 " 深度 " 和回答的 " 长度 "?
我们最大的敌人,是自己的 " 想当然 "。
我们自以为只要给 AI 发出清晰的指令就足以让它完成任务,但却从未意识到自己可能不经意间给 AI 布置了很多逻辑陷阱。
这份指南在一定程度上揭示了与高级人工智能协作的底层逻辑。
随着 GPT-5 的诞生,各大厂商早晚也会推出智能化程度更高的新模型。
当我们面对这样一个能力远超以往的 " 新物种 " 时,最大的障碍,并不是 AI 的智能上限,而是我们自身认知和交互习惯的局限。
因此," 人与工具 " 的思维定式或许已经到了需要转变为" 人与心智 " 的协作范式的时刻。
而 GPT-5 的这次差评风波,只会是未来无数次认知冲击的第一次预演。