关于ZAKER 合作
量子位 1小时前

Murati 翁荔陈丹琦公司发布首个产品,让大模型微调门槛暴降,要重新发明一个 OpenAI

Thinking Machines Lab 发布首个产品:Thinker,让模型微调变得像改 Python 代码一样简单。

也算是终于摘掉了 "0 产品 0 收入估值 840 亿 " 的帽子。

联合创始人翁荔表示:GPU 价格昂贵,并且设置基础设施非常复杂,使研究人员和从业者使用前沿模型进行具有挑战性,Tinker 是提供高质量的研究工具、提高研究生产力的第一步。

大神卡帕西直接评价这个产品 " 很酷 ":

相比那种 " 上传数据,我们帮你训练 " 的传统模式,Tinker 让研究者保留了 90% 的控制权,主要涉及数据、损失函数和算法本身,而把那些通常不想碰的硬骨头(基础设施、LLM 本身的前向 / 后向传播、分布式训练)都包办了。

与此同时,还有消息称 Thinking Machines Lab 正在尝试 " 重新发明一个 OpenAI",重建 OpenAI 在规模变大、变的官僚主义之前的那个版本。

创始人 Murati 表示,Thinking Machines Lab 将会是一家公开分享研究成果,给研究人员更多自由的公司。

什么是 Tinker

简单来说,Tinker 是一个用于微调语言模型的灵活 API。

让研究人员能够在实验中控制算法和数据,同时无需担心基础设施的管理。

这符合 Thinking Machines Lab 的使命:让更多人能够研究前沿模型,并根据自身需求进行定制。

Thinker 首批主要提供 Qwen3 和 Llama3 系列模型的支持,从小模型切换到大模型,只需在 Python 代码中修改一个字符串就行。

Thinker 的 API 提供了 forward_backward 和 sample 这样的底层训练步骤,同时仍自动处理调度、扩展和错误恢复。

还使用 LoRA 让多个训练任务共享相同的 GPU,降低成本并让更多实验并行运行。

除了云托管服务之外,他们还开源了一个 Tinker Cookbook 库,里面有各种现成的后训练方法实现。

有微软研究员检查了 Tinker 的代码库,发现了更多细节:

没有用 DeepSeek 提出的 GRPO 方法,而是使用更经典的 REINFORCE 算法,配合优势函数,没有梯度裁剪。

简单概括其梯度更新策略为:

新参数 = 原参数 + 学习率 × 优势值 × 对数概率的梯度

Tinker 受到了业界的密切关注。AI 基础设施公司 Anyscale 的 CEO Robert Nishihara 等 beta 测试者表示,尽管市面上有其他微调工具,但 Tinker 在 " 抽象化和可调性之间取得了卓越的平衡 "

来自普林斯顿、斯坦福、伯克利和 Redwood Research 的研究团队则已经用 Tinker 搞出不少成果。

大神卡帕西还在评论中特别指出,社区还在探索微调相比直接 prompt 大模型的优势在哪。

从早期迹象看,微调不只是给大模型的输出换个风格,更多是缩小任务范围。特别是当你有训练样本数量很大时,与其给大模型构建复杂的 few-shot prompt,不如直接微调一个小模型专门处理特定任务。

越来越多的 AI 应用变成了更大规模的流水线,其中许多大模型在流程中协作,其中一些环节适合用提示,但更多环节用微调可能会更好。

Tinker 让微调变得简单,可以在任意环节中实验出最佳方案。

One More Thing

Thinking Machines Lab 这边尝试重新发明一个 OpenAI。

OpenAI 则正在把自己变成下一个 Meta。

除了 Sora 2 驱动的 "AI 抖音 " 之外,ChatGPT 的 APP 代码中也被扒出要搞 " 社交模式 "。

具体来说是在 " 推送通知 " 功能中包括 ChatGPT 和 " 其他用户 " 发送的消息。

" 当有人加入或离开聊天时推送通知 " 更意味着可能有群聊模式。

与社交模式配套的设置头像和昵称功能也已经出现了。

也是没想到,ChatGPT 中的 "Chat" 也可以包括人类之间的聊天。

参考链接:

[ 1 ] https://thinkingmachines.ai/blog/announcing-tinker/

[ 2 ] https://x.com/lilianweng/status/1973455232341516731

[ 3 ] https://x.com/theinformation/status/1973043939667058817

[ 4 ] https://x.com/karpathy/status/1973468610917179630

[ 5 ] https://x.com/DimitrisPapail/status/1973470706135605534

[ 6 ] https://x.com/btibor91/status/1973512279141622185

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见