Thinking Machines Lab 发布首个产品:Thinker,让模型微调变得像改 Python 代码一样简单。
也算是终于摘掉了 "0 产品 0 收入估值 840 亿 " 的帽子。
相比那种 " 上传数据,我们帮你训练 " 的传统模式,Tinker 让研究者保留了 90% 的控制权,主要涉及数据、损失函数和算法本身,而把那些通常不想碰的硬骨头(基础设施、LLM 本身的前向 / 后向传播、分布式训练)都包办了。
创始人 Murati 表示,Thinking Machines Lab 将会是一家公开分享研究成果,给研究人员更多自由的公司。
简单来说,Tinker 是一个用于微调语言模型的灵活 API。
让研究人员能够在实验中控制算法和数据,同时无需担心基础设施的管理。
这符合 Thinking Machines Lab 的使命:让更多人能够研究前沿模型,并根据自身需求进行定制。
Thinker 首批主要提供 Qwen3 和 Llama3 系列模型的支持,从小模型切换到大模型,只需在 Python 代码中修改一个字符串就行。
没有用 DeepSeek 提出的 GRPO 方法,而是使用更经典的 REINFORCE 算法,配合优势函数,没有梯度裁剪。
简单概括其梯度更新策略为:
新参数 = 原参数 + 学习率 × 优势值 × 对数概率的梯度
来自普林斯顿、斯坦福、伯克利和 Redwood Research 的研究团队则已经用 Tinker 搞出不少成果。
从早期迹象看,微调不只是给大模型的输出换个风格,更多是缩小任务范围。特别是当你有训练样本数量很大时,与其给大模型构建复杂的 few-shot prompt,不如直接微调一个小模型专门处理特定任务。
越来越多的 AI 应用变成了更大规模的流水线,其中许多大模型在流程中协作,其中一些环节适合用提示,但更多环节用微调可能会更好。
Tinker 让微调变得简单,可以在任意环节中实验出最佳方案。
Thinking Machines Lab 这边尝试重新发明一个 OpenAI。
OpenAI 则正在把自己变成下一个 Meta。
除了 Sora 2 驱动的 "AI 抖音 " 之外,ChatGPT 的 APP 代码中也被扒出要搞 " 社交模式 "。
具体来说是在 " 推送通知 " 功能中包括 ChatGPT 和 " 其他用户 " 发送的消息。
" 当有人加入或离开聊天时推送通知 " 更意味着可能有群聊模式。
参考链接:
[ 1 ] https://thinkingmachines.ai/blog/announcing-tinker/
[ 2 ] https://x.com/lilianweng/status/1973455232341516731
[ 3 ] https://x.com/theinformation/status/1973043939667058817
[ 4 ] https://x.com/karpathy/status/1973468610917179630
[ 5 ] https://x.com/DimitrisPapail/status/1973470706135605534
[ 6 ] https://x.com/btibor91/status/1973512279141622185
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见