强化多模态布局,字节 Seed 被曝迎来前阿里 Qwen 后训练负责人郁博文

公开资料显示,郁博文本科毕业于中南大学,后考入中国科学院信息工程研究所攻读研究生,2022 年获得中国科学院大学博士学位。
在读期间,他专注于自然语言处理与信息抽取领域研究,曾在 ACL、EMNLP 等国际顶级学术会议上发表多篇论文,并提出将信息抽取任务转化为图结构问题的创新思路,有效解决了实体重叠、嵌套等复杂场景下的识别难题。凭借突出的学术表现,他曾荣获中国科学院院长奖。
2022 年博士毕业后,郁博文以阿里集团最高级别校招项目 " 阿里星 " 身份加入阿里巴巴达摩院,担任算法专家(P7)。入职初期即深度参与通义千问大模型的早期训练与研发,迅速成长为千问团队核心骨干,并最终担任后训练(Post-training)负责人。
作为后训练负责人,郁博文在大模型的 " 对齐 " 与 " 精调 " 领域贡献卓著。他主导了 Qwen 系列 Chat 模型的研发,通过监督微调(SFT)、强化学习(RLHF)、直接偏好优化(DPO)等技术,将通用大模型转化为符合人类价值观和使用习惯的对话模型。
针对不同规模模型,他设计了 " 四阶段进化论 " 和 " 知识蒸馏 " 策略,使 Qwen 模型在长文本生成、复杂推理及多模态理解等任务上表现优异。在 LMSYS Chatbot Arena 等全球权威评测中,Qwen 系列多次跻身前十。
2026 年 3 月,阿里通义实验室启动组织架构调整,计划将原本垂直整合的 Qwen 团队拆分为预训练、后训练、文本、多模态等多个平行模块。这一调整导致郁博文的管理范围大幅缩小,且与其坚持的 " 预训练与后训练必须深度耦合 " 的技术理念产生冲突。此外,阿里高层对千问团队施加的商业化考核压力,也加剧了团队内部的分歧。
2026 年 3 月 3 日,郁博文提交辞职申请,次日正式离职。其工作由前 Google DeepMind 高级资深研究员周浩接任。
字节 Seed 团队近年来在大模型和多模态领域持续发力,郁博文的加入无疑将强化其在视觉与多模态交互方面的后训练能力,进一步推动字节在 AI 领域的布局。