编辑 | 漠影
智东西 5 月 20 日报道,继 2025 年 4 月 25 日百度在 Create 2025 AI 开发者大会上发布文心大模型 4.5 Turbo 及 X1 Turbo 后,百度于今日针对相关技术成果进行了深度解读与数据更新。
在此次活动中,百度集团副总裁吴甜、中国信息通信研究院人工智能研究所平台与工程化部主任曹峰及用户代表,围绕文心大模型最新技术进展、全球大模型发展趋势、大模型能力测评及文心大模型的使用体验等内容展开分享。
时隔一个月,百度通过 AI 开放日活动进一步披露了新模型的技术要点。吴甜在解读中强调,文心大模型 4.5Turbo 在多模态训练效率上实现 1.98 倍提升,其代码智能体已为超过 700 万名开发者提供服务支持。中国信通院主任曹峰还当场宣布,文心大模型 X1 Turbo 成为国内首个通过可信 AI 大模型推理能力评估的大模型。
一、学习效果提高 1.98 倍,多模态理解效果提升 31.21%
文心大模型 4.5 Turbo 是基于 4.5 版本的多模态大模型,针对不同模态数据在结构、规模、知识密度上的差异,通过多模态异构专家建模、自适应分辨率视觉编码、时空重排列的三维旋转位置编码、自适应模态感知损失计算等技术的全面升级。
百度集团副总裁吴甜分享到,这一升级大幅提升跨模态学习效率和多模态融合效果,学习效率提高 1.98 倍,多模态理解效果提升 31.21%。
在后训练方面,吴甜称百度研制了自反馈增强的技术框架,基于大模型自身的生成和评估反馈能力,实现了 " 训练 - 生成 - 反馈 - 增强 " 的模型迭代闭环。
她还讲到,在训练阶段,文心通过融合偏好学习的强化学习技术,实现多元统一奖励机制,提升了对结果质量判别的准确率。其中,多元统一的奖励机制涵盖了答案正确性、执行反馈、思想深度、指令遵循、工具调用合理性及回答多样性等维度,指导模型行为向更优方向发展。
二、代码智能体已服务 700 多万名开发者,飞桨 3.0 框架提升异构多芯适配能力
吴甜在演讲中提到,大模型的能力进一步拓展、效率进一步提升之后,可以探索更前瞻、更有想象力的创新应用。
在代码场景上,基于文心大模型的语言和代码能力,百度研制了代码智能体和智能代码助手——文心快码。会上了解到,百度每天新增的代码中,文心快码生成的代码占比已超过 40%。据悉,文心快码向全社会开放,截至目前已累计服务 760 万名开发者。
据悉,飞桨与文心生态已拥有 2185 万名开发者、67 万家企事业单位及 110 万个模型,并落地了 7 个产业赋能中心、7 个教育创新中心和 2 个数据生态中心。
中国信通院人工智能研究所平台与工程化部主任曹峰,就全球大模型能力演进现状和趋势进行了分享,还特别解读了文心大模型的推理能力测评结果。
曹峰分享称,自 2017 年起,人工智能在多个领域已超越人类能力。至 2022 年,大模型技术兴起,推动人工智能能力快速演进,尤其在多元任务理解、代码以及多模态理解等方面显著提升。大模型不仅增强了基础能力,还衍生出新的能力,如文档编写、代码生成与融合、视频和图像生成等。
大模型在文档编写领域实现了从简单文案生成到复杂论文撰写的全面覆盖,显著提升了内容创作的效率与质量。曹峰讲到,在代码编写方面,大模型已超越基础编程范畴,深度融入软件工程流程,涵盖代码解释、注释添加、错误检查以及测试用例生成等关键环节,极大增强了软件开发的智能化水平。
此外,大模型在科研领域亦展现出巨大潜力,特别是在生物医药和材料研发等前沿领域得到广泛应用,有效推动了科研进程,并显著提升了自动驾驶仿真技术的精准度与可靠性。
曹峰认为,大模型的发展趋势表现为大模型更聪明、训练和推理成本更低、涌现出大量更专业的模型,推理模型内置思维链以及大模型向多模态方向发展。
随着技术的演进,行业内出现大量专业模型,如代码模型、科学模型等,这些专业模型擅长解决特定领域问题;推理模型将人类思考过程融入模型本身,从而提升专业知识和输出能力;多模态模型融合生成与理解能力,并探索强化学习融入,以提升慢思考能力。
五、国内首款!文心 X1 Turbo 通过可信 AI 大模型推理能力评估
曹峰在演讲中提到,大模型输出结果评估方法正加速演进。在大模型基准测试中,对模型结果进行评估最为关键,评估方法一般分为人工评估、自动化评估与大模型作为裁判三种形式,其中能力最强的大模型代替人工评估的方式得到广泛关注。
百度文心大模型 X1 Turbo 在 24 项能力评估中,16 项达 5 分、7 项达 4 分、1 项达 3 分,综合评级获当前最高级 "4+ 级 ",成为国内首款通过该测评的大模型。
他进一步解释称,评估结果表明,文心 X1 Turbo 擅长结构化的逻辑思考,并具备平衡模型能力与效率的优化技术,其有效的数据机制保障了模型的可信及可用程度,其推理服务能广泛支持各类应用。文心 X1 Turbo 强化推理泛化能力,拓宽工具链应用生态,加强安全机制建设,构筑可信应用保障壁垒。
结语:技术的价值最终体现在用户身上
在大会尾声环节,百度特别邀请一位 16 岁的大语言模型用户作为嘉宾出席。该用户结合自身经历,阐述了使用大语言模型对其生活产生的具体影响。
在人工智能技术发展初期,社会各界曾就其潜在影响展开讨论,主要关注点包括人工智能是否可能替代人类工作岗位,甚至引发对人类社会主导权的担忧。而此次受邀用户的分享,以个体视角呈现了人工智能技术对普通民众日常生活的实际改变。
当大模型学会像人类一样感知世界,像人类一样思考和行动并自我进化,技术进步便真正转化为普惠的社会红利。正如该用户所说:" 技术真正的魅力不是惊艳谁,而是真正解决一个又一个真实的问题 ……AI 的大门已经打开,就看你愿不愿意走进去。"