腾讯首个全模态模型混元 O 将发布，正面硬刚 DeepSeek 和字节豆包

腾讯不止 " 关爱 "DeepSeek，其自研大模型 " 混元 " 似乎也要发力，不仅瞄准豆包，而且要发力 " 全模态 "，利用更多资源投向通用人工智能（AGI）。

5 月 25 日消息，笔者独家获悉，基于腾讯自研大模型混元的首个端到端语音通话模型 Hunyuan-Voice，最快今年 6 月上线腾讯元宝 App，从而与豆包 AI 视频通话功能对抗。而且，腾讯已规划多模态和全模态路线，最快今年将推出全球首个 " 全模态模型 "，代号为混元 -O，瞄向 " 世界模型 "。

隶属于腾讯 TEG（技术工程）事业群的腾讯混元科研人员透露，面向 AGI，混元将以语言模型为核心，探索多种模态融合，并将向深度、广度两方面持续推进探索。一方面，混元从大语言模型向多模态模型发展，理解和模拟物理世界；同时，混元还将瞄准更智能的推理、规划、智能体，以及探索知识边界，自我启发、自我迭代、自我发现，最终与具身智能等技术结合，向环境中自主行动和学习的世界模型方向进行探索。

这是首个披露腾讯混元最新规划的消息，在此之前，腾讯没有对外披露过混元 -O 全模态模型技术。

后发混元大模型，马化腾直夸 DeepSeek

随着 2022 年底 ChatGPT 风靡全球，2023 年 2 月，腾讯混元大模型项目正式启动，并部署 AI 大模型技术研发工作，以语言模型为基础，逐步打造涵盖各种模态的模型矩阵。

2023 年 9 月，腾讯在全球数字生态大会上正式发布混元大模型，并宣布通过腾讯云对外开放。该模型是腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预训练语料超 2 万亿 tokens；9 月中旬，混元大模型首批通过《生成式人工智能服务管理暂行办法》备案。

2024 年，腾讯混元大模型加速迭代，1 月发布高性能 MoE 模型，5 月开源业界首个中文 DIT 文生图模型，随后发布混元多模态理解模型；9 月，混元 Turbo 发布；11 月，腾讯混元开源大语言模型 Hunyuan-large。

事实上，腾讯很早就布局 AI 技术，2021 年腾讯就推出千亿和万亿参数的 NLP 稀疏大模型，但是在混元问题上，截至 2024 年底，腾讯混元一直落后于 OpenAI，并且未与豆包、阿里通义、DeepSeek 等模型拉开差距，腾讯 AI 应用元宝也未与 kimi 等产品形成头部效应。

2023 年股东大会上，腾讯集团董事长兼 CEO 马化腾表示，AI 是全行业甚至全世界的重点，腾讯总算能跟上第一阵列，不能算最领先，但是至少没有太落后。

" 我们最开始以为这是互联网十年不遇的机会，但是越想越觉得这是几百年不遇的、类似发明电的工业革命一样的机遇。互联网企业都有很多的积累，都在做，我们也一样在埋头研发，但是并不急于早早做完，把半成品拿出来展示。" 马化腾称。

马化腾强调，后面还要结合场景发展，把 AI 混元大模型应用到各个场景中，" 短期内一两年内我感觉不会有一个纯原生 AI 大的应用，应该还是要结合到我们的所有产品里面效率提升等，我觉得这个是一个很大的机会。"

到了 2025 年，中国开源 AI 模型 DeepSeek 风靡全球，腾讯突然加速 AI 应用落地部署，旗下元宝、浏览器、微信、ima、腾讯文档、QQ 浏览器、QQ 音乐等多款腾讯产品，在接入混元大模型的同时，接入 DeepSeek-R1 模型。在外界看来，这让混元 AI 大模型处境略显尴尬，似乎成为 " 备胎 "。

DeepSeek-R1 虽弥补了混元大模型在推理速度和响应效率上的不足，却使得用户更倾向于使用有 DeepSeek 加持的功能。

今年 3 月腾讯年报沟通会中，马化腾谈及 DeepSeek 时表示，深度思考模型出来后，AI 智能化比以前有大幅提升，而且 DeepSeek 出现后，开源和中国工程师在关注成本和效率方面的优势较为明显。AI 的智能化程度相比往年有大幅度提升，对于腾讯来说经过慎重思考，云业务和元宝都在拥抱 AI。未来应用大发展的机会已经到来，各家都在采用 AI 落地，也看到 AI Agent（智能体）的发展，背后有很多 AI 相关工具的想象空间。目前 AI 生态还在早期，各行各业都会受益于 AI 普及，相信每个行业都会拥抱这个机会。

" 我们业界和梁文锋都有交流，很敬佩市场上出现独立、开源的产品，我们非常尊重。"马化腾表示。

与此同时，腾讯集团 CSIG 旗下腾讯云针对 DeepSeek 开源的 DeepEP 通信框架进行深度优化，使其在多种网络环境下均实现显著性能提升。相关技术方案也获得了 DeepSeek 公开致谢，称这是一次 "huge speedup" 代码贡献。

" 使用 GPU 进行大语言模型训练。去年有一段时间，人们认为每一代大型语言模型都需要数量级更大的 GPU，但 DeepSeek 的突破性进展结束了这一时期。现在，业界以及我们业内人士都能够利用现有 GPU 大幅提高大型语言模型训练的生产力，而无需像之前预期的那样额外添加 GPU。" 腾讯此前在财报会上表示。

据界面，一位负责互联网大厂投流的营销供应商表示，腾讯在元宝上的投流打法复制了去年字节跳动豆包 " 大力出奇迹 " 的推广模式，通过自家产品生态自带的流量中心优势（字节主要依赖抖音、今日头条，腾讯依赖微信），再加上大规模广告投放引流。唯一的区别是，字节跳动投流的宣传对象主要是自家的 " 豆包 "AI 模型，腾讯则几乎为每一条元宝广告都贴上了 "DeepSeek" 标签，自家混元模型反而没有太多曝光。

不过，腾讯似乎依然不想放弃自研大模型产品。随着全球 AI 产业全面形成 " 重资源 " 投入趋势，腾讯希望利用 " 自研 + 开源 " 多模型策略，加速全域产品 AI 渗透。

目前混元是由腾讯 TEG（技术工程）进行主导研发，随着姚星、蒋杰等人陆续离职，目前腾讯混元负责人是腾讯首席科学家、腾讯机器人 X 实验室主任、视觉计算机领域专家张正友，他向腾讯集团高级执行副总裁、技术工程事业群总裁卢山汇报；而元宝、腾讯云等隶属于 CSIG 事业群，由腾讯集团高级执行副总裁、云与智慧产业事业群总裁汤道生领导。

这两大事业群主导腾讯 AI 业务研发和落地。

2025 年 2 月，混元深度思考推理模型 T1 预览版上线腾讯元宝；3 月，混元 Turbos 通用模型发布；4 月，新一代旗舰混元多模态模型发布；5 月，多模态慢思考深度推理模型混元 T1-Vision 发布，端到端语音通话模型也在 5 月底发布，并将上线腾讯元宝。

目前，混元 TurboS 在权威评测平台 Chatbot Arena 中已跻身全球前八，低于 OpenAI O3、Gemini、DeepSeek-R1 等模型，在代码与数学等理科能力上跻身全球前十。最新一轮升级中，TurboS 在理科推理、代码能力和竞赛数学三项指标上分别提升了超 10%、24% 与 39%。

笔者了解到，混元团队正在规划多模态和全模态模型。

" 多模态认知系统应该怎么去构建？一个核心观点，应该以语言模型为核心。语言的边界可能也是世界的边界，这个意思就是说语言跟认知可能是等价的，所以这个是从任务角度来说是这样的。因此，我们就基于它去做了视觉模型、语音模型，同时我们也在规划全模态模型，它都是以语言模型为核心，再进行知识推理链，这样的话我们能够利用好语言模型强大能力，同时它也是一个混合弹性的结构。" 混元团队称。

下一步，面向通用 AI，腾讯混元尝试用深度、广度两个方面推进，最后目标是希望创造一个类似于贾维斯这样的一个机器人，它能够自主去在比较复杂的世界里面探索。

谈到具身智能，5 月 24 日首届国际通用人工智能大会上，张正友表示，目前机器人本体能力、机械能力和身体部分能力距离人类还差很远，具身智能的机器人大脑和身体是不协调的，所以真正的具身智能，是要能够身体和智能融合，并且能够自主学习处理问题，环境变化不确定下能够自动调整和规划系统。因此，复杂的感知能力、执行能力、学习能力、规划模型的集中智能等能力都需不断提升。

张正友强调，要探索一个最佳机器人本体形态，人形机器人当然是其中一个，但双足、人形机器人不一定是最佳的形态。

"具身智能现在正在往上发展，但到一定程度以后，不一定是寒冬，至少资本上面会有一个缩减的过程，最后会继续往前发展。所以从我们角度来讲，我们要继续提升具身智能的能力，寒冬过后能够有更好的发展。" 张正友称。

7 年投入超 3900 亿，腾讯要与阿里、字节激战 AI

" 这些‘大模型六虎’正在以三倍速，走当年我们‘ AI 四小龙’（依图、旷视、云从、商汤）2017-2019 年的老路。" 依图科技联合创始人林晨曦曾对笔者表示，如果 AI 创业公司想在国内 C 端产品中获得商业化，能力和最终结果远不及字节等互联网大厂，后者有大量的投入、人力资源、流量与用户规模，这是创业公司无法做到的。

如今，腾讯决定向 AI 技术领域加大研发投入。

2024 年，腾讯研发投入达 706.86 亿元，过去 7 年累计投入达 3912 亿元；年度资本开支更突破 767 亿元，同比增长 221%，创历史新高。其中，AI 项目发展所涉及的资本开支就达 390 亿元。

刘炽平表示，腾讯计划 2025 年进一步加大资本开支，预计会占 2025 年总收入的 " 低两位数百分比 "。这意味着，2025 年腾讯的资本开支可能接近 1000 亿元的水平。

除了腾讯，阿里、字节都在加大 AI 研发投入力度。阿里巴巴集团 CEO 吴泳铭已经宣布，未来三年，阿里将投入超过 3800 亿元，用于建设云和 AI 硬件基础设施，总额超过去十年总和。这也创下中国民营企业在云和 AI 硬件基础设施建设领域有史以来最大规模投资纪录。

落地层面，腾讯主要在 B 端、C 端两部分落地。

其中，C 端方面，腾讯元宝接入 " 满血版 "DeepSeek- R1 模型，并能读懂图片后，今年 2 月、3 月曾多次登上苹果 AppStore 中国区免费榜前列，3 月 3 日晚成为下载排行榜第一名。

B 端层面，截至目前，腾讯内部超过 700 个业务场景获得混元大模型底座支持，大概每个月接入超百个场景，已有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户通过腾讯云调用腾讯混元大模型 API。

腾讯总裁刘炽平在此前财报会上表示，" 微信搜索的查询量和收入持续快速增长。我们整合了腾讯混元和 DeepSeek 大型语言模型能力，提升了微信搜索结果的相关性和质量。目前，腾讯自有模型支持的搜索结果已覆盖超过 90% 的问答式搜索。"

最新财报显示，2025 财年第一财季，腾讯实现总收入 1800 亿元，同比增长 13%。其中，To B 业务（金融科技及企业服务）实现营收 549 亿元。

展望未来，AI 是一个资本型、学术交叉型复杂技术，需要超强的算力、优秀的人才、高超的技术研发实力等，因此，新的 AI 大模型的 " 下半场 " 一定是巨头之间的较量，而作为 BAT 三大中国互联网头部公司之一，腾讯混元将与阿里通义、字节豆包激战 AI 智能体和商业化落地，尤其在 "AI+ 云 " 平台层面。

清华大学计算机系副教授刘知远表示，"AGI 新技术还在加速演进，未来发展路径尚不明确。我们仍处于追赶阶段，已经不是望尘莫及，但也只能说是望其项背。在别人已经探索出来的路上跟随快跑是相对容易的，接下来我们要面对一团未来迷雾。"

汤道生最近表示，AI 行业还处于早期阶段。大家都在跑马圈地，尝试着不同的商业模式。有的在追 Scaling Law，有的在打造 To C 市场新入口，有的在做产业落地，非常热闹。

"AI 正在跨过产业化落地的门槛，站在普及应用的全新节点上。行业由之前的模型训练主导，发展到今天更多是应用与 Agent 驱动；我们看到，云上 DeepSeek API 调用量激增，语音交互的需求也带动了 ASR（自动语音识别）与 TTS（文本转语音）模型的 API 调用；模型推理的算力消耗正在高速增长，规模化推理的成本优化，成为云厂商的核心竞争力。" 汤道生说。

汤道生 5 月 21 日强调，模型深度思考的突破，推动生成式 AI 的可用性从 " 量变 " 发展到 " 质变 "，腾讯持续加大 AI 投入力度，各项业务全面拥抱 AI。同时也以大模型、智能体、知识库和基础设施 " 四个加速 "，打造 " 好用的 AI"。

（本文首发于钛媒体 App，作者｜林志佳）

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频剪辑

AI视频剪辑

AI智能客服

AI工具箱

AI写稿助手

AI口语陪练

我的订阅

腾讯首个全模态模型混元 O 将发布，正面硬刚 DeepSeek 和字节豆包

宙世代

一起剪

相关阅读

华为捐献 开源鸿蒙代码规模超1.3亿行

马斯克宣布回归7x24小时工作状态 还要在工厂打地铺

NVIDIA全新中国特供版GPU来了！价格较H20砍半 最快6月开始量产

华为自研！央视报道鸿蒙电脑：搭载5nm麒麟X90芯片

我们和Flowith聊了聊，他们不想做通用Agent，但要做最好的AI创作工具

OpenAI会革掉苹果的命吗？

小米YU7闭式双腔空簧系统详解：比普通空簧系统更具优势

袁立一：文化圈 “神仙打架”，背后藏着怎样的经济密码？

雷军凌晨为小米打Call 清晨打卡健身 难怪周鸿祎钦佩！

沃尔玛计划裁员1500人，CEO直言无法“吃下所有关税”

小米目标：手机要做到全球第1、家电中国前3、汽车世界第5！

年营收6.3亿的潮玩公司要赴港IPO，万达电影、儒意突击入股，易建联也是投资人

Manus都点赞的Claude 4，究竟好在哪儿？

比赛热闹非凡，国际乒联赚到了吗？

外骨骼机器人：从医疗康复走向大众消费的新蓝海

最新评论

钛媒体

热门推荐

华为捐献开源鸿蒙代码规模超1.3亿行

马斯克宣布回归7x24小时工作状态还要在工厂打地铺

NVIDIA全新中国特供版GPU来了！价格较H20砍半最快6月开始量产

雷军凌晨为小米打Call 清晨打卡健身难怪周鸿祎钦佩！