超万人报名、现场开场前十分钟便一座难求。
一方面,年底举行的火山引擎 FORCE 原动力大会是字节跳动 AI(人工智能)实力的集中展现;另一方面,其火热程度也映射出整个大模型行业站在技术拐点前的迫切与躁动。
12 月 18 日,火山引擎正式发布豆包大模型 1.8 与音视频创作模型 Seedance 1.5 pro。其中,旗舰模型豆包 1.8 明确面向多模态 Agent(智能体)场景进行定向优化;Seedance 1.5 pro 则在影视级叙事张力、细节捕捉、情绪呈现及音画同步技术上实现了突破。
如果说春季大会是以技术普惠和分段计价切入市场,那么临近 2025 年底,火山引擎正试图通过提升技术 " 加速度 ",以应对以 Agent 为核心的下一个竞争阶段。
这条赛道上不乏重量级选手。在火山引擎强化其 Agent 布局的同时,阿里云也在多模态赛道全力加速:其于 9 月发布通义万相 Wan2.5 preview 模型,实现了音画同步生成,并提升了视频时长与画质;在 12 月的 " 千问 " 项目中,阿里接入了最新的视频生成模型万相 2.6。
当对技术突破的期待高涨,AI 如何从演示和榜单走向真正驱动千行百业的生产力?火山引擎此次押注于 Agent 和多模态,正试图以更快的技术演进回应这一时代之问。

" 多模态大脑 " 升级:从能力突破到生态扩散
火山引擎此次大会的核心,是升级了模型的 " 多模态大脑 "。
据火山引擎总裁谭待介绍,豆包大模型 1.8 面向多模态 Agent 场景进行了定向优化。其工具调用能力、复杂指令遵循能力及 OS Agent 能力均得到增强,提升了模型在处理复杂任务时的规划与执行水平。
在多模态理解方面,1.8 版本提升了视觉基础能力,可低帧率理解超长视频,并在视频运动、复杂空间及文档解析上有所突破。它还原生支持智能上下文管理,能在长任务中智能清理低价值历史信息,确保多步骤任务稳定完成。
测试数据印证了这些进步。根据其公布的评测图表,豆包 1.8 在 AIME 2025 测评集上表现提升,于通用智能体测评 BrowserComp 中取得全球领先的成绩。而在多模态理解方面,在视觉判断准确性、空间理解等多项关键能力上超越了 Gemini 3。

多模态能力的提升是模型成为复杂代理的关键。谭待阐释了其战略意义:" 多模态其实代表着模型的应用进入更深的领域。"
谭待在接受包括《每日经济新闻》记者在内的媒体采访时指出,现实中的需求输入常带有视觉信息,如车载环境、产品质检,且工具返回的结果也多为视觉化。要有视觉化的理解才能处理这些工具的结果,这让模型能像人一样操作,极大地扩展了适用性。" 我们很早就意识到这个(多模态)才是模型真正地成为复杂的 Agent(关键)。"
当多模态理解能力与具体的终端场景结合,便催生了颠覆性的体验。
谭待以智能汽车座舱的理解提升为例,接入大模型后,系统在能理解 " 好热 " 时就调温,在说 " 打开天窗 " 时就打开遮阳板。甚至能完成凭歌词搜歌等复杂操作,以及复杂的语音点餐。
他还描绘了一个更具象的未来场景:在导航至目的地时,系统不仅能推荐附近餐馆,更能无缝完成车内点餐。他以与瑞幸合作的语音点餐为例展开说明,表示若以后这一能力平移到行车场景中,只需提前告知 " 在公司楼下帮我点杯咖啡 ",抵达后便能直接取餐。
谭待总结道:" 这种交互就是完全自然的以 Agent 的方式,像人一样跟它交互,它能帮你做各种各样的事情。" 他认为,这种智能交互将覆盖手机、汽车乃至各类终端,展现出一个充满可能性的 " 智能空间 "。
与此同时,这种 " 多模态 Agent" 能力正通过标准化的 API(应用程序编程接口)与开发平台(AgentKit),快速向更广阔的硬件与行业生态扩散。本次大会上正式宣布的 " 豆包助手 API",旨在将豆包对话、思考、搜索等核心产品能力打包开放,让企业开箱即用,目前首批四项文本能力已上线火山方舟应用实验室。
目前,火山引擎活跃的生态已经在调用量上有所体现。截至今年 12 月,豆包大模型日均 tokens(大模型处理文本的最小单位)调用量已突破 50 万亿,较去年同期增长超十倍;同时,有超过百家企业累计使用量超过 1 万亿 tokens。
直面竞争与安全挑战:如何应对行业激战与用户信任?
但站在日均 50 万亿 tokens 调用量的节点上,火山引擎接下来将面临的是一个竞争日趋白热化的市场。
在国内,阿里等对手在多模态与视频生成领域紧追不舍。今年 9 月,阿里发布通义万相 Wan2.5 模型,首次实现音画同步生成,并显著提升了视频时长与清晰度。紧接着在 11 月,阿里宣布全力进军 AI to C 市场,将 " 通义 App" 更名为 " 千问 App"。
到了 12 月,千问 App 已快速接入迭代后的万相 2.6 模型。该版本不仅支持多镜头生成、音频驱动等进阶功能,更宣称实现了 Sora2(OpenAI 发布的新一代视频生成模型)尚未具备的某些能力,力图在视频生成的功能全面性上建立竞争优势。此外,其他云厂商与 AI 公司也在通过价格策略、行业深度合作等方式争夺市场份额。
对此,谭待在采访中表现出一种开放的 " 竞合 " 观,他更倾向于将市场视为一个共同做大的蛋糕。在他看来,更多重量级玩家的投入能加速市场教育和基础设施成熟。" 越多人进来是能够加速(行业发展),能带来更多的人,更多的想法,我们就能把这个事加速做好。"
而当被问及如何评估与公认顶尖模型 Gemini 3 的差距时,火山引擎总裁谭待展现出务实的追赶心态。他坦言:" 你要衡量距离那有差距。" 但他更强调动态的追赶过程,将竞争维度分解为距离、速度与加速度。" 我觉得加速度我们现在在提升。" 谭待表示:" 最终肯定能看到越来越接近。"
并且,随着 AI 能力深入消费电子与企业核心,安全从技术问题演变为市场信任的基石。豆包手机助手上线后,其安全实践便成为密集关注的焦点,促使官方两度作出公开澄清。
对于 INJECT_EVENTS(注入权限 / 注入事件)权限争议,豆包手机助手于 12 月 3 日声明,该权限是实现自动化操作所必需的系统级能力,需经用户主动授权且已在清单中明确披露,不会代替用户进行任何敏感授权与操作。
12 月 13 日,豆包手机助手又一次就安全争议作出回应,称其采用原生截屏接口,严格遵循应用声明的 Secure 标记(安全标记),无法截取银行安全键盘等受保护界面的内容。
针对豆包手机助手引发的安全讨论,谭待也在采访中表示,无论是面向消费者的产品还是企业级服务,安全都是字节跳动的首要考量。
此次发布会上,安全也被置于议程最前端,通过新功能 MaaS on AICC(模型即服务基于人工智能机密计算平台),火山方舟上的所有模型,包括豆包大模型家族和 deepseek 等开源模型,都可以直接运行在 AICC 加密环境中,只需要在火山方舟选择 " 机密部署 " 方式,就可以一键开启各种模型的机密推理服务。
押注 Agent 是火山引擎给出的战略答案,最终的检验将取决于智能体所创造的实际价值,以及能否在运行全周期中筑牢可靠的安全防线。
免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。
每日经济新闻