中国在这场变革中展现出双重禀赋:既是拥有超大规模应用场景的试炼场,又在芯片突围、算法开源等深水区发起攻坚。从单点技术破壁到生态级创新,从效率工具到新质生产力引擎,一条具有东方特色的 AI 发展路径正加速浮现。
7 月 26 日,世界人工智能大会(WAIC 2025)以 " 智能时代 同球共济 " 为主题,汇聚了来自 AI 领域的科技巨头、学术先锋与政策制定者,而这场覆盖技术、伦理、艺术的超级盛宴,昭示着 AI 已从 " 产业变量 " 进化为 " 文明常量 "。
在这场关于人工智能产业的盛会上,36 氪不仅作为产业观察者,更以产业连接者的角色深度参与,在展馆中搭建了 " 氪星直播间 ",以对话的形式,揭秘人工智能产业进阶的底层逻辑。
在对谈中,百度文库产品负责人钟昊表示:百度文库经过 AI 重构,能够充分高效理解用户意图、满足用户需求,一站式、端到端解决用户问题。百度文库从最开始就坚持了 MoE(混合专家模型)架构,并通过 Genflow 进行全局调度,出发点就是让 AI 像人一样学习工作,成为人类最好的搭子,帮助用户更好进行内容的创作和消费。
36kr:首先请您介绍一下自己和业务的情况吧。
钟昊:我是百度文库的产品负责人。大家对于百度文库比较了解的是资料库属性,经过两年多的 AI 重构后,我们把很多 AI 能力和专业资料内容做了很好的结合。现在百度文库是一站式 AI 内容获取和创作平台,有几百个多模态 AI Agent,可以帮助用户端到端解决很多创作问题。现在的百度文库已经焕然一新,大家可以到 APP 或 PC 端网页体验。
36kr:这次来 WAIC 的感受是什么样?有哪些收获?
钟昊:百度文库网盘今年也有参展。AI 行业发展确实迅速。第一,大模型本身在进化,不管是文生文、文生图还是视频模态,模型边界比往年大大拓宽,看到很多有意思的应用。另外不管是初创企业还是大公司,在都加大了投入决心,今年是百花齐放的展会,既有共识部分,也有突破边界的部分。我个人更期望看到更多突破边界、更有想象力的尝试,不是很早就陷入局部最优或短期共识解法中。
36kr:您印象最深刻的展台是哪一个?
钟昊:各个展台有自己的特色,文库网盘更多展示的是场景化和端到端解决具体问题,最早我们关注的是用户对最终交付的内容,无论是 AI 创作还是 AI 和人共同创作的内容的采纳率和使用率。
文库和网盘的展台是按用户场景设计的,不管学习、办公、生活还是娱乐,不同场景都有文库、网盘的分场景解决方案,用户能感受到需求被充分满足。
36kr:在百度文库 AI 重构的过程中,您认为最大的技术难点是什么?最好用的 AI 功能是哪一个?
钟昊:最好用且做得最深的是智能 PPT,我们在国内最早做这个能力,现在针对十几个场景做了深入细化。用户不仅能基于指令生成,还可以基于图片、文档、素材,甚至授权的个人网盘内容生成 PPT,我们还能支持上传模板和自定义模板,还能直接生成图表、数据等。
在智能 PPT 这个场景,我们做得比较深、比较完整,在智能 PPT 的基础之上,我们把同样思路运用到很多场景,现在文库能生成长短文、研报、思维导图、AI 绘本、海报等。
对于技术难点,文库的 AI 重构,已不限于 AI agent 本身的构造,更多是理解用户意图,让 AI 聪明调度多个 Agent 解决问题。比如一个刚刚入学不久的大学新生,他需要策划社团活动方案,可能不会明确说要 PPT、海报或策划文档,AI 需要基于专业内容和类似场景解决方案,主动给到综合交付,调度不同 Agent 完成任务。
这对技术的要求会更高,你既要能够理解用户,还要深入挖掘 Query 背后的意图和需求边界,怎么能高效、合理地为用户解决问题。这样更偏场景挖掘、场景需求理解和场景解决方案的能力,有更深的技术要求,以及让 AI 变得更聪明才能做到,同时它底层有需要细颗粒度、灵活的 Agent,以及 AI 阅读器、编辑器等基建支持,都是为了完成更综合的任务挑战。
36kr:百度文库作为国民级产品,经历 AI 原生重构后,带来了哪些颠覆性改变?
钟昊:最大改变是,过去作为百度文库资料库只解决用户需求的一小部分,用户来到文库,找到一篇他需要的内容,下载体验后就结束了,他的诉求还没有被完全满足。现在文库不仅能高效找到内容,还能从零开始或基于现有内容完成综合任务。一方面有 AI 实时人机交互理解需求,另一方面借助 AI 融合编辑器等基建,用户可边思考边创作,调度 AI 完成任务。有了这些基建之后,AI 能够帮你全自动地解决,融合编辑器会帮他半自动解决这些过程,用户无需跨多个软件,在一个应用就能快速完成工作,产品从资料库变成一站式平台,这是用户真正想要的。
36kr:大模型结合 AI 技术时,大家会考虑成本、效果、时延等 " 不可能三角 " 问题,文库网盘是如何解决的?
钟昊:百度文库从重构时就采用 MoE 架构,当时行业流行 Prompt 工程,但我们发现难以突破模型能力边界,且会碰到不可能三角问题。我们先结合具体场景针对性优化 Agent,比如智能 PPT、长短文、研报、思维导图等,在每个场景打磨中找到最佳平衡点,再局部解决不可能三角的问题。比如 PPT 配图时,是生成图片还是直接调取文库内容,后者可能又好又快。在一个个分场景的细节打磨中,我们逐渐找到了最佳的平衡点,以及能让用户又快又好获得高质量交付。
在此基础上,我们推出 GenFlow 调度中枢,马上就会推出 2.0 版本。GenFlow 能结合用户意图自动调度 Agent 解决问题,同样需求用 A 方案比 B 方案更 " 多快好省 "。最底层是 MoE,之上是细分场景 Agent 打磨,在几百个场景实现局部最佳平衡,再通过 Genflow 全局调度。越理解用户需求和 Query 背后意图,越能解决问题,基本功在于离场景多近、是否沉下心打磨。
行业中很多产品遇到了不可能三角的问题,会急着找通用方案解决所有用户的问题,但这其实很难,在短期内找到最优平衡点,反而要沉下心场景打磨,这很难,但却离最终目标更近。
36kr:其实是在具体场景内灵活调整。
钟昊:是的,通过 PMF 满足用户需求,比如文库的研报能力刚上线时,是解决用户分析、研究类的需求,我们如何保证他需要简单分析的时候,不会生成一篇上万字的研报?虽然当时能力很领先,但这不一定是用户要的,用户可能只需要简单分析,我们就避免生成冗余内容,既节约成本时间,又解决不可能三角问题。很多时候答案在场景细节里,愿意沉下心打磨就离目标更近。
36kr:其实能做到这一点,还是基于百度在 AI 技术上的积累。
钟昊:是的,我们投入最早,最开始就坚持了 MOE 架构。作为应用端产品,我们在文心系列模型基础上探索边界,最终把好食材炒成大餐,不仅靠技术积淀,更要走进用户和场景,让技术积累发挥最大化。
36kr:GenFlow 是怎么把模型转换成生产力的?在多智能体协作上有什么优势?
钟昊:我们对 GenFlow 的最早构思,是解决用户不知道平台有众多能力的问题,很多用户不知道文库网盘又数百个能力,用户和 AI 进行交互的时候是带着诉求来的,极客爱好者会深度探索,但普通用户没必要挖掘所有功能,AI 应该更主动提供服务,解决用户 prompt 描述清楚或找到入口才能使用的问题。我们希望 AI 像人一样主动工作,在交互的过程中允许你提出更多追问和建议,并行给你解决方案,能够多线程地去处理很多工作,符合上述特征才算的上是主动的 AI。
因此 GenFlow 2.0 版本即将推出干预模式、并行模式和主动思考能力,能主动挖掘用户过往沟通内容和记忆库,了解用户对话背后的需求,能够去并行处理 N 个任务。
这是我们在行业当中的创新。因现在大多数 AI 是串行解决任务,但人是能够并行处理工作的,我们认为 AI 也可以,所以我们实现了并行处理,推出干预模式让用户可随时打断、补充、修改内容,AI 了解用户历史对话和授权资料,主动灵活解决问题,过程中能流畅交谈,这种主动性的提升,让 GenFlow 的技术能力最大化。我们的出发点是解决人机交互问题,落脚点是让 AI 更主动、全面服务人。
36kr:展望未来 3 到 5 年,伴随着技术越来越成熟,整个行业会发生哪些更新的变化?在战略上是否会有一些新的部署?
钟昊:未来人机交互一定会更加深入和全面,会渗透到人类的工作、学习、生活、娱乐各个方面,交互方式的边界也会更加模糊,更多是人类和 AI 共同完成的。
就像为什么文库、网盘推出 GenFlow 一样,首先我们希望 AI 能像人一样思考,学习、工作,让 AI 成为人类最好的搭子,从布局上来讲,我们一直沿着内容的主航道布局,从内容生产的起点到内容消费的终点,是百度文库和百度网盘一直在做的事情。我们希望让 AI 帮助大家更好进行内容的创作和消费。
未来某一天,我们会尝试新形式的办公和学习,不一定需要电脑,可能从口袋里拿出一个设备,在 3-5 分钟就能完成原来一、两个星期才能完成的工作。
比如在娱乐放松的时候,能很方便地把小说转变成动画的形式,不需要去逐行读文字,让 AI 实现我们的想象力,我们看很多文学作品的时候也会有自己的想法,这时候我们又变成了创作者。
这是 AI 是我最好的帮手,因为我没学过绘画,也不是专业的剪辑师,但 AI 可以像一个团队一样帮我实现,最大程度降低创作门槛,让每一个有创造力的人,都能充分发挥自己的想法,并且被更多人看到。
AI 在理解每一个用户需求的同时,给他推荐更好的内容,同时提升效率,节省时间,人们通过更低门槛的 AI 平台发挥自己的创想,生产出来的内容又被更多人消费,我非常期待这样一个新世界。