关于ZAKER 合作
量子位 14小时前

会写剧本、能凹人设,还顺带站上领奖台,这数字人包“会”的

还记得今年 6 月罗永浩那场堪比春晚带货专场的直播吗?评论区刷屏、订单秒飘,GMV 直接干到了5500 万 +

当时的老罗,前一秒还在念叨 " 别帮我省钱 ",下一秒那副 " 精明老练 " 的商人面孔就藏不住了。

推眼镜、拍桌子、掏清单一气呵成,操作之娴熟、语气之佛系、节奏之精准,一整个 " 老罗本罗 "!

状态太好了,甚至好到让人根本想不到:这场直播从头到尾,罗永浩其实一次都没出镜……

你看到的 " 老罗 ",其实是个数字人。(对,连眼镜反光都合成得像模像样)

苍天啊,真假难辨真假难辨啊!

这出 " 安能辨我是 AI" 的魔幻直播大戏,背后的操盘手,正是百度

他们用一套叫剧本驱动多模协同的高拟真数字人技术,让数字人不但能说话,还能演戏、接梗、抢话筒,甚至真 · 金 · 白 · 银地把货卖出去。

在正在举行中的 2025 年世界互联网大会乌镇峰会上,这项技术又一次拿下了领先科技奖,这是百度在乌镇的三连冠,也是唯一连续三年获奖的 AI 公司。

一个小小数字人,能说、会演、还能把钱赚得啪啪响,这个技术……究竟有啥魔力?

这届数字人开始凹 " 编剧 + 演员 + 嘴替 " 人设了

大家有没有这种感觉,这两年数字人是真的火,不是因为产品多,而是给咱推送的太多了。

十条短视频直播可能就有一条是数字人 copy 的,不是在吆喝卖东西,就是合成面孔在讲新闻," 人设 " 各不相同,但 " 人味 " 都差点意思。

但为啥很多时候我们一眼就能看出来它不是真人?很简单,是因为数字人最容易露馅儿的,从来不是脸,而是 "人味儿"。

人识别 " 人 " 的方法其实特直觉,例如语气对不对,动作顺不顺,只要有一点点卡顿、出戏、不自然,立马就知道 "No!这不是真人!"

而百度剧本驱动多模协同的高拟真数字人技术,就是要从根上解决上面这些问题。

它重点包含剧本驱动的数字人多模协同融合多模规划与深度思考的剧本生成动态决策的实时交互文本自控的语音合成高一致性超拟真数字人长视频生成五项创新技术。

简单讲就是,它不是只训练一张脸、一个语音模型,而是让语言、动作、表情、反应、内容都能协同起来,让数字人像真人一样 " 说 "" 演 "" 动 "" 听 "" 想 "。

能自己写剧本的数字人

现在这年头,能张口说话的数字人不算稀罕事儿了,能自己写剧本、自己演,还能控节奏、接互动的数字人才是真 · 有点能耐。

基于文心大模型,百度这套「剧本驱动多模协同」的高拟真数字人技术不是你喂一句它说一句,而是它自己就能 cos 成一位资深编剧,能一口气输出一份可以直接开播的全流程直播剧本

这份剧本里不仅有 " 说什么 ",还有 " 怎么说、什么时候说、说的时候怎么配合动作表情 ",说到哪该看哪、什么情境配什么语气、双人直播时谁该接话、怎么接,全都提前安排好。

举个例子,提到 " 抬头纹、法令纹、颈纹 " 的时候,小小数字人会自动调用视觉标签,告诉系统镜头该怎么精准展示部位。

说 " 福利来咯 " 时,就触发语音标签,控制情绪语调,让语气显得足够兴奋、但不油腻。

双人互动时,还能安排 " 数字人在哪个词之后无缝接话 ",一句不差,直接接梗不卡壳!

像咱开头提到的罗永浩那场 6 个多小时的直播,就是系统基于老罗的人设和产品特性,调用知识库超过 1.3 万次,生成的 9.7 万字讲解内容。

不但能像人一样及时察觉到直播间热度及用户的反馈,还能超自然地与用户实时互动:

再仔细看这段视频还能发现,他能主动邀评、Cue 弹幕、抛话题,遇到观众刷屏,还能顺着话头加段子,控场氛围说实话,甚至比一些真人还稳。

背后这套 " 剧本 + 指令 + 场控 " 一体化系统,撑起的就是数字人的真正灵魂感,能聊能演能控场,妥妥的一位 " 全栈带货人 "。

张口就能 " 戏精 " 附体?包会的!

数字人到底 " 装 " 得像不像人,开口唠两句就能见真章。

在这一块儿,百度高拟真数字人算是把 " 人味儿 " 打磨到位了,不光讲话情绪有起伏、语调能带劲儿,还能根据场景自动切换自己的语言风格,说得像,还说得准:

以至于我们看到老罗那场以假乱真的直播时,第一反应是没任何毛病,因为那佛系又爆梗的讲话劲儿真的跟他本人太像了:

前脚刚喝一口牛奶,后脚立马张口爆金句:睡前来一杯,半夜上厕所思考一下人生也不错~

别说观众,我要不是知道这是数字人,真以为老罗这段子水平又进化了,当一个数字人能 copy 到和正主一样的讲话方式时,我只能说是真 · 修炼得炉火纯青了…

(等等,下一步该不会是数字人上《脱口秀大会》了吧???)

老话讲得好,台上一分钟台下十年功。

能让数字人嘴皮子如此之溜,背后的核心技术是百度自研的文本自控语音合成大模型,不仅能把字读出来,还能轻轻松松把语气、节奏、情绪一起说出来。

此外,为了解决罗永浩数字人直播双人配合的难点,百度用上了上下文编码器,把整个对话的来龙去脉喂进去统一推理生成。

这才使得数字人能感知整段台词的情绪走向,动态调整语调和气口,让声音听起来像是 " 刚想完才说出口 " 的!

听不到接缝、也感觉不到谁在等谁,说得顺,接得住~

一张脸播到底,不累不崩不出戏

现在之所以有越来越多的商家开始用数字人代替真人出镜,很大一个原因是:是人,就会累。

你想啊,人播个三五小时,脱妆不说,脸上隐约写着四个大字:生!无!可!恋!

作为观众的我们看到那疲惫的面孔都忍不住想说一句:" 哥,要不你先歇会儿?"(打工人狠狠共鸣了…)

而且讲真的,正常人就算能高精力连着播六七个钟头,情绪虽可能还在线,但脑子可能早宕机了…

于是乎,赛博打工数字人就上场了!

百度数字人通过结合多模态视频理解、跨模态信号生成、长视频生成的一整套技术链,把数字人的在线表现力拉满了:

没有疲惫情绪、能在长时间直播中,始终维持统一语气与人设状态,不管播多久、讲几轮,调性始终如一,不跑偏、不出戏。

此外,对品牌来说,这种一致性是塑造 IP 的重要前提。

尤其在长时间直播场景里,效率、状态、形象,全程在线,对商家来说,这不只是替代,更是一种流程可控、成本更稳的新解法。

这样一来,旋转跳跃不停歇真不是句歌词了,小小数字人还真能几个小时整下来~

技术落地之后,数字人开始真正 " 上工了 "

是骡子是马,当然得拉出来溜溜。

如今,百度这套高拟真数字人技术已经从 "demo 阶段 " 走向了真实生产环境,成为了真正跑在一线的 " 打工仔 "。

截至目前,靠它 " 孵化 " 出来的数字人已经超过10 万个,活跃在电商教育法律政务等几十个行业。

能卖货、能讲课、能答疑,还不喊累。

更关键的是,它不是 " 只省事不出活 ",而是真能帮企业提效:

据官方数据,目前这套技术已经助力商家开播成本降低 80%转化率提升 31%,可谓 " 多 · 快 · 好 · 省 "。

比如在老罗与朱萧木的双人带货直播中,百度数字人连播 6 小时,吸引观众超1300 万,GMV 达到5500 万 +,整个这波过程没有冷场、没有翻车," 嘴替 " 稳定输出,观众看完都惊呼:真假傻傻分不清楚了…

知识博主艾弥儿也通过百度数字人接入万亿级知识库,将用户停留时长提升 101%;蒙牛悠瑞的数字人通过全时段服务与动态策略,使转化率提高了 33%。

在山东德州夏津县,"慧播星" 数字人还助力三位老书记直播带货,1 个月卖出 3.3 万斤农产品,账号订单量已近万单,总销售超 15 万元。

更进一步,从行业生态维度看,这套数字人技术也带来了新的 " 绿色降本逻辑 ":

不拼灯光、不靠体力,全程用算法驱动、一台设备跑全程,不仅能少碳排、多复用,还能带动上下游企业协同创新,产业链自然更健康。

从城市到乡村,从书本到助农,数字人正悄悄接住每一个场景的需求。

不知不觉中,这套数字人技术已经变成了百度电商生态里的 " 默认选项 ",撑起了包括图书、健康、明星直播在内的多个业务的底盘。

相比传统直播,商家无需投入大量人力物力,不用搭建场地、购置设备、培训主播,只需部署一套数字人系统,就能实现全天候内容输出。

而 24 小时不间断直播,也让商品在曝光时长、用户触达频次、转化机会上都实现了显著增长。

从打工人视角看,这是别人家 " 永不下播 " 的同事;从老板视角看,这是稳定、耐造、可调度的理想员工。

总的来说,从前的数字人,还只是个实验室 demo,现在的数字人,已经在直播间里拉业绩带节奏撬增长了。

更关键的是,它的表现不只靠 " 看起来像 ",而是拿得出数据、撑得起转化、跑得动流程:

让观众停留、让订单增长,在一个又一个落地场景中完成 " 交作业 "

百度数字人技术在乌镇上的获奖,不只是在表彰技术突破,更是在确认:

一个能上场、能扛活、还能赚得明明白白的数字人,已经成了内容产业的新型基础设施。

不是替代真人,而是开辟了一种更稳定、更可控的内容生产力路径

下一场数字人直播的爆点,没准就藏在一行剧本的背后,咱就搓搓手期待期待吧。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

点亮星标

科技前沿进展每日见

相关标签