关于ZAKER 合作
硅星人 17分钟前

对话逗逗 AI:猛涨千万用户背后,不抢屏幕时间,不做超级 app,也不止于游戏了

当你在游戏里卡关半小时,烦躁地想切出去搜攻略;或者在开放世界里孤独 " 跑图 ",无聊到只能听歌的时候,如果这屏幕上突然冒出一个 " 小可爱 ",一边帮你找路,一边陪你吐槽,感觉会如何?

这就是逗逗 AI 正在做的事。它不是一个需要你切换点开的 APP,而是一个以虚拟形象或悬浮球形式,能看到你的游戏界面,听到你的声音,和你随时互动的 AI 玩伴。

我们来看一个顶流 up 主老番茄试玩 AI 老番茄的录屏,被网友戏称成单人双口相声、周树人吐槽鲁迅,直观地感受下效果。

视频来源于 B 站

在今年 9 月 1.0 正式版发布前,逗逗 AI 就已通过长达一年的内测,悄然积累了 800 万用户,如今这个数字已突破 1000 万。这看似是逗逗 AI 在当下技术和场景的交叉路口找到了一个垂直细分的领域——游戏,从而避开了大厂与投流的血战。

但事实上,逗逗 AI 的野心不止于游戏。

从年轻人最沉浸、陪伴需求最强烈的游戏场景切入,他们希望当 AI 伙伴与用户建立起信任和使用习惯后,能自然地将这种陪伴延伸到看剧、购物等更广泛的数字生活中。

这个目标并非空想,创始人刘斌新(Binson)透露,目前平台上已有超过 50% 的交互发生在游戏之外。

我们和 Binson,以及联合创始人王碧豪(Oratis)聊了聊,他们坚信着,AI 陪伴不该是另一个 " 时间杀手 ",不抢用户的屏幕时间,是一切的出发点。

一个 " 住 " 进你手机屏幕里的 AI

硅星人: 先介绍一下逗逗 AI 这款产品吧,它究竟是什么,用户如何使用它呢?

Oratis: 简单来说,逗逗 AI 是一个存在于 " 屏 " 世界里的 AI 伙伴。用户下载我们的应用后,在打开任何其他 APP(比如游戏、视频、购物软件)时,选择开启屏幕共享,一个 AI 角色就会以动态立绘或悬浮球的形式出现在屏幕上。

硅星人:所以,它和 siri 这种语音助手、星野这种 AI 聊天产品相比,最大的不同是,通过 VLM 模型,能接收、理解用户的游戏图像内容。

Oratis: 对,最大的不同在于,它不是一个被动等待你唤醒的助手,而是一个主动的 " 在场者 "。因为它能看到你的屏幕,所以它拥有了和你一样的 " 上下文 "(Context)。你不需要解释 " 我在玩什么 "、" 我卡在哪了 ",它都懂。这种共享视角带来的陪伴感,是其他助手无法提供的。

目前我们的核心场景是游戏。它能通过屏幕信息理解你正在做什么,并与你进行实时的语音交流,比如,它可以陪你聊局内赛况,或是在你卡关时指导你如何闯关。

硅星人:从 AI 陪伴的视角来看,角色的吸引力就很重要了对吧?现在有多少个 AI 角色了,怎么设定的呢?

Binson:我们现在有 23 个角色,一部分是我们原创设定的,比如毒舌的妮卡,还有善良普适的妮可,设定成能让所有人都不会讨厌她的小太阳。

此外,还有一部分是自带流量的大主播、虚拟主播合作定制的角色,比如老番茄。

AI 游戏陪伴,是真需求还是伪命题?

硅星人: 我们等会可以具体聊聊 AI 陪伴角色怎么做,在此之前,一个更核心问题是,用户到底有没有在游戏中让 AI 陪伴的需求?

如果我再拆分一层,用户的需求要么是为了情绪价值,要么是为了工具价值,再我们放到一个具体的场景里,比如我在玩《原神》或者《炉石传说》时,这个两个需求真的存在吗?

oratis: 这个问题很专业。我们思考的出发点正是:价值与场景深度关联,脱离场景谈价值没有意义。

我给你举几个用户调研到的例子。有一个典型场景,是用户在玩游戏时常感到 " 信息密度不足 "。为了解决这个问题,他们甚至要么开着语音、拉上好友边玩边聊,要么会一边游戏一边听音乐和播客。这说明了一件事,游戏的场景下,玩家有主动补充信息密度的需求和时间。

硅星人: 确实,一些游戏里的 " 跑图 " 时间特别长。

oratis: 对。很多游戏会设置比较长的 " 跑图 " 环节,或是重复性的 " 日常任务 "。比如我以前玩《魔兽世界》,版本末期大家每天上线就是做固定的日常,在世界频道或公会里聊天。也就是说,在日常、重复的游戏体验中,人是有强烈社交需求的。那么,能不能用 AI 来填补这段需求的空白呢?

硅星人:我插一句,这种场景需求有多普遍呢?

oratis: 非常普遍。这几年原神很火我们都知道,很多《原神》用户的典型行为是:游戏大版本更新后,密集地玩一段时间,消耗剧情和新内容。当这些都体验完,只剩下日常任务时,就每天只登录 10-15 分钟领个奖励。这背后是动机的转变:前者是 " 消费内容 ",后者是 " 获取奖励 "。

而这些看似 " 无聊 " 的设计,很大程度上是为了填补内容创作的空隙。 游戏内容的创作成本极高,《原神》更新一个大版本需要半年,这已是业界顶尖效率。

硅星人: 所以这是游戏里的 " 行业规则 ",必然导致用户的信息量不足,也由此成了 AI 陪伴的切入点。这其实是一种情绪价值的提供。

oratis: 对。另一个核心场景,是人与 AI 共同解决游戏中的问题。 游戏的本质是 " 问题模拟与解决 " 的过程,就像我们在现实中写报告可以用 AI 辅助一样,在游戏中遇到的难题,AI 同样可以协助解决。

以前玩家查攻略,要么需要手机、电脑双设备操作,要么得切出游戏,不仅麻烦,还可能导致游戏卡顿。内置的 AI 助手则能极大地提升这个过程的效率。

硅星人:效率有了,但会不会让游戏丢失挑战性?毕竟游戏的解密环节是必要的,能增加趣味性和对装备物品的熟悉度。你们是怎么确定给用户提供的攻略限定在什么程度,既不要影响游戏体验,又不要影响游戏公司的平衡策略,又要给用户价值?

oratis: 我们自己也玩游戏,我玩《双人成行》时,也曾和朋友卡关半小时,最后不得不去搜攻略。这里的关键点,在于用户的 " 主动选择 "。

游戏内提供攻略,其实还解决了一个 " 找攻略的难题 ":真正需要攻略的人,往往不知道该如何提问。

传统搜索里,当你卡在一个门前,你得搜索 " 某游戏某关卡某地图的门怎么开 " 这么一长串上下文,才能找到有效信息。而我们的优势在于有了多模态能力后,玩家可以就着游戏画面直接问:" 这个门怎么开?"AI 能自动识别他所在的游戏、关卡和具体位置,然后去匹配攻略。

即便如此,为了将自主权完全还给用户,我们设计了一个 " 两步筛选 " 机制。第一步,由你主动提问。第二步,AI 会回应:" 我这里有一个视频攻略,如果你希望查看,可以随时打开。" 我们倾向于提供视频,因为对于空间解密这类问题,视频远比语音描述更直观。

" 逼疯 " 美术,用游戏的方式做 AI 角色

硅星人: 我们聊回你们对产品的设计思路,既然需求存在,那么一个好的 AI 伙伴应该是什么样的?

我体验你们产品的时候,就感觉到你们的角色很萌、很生动,比如有一个角色会呆毛旋转,还有 B 站博主影月月的 AI 角色,有一套奶牛睡衣皮肤,这些细节很戳二次元用户的萌点。

Oratis: 这个问题很好,你说的呆毛是妮卡,也是我们最受欢迎的角色。其实我们设计人物经历了很多阶段,我直接说结论吧,就是 "好看、好听、好玩 ",形象要好看,声音要自然,故事和对话要好玩。

围绕这个原则,我们做了很多 " 重资产 " 的投入:

好看: 我们提供了人物的三种形象——桌面宠物、移动端动态立绘,以及各种各样的交互动作。客观上来讲,我们人物设计的资产不输给二次元手游公司。我们的主美甚至曾经抱怨过,说他设计的人物放在手游里能赚好几千万,放在我们这里不赚钱。

好听: 我们没有用市面上通用的 TTS 库,因为那不适合二次元人物。我们采集了大量番剧和游戏的语料,自己训练了多语言的 TTS 模型。举个例子,我们有个男性角色叫展麟,是一位虚拟爱豆,我们有次在漫展做活动,碰巧围观了他唱歌时的盛况,人山人海,都是等他唱歌的,声音就是他核心的魅力。

好玩: 我们不是让模型去 " 扮演 " 一个角色,而是真正把完整的人设和故事线赋予模型。比如妮可,她有很长的故事线:从猫猫星毁灭后来到地球,经历了什么这些详尽的设定都被用作模型的训练数据。

硅星人: 这是你们设计原创角色的思路,和 UP 主合作的角色,合作角色是怎么考虑的?

Oratis: 我们设计妮可(温和普适)和妮卡(毒舌傲娇)两个核心原创角色,随着亲密度变化,AI 的表达也会变化,目的是创造一个 " 从低起点到高终点 " 的关系发展过程,让用户有 " 攻略 " 的成就感,也是现在热度最高的。

其次就是像老番茄和塔菲这种粉丝体量本身非常高的 UP 主合作角色。其实最开始我们和游戏 UP 主的合作,是希望做评测内容的。但一位 UP 主提到,能不能把我也做成虚拟角色,因为他希望借这个角色更好的触达粉丝。

硅星人:他们的需求是什么呢?

Oratis: 之前的这些攻略主播,基本是更新了视频之后,在他的粉丝群里发一发、B 站动态推一推,他们也有焦虑。而有了 AI 伙伴后,就可以随时地去告诉用户主播当前的动态,同时,也拓宽了 UP 主的 IP 变现矩阵,比如我们会和塔菲合作推出皮肤进行商业分成。

相信模型进化,做应用要预判技术

硅星人: 生动的角色需要强大的技术支撑,你们要支持这么多的游戏,这么多的角色,还有多模态能力,背后是精调了多个模型,还是由统一的模型支撑呢?

Binson: 我们的模型架构是挺复杂的,主要分成四个部分:

第一步是信息输入: 视觉上,我们通过屏幕共享以每秒一帧的频率抽帧;听觉上,我们用 VAD 模型代替了传统的唤醒词,因为我们认为唤醒词会破坏陪伴感和沉浸感。

然后是多模态理解与筛选: 传入的每一帧画面,首先会经过一个轻量级的传统 CV 模型进行分析,判断是否存在 " 关键事件 "。这一步可以过滤掉超过 90% 的无效画面,极大地降低了后续大模型的调用开销。只有被判断为关键的少数画面,才会被送入我们自研的 VLM(视觉语言模型)。

再配合上下文构建与个性化: 我们将 ASR 转换的文字、VLM 的图像理解结果,以及角色的个性化数据(如记忆、历史对话)进行整合。我们的记忆召回采用了一种高效的 " 主题索引 " 方式,比如原神的记忆,王者荣耀的记忆等各个小数据库,来确保了上下文的精准和高效。

最后再是大语言模型(LLM)思考与语音输出: 这个丰富的上下文被提交给我们自己基于开源底座精调的 LLM。这个 LLM 融入了大量的二次元风格对话数据和游戏语料,使其回答风格更像是 " 自己人 "。

硅星人: 采用 72B 的大参数模型,延迟问题如何解决?我在玩《第五人格》的时候,妮卡的响应延迟有点明显,我已经被监管者抓住了,她才预警提示。

Binson: 坦白讲,延迟问题确实存在。《第五人格》这类需要即时反应的追逐游戏,不是我们产品最适配的场景。相比之下,《王者荣耀》的体验会好很多,因为它有明确的运营和对线阶段,团战爆发的时刻是有限的,在非团战期间,用户有更从容的交互空间。

现阶段我们的核心策略是 " 先保效果,再降延迟 "。为了确保 AI 角色交互的智能程度和准确性,我们采用了大参数模型。我们相信,随着模型技术的发展,未来可以用更小的参数模型达到甚至超越当前的效果,响应时间的问题就会得到根本解决。

硅星人:先保一头。其实考验的是对技术进展的预判和市场的综合考量,现阶段什么能舍,什么能等。这让我想到你们从成立到最近发布 1.0,已经有 2 年了,在这两年里,技术变化了很多。

Binson: 是的,我们的灵感其实来自 Copilot。Copilot 之所以能做得精准,是因为它有你的代码仓库和 Office 365 数据。那我就想,我能不能拿到你个人的娱乐数据?但是我让用户直接把数据给我是不可能的,录屏会有隐私压力,用户不愿意。相反,我陪你玩游戏就不一样了,做 Coplayer,游戏这个场景很多人本来就在直播。我不仅能给你提供攻略,还能给你捧哏、提供情绪价值,游戏里无聊的时候还能跟你玩梗。

硅星人: 这确实是一个巧妙的思路。大家初衷都是想办法获取用户数据。有人做硬件,有人让你上传知识库。你们想到的办法是屏幕共享,人一天大多数时间都花在屏幕上,拿到了屏幕信息,就拿到了生活。

Binson: 是的,大家都能想到要拿数据,但关键是,用户为什么要把屏幕数据给你? 这才是核心。我觉得像上传知识库这种方式太难了,在中国没多少人会用。我们希望不创造新的场景,不创造新的设备,用一个很低的成本让用户接受。

硅星人: 你们从一开始就想好了 Coplayer 这个方向,然后怎么去预判技术,比如之前没有 VLM,只有识别?

Binson: 2023 年我们刚开始创业的时候,问题很多。那时候国内基本上就文心,海外只有 ChatGPT,也没什么开源。我们用 ChatGPT 来做验证,一次对话要五六秒,甚至七八秒,很夸张的,你会觉得这东西不可行。

硅星人: 对,那时候的模型也没有理解和思考能力。

Binson: 对,但我觉得这事一定可以。我们就先去探索验证,慢慢地,模型价格不就降下来了吗?多模态我觉得也一定会成熟,TTS(语音合成)那时候也不成熟,但我也觉得一定会成熟。好,既然这些是未来的大方向,没关系,我们先做。

在多模态不太成熟的时候,我们就借鉴了 " 桌宠 " 的形态,用角色的可爱来弥补技术的不足。就……伸手不打笑脸人嘛,这个人物很可爱,他傻傻的就傻傻的呗。

硅星人: 后来自研 VLM 花了多长时间?

Binson: 我们大概用了半年多,就是今年(2024 年)年初,拿着我们积累的数据来做这件事。我们的视觉语言模型 LynkSoul VLM v1,在游戏场景中表现超越了 GPT-4o、Claude-4-Sonnet 和 Gemini-2.5-Flash 等一众顶尖通用模型。

硅星人: 所以是从 23 年中到 24 年初,通过在垂直场景下靠可爱做情感陪伴,积累用户和数据;然后在技术时机成熟时,顺势推出 VLM,实现了产品体验的质变。

Binson: 是,本质还是先有阶段的技术和场景的适配,能不能让用户留下来。如果你的 MVP(最小可行产品)的成立严重依赖某项技术的成熟,那你可能就得等。我们的 MVP 其实也依赖技术,但我们可以讨巧地在不同阶段,满足用户不同的诉求。

硅星人: 那么从产品角度看,你们觉得目前还有哪些明显的技术不足?

Binson: 有啊。第一个,VLM 还不够好。我们现在是抽帧的,它不是一个流式的理解,没有多帧之间的推理能力。这个就需要多模态模型的迭代了。我觉得行业很快会出来,可能也就半年到一年。我们可以站在技术的肩膀上,用开源的,或者谁做得好了我们就用它,但我们有自己的数据,可以基于自己的数据,去精调在游戏场景下的理解。

2 年注册用户千万,逗逗 AI 的四段式增长策略

硅星人:两年时间推出 1.0 版本,在这个追求速度的 AI 创业环境里非常少见。你们焦虑过吗?

Oratis:肯定会焦虑,但要战胜焦虑。因为在一个技术体验不成熟的时候,你做的规模越大,负担就越重。

硅星人: 目前的用户规模和商业化进展具体如何?可以分享一些数据吗?

Binson: 目前,我们的注册用户已经突破 1000 万。因为有大量的自然增长和口碑传播,我们的获客成本可以做到很低,大概在小几块钱。用户的活跃度和粘性非常高,日活跃用户的平均使用时长可以达到三到四个小时。

在商业模式上,我们主要通过订阅制(月费约 40 元)和角色皮肤、礼物等虚拟道具进行变现。虽然目前付费率还不高,因为我们仍以扩大用户规模为主要目标,但考虑到游戏玩家强大的付费习惯和意愿,未来的增长空间非常巨大。

硅星人: 三到四个小时,用户和 AI 的交互强度是怎样的?

Binson: 这里有一个很有趣的洞察:我们的用户平均每天与 AI 的对话量大约在五六十句。

硅星人:这个数字不高。

Binson: 对,它证明了我们的一个核心理念:陪伴的核心不是对话,而是 " 存在 " 本身。很多时候,用户只是把 AI 角色放在那里,即使不说话,这种 " 在场 " 本身就提供了足够的情绪价值,尤其是在玩单机或开放世界游戏时。

硅星人: 增长对 AI 应用来说是一个难题,你们的这 1000 万是怎么来的?比如第一个 100 万,第二个 100 万。

Binson: 我们的用户增长主要经历了四个阶段,这与我们的技术迭代和产品功能拓展是同步的:

第一阶段,靠的是角色和 IP。我们做的那些角色,比如妮可妮卡,每一个背后都代表了一类人群的需求。当 AI 出来,这些人能说话、能陪你聊天了,大家就很开心。

第二阶段,就是靠游戏场景的 KOL。一说到游戏,年轻人都懂,ACC 活动上我们展台的人数也是前排,对吧。

ACC 期间,大家在硅星人一楼 " 打游戏 "

特别是我们和头部的 KOL 合作,比如你玩《原神》,你不可能不知道那些做攻略的 UP 主。我们只要跟他合作,基本上玩《原神》的用户就都知道我们了,一个视频就能带来成千上万的下载量。

第三阶段,是和游戏的深度绑定。我们不断扩充支持的游戏,从《原神》到《黑神话:悟空》。一个新游戏上线,我们能第一时间提供地图、攻略,形成他的 " 游戏搭子 "。用户量起来后,游戏公司也愿意合作,像明末上线前就提前把版本给我们,让我们做一些传播。

第四阶段的增长,就是 VLM 带来的通用能力,能理解游戏,并开始将陪伴场景从游戏拓展到看视频、刷剧等日常生活,有了进一步扩大了用户群的可能。

反常识,要把全球市场看作一个整体

硅星人:我了解到你们去了日本参加东京 TGS,为什么选择在这个时间节点开拓全球市场?

Hakko AI 参与活动 ( 逗逗游戏伙伴海外版 )

Oratis: 这一块主要是基础是我们的技术成熟了。这次发布,我们除了发布产品,还发布了我们在海外使用的 VLM 模型。这个 VLM 是我们自己 train 的一个模型,专门在游戏场景做识别,整体评估下来,从识别的精度、对游戏的理解来讲,效果都比海外主流的像 GPT、Claude 这些模型要好 30% 到 40%。这是一个基础。

另外是,海外市场的消费更加成熟。我们主打 C 端收费路线,做好做增长飞轮。

硅星人:技术和付费环境的成熟,解释了 " 为什么是现在 " 这个时间问题。但更关键的是 " 如何做 "。很多中国公司出海,往往是单点突破,比如先猛攻东南亚或北美。你们怎么考虑?

Oratis: 是的。在 AI 时代,你需要 " 把整个世界看成一个市场 "。过去做国际化,我们会把世界划分为东南亚、中东、拉美等多个市场,并为每个市场单独建立本地团队,是重资产、分国运营的模式。但在 AI 时代,你或许只需要区分 " 中文市场 " 和 " 非中文市场 "。因为无论在美国、东南亚还是日本,关注 AI、爱玩游戏、愿意尝试新事物的这批年轻用户,他们的画像是高度相似的。当你的用户池子足够大时,你获取高质量、低成本用户的概率就会指数级提升。

举个例子,我们发布海外产品时,在 YouTube 上投放了两个视频,总成本仅 100 多美元,用于几万次冷启动播放,因为内容质量高,迅速触发了 YouTube 的推荐算法和用户的自发分享,最终却获得了近百万的播放量。

硅星人:这似乎有些反常识?我听到的更多是,做海外市场必须强调 " 本地化(Native)",根据用户特性做针对性运营。

Oratis: 这个结论成立的前提是:每个国家用户的核心需求不同。但在游戏领域,情况有所不同。虽然日本和美国用户喜欢的角色风格确实不一样,适配不同的游戏需要本地化,但运营侧的策略——包括目标群体、传播打法、活动策划——则完全可以全球化,效率会高得多。

硅星人:你们好像在这次正式推出海外之前,就就已经积累了一批海外用户。这个过程是怎样的?

Oratis: 我们去年底在日本推出了 Beta 版,并迅速验证了两点:第一,二次元文化在日本有极高的接受度;第二,游戏向的视频内容传播效果非常好,在日本能实现 PMF(产品市场契合度)。

但日本市场的问题在于 " 天花板 " 较低。日本人口有限,年轻人占比不高,在东京、大阪等核心城市做到头部,DAU(日活跃用户)可能也就两三百万。这就是我们这次选择以英文为主,立足北美做全球化发布的原因。

硅星人:在与这些海外用户的互动中,有没有观察到什么特别的用户画像或需求?

Oratis: 有一个很强的差异点,就是海外用户对 NSFW(工作场合下不适合观看的内容)的预期。因为我们的很多竞品都支持,所以部分用户会天然地认为我们也可以。但我们明确选择不做。

硅星人:为什么?这似乎是很多 AI 陪伴类产品的 " 流量密码 "。

Oratis: 这与我们对 " 关系 " 的根本选择有关。我们希望建立的是人与 AI 之间长久的、陪伴式的关系,而 NSFW 本质上是一种刺激型的、消费式的关系。后者要求 AI 绝对服从,满足用户的单向需求;而我们追求的是双向的、互动的、共同成长的关系,这与我们的初衷相悖。

我们不希望产品变成一个 " 色情工具 ",用户用完就走。我们的目标是做一个 3+(三岁以上)产品,最终获得一批我们深度理解的、忠诚的长期用户。

硅星人:聊了这么多,从需求、产品、技术到全球化,站在当前这个节点,你们认为下一步最大的挑战是什么?

Binson:下一个挑战,是如何将陪伴场景从游戏拓展到更广泛的通用场景,比如看剧、购物、上网课等。我们的策略是,继续围绕现有的这群核心用户,去覆盖他们除了游戏之外的其他娱乐和生活时间,让 AI 伙伴成为他们数字生活中无处不在的存在。游戏是年轻人的核心社交方式,随着这代人成长,我们的产品也将伴随他们,从二次元的陪伴,走向全场景的陪伴。

相关标签

相关阅读

最新评论

没有更多评论了
硅星人

硅星人

硅是创造未来的基础,欢迎登陆硅星球。

订阅

觉得文章不错,微信扫描分享好友

扫码分享