作者|苗正卿
题图|虎嗅拍摄
5月8日,在海淀大恒科技中心的阶跃星辰北京办公地,阶跃星辰创始人、CEO姜大昕身着深色西服、蓝色衬衫出现在阶跃星辰北京办公地的会议室里。他保持了一贯的风格,如二十一年前在新加坡南洋理工教书时,像老师一样在屏幕前平静地讲述自己对于多模态模型行业的判断。这里距离姜大昕上一个东家微软的中国办公地微软大厦仅有504米,在2023年创立阶跃星辰前,姜大昕是微软全球副总裁。
"多模态模型领域目前还没有出现GPT-4时刻。卡点是整个行业缺少多模态领域的理解生成一体化架构。有了这个架构,才能基于此通过海量的图片视频去做预训练+指令跟随,最终演变为世界模型。"姜大昕说。
"理解生成一体化架构"不只是姜大昕的技术判断,也正在影响这家公司的走向。
虎嗅独家获悉,近期阶跃星辰内部,进行了算法小组内的微调:原本阶跃星辰内部团队分为生成小组和理解小组,而这两个小组已经整合为新的"生成理解"团队。
姜大昕向虎嗅表示,这一调整,确实是基于"理解生成一体化架构至关重要"这个判断。
虎嗅获悉,目前阶跃星辰的运转以三个男人为核心:
姜大昕阶跃星辰创始人、CEO 负责公司整体战略、技术研发
张祥雨阶跃星辰首席科学家负责公司技术研发
朱亦博 阶跃星辰的系统负责人,全面负责 AI Infra 建设与AI框架优化
此外,阶跃星辰通过开源和ToB合作,不断丰富自己的生态矩阵。虎嗅获悉,阶跃星辰内部开放平台部门主要面向外部开发者,提供阶跃基础模型的API接口;生态部,则主要负责与品牌客户的战略合作。这两个重要的部门由阶跃星辰VP李璟负责。数据显示,2024年下半年阶跃星辰多模态 API 的调用量增长了超 45 倍。
目前阶跃星辰员工主要有400余人,其中80%为技术研发人员。这些人分布在上海总部和北京办公室。每周,所有技术相关员工都会参加固定时间的协同会,以拉齐共识。在公司内部,还有见闻分享群,所有员工可以随时分享自己对论文和产品的看法。值得注意的是,在这个群里,还接入了阶跃星辰的Agent,比如有员工把OpenAI最新的论文发到群里时,这些Agent会自动梳理出要点、完成翻译或者给出简短评语。
和部分基础模型公司风格略有不同,阶跃星辰内部氛围更为扁平开放。阶跃星辰的一线员工可以随时与姜大昕私信交流。有内部人士告诉虎嗅,姜大昕能记住公司内一线员工的名字,也很少"PUSH"员工,性格比较开放。一个细节是,多个阶跃星辰员工桌面摆着手办、二次元公仔,在午休时刻有男员工快乐地吃着甜品看B站番剧。据悉,阶跃星辰内部还有多个社团,比如羽毛球社、飞盘社等。
截至2025年5月,阶跃星辰主要通过通过面向品牌客户的ToB服务和面向开发者的API接口业务获得收入。但由于在创立后阶跃星辰并未像其他头部模型公司一样采取"投流"策略,其主要成本是人力和堆卡。2024年12月,阶跃星辰宣布完成了B轮数亿美元融资。和一些"AI六小虎"不同,阶跃星辰一直在做具备多模态能力的基础模型,它也是截至目前"六小虎"中少数尚未放弃预训练的公司之一。
姜大昕坦承,基础模型的竞争是激烈的。在过去半年里仅仅OpenAI、Google、Meta、Grok、Anthropic五家就发布了不少于8款新品;而国内月之暗面、MiniMax等厂商也在频频发力。"竞争非常激烈 ,追求智能的上限仍是当下最重要的事情。"姜大昕说。
5月8日,姜大昕分享了对多模态行业的最新理解以及对阶跃星辰未来的规划。
-----------以下为姜大昕接受访谈的内容----------
大家也能感受到,大模型这个领域发展得非常快。 2 月份以来国外的头部几家做基础大模型的公司非常密集地发布了一堆的模型,所以有媒体说他们是"贴脸发布",也能感受到竞争是非常激烈的。
通过这些发布我们其实可以感受到一个趋势:"追求智能的上限"——我们认为这仍然是当下最重要的一件事。如果透过这些眼花缭乱的发布我们再多观察一下发布的模型的特征也可以整理出一个主流的技术脉络和共性的规律。
从宏观上来讲,我们看出模型的发展是沿着这样一条智能演进的路线往前进化的:模拟世界、探索世界、归纳世界。
我们也可以感受到眼下的发展,主要呈现出两个趋势。第一个趋势是,从模仿学习到强化学习,其中一个关键点是从多模态融合走向了多模态理解生成一体化。
在做模拟世界这个阶段,主要训练的范式叫模仿训练,就是我们把互联网上所有海量的数据都喂给大模型,通过一个任务叫 predict next token 让这个模型从海量数据当中去它的结构和它的特征。在这个阶段学习的主要的目的是各种模态的表征,我们看到有语言、声音、图像、视频一直到复杂的 4D 时空的物理世界,里面的核心问题是我们如何能用深度的神经网络去统一表达这些从简单到复杂的各种模态。
这是第一阶段,我们学会了表征世界,下一步就是让培养机器解决复杂问题的能力,比如说让它解一个数学题,让它写竞赛题的代码,这种问题需要长思维链,需要一个比较长的思考的过程,对于复杂问题求解,人脑需要的一种慢思考的能力。我们每个人在解一道复杂的数学题的时候经常不是一口报答案,而是会把这个题分解成若干个步骤。如果发现一开始的思路不正确的话,还会尝试其他的解决方法。怎么让机器学习慢思考的能力呢?采用的方法就是强化学习,强化学习其实大家也不陌生,2016 年的 AlphaGo 采用的就是强化学习的方法,最近的在大语言模型的领域出现的一些推理模型,比如说 OpenAI 的 O1、O3,以及 DeepSeek 的 R1 背后就是强化学习的技术。
但这还不是智能的尽头,下一个阶段就是归纳世界,机器能够通过自主学习主动发现人类尚未发现的物理规律,可以在生物、核能、材料、量子计算各个领域和科学家一起去完成创新,这个阶段我们把它叫作归纳世界。我们看到模型的演进是循着这条路线在往前走。
去年 8 月份的时候,从 OpenAI 流露出了 AGI 的 5 个 level,相信很多人都听过,从 Chatbot 然后到 Reasoner、Agent、Innovator 和 Organization,如果我们去读 OpenAI 被每一个阶段所描绘的定义会发现,其实这五个 level 和我们的三个阶段的逻辑是一致的,只是表述的方法不一样而已。
过去两年我们看到整个行业的模型进化基本上就是遵循了这样一个路线:从单模态到多模态,从多模融合到理解生成一体化到强化学习。
我们也看到随着模型能力不断的增强,模型的应用也发生了变化。比如说在最早期的时候,比较流行的应用是各种各样的聊天机器人,然后有了 Agent 以后我们就可以用它来解数学题,下一步进化现在是非常火热的 topic 就是智能体。智能体我们相信终将从数字世界走向物理世界,逐渐引申到智能驾驶和人形机器人这些领域。我们看出应用其实跟模型的能力是匹配的,有什么样的模型决定了有什么样的应用可以被解锁、可以成熟和繁荣。
刚才我们介绍了一下行业的趋势,回到阶跃,阶跃的发展也是围绕着前面的路线图。
在过去的两年时间里,我们建立了一个 Step 系列的通用大模型的矩阵,这里我们首先把基础模型分成了语言模型和多模态模型。在国内的大模型公司里面,像我们这样重视模态的全覆盖并且坚持原生多模理念的公司并不多,但阶跃从一开始就始终认为多模态对通用人工智能非常重要。有一句话我也在很多场合不停的重复:我们认为多模态是实现 AGI 的必经之路。
我再多解释一下为什么我们的信仰是这样的,首先是 AGI 对标的是人类的智能,人的智能是多元化的,每个人除了有来自语言的符号智能,还包括视觉智能、空间智能和运动智能等等,这些只能是需要通过视觉和其他模态来进行学习的。所以我们认为,在多模态领域任何一个方向出现短板都会延缓实现 AGI 的进程。除此之外,除了从 AGI 本身的标准和定义来说,如果我们从应用的角度来看,不管我们是做垂直领域的应用还是做 C 端的应用,多模态都是必不可少的,我们是需要 AI 能听、能看、能说,这样它才能更好地理解用户所处的环境,并且和用户进行更为自然的交流。目前的大模型公司有能力去全面自研预训练模型,并构成这样一个模型矩阵的,即使是大公司也不多,更不用说是初创公司了,这是阶跃星辰的一个特色,也是我们的一个优势。
下一步的模型会有怎样的发展呢?
在预训练的技术模型上加强强化学习,可以激发模型推理的时候产生长思维链,极大地提高模型的推理能力。这已经不是新的趋势了,推理模型最早出来是去年 9 月份的时候,OpenAI 的 o1 的 preview,我印象还很深刻,因为刚出来没有几天,我就去阿里的云栖大会,当时全场注意的焦点都是 o1 的 preview。很多人问这个模型意味着什么?当时我还慷慨激昂地说了一大堆,不过后来的发展还是和我们当初的预判是一样的。我们觉得语言模型原来是一个 predict next token 这样的一个模型,它虽然也能处理一些复杂的推理问题,但是由于没有经过长思维链这样的激化,所以它的处理能力还是比较弱的。如果我们比较推理模型和那个时候的 GPT 范式的模型在推理的问题上做比较的话,它的差距是非常远的。
OpenAI 的 o1 preview 是去年 9 月份出现的,真正的满血版是它的圣诞发布季第一天,就把 o1 的完全版发布出来了。随着春节之前 DeepSeek 发布了 R1,我觉得这是一个标志,推理模型从一个趋势变成了一个范式,现在我们再看语言模型基本上是推理模型一统天下。
阶跃在今年 1 月份的时候已经发布了一个小的推理模型,我们叫 Step R1-V-Mini,它的速度很快,推理能力其实也挺强的,超出了当时的 o1 的 preview 的版本,我们预计在未来三个月阶跃会发布满血版的 Step-R1。我们认为,强化学习趋势还会延续相当长时间,因为还有很多有意思的问题,学术界、工业界都在讨论,比如说推理的效率如何进一步提高,推理的能力是不是能泛化到更多没有奖励函数、或者说奖励函数也很难定义的领域,甚至包括合成数据怎么去生成,怎么进行预训练等等,这都是眼下学术界、工业界大家讨论非常多的问题,阶跃也会在这方面持续地投入。
隐藏在推理能力这个话题里,还有一个点是如何把推理引入到多模态领域。确切地说,在视觉理解的基础上,能不能加上视觉推理?
我举一个例子什么叫视觉推理。
比如说我拿出一张球场的图片(上海上港主场),问模型这张图片是哪个地方,是哪个球队的主场?一般的视觉理解会根据在训练数据里见过的差不多的图片告诉你这是什么。但加了推理能力以后,会是什么样的回答风格呢?它会关注这个图的细节,比如说首先它会看到大的比分牌,因为我在问它这是谁的主场,比分牌上会根据队伍的对标判断出来,这是上港和上海另外一个球队的比赛,它在看看台上的字,比如说看到的红色力量,包括一般来说主场的球迷比较多,会根据球迷的球衣的颜色,再根据底下的广告牌的内容它应该就能判断出这是上海上港队的主场,然后通过球场的顶部的建筑结构能够推断出这是上港的体育场是上海浦东球场。这是把模型的感知能力和模型内部所带来的知识能结合起来,一起去做推理,这样一个能力其实比起原先的视觉理解就强化了很多。
在实际的应用中我们经常会需要这样复杂的推理。
比如说,我们有一个应用是叫巡店,比如说茶百道和瑞幸在全国有很多的门店,这些品牌很关注门店中员工的操作是不是符合规范?以前每一个操作的细节或者是每一个规定是专门要训练一个模型的,因为模型的理解能力还是比较弱的,没法儿做推理,现在用了我们这个模型以后,只要把规则写在它的 Prompt 里,我们的模型就可以自动做推理,帮他去检测员工的操作是不是合乎规范,极大地提高了巡店的效率,目前准确率能够做到 90%以上。
所以总结一下,第一个大的趋势是:逐渐地把长思维链、推理能力加入到不管是语言模型还是多模态模型里面。
第二个趋势就是多模理解生成一体化,更准确的说是视觉领域的理解生成一体化。
如果大家听我各种场合讲技术听得多的话,这句话已经听出茧子了,去年讲到今年,已经重复了无数次,我们一直在说理解生成一体化是多模态领域的核心的问题。什么叫做"理解生成一体化",它的定义是理解和生成是用一个模型来完成。大家如果看了文本,比如说文本模型 ChatGPT,它就是理解生成一体化,所谓的理解,就是我们给出一篇文章让它做总结或者 Q&A,这就是典型的理解问题。什么是生成呢?比如给它一个中心思想,来帮我写一篇什么样的文章,它写出一篇很长的文章出来,这个叫生成。现在其实是不区分的,在文本领域不管让它做理解还是做生成,用的都是 ChatGPT 这样的模型。
到了视觉领域就不是这样了,即使是对图片,我们理解的时候用的是 GPT-4o 这样的模型,或者是在阶跃是用的 Step-1o。那么生成又换了其他的模型,比如说用 Flux、用 Stable Diffusion,阶跃是用 Step image 这样的模型。大家会发现,为什么在视觉领域里,理解是理解模型,生成是生成模型,它是分开的。我们为什么一定要做理解生成一体化?因为现在理解和生成是分开的模型。一个本质逻辑是,生成的内容是需要理解来控制的,你为了保证生成的内容是有意义的、有价值的,实际上是需要对它的上下文做一个更好的理解,简单说就是"生成需要理解来控制"。
反过来,理解是需要生成来监督的。Feynman 说了一句话"What I cannot create,I do not understand。"这句话是什么意思呢?我怎么知道我是真的理解了?只有当我能够生成,生成的时候我才知道我是真正地理解了,这句话是这个意思。比如说在语言这个领域,它就很好地体现了为什么理解需要生成去监督。在 ChatGPT 的时候,大家知道它唯一的任务就是 predict next token,它 predict next token 这个过程就是在生成,它在整个训练的过程中就是看你 predict next token,predict 的对还是不对,来做监督,它就可以一路理解、生成完成以后再回到框架做理解,这样一步一步下去,就实现了自然语言的理解比以前的各种模型出现了一个断代式的领先。所以如果我们把这个 predict next token 这样一个任务平移到视觉领域就会问,我们能不能用一个模型去做 predict next frame?
这是视觉领域的一个灵魂拷问,到现在为止计算机视觉做了几十年,不幸的是这个问题仍然没有被解决。
大家可能问为什么?既然文本解决了为什么视觉不能解决?它的原因还是在于模态的复杂度。大家说语言是很复杂的,但是从统计来说,语言是一个简单的东西,因为语言至多就十几万个 token,这十几万在数学里面我们就认为这是一个离散的分布,所以这十几万的这样低维度的离散分布在统计上,或者我们用神经网络去模拟或者是表达这样的分布是一件简单的事情。但在视觉一张图片,我们先不说视频,一张图片 1024×1024 就是 100 万维,每个维度还是一个连续的空间,所以,你去表达一个几万维的离散空间,和要表达一个 100 万维的连续空间,它的难度是不一样的,所以在视觉领域我们还没有一个很好的、很高效地表达这么一个连续的高维的连续空间的生成问题,所以我们只好理解的时候用了一个 auto-regression Model 是自回归模型,生成的时候还得依赖 diffusion Model。
在历史中要把这两件事结合在一起,大家已经做了很多的尝试。一种尝试就是既然高维的连续分布这么难模拟,能不能把它变成一个离散的?这就是一种流派,我把连续的东西强行变成了离散,塞到语言的空间和大家一起训。但由于把它从连续的高维空间降到低维的离散空间有很多的信息就丢失了,这种方式大家是最容易想到的也最容易实践的,但从来没有成功过。第二种方式,高维的分布,想办法把所谓的 auto-regression 的架构和 diffusion 的架构能合在一起,这其实也没有做得很成功,所以这个问题的核心还是在探索的阶段,还没有很好地解决。
在 2017 年的时候出了一个架构叫 Transformer,Transformer 这个架构对整个业界最大的意义在于它是一个可以 scale 的,是一个 scalable 的文本的理解生成一体化的架构。在那之前,比如说 LSTM(长短期记忆网络)或者 CNN(卷积神经网络),或者是其他的模型都不能 scalable,有了这个 scalable 的架构以后,到了 2020 年的时候出了 GPT-3,GPT-3 的意义在于我们第一次把海量的互联网数据放到了这个 scalable 的架构上,可以让它用一个模型去处理所有 NLP 的任务。但那个时候它是要 few-shot,需要去给它一些例子,然后它用一个模型来告诉你要怎么做。再往前走一步,到了 2022 年的时候出了 ChatGPT,ChatGPT 就是在预训练的模型的基础上再加上指令跟随,这是 GPT-3.5 做的事情。当然到了 GPT-4 的时候,这个能力就进一步增强了,所以我们经常会一个 "GPT-4 时刻",指的就是在这个模态上,我们的模型真正能达到跟人的智能差不多的平。然后,把模型从 GPT-4 指令跟随的模型,再加上推理能力,就已经可以解决非常复杂的逻辑问题了。
再往后是什么呢?很多人就觉得应该是在线学习或者是自主学习,就是能够不断地自己根据环境去学习到新的知识。所以我们看到语言模型,就是随着这条路往前进化得非常清楚,而且到目前为止,我们觉得语言模型的技术路线基本上收敛了,没有出现别的分支。世界上不管是 OpenAI 也好、Google 也好、Anthropic 也好,国内任何的公司基本上语言模型都在朝着这条路往下走。
我们相信其实视觉也是可以 follow 同样的路线的。那么它要 follow 同样的路线,第一步要能做到什么呢?是理解生成一体化。并且它要有一个非常 scalable 的理解生成一体化的架构,为什么要有这个东西?有了这个东西以后我就能解决 predict next frame。如果我能解决 predict next frame,那世界上海量的视频数据就可以我给用来做预训练。我们可以想象一下孩子在刚出生的时候,其实它是不知道什么叫重力的,他不懂文字,但他通过眼睛的观察逐渐就能学会如果一个杯子一松手就往下掉,人的这套系统就是在出生以后在做视频的预训练,它可以非常好的 predict next frame,所以我们希望将来的模型有这样的能力,现在还达不到。
如果我能够用海量的视频去做预训练,它能 predict next frame 以后,下一步肯定跟语言模型一样,加各种指令让它生成一个什么,让它预测一个什么东西,这样就会把所有的计算机视觉的东西统一在这样一个模型里。再往后就一定是做推理,推理为什么很重要?现在大家做自动驾驶或者是做机器人,大家肯定听说过 VLA 模型,就是 vision language action 这个模型,现在的 VLA 我觉得是有点叫 VLA1.0,因为它是一个预测模型,就是说我告诉你过去发生了什么,当下我看到的画面是什么,你来 predict 我应该做什么操作,我是应该方向盘做什么操作呢?还是应该机器人应该怎么走?它是一个 predict,我通过过去的 vision 来 predict 当下的 action 是什么。那人是怎么做的?人其实不止这一点,是在脑海里在当下会潜意识地有一个 action 的分布,它甚至会预判我如果做这个 action 下一步会产生什么,它是通过对未来的预判来决定现在要做什么。这个过程既有理解又有生成,因为它要先判断它有哪些 action,然后再判断这个 action 会造成哪些后果,判断这个后果的过程就是一个生成的过程。所以,理解生成一体化如果解决了以后,带了推理的 VLA,就不是今天的 VLA 了,它是一个能够带上对未来预测的更好的预测。其实这里面你如果看到的是一个 action 的分布,并且根据 action 对未来的预测来对当下做一个最优的策略的选取的话,那它就是强化学习。
如果能做到时空推理、加上 3D 、再加上自主学习以后,我们就觉得到了世界模型的阶段。如果到了世界模型,我认为我眼中的 AGI 就实现了。虽然我们还没有彻底地解决理解生成一体化,但我们觉得如果这个问题一旦突破了以后,它今后的道路会非常顺畅,就会和文本一起发展到世界模型。
理解生成一体化非常重要。不知道大家有没有看过最近的 GPT4o 的新版,它叫做 4o Image Generation,很多人非常喜欢,因为可以做各种各样的编辑。给它一张图,给它一个指令,它就能帮你做各种各样的编辑,而且是多轮的,这个能力是以前不曾有过的,而要具备这样的能力,其实你要理解生成一体化,为什么这么说呢?首先这个模型能够听懂你要它做什么编辑,这是需要理解的。第二,它编辑出来的图形是要是要在原有的基础上做,不能随便地生成,一般文生图就是你给它一句话它可以海阔天空、天马行空地生成,但现在你给它了一张参考图,再给它一个指令,它同时要理解这个图片是什么意思,这句话是什么意思,根据你的指令和原作进行创作,这个是需要理解和生成放在一个模型里面的,否则的话生成出来的图片就和原来的没有关系了。我们前不久刚刚发布的模型叫 Step 1X-Edit,这里放了很多的例子,如何对图片进行修改,大家看到其实它对原先的图片的忠实度是非常高的,原因就在于我们背后采用了一个理解生成一体化的模型,当然这个还是比较初级的阶段,我们内部还在开发一个更高级的版本,未来几个月也会把更先进的技术发布出来。
前面讲了很多关于模型的部分,回归到阶跃,我们还是坚持基础大模型的研发,追求智能的上限,同时,我们也强调多模态对 AGI 的重要作用。
接下来我们就聊一聊应用这部分,阶跃一直有一个策略叫做"超级模型加上超级应用",双轮驱动的策略。
说起应用,其实大家心照不宣,最热的概念就是 Agent,很多人说 2025 年叫做 Agent 元年。为什么 Agent 这个概念在这个时间点突然变得非常地热?其实,我记得 2023 年的时候大家就讨论过 Agent,当时有人画了一个 Agent 的架构图,那时候并没有引起大家太多的关注,甚至很多人说为什么叫 Agent?这个词听起来怪怪的,想说什么?但2025 年的时候就突然变得非常地火热了,我的理解是,Agent 爆发需要两个必要的条件,一个是多模态的能力,另外一个是慢思考的能力,这两个能力恰好在 2024 年的时候取得了突破性的进展。
为什么说多模态的能力很重要?我觉得,多模态可以让智能体充分地理解和感知这个世界,这样它可能更好地理解用户的意图。如果想让任务的完成率更高,其实 Agent 还需要强大的推理能力,就是慢思考的能力。
我们为什么会选择智能终端 Agent 作为方向呢?
首先,我们认为 Agent 要能更好地帮助人类去完成任务,需要去理解用户所处的环境和任务的上下文,其实很多的终端是用户的感知和用户体验的延伸,比如说我们的手机,最近的一些 AI 眼镜或者是耳机,它可以认为是人体器官的延伸,它可以搜集我们所处的环境,能够帮助模型更好地理解用户的上下文。还有一个例子是最近大家用过的最火热的硬件是 Plaud Note,就是贴在 iPhone 后面的,我想了半天为什么它能很火呢?它其实就是在收集用户的 context,它实际上就是用户的一个耳朵,是人耳的延伸,用户带着它到处跑,它能听到用户听到的所有的信息,然后它对这个信息进行加工,完成用户让它完成的任务,这就是一个非常自然的过程。我自己也非常看好 AI 眼镜,它能让你看到看到的所有的东西,它不需要你把手机拿出来拍一下,就直接能看到了,所以我觉得,智能终端是人的感知和体验的延伸,所以在你发起任务的时候它已经知道任务的上下文了,这是一个非常大的便利。
第二是很多的智能终端或者是终端的设备就是帮你完成任务,比如说微波炉,我家里的微波炉有上百功能,但是我很少用,因为我很少看说明书,也不知道某一个功能如何操作键,所以我希望它是一个 Agent 放一个芯片在微波炉里就可以直接跟它对话,我可以告诉它你直接帮我把鸡蛋给蒸了,我也不需要去研究按钮了,它就帮助我去做了,我觉得其实智能终端是完全有能力实现这件事情的,甚至大家想得再神奇一点,不光让它完成微波炉分内的工作,你说我今天的鸡蛋吃完了,它也许可以连接到你的手机,知道你一般是在哪儿买鸡蛋,知道下单的地址送到你家,将来也许所有的终端都能被 "Agentis every hardware",这是我自己造的词,就是把那么没有生命得不知道怎么跟人类交流的终端设备变成一个似乎是你的伙伴的 Agent。
阶跃在这里面扮演什么样的角色呢?我们想建立这样一个生态,首先是在模型的基础上会开放出构建各种各样 Agent 的 stutio,在云里面还会开辟专区,作为 Agent 的 runtime,所以这是云端的一半,智能的终端就是我刚才说的,它本身就有芯片了,或者我们能造出这样的芯片出来,它能够和人进行自然的交互,它能看见、能听见、能说话,端侧的模型和我们在云里的 Agent 来进行交互,帮助用户来完成一系列的任务,所以,阶跃在其中扮演的角色就是我们想提供这样一个平台,能够围绕着这样一个云的平台去构建智能终端 Agent 的生态。
我们其实现在在智能终端上也选取了几个重要的终端,一个是手机、一个是车,还有一个是机器人,我们和各个方向的头部企业展开了深度的合作。
我讲了非常多的内容,最后我想表达三句话:
第一,阶跃目前的状态是坚持基础大模型的研发,所以追求 AGI 是我们的初心,我们也不会改变。
第二,在当前的竞争格局中,我认为阶跃差异化的特点就是多模态的能力,不仅眼下很多模态在业界的性能是领先的,而且我们也在积极地探索前沿的方向,我们也认为这里还存在着非常巨大的机会。
第三,在应用的层面,我觉得阶跃也走了一条差异化的路线,携手我们的合作伙伴在智能终端 Agent 这个方向上发力,最终可以形成一个从模型到 Agent,从云侧到端侧的生态体系,因为我们认为软硬结合是能更好地理解用户的需求,完成用户的任务。