
作者 | ZeR0
编辑 | 漠影
智东西 7 月 3 日报道,在 2026 亚马逊云科技中国峰会期间,作为国内大模型企业代表,月之暗面 Kimi B 端负责人黄震昕分享了与亚马逊云科技的合作进展,并透露月之暗面 " 提供给研发人员的是行业内最高的人均算力支持 ","C 端用户和 B 端企业业务在今年增长都非常快 ",希望在探索智能上限的征途中 " 能和海外那三家模型掰一掰手腕 "。
他谈道,月之暗面和亚马逊云科技之间是一个飞轮式的合作:月之暗面一方面会从给亚马逊云科技采购全球的云基础设施等服务;另一方面,也借助亚马逊云科技的渠道来服务全球企业。
" 亚马逊云科技的品牌和合规在海外全球做得非常好,我们也希望通过和亚马逊云科技的合作,能让我们的收入迎来一个增长更快的、更好的上升曲线。" 黄震昕说。
一、四层合作,实现全球协同效应
月之暗面与亚马逊云科技的合作覆盖从基础设施层到应用层,具体包括:

Kimi 借助亚马逊云科技遍布全球的数据中心和网络基础设施扩展全球业务。亚马逊云科技为 Kimi 提供了稳定可靠的算力等基础设施支持,确保模型运行得又快又稳。
2、平台服务层
Kimi 多个模型现已登陆亚马逊云科技的 Amazon SageMaker , 让更多开发者可以进行其模型的训练与推理,大幅降低使用门槛。
同时,亚马逊云科技 Amazon Bedrock 已接入 Kimi K2.5 等开源模型,未来 Kimi 正在积极推进接入更多最新模型,让用户无需自行管理基础设施或单独部署服务器就能使用 Kimi 模型。
在这种情况下,Kimi 将直接使用亚马逊云科技的算力,跑在亚马逊云科技的 Gateway 网关上,为亚马逊云科技的客户提供推理服务。
3、业务合作层
Kimi 官方 API 已登陆亚马逊 AWS Marketplace,直接触达全球数百万活跃企业客户。全球客户可以通过该数字软件市场简化采购流程,实现一键使用、按量付费与零门槛接入。
黄震昕透露,当前全球大模型处于供不应求的硬件紧缺状态,Kimi 会有一定的 TPM(每分钟 Token 配额)限制,对渠道供给有所侧重。目前,对于新上线的亚马逊云科技 Marketplace 渠道,Kimi 会提供重点资源倾斜,保障其拥有充足、稳定的 TPM 供给。
同时,借助 APN 合作伙伴网络,Kimi 正在快速拓展企业客户。
4、垂直行业层
Kimi 与亚马逊云科技的解决方案架构师联合打造行业解决方案,已覆盖金融、医疗、制造等垂直行业场景。Kimi 提供核心大模型,亚马逊云科技发挥其丰富的行业经验与客户资源,共同将 Kimi 的能力无缝嵌入到企业的真实业务流程中。
二、B 端业务比重增加,提供模型、API 和产品
据黄震昕分享,月之暗面成立于 2023 年 3 月,致力于成为一家全球化的公司,希望让全球用户平等地获得 AI 赋能,在技术推广、开源、服务方面都是全球统一的。
他强调,月之暗面专注于生产力场景,不做娱乐场景,其愿景是要寻找能源转化成智能的最优解,探索智能上限的方式。
月之暗面的 B 端业务比重不断增加。面向企业级客户,Kimi 依托亚马逊云科技的技术底座和全球基础设施,构建了一套完整的生产力赋能体系,包括模型层(K2.7 Code、K2.6、K2.5 等基础模型)、服务层(丰富 API 供深度集成)、工具 / 产品层(Kimi Agent 集群、Kimi Code、Kimi Claw 、Kimi Work 等开箱即用的产品)。

例如,其 Visual-to-Code 功能可以把视觉动效直接用代码实现出来。月之暗面近期与字节 Trae 合作推出的 Visual Debug 功能,允许程序员录屏截图标注 bug,以便模型快速修复。
很多程序员习惯抛张图或录屏,让模型去 debug。黄震昕总结道,Kimi 在这种 " 图片 +Coding" 混合场景中有明显的领先优势。
企业内还是需要有最后一公里的服务。因此,Kimi 也在积极部署 FDE(Forward Deployed Engineer)的合作伙伴,能在其模型基础上给客户做端到端交付。
三、预测大模型服务价格趋势,拆解智能体三大技术创新
谈及近期的大模型服务价格波动,黄震昕认为,今年模型普遍涨价的核心原因是算力成本在全球范围内都在上涨,都跟不上 token 需求的增长。
他对价格趋势有两点判断:首先,用户对于最高性能的 token 需求是有溢价支付意愿的;其次,虽然由于芯片荒和算力成本上升导致成本在涨,但模型厂商也在通过 Cache 优化、推理优化等技术努力,将 token 的实际成本往下拉。所以目前在成本和技术优化两端,是有 " 两股力量在同时做功 "。
" 只要给客户提供了性价比更高、更强的模型,即便价格有波动,客户整体的体验和性价比其实是大幅提升的。" 黄震昕说,Kimi 希望做最高性能的模型,而不是最便宜的模型,但也希望给终端用户提升性价比,降低使用成本。
月之暗面的团队很精简,仅有 300 多人,不仅做模型效率优化,还专注于底层创新,致力于解决 Scaling Law 里遇到的卡点。
在技术创新方面,Kimi 围绕智能体的三个核心维度进行规模化战略布局,并已取得如下成果:
(1)Token 效率:2025 年首次大规模应用 Muon 二阶优化器,成功让 10T 数据发挥出 20T 的效用,token 效率翻倍;Muon 已经被 GLM、DeepSeek V4 等模型采用。
(2)长程推理:发布 Kimi Linear 架构,将模型扩大 10 倍时原本 Token 成本膨胀 100 倍的指数级增长,成功压缩为线性的 10 倍增长,大幅降低长链路成本。
(3)Agent 集群:支持 300 个子 Agent 并行完成 4000 个协作步骤,实现更大规模的并行化,进一步推高多 Agent 系统协作的能力上限。
Kimi 还通过持续的工程效率优化来降低使用成本和提升运行速度。
在降本方面,Kimi 自研的 KVCache 中心化解耦架构 Mooncake,将 Cache 命中率提升至 92.5%,使 K2.7-code 模型的有效输入价格降低 74%。
在提效方面,高速版 K2.7-code-highspeed 输出速度约为 180tokens/s,短上下文场景可达 260tokens/s,实现 " 十几秒输出 200 行代码 "。
黄震昕建议看模型价格时,不能只看输入输出,更要看 Cache 命中率,命中率九十多与七八十相比,成本可能差好几倍。
他透露,Kimi 与亚马逊云科技已经开始推进这方面的合作,探讨如何将原厂在底层推理优化上的能力共享给合作伙伴,并由双方协同优化。其目标是在最终上线时,两边提供给客户的 Cache 命中率、推理性能等水平在同一个高度上。
此外,Kimi 也找到很多技术手段来解决服务稳定性方面的问题。
结语:基模厂商应看向更底层的前沿技术
" 在探索 Scaling Law 的路上,Kimi 选择直接向底层模型架构发起挑战。因为我们深知,只有实现底层架构创新突破,才能真正承载更大的模型规模,让 Scaling Law 持续向前,探索智能的上限。" 黄震昕说。
2026 年初,Kimi 开源的 " 注意力残差 " 技术,为下一代大模型架构设计提供了新的思路。OpenAI 推理之父 Jerry Tworek 点评称 " 我们应该重新思考一切,深度学习的 2.0 时代正在到来 "。
在他看来,基模厂商不能只看着现有的 Harness,必须向更底层的前沿技术看。