大模型一个 token 一个 token 生成,效率太低怎么办?
微信 AI 联手清华大学,提出了一个新的解法:
一个 token 能装下的信息太少,不如把它们打包成连续向量,让大模型从预测下一个 token,转变为预测下一个向量。

实验表明,将 K 个词元压缩成一个连续向量,可以将语言模型建模为一系列连续向量,生成步骤减少至原来的 1/K。
这样一来,模型就能在平衡性能和计算成本时,实现更高的性价比。
有网友认为,这种方法看上去越来越接近大脑实际处理上下文的方式。


研究人员指出,预测下一个 token 的现有模型范式,一开始是因为基于字符级运行的模型计算量太大而被提出的。
也就是说,方法背后的关键思想是:提升每个文本单元的信息密度,能够缩短序列长度并显著提升模型效率。
进一步挖掘本质,可以总结出一条提升大模型生成效率的有效途径:持续提升每个预测单元的语义带宽。

微信 AI 和清华大学团队想了个办法:把多个 token 打包成一个连续向量,让模型每次处理一个向量,而不是一个 token。这样一来,比如一个序列的长度为 T,将 K 个 token 打包为 1 个向量,序列长度就会缩短为 T/K。
他们设计了一个高保真自编码器,能将 K 个 token 压缩成一个连续向量,并能以超过99.9%的准确率从中重构原始 token。

不过,从处理 token 向处理向量转变,还面临着一个重大挑战:
由于不存在有限词汇表,模型将无法借助标准的 softmax 层,对所有可能结果计算出明确的概率分布。
这也就意味着,需要为此开发全新的建模工具。
于是,研究团队提出了CALM——一套完整的、无需依赖概率似然的框架。

训练方面,CALM 采用 " 能量损失 " 来教模型学习连续向量。
不用算概率,而是改用 " 能量分数 " 来判断模型生成的向量好不好。
具体来说,为了实现连续向量生成,研究人员采用轻量级生成头作为模型的核心输出组件。该生成头以最后一个隐藏状态为条件,来生成输出向量。
同时,为避免迭代式采样过程造成新的推理瓶颈,研究人员引入了Energy Transformer。
Energy Transformer 专为连续向量的高效单步生成设计,无需迭代,仅需 1 步计算即可输出连续向量。
能量损失是 CALM 训练 Energy Transformer 时用的损失函数,不依赖概率计算,而是用 " 距离 " 和 " 多样性约束 " 两个维度判断向量质量——既让生成的向量贴近真实值,又避免模型只会生成一种向量。
无似然语言模型评估
不算概率了,困惑度(Perplexity)这个评估指标也就不好用了。
为此,研究人员提出了BrierLM,一种基于布里尔分数的新型语言模型评估指标。
只需从模型中抽取样本,就能无偏地估算出 BrierLM 值。
实验证明,BrierLM 值和困惑度高度相关,能保证对模型能力的公平比较。
无似然温度采样
现在流行的大语言模型是通过温度采样来实现可控生成的,但这同样依赖于概率分布。
CALM 提出了无似然温度采样,这一算法基于拒绝采样,通过调整样本的接受概率来实现温度控制。

研究人员通过实验验证,CALM 在平衡性能和计算成本时更有性价比。
在标准语言建模任务上,CALM-M(K=4,参数量 371M)在性能上与 Transformer-S(281M 参数)相当,但训练浮点运算数(FLOPs)减少了 44%,推理 FLOPs 减少了 34%。


论文地址:
https://arxiv.org/abs/2510.27688
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见