APP下载

关于ZAKER

合作

量子位 42分钟前

推翻「预测下一个 token」范式！微信 AI 新研究：把 token 压缩成连续向量更具性价比

大模型一个 token 一个 token 生成，效率太低怎么办？

微信 AI 联手清华大学，提出了一个新的解法：

一个 token 能装下的信息太少，不如把它们打包成连续向量，让大模型从预测下一个 token，转变为预测下一个向量。

研究团队给这种新范式取名CALM（连续自回归语言模型）。

实验表明，将 K 个词元压缩成一个连续向量，可以将语言模型建模为一系列连续向量，生成步骤减少至原来的 1/K。

这样一来，模型就能在平衡性能和计算成本时，实现更高的性价比。

有网友认为，这种方法看上去越来越接近大脑实际处理上下文的方式。

还有网友提出，CALM 像是 DeepSeekOCR/Glyph 的改进版。

提升每个预测单元的语义带宽

研究人员指出，预测下一个 token 的现有模型范式，一开始是因为基于字符级运行的模型计算量太大而被提出的。

也就是说，方法背后的关键思想是：提升每个文本单元的信息密度，能够缩短序列长度并显著提升模型效率。

进一步挖掘本质，可以总结出一条提升大模型生成效率的有效途径：持续提升每个预测单元的语义带宽。

问题在于，如果想让一个 token 装更多的信息，就得把词表做得超大，反而会让计算量和存储成本爆炸。

微信 AI 和清华大学团队想了个办法：把多个 token 打包成一个连续向量，让模型每次处理一个向量，而不是一个 token。这样一来，比如一个序列的长度为 T，将 K 个 token 打包为 1 个向量，序列长度就会缩短为 T/K。

他们设计了一个高保真自编码器，能将 K 个 token 压缩成一个连续向量，并能以超过99.9%的准确率从中重构原始 token。

连续自回归语言模型

不过，从处理 token 向处理向量转变，还面临着一个重大挑战：

由于不存在有限词汇表，模型将无法借助标准的 softmax 层，对所有可能结果计算出明确的概率分布。

这也就意味着，需要为此开发全新的建模工具。

于是，研究团队提出了CALM——一套完整的、无需依赖概率似然的框架。

△CALM 框架无似然语言建模

训练方面，CALM 采用 " 能量损失 " 来教模型学习连续向量。

不用算概率，而是改用 " 能量分数 " 来判断模型生成的向量好不好。

具体来说，为了实现连续向量生成，研究人员采用轻量级生成头作为模型的核心输出组件。该生成头以最后一个隐藏状态为条件，来生成输出向量。

同时，为避免迭代式采样过程造成新的推理瓶颈，研究人员引入了Energy Transformer。

Energy Transformer 专为连续向量的高效单步生成设计，无需迭代，仅需 1 步计算即可输出连续向量。

能量损失是 CALM 训练 Energy Transformer 时用的损失函数，不依赖概率计算，而是用 " 距离 " 和 " 多样性约束 " 两个维度判断向量质量——既让生成的向量贴近真实值，又避免模型只会生成一种向量。

无似然语言模型评估

不算概率了，困惑度（Perplexity）这个评估指标也就不好用了。

为此，研究人员提出了BrierLM，一种基于布里尔分数的新型语言模型评估指标。

只需从模型中抽取样本，就能无偏地估算出 BrierLM 值。

实验证明，BrierLM 值和困惑度高度相关，能保证对模型能力的公平比较。

无似然温度采样

现在流行的大语言模型是通过温度采样来实现可控生成的，但这同样依赖于概率分布。

CALM 提出了无似然温度采样，这一算法基于拒绝采样，通过调整样本的接受概率来实现温度控制。

实验结果：更具性价比

研究人员通过实验验证，CALM 在平衡性能和计算成本时更有性价比。

在标准语言建模任务上，CALM-M（K=4，参数量 371M）在性能上与 Transformer-S（281M 参数）相当，但训练浮点运算数（FLOPs）减少了 44%，推理 FLOPs 减少了 34%。

模型越大，CALM 的优势越明显。并且随着语义带宽 K 的增加，CALM 的性能 - 效率比也会更优。

不过，研究人员也提到，压缩的 token 数 K 太多时，反而会导致性能下降，可能需要更换更大的模型。

论文地址：

https://arxiv.org/abs/2510.27688

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中！我们正在寻找 AI+ 时代领航者点击了解详情

企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

推翻「预测下一个 token」范式！微信 AI 新研究：把 token 压缩成连续向量更具性价比

宙世代

一起剪

相关阅读

实测远超iPhone 17 Pro！科大讯飞多款AI硬件降噪能力刷新行业标准

你下单没！淘宝闪购成双11超级增量：新用户电商订单破亿

Intel Xe3P将用于独显：两个版本现身

央视痛批网红煽动焦虑收割流量：喊话苹果人与安卓人的户晨风凉凉 全网封禁

最新iOS设备好评榜出炉：iPhone 17 Pro Max不再是第一

首次可选CPU！华为Mate 70 Air配置价格公布：麒麟9020B版4199起、麒麟9020A版4699元起

淘宝闪购新工服被指像“行走的广告牌”需骑手自购 平台回应

“人造太阳”照进现实，可控核聚变迎资本“点火”

「智源深澜」获天使轮融资，构建数据驱动的AI生物分子设计平台

苹果新款Siri明年春季发布：融入谷歌Gemini大模型

品牌增长“超级增量”：淘宝闪购新客双11电商订单破亿

史上最薄Mate！华为Mate70 Air预售今日开启，4199元起

AI 与影像进步明显，但荣耀的路还很长

滴滴悄悄更新，就想让你体验一把霸道总裁？

都叫Air！华为Mate 70 Air与iPhone Air真机对比来了

最新评论

量子位

热门推荐

央视痛批网红煽动焦虑收割流量：喊话苹果人与安卓人的户晨风凉凉全网封禁

淘宝闪购新工服被指像“行走的广告牌”需骑手自购平台回应