关于ZAKER 合作
手机中国 22小时前

苹果突破 AI 文本生成速度极限:新模型提速 128 倍

【CNMO 科技消息】CNMO 从外媒获悉,苹果与俄亥俄州立大学的研究团队近日发布了一项突破性研究,提出了一种名为 "Few-Step Discrete Flow-Matching(FS-DFM)" 的新型语言模型。该模型基于扩散模型(diffusion model)的改进架构,能够以极快的速度生成高质量长文本,速度最高可达传统自回归模型(如 ChatGPT)的 128 倍。

与传统自回归模型逐词生成文本的方式不同,FS-DFM 通过并行生成多个词元(token)并在少量迭代步骤中逐步优化文本,最终实现完整输出。研究显示,FS-DFM 仅需 8 轮迭代即可生成与需上千步迭代的扩散模型相媲美的长文本内容。

据悉,为实现这一目标,研究团队采用了三重技术策略:首先训练模型适应不同迭代步数的计算预算;其次引入 " 教师 " 模型引导迭代过程,确保每次更新更准确且避免过度修正;最后优化迭代机制,以更少、更稳定的步骤达成最终结果。

在性能评估中,FS-DFM 在困惑度(perplexity)和熵(entropy)两项关键指标上表现优异。与 70 亿参数的 Dream 扩散模型及 80 亿参数的 LLaDA 扩散模型相比,参数规模仅 17 亿、13 亿甚至 1.7 亿的 FS-DFM 变体均实现了更低的困惑度(表明文本更自然准确)和更稳定的熵值(避免文本重复或混乱)。

研究团队表示,由于该方法展现出显著潜力且目前缺乏类似公开模型,他们将发布代码和模型检查点以促进学术复现与进一步探索。

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容