APP下载

关于ZAKER

合作

量子位 12小时前

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！

首个复数大模型！北大提出 2 比特超低比特量化算法。

现如今，大模型在推理时通常都非常耗存储和计算，这是因为权重采用 FP16 存储，占用空间大。

北大团队首次提出iFairy 方案，把模型权重量化到复数集合 {+1, -1, +i, -i}。

这四个值刚好可以用 2 比特表示，相当于压缩到原本的 1/8。

推理时，复数与 { ± 1，± i} 相乘，不需要真正做乘法，只需加减或交换数据位置，计算成本更低。

研究团队还将整个 Transformer 架构都进行了 " 复数化 " 改造。

结果显示，iFairy 模型取得了比全精度（FP16）LLaMA 基座模型更低的困惑度（PPL），降幅高达 10%，语言建模能力和下游任务表现反超其全精度的 LLaMA 基座模型，让 GPT-5 这样的大模型也有在手机上运行的可能。

目前，相关论文及代码全面开源，人人都能复现训练。

研究核心：模型体积压缩与全新量化算法 PhaseQuant

为追求更高的模型性能，业界普遍做法是不断堆叠参数量，模型部署成本高昂。

同时，庞大的参数量带来了计算量的激增，尽管学界和业界已涌现出如 gpt-oss 的 MXFP4 训练等优秀的量化方案，但其核心计算逻辑依然没有消除对硬件资源消耗巨大的 " 乘法 " 运算的依赖，推理延迟没有实现根本性的降低。

北大团队的iFairy 超低比特量化方案为此破局。

模型体积极致压缩，仅为原 1/8

在 " 空间 " 上，iFairy 实现了极致的压缩。

传统的全精度（FP16）权重需要 16 比特，而 iFairy 方案仅用 2 比特，就完成了对一个权重信息的编码。

这意味着，相较于流行的 FP16 模型，其模型体积可以直接压缩至原来的 1/8。这种极致的压缩率，为大模型在手机、汽车等边缘设备上的部署扫清了存储障碍。

PhaseQuant 实现 " 无乘法 " 计算

在 " 时间 " 上，团队提出全新量化算法 PhaseQuant，iFairy 实现 " 无乘法 " 计算。

PhaseQuant 算法

这一切，都源于团队提出的全新量化算法 PhaseQuant。它不再将权重映射到实数轴上的点，而是基于参数的相位将其映射到复平面上的四个单位根 {+1, -1, +i, -i}。

△PhaseQuant 量化算法示意图

这一操作一举多得：

信息密度：用 {+1, -1, +i, -i} 四个值，彻底利用了 2-bit 的全部信息容量，信息熵从传统三元量化（如 BitNet b1.58）的 log ( 3 ) ≈ 1.58-bit，提升到满格的 log ( 4 ) =2-bit。

对称性：这四个点在复平面上关于原点中心对称，保持了模型训练所需的良好性质。

稀疏性：每个量化后的复数权重，其实部或虚部必有一个为零，这在高维度上保留了稀疏性的优势。

" 无乘法 " 运算

一个标准的复数乘法 ( a+ib ) ( c+id ) 需要 4 次实数乘法和 2 次加法，计算量不小。

但在 iFairy 模型中，当一个复数激活值与量化后的权重 { ± 1, ± i} 相乘时，运算发生变化：所有乘法都消失了。

△超低比特复数运算规则

整个模型中最核心、最庞大的矩阵乘法（GEMM），被彻底重构。

原本昂贵的浮点乘法运算，被完全替换为硬件成本几乎为零的加法、减法和数据交换（shuffle）操作。这从根本上消除了计算瓶颈，为实现数量级的推理加速提供了可能。

架构革新：一个全面 " 复数化 " 的 Transformer

研究团队还将整个 Transformer 架构都进行了 " 复数化 "改造。

△Fairy ± i 模型主干

复数注意力机制：传统注意力计算 Q 和 K 的点积，这里则巧妙地使用了 Hermitian 内积的实部作为相似度分数，既利用了所有复数信息，又自然地得到了实数分数用于 Softmax。

复数旋转位置编码 ( RoPE ) ：在复数域，位置编码的旋转操作变得异常简洁和统一，一个简单的复数乘法即可实现。

性能表现：PPL 降低 10%，性能反超全精度

结果显示，iFairy 不仅没有出现超低比特量化常见的性能悬崖，反而实现了性能反超。

在 LLM 的语言建模能力方面，模型的困惑度（PPL）越低，代表模型对文本的理解和预测能力越强。在对 PPL 的测试中，基于相同数据集训练（注：为保证对比的严谨性，所有对比模型的训练数据均保持一致，具体信息可参见论文）的 2-bit 的iFairy 模型取得了比全精度（FP16）模型更低的困惑度（PPL），降幅高达 10%。

△iFairy PPL 评测结果

在下游任务评测方面，iFairy 模型更是在多个任务的评分反超了全精度的 Llama 基座模型。

△iFairy 下游任务评测结果（zero-shot）

对量化后权重的分析还发现，模型在训练后，这四个复数值 { ± 1, ± i} 的分布非常均匀，证明模型确实学会了充分利用这套全新的 " 编码系统 "。

△左为 iFairy 模型 k_proj 的参数分布，右为 iFairy 模型 o_proj 的参数分布

这项工作将复数神经网络的思想与超低比特量化相结合，通过利用 " 相位 " 这一被忽略的信息维度，在不增加任何存储成本的前提下，显著提升了模型的表达能力和最终性能。

或许，我们离在普通手机上流畅运行 GPT-5 级别的模型，又近了一步。相关论文、训练代码、模型权重与实验脚本已全部开源，配套提供从训练、评测到可复现实验的完整流程，人人皆可复现训练。

论文链接：https://arxiv.org/pdf/2508.05571

huggingface 链接：

https://huggingface.co/PKU-DS-LAB/Fairy-plus-minus-i-700M，https://huggingface.co/PKU-DS-LAB/Fairy-plus-minus-i-1.3B

github 链接：https://github.com/PKULab1806/Fairy-plus-minus-i

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频剪辑

AI视频剪辑

AI智能客服

AI工具箱

AI写稿助手

AI口语陪练

我的订阅

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署！

宙世代

一起剪

相关阅读

苹果最好的长焦手机！曝iPhone 17 Pro支持8倍光学品质级变焦

美国人也996 Avago成硅谷最卷公司：只因股价涨了二三十倍

微信支付宝免提现手续费教程来了：一学就会

曝iPhone 17 Air国行版已开始组装：无卡时代要来了

武大团队破解木星“磁层密码”！全新视角探测木星

AI竞赛愈演愈烈！Meta六个月内第四次重组AI团队

你买小米是因为性价比吗！7月中国线上空调份额：小米已超格力排第二 均价还有差距

苹果深圳第三家门店来了 9月发布会前扩张零售版图

芯片+人形机器人+军工！一线专家火线点评产业链动态 三大风口“上榜”多只大涨股

卢伟冰回应小米空调线上销量超越格力：能力坚实提升 才能高质量增长

运营商不会告诉你的“免费手机”的秘密

网红“馆长”参观腾讯 体验微信手掌支付 现场误称“支付宝”笑倒一片

送2000份玄戒O1旗舰处理器纪念版！雷军：14年前的今天 小米手机诞生了

苹果Apple Store深圳前海壹方城新店今日开业：有人连夜排队 开业礼炒到580元

助力2047年成发达国家！印度宣布首款国产芯片年底面世 采用28nm工艺

最新评论

量子位

热门推荐

热门订阅 换一批

硅基星芒

星河商业观察

你买小米是因为性价比吗！7月中国线上空调份额：小米已超格力排第二均价还有差距

芯片+人形机器人+军工！一线专家火线点评产业链动态三大风口“上榜”多只大涨股

卢伟冰回应小米空调线上销量超越格力：能力坚实提升才能高质量增长

网红“馆长”参观腾讯体验微信手掌支付现场误称“支付宝”笑倒一片

送2000份玄戒O1旗舰处理器纪念版！雷军：14年前的今天小米手机诞生了

苹果Apple Store深圳前海壹方城新店今日开业：有人连夜排队开业礼炒到580元

助力2047年成发达国家！印度宣布首款国产芯片年底面世采用28nm工艺

热门订阅换一批