感谢 AI!
原生 1 个 G 的视频,现在只需要传 200K 数据就能看了——
视频数据的压缩率干到了0.02%,但依旧能保持画面的高清、连贯和画面细节。
或许你会问,这又有什么用呢?
想象一下,你身处于太平洋的一搜远洋货轮中,卫星信号只有一两格,刷个朋友圈,加载内容的圈圈都要转好久。
但正是因为有了这项 AI 技术,现在在如此极端的环境之下,你甚至可以直接看高清的世界杯直播!

而这项新研究,正是来自中国电信人工智能研究院(TeleAI)的技术——生成式视频压缩(GVC,Generative Video Compression)。
作为国资央企、全球领先的综合智能信息服务运营商,中国电信不仅拥有覆盖海陆空天的通信网络基础设施,更具备将前沿 AI 技术与实际通信场景深度融合的能力。
这种 " 云网融合 +AI 原生 " 的独特优势,使得 GVC 技术从实验室走向远洋船舶、应急现场等真实极端环境成为可能。

用计算,换宽带
在介绍这项黑科技之前,我们需得先聊聊现在的视频是怎么传输的。
无论是你要看的 Netflix、B 站,还是微信视频通话,背后主要依靠的是 HEVC(H.265)或 VVC(H.266)这类传统视频编码标准。
这些技术的底层逻辑,说白了是像素的极致搬运:编码器拼命计算哪些像素是不变的、哪些是移动的,然后尽可能多地保留像素信息,再想办法塞进有限的带宽里。
这种逻辑在宽带富裕时很完美,但在极限环境下(极低带宽)会迅速崩盘。
一旦带宽不够,传统编码器为了凑合传输,只能疯狂丢弃高频信息。结果我们都见过:画面糊成一团,甚至直接卡死。
但 TeleAI 团队换了个思路,如果我不传像素了呢?
GVC 的核心逻辑是:不再传递画面本身,而是传递 " 如何画出这幅画面 " 的指令。
打个比方:
传统压缩:就像是把《蒙娜丽莎》拍一张照片,尽量压缩这张照片发给你。如果网不好,照片就糊得像一堆色块。
生成式视频压缩(GVC):我不发照片了。我发给你一段描述—— " 一位女士,神秘微笑,背景是山水,光影是从左侧来的…… ",以及她嘴角上扬的精确弧度数据。你的接收端坐着一位 AI 画师(生成式模型),听到描述后,现场给你画出一幅《蒙娜丽莎》。

这就是技术报告中提到的核心理念:用计算,换宽带(Trading computation for bandwidth)。
把传输的压力,转移到了推理计算上。
GVC 到底压了些什么?
既然不传像素,那这 0.02% 的数据里到底装了什么?
技术报告揭示了 GVC 系统的内部构造,它主要由神经编码器(Neural Encoder)和生成式视频解码器(Generative Video Decoder)两部分组成。
里面传输的是一种被称为压缩 Token 的极小数据包,这些 Token 里包含了视频的灵魂,主要分为两类:
语义信息(Semantic Information): 这是一个什么场景?有人吗?有车吗?物体的大致结构是什么?这是画面的骨架。
运动信息(Motion Dynamics): 这些物体下一秒往哪动?风怎么吹?车轮怎么转?这是画面的灵魂。
经过 TeleAI 团队的测试,这些 Token 的大小可以被压缩到极致的0.005 bpp - 0.008 bpp(bits per pixel,比特每像素)。
这是什么概念?通常我们看的高清视频,bpp 至少在 0.1 以上。GVC 直接把数据量砍掉了两个数量级。
除此之外,在接收端,还有一个扩散模型(Diffusion Model) 严阵以待。
它接收到这些简短的 Token 指令后,利用预训练好的海量世界知识(比如它本来就知道海浪长什么样,足球长什么样),结合指令中的特征,开始脑补并生成视频。
这在通信理论上,实现了一次巨大的跨越。
香农 - 韦弗(Shannon-Weaver)通信模型将通信分为三个层级:
Level A:技术问题(传得准不准?)
Level B:语义问题(意思对不对?)
Level C:有效性问题(能不能完成任务?)
传统视频压缩在死磕 Level A,而 GVC 直接跳到了Level C。

数据实测:非常省流
极端压缩听起来很玄,但具体指标并不含糊。
技术报告中展示了在 MCL-JCV 权威数据集上的测试结果,数据非常硬核。
画质吊打传统算法
在极低码率下(0.005 bpp 左右),使用 LPIPS(一种更符合人类视觉感知的画质评价指标)进行对比:
传统霸主 HEVC 已经彻底崩溃,画面基本是马赛克乱舞,LPIPS 数值飙升(越低越好)。
GVC 生成的画面依然保持了清晰的纹理和结构,LPIPS 数值显著低于 HEVC。
技术报告中给出了一个惊人的对比结论:传统方法(如 HEVC)要想达到和 GVC 同样的视觉画质,需要消耗 6 倍以上的带宽!

不只是给人看,机器也能用
有人会问:AI 生成的视频,会不会失真?比如把球生成没了?
这是一个非常犀利且实在的问题。
为此,团队在DAVIS2017视频分割任务上进行了验证;结果显示,在 bpp=0.01 的极限压缩下,GVC 重建视频的 J&F 指标(衡量分割准确度)显著高于 HEVC。

消费级显卡也能跑
计算换宽带,那会不会把电脑算爆?
确实,生成式模型通常是算力黑洞。但 TeleAI 通过模型小型化、知识蒸馏等手段,搞定了落地的最后一公里。
报告数据显示,经过优化的 GVC 模型,在消费级 GPU(如 RTX 4090)上,生成一组 29 帧的画面大约只需要 0.95 秒到 1.35 秒。
虽然比不上传统解码器的毫秒级速度,但在很多非实时或准实时的场景下(比如直播延迟几秒),这已经是完全可用的状态了。
当然不只是为了看个世界杯
0.02%,这篇技术报告所展现的关键数据已然非常惊艳,但它背后更加可期的,还是这项技术给未来带来的改变。
除了开头我们提到的世界杯的例子外,在报告展示的 Demo 场景中,GVC 还展现了其它极端网络环境下的情况:
远洋海事通信: 船员通过窄带卫星网络(带宽极其昂贵且稀缺)接收数据。用 GVC,200K 的数据流就能还原出连贯的球赛直播。这不仅是娱乐,对于海上远程医疗、设备维修指导来说,是救命的技术。
应急救援: 地震或洪水灾区,基站损毁,只有微弱的应急通信信号。救援无人机传回的如果是 4K 画面,根本发不出来;如果是 GVC 压缩后的 Token,指挥中心就能实时看到清晰的现场生成画面,哪怕细节纹理是 AI 补全的,但受灾人数、房屋倒塌结构等核心信息是准确无误的。
深空探测与车载视频: 想象一下火星车发回的视频,或者数百万辆自动驾驶汽车每天上传的路测数据。如果都能压缩到 0.02%,存储和传输成本将呈指数级下降。
实际上,GVC 并非孤立的技术突破,而是建立在 " 智传网(AI Flow)" 理论体系之上。
智传网(AI Flow)是人工智能与通信、网络交叉领域的一项关键技术,即通过网络分层架构,基于连接和交互,实现智能的传递和涌现。
在去年的世界人工智能大会(WAIC)上,中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授,介绍了 TeleAI 在智传网(AI Flow)研究中所发现的三个定律:信容律、同源律、集成律。
信容律描述大模型的本质规律和能力边界,通过数据压缩的方式来衡量模型的知识密度,也就是智能能力。
同源律则展现大模型的 " 部分 " 与 " 整体 " 关系,在相同训练计算开销下,能指导得到数量更多、性能更好的不同大小的家族模型。
集成律能指导大模型 " 单体 " 与 " 群体 " 的协同,通过多个模型集成的方式,实现智能能力的提升与涌现。
基于智传网(AI Flow)的信容律,在 AI 时代,通信的本质不再是单纯的数据传输,而是智能的分发与协同。
在此体系下,GVC 通过 " 用计算换带宽 " 的资源置换策略,实现了通信效率与感知质量的最优平衡。
GVC 就是这一理论的最佳实践:当带宽成为瓶颈时,我们就燃烧算力来换取自由。
从像素还原到语义生成,视频压缩技术正在经历一场类似从功能机到智能机的范式转移。
GVC 标志着视频通信正从像素搬运迈向语义生成的新阶段。
作为央企在 AI+ 通信融合创新中的重要成果,它不仅为远洋通信、应急救援、边缘智能等场景提供了高效可行的解决方案,更开启了以任务有效性为核心的下一代视频传输范式:
在未来的互联网里,流淌在光纤和电波中的,可能不再是庞大的原始数据,而是高度浓缩的智慧和指令。
技术报告地址:
https://www.arxiv.org/abs/2512.24300
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见