关于ZAKER 宙世代元宇宙 ZAKER智慧云 免费视频剪辑 合作 加入
驱动之家 2022-12-08

Intel 重回高性能 GPU 市场!Xe HPG 微架构潜力无穷

2022 年 Intel 接连发力,在 6 月份率先推出了旗下首款高性能桌面级 GPU A380,虽然定位入门级,却也初具规模。

而在同年 10 月再次推出了中高性能的 A750/A770 桌面级 GPU,本次的两款显卡一跃达到了市场主流产品的水准,虽然尚未达到旗舰级发烧性能,但其潜力可见一斑。

下面则为大家简单解析一下 Intel 的 Xe HPG 微架构,到底有何玄妙之处。

Xe HPG 微架构浅析

本代 Intel 3 款显卡采用了 Xe HPG 微架构设计,最初发布的入门级 A380 显卡包含 8 个 Xe 内核(Xe Core),即两个渲染切片(Rendering Slice),下面我们从最小的 Xe Core 逐步为大家讲解。

Xe Core

每个 Xe Core 包含 16 个 256 位宽的(XVE)矢量引擎,它主要负责传统图像处理计算的任务,且提供大部分运算。

同时由于 AI 算法核心几乎完全围绕着一系列大型矩阵算法和累加算法,所以每个 Xe Core 还包含 16 个 1024 位宽的矩阵引擎(XMX),主要为加速 AI 运算而生。

为了满足矩阵、矢量和光线追踪单元的高带宽需求,每个 Xe Core 中还构建了一个 192KB 的大型本地内存。它可以根据每个工作负载的需要在 L1 缓存和共享本地内存 ( SLM ) 之间动态分配。

Render slice

综上所述,每 4 个微小的 Xe Core,将构成一个 Render slice(渲染切片)。除此之外,每个 Render slice 还集成了几何处理、光栅化、纹理采样、像素处理和光线跟踪等主流图形技术。

新的光线追踪单元架构可为 DirectX Raytracing 和 Vulkan RT 提供全面支持,通过加速光线遍历、光线盒交叉点和光线基元交叉点实现逼真的闪电和视觉保真度。

Xe HPG

Xe HPG 架构最大的特点就是出色的灵活性,Intel 可通过叠加渲染切片的方法来构建不同核心,目前最少为 2 个(8 Xe Core),最大可以做到 8 个(32 Xe Core),A380 为两个,而 A770 则为 8 个 Render slice。

通过此方法,可实现 GPU 配置从低功耗解决方案扩展到旗舰级的游戏引擎。每个 Render slice 通过大型 L2 缓存的高带宽内存交换矩阵,能够灵活地扩展到强大的多切片配置,并连接到独立的 GPU 基础架构。

具有连接每个切片的大型二级缓存的高带宽内存交换矩阵能够灵活地扩展到强大的多切片配置,并连接到独立的 GPU 基础架构。

Intel Xe HPG 微架构 其他特性

XeSS 超级采样

针对游戏帧数优化方面,目前 NVIDIA 拥有 DLSS、NIS 技术,AMD 拥有 FSR、RSR 技术,这几种技术旨在降低渲染分辨率,输出高帧率画面,但原理有所不同。

而 Intel 的 XeSS 超级采样技术,同样在未发布时就引起了玩家的高度关注。

它是由机器学习通过相邻像素以及运动补偿先前帧重建子像素细节,可以帮助合成非常接近于原生超高分辨率渲染质量的图像。

整体算法采用了人工智能算法和硬件加速,以较低分辨率渲染所要求的性能水平,提高输出分辨率,提供超高清视觉效果,性能可提高 2 倍。

根据官方的描述,XeSS 采用了与 DLSS 相似的时间算法,它类似于用相机拍摄长曝光,捕捉的时间越长,收集到的细节也就越多。

在多个不同帧之间,AI 会通过运动矢量来跟踪对象并分析数据,并决定如何将它们结合在一起。XeSS 会通过中间帧和前后帧,收集超高像素后,再经由 AI 网络处理,输出相对较小且清晰的画面。

和时间算法相比,NIS、FSR、RSR 这类空间缩放算法则只能取一个像素点附近的低分辨率图像进行采样,然后缩放锐化。但锐化并不能从低分辨率图像中创建额外的细节,只能提高低分辨率信息中已经存在的细节对比度。

令人惊喜的是,XeSS 是采用开放标准实现的。换句话说,在游戏厂商的支持下,它可以适配多家 GPU 广泛使用。当然,XeSS 算法在 Xe GPU 的 DP4a 和 XMX 硬件功能下,会呈现更好的性能效果。

Deep Link

Deep Link 可充分利用 Intel CPU 和 GPU 协同工作,完成如视频转码,直播推流等任务,编解码优势显著。Deep Link 并不是某种具象技术,而是多项技术的总称,下面我们来分别讲解。

Stream Assist

Stream Assist 技术主要针对游戏主播,或者有直播需求的用户。在开启直播时,Stream Assist 可将直播负载分载到系统中的辅助引擎,从而优化游戏性能。性能更强的独显则依旧负责游戏运算,以获得最高的帧率和协同工作效率。

另外集显负责直播的同时,还负责捕获任务(如虚拟绿屏、自动构图、清晰直播和自动捕捉游戏精彩时刻)。

需要注意的是,台式机如果想使用 Stream Assist 技术,前提是与 12 代酷睿处理器或代次更高的处理器搭配使用,另外需要带有集成显卡的处理器,后缀带有 "F" 的则无法使用。

超级编码、超级计算

超级编码可以让 Intel 平台上并行工作的多个媒体引擎(适用于看重工作效率的选定应用程序),加速编码。从而让用户花更少的时间等待项目输出,最大限度地发挥创作动力。

而超级计算则需要用到 XMX 引擎,它可以利用 Intel 平台上的多个计算引擎和 AI 加速器(适用于看重工作效率的选定应用程序),加速内容创作。

同样,这两项技术均需要搭载 12 代酷睿处理器或代次更高的处理器搭配使用,另外需要带有集成显卡的处理器。

这里着重说一下超级编码,它可以使用 CPU 和 GPU 上所有可用的媒体编码引擎,某种意义上说,可以看做双显卡共同编码。

我们此前的编码工作,无论使用 CPU 或者 GPU,都是单线程工作。而 Intel 超级编码则是通过 OneVPL 这个跨平台的开放性框架,让 CPU 和 GPU 协同工作。

当超级编码开始工作时,一组组解码后的原始帧通过特定的 API 函数被交给 oneVPL,进而按组被分配到不同的多媒体引擎上,拷贝到相应的内存中缓存起来。

不论每一组有多少帧,相应的集显或者独显的多媒体引擎会开始按照设定的格式编码。而 OneVPL 会完成后续的打包工作,把编码后的帧一组组拼接成最终视频来输出。这种并行处理,编码效率比单一显卡更加显著。

高级 Xe 媒体引擎

高级 Xe 媒体引擎带有专门 AI 加速、宽编解码器支持,包含 H.264/AVC、H.265/HEVC、VP9 以及 AV1。并且得益于强大的媒体引擎,它也是全球首款支持 AV1 硬件编码的 GPU。与软件编码相比,编码速度提高了 50 倍。

AV1 与 H.265 编解码谁才是未来一直广受争议,从压缩效率来讲,AV1 比最为常见的 H.264 编解码器高出 50%,比 H.265 高 30%。换句话说,对于相同的图像质量,AV1 可以比 HEVC 节省多达 30% 的文件大小。

当然,如此强大的 AV1 也需要更强大的硬件来解码,即便如此,它也比 HEVC 需要更长的时间来解码。并且 HEVC 已经由 AMD、NVIDIA、Intel、Apple、高通等公司的 GPU/CPU 支持,而 AV1 目前的支持是有限的。

最重要的是,AV1 是完全开放没有任何授权费用的编解码器。虽然目前还没有被广泛采用,但行业内用户对其前景非常认可。

目前,包括 FFMPEG、Handbrake、Adobe 和 XSplit 都已集成了对锐炫 AV1 的支持。

结语:

作为 Intel 第一代高性能独显架构,Xe HPG 微架构从硬件水准来说,显然已经达到预期,目前欠缺的只是软件方面的优化。根据 Intel 官方说明,刚刚发布的 A770 已经达到了最大的 8 个 Render Slice 成为完全体,性能的提升也是有目共睹。

当然一代架构并不能说明太多问题,我们还要看后续以 Xe HPG 微架构为蓝本的迭代升级效果如何,不过无论怎样,在 NVIDIA 和 AMD 两强相争多年的格局下,Intel 重回高性能 GPU 市场,无疑会在未来几年内对市场格局带来巨大冲击。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容