英特尔架构日2021:游戏独显Xe-HPG浅析



聊完Alder Lake架构之后,自然要聊聊英特尔架构日上的重头戏Xe-HPG GPU。在过去几年中,英特尔一直在进入独显市场的门口反复徘徊,希望推出一款具备战斗力GPU产品,而这个时间点放在了2022年。


虽然还没有正式涉足消费GPU领域,但英特尔已经准备了一套完整的GPU设计和架构,高性能GPU包含了Xe-HP、Xe-HPC和Xe-HPG三款产品,其中Xe-HPG被唯一进军游戏市场的重任,也就是之前经常被提到的DG2。


在2021英特尔架构日上,英特尔放出了更多关于Xe-HPG的信息。


英特尔架构日2021:游戏独显Xe-HPG浅析


新基本单位:Xe-Core


如此前报道一样,Xe-HPG衍生出来出来的Alchemist炼金术士GPU正是为了与AMD、NVIDIA展开正面竞争而存在。按照规划Intel ARC品牌在未来将包含Alchemist炼金术士,Battlemage战斗法师、Celestial天人和Druid德鲁伊数个架构,打出一套关于GPU的组合皮埃。


英特尔架构日2021:游戏独显Xe-HPG浅析


由此可见Xe-HPG在一开始就开始承担重任,它并非Xe-LP的扩充版本。相反,英特尔引入了一个全新的基本模块,即Xe-Core。换而言之,以往的EU或者执行单元无法再确切表达英特尔GPU相关描述。


Xe-Core可以理解为向量与张量ALU的集合,配备L0和L1缓存单元。在逻辑层面上与Xe-LP子切片、NVIDIA SM(流式多处理器)接近。如果稍微了解一点GPU的同学可能会清楚,单元层级之间并非一成不变,例如NVIDIA在更新架构的时候就曾经对SM层级进行修改。


从公布的内容来看每个Xe-Core中会包含有16个矢量引擎(Vector Engines,VE)和16个矩阵引擎(Xe Matrix eXtensions,XMX)。


先说矢量引擎。每个矢量引擎在每个周期内可以处理256bit。如果再向下拆解,每个矢量引擎包含8个FP32 ALU,与Xe-LP EU大致相同。由于16个矢量引擎每个时钟能够处理128次FP32操作,即FMA吞吐量为256 FLOPS,那么在每时钟吞吐量上也与NVIDIA Ampere GPU的SM相同。


英特尔架构日2021:游戏独显Xe-HPG浅析


在Xe-Core中,每16个矢量引擎与16个矩阵引擎配对,用于矩阵和张量计算,这里英特尔使用了一个专有名词来命名,即Xe Matrix eXtensions,缩写XMX,可见其重要性。XMX主要用于AI加速、矩阵/张量计算,每个XMX引擎使用一个8深度脉动阵列制。XMX每个时钟周期执行8套512位宽的矩阵计算运算。这些矢量和矩阵引擎由一个可以每个时钟周期取回512B数据的宽加载/存储单元支持。每个Xe-Core有512KB L1的数据缓存。


虽然SM、Xe-Core在矢量吞吐上相匹配,但是英特尔拥有2倍于NVIDIA的矩阵运算吞吐,能够执行的数量是ALU数量的两倍,这意味着英特尔GPU仍然倾向于在矩阵运算、人工智能计算上投入更多资源。但需要注意的是,目前为止大多数图形着色器是用不上XMX的。


渲染切片:构成完成GPU


在Xe-Core的基础上,Xe-HPG再向上一层的逻辑是渲染切片(Render Slice),与Xe-LP一样,切片给英特尔GPU提供了大部分的功能。


英特尔架构日2021:游戏独显Xe-HPG浅析


对于即将发布的炼金术士Alchemist而言,一个切片包含4个Xe-Core,4个光线追踪单元,4个纹理采样器、几何/光栅化前端,2个像素后端。这样4:4:4的布局意味着炼金术士GPU内,每个Xe-Core都拥有自己的纹理采样器和光线追踪单元。


同时,英特尔还确认光线追踪单元使用的是加速光线遍历、求交测试、交汇点着色计算过程,与NVIDIA RT Core相类似。


从目前来看,完整的Alchemist GPU最多拥有8个渲染切片,连接这些切片后端的是传统的内存结构,也就是图片中的L2缓存。不过从架构图中还暂时看不到PCIe接口、媒体引擎、显示控制器等周边部分。而从此前Linux驱动程序显示的情况来看,Alchemist GPU将支持DisplayPort 2.0,英特尔成为首个支持DP新标准的厂商。


如果按照8个渲染切片来推算,明年发布的Alchemist GPU将包含32个Xe-Core,4096个FP32 ALU,支持DirectX 12 Ultimate,具备XMX矩阵引擎,以及对最新标准的支持。事实上,光是前面提到的纸面参数,就已经是DG1 Xe-LP GPU矢量引擎ALU数量的5倍。


英特尔架构日2021:游戏独显Xe-HPG浅析


XeSS:对抗DLSS的杀手锏


在推出架构的同时,用来优化游戏图像的Xe Super Sampling,也就是XeSS技术也推到了众人面前,类似于当下火热的NVIDIA DLSS,AMD FSR,通过一系列AI优化算法,以更低的运算资源作为代价,换取更高的性能和图像质量。


英特尔架构日2021:游戏独显Xe-HPG浅析


因此XeSS技术在一种结合空间和时间在AI图像上进行提升的技术,在宣布ARC品牌之前,英特尔已经进行了很长时间的研发,并且SDK将在本月交付给游戏开发商。


在优化表现上,XeSS技术主要竞争对手应该是NVIDIA DLSS 2.X。特别是针对当下的4K显示屏愈发便宜,8K显示内容蓄势待发,依靠Alchemist GPU内置的XMX的庞大数量,英特尔显然希望一开始就能将XeSS做到最好。


英特尔架构日2021:游戏独显Xe-HPG浅析


在方法上,是英特尔让使用了空间数据(相邻像素)和时间数据(前一帧运动物体向量)组合交于神经网络进行学习,但如何处理重影、混叠和在其他产品中可能会产生的Bug尚不得而知。


除了需要XMX硬件支持的版本,XeSS也在考虑纯软件版本,即可以在Xe-LP上付诸实践,让XeSS技术支持拥有更广阔的范围。甚至类似AMD FSR兼容N卡一样,让XeSS成为一项更普遍的技术,也因为如此,英特尔最终计划在某个时间点开源XeSS SDK和对应工具,以获得更广泛的第三方支持。


英特尔架构日2021:游戏独显Xe-HPG浅析


在架构日上,英特尔展示了一些XeSS在虚幻引擎中的实际操作视频,可以看到XeSS已经能够做到将1080p分辨率的内容做到与4K渲染画面基本相同的级别。


英特尔架构日2021:游戏独显Xe-HPG浅析


值得注意的是,目前英特尔已经完成了针对GPU内存管理器、着色编译器的改造,游戏加载时间缩短了25%,密集型游戏吞吐量提18%。XeSS作为一项能够横跨软件和硬件的技术,势必成为未来一段时间英特尔GPU的主要卖点之一,因此能够看到XeSS会在短时间内快速发展,最终对NVIDIA DLSS技术构成威胁。


英特尔架构日2021:游戏独显Xe-HPG浅析


台积电N6制造


当然,对于英特尔而言,能够尽快将Alchemist GPU造出来投入市场赚钱才是正经事,这里英特尔将制造交给了更具竞争力的台积电7nm工艺,同时台积电7nm工艺也用于制造AMD GPU,NVIDIA则使用相对落后的三星8nm。


英特尔宣布Alchemist GPU将成为首批使用台积电N6工艺的产品,本质上N6即是台积电7nm工艺的改进版本,虽然N5工艺猛,但经济实惠。N6工艺在台积电7nm的基础上,用EUV层替代了部分DUV层,密度提高了约18%。


英特尔架构日2021:游戏独显Xe-HPG浅析


如果GPU真的能在2022年第一季度发布,那么英特尔Alchemist GPU无疑会成为市面上工艺最先进的GPU,进而帮助英特尔ARC品牌打开市场局面。


同时,英特尔工程师也在研究效能更高的Alchemist GPU,通过优化逻辑电路设计,达到节能和提升时钟频率的设计。从公布的数据来看,相比Xe-LP,英特尔的电源效率和时钟频率提升了50%,其中时钟频率大约会在2.4GHz左右,介于NVIDIA和AMD之间,FP32单精度着色器计算吞吐量估计为18.5 TFLOPS,将达到Xe-LP DG1的9倍。


英特尔架构日2021:游戏独显Xe-HPG浅析


最后:2022蓄势待发


作为英特尔向消费级GPU迈出的第一步,Alchemist GPU还有许多谜题尚未披露,但从未来多架构发布的节奏来看,英特尔已经做好了长期坚持的准备。毕竟游戏GPU领域一个手掌拍不响,需要与游戏工作组、引擎、各项标准匹配,需要长时间的积累和进步。


历经了DG1的小试牛刀,DG2无疑会更向前跨进一步,至于即将到来的Alchemist GPU会是什么样的表现,相信我们很快就能知道了。


英特尔架构日2021:游戏独显Xe-HPG浅析

展开阅读全文

页面更新:2024-05-04

标签:三星   英特尔   架构   张量   吞吐量   游戏   矩阵   切片   矢量   时钟   单元   工艺   引擎   时间   数码   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top