NVIDIA 在 6 月 2 日正式发布了两款 Ti 后缀的显卡:GeForce RTX 3080 Ti 和 GeForce RTX 3070 Ti,我们前几天之前已经发表了前者的测试报告。
该卡以 8999 元的定价提供了接近 GeForce RTX 3090 的性能,对于已经“饿了”半年的显卡市场来说无疑是一个不错的选择,市场上的 RTX 3080 Ti 实际价格其实已经站到了 11000~12000 的区间。
当然,即使是 8999 能买到,对于许多游戏玩家来说依然是超出预算的,他们更希望的是多一些类似 RTX 3070 价格线的产品,而这次发布的 RTX 3070 Ti 则可以满足他们的需求,4499 元的定价在目前来说已经是比较适宜的价位了。
和去年发布的 RTX 3070 相比,这次的 RTX 3070 Ti 有三个明显的区别点:
当然,不同的人对上述三点的排序也许会不一样,但是我还是倾向于上面的样子,因为过去半年里,游戏玩家饱受挖矿之苦,他们中的大多数都退而求其次成为核显党、亮机党,只要 LHR 能重建健康的游戏卡生态就比什么都更重要了。
GeForce RTX 3070 Ti FE 版的设计语言和 RTX 3080 Ti FE 高度相似,采用了和 RTX 3080 Ti FE/RTX 3080 一样的右侧风扇背置设计,此时左侧风扇的风往里吹,而右侧背置的风扇往外吹,两个风扇的风道各行各道,降低了传统设计中显卡热流叠加的问题。
按照当初 RTX 3080 发布时候的资料,和 RTX 2080 Ti 相比,新设计在同样功率(320W)下能降低 20 摄氏度以及 10 分贝噪音)。
和 GeForce RTX 3070 相比,GeForce RTX 3070 Ti 在性能上的最大变化源自采用了 GDDR6X 内存,凭借 19Gbps 的单引脚传输速率,现在 GeForce RTX 3070 Ti 的内存带宽高达 608GiB/s,比之前的 GeForce RTX 3070 高了大约 36%。
GeForce RTX 3070 Ti 的内核规模增加了4%(从 46 个 SM 增加到 48 个),这样的增幅理论上只能带来 4% 的提升,但是结合前面提到的 34% 内存带宽提升,最终和 GeForce RTX 3070 相比 GeForce RTX 3070 Ti 能达到大约 10% 的提升。
最后就是挖矿算力限制部分,英伟达自 GeForce RTX 3060 开始引入挖矿限制,到了 5 月份中旬全线产品都转换为锁矿版本,GeForce RTX 3070 Ti 自然也免不了这一刀。
正如我以前一直所说的那样,锁矿对 NVIDIA、游戏玩家来说是多赢的设定,NVIDIA 在确保游戏卡生态正常发展的同时,依然可以让自己有更亮眼财报,而挖矿导致的缺卡问题也大为减少,玩家们的抱怨将因此而大大降低。
从我目前的挖矿体验来看,RTX 3070 Ti 是一块以太坊友好度较低的产品,它的算力在最优化的情况下可以做到 43MH/s,但是此时的耗电会高达 145 瓦,相比之下,RTX 3070 可以做到 61MH/s @ 116 瓦。
这意味着 RTX 3070 Ti 的每瓦算力从 RTX 3070 的 0.53 MH/s 降低到了 0.3 MH/s,在币价较高的情况下,RTX 3070 Ti 也许可以提供一定收益,但是出现矿难的情况,RTX 3070 Ti 关机比价会提前不少,而且由于算力较低,RTX 3070 Ti 的回本周期也会大为延长,最终如果想购买 RTX 3070 Ti 挖矿的话亏本风险会高许多。
首先是 DLSS。
DLSS 是 NVIDIA 在 RTX 20 系列发布时候开始引入的画面重构技术,全称是 DEEP LEARNING SUPER-SAMPLING(深度学习超采样)。
最初版本的 DLSS 或者说 DLSS 1.0 是基于特定游戏预训练网络数据的超分辨率技术,加上是纯空间域(与前后帧无关),因此其效果是差强人意的。
到了 DLSS 2.0,NVIDIA 采用了通用(而非特定游戏)的预训练网络数据,并且结合了时间域信息(纳入了前后帧数据),使得超分辨率的画质非常出色。
在 DLSS 1.0 和 DLSS 2.0 之间还存在一个被称作“DLSS 1.9”的实现,该技术据我所知只有 Control 采用。它实际上是纯 CUDA Core 执行,结合了时间采样,没有采用预训练的神经网络作推理,当时的效果比 DLSS 1.0 更好一些。在不久后,随着 DLSS 2.0 的发布,Control 就升级到了效果好很多的 DLSS 2.0。
有些人认为 DLSS 1.9 是 DLSS 2.0 的原型,这也许有一定的道理,例如采用了时间采样,但是从画质差别来看,DLSS 2.0 相当于另一个新世界。
DLSS 2.0 除了画质非常出色、支持更灵活的渲染分辨率(例如支持 4 倍分辨率,而 DLSS 1.0 只能支持两倍)外,更重要的一点是它可以更容易集成到游戏开发流程中,例如现在 UE4 已经集成了 DLSS 2.0,DLSS 2.0 现在对 UE4 游戏开发人员来说就是一个开关。
当然,不同的游戏可能还需要一些微调,例如光线追踪的降噪处理引入了 TAA 来做的话,则需要将 TAA 前移到 DLSS 2.0 之前,简单来说,就是需要注意在渲染流水线中 DLSS 2.0 执行的位置,这是因为 DLSS 2.0 引入了时间域的采样。
在 RTX 30 发布的时候,NVIDIA 还趁势推出了 DLSS 2.1,其实就是 DLSS 2.0 基础上引入了 8K 和 VR 支持,目前没有关于 DLSS 会有大版本更新的消息。
DLSS 2.0 提供了多种画质设置,分别有品质(Quality)、平衡(Balance)、性能(Performance)、超高性能(Ultra Performance),根据我在游戏 Death Stranding 中的对比来看,Performance 模式的纹理细节度要比 Quality 好一些,但是边缘过渡渐变方面 Quality 会好些,考虑到 Performance 提供了更好的性能,我觉得 Performance 是 DLSS 2.0 中最推荐的模式。
左:2560x1440 DLSS 2.0 Performance,纹理细节度更好;右:2560x1440 DLSS 2.0 Quality,边缘抗锯齿过渡更好,这里使用了 8 倍放大
当我们说DLSS 2.0 在某些情况下画质会高于原生高分辨,这个“某些情况”一般是指游戏在原生高分辨设置下启用 TAA(时间抗锯齿)时候的情况:
左:2560x1440 DLSS 2.0 Performance,纹理细节度更好;右:本机 2560x1440 开启 TAA,边缘抗锯齿过渡更好
左:2560x1440 DLSS 2.0 Performance,边缘过渡好很多;右:本机 2560x1600,纹理细节好点
没有一项技术是完美的,但是 DLSS 2.0 的确在性能和画质上做到了非常好的平衡。
提起 DLSS,绕不开的话题自然是 AMD 的 FSR。
FSR 是 AMD 6 月 2 日发布的超分辨率技术,定于 6 月 22 日正式上线,目前已知的有 Godfall 等 5 个游戏支持该技术。
按照 AMD 的说法,FSR 1.0 是一个纯空间域的超分辨率技术,这点和 DLSS 1.0 是类似的,但是,FSR 也没有采用任何深度学习训练网络,因此它目前公开的视频里,画质表现似乎并不理想(有些人认为比 DLSS 1.0 还糟糕,我对此有保留,但是可以肯定的是无法和 DLSS 2.0 相提并论)。
常见超分辨率实现方式分类:
纯空间采样 | 空间采样+时间采样 | |
未采用深度学习 | AMD FSR/显示器插值 | Control DLSS 1.9/TAAU |
采用深度学习 | DLSS 1.0 | DLSS 2.X |
毫无疑问 FSR 也会演进,例如明年第四季度集成 Matrix Core(等效 NVIDIA 的 Tensor Core) RDNA 3 问世的时候,基于深度学习的 FSR 2.X(纯属个人假设)有机会和 DLSS 2.0 真正抗衡,但是在此之前,FSR 恐怕只是一个实用性相对 DLSS 2.0 较低的技术。
对真·图灵(集成了 RT Core 和 Tensor Core 的图灵 GPU)和安培显卡用户来说,DLSS 2.0 能达到的效果就是相当于提前使用上下一代显卡。
再说说光线追踪的情况
相对于铺天盖地的宣传,关于光线追踪硬件加速的实现细节其实大家讨论的很少,这就导致了 N 粉和 A 粉在光线追踪问题上各说各话。
我将目前已知的双方光线追踪资料以及它们实现整理了一下:
我们使用一个 Path Tracer 进行了这方面的测试,射线反弹计算采用迭代或者说循环方式执行(非递归,A 卡 Vulkan 驱动不支持深递归),模型为 Hairball,三角形规模 2.88 百万,分辨率为 2560x1600。
NVIDIA RTX 3060 Ti 的速度为 40fps
AMD RADEON 6700 XT 的速度为 4.2fps
9、目前没有看出 128MiB Infinity Cache 在光线追踪方面给 AMD RX 6000 带来什么实际的性能好处,虽然很多人都说这么大的 Cache 有助于 BVH 访问。
过去有许多尝试过支持非三角形加速的硬件,包括 NVIDIA 自己曾经“支持”过的硬件 RT-Patch 全都折戟沉沙(实际上对绝大多数人来说,RT-Patch 连冒泡的机会都没有)。
采用三角形或者说多边形有多种好处,例如美工可以在建模软件中使用大量多边形来建模,然后生成三角形规模低几个量级的游戏用模型。
UE5 的 Lumen 的软件光线追踪会基于 SDF,但是它仍将支持硬件光线追踪,硬件光线追踪能提供更多的几何体类型支持,例如支持对蒙皮网络的射线追踪,此外由于硬件光线的求交是对实际的三角形执行而非软件光线追踪那样使用低品质的表面缓存数据上,因此在 Lumen 里硬件光线追踪的品质会更高。
简单来说,RT Core 是目前最好的硬件光线追踪实现,RA 可以视作为 RT Core 的子集,AMD 在这点上仍然处于追随者的地位,原因其实很简单——对 GPU 来说,集成新的固定功能单元风险非常高,AMD 不打算冒险作改动。
接下来让我们看看实际的游戏表现吧。
测试平台
CPU:AMD Ryzen 7 5800X BIOS 强制全核锁频 4.5GHz
主板:华硕 ROG Strix X570-E Gaming
内存:TT ToughRAM DDR4-3600 8GB * 4
电源:TT ToughPower PF1 850W Premium Edition
软件环境:微软 Windows 10 20H2 x64
驱动版本:466.61
由于手头的显示器是戴尔 U2413,只支持 1920x1200,因此我这里的 2560x1440、3840x2160 分辨率都是 DSR 实现的,由于 DSR 输出的时候会做一个高斯取样缩小处理,会比原生分辨率额外增加大约 7% 的性能开销,请大家注意。
测试说明:
测试数据判读:
测试说明:
以 2560x1600 RT max DLSS off的设置运行游戏 Control 第一关从开始到清洁工人的过程, 时长 35 秒,使用 Rivatuner Statics Server获取显卡内建传感器信息。
测试时的室内环境温度为 30.1 摄氏度,未开空调,立式机箱打开侧板,机箱未启用任用机箱风扇,显卡风扇曲线保持原厂设定。
GeForce RTX 3070 Ti:
GeForce RTX 3070:
测试数据判读:
虽然耗电更高,但是由于 GeForce RTX 3070 Ti 采用了对流式散热设计,散热器比 RTX 3070 更强,因此在温度表现方面两者比较接近,GeForce RTX 3070 Ti 增加的耗电主要源自于 GDDR6X。
从实际测试结果来看,RTX 3070 Ti 的表现比之前的 GeForce RTX 3070 只是高了大约 10%,这说明 GA104 这枚芯片可挖的潜力已经挖掘殆尽,GDDR6X 带来的 36% 额外内存带宽对于 GPU 性能限制帮助不是很大。
全新设计的散热器源自 RTX 3080 的思路,采用了对流式设计,对于缓解额外的功耗有较大的帮助。
AMD 这边的 FSR 值得期待,但是不用抱太大希望,毕竟它在实现技术上还是比较原始的阶段,不可能抗击 NVIDIA 的 DLSS 2.0,而 DLSS 2.0 的游戏阵列已经比较强大,像荒野大镖客 2 也即将引入 DLSS 2.0。
锁矿对于这片显卡的最终受众——游戏玩家是有帮助的,以目前低迷的币价以及RTX 3070 Ti 额外的功耗,对矿老板们来说都是非常不友好的,据闻整机厂商方面也较多,因此我预期 RTX 3070 Ti 仍然是比较容易入手的(相对 RTX 3070 而言),当然,4499 的价位应该是比较难实现的,溢价 10% 的可能性比较高。
RTX 30 的新品发布已经告一段落了,接下来期待的应该是下一代显卡了吧。
页面更新:2024-03-14
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号