中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试报告

换个活法——GeForce RTX 3070 Ti

NVIDIA 在 6 月 2 日正式发布了两款 Ti 后缀的显卡：GeForce RTX 3080 Ti 和 GeForce RTX 3070 Ti，我们前几天之前已经发表了前者的测试报告。

该卡以 8999 元的定价提供了接近 GeForce RTX 3090 的性能，对于已经“饿了”半年的显卡市场来说无疑是一个不错的选择，市场上的 RTX 3080 Ti 实际价格其实已经站到了 11000~12000 的区间。

当然，即使是 8999 能买到，对于许多游戏玩家来说依然是超出预算的，他们更希望的是多一些类似 RTX 3070 价格线的产品，而这次发布的 RTX 3070 Ti 则可以满足他们的需求，4499 元的定价在目前来说已经是比较适宜的价位了。

和去年发布的 RTX 3070 相比，这次的 RTX 3070 Ti 有三个明显的区别点：

引入了 LHR 锁矿，主流的以太坊算力减半，目的是保护 NVIDIA 的游戏卡生态；
引入了 GDDR6X 内存，解锁内存带宽瓶颈；
开启了更多的计算单元，提供更强的游戏性能。

当然，不同的人对上述三点的排序也许会不一样，但是我还是倾向于上面的样子，因为过去半年里，游戏玩家饱受挖矿之苦，他们中的大多数都退而求其次成为核显党、亮机党，只要 LHR 能重建健康的游戏卡生态就比什么都更重要了。

GeForce RTX 3070 Ti FE实物

GeForce RTX 3070 Ti FE 版的设计语言和 RTX 3080 Ti FE 高度相似，采用了和 RTX 3080 Ti FE/RTX 3080 一样的右侧风扇背置设计，此时左侧风扇的风往里吹，而右侧背置的风扇往外吹，两个风扇的风道各行各道，降低了传统设计中显卡热流叠加的问题。

按照当初 RTX 3080 发布时候的资料，和 RTX 2080 Ti 相比，新设计在同样功率（320W）下能降低 20 摄氏度以及 10 分贝噪音）。

和 GeForce RTX 3070 相比，GeForce RTX 3070 Ti 在性能上的最大变化源自采用了 GDDR6X 内存，凭借 19Gbps 的单引脚传输速率，现在 GeForce RTX 3070 Ti 的内存带宽高达 608GiB/s，比之前的 GeForce RTX 3070 高了大约 36%。

GeForce RTX 3070 Ti 的内核规模增加了4%（从 46 个 SM 增加到 48 个），这样的增幅理论上只能带来 4% 的提升，但是结合前面提到的 34% 内存带宽提升，最终和 GeForce RTX 3070 相比 GeForce RTX 3070 Ti 能达到大约 10% 的提升。

最后就是挖矿算力限制部分，英伟达自 GeForce RTX 3060 开始引入挖矿限制，到了 5 月份中旬全线产品都转换为锁矿版本，GeForce RTX 3070 Ti 自然也免不了这一刀。

正如我以前一直所说的那样，锁矿对 NVIDIA、游戏玩家来说是多赢的设定，NVIDIA 在确保游戏卡生态正常发展的同时，依然可以让自己有更亮眼财报，而挖矿导致的缺卡问题也大为减少，玩家们的抱怨将因此而大大降低。

从我目前的挖矿体验来看，RTX 3070 Ti 是一块以太坊友好度较低的产品，它的算力在最优化的情况下可以做到 43MH/s，但是此时的耗电会高达 145 瓦，相比之下，RTX 3070 可以做到 61MH/s @ 116 瓦。

这意味着 RTX 3070 Ti 的每瓦算力从 RTX 3070 的 0.53 MH/s 降低到了 0.3 MH/s，在币价较高的情况下，RTX 3070 Ti 也许可以提供一定收益，但是出现矿难的情况，RTX 3070 Ti 关机比价会提前不少，而且由于算力较低，RTX 3070 Ti 的回本周期也会大为延长，最终如果想购买 RTX 3070 Ti 挖矿的话亏本风险会高许多。

谈一下 DLSS 和光线追踪

首先是 DLSS。

DLSS 是 NVIDIA 在 RTX 20 系列发布时候开始引入的画面重构技术，全称是 DEEP LEARNING SUPER-SAMPLING（深度学习超采样）。

最初版本的 DLSS 或者说 DLSS 1.0 是基于特定游戏预训练网络数据的超分辨率技术，加上是纯空间域（与前后帧无关），因此其效果是差强人意的。

到了 DLSS 2.0，NVIDIA 采用了通用（而非特定游戏）的预训练网络数据，并且结合了时间域信息（纳入了前后帧数据），使得超分辨率的画质非常出色。

在 DLSS 1.0 和 DLSS 2.0 之间还存在一个被称作“DLSS 1.9”的实现，该技术据我所知只有 Control 采用。它实际上是纯 CUDA Core 执行，结合了时间采样，没有采用预训练的神经网络作推理，当时的效果比 DLSS 1.0 更好一些。在不久后，随着 DLSS 2.0 的发布，Control 就升级到了效果好很多的 DLSS 2.0。

有些人认为 DLSS 1.9 是 DLSS 2.0 的原型，这也许有一定的道理，例如采用了时间采样，但是从画质差别来看，DLSS 2.0 相当于另一个新世界。

DLSS 2.0 除了画质非常出色、支持更灵活的渲染分辨率（例如支持 4 倍分辨率，而 DLSS 1.0 只能支持两倍）外，更重要的一点是它可以更容易集成到游戏开发流程中，例如现在 UE4 已经集成了 DLSS 2.0，DLSS 2.0 现在对 UE4 游戏开发人员来说就是一个开关。

当然，不同的游戏可能还需要一些微调，例如光线追踪的降噪处理引入了 TAA 来做的话，则需要将 TAA 前移到 DLSS 2.0 之前，简单来说，就是需要注意在渲染流水线中 DLSS 2.0 执行的位置，这是因为 DLSS 2.0 引入了时间域的采样。

在 RTX 30 发布的时候，NVIDIA 还趁势推出了 DLSS 2.1，其实就是 DLSS 2.0 基础上引入了 8K 和 VR 支持，目前没有关于 DLSS 会有大版本更新的消息。

DLSS 2.0 提供了多种画质设置，分别有品质（Quality）、平衡（Balance）、性能（Performance）、超高性能（Ultra Performance），根据我在游戏 Death Stranding 中的对比来看，Performance 模式的纹理细节度要比 Quality 好一些，但是边缘过渡渐变方面 Quality 会好些，考虑到 Performance 提供了更好的性能，我觉得 Performance 是 DLSS 2.0 中最推荐的模式。

左：2560x1440 DLSS 2.0 Performance，纹理细节度更好；右：2560x1440 DLSS 2.0 Quality，边缘抗锯齿过渡更好，这里使用了 8 倍放大

当我们说DLSS 2.0 在某些情况下画质会高于原生高分辨，这个“某些情况”一般是指游戏在原生高分辨设置下启用 TAA（时间抗锯齿）时候的情况：

左：2560x1440 DLSS 2.0 Performance，纹理细节度更好；右：本机 2560x1440 开启 TAA，边缘抗锯齿过渡更好

左：2560x1440 DLSS 2.0 Performance，边缘过渡好很多；右：本机 2560x1600，纹理细节好点

没有一项技术是完美的，但是 DLSS 2.0 的确在性能和画质上做到了非常好的平衡。

提起 DLSS，绕不开的话题自然是 AMD 的 FSR。

FSR 是 AMD 6 月 2 日发布的超分辨率技术，定于 6 月 22 日正式上线，目前已知的有 Godfall 等 5 个游戏支持该技术。

按照 AMD 的说法，FSR 1.0 是一个纯空间域的超分辨率技术，这点和 DLSS 1.0 是类似的，但是，FSR 也没有采用任何深度学习训练网络，因此它目前公开的视频里，画质表现似乎并不理想（有些人认为比 DLSS 1.0 还糟糕，我对此有保留，但是可以肯定的是无法和 DLSS 2.0 相提并论）。

常见超分辨率实现方式分类：

	纯空间采样	空间采样+时间采样
未采用深度学习	AMD FSR/显示器插值	Control DLSS 1.9/TAAU
采用深度学习	DLSS 1.0	DLSS 2.X

毫无疑问 FSR 也会演进，例如明年第四季度集成 Matrix Core（等效 NVIDIA 的 Tensor Core） RDNA 3 问世的时候，基于深度学习的 FSR 2.X（纯属个人假设）有机会和 DLSS 2.0 真正抗衡，但是在此之前，FSR 恐怕只是一个实用性相对 DLSS 2.0 较低的技术。

对真·图灵（集成了 RT Core 和 Tensor Core 的图灵 GPU）和安培显卡用户来说，DLSS 2.0 能达到的效果就是相当于提前使用上下一代显卡。

再说说光线追踪的情况

相对于铺天盖地的宣传，关于光线追踪硬件加速的实现细节其实大家讨论的很少，这就导致了 N 粉和 A 粉在光线追踪问题上各说各话。

我将目前已知的双方光线追踪资料以及它们实现整理了一下：

NVIDIA 和 AMD 在硬件光线追踪上都提供了 DXR 和 Vulkan 支持；
DXR 1.0 要求 GPU 提供 31 级递归支持，DXR 1.1 去掉了递归支持，改为迭代；
Vulkan 光线追踪对递归的最低要求是 1 级，NVIDIA Vulkan 驱动提供了 31 级支持，AMD Vulkan 驱动是 1 级；
NVIDIA 的硬件光线追踪单元或者说 RT Core 目前已经演进到第二代（安培），和第一代（图灵）相比，第二代 RT Core 支持“光线追踪+着色渲染+深度学习”并发执行，第一代只能“光线追踪+着色渲染”，这意味着在安培架构上，光线追踪加速和着色渲染以及 DLSS 可以一起执行。
AMD 的光线加速器或者说 Ray Accelerator 支持光线追踪加着色渲染并发执行，但是由于没有等效 Tensor Core 的 Matrix Core，自然也不存在光线追踪+着色渲染+深度学习
NVIDIA RT Core 在进行光线或者射线多次反弹方面比 AMD Ray Accelerator 更具优势，场景中的三角形数量越多，RT Core 在多次反弹方面的性能就越明显，例如我之前做的 Hairball 路径跟踪测试，NVIDAI 3060 Ti 的速度就达到了 RX 6700 XT 的 10 倍。

我们使用一个 Path Tracer 进行了这方面的测试，射线反弹计算采用迭代或者说循环方式执行（非递归，A 卡 Vulkan 驱动不支持深递归），模型为 Hairball，三角形规模 2.88 百万，分辨率为 2560x1600。

NVIDIA RTX 3060 Ti 的速度为 40fps

AMD RADEON 6700 XT 的速度为 4.2fps

第二代 RT Core 的主要改进是提供了双倍的三角形射线求交测试/剔除能力，这使得 RTX 3090 能在一些三角形较多的场景中提供 RTX 2080 Ti 接近两倍的实际性能。
但是另一方面，在偏重过程化几何体的光线追踪场景中，RTX 2080 Ti 能达到接近 RTX 3080 的性能，而 AMD RX 6800 在偏重过程化几何体的光线追踪场景中可以做到优于 RTX 3090 的情况，当然在偏重三角形（更能代表实际游戏）的场景中，AMD RX 6000 明显低于 RTX 2000 系列，更不要说三角形求交能力倍增的 RTX 3000 了。

9、目前没有看出 128MiB Infinity Cache 在光线追踪方面给 AMD RX 6000 带来什么实际的性能好处，虽然很多人都说这么大的 Cache 有助于 BVH 访问。

目前无论是 RT Core 还是 RA，其设计的一些基本理念都是基于过去数十年被验证行之有效的，例如提供三角形求交加速而不是其他几何体形式，就是因为当前的绝大多数游戏都是基于三角形的，像采用 Voxel、SDF（例如 PS4 上的 Nex Machina）等都还是极个别游戏。

过去有许多尝试过支持非三角形加速的硬件，包括 NVIDIA 自己曾经“支持”过的硬件 RT-Patch 全都折戟沉沙（实际上对绝大多数人来说，RT-Patch 连冒泡的机会都没有）。

采用三角形或者说多边形有多种好处，例如美工可以在建模软件中使用大量多边形来建模，然后生成三角形规模低几个量级的游戏用模型。

UE5 的 Lumen 的软件光线追踪会基于 SDF，但是它仍将支持硬件光线追踪，硬件光线追踪能提供更多的几何体类型支持，例如支持对蒙皮网络的射线追踪，此外由于硬件光线的求交是对实际的三角形执行而非软件光线追踪那样使用低品质的表面缓存数据上，因此在 Lumen 里硬件光线追踪的品质会更高。

简单来说，RT Core 是目前最好的硬件光线追踪实现，RA 可以视作为 RT Core 的子集，AMD 在这点上仍然处于追随者的地位，原因其实很简单——对 GPU 来说，集成新的固定功能单元风险非常高，AMD 不打算冒险作改动。

接下来让我们看看实际的游戏表现吧。

游戏实测

测试平台

CPU：AMD Ryzen 7 5800X BIOS 强制全核锁频 4.5GHz

主板：华硕 ROG Strix X570-E Gaming

内存：TT ToughRAM DDR4-3600 8GB * 4

电源：TT ToughPower PF1 850W Premium Edition

软件环境：微软 Windows 10 20H2 x64

驱动版本：466.61

由于手头的显示器是戴尔 U2413，只支持 1920x1200，因此我这里的 2560x1440、3840x2160 分辨率都是 DSR 实现的，由于 DSR 输出的时候会做一个高斯取样缩小处理，会比原生分辨率额外增加大约 7% 的性能开销，请大家注意。

测试说明：

地铁离去增强版使用的是游戏内带官方基准测试；
刺客信条：英灵殿使用的是游戏内带官方基准测试；
Cyberpunk 2077 使用的是第一个救人任务出来后返回家中的过场（从女警官说“好吧”开始），时间长度为 100 秒，使用帧率采集工具采集；
Control 是使用帧率采集工具采集，位置是从新游戏开始的大厅跑到清洁工人，时间为 35 秒；
神陨使用的是游戏内带官方基准测试；
古墓丽影之暗影使用的是游戏内带官方基准测试；
荒野大镖客 2 使用的是游戏内带官方基准测试，开启 8X MSAA 和水面反射 8X MSAA。

测试数据判读：

GeForce RTX 3070 Ti 在大多数游戏中的表现比 RTX 3070 快大约 10%。
GeForce RTX 3070 Ti 比较适合 2560x1440 分辨率下以最高画质运行，4K 的话必须开启 DLSS。
由于显存容量只有 8GiB，在荒野大镖客 2 中两片 GA104 显卡都无法正常运行（此时的显存需求为 10.9 GiB），NVIDIA 在6 月 2 日已经宣布该游戏会引入 DLSS，我相信有了 DLSS 后 RTX 3070 Ti 可以在荒野大镖客 2 以最高画质流畅运行于 2.5K，至于 4K 表现如何则有待观察。

游戏温度及耗电

测试说明：

以 2560x1600 RT max DLSS off的设置运行游戏 Control 第一关从开始到清洁工人的过程，时长 35 秒，使用 Rivatuner Statics Server获取显卡内建传感器信息。

测试时的室内环境温度为 30.1 摄氏度，未开空调，立式机箱打开侧板，机箱未启用任用机箱风扇，显卡风扇曲线保持原厂设定。

GeForce RTX 3070 Ti：

GeForce RTX 3070：

测试数据判读：

RTX 3070 Ti 的耗电要比 RTX 3070 高大约 8%；
RTX 3070 Ti 的芯片平均温度要比 RTX 3070 低大约 1 摄氏度
RTX 3070 Ti FE 的 TDP 约束为 285 瓦，比 RTX 3070 高大约 60 瓦。

虽然耗电更高，但是由于 GeForce RTX 3070 Ti 采用了对流式散热设计，散热器比 RTX 3070 更强，因此在温度表现方面两者比较接近，GeForce RTX 3070 Ti 增加的耗电主要源自于 GDDR6X。

测试总结

从实际测试结果来看，RTX 3070 Ti 的表现比之前的 GeForce RTX 3070 只是高了大约 10%，这说明 GA104 这枚芯片可挖的潜力已经挖掘殆尽，GDDR6X 带来的 36% 额外内存带宽对于 GPU 性能限制帮助不是很大。

全新设计的散热器源自 RTX 3080 的思路，采用了对流式设计，对于缓解额外的功耗有较大的帮助。

AMD 这边的 FSR 值得期待，但是不用抱太大希望，毕竟它在实现技术上还是比较原始的阶段，不可能抗击 NVIDIA 的 DLSS 2.0，而 DLSS 2.0 的游戏阵列已经比较强大，像荒野大镖客 2 也即将引入 DLSS 2.0。

锁矿对于这片显卡的最终受众——游戏玩家是有帮助的，以目前低迷的币价以及RTX 3070 Ti 额外的功耗，对矿老板们来说都是非常不友好的，据闻整机厂商方面也较多，因此我预期 RTX 3070 Ti 仍然是比较容易入手的（相对 RTX 3070 而言），当然，4499 的价位应该是比较难实现的，溢价 10% 的可能性比较高。

RTX 30 的新品发布已经告一段落了，接下来期待的应该是下一代显卡了吧。

展开阅读全文

页面更新：2024-03-14

标签：安培递归显卡镖客角形几何体画质风扇光线测试报告深度分辨率性能硬件测试数码游戏

1 2 3 4 5

中端显卡终结者 GeForce RTX 3070 Ti FE 首发测试报告

换个活法——GeForce RTX 3070 Ti

GeForce RTX 3070 Ti FE实物

谈一下 DLSS 和光线追踪

游戏实测

游戏温度及耗电

测试总结

AMD 官方 BringUp 讲座新视频透露更多 V-Cache 细节

更强也更好抢 GeForce RTX 3080 Ti 首发测试

AMD 超分辨率技术 FSR 能扛起对抗 DLSS 的重担吗？

Intel 有望重启 Octane SSD 产品线，3.2TB 箭在弦上？

NVIDIA 似乎打算重新扛起 OpenCL 大旗

NVIDIA 与 AMD 加码超分辨率游戏支持数成关键

单芯片带宽将达 900 GB/s HBM3 内存研发积极推进中

单卡以太坊算力 164MH/s NVIDIA GA100 矿卡性能爆表

Intel Sapphire Rapids 处理器将集成 HBM2E 高速内存

PLC 闪存 SSD 面临重大技术挑战可能需五年后才能看到

神秘的 DLSS 2.2 让 DLSS 的画质有肉眼可见的改善

AMD FSR 游戏清单曝光其中一款同时支持 DLSS 和 FSR

尼康 Z 口 105mm 微距素质爆表价格出乎意料的亲民

尼康复古外观 Z 卡口新机将在本月 28 日发布

《Creed：Rise To Glory》全VR平台突破百万销量

更强也更好抢 GeForce RTX 3080 Ti 首发测试

AMD 超分辨率技术 FSR 能扛起对抗 DLSS 的重担吗？

NVIDIA 与 AMD 加码超分辨率游戏支持数成关键

单卡以太坊算力 164MH/s NVIDIA GA100 矿卡性能爆表

神秘的 DLSS 2.2 让 DLSS 的画质有肉眼可见的改善

AMD FSR 游戏清单曝光其中一款同时支持 DLSS 和 FSR

Quest 2游戏限时周年特卖，部分游戏可享7折或6折优惠

苹果空间音频引擎新专利曝光，将为VR游戏提供更真实音效

索尼公布PSVR上最多人玩的前五游戏，《Rec Room》位居榜

NVIDIA DLSS 游戏有多少个？这里有一份清单