大部分玩家买显卡之前都会看看天梯榜,不过由于每次新卡出来测试的时候驱动不一样、平台不一样,会导致不同时间的测试结果都拿在一起比较的话会稍微有些不严谨,尽管仍然能反映出不同显卡的排名等等,但是我们的读者都知道我们的天梯榜单并不仅仅是排名,而是非常量化的数据。
所以这样累计下来难免会与当下的实情略有差异,故而在本世代显卡的英伟达安培架构显卡家族与AMD RDNA 2架构显卡家族接近尾声的时间点,我们将这些显卡在同一个驱动、同一个平台下进行一次横评。
这样既是为这一代之争做个总结,也是为近期需要购买显卡的朋友做个参考,毕竟下一代显卡面临高端卡功耗奇高以及中低端卡仍需时日发布的问题,还是有不少人会在当下节点选择这一代显卡的,最后本次横评也用来顺便校准一下我们的显卡天梯榜使之更为准确。由于我们的天梯榜数据是以传统光栅化游戏性能为参考的,所以这次游戏测试只比较传统光栅化游戏性能,而之后会针对N卡最新一代GPU再出一篇光线追踪游戏性能的横评。
NVIDIA Ampere架构简介SM单元的进化
RTX 30系显卡上的SM单元相比RTX 20系的,最大变化是加倍了针对传统计算的FP32单元、引入第二代RT Core以及第三代Tensor Core。
大家都知道在Turing架构中,NVIDIA整数型(INT32)和单精度浮点型(FP32)两种不同的数据类型交给两种不同的ALU进行计算。不过现代游戏应用中最为常见的还是FP32,因此为了提高计算效率NVIDIA在NVIDIA Ampere 架构上引入了可同时支持INT32或FP32两种数据类型的新ALU。也就是说2021年显卡性能排名,现在有两条不同的数据路径,一条能够同时处理整数或者单精度浮点,另一条则单纯处理单精度浮点计算。
负责进行实时光线追踪运算的专用硬件单元RT Core在NVIDIA Ampere 架构上也更新到了第二代,最主要是增加了动态模糊的加速运算支持。NVIDIA在其中新加入的插值算法可以在保证动态模糊精确性的同时提高了实时光线追踪效率,官方表示最高可达8倍于上代的速度。另外在基础的BVH计算上,第二代RT Core也可以比第一代快2倍。
Tensor Core这个负责运行AI计算的硬件单元在NVIDIA Ampere 架构上也升级到了第三代。其实之前发布的A100计算卡上已经用上了新的第三代Tensor Core,它能够提供比第二代Tensor Core高出4倍的效能,不过游戏卡上面的Tensor Core进行了一定的精简,其FP16 FMA计算的吞吐量只有GA100核心中的Tensor Core的一半。
而第三代Tensor Core带来的更强劲AI运算有些什么用呢? 答案就是DLSS。DLSS的全称是Deep Learning Super Sampling,翻译成中文就是深度学习超级采样,它的作用是通过降低游戏内的渲染分辨率,同时以拉伸来提高显示分辨率,例如1080P的渲染分辨率以及4K(2160P)的显示分辨率,来达成提升帧数的目的。
此外,将不同类型的计算交给不同的单元去处理是从NVIDIA Volta架构就开始采纳的一种理念,当时引入的Tensor Core分流了很多AI相关的运算,而在其后引入的RT Core又将实时光线追踪相关的计算给分流了。但在Turing架构GPU上做不到全部运算都能够并行执行,到了Ampere架构上,NVIDIA提升了GPU内部各种单元之间的并行性,现在传统计算单元、RT Core和Tensor Core这三大单元可以同时工作,在原本基础上继续缩短帧渲染时间。
再之后就是HDMI 2.1这个备受期待的新输出端口了。在HDMI 2.1之下,显卡可以用单线材做到8K60Hz或者4K120Hz的输出。对于想用大尺寸电视打游戏的玩家来说是一个不错的福音。
NVIDIA Reflex
伴随RTX 30系显卡一同发布的,有一个对于电竞游戏,或者更仔细地说对于电竞选手来说很重要的新东西,那就是NVIDIA Reflex。那么这个NVIDIA Reflex到底是什么东西呢?其实它是分为两部分的,一部分是硬件,一部分是软件。
硬件部分是Reflex Latency Analyzer,它其实可以视作为LDAT的一个进阶版本,是直接预安装在显示器里的,可以用来测量玩家从点击鼠标直到画面出现变化之间的时间差,也就是整套系统的所有延迟。
而软件部分则是NVIDIA Reflex SDK。这个NVIDIA Reflex SDK的作用是降低以及测量渲染延迟的,开发者可以直接整合到游戏内。而在开启其低延迟模式后,可以让CPU与显卡同步,大幅度减少渲染序列,从而降低渲染延迟。
AMD RDNA 2架构简介三大改进点
RDNA 2架构三大改进点:
· 高频率设计:RDNA 2架构相比RDNA 1架构实现了同功耗下30%的MAX频率提升;
· 无限缓存设计:可以消除带宽瓶颈,极大的提升了等效带宽并降低功耗,有助于提升能耗比;
· 支持DX12U、DS API:紧随时代潮流,让A卡支持光追等高级API特性。
RDNA 2架构是一个强大的游戏架构,相比RDNA 1代架构主要有三个大改进。首先AMD在RDNA 2上实现了突破性的高频率设计,在拥有高频率的同时维持较好的能耗表现。其次AMD专门为RDNA 2研发了革命性的AMD Infinity Cache无限缓存技术,无限缓存在提供非常可观的等效带宽的同时还更节能,能耗表现更上一层楼。第三个改进点就是支持了DX12 Ultimate的高级特性,包括DXR、DirectStorage等API,让AMD的显卡也加入到支持DX12 Ultimate的大家族中。
先来看频率改进,RDNA 2实现了突破性的高频率设计,虽然与RDNA都是相同的7nm制程工艺但是进步巨大(到了RX 6500 XT和RX 6400还进一步升级了制程,采用6nm制程,是台积电7nm的改进版)。通过这张图表我们可以看到,以每个计算单元CU为例RDNA 2架构实现了相同功耗30%的频率提升,而如果是相同的频率则功耗只有RDNA的一半还少一些,也就是能耗比提升50%以上。
RDNA 2上AMD发明了全新的无限缓存技术, RDNA 2通过“无限缓存”大带宽、低功耗的帮助实现了IPC的提升、同时提高工作频率,完成每个时钟指令的功耗也下降明显。
RDNA 2架构上第三个改进点就是支持更多的高级特性。AMD在RDNA 2上终于全面支持了DirectX 12 Ultimate、DirectStorage API等高级特性,让A卡也可以使用诸如DirectX光线追踪、可变速率着色、网格着色器、采样器反馈等技术。
FSR技术的加入
在RX 6700 XT和Radeon RX 6500 XT发布之间的这段时间,FSR技术终于落地,AMD FSR技术是通过超分辨率来达到拉伸画面,再加上锐化,从而达到提高帧数之余又可以保持不错画面质量的目的,对标的是英伟达的DLSS技术。
AMD FSR总共有超高质量(Ultra Quality)、质量(Quality)、平衡(Balance)以及性能(Performance)这几个模式。这4个模式相对应的,就是4个不同的拉伸分辨率。以4K(2160P)为例,性能模式的输入分辨率是1080P,平衡模式是1270P,质量是1440P,而超高质量则是1662P。对于定位入门级的显卡来说,FSR技术的加持尤其重要,可以帮助用户获得更好的游戏体验。
测试平台与说明
我们的测试平台是基于酷睿i9-12900K搭建,尽量减少CPU瓶颈,显卡选择方面包括所有的NVIDIA的Ampere架构桌面显卡以及AMD这边的所有RDNA 2架构桌面显卡,一共是21张。
收集显卡不易,我们优先选用公版显卡或者公版频率的显卡进行测试,其中N卡方面GeForce RTX 3060 Ti到GeForce RTX 3090之间,除了GeForce RTX 3080 12GB这一款是用的一张索泰GeForce RTX 3080-12G6X PGF OC显卡之外,其他都是公版显卡,GeForce RTX 3050和GeForce RTX 3060本来就没有公版卡,这两个型号我们都收集到了影驰的金属大师Mini显卡,最后对于GeForce RTX 3090 Ti,用的是一张影驰GeForce RTX 3090 Ti名人堂超频实验室限量版。
AMD显卡方面,除了Radeon RX 6950 XT是一张技嘉Radeon RX 6950 XT GAMING OC 16G显卡之外,其他都是XFX讯景的显卡,大多也是OC版显卡,所以频率相对更高,代表的性能也更好,总得来说AMD这边的代表显卡可能平均有优势一点。
测试方面笔者将通过3DMark理论性能测试、实际游戏测试以及功耗测试三个主要方面进行测试。其中实际游戏测试的情况有必要说明一下,起初打算的是分三个分辨率,然后将所有显卡都分别在三个分辨率下进行实测。
不过这样会导致两个问题,一是低端入门级显卡跑4K分辨率的话会出现极低的帧数,不仅没有实际意义而且极低的帧数会导致误差较大,不能准确的体现出与其他显卡的性能差距;二是高端显卡比如GeForce RTX 3090 Ti跑1080p分辨率的话,由于CPU的瓶颈,也不能正确的体现出与入门级显卡的性能差距。
所以本着购买显卡时正确选择显卡的思路——先确定需要什么分辨率的游戏环境,再在一定范围内选择显卡——本次实际游戏测试部分会将显卡分为三组,分别是面向1080p游戏环境的、面向2K分辨率游戏环境的以及面向4K分辨率游戏环境的。
然后在各种定位的卡只跑其目标分辨率的基础上,将更高一级目标分辨率的显卡中性能最低的一张也参加降一级的分辨率游戏测试,这样就可以以此为锚最后将所有21张显卡的性能准确的统一反映出来。另外,再次强调一下,我们的天梯榜数据是以传统光栅化游戏性能为参考的,所以这里的游戏测试只比较传统光栅化游戏性能。
3DMark理论性能测试
我们以3DMark作为显卡基准性能测试,测试项目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme以及Port Royal六个项目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三个项目分别测试的是显卡在DX11游戏中的1080p分辨率、2K分辨率和4K分辨率下的性能指数,Time Spy、Time Spy Extreme两个项目则是显卡在DX12游戏中的2K分辨率和4K分辨率下的性能指数,Port Royal是测试的显卡实时光线追踪的性能指数,具体成绩见下表, 表中所列成绩均为3DMark显卡单项的得分。
3DMark基准测试结果主要反映了这么几个情况:一是对于DX11 API来说,竞品之间A卡表现更好,对于DX12 API来说,竞品之间N卡表现更好,说简单点就是A卡玩老游戏比较占优势,而N卡对于新游戏比较占优势;二是就光追性能来说,N卡这边完全是大大的领先,说简单点就是如果看重光追性能的话无脑选N卡就是了,另外光追性能方面由于显存太小以及本身芯片性能羸弱,Radeon RX 6400和Radeon RX 6500 XT这两者卡的光追性能对于游戏应用来说几乎等于没有。
实际游戏性能测试
游戏画质设置为预设里面的最高画质,不开启光线追踪,也不开FSR和DLSS,此外默认不是全屏的手动改为全屏2021年显卡性能排名,默认开启了垂直同步的手动关闭垂直同步,除此之外其他选项均为默认设置,均采用游戏自带的Benchmark输出结果。
游戏的选择方面,涵盖了代表最新单机大作类的游戏比如《看门狗:军团》、《极限竞速:地平线5》这样的,也有代表网络游戏类的比如《最终幻想14》、《战争雷霆》这样的,还有代表了较老一代的单机游戏比如《孤岛惊魂5》、《极限竞速:地平线4》这样的,以覆盖玩家玩不同游戏的情况。
1080P分辨率
面向1080P分辨率游戏环境的显卡中A卡主要是Radeon RX 6650 XT及以下的显卡,N卡主要是GeForce RTX 3050和GeForce RTX 3060,这里还加入了一张GeForce RTX 3060 Ti来对比。
Radeon RX 6400和Radeon RX 6500 XT这两张显卡与其他卡有很大的差距,这两张卡要想有较完美的游戏体验,那么只能玩网络游戏类了,比如《最终幻想14》中Radeon RX 6400和Radeon RX 6500 XT分别可以达到70帧和97帧。对于压力较大的最新单机大作则很难有较好的体验,比如《看门狗:军团》中Radeon RX 6400和Radeon RX 6500 XT分别仅为24帧和34帧,在《极限竞速:地平线5》中更是分别只有23帧和24帧。
不过对于这中间的一些游戏,比如较老的、对配置要求不高单机大作,他们有的也能有较好的游戏体验,比如《孤岛惊魂5》中Radeon RX 6400和Radeon RX 6500 XT分别也可以达到63帧和84帧。其实这两张卡最主要的问题还是显存太小,4GB的显存放在如今确实太捉襟见肘了。
其他的几张卡相对来说差距就没有那么大了,不过GeForce RTX 3050还是可以单独拿出来分为一档,GeForce RTX 3050除了压力较大的最新单机大作难以有完美的体验之外(比如《看门狗:军团》47帧),大部分游戏还是可以很流畅的以最高画质运行的。
而如果想在1080p分辨率下普遍有较好的游戏体验,那么N卡还是起码GeForce RTX 3060吧,A卡则起码是Radeon RX 6600。
2K分辨率
面向1440P也就是2K分辨率游戏环境的显卡中A卡主要是Radeon RX 6700 XT及Radeon RX 6750 XT这两张,N卡主要是GeForce RTX 3060 Ti到GeForce RTX 3070 Ti这三张,这里还加入了一张Radeon RX 6800来对比。
在1440P也就是2K分辨率这块市场下,这些卡的差距相比1080p分辨率下小了很多(除了拿来对比的Radeon RX 6800这张4K守门员),尽管不同游戏中显卡的性能表现排序稍有不同,但是普遍来说GeForce RTX 3060 Ti是最低的,而即使是最低的GeForce RTX 3060 Ti也在所有游戏中都至少取得了60帧以上的帧数,最低的帧数是61.7帧,来自《全面战争:三国》这款游戏,而其他的卡更是可以无压力的畅玩2K分辨率。
4K分辨率
面向4K分辨率游戏环境的显卡中A卡主要是Radeon RX 6800及以上的显卡,N卡主要是GeForce RTX 3080及以上的显卡。
说起来,统计的时候才发现4K分辨率的市场是发布型号最多的一块市场,这让我不怀好意的想是不是因为这个市场的附加值最高,所以各家都推出较多型号来增加消费者的选择成本,来赚取更多的消费者剩余。
当然,也可以往好处想就是这个市场如果型号少的话,价格跳跃就太大,往好了说是让这一档中各种预算的消费者都可以买到预算相近的产品,但是说白了也是尽量的榨取消费者剩余。当然,这都是题外话了。
4K分辨率下Radeon RX 6800和GeForce RTX 3090 Ti这两张是要单独拉出来的,这两张是明显与其他卡差距较大的两张。Radeon RX 6800在每一个游戏的表现中都是这部分性能最低的,然而它并不能满足这部分的所有4K分辨率下的游戏都有超过60帧的流畅度,比如《看门狗:军团》仅有47帧,《全面战争:三国》更是只有37.9帧,考虑到这样的成绩,如果打算体验4K游戏的话,Radeon RX 6800我是比较不推荐的。
GeForce RTX 3090 Ti在这部分的表现很亮眼,它在很多游戏中都相比仅次于它的第二名有超过10%的领先,与其他显卡之间微弱差距的情况相比,有点鹤立鸡群的感觉,不过这张卡一定程度上算是英伟达炫技的产品,因为它实在售价太高昂了。
实际游戏性能指数
将以上的游戏实测结果汇总之后,就可以得到这21张显卡之间相对的性能幅度了,同天梯榜一样,这里将最强的GeForce RTX 3090 Ti定位参考标准100%,可以看到性能最低的Radeon RX 6400仅有其16.6%的性能,最强与最弱之间差距达到了6倍多。而Radeon RX 6800这张卡虽然AMD是宣传为面向4K游戏环境的,但是个人觉得还是把它定位在面向2K游戏环境的得了吧,它与其他4K梯队的差距太远了。
功耗测试
通过我们手中的PCAT套件,可以分别精确地测量显卡PCI-E、外接电源接口瓦特数,显卡最大功耗在3DMark Time Spy压力测试中获得。
参测显卡的功耗实测如上,不过需要注意的是,由于参测显卡有公版频率方案的和OC版的显卡,其实并不适合代表芯片型号之间的差距,这里列出来只是给大家看看。
同时笔者也汇总了这些型号的官方标称的TGP/TBP,一般来说采用公版频率方案的“丐版”非公显卡实测会是这个功耗左右。
能耗比排行
为了尽可能准确,这里能耗比的计算采用的功耗都是官方标称的TGP/TBP,而性能则取自于前面汇总的实际游戏性能指数,总得来说,由于A卡方面几乎都是OC版显卡,所以这样计算的结果对于大部分A卡是有利的,不过如果采用实测功耗则会更加不准确,所以也没办法了,而且对于A卡内部的比较,这个计算还是很有参考性的。
相比较绝对性能的新高度来说,笔者更看重能耗比的进步,认为能耗比高低是比性能高低更能体现一款显卡是否更先进的标志(以实际发售的性能和功耗值,不谈以极低功耗换取高能耗比的方法),因为对于大多数用户来说,绝对性能提升到新高度意义不大,因为那些高端显卡实在太贵了,但是新的架构换来的能耗比提升却是可以收益的。
从能耗比方面可以看到,表现最好的一款型号是Radeon RX 6600,而这在笔者当时首发测试的时候就提到过了——“Radeon RX 6600给我印象最深的是其亮眼的能耗比表现,要知道GeForce RTX 3060可是170W的整卡功耗,Radeon RX 6600在仅有其77%的功耗下可以在传统光栅化游戏中达到与GeForce RTX 3060非常相近的游戏表现,凭这一点来说,可以认为针对传统光栅化游戏来说Radeon RX 6600是比GeForce RTX 3060更先进的显卡。”
所以如果你看重能耗比表现,Radeon RX 6600其实是一个非常好的型号。Radeon RX 6400虽然能耗比也几乎一般好,但是Radeon RX 6400性能太差,实用性大大降低,就主流级显卡来说,Radeon RX 6600这款型号确实挺不错的。当然,前提是你不看重光追性能,还是最前面就说过的,如果看重光追性能表现,同样的预算选择N卡才是对的。
说到N卡的话,N卡方面能耗比最好的就是GeForce RTX 3070这个型号了,属于中高端型号,跟Radeon RX 6600不在一个市场区间,其实这样的结果对于消费者挺好的,也就是说如果你预算有限的话,就别追求什么光追这种极致的画面体验了,一张Radeon RX 6600其实挺合适的。而如果你追求光追体验的话,那么建议至少以一套中高端的平台来避免整个游戏体验有短板,所以预算也建议中高级别,这样的话GeForce RTX 3070就挺合适这部分玩家的,这两个型号算是笔者比较推荐的两个型号了,刚好一个N卡一个A卡,一个主流档、一个中高档,其实应该这就覆盖了绝大部分游戏群体了。
性价比
最后,笔者搜集了近期电商平台上各款型号显卡的最低的典型价格,这里统计的是最低价格所以就没管什么品牌和频率了,价格方面可以看到以Radeon RX 6400为基准的话,最贵的GeForce RTX 3090 Ti是它的10.9倍,跨度可以说很大了,而其实从Radeon RX 6400到GeForce RTX 3080 Ti之间的那么多显卡价格依次增幅还不算很大,而Radeon RX 6950 XT、GeForce RTX 3090和GeForce RTX 3090 Ti这三张则是突然就贵的离谱。
我们对于性价比的计算公式定为:性能 1.3 /价格 0.9 *500+10。从结果可以看到A卡表现非常亮眼,占据了前三甲,不过这也是因为本次性能方面只关注了传统光栅化性能的原因。
这里要强调一下的是,不同与能耗比的测试结果,性价比受制于价格的波动在不同时间点可能会出现不一样的结果,读者参考的同时建议主要关注当下的价格来自己计算确认一下更好。
总结及购买建议
时间至此,关于本世代显卡的英伟达安培架构显卡家族与AMD RDNA 2架构显卡家族的战争算是落下帷幕了,这篇文章其实就算是给这两年之争做的一个总结。总得来说,目前英伟达还是处在明显的领先地位,而AMD通过合适的产品和价格定位在入门及主流档附近形成了不错的差异化竞争,这个大体形势和之前可以说是一样——也就是说入门及主流档选A卡,中高端及高端显卡选N卡。
具体的话,建议还是根据自己期望的游戏分辨率的环境来选择显卡,如果是1080p分辨率的话,Radeon RX 6600是笔者最建议的一张显卡,考虑到目标人群的基数,综合上性能、价格、能耗比表现,这张卡也是笔者认为这一代显卡中最优秀的一张显卡,而且性能低于Radeon RX 6600的显卡型号除了有特殊需求,否则笔者也不太建议购买,Radeon RX 6600算是这一代独显的起步门槛。
2K分辨率的话,最推荐的是GeForce RTX 3060 Ti或者GeForce RTX 3070,根据预算选择其中之一就好,如果实在纠结,或者预算模糊,我更加推荐GeForce RTX 3070,因为GeForce RTX 3060 Ti相比较来说性能还是与Radeon RX 6600差距不够大,有点不上不下的感觉,而GeForce RTX 3070综合来说是2K分辨率解决方案中最好的一张,性能足够支撑的起来,而且能耗比排名N卡第一。
4K分辨率的话,我比较推荐GeForce RTX 3080 12GB或者GeForce RTX 3080 Ti,推荐GeForce RTX 3080 12GB算是较多的还是考虑到性价比的原因,而GeForce RTX 3080 Ti则是综合了性能表现和价格。
最后,根据本次的测试结果,我们也相应的修正了一下我们的显卡天梯榜,使得其与实际情况更加相符。如果以上的购买建议不能解决你的问题,也欢迎参考我们的显卡天梯榜选择适合自己需求的显卡。
关于这些显卡的光追性能对比,请留意我们接下来的测试。
超能网公众号