RTX 5090 D显卡首测:卡皇换一种方式秀肌肉

500

在RTX 40系显卡发布快两年半之后,本月30号,RTX 5090D终于要上市了。

伴随着月初CES开幕式上老黄首次揭晓50系,全网都在讨论这张新显卡以及一同发布的DLSS 4。NVIDIA公布的数据里,DLSS 4能让一些游戏的帧数提升到8倍之多,不免让人担心在超高帧数背后,画面和延迟上支付的相应代价。

带着同样的疑问,我们对一张七彩虹的RTX 5090D Advanced进行了详细的测试,接下来就和大家分享一下几天测试的感受。

500

首先是大家最关心的显卡硬件方面。RTX 5090D采用了Blackwell的新架构。

全新的GB202芯片仍然使用了台积电4nm工艺,完整核心具备24576个CUDA,而RTX 5090D开放了其中21760个,基础频率2.01GHz,加速频率2.41GHz;它还搭载了第四代RT CORE(318 TFLOPS)和第五代Tensor Core(2375 AI TOPS),显存升级到了32GB GDDR7,具有512-bit的位宽和1792GB/sec的带宽。

这次硬件参数上的提升不算小,但和RTX 3090到RTX 4090的跨度相比又小了些。从NVIDIA公布的文件就能明白,新显卡的很多升级是在为AI铺路。虽然在参数上看不见摸不着,会被部分玩家揶揄为“战未来”,但在光追、材质纹理和图层上色等方面我们已经能看见它的成效——后文里会详细介绍。

500

GB202的架构

功耗方面RTX 5090D的TDP是575W,室温25度,单烤显卡半小时后的核心温度为70度,显存76度。散热基本上不是问题,只需要担心自己的电源是否还撑得住——因为这已经比很多电脑的整机功耗还大了。

500

后面的跑分测试环节,我们搭配的CPU是intel 13900K,内存为96GB DDR5 6400MHz。在3DMark基准测试下,RTX 5090D的分数对比RTX 4090D提升在40%左右,与CUDA核心的增量基本一致,证明了RTX 5090 D本身的强劲游戏性能。

500

同时在3D设计和渲染领域里,RTX 5090D在blender benchmark 4.3.0版本中的测试总分为15038.4,相较RTX 4090 D提升43%;RTX 5090 D在V-Ray 6.0中的得分则是15131 vpaths,比RTX 4090D高出38%。这基本代表了RTX 5090D在数字设计生产力方面的性能,有着中规中矩的性能提升。

500

放到实际的游戏中,RTX 5090D的综合表现基本可以用这一张图片来概括:

500

此次所有游戏的测试数据

《APEX》终于可以跑满4K 240帧;《地平线5》依然是超强优化,光追画质全开在不使用DLSS的情况下帧数都超过了200;其他游戏不开启DLSS的时候,游戏的帧数提升也基本与3DMark的测试结果一致。

即便用上了RTX 5090D,想要在所有3A大作里流畅体验光追全开的4K最高画质,DLSS仍旧必不可少。

《黑神话:悟空》作为新的“重点测试游戏”,在4K最高画质、光追全开且不使用DLSS超分辨率和帧生成时,只有32FPS。而在打开DLSS 3到性能模式,开启帧生成后,游戏帧数来到了132FPS,但游戏画面的细节会有比较明显的模糊。

500

相比之下,将画面调整为高画质、光追关闭能获得一个比较折中的游戏体验。光追对于《黑神话:悟空》的画面的加成其实并不多,高画质预设下的游戏画面也足够细致,接近90FPS已经是足够畅玩的设置了。

500

500

《黑神话:悟空》在各设置下的测试结果

相比之下,没有光追的《使命召唤:黑色行动6》最高画质的帧数91 FPS还算可以接受。而且在实际游戏里,我这样的PvP玩家都会把很多设置调低,不需要DLSS游戏也能十分流畅的运行。但如果一定要用最高画质游玩,那么开启DLSS超分到性能模式,体验也很不错,在画面几乎没有损失的情况下,帧数提升了70%。

500

开启超分后画面仍然锐利

500

COD21在各设置下的测试结果

然后就是重头戏DLSS 4的测试了。DLSS 4最重要的升级是DLSS多帧生成,以及为超分辨率、光线重建、DLAA引入Transformer模型,一个在生成式AI上被广泛使用的强大模型,从而进一步提升RTX20、30、40、50系显卡的DLSS性能体验。

对于超分辨率,新模型可以直接分析整个画面,精确找到画面变动的关键位置再进行分析计算,而不是和CNN一样将画面切块再卷积取平均后分析。所以新模型关联前后画面的能力才会远超CNN,生成的图像精度更高,也减少甚至避免了一些细小物体高速移动造成的频闪问题。

500

Transformer让超分辨率的效果大幅提升

Transformer模型也能分析画面中哪些区域的光线重建需要更多的样本,动态引导光追核心将有限的算力合理分配,达到更好的画面效果。

500

新旧光线重建的效果对比

此外,MFG多帧生成技术也是DLSS 4另一个重大提升的来源。

DLSS 3的帧生成,需要采集游戏中的运动向量和场景深度信息,经由显卡的光流加速器计算光流场来生成一帧;而DLSS 4的多帧生成不再需要光流加速器,而是用AI模型计算出光流,一帧原生渲染帧支持最多生成三帧。就算一次4X(1渲3)插帧需要5次模型运算,但也比之前的帧生成效果要好、延迟更低。

500

多帧生成的原理图

对于大家担心的多帧生成卡顿的问题,DLSS 4使用了新的Flip Metering硬件来应对。

它可以更合理地控制帧上屏的时机。此前的帧上屏的控制需要CPU处理,存在较大的误差,最终虽然帧数提升了,但实际游戏体验会感觉卡卡的;而新技术把上屏控制的权力交回给了GPU,接收到CPU每帧生成的指令后,显卡就不用再与CPU进行确认,可以自行控制帧间的间隔,从而令多帧显示平顺丝滑。

上面关于超分和光线重建的升级适用于所有RTX显卡,其中RTX 40系可以使用全新的DLSS 3帧生成模型,只是无法使用多帧生成,RTX 50系则可以使用全新的多帧生成模型。

500

这样说起来的话,在开启DLSS 4超分性能模式,多帧生成一渲三后,游戏平均每4帧画面只有1/4帧是原生的,那么画面里15/16的像素点内容其实都是由AI算出来的。

在几款已经有DLSS 4支持的游戏的测试数据里,可以看出在4K最高画质光追全开时,游戏开启DLSS 4多帧生成确实让帧数提升了3到8倍不等,又因为超分提高了原生帧的基础帧率,再加上Reflex技术,游戏延迟也都更低了。

在AI的帮助下,《赛博朋克2077》终于通过各种手段在4K最高画质光追全开下,跑到240以上的帧数了。

500

不过光是算得快没用,算得准对于游戏画面来说更加重要,我们也对开关DLSS前后的画面进行了对比。

首先是2077的三组对比,不得不说我被对比结果惊艳到了。尤其是第三张水面的倒影,超分后的画面甚至比原生还要清晰,这应该就是光线重建带来的增益。实际游玩时也很顺滑,对于一款单机游戏来说它的体验完全没问题。

500

500

500

右一的水洼倒影已经超越了原生画面

另外几款游戏的情况也基本相同,开启DLSS 4后画面均没有明显的变化,但帧数却得到了成倍的提升,游玩体验能好上不少。

500

500

但在一些细节——比如主角的纹身,在开启DLSS后会变得有些模糊,还有一些墙上的涂鸦和海报也有类似问题,但好在都不影响游玩的体验。

500

几番测试下来,DLSS 4比之DLSS 3的进步非常明显,而且能非常稳定地使用了。就算大部分像素都是“拼好帧”拼出来的,但新模型的超分辨率确实给游戏提供了更好的画质体验。

不过对于FPS电竞游戏来说,他们对画面延迟的要求会更高。

随着RTX 50系显卡的上市,此前用来降低延迟的Reflex也迎来了它的升级版Reflex 2。在初代技术移除渲染队列和增强GPU高频待机的基础上,Reflex 2新增了Frame Warp技术,会根据鼠标输入的即时数据,并根据游戏内视角变化直接将已经渲染好的帧直接偏移一下就拿来使用,最大限度降低延迟,让玩家指哪打哪。

500

Reflex 2能降低75%的硬件延迟

画面更改过程中本来没有渲染的部分(下图中的白色部分),显卡会用算法将画面补全,这样我们最终看到的画面就是完整的了。

这听上去挺魔幻的,因为游戏里画面边缘的像素是没有经过完整渲染流程的。不过这种操作通过算法将游戏内的位置信息、颜色、视角等信息进行了综合分析,加上超高的运算速度,实际效果相当值得期待 。

500

“魔幻”的图像修补

目前Reflex 2只宣布了《The Finals》和《无畏契约》两款即将实装的游戏,在开放给RTX 50系用户尝尝鲜后,最终会支持所有RTX显卡。到时候FPS玩家就能到游戏里,去看看这项“魔幻”的新技术到底好不好用了。

500

总体而言,RTX 5090 D在光栅性能上有着常规的提升,无论是在游戏场景还是生产力作业中都有与其定位相符的性能表现。但正像NVIDIA宣传的那样,它更大的升级是在软件层面上,利用AI的不断进步和AI加速对4K光追游戏的提升,在《赛博朋克2077》这样的3A大作上,让4K240+全景光追成为现实,让4K 240hz的显示器买了不吃灰。这无疑是更多玩家所期待看到的。

随着RTX 5090 D的首发,当日即有75款游戏支持DLSS 4,并且所有RTX显卡用户都能逐步体验到大部分功能。这标志着一个新时代的来临,让人期待NV和各路游戏厂家为我们带来更好的硬件、技术、画面,以及更优秀的游戏。

站务

最近更新的专栏

全部专栏