时间:2023-02-04 23:43:53
首先,在2022年秋季GTC大会上,最新一代GeForce RTX 40系列台式机显卡发布后不到一个月,NVIDIA便推出了GeForce RTX 4090 Founder Edition旗舰显卡明天的10月12日是各大AIC制造商的性能解禁时期。 在介绍NVIDIA geforceRTX4090 founder edition显卡的性能之前,请先详细了解一下这次的geforce RTX 40系列为我们带来了什么改进。 GeForce RTX 4090【建议零售价12999元起】GeForce RTX 4080 16GB【建议零售价各9499元起】GeForce RTX 4080 12GB【建议零售价7199元起】这次NVIDIA是geforce 您可以购买NVIDIA FE和领先的显卡供应商的RTX 4090 GPU标准版和超频版。 【点击购买】技术解说:架构优势Turing、Ampere两代架构核心是以人物命名的。 前者是计算机科学之父——艾伦马西森图灵; 后者是“电力中的牛顿”——安德烈玛丽安培,电流的国际单位安培因其姓而得名。 Ada Lovelace决定了非凡的人。 度娘果然是有着“数字女王”之称的阿达罗芙丝,编写了历史上第一个计算机程序,也是世界公认的第一个计算机程序员,真是一代比一代牛。 PS :她的父亲是《唐璜》的作者,诗人拜伦吧。 从Turing架构开始,NVIDIA首次在图形卡上增加了加速光线跟踪的RT Core单元和用于AI推理的Tensor Core单元。 这一革命性的创新使实时光线跟踪成为可能。 Ampere体系结构是一种全面的体系结构改进,除了新一代的第二代RT Core和第三代Tensor Core之外,还有更先进的SM单元设计,使图形卡工作效率提高了一倍。 另外,来到Ada Lovelace架构,是以效率化为大前提的,所以当然引入了最新的第三代RT Cores和第四代Tensor Cores单元,同时也引入了很多新颖的黑科技。 从执行效率来说,Ada Lovelace架构是前代Ampere架构的2倍以上,光线跟踪能力更是达到了4倍于恐惧的性能。 在讨论核心体系结构之前,请了解GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm、760亿个晶体管以及两倍的性能功耗比方面的一些关键词。 带几个关键词,查看上述【图形规格参数比较】表,可以方便地阅读上表。 最新一代台式机显卡GeForce RTX 40系列均采用全新的Ada Lovelace体系结构核心,GeForce RTX 4090的核心是AD102,是目前Ada Lovelace体系结构核心中最高的GeForce RTX 4080 16 GB的核心代码为AD103-300,拥有9728个CUDA核心和16GB高速美光GDDR6X显存,显存的位宽也减少到了256位。 geforceRTX4080的12GB标准稍低,核心号码为AD104-400,拥有7680个CUDA核心和12GB百万兆光GDDR6X显存,显存位宽仅为192位。 因为这里是NDA,所以这里不涉及GeForce RTX 4080系列的相关信息。 得益于NVIDIA与台湾积体电路制造深度合作的TSMC 4N工艺,GeForce RTX 4090的核心面积仅为608mm (前代RTX 3090 Ti 628mm ),核心面积更小,最多可容纳760亿个晶体管,前值得注意的是,工艺的改进,不仅可以有更多的晶体管,核心频率也可以跑得更高,GeForce RTX 4090 Boost频率达到2520MHz,在核心频率和高规格的双向保证下,前代视频从GTC2022秋季大会开始,我们发现目前GeForce RTX 4090显卡上的AD102-300核心实际上并不是完整的AD102核心。
完整的AD102核心必须包含12个GPC、72个TPC、144个SM和12个32位图形内存控制器的384位图形位宽度。 观察上面的GeForce RTX 4090体系结构图,可以发现与完整版的AD102核心相比的区别。 首先,GeForce RTX 4090的核心代码是AD102-300,具有9个完整标准的图形处理群集( GPC,每个群集内置6个TPC )和2个不完整的GPC (每个GPC 5个TPC ) 关于潜在存储器宽度方向是相当完整的——384Bit。 如果仍然不太清楚,现在笔者逐一为Ada Lovelace体系结构显卡的配置。 如上所述,在完整的Ada Lovelace架构的AD102核心内部有12个GPC,每个完整的GPC包括专用的Raster Engine、两组ROPs共计16个ROP、6个TPC和12个SM单元ADA技术介绍了新的SM流媒体多处理器,这是新的SM流媒体多处理器Ada Lovelace体系结构的最大亮点之一。 每个SM包含128个CUDA核心和一个第三代RT Cores。 凭借四个第四代Tensor Cores、四个Texture Units、256 KB Register File和128 KB L1数据缓存/共享内存子系统,这款新的SM设备的性能比前几代产品高出一倍以上过去的Turing体系结构INT32计算单元与FP32的数量一致,但两者加起来构成了64个CUDA核。 但是,Ampere架构开始,左侧的计算单元实现了FP32 INT32的计算单元的同时运行。 也就是说,CUDA核心数量达到了128个。 让我们来看看Ada Lovelace体系结构的SM。 FP32/INT32的计算单元组合同样实现了每个SM包含128个CUDA的设计,虽然看起来没有什么提高,但GeForce RTX 4090拥有128个SM和16384个CUDA内核可以理解高达82.6 TFLOPS的Ada Lovelace体系结构在缓存方面也有了很大的改进,首先每个SM单元有单独的128 KB高速缓存,RTX 4090显卡具有163MB L1/共享内存其次,核心的l2缓存经过重新设计,完整的AD102核心为96MB的l2缓存,RTX 4090显卡有72MB的l2缓存,因此,向Ada Lovelace架构核心的显存的位宽详细内容,其实等11月RTX 4080的首次发行就知道是不是这样了。 技术说明:第三代RT Cores和第四代Tensor Cores以为刚才的CUDA数量和超大型二级高速缓存已经来势汹汹。 第三代RT Cores和第四代Tensor Cores提供了Ada Lovelace体系结构的最大改进。 第三代RT CoresRT Cores用于加速光线跟踪,第三代RT Cores的有效光线跟踪计算能力达到191 TFLOPS,是上一代产品的2.8倍。 在Ampere架构中,第二代RT Cores支持Box Intersection testing和三角形交叉测试,以加速BVH遍历并计算辐射三角交叉测试光线跟踪处理能力高于第一代Turing架构,但随着环境和物体几何复杂性的持续增加,传统处理方式难以提高更高效、准确反应的现实世界光线特别是光线运动的准确性。 因此,第三代RT Cores添加了两个重要的硬件单元:光学微映射引擎和分布式微消息引擎。 Opacity Micromap Engine主要用于加速alpha通道,可以使alpha测试几何体的光线跟踪速度加倍。 在传统的光栅渲染中,开发人员使用alpha通道材料来更高效地渲染形状复杂的物体,例如alpha通道的叶子和火焰。
但是在光线跟踪的时代,这种传统方法对于光线跟踪波段会有很多无效的计算。 例如,每当运动光线多次穿过叶子且光线到达叶子时,它都会调用着色器来确定如何处理交点。 在这种情况下,会产生严重的执行成本和等待时间成本。 Opacity Micromap Engine用于直接分析不透明光线相交的不透明三角形。 根据alpha通道的不透明度,它处理三种不同的块状态:透明度和未知度。 通过忽略透明度并继续查找下一个块,记录并命中不透明度块,然后将未知块交给着色器来确定处理方法,大部分GPU无需进行着色器调试过程,即可获得更高效的性能。 如果说displacedmicro-meshesengineopacitymicromapengine正在加速表面处理,那么displaced micro-meshes engine就是几何曲面细节的加速器。 如上图所示,Ada Lovelace体系结构可以通过使用一个基础三角形移位贴图来创建高度详细的几何网格。 所需资源比第二代RT Cores更低、更高效。 以NVIDIA展示的14:1珊瑚蟹的制作例来说,这里需要1.7万个微网格、160万个微三角形,在Ada Lovelace体系结构中,BVH的制作速度变为7.6倍,存储空间缩小为8.1倍Displaced Micro-Meshes Engine起着重要的作用,它将一个几何物体按细节划分为密度不同的微网络处理,红色密度超高,细节处理复杂。 合适的低密度微网络区域可以释放更多的资源和存储空间,因此,“分布式微消息引擎”可以帮助BVH加速过程,减少构建时间和存储成本。 此外,Ada Lovelace体系结构SM中添加了着色器执行重新排序( Shader Execution Reordering,SER )。 这是因为光线越来越复杂,光线越来越多地移动,以及光线跟踪强烈的光线和阴影渲染过程。着色器执行重新排序( SER ) 但是还没有实例,要实现这个功能,需要游戏和开发工具的支持。 第四代Tensor CoresTensor Cores是为了执行张量/矩阵运算而特别设计的专用执行单元,是深度学习中使用的核心计算功能。 第四代Tensor Cores增加了FP8引擎,具有1.32 petaflops的张量处理性能,超过了前几代的5倍。 DLSS3技术和NVENC技术解说: DLSS3或第四代Tensor Cores太硬了,不知道是什么吗? 提高的意义在哪里? 但是,作为Tensor Cores最经典的APP案例,DLSS应该知道Ada Lovelace体系结构支持NVIDIA的最新DLSS3技术。 之前也提到过DLSS技术,其设计之初是为了弥补开启光线跟踪技术后的性能损失,具体来说开启光线跟踪技术后的游戏帧数大幅减少,甚至难以保证游戏的顺利运行。 因此,DLSS使用低分辨率内容作为输入,使用AI技术输出高分辨率帧,从而提高光线跟踪的性能。 DLSS3包括三种技术: DLSS帧生成、DLSS超分辨率(也称为DLSS 2)和NVIDIA Reflex。 DLSS3可以理解为向DLSS2添加了DLSS帧生成技术; 而且,在这两种技术中,DLSS的超分辨率只能在GeForce RTX显卡上使用,NVIDIA Reflex可以在GeForce 900系列以后的显卡上使用。 实现DLSS帧生成并不简单。 必须与Ada Lovelace体系结构的GeForce RTX 40系列显卡配合使用。 DSS帧生成技术的原理是通过利用AI技术生成更多的帧来提高性能。 DSS使用GeForce RTX 40系列GPU中的新光流加速器分析连续帧和运动数据,以创建其他高质量帧,而不影响图像质量和响应速度。
从Ampere体系结构开始,NVIDIA显卡支持光流加速器。 此外,Ada Lovelace架构的光流加速器升级至第二代,提供高达300teraops(tops ),以及安培架构的第一代光流加速器( opticacation ) OFA )更快。为了实现DLSS帧生成,OFA将发挥重要作用,并配合新的执行量分析算法在DLSS3技术框架内实现精确、高性能的帧生成能力。 另外,因为DLSS帧的生成是在GPU上作为后处理执行的,所以即使游戏受到CPU性能的限制,我们也可以从中获得更好的游戏性能的提高。 特别是在物理计算密集型游戏和大型场景游戏中,DLSS2使GeForce RTX 40系列显卡能够以高达CPU计算的两倍的性能渲染游戏。 最后,DLSS 3是基于DLSS 2构建的,因为游戏开发者可以将该功能快速集成到支持DLSS 2或NVIDIA Streamline的现有游戏中,DLSS 3被广泛应用于游戏生态中,目前已经有35个以上的游戏和APP机阅读亮点: NVIDIA ReflexNVIDIA Reflex也是DLSS3的一部分,可使GPU和CPU同步,确保最佳响应速度和低系统延迟。 要实现端到端的最小延迟,必须确保游戏、显示器和鼠标三者同时支持并打开Reflex技术。 GeForce RTX 40系列显卡与NVIDIA Reflex配合使用后,直接实现了1440p分辨率360 FPS的体验。 这个确实性能有点强。 GTC2022大会上,1440p分辨率的新型G-SYNC体育显示器将发布4台。 采用mini-LED技术的AOC ag 274 qgmagonprominiled、MSI MEG 271Q Mini LED和ViewSonic XG272G-2K Mini LED这三种显示器的刷新率均为300Hz。 最激烈的是ASUSrogswift360,但唯一的问题是,一些显示器制造商认为,如果这种产品的参与者很少,这种显示器的工作效率就会下降,或者产品会掉落到内部PASS。 1440p360Hz很棒,但现实是相当辛苦的感觉。 技术说明:双NVIDIA编码器( NVENC ) GeForce RTX 40系列显卡有一个名为NVENC的新升级。 第八代NVENC双编码器不仅支持H.264和H.265,还支持开放视频编码格式AV1。 由于AV1是免版税的视频编码格式,上游软件制造商和下游游戏合作伙伴大力推广这种编码格式。 此外,许多硬件和软件都支持AV1格式,包括剪辑专业版、DaVinci Resolve和Adobe Premiere Pro的流行Voukoder插件,并通过编码预设提供了双核功能在保证屏幕最高质量的情况下,AV1编码器将效率提高40%,图形卡的占有率也较低。 包括OBS Studio在内的代软件也将添加对AV1格式的支持。 此外,GeForce Experience和OBS Studio最多可录制8K60内容,从而简化游戏录制。 包括我们后来用于测试的游戏录制视频在内,都支持AV1格式,但是双编码器NVENC的资源消耗和配置越来越好。 拆开RTX 4090 fepublicnvidia geforce RTX 4090 Fe显卡后,nvidiageforcertx 4090 founders edition外壳非常大,设计元素也相当简洁。 " NVIDIAgeforceRTX4090 " 整个外包装采用了相当环保的瓦楞纸板。 相反,这个包装的耐压比上一代高得多,使用起来相当坚固。 NV可能知道这真的有点重。 制作好的包装保护显卡吧。 nvidiageforcertx 4090 founders edition的外观设计与前几代RTX 30系列FE旗舰显卡基本相同,而nvidiageforcertx 4090 founders edition的头部设计
下方为正转12cmm的设计,四周散热片所包围的散热片做工依然是相当于显卡正面尾部同样安装的大面积散热片接口,nvidiageforcertx 4090 founders edition依然是主流机型3*DP1.4a 1*HDMI2.1接口。 没有我们期待的DP 2.0。 另外,据NV PDF报道,DP 2.0的显示产品无法在短时间内上市。 这是否意味着NVIDIA GeForce RTX 50将采用新的接口? 当然,我想在接口规格上比较激进的朋友,会先推出带有DP 2.0接口的显卡。 Founders Edition显卡的细节做工确实比普通产品质感好。 信仰不仅是NVIDIA这个品牌效应,其产品也很多,FE信仰一直在粉丝心中。 Founders Edition显卡的产品信息、SN码都位于挡板上,但由于是全球发售的产品,所以拥有很多地区的产品和环保认证。 正负设计可以加强机箱内散热通道的形成,但根据NVIDIA提供的数据显示,该散热系统最大气流比上一代显卡多20%,在同噪声条件下气流多15%,真实散热性能相当好不用担心看了Founders EditIOn显卡也分不清是什么产品。 除了从产品的体积上进行区分外,您还可以在产品装饰条上看到产品型号“RTX 4090”,但实际上您还可以在尾部的io接口上看到产品型号。 尾部的侧面片,NVIDIA做了一个磁吸盖,里面有两个可以固定显卡的安装螺丝孔,但产品附件其实没有安装支架。 那个安装支架必须自己购买。 在NVIDIA GeForce RTX 40时代,所有显卡(包括FE和AIC制造商)都采用最新的12VHPWR接口。 笔者建议购买并使用电源制造商提供的原生线材。 不想换电源,也买不起本机模块电缆的网友也可以不用担心。 NVIDIA在FE和AIC的产品上加装4*8Pin TO 12VHPWR转换电缆后使用。 nvidiageforcertx 4090 founders edition显卡的拆卸与前代Fepublic显卡的拆卸一样,可以通过直接用手提起背部的金属饰条,慢慢取下金属饰条。 需要注意的是,IO连接器上的金属板由金属紧固件固定,拆卸时需要注意。 卸下双金属背板后,可以看到nvidiageforcertx 4090 founderseditionpcb的背面。 芯背是大量的多层陶瓷芯片电容器( MLCC ),一些AIC制造商改用四个POSCAP (导电高分子钽电容器)。 取下后背的四个被固定的后背的螺丝就可以取下PCB。 当然,导热垫是粘性的,是油,所以有一定的概率直接附着在PCB上。 从前代RTX 30系列显卡来看,Fepublic版PCB采用了异形PCB,但此次的nvidiageforcertx 4090 founderseditionpcb更大更贵,背部采用了PCB板型号: 180-180 NVIDIA GeForce RTX 4090的核心号码为GA102-300-A1,但由于是从媒体发送的FE版本,核心上也有“SAMPLE”字样。 另外,这个核心是22年25个周期A1版本的核心,也就是6月中旬出来的核心,周期还早。 核心周围为12个美光GDDR6X显存,粒子编号为D8BZC,其规格为512Mb*32Bit,每个2Gb的容量、频率为21Gbps,而且还具有ECC功能; 12个可以构成24gb 384位的显存规格。 该粒子首次出现是NVIDIA上一代台式机级旗舰产品GeForce RTX 3090 Ti显卡。 供电部分置于PCB头尾两端,共23供电设计,其中20相为核心,3相为记忆供电。 细心的网友们一定会发现,PCB的供电电空焊接位置也很多。 这样,我们就经常确认将来会有更高规格的GA10x核心问世。 所有供电的DRM操作系统均来自芯源系统( MPS )的MP86957,该芯片也常用于高端显卡,是集成上下通道和驱动的英特尔高性能解决方案,采用单个MP
供电控制采用同一个芯源系统( MPS )的单个MP2891进行,供电控制思路与上图相同,但目前尚未找到MP2891芯片的相关资料。 感兴趣的用户可以在MPS官方查询相关资料【点击查看】。 旁边的us5650q芯片配备了供电控制芯片的高质量12VHPWER插槽显卡配备了超强散热系统。 不仅前后风扇设计为12cm,该散热模块的规模也真的很大,底部是表面镀镍的真空室均热板,无论是配备8mm粗热管和超大型两种散热片的热管,还是散热片都镀有黑化基本上所有的零件都有对应的编号,表明NVIDIA对Fepublic有更严格的质量管理要求。 在显示器和VRM的位置安装导热垫辅助散热。 特别是显示屏的位置,均热板上焊接有凹槽的散热片,加强对显示屏位置的散热。 背部的金属背衬也相当仔细,不是普通的压铸处理,而是CNC处理,可以清楚地看到CNC芯片的痕迹。 测试平台介绍评估平台介绍:作为测试对象的nvidiageforcertx 4090 founder edition显卡定位为旗舰级显卡,适合深度游戏、 为了避免平台中其他硬件造成的性能瓶颈,我们在此选择了当前旗舰级别的产品。 在这三个附件中,我们优先采用了英特尔目前的旗舰级i9-12900K处理器。 该处理器采用16核24线设计,睿频加速最高可达5.20 GHz,完全满足游戏玩家和内容创作者的需求。 主板方面,选择了高规格的微星megz690aceMars主板,在支持多种高速gen4nvmem.2SSD的同时,具有丰富的可扩展性。 关于内存的发展方向,我们的测试通常也只使用32GB的显存,但是考虑到这次测试的复杂性和8K视频的需要,我们直接来了一套很大的。 使用4个Kingston FURY Beast DDR5 RGB内存条,在BIOS中读取XMP I文件( DDR5-6000 C40 ),同时通过RunmemtestPro5.0稳定性测试,平台内存为DD remory 也无需为存储系统担心。 三星980 prowithheatsink 2tb固态硬盘作为系统磁盘,而金牌之星KC3000 4TB作为游戏和软件磁盘的组合,与主板散热背心相结合在进行测试之前,已在系统磁盘最新版本的系统上重新安装WINDOWS 11 21H2。 本打算用22H2的,但是这个版本对NV显卡有一定的负面优化效果,所以要求稳定。 显示器方面,我们的镇室神器——爱攻保时捷联名使用了PD32M运动显示器4K144。 由于引入了MINI-LED技术,这款显示屏可以看到更高亮度的HDR效果,这款显示屏的色彩表现相当好,还配有144Hz的高刷。 但是,此显示器仅支持4K UHD分辨率。 用于测试的8K视频是使用NVIDIA DSR技术扩展的,与本机8K分辨率显示器在性能上存在差异。 电源方面,使用的是鑫谷刚刚上市的KL-1250G ATX3.0电源。 它符合最新的ATX3.0标准,并支持PCIe5.0本机接口。 它还标配12 vhp wr 16针原生线,可直接为GeForce RTX 4090显卡提供600W电源。 12VHPWR接口说明:目前,GeForce RTX 40系列(所有NVIDIA都是基于Ada Lovelace体系结构的台式机级显卡)都具有12VHPWR接口,因此在使用前需要提供电源此次推出GeForce RTX 4090显卡时,NVIDIA为大家配备了4*8Pin转12VHPWR 16-pin接口的转换电缆,无论是FE还是AIC厂商的显卡都是标配,方便大家使用
但是,尽管该切换连接已经通过了NVIDIA认证,但是最多有30次连接/断开的寿命限制,也就是15次交换次数,真的很少。 这个锅不是制造商的错,也不是NV的错。 为了满足超过450W的供电需求,对接口连接端子的要求可以不低。 使用次数过多时,接口变松,端子电阻变大,容易引起接口的热熔敷问题。 当然,如果您原本使用的是高功率电源,我们建议您联系经销商或电源制造商,购买双8针12VHPWR模块电缆。 这样,就可以更安全地使用单电源600W的电力需求。 当然,与我们的测试平台一样,理想情况下直接使用支持PCIe5.0本机接口的电源。 这样,电源就可以根据显卡的电力需求使用600W的大功率输出。 *有关显卡电源连接器的详细信息,请参阅。 //DIY.pconline.com.cn/1495/14955385.html测试前系统设置在测试前需要几个步骤才能打开DLSS3功能。 在加速硬件的GPU计划设置NVIDIA控制面板中,确保将显示器设置为最大刷新率。 建议使用G-SYNC Ultimate显示屏进行最佳体验评估。 在主板的SBIOS中打开敏感栏。 理论性能与内容创作测试理论性能测试:在性能方面,我们先来看看具有代表性的3DMARK理论性能测试。 DX11项目( Fire Strike系列)和DX12项目( Time Spy系列)当然也同样适用于光线跟踪项目Port Royal,GeForce RTX 4090非常强大,基本上同样,着色器功能、采样器反馈功能和DLSS2功能项目也有显著的性能改进,但请注意,这只是DLSS2的性能。 然后,我们还将详细测试DLSS3项目。 *PS:Fire Strike和Time Spy系列项目均为GPU得分,项目总分不是同类型的视频内存粒子,而是同类型的384Bit视频内存带宽和同类型的1018GB/s视频内存带宽。 虽然两种显卡的显卡内存粒子读写能力一致,但GeForce RTX 4090的视频内存复制能力明显高出2.6倍。由于相同的Ada Lovelace体系结构的GeForce RTX 4090具有更强大的核心规格,因此关于视频内容生产力测试的视频生产力,我们也先来看看PCMARK10的理论性能测试。 GeForce RTX 4090在这个项目上没有什么提高,大约13%的人领先于RTX 3090 Ti。 但是从子项目中可以看到,一般的基本功能和生产力这两个项目基本上取决于整个平台的性能,来到游戏的小项目可以看到大约32%左右的大幅提高。 在UL Procyon的理论性能测试中,两种显卡的办公性能基本都不错,但在照片编辑方面其实两者的性能也是相当的。 在导出视频编辑时,GeForce RTX 4090稍高。 另一方面,PugetBench测试显示了同样的性能。 这真的是GeForce RTX 4090多媒体的能力吗? 笔者对此有点怀疑ADOBE软件版本的问题。 UL Procyon是在PugetBench中调用的相同类型的ADOBE工具包。 但是,由于达芬奇使用了支持AV1编码的新DaVinci Resolve 18.0.2,因此性能的提高更加明显。 随后,笔者将对这些软件进行更详细的补充测试。 NVIDIA NVENC双编码器专项试验:在NVIDIA NVENC双编码器专项试验中,笔者采用了accelerated av1 andh.265 performance,AI ACCELERATED MAGIC MASK,largic
总的来说,第八代NVENC双编码器确实为RTX 4090带来了更好的性能,在同样的H.265视频输出下,比上一代显卡快得多,而且输出8K30视频时,RTX 4090只需46秒即可完成这个后期摸哥哥鱼的时间也大幅度缩短了。 由于NVENC双编码器支持AV1格式,加速器AV1 andh.265性能比较了h.265和av1的相同标准的视频输出时间。 即使是同一块GeForce RTX 4090显卡,4K30的高质量视频的输出时间也是一致的。 但是,更高分辨率的8K30高质量视频输出会使H.265格式的输出时间缩短几秒钟,但在容量方面,AV1格式的视频明显更少,两者对不同编码视频播放资源的占有量也相当可观。 在AI加速掩码- RTX 4090的掩码测试中,Ada Lovelace体系结构的GeForce RTX 4090呈现速度更快,17秒钟即可完成整个AI加速掩码另一方面,对于上一代旗舰GeForce RTX 3090 Ti,完成这项测试花了37秒。 据说后期的哥哥除了捕鱼的时间以外钱都很贵,但是GeForce RTX 4090为了后期的队伍会更有效率。 largegpumemorymb _ 8kr3dredcameraclip,play the clip in the viewer这一测试推荐在RTX 3090 Ti首发时就已经过测试,但在工程量、特效及滤镜效果复杂的情况下但是,如果有意增强特殊效果和滤镜效果,显存的占有率会轻易上升。 使用相同8K R3D RED CAMERA录制的视频,同一设备上的RTX 4090显存占有率较低,约为17GB,但RTX 3090 Ti显存占有率可达21.5GB。 和ON1 Resize一样,ON1 Resize软件将原来的超高分辨率图像再次放大到了200%。 通过类似的操作,GeForce RTX 4090的处理速度比RTX 3090 Ti快得多。 专业的内容创建测试Blender这款免费的三维全功能软件越来越受欢迎,包括建模、实时渲染、三维动画、材质绘制、后期合成、绿屏关键像、摄像头跟踪、三维动画我们直接使用最新的Blender Bcnchmark v3.3.0软件对其进行了测试。 它包括三个monster、junkshop和classroom测试项目,RTX 4090的性能是前代旗舰性能的两倍。 可以看出,OctaneBench是当前流行的GPU渲染基准测试工具,RTX 4090也通过其高规格内核提高了GPU渲染性能。 这一代的架构提升并不是很大。 SPECviewperf 2020 v3.0是业界标准的OpenGL图形性能测试分析软件,RTX 4090的性能也有了巨大的提升。 总的来说,面向专业人士的内容方向,RTX 4090与前几代产品相比,性能提升了70%,12999的定价非常值得打造面向专业人士的内容。 游戏性能测试游戏性能测试当然作为游戏图形,我相信RTX 4090也有很好的性能。 在1080p的分辨率下,普通游戏的提升并不多,但在游戏中自带DLSS会提高性能,整体提升约28%。 对于2K和4K游戏,分辨率越高,RTX 4090的性能就越好。 特别是在4K分辨率下,性能的提高最为明显。 另外,大多数3A游戏基本上可以在100FPS以上跑。 与PD32M这样的4K144显示器组合游戏真是太爽了。 当然,如果把显示器分辨率提高到8K,打开DLSS超性能文件,基本的3A游戏就有60FPS左右的游戏度。 相比之下,RTX 3090 Ti确实有点无奈,很好地表明了RTX 4090显卡是一款真正能玩爽8K游戏的旗舰游戏视频。 DLSS3性能测试DLSS3性能测试将作为RTX 40系列显卡的最大亮点——DLSS3参与此次评估。 但是,现在我们来看看几个支持最新DLSS3技术的游戏。
《超级人类》(superpeople ) :抢先体验版将于10月12日13:00发布,支持dlss3《生死轮回》 )的版本将于10月12日发布。 DLSS 3 《逆水寒》支持“抖云庭”( justice‘fuyuncourt”)新的图形展示于10月13日发布,DLS S3《微软模拟飞行》 ( microsoftfligon ) 支持DLS S3《瘟疫传说:安魂曲》 (配置要求) :将于10月18日发布。 支持DLSS 33DMARK DLSS3功能的NVIDIA单独为我们提供了最新的3DMARK测试版本,包括支持DLS3技术的DLS功能测试工具。 正好结合我们以前测试的DLSS2的成绩,如上图所示,2K分辨率的性能表现DLSS2和DLSS3基本相同,还不错; 4K分辨率开始时,开启DLSS3后帧数的提高非常明显,在8K分辨率下的DLSS3超高性能文件中实现了DLSs2倍的性能提高是不言而喻的。 Cyberpunk 2077在Cyberpunk 2077游戏中也可以先使用支持DLSS3的游戏,用同样内置的BENCHMARK进行测试,但是打开DLSS3后内置帧数计算机会出现很大的误差。 在这里,我们使用了NVIDIA独特的FrameView工具来记录帧数。首先,如果Cyberpunk 2077游戏是4K分辨率的超光跟踪设置,则平均帧数只有43 FPS。 这是我们测试的一个标准,启动DLSS2功能后,平均帧数达到77 FPS,已经可以运行相当多的游戏; 但是,在这里也不满足。 开启DLSS3后,游戏流畅度达到146 FPS。 这个提高了很多。 同样的情况在2K分辨率文件的比较测试中也发生过,只能说这次的DLSS3真的太强了。 与F1 22相同的F1 22游戏中,4K分辨率下只有TAA设置了75个流畅游戏,这表明RTX 4090不开启DLSS功能的游戏性能也很高。 但是,开始DLSS3后,无论是质量文件还是性能文件,游戏的流畅度都超过了120 FPS,对于赛车游戏来说,这种流畅度真的很爽。 逆水寒我们在测试版本的逆水寒游戏中录制了视频给大家看。 在逆水寒游戏中打开DLSS3后,关闭DLSS后,画质表现会怎么样? 很明显,关闭DLSS后,游戏的帧数非常低,好像是几个帧数,但是打开DLSS3后,整个游戏变得明显光滑,整个画面的表现也变好了。 感兴趣的用户可以尝试使用上面的插件放大视频并比较画质表现。 unreal engine5lyra unreal-engine-5-lyra-DLS S3-off unreal-engine-5-lyra-DLS S3-on, 最后还测试了使用unrealengine5引擎制作的lyradement,笔者在这里上传了两张照片,展示了Lyra DEMO的DLSS3打开和关闭画质的比较,游戏的流畅度自然在DLSS3打开后上升明显,110
目前,DLSS 3得到了许多世界领先的游戏开发者的支持。 已有超过35个游戏和APP应用程序宣布支持该技术《瘟疫传说:安魂曲》 ( aplaguetale:requiem ) 《原子之心》 ( atomic heart ) 《黑神话: 悟空》 ) #039; sblade ) 《光明记忆: 无限》 ) cyberpunk2077 ) 《切尔诺贝利人》 ) Dakar ddata2- re probed ( 《战意》 ( dying light2: stay human ) f122 ) ) ) ) )寒霜发动机《赛博朋克2077》(Hitman3) 《达喀尔拉力赛》 ) HogwartsLegacy ) 《火星孤征》 ) Icarus ) 《毁灭全人类2: 重新探测》 ) jurasssicwon 55-79000 ) marauders ) 《消逝的光芒2: 人与仁之战》 ) marvel’s spider-man rror lator ( 《暗影火炬城》 ( midnightghosthunt ) )。 《杀手3》 ( mountblade ii:banner Lord ) 《霍格沃茨:遗产》 ) Naraka:bladepoint ) nvidiaomniversenvidiaracerrtx0755 ortal 《翼星求生》同步《侏罗纪世界:进化2》 ( thelordoftherings:Gollum ) 《逆水寒》 ) thewitcher3:wildhunt ) 《生死轮回》 ) ) wiwin weroffantasy(unity )幻像引擎4(《星际海盗》 ) warhammer 40,000:dark tide )超频、功耗总结对于超频测试超频,请参阅nvidio 如果您不太了解如何开始,可以使用AI OC技术。 这基本上是所有卡制造商配套的软件中包含的功能,可以实现更简单的自动超频。 先为显卡热身,把限温、风扇转速、电压都开到最高,先看看一次能跑多少分。 这里nvidiageforcertx 4090 founder edition显卡的TIME SPY显卡点数达到37042,40秒的核心频率为2805MHz,性能有一定程度的大幅提高。 核心频率和内存频率再调高一点,40秒核心频率为2850MHz,慢慢调高。 在测试中实际试了几个频率,这里只列出一个参考频率。 40秒的核心频率为3000MHz,分数进一步提高。 此时,可以看到核心功耗已经达到503W。 最后的频率稳定在3060MHz。 再高的话真的拉不动了。 就这样给我黑色看看。 但是,性能很好。 显卡分数达到38422,默认频率下得分为36586,分数上升5%,最高功耗达到518W。 在功耗、热功耗和温度测试方面,使用Furmark对显卡进行了深度烤面包机测试,发现两块显卡的最大功耗在450W以内,但CPD的功耗明显高于RTX 4090。 如您所见,由于RTX 4090对PCIe的电力需求较低,基本上来自12VHPWR显卡的电源接口,因此要升级RTX 40显卡,需要购买本机模块电缆或支持PCIE5电源接口关于温度,这次的nvidiageforcertx 4090 founder edition显卡的散热真的是可行的,在GPU满载温度稳定后最高也只有72.3度,显示器温度也在80度左右。 这个温度表现真的比AIC的非正式散热还要强。 这多亏了前后2个12cm的轴流风扇,低温转速低,噪音低,高温转速适中,噪音也少。
总结: GTC2022大会后,网友们对RTX 40系列显卡的评价真是褒贬不一,旗舰级的NVIDIA GeForce RTX 4090售价1299元,这个价格真的只有香味! 根据我们的评测数据,无论是游戏性能、视频制作性能,还是专业的内容制作性能,GeForce RTX 4090都有了很大的提升,使台式机级的旗舰显卡水平达到了一个新的水平。 同时,功耗和温度表现相当理想,在功耗下可以达到比前代旗舰高2倍的功耗比。 其他Ada Lovelace架构的GeForce RTX 40系列显卡均支持NVIDIA第八代NVENC双编码,并增强了对AV1的特殊优化和支持。 虽然在评价中是我们进行的视频输出测试,但是NVENC双编码也可以支持8K60直播流。 这对于直播行业的用户来说,真是省时省力的省资源。 最后,DLSS3技术、赶牛、DLSS帧生成技术无疑完全消除了CPU制造的游戏性能瓶颈,利用帧生成技术实现了更高的游戏流畅度。 这在我们的实测中得到了很好的验证。 当然,DLSS3技术需要不断开发和完善,相信越来越多的游戏和APP应用都有这样的顶级技术,到时候是我们玩家享受的时候了。 对于降级的RTX 4080系列显卡,我相信在11月份解禁的时候,我们就知道是真香还是坑洞了。