时间:2022-12-04 20:30:01
受芯片短缺和矿潮影响,近一年的DIY市场尤为混乱,其中显卡最为畸形,原本售价5499元的首款GeForce RTX 3080已经被炒到15000左右,价格翻了三倍。 日前,NVIDIA在官方博客上宣布,即将上市的RTX 30系显卡除RTX 3090外,均从芯片层面限制开采。 包括之前发售的RTX 3060/3060 Ti/3070/3080和之后发售的显卡在内,今天期待已久的GeForce RTX 3080 Ti终于登场。
据NVIDIA以前的官方博客报道,这些显卡限制了以太网卡的计算能力,但对比特币等其他货币没有任何限制。 此外,geforceRTX3080ti(一批非公共显卡)的包装不显示任何内容。 “Lite Hash Rate”或“LHR”说明仅适用于已发售的显卡,随后会出现在包装上以方便区分。
GeForce RTX 3080 Ti
GeForce RTX 3080 Ti详细特写
对于此次发布的GeForce RTX 3080 Ti显卡,大家主要关注的是这些问题,首先是价格和性能,其次是出货量,还有能否购买。 这次的显卡限制了所有的散列率,也就是以太体开采,所以矿工的流入会减少。 在6月1日台北电脑展的发布会上,宣布售价为8999元,但由于国内目前无法买到,只能期待一波非公版显卡。 有的厂家会根据公版定价适当涨价,但首价一定很低,请大家抢一波吧。
01GA102核心的第三张卡
首先,我们来看看体系结构发生了什么变化。 官方白皮书比较的对象是GeForce RTX 2080 Ti,与前代NVIDIA Turing体系结构相比,NVIDIA Ampere体系结构下的GeForce RTX 3080 Ti每时钟运行两次着色器运算。
第一代NVIDIA RTX体系结构Turing下的RTX 2080 Ti
第二代NVIDIA RTX体系结构Ampere下的RTX 3080 Ti
NVIDIAAmpere体系结构将光和三角形的交叉吞吐量提高了一倍,RT Core达到了67 RTTFLOPS,Turing达到了43 RT TFLOPS。 而第二代光线跟踪中最重要的不仅是性能的提高,还增加了游戏中运动模糊部分场景的光线跟踪计算的加速。
第三代Tensor Core会自动识别并移除不太重要的DNN权重。 处理稀疏网络的速度是Turing的两倍,计算能力高达273 TensorTFLOPS,Turing为114 TensorTFLOPS。
GeForce RTX 3080 Ti仍然采用GA102内核,与GeForce RTX 3080/3090相同。 这里,我们来看看RTX 3080 Ti对GA102做出了什么样的改变。
完整的GA102核心
完整的GA102 GPU由7个GPC (图形处理簇) 42个TPC )纹理处理簇)和84个SM )流处理器)组成,RTX 3080 Ti的CUDA数量为10240,因此RTX 3080
查询为了方便,笔者列举了这些显卡的核心参数,可以看出RTX 3080 Ti和RTX 3090的核心参数非常接近。 两个有差别的SM单元,即一对TPC,256个CUDA,在实际应用中差别不是很大,最重要的是与RTX 3090比RTX 3080 Ti多12GB的存储器RTX 3080相比,提高非常大。
既然和RTX 3090的差距这么小,这张卡的定位是什么? 可能也有用户问。 我个人觉得RTX 3080 Ti大多是为游戏玩家准备的,但24GB显存实际上在大多数游戏中都不可用。 当然8K除外。
渲染8K素材占用17GB的显存(点击查看大图像) )。
但是,在专业渲染软件中,渲染8K或4K素材时的显存使用率非常高,达到17GB以上,而只有12GB显存的RTX 3080 Ti是远远不够的。 您可能已经知道爆炸内存的危害,游戏和软件可能会崩溃,过程可能会丢失。
02NVIDIA Ampere体系结构GA102分析
GeForce RTX 3080 Ti采用GA102核心,280亿( 28000毫米)晶体管,628平方毫米面积,三星8纳米NVIDIA定制工艺,micron gddr 6x显存
此次NVIDIAAmpere的SM在Turing的基础上将FP32运算单元增加了一倍,这样每SM的FP32运算单元数提高增加了一倍,同时吞吐量也增加了两倍。
通常,计算显卡的CUDA数量不是将SM的所有单元合计计数,而是只计算FP32单元的数量,因此SM的【FP32 : INT32】为1:1到2:1。
GeForce RTX 3080 Ti总共有10240个CUDA,实际上有5120个INT32单元,但由于内部的FP32数量加倍了,最终实现了10240个CUDA数量。
像这样粗暴地增加CUDA的数量实际上对游戏非常有帮助。 浮点运算通常在游戏中比整数计算更频繁。 图形、算法和各种计算操作需要在着色器的工作负载中混合使用FP32算术指令,而FP32的加速也有助于光线跟踪降噪着色器。
还有去年与GeForce RTX 30系列显卡一起发布的新技术——RTX IO。 现在,很多游戏容易变成几十g到几百g的安装空间,抛开存储空间的负担,保存在硬盘上的数据,当显卡尝试读取时,首先CPU从硬盘读取压缩的数据。
随着NVMe SSD的推出,读取速度比机械硬盘快了20倍,但由于传统I/O限制,NVMe高达7GB/的高速读取/写入给CPU带来了沉重的负担。
传统数据交换
此过程占用多个CPU内核,压力急剧增大,并消耗大量内存,但实际上GPU处于空闲状态。 RTX IO的作用是越过CPU解压缩并传输数据的步骤,并直接从PCIE总线中读出硬盘上的压缩数据。 另外,完成了无损GPU解冻,降低了CPU占有率,提高了性能。
RTX IO大大释放了CPU的负担
当然,该技术是系统的基础,操作方式的改变需要通过微软发布的DirectStorage来实现。 虽然目前容量的游戏对RTX IO的改善效果有限,但是当时间等游戏容量达到几百g常态时,该技术会起到很大的作用。
另外,与新增加的HDMI 2.1连接器组合,可以支持单线8K的视频输出。 上一代HDMI 2.0仅支持4K 98Hz的视频输出。 连接8K电视需要更多的电缆支持。
03GeForce RTX 3080 Ti外观
我们先看看它的外观。 虽然在外观上和以前的公开版没有变化,但GeForce RTX 3080 Ti这款显卡本身在细节上与GeForce RTX 3080相比有了很大的变化。
GeForce RTX 3080 Ti
GeForce RTX 3080 Ti配件包展示
外包装依然是礼物盒的形状,充满收藏感,取出显卡后,下面有布线和转动说明书的附件盒。 此次发布版还采用单12针供电插槽,需要转换为双8针接口使用。
GeForce RTX 3080 Ti正面
取出图形板后,先看看正面吧。 (由于公版轴流设计,两侧有风扇。 根据插入框体后的方向来区分相反面。 )与GeForce RTX 3080的设计相比,整体上几乎没有变化,但挡板部分的内角从无光更改为镜面。 这种轻微跳跃的视觉效果看起来比之前的设计更好。
GeForce RTX 3080 Ti内角的金属光泽
GeForce RTX 3080 Ti机载灯光效果
另外,此次的GeForce RTX 3080 Ti中,显卡侧面的GeForce RTX标志灯光,正面增加了“x”的灯光效果,但由于是显卡从内到外的灯光效果,所以不显眼,在黑暗的环境下观看
GeForce RTX 3080 Ti背面
GeForce RTX 3080 Ti挡板部NVIDIA徽标
图形板的背面部分(虽然看起来像正面)几乎没有变化,挡板的配色是含有极细微NVIDIA徽标的淡玫瑰金。
GeForce RTX 3080 Ti单12针供电接口
在GeForce RTX 3080 Ti显卡的侧面,可以看到单12针的供电接口。 据了解,虽然整体来看接近中部,但公版卡采用了高度紧凑的PCB板,长度也比一般尺寸小。 因此,供电连接器实际上位于主板的尾部,没有向右移动的空间。 根据NVIDIA的官方说明,GeForce RTX 3080 Ti的单卡功耗为350W,我们还将进行详细测试。
GeForce RTX 3080 Ti视频接口
GeForce RTX 3080 Ti的挡板部颜色也与GeForce RTX 3080不同,后者采用了与散热片相同的黑色,但是新的GeForce RTX 3080 Ti变更为通常的金属色,没有进行特别的处理。 接口面的配置仍然是DP 1.4*3 HDMI 2.1*1的4接口设计,并且由于新的HDMI 2.1协议,可以支持单线8K的视频输出。
散热系统示意图
另外,如果是第一次知道公版显卡的人,在这里再说明一下副翼部这个奇怪的“栅栏”的用途吧。 公版卡采用双轴流设计,正面和背面有散热风扇,正面风扇为积极吸入冷空气对GPU进行冷却。 副翼部是排出热空气的“出风口”,背面风扇起到了将图形卡内的热空气向上方排出的作用。
043DMARK理论性能测试
首先,介绍测试平台。 这次:为了让评测发挥GeForce RTX 3080 Ti显卡的最高性能,主板和CPU采用了当前的台式机旗舰级配置。 具体情况如下。
测试成绩方面,基准测试采用3DMARK,游戏性能测试时在游戏中自带Benchmark,同时为了减小误差,对各测试成绩进行了3次测试并取平均值。
GPU-Z参数
首先从GPU-Z的参数来看,GeForce RTX 3080 Ti采用GA102内核,三星为8纳米工艺,芯片面积为628平方毫米,拥有10240个CUDA,频率为1665MHz。 采用12gb gddr 6x显存,位宽384bit,显存带宽912.4 GB/s,光栅单元和纹理单元为112和320。
以下是第一个测试显卡DX11理论性能的3DMARKFS软件包。 FS、FSE、FSU三者分别支持显卡在1080P、2K、4K下的理论性能,取显卡点数进行实际测试,结果如下。
3d标记fs封装测试
在对显卡DX11性能的3DMARK FS封装测试中,选择了上一代和下一代的4块显卡进行了分数比较,以更好地满足GeForce RTX 3080 Ti的性能水平。
可见GeForce RTX 3080 Ti的性能与GeForce RTX 3090基本相同,差异甚微。 另外,与GeForce RTX 3080相比,提高相当多,整体差为11%左右。 与前代旗舰GeForce RTX 2080 Ti相比整体上升了约40%。
3d标记ts封装测试
在DX12环境下对Time Spy和Time Spy Extreme的测试中,GeForce RTX 3080 Ti的得分与GeForce RTX 3090的得分相差较大,为4%左右。 另一方面,与GeForce RTX 3080相比,得分高7%左右; 与前代GeForce RTX 2080 Ti相比,得分高出43%左右。
3d标记光跟踪测试
PortRoyal是专门针对3DMARK光电跟踪性能的测试项目,在该组测试中,GeForce RTX 3080 Ti的成绩依然紧咬GeForce RTX 3090,分数差在1%以下; 与GeForce RTX 3080相比,得分上升率约为11%; 与前代GeForce RTX 2080 Ti相比,得分的上升率非常大,约为60%。
05游戏性能测试
在游戏性能测试中,选择《德军总部新血脉》、《孤岛惊魂5》、《刺客信条:英灵殿》、国产游戏《无主之地》、《边境》的benchmark跑步软件
此外,在游戏测试中,所有benchmark兰斯分数的成绩都基于这次的成绩,因为显卡驱动程序版本和游戏更新对游戏帧数有很大的影响。
《光明记忆:无限》游戏测试
在游戏实测中,GeForce RTX 3080 Ti和GeForce RTX 3090的大部分分数相同,更能证明只有1-2帧的差距。 另一方面,GeForce RTX 3080的点数差在1080P和2K的分辨率下也不大,主要在4K的分辨率下有10%左右的差。
《刺客信条:英灵殿》游戏测试
因为附带了《德军总部新血脉》,还有两个benchmark,所以我们的数据取平均值。 此外,每次更新驱动程序或游戏版本升级时,该游戏都会带来很大的分数差异。 在这次重新测试中,GeForce RTX 3080 Ti和GeForce RTX 3090之间的差距仍然很小,与GeForce RTX 3090相比也很小
《德军总部新血脉》游戏测试
《孤岛惊魂5》同样是经过优化的3A大作,GeForce RTX 3080 Ti均达到了100帧以上的流畅运行标准,其中4K分辨率下的成绩领先于GeForce RTX 3080 Ti的15%左右。
《孤岛惊魂5》游戏测试
《无主之地3》是一款采用漫画渲染风格的游戏,对性能要求下限低,上限高。 以1080P分辨率GeForce RTX 3080 Ti可以达到147帧,以4K分辨率对折的只有70帧。
《无主之地3》游戏测试
《光明记忆:无限》是飞燕群岛工作室开发的《光明记忆:无限》新系列,目前还没有提供试玩的游戏,但官方提供了benchmark的跑步软件,玩家可以在steam上自己下载。 此外,所有测试结果均以“RTX最高/DLSS质量”模式进行,因为在测试期间无法关闭灯光切割选项。 在这个游戏的benchmark上看到了惊人的分数一致。 多次测试一定会不一样,但如果整体统一,意义就不大了。
《光明记忆》游戏测试
在另一款国产游戏《边境》的运行APP中,情况基本与《边境》相同,测试条件均在“RTX最高/DLSS质量”下进行。
06功耗和温度测试
在功耗测试中,选择FurMark软件进行拷贝机测试,并使用GPU-Z检测温度。 功耗只计算显卡本身。
功耗测试(单击查看大图) ) ) ) )。
经过我们的实测,GeForce RTX 3080 Ti在装满状态下的订购卡功耗在350W左右,如果目前的整体性能与GeForce RTX 3090相似,建议使用750W电源。
关于温度,此次的GeForce RTX 3080 Ti经过10分钟左右的复制器,温度在75左右,与GeForce RTX 3080基本相同,频率稳定,没有频率下降。
07部分游戏光追踪和DLSS效果展示
上面测试了部分游戏的灯光开关和DLSS的性能表现,这些效果具体在游戏中是如何表现的,我们选择了以下两个游戏来展示。
《光明记忆:无限》 RTX ON (单击查看大照片) ) ) ) )。
《赛博朋克2077》 RTX OFF (单击查看大照片) ) ) ) ) ) )。
在《赛博朋克2077》中,灯光跟踪效果随处可见,但游戏应用了各种灯光跟踪效果,包括最常见的灯光跟踪反射、阴影、环境光遮挡、漫反射照明和全局照明。
RTX ON (点击图像查看大图像) ) )。
RTX OFF (点击图像查看大图像) ) )。
网游《赛博朋克2077》中,因为追光效果处于试验阶段,所以没有海报一样的水面反射。 但是,头顶上树木的影子,水面上荷叶的效果等,整个画面的影子更加真实。 另外,由于光追踪效果很少,所以即使打开该功能,帧数也没有明显降低。
《逆水寒》 RTX ON (单击查看大照片) ) ) ) )。
《堡垒之夜》 RTX OFF (单击查看大照片) ) ) ) ) ) )。
堡垒的夜光跟踪效果还很明显,其中加入了反射、全球照明、路径跟踪等效果。 卡车在车身上的反射很明显,映在角色身上的环境光在打开灯追赶后更真实。 另外,仔细一看,远处建筑物的玻璃也同样有光的反射,整体画质的改善非常明显。
《堡垒之夜》 RTX ON (单击查看大照片) ) ) ) )。
《魔兽世界9.0》 RTX OFF (单击查看大照片) ) ) ) ) ) )。
《魔兽世界9.0》同样作为动漫渲染的网游,魔兽世界的年代更为久远,此次追光效应的加入在整体视觉上无堡垒之夜更为明显。 但是,远处树木的影子,附近石台下的影子等很明显。
《魔兽世界9.0》 RTX ON (单击查看大照片) ) ) ) )。
《控制》 RTX OFF (单击查看大照片) ) ) ) ) ) )。
《控制》这款游戏所采用的引擎物理效果非常出色,光线跟踪开关的对比度也明显。 包括玻璃上人物的反光,远处地面植物的反光比较清晰,同时开光追赶后车顶处的明暗对比也更加清晰。
《控制》 DLSS模式的比较
在DLSS的比较测试中选择了名为《赛博朋克2077》的游戏。 2K/RTX ON/DLSS以关闭原生画质为基准。 打开DLSS质量模式后,整个屏幕几乎没有变化,可以看到招牌上的文字边缘很清晰。 DLSS平衡和DLSS性能模式仍然良好,整体上与本地画质没有变化。
《赛博朋克2077》 DLSS模式的比较
画质说明
在《逆水寒》的DLSS测试中,将屏幕设置为4K分辨率,并将图像质量设置为最高预设。 关闭、快速、超级性能,在三种不同的模式下进行帧数和画面的比较。
首先,关闭DLSS时,游戏帧数为26帧的本机画质,打开DLSS快速模式时为41帧,打开DLSS超性能模式时为57帧。 放大图像时,可以看到原生画质和DLSS快速模式的差异很小,在DLSS超性能模式下,角色背后的装饰会变得模糊,木箱的纹理边界会有很大的变化。 但是,帧数的上升非常明显。
08软硬并用铸造Ampere
好的硬件没有软件的加持,就等于长柄空着没有枪头,要发挥十成的威力就要软硬结合,反之亦然。 在这次发布会上,我们共同发布了以下内容。
NVIDIA Reflex
以前,大多数延迟都是关注从显示器上得知几毫秒的高速响应,但那是终端的显示输出效果,你有没有想过从系统内部到实际看到的画面有多延迟?
NVIDIA Reflex
20系显卡上NVIDIA反复提到的“帧赢”,在30系显卡上也得到了进一步的突破,NVIDIA除了拥有自己的电竞显示器NVIDIA 360Hz G-SYNC ESPORTS外,还拥有NVIDIA Reflex
传统上,测量系统延迟需要高速摄像头和定制的LED鼠标电路。 此外,采用NVIDIA Reflex技术的显示器具有内置的精确延迟分析工具,可通过CPU和GPU优化渲染流水线,大幅减少延迟时间,并将系统延迟总体控制在30毫秒以下。 但是,如图所示,这需要支持反射延迟分析的鼠标。
NVIDIA Broadcast
NVIDIA Broadcast是一款易于使用、专业的直播软件,具有播音员无需背景定位,只需普通摄像头和GeForce RTX系列显卡即可的强大优势。
宠物派对直播
这个软件可以让杂乱的房间很快变成直播房间。 它具有内置的音频降噪、背景模糊、虚拟背景和头部跟踪等功能。 NVIDIA Broadcast的工作方式是使用AI算法在DGX超级计算机上进行深度学习。
NVENC代码
此外,RTX 30系列显卡还配备了目前最好的硬件解码器,大多数用户的电脑在直播时打开OBS推送流,CPU使用率直接上升到50%左右,而基于GPU的NVENC解码
NVIDIA Studio
对于内容创作者来说,说到软件,他们可能只想到与内容创作相关的软件,但NVIDIA为内容创作者推出的NVIDIA Studio驱动程序包括创作软件和图形
NVIDIA Studio
NVIDIA Studio驱动程序经过更新和优化,以使最新版本的Adobe系列软件支持更稳定,并具有更好的创作功能。 NVIDIA CUDA技术通过GPU加速效果加快了实时视频编辑速度,并加快了渲染输出。 此外,还可以轻松地通过硬件支持只能进行软件编码输出的视频。 另外,AI计算方面的优势包括自动标记片段、特效跟踪、人脸识别等功能,有显著的速度提高。
用GPU渲染14.98秒,用CPU渲染11分钟
当然,NVIDIA Studio的加速创作不仅在adobe上,在DaVinci、Keyshot、Blender、D5等专业软件上也有非常明朗的表现。 它不仅能提供强大稳定的运行环境,还能通过GPU加速,有效提高创作效率。
09GeForce RTX 3090的替代品?
从整体上看,我觉得GeForce RTX 3080 Ti和GeForce RTX 3090太相似了,好像是用同一个模子刻的。 两者最大的差距是12GB的内存,可以推测NVIDIA发售这个卡的目的到底是什么。 是黄先生失手了,还是刀法不好了?
GeForce RTX 3080 Ti
这里也先看看外观吧。 此次的GeForce RTX 3080 Ti公开版整体上与GeForce RTX 3080相同,但在正面的“x”形灯、边框材质和颜色等细节方面进行了改进。 有3080第一次的经验,这张卡整体上更精致。
在性能参数方面,必须知道RTX 3080 Ti的提升频率为1665MHz,是RTX 30系列显卡的第一个版本中最低的,而RTX 3090的提升频率达到1695MHz。 我不知道这是否是NVIDIA官方想要的,但是根据我们的测试,大多数成绩如果频率再提高一点,就有可能超过RTX3000
GeForce RTX 3080 Ti
在游戏方面,玩家不需要担心。 比RTX 3080更强大的堆栈必然会在游戏体验方面更好。 另外,增加的2GB显存在4K分辨率线上得到了充分发挥。
最后是这张卡的定位,我觉得NVIDIA打出两张这样相似的卡,还是有理由的。 其实最开始就有关于RTX 3080 20G版本的传言,这款RTX 3080 Ti的发布无疑打破了传言。 从运行方式来看,RTX 3080 Ti接近RTX 3090,在以往的任何一代产品中都未见。
GeForce RTX 3080 Ti
两者最大的差距是12GB的显存,对于游戏用户来说24GB确实有点浪费。 而对于生产力工具来说,4K/8K素材的渲染往往消耗12GB以上,显存对软件渲染非常致命,轻则报错无法渲染,重则软件崩溃过程因此,这两款显卡在细分领域有所不同,RTX 3080 Ti更注重游戏。
GeForce RTX 3080 Ti
最后,关于价格,虽然在评测发布时还没有上市,但根据性能参数,预计比RTX 3080要高得多,接近RTX 3090,在1W-1.2W之间。 虽然看起来很贵,但是第一次的价格应该也是最低的。 如果大家都能抢的话,就需要试试。
最后,我们来看一下此次发布的GeForce RTX 3080 Ti的其他非公共显卡。
iGame GeForce RTX 3080 Ti Vulcan OC
影驰GeForce RTX 3080 Ti周日OC
铭瑄GeForce RTX 3080 Ti iCraft OC
苏铁RTX 3080Ti-12G6X PGF OC
电影GeForce RTX 3080 Ti冰龙超市版
( 7692155 )