引言&规格对比&外观赏析
老黄在2022秋季GTC大会上发布了万众瞩目的RTX 4090与RTX 4080显卡,全新的Ada Lovelace架构和TSMC 4N工艺的升级让这两张显卡在性能层面有了质的飞跃,价格方面也是水涨船高,相信不少玩家也跟笔者一样,期待NV赶紧推出适合玩家的中端显卡。现在GeForce RTX 4070 Ti它来了!
我们也在第一时间体验到了耕升的RTX 4070 Ti显卡,在上手了使用了耕升GeForce RTX 4070 Ti 星极幻姬 OC一段时间后,笔者发现这张RTX 4070 Ti不仅颜值在线,性能也是超乎预期的强,经过重新定价的RTX 4070 Ti确确实实可以称得上是目前最具性价比的RTX 40系显卡,下面给大家讲讲这张显卡究竟强在哪里。
*下文“耕升 GeForce RTX 4070 Ti 星极幻姬 OC”简称为“耕升 RTX 4070 Ti 星极幻姬 OC”
规格对比
开始测试前,先让我们了解一下耕升 RTX 4070 Ti 星极幻姬 OC,其采用的是AD104-400 核心,TSMC 4N工艺制造,芯片面积为295平方毫米,别看它面积比上代的GA104-400核心小,但它的晶体管密度达到了358亿,晶体管数量相比较于上一代产品提升非常明显,近乎翻倍,而这一代的核心还进一步提升了频率,因此能带来更好的性能表现。
其他参数方面,耕升 RTX 4070 Ti 星极幻姬 OC上的AD104核心标配7680个CUDA,60个第三代RT Cores,240个第四代Tensor Cores,并且用上了12GB的GDDR6X显存,相比上代的提升还是很明显的,毕竟大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。
目前耕升 RTX 4070 Ti 星极幻姬 OC显卡上配备的这颗AD104-400核心可以算是完整的AD104核心了。完整的AD104核心应该包括5个GPC(图形处理集群)、30个TPC(纹理处理集群)、60个SM(流式多处理器)以及一个带有6个32Bit显存控制器的192Bit显存带宽。
不过以老黄精准的刀法来看,RTX 4070 Ti之下应该还有一张RTX 4070,笔者猜测,RTX 4070显卡应该还会延用AD104核心,不过会在RTX 4070 Ti的基础上进行阉割,衍生出AD104-300核心,性能会稍逊一筹,不过价格也会有一定优势。
耕升 RTX 4070 Ti 星极幻姬 OC的外包装还是相当有特点的,正面满满当当的赛博朋克风。在包装的右下角标明了自己的身份GeForce RTX 4070 Ti,而在左下角是型号星极皓月OC 12GB GDDR6X。
包装盒的背面就显得有些朴素了,主要介绍了耕升的品牌理念与星极系列显卡的独特设计。
耕升在包装盒的正面还特地标注了耕升 RTX 4070 Ti 星极幻姬 OC支持三年质保以及个人送保,玩家可以放心购买。
拆看包装就能看到耕升 RTX 4070 Ti 星极幻姬 OC的真容了,这款显卡的设计相当大胆,正面是冰川蓝与少女粉的渐变组合,极致的色彩碰撞,让显卡冷艳而又不失高贵。把它与其他显卡放在一起,它绝对是最迷人的存在。
正面的三把散热风扇格外引人注目,每把风扇都达到了92mm的直径,配合第二代耕升“炫风之刃”造形扇叶,特殊分叶型设计让风扇在相同的转速底下比传统扇叶拥有更大的风流量,进一步舒缓显卡温度,加强核心动态频率的提升幅度。
放大看细节,中间的散热风扇被银色风扇框所包围,造型酷似一只眼睛,四周的镂空其实是由耕升的 “G” Logo所组成,出色的设计中也藏有不少细节。
耕升 RTX 4070 Ti 星极幻姬 OC的背板由金属材质打造,可以给PCB提供充足的保护。正面的渐变色一直延申至背部,原本不起眼的背板也多了一分韵味。
背面还用上了穿透式散热设计,在金属背板的右方进一步加大积镂空间,配合散热器上第三组风扇的风流直接穿透散热鳍片以及镂空的PCB设计,令显卡温度进一步下降。
显卡顶部是巨大的“耕升GAINWARD”Logo,不点亮时有着银色的反光,在蓝粉渐变双色的映衬下格外显眼。
点亮后即可看到RGB灯效,同时包装盒内还附送了ARGB的显卡支架,跟显卡配合使用能够见到不一样的RGB效果。如果你的其他硬件支持灯效同步,那整套平台将还你一个酷炫的视觉盛宴。
供电接口使用的是在PCI-E 5.0规范中引入的12VHPWR供电接口,理论上可以提供最高600W的持续供电,供电仅需一根12VHPWR供电线即可,如果使用的是ATX 2.0标准的电源,也可使用赠送的2*8pin转12VHPWR转接。
显卡的底部则还是一如既往的简约,一大排鳍片出风口贯穿始终,并且紧贴金属背板,多重散热加持,相信耕升 RTX 4070 Ti 星极幻姬 OC在后续的测试中有不错的表现。
显卡底部的PCIe金手指为标准的PCIe 4.0 x 16速率,拥有更快的传输速度,有利于显卡释放更强的性能。
显卡提供4个视频输出接口,包括三个DisplayPort 1.4a和一个HDMI 2.1接口,均可实现最高8K 60Hz的视频输出,如果你是多屏党,这款显卡最大支持4屏输出,绝对能够满足你的需求。
不得不说的是这款显卡的厚度足足有64mm,也就是3槽的厚度,这对小体积的机箱会是不小的挑战,选购机箱时要注意长度跟厚度相匹配。
耕升 GeForce RTX 4070 Ti 星极幻姬 OC 显卡拆解
耕升 RTX 4070 Ti 星极幻姬 OC不仅有着吸睛的外观设计,内部构造也是极致豪华。拆解这款显卡仅需卸下背板螺丝即可。
最让人震惊的是短PCB设计,比RTX 3090 Ti还要短不少。并且还是8层PCB设计,既加强了散热,也保证了电路系统的稳定。
由于PCB正面的集成度较高,所以背部反而显得较为简洁一些,主要是一些供电的PWM控制芯片和滤波用的MLCC。
AD104-400-A1核心占据着PCB的C位,SMC 4N工艺打造,295mm2的芯片面积内塞下了7680个CUDA 核心,这也是它能够战胜RTX 3090 Ti的资本。
核心四周是6颗GDDR6X显存颗粒,来自美光科技,型号是2GU47 D8BZC,单颗显存容量为2GB,6颗显存共组成12GB。不过显存速率仅有21Gbps,相比大哥RTX 4080略低。
耕升为这款显卡配备了13相供电,其中11相为核心供电,位置安排在PCB的左侧,每相供电都配上固态电容、封闭电感,以及DrMos芯片。
剩下两相为显存供电,位置就在GDDR6X显存旁边,配置与核心供电保持一致。
DrMos芯片来自万国半导体,封装型号为BLN3,实际应为AOS的AOZ5311NQI-03,持续输出电流为55A。
PWM主控芯片是UPI的uP9512R,能够同时管理核心供电及显存供电,这个配置与绝大多数RTX 4070 Ti显卡一致。
供电配置都堆料了,供电接口也进行了换代升级,全新的12VHPWR接口单口就能够提供600W供电能力,用来带这张300W出头的耕升 RTX 4070 Ti 星极幻姬 OC可以说是绰绰有余了。
耕升 RTX 4070 Ti 星极幻姬 OC为了压制这颗满血的AD104核心,用上了全新的“幻姬22”散热器,独特的金属外壳配搭迷人色彩,冷艳而不失高贵。
从侧面看,“幻姬22”散热器相当的有分量,几乎与RTX 4080的散热器同等厚度了,这也让笔者对这款显卡的散热表现充满好奇。
散热器的一端是大面积的均热板,耕升在均热板上为显存、电感、MOS管接触的地方用上了高系数的导热垫辅助散热,就连AD104核心处也是厚厚的一层硅脂,基本上把能堆料的地方都拉满了。
散热器另一边是大面积紧密的散热鳍片,能够更快的将显卡内部的热量导出,让显卡保持“冷静”,全力输出。
厚重的散热器内还藏了8根6mm的复合式热导管,贯穿整个散热器,还用上了抗氧化能力极强的镀镍工艺,延长使用寿命。
“幻姬22”散热器上还有三把散热风扇作为主动散热,三把风扇的直径达到了92mm,散热能力一定是足够的。
风扇扇叶用的是经优化的耕升专用“炫风之刃”扇叶,改良后可以提升风流量,并减低声噪,有效加强散热,内外兼备。
测试平台介绍&理论/游戏性能测试
下面介绍一下这次的测试平台,还是我们评测室的最强平台,CPU使用的是目前的旗舰——Intel i9-13900K处理器,主板为华硕Z790 HERO,搭配金士顿的64GB DDR5-6000高规格内存,只有最强的硬件才能真正展示这张显卡的性能。
CPU、内存等硬件都是旗舰级了,那显示器也要衬得上才行,此次测试我们用的是爱攻&保时捷联名设计的AGON PD32M,miniLED背光、144Hz、高色域等一应俱全。因此耕升 RTX 4070 Ti 星极幻姬 OC才能在2K甚至4K分辨率下大放异彩。
测试前先用GPU-Z对显卡的状态与详细信息进行初步的了解,从图中可以知道,耕升 RTX 4070 Ti 星极幻姬 OC的基准频率为2310MHz,Boost频率去到了2685MHz,比一般的RTX 4070 Ti的2610MHz还要高出75MHz,可以预见它的性能会有不错的表现。
除此之外,我们还可以看到这款显卡的TGP设定最高去到330W,温度墙上限定在了88℃,这显然是给显卡超频预留了一定的空间。还有一点需要注意的是,在使用RTX 40系显卡前一定要确认主板的Resizable BAR功能是否开启,这样显卡才能够最大限度的发挥出全部性能。
国际惯例,先测试一下耕升 RTX 4070 Ti 星极幻姬 OC的理论性能,从3DMark测试成绩来看,耕升 RTX 4070 Ti 星极幻姬 OC相比前代RTX 3070 Ti有50%的性能提升,如果是对比RTX 3090 Ti,性能表现则与之相近,基本上是五五开的水平。
不过耕升 RTX 4070 Ti 星极幻姬 OC在部分场景下还是能够领先RTX 3090 Ti,像在以DX12为代表的Time Spy测试中,这款显卡就跑出了22836分,这一成绩比前代旗舰RTX 3090 Ti还要高出500分左右。
而在以DX11为代表的Fire Strike中,耕升 RTX 4070 Ti 星极幻姬 OC有着更出色的表现,测试成绩54948分,相比RTX 3090 Ti 的52129分足足提升近3000分,可以预见的是这款显卡在游戏方面应该比RTX 3090 Ti要强一些。
算力方面,我们使用AIDA64 GPGPU进行测试,虽然耕升 RTX 4070 Ti 星极幻姬 OC的显存位宽不及前代显卡,但得益于升级到了GDDR6X,以及用上了更新的Ada Lovelace架构,让这款显卡在单精度和双精度浮点运算以及显存速率上都当仁不让,丝毫不逊色于RTX 3090 Ti。如果是对比前代RTX 3070 Ti,那性能提升更是颠覆性,整体性能差距足足有1.7倍。
耕升 RTX 4070 Ti 星极幻姬 OC的游戏性能才是玩家真正关心的,这次我们也选择了10多款游戏在多个分辨率下进行测试。
首先是1080P分辨率,参测的几张显卡都很轻松,不过耕升 RTX 4070 Ti 星极幻姬 OC以更强的性能表现和更新的架构革新,还是能够领先RTX 3070 Ti 46%以上。相比RTX 3090 Ti也有10%的性能领先,不少游戏能够领先20 FPS左右。
在1440p分辨率下,耕升 RTX 4070 Ti 星极幻姬 OC显卡整体游戏性能仍是比RTX 3090 Ti要强上不少的,约领先10%左右的性能,如果是跟RTX 3070 Ti相比,这个领先幅度将扩大到52%之多。在我们实测中,有了耕升 RTX 4070 Ti 星极幻姬 OC加持后,基本大部分的游戏都能运行在120 FPS以上,那么我们配上目前主流的2K165Hz显示器完全是没有问题的。
4K分辨率下,耕升 RTX 4070 Ti 星极幻姬 OC与RTX 3090 Ti互有胜负,究其原因是RTX 3090 Ti有先天大显存的优势,因此在游戏体验中会稍稍领先。不过耕升 RTX 4070 Ti 星极幻姬 OC的性能还是比RTX 3070 Ti强不少,足足有127%左右的提升,另外这款显卡还有DLSS 3可用,所以实际游戏表现还是会比RTX 3090 Ti好不少。
DLSS 3性能测试
3DMark DLSS 3理论性能测试
还是老惯例,先测试一次理论性能,在3DMark的DLSS 3测试中,耕升 RTX 4070 Ti 星极幻姬 OC仅开启DLSS 2的情况下就已经能够实现2K@144Hz,4K@60Hz的游戏体验了;如果开启DLSS 3后,2K下帧数能够上升至160 FPS,4K画质下已经去到100 FPS。
8K画质其实我们也测试了,虽然DLSS 3下能够跑到54 FPS,但离稳定60 FPS还有一段距离,想要用RTX 4070 Ti玩8K可能还需要游戏能有神优化才能实现。不过这毕竟是一张定位2K高刷3A的游戏显卡,这样的理论性能表现笔者已经相当惊喜了。
《生死轮回》游戏实测
上面我们说到DLSS 3,现在已经有不少游戏支持最新的DLSS 3技术,这里笔者也选择了一款首发支持DLSS 3的《生死轮回》进行实测。在1080P下,开启DLSS 3的耕升 RTX 4070 Ti 星极幻姬 OC领先RTX 3090 Ti足足有100 FPS之多,2K分辨率下也能有60 FPS以上的领先幅度。当然最让人惊喜的是,耕升 RTX 4070 Ti 星极幻姬 OC的功耗全程仅有206W,足足比RTX 3090 Ti低180W,但却实现了超越RTX 3090 Ti的性能,不可谓不强大。
在其他游戏中,耕升 RTX 4070 Ti 星极幻姬 OC的表现也不错,在开启DLSS 3后,多款游戏的帧数表现都大幅领先RTX 3090 Ti,基本都是1.5倍左右的性能提升,并且游戏全程功耗都在300W以下,相比RTX 3090 Ti动辄近400W的功耗来说,这样的能耗比才是玩家所想看到的。用RTX 3090 Ti 50%的功耗实现了RTX 3090 Ti 150%的性能,售价还只有RTX 3090 Ti的一半,你还在等什么,这就是目前最具性价比的2K游戏显卡!
1080P分辨率 DLSS性能测试
1080P分辨率对于上代RTX 3070 Ti早已不是问题,对耕升 RTX 4070 Ti 星极幻姬 OC更是不在话下,DLSS 3的加持下,它的游戏性能已经是RTX 3070 Ti的两倍,即便是RTX 3090 Ti在场,耕升 RTX 4070 Ti 星极幻姬 OC依旧有70%以上的游戏性能优势。我们实测在1080P分辨率下,使用这款显卡搭配DLSS 3,不少游戏都能做到200 FPS,这完全是电竞级别在玩3A了属于是。
2K分辨率 DLSS性能测试
作为一张定位2K高刷3A游戏显卡,耕升 RTX 4070 Ti 星极幻姬 OC的表现果然不负众望,在DLSS 2下,这款显卡已经能够跟RTX 3090 Ti平分秋色了,开启DLSS 3后,即使是前代旗舰RTX 3090 Ti也无法跟耕升 RTX 4070 Ti 星极幻姬 OC相提并论,游戏性能领先足足有50%之多!并且从表中可以看到2K分辨率下,大部分游戏都在144 FPS以上,只要换上耕升 RTX 4070 Ti 星极幻姬 OC,2K分辨率高刷畅玩3A不再是梦。
我们也使用耕升 RTX 4070 Ti 星极幻姬 OC在DLSS 2和DLSS 3两种模式下测试了多款游戏,从实测结果来看,DLSS 3确实有点东西,不少游戏的帧数都有明显提升,其中不乏一些游戏有翻倍的性能提升。像《毁灭全人类2》这款游戏,耕升 RTX 4070 Ti 星极幻姬 OC在DLSS 2下游戏帧数为108 FPS,而开启DLSS 3后,游戏帧数达到了惊人的274 FPS,这已经不是老黄所说的翻倍,而是接近3倍的性能提升了!
4K分辨率 DLSS性能测试
耕升 RTX 4070 Ti 星极幻姬 OC在4K分辨率下开启DLSS 2后整体性能还是弱于RTX 3090 Ti,不过开启DLSS 3后,情况就有了逆转,实测大部分游戏在DLSS 3加持下能够跑到100 FPS,基本上与RTX 3090 Ti打得有来有回。不过想要用这款显卡玩4K@144Hz高刷3A,可能需要降低部分特效才行。
总的来说,耕升 RTX 4070 Ti 星极幻姬 OC在1080P和2K分辨率下已经超越了30系显卡中的旗舰RTX 3090 Ti,并且游戏帧数几乎都在144 FPS以上,完全符合它2K高刷3A游戏神卡的定位。而4K分辨率由于显存比RTX 3090 Ti小,因此互有胜负,不过好在老黄给这张卡加上了DLSS 3这个黑科技,所以开启DLSS 3后,耕升 RTX 4070 Ti 星极幻姬 OC的整体性能还是优于RTX 3090 Ti。
创作/专业生产力测试
理论与游戏上的性能提升让笔者对耕升 RTX 4070 Ti 星极幻姬 OC充满期待,在创作生产力上是否也是如此?我们选择PugetBench、PCMark 10、UL Procyon等多款常见的测试软件,来测试耕升 RTX 4070 Ti 星极幻姬 OC在日常办公、视频内容生产方面的表现。
首先看到的是PCMark 10 Extended测试,耕升 RTX 4070 Ti 星极幻姬 OC在数位内容创作与游戏两个子项目上不仅大幅领先RTX 3070 Ti,甚至一度超越了RTX 3090 Ti,这与上面实测的游戏性能一致,下面我们对数位内容创作进行更详细的测试。
在需要大显存的UL Procyon与PugetBench测试中,RTX 3090 Ti凭借24GB的超大显存稍稍领先于RTX 4070 Ti。不过两者的性能差距不到5%,并且耕升 RTX 4070 Ti 星极幻姬 OC还支持全新的AV1编码,这项功能能够大幅提升视频的导出速度,这是30系显卡所不具备的,因此越往后,耕升 RTX 4070 Ti 星极幻姬 OC的优势只会越来越明显。
不少用户买显卡也是为了能够更好的从事专业性的工作,因此这次我们也选择了Blender、V-Ray、OctaneBench等多款渲染、工业领域的软件测试耕升 RTX 4070 Ti 星极幻姬 OC的性能表现。
在N卡常用的Blender渲染软件中,耕升 RTX 4070 Ti 星极幻姬 OC相比RTX 3070 Ti有68%的性能提升,即便是30系的老大哥RTX 3090 Ti来了,这款显卡也毫不逊色,依旧领先10%以上!可以说耕升 RTX 4070 Ti 星极幻姬 OC已经全方位的领先于前代卡皇。
在OC渲染器与SPEC测试中,成绩也是如此,性能基本领先RTX 3090 Ti有10%左右。如果是RTX 3070 Ti就更不用说了,领先幅度能够去到70%。现在你想体验卡皇的性能仅需购买耕升 RTX 4070 Ti 星极幻姬 OC即可,一半的价格带你领略前代卡皇的魅力。
RTX 40系显卡在游戏上带来了DLSS 3,在视频创作上同样带来了黑科技,耕升 RTX 4070 Ti 星极幻姬 OC内置了双编码器NVENC,它支持时下热门的AV1编码,作为下一代主流的视频编码技术有着自己独特的优势,更快的编码速度和更高质量的流媒体传输性能,让越来越多的剪辑软件和视频网站青睐于它。
我们使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测同一段素材下,使用耕升 RTX 4070 Ti 星极幻姬 OC进行AV1编码会比H.265编码快不少;即使同样使用H.265编码,有双编码器的加持下,耕升 RTX 4070 Ti 星极幻姬 OC有着无可比拟的优势,编码效率比RTX 3090 Ti快60%以上。
导出速度快并不是AV1编码的唯一优势,它的文件占用空间也比H.265要小,无论是4K分辨率还是8K分辨率,使用AV1编码后,文件整体大小能够降低25%以上。并且肉眼下几乎感受不到AV1编码与H.265编码的画质区别,难怪越来越多的软件和视频网站开始支持AV1编码,不久的将来,它将会是主流趋势。
耕升 RTX 4070 Ti 星极幻姬 OC虽然是一张定位300W的中端游戏显卡,但耕升却为其配备了一个比肩RTX 4080的散热器,不得不说这样的散热配置给RTX 4070 Ti用有些大材小用了。
在室温25℃的情况下,使用Furmark单烤15分钟后,耕升 RTX 4070 Ti 星极幻姬 OC的GPU核心运行在2650MHz左右,但此时核心温度仅有68℃,显存更是仅有58℃,这跟前代RTX 3090 Ti动辄70℃起跳相比,能耗比堪称史诗级进步。
耕升 RTX 4070 Ti 星极幻姬 OC不仅仅是温控做得不错,功耗与噪音控制也相当优秀,烤机15分钟仅有286W,比前代卡皇RTX 3090 Ti低了足足100W,但性能却能够做到持平甚至超越!并且烤机状态下,风扇转速也不高,噪音也只有35dB,如果是放在机箱内,这个噪音水平几乎是听不到的。
为了更直观的展示耕升 RTX 4070 Ti 星极幻姬 OC的功耗表现,我们利用HWINFO64软件与FrameView软件双重记录多款显卡的功耗表现情况,从图中可以看到耕升 RTX 4070 Ti 星极幻姬 OC整体功耗控制相当出色,在所有测试场景内都没有突破300W,部分项目的功耗甚至不到RTX 3090 Ti的一半,但性能却已经超越,这样的表现难怪让一众游戏玩家高呼“真香“。
总的来说,老黄的Ada Lovelace架构和TSMC的4N工艺确实有点东西,耕升 RTX 4070 Ti 星极幻姬 OC无论是理论测试还是生产力创作,甚至是游戏场景都妥妥的吊打前代显卡,让这代显卡的每瓦性能实打实的提升到了一个新高度,这是30系显卡无论如何努力都无法企及的高度。
换装“幻姬22“散热器的耕升 RTX 4070 Ti 星极幻姬 OC在散热效能上有不少的提升,这也给超频提供了可能,因此笔者也测试了这款显卡的超频潜力。
我们使用的是耕升全新升级的GW-SOUL调控软件,这款软件不仅可以实时显示显卡频率,还可以一键超频,方便小白用户操作。当然风扇调节、RGB调控等基础功能也是应有尽有,下载这款软件几乎可以满足你对显卡的所有设置了。
笔者经过一系列的尝试,最终将显卡核心频率提升了150MHz,显存频率提升了500MHz,在这样的条件下运行3DMark Time Spy项目,最终耕升 RTX 4070 Ti 星极幻姬 OC的运行频率突破3000MHz,取得23921的高分,相比默频状态几乎高出2000分,性能提升还是相当可观的。
实际测完后不得不感叹RTX 4070 Ti显卡的性能确实强,老黄的Ada架构与DLSS 3功不可没,让这代显卡有着超乎预期的性能表现。同时换装TSMC 4N工艺后,显卡的能耗比相比上代30系也有了全新的改变,超低的功耗更强的性能成为40系显卡的标配。毫无疑问,这代显卡从里到外都是一次革新,处处皆惊喜。
再说说这次评测的主角——耕升GeForce RTX 4070 Ti 星级幻姬 OC,它的外观设计几乎是所有RTX 4070 Ti中最前卫的,单是双色渐变在辨识度上就超越了99%以上的显卡。不得不说耕升在显卡设计方面确实有一手,之前评测的炫光系列也是凭借独特的RGB灯效俘获玩家的芳心,现在在星极系列上用大胆跳脱的撞色设计让显卡依旧冷艳迷人。
然而耕升GeForce RTX 4070 Ti 星级幻姬 OC不单止在设计上有特色,在配置与性能上也是竭尽全力的给你最好的体验。得益于“幻姬22“散热器的超强散热能效与架构工艺的更新,让这款显卡能够以RTX 3090 Ti一半的功耗实现超越RTX 3090 Ti的性能!拥有这款显卡你就能够在2K画质下高刷畅玩3A,再加上这张显卡的售价仅有RTX 3090 Ti的一半,可以说它的出现,让大众玩家也能感受40系显卡的强悍性能。
耕升GeForce RTX 4070 Ti 星级幻姬 OC现已上市,售价7099元,考虑到其更强的频率设定与激进的散热配置,价格相比起步价6499元更高也是可以理解的。如果你最近想要更换一款性能强劲的显卡,那不妨看看耕升GeForce RTX 4070 Ti 星级幻姬 OC,更低的售价,超乎前代卡皇的性能相信一定能够满足你的需求。
功耗&超频&评测总结
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32 INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4070 Ti拥有60个SM,7680个CUDA核心,那你也就应该明白它的着色器能力进一步加强,即使比起上一代的卡皇RTX 3090 Ti显卡,那也是丝毫不虚的。
另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,其次核心的二级缓存进行进行了重新的设计,使得RTX 4070 Ti配备了48MB二级缓存,相比RTX 3070 Ti可以说是质的飞跃。
技术讲解:Ada Lovelace架构解析
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。
第三代 RT Cores
RT Cores用于光线追踪加速,第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。
在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代 RT Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态
三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
Displaced Micro-Meshes Engine
如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形 位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RT Cores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代 Tensor Cores
Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代Tensor Cores新增FP8引擎,具有高达1.32 petaflops 的张量处理性能,超过上一代的5倍。
技术讲解:第三代RT Cores与第四代Tensor Cores
或者说第四代Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS 3技术。
https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS 3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS 2)和NVIDIA Reflex。你可以理解为DLSS 3是在DLSS 2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。
想实现DLSS帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助 GeForce RTX 40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS 3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS 2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIA Reflex
NVIDIA Reflex也是DLSS 3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。
当GeForce RTX 40系列显卡和NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p 360Hz是很美好,但现实也是相当的骨感。
技术讲解:DLSS 3
GeForce RTX 40系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及Adobe Premiere Pro较为流行的Voukoder插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。
包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。