3060ti锁算力显卡性能怎么样_3060ti锁算力显卡的性能怎么样
3060ti显卡锁算力的版本已经确定要上线了,锁算力是一件好事但是这款显卡的性能有没有受到影响呢?小编就来为各位感兴趣的小伙伴来介绍一下3060ti锁算力显卡的性能吧。
1.3060ti显卡最新消息
影驰近期发布了两款锁算力的 RTX30 系列显卡—— RTX3060 大将 OC [ FG ] 和 RTX3060Ti 黑将 [ FG ] 。后缀 [ FG ] 就是代表限制挖矿算力的意思。
这些新显卡的游戏性能是不受影像的,只是限制了挖矿算力。
需要注意的是,对于这些锁算力的新显卡,早期的 NVIDIA 显卡驱动是不能使用的,用户们需要到 NVIDIA 网站下载最新的驱动程序使用。
2.3060ti显卡值得买吗
现在来自Videocardz的消息已经确认,Nvidia RTX 3060 Ti显卡将会在RTX 3070发布之后不久推出。同样该显卡也是Nvidia RTX 30系列中第一款带Ti后缀的显卡,根据WhyCry的说法,目前还没有关于非Ti版本RTX 3060的消息,而Ti版本将会在此之前发布。
非公版RTX 30系列
NVIDIA GeForce RTX 3060 Ti显卡将配备GA104-200 GPU,但是来自wccftech的消息却称它将配备新款GA106 GPU,同时RTX 3060 TI显卡还将具有4864个CUDA内核(比RTX 3070少1024个内核或8个SM),与Nvidia GeForce RTX 3070相似。此外RTX 3060 Ti将具有8GB的GDDR6显存,时钟频率为14 Gbps。总线带宽将保持在256 Bit,这大约会应提供448 GB / s的带宽。
RTX 3090显卡
看过Nvidia RTX 3090和RTX 3080性能评测的朋友应该发现了,在这两款显卡在游戏性能方面的差距非常小,尽管RTX 3090在堆料方面要超过RTX 3080许多,由此可见RTX 30系列的堆料大多体现在了专业应用上面,对于游戏提升却很小,由此我们可以判定RTX 3060 Ti显卡的游戏性能应该并不会降低多少。
显卡天梯图
就供电来看,Nvidia RTX 3060 Ti显卡的TDP大约为200W左右,但是考虑到它的频率,其真实功耗大约也就180W,与上代RTX 2070的175W相比,RTX 3060 Ti大约增加了5W。就显卡规格来看NVIDIA GeForce RTX 3060 Ti将比RTX 2080 Ti多512个内核,如果显卡频率相同的话,RTX 3060 Ti在性能方面应该也会完虐RTX 2080 Ti显卡。尽管该显卡的具体发布日期尚未确定,但是Nvidia AIC厂商内部路线却指向了10月底。
新产品型号
对于想要3K购买RTX 2080 Ti显卡的朋友来说,RTX 3060 Ti或许才是你最优的选择。
3.性能
NVIDIA GeForce RTX 3060 Ti采用了NVIDIA Ampere架构,我们首先来看一下RTX 3060 Ti的提升。
第二代RTX架构 Ampere下的3060 Ti
相较于初代的Turing RTX架构,NVIDIAAmpere架构在算力上有着成倍的增长,这一点在RTX 3060 Ti中依旧有体现,每个时钟执行2次着色器运算,而Turing为1次,RTX 3060 Ti的着色器性能达到16.2 TFLOPS单精度性能,而Turing为7.2 TFLOPS。
NVIDIAAmpere架构翻倍了光线与三角形的相交吞吐量,RT Core达到31.6 RTTFLOPS,而Turing为21.7 RT TFLOPS。
全新的Tensor Core可自动识别并消除不太重要的DNN权重,处理稀疏网络的速率是Turing的两倍,算力高达129.6 TensorTFLOPS,而Turing为57.4 TensorTFLOPS。
NVIDIA GeForce RTX 3060 Ti采用GA104核心拥有174亿个晶体管,392平方毫米的面积,基于三星的8nm NVIDIA定制工艺,另外在RTX 3060 Ti中我们都知道仍然采用了GDDR6显存,不过不同于RTX 3080的Micron,RTX 3060 Ti采用了三星的GDDR6显存。
我们在发布会中经常听到性能翻倍的说法,其实是因为本次NVIDIAAmpere的SM在Turing基础上增加了一倍的FP32运算单元,这就使得每个SM的FP32运算单元数量提高了一倍,同时吞吐量也就变为了一倍。
而通常我们计算显卡的CUDA数量,并不是把SM中的所有单元加起来计数,而是只统计FP32单元的数量,所以这样一来,SM中的【FP32 : INT32】 从 1:1 变为 2:1。
RTX 3060 Ti共有4864个CUDA,其实它有2432个INT32单元,但由于内部的FP32数量翻了一倍,所以最终实现了4864这个惊人的数字。
而这样粗暴的提升CUDA数量对于游戏其实有着非常大的帮助,通常在游戏中浮点运算相比整数计算要常用的多,图形、算法以及各种计算操作中着色器工作负载通常需要混合使用FP32算数指令,而FP32的加速也有助于光线追踪降噪着色器。
光追工作原理示意
在此次的NVIDIAAmpere架构中,NVIDIA官方宣布为第二代RT Core,它和第一代有什么不同呢。首先要知道RT Core的工作原理是,着色器发出光线追踪的请求,交给RT Core来处理,它将进行两种测试,分别为边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersectiontesting)。基于BVH算法来判断,如果是方形,那么就返回缩小范围继续测试,如果是三角形,则反馈结果进行渲染。
而光线追踪最耗时的正是求交计算,因此,要提升光线追踪性能,主要是对两种求交(BVH/三角形求交)进行加速。
RT Core的变化
在Turing的RT Core中,可以每个周期完成5次BVH遍历、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一个新的三角形位置插值模块以及一个的额外的三角形求交模块,这样做的目的是为了提升诸如运动模糊特效时候的光线追踪性能。
运动模糊渲染原理
第二代RT Core可以让光线追踪与着色同时进行,进行的光线追踪越多,加速就越快,它将光线相交的处理性能提升了一倍,在渲染有动态模糊的影像时,按照NVIDIA自己的实测,比Turing快8倍。
稀疏深度学习
Tensor Core可以看作是GeForce RTX GPU上的AI大脑。可加速用于深度神经网络处理功能的线性代数,这是现代AI的基础。例如用于AI超分辨率的NVIDIA DLSS和用于AI增强的声画处理技术NVIDIA Broadcast应用。
在本次的NVIDIA Ampere架构的Tensor Core也得到了极大地加强,在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自动识别并消除不太重要的DNN(深度神经网络)权重,同时依然能保持不错的精度。
首先原始的密集矩阵会经过训练,删除掉稀疏矩阵,再经过训练稀疏矩阵,从而实现稀疏优化,进而提高Tensor Core的性能。
与此次RTX 30系显卡一同发布的还有一项新技术——RTX IO。目前很多游戏动辄几十G甚至百G的安装空间,对于存储空间的负担暂且不提,但存放在硬盘中的数据,如果显卡想要读取到,需要先由CPU从硬盘中读取压缩过的数据,经过解压缩再发送到显存中。
虽然随着NVMe SSD的推出,读取速度相较机械硬盘能够快20倍,但受制于传统I/O限制,NVMe高达7GB/秒的高速读写对于CPU是极大的负担。