• 沙特球员世界杯惨败后遭处罚?沙特足协回应假的 2019-05-23
  • 习近平参加湖南代表团审议 2019-05-10
  • 鲜琦:感恩父亲节,永远难忘父亲这首歌(2) 2019-05-10
  • 韩国考虑重启朝鲜旅游项目--旅游频道 2019-05-02
  • 台风“艾云尼”携雨袭广州 消防出动紧急救援 2019-04-13
  • 潇湘玉竹版主下午好! 2019-04-13
  • 洞庭湖3万亩“私家湖泊”事件续:当地拆除矮围7200米 当事人被刑拘合同将解除 2019-04-12
  • 市委宣传部纪检组为扶贫提供坚强纪律保障 2019-04-12
  • 股市跌得再狠,照样削尖脑袋想去圈钱 2019-04-11
  • 尘暴席卷火星 “机遇”号休眠失联 2019-04-11
  • 聚焦两会:两会代表通道再启 回应社会热点 2019-04-10
  • 消委会教你如何挑选家居服 2019-04-08
  • Windows 10新版17692发布:游戏帧率显示加入Windows10新版17692发布-手机行情 2019-03-17
  • 运城市两部微电影喜获全国奖 2019-03-17
  • 安徽快3开奖走势图

     找回密码
     免费注册
      同板块主题的 前一篇 同板块主题的 后一篇
      开启左侧
      查看: 838|回复: 17
      楼主
      跳转到指定楼层

      快三安徽 开奖结果:[新款NVIDIA RTX 2080/RTX 2080 Ti评测:12年来最大革命

       [复制链接]
      源自:快科技2018

      一:前言:NVIDIA革命性跨越 显卡又热闹起来了
        作为GPU显卡行业的领头羊,NVIDIA的新产品发布节奏多年来一直非常稳,而且每一代都有极大的创新和提升(完全不知牙膏味儿),产品线布局十分丰富,生态系统合作也是有着厚实的积累相当完备。
        在显卡的江湖里,NVIDIA虽然说不上呼风唤雨,但始终也都是首屈一指的,GeForce更是几乎已经成了游戏卡的代名词。
        2016年5月,我们迎来了Pascal帕斯卡架构的GeForce GTX 10系列,不过当时恐怕谁都不会想到,帕斯卡家族的命会这么长,而新一代让我们苦苦等待了这么久。
        最近几代产品,NVIDIA都会选择当年的3-6月份春天或春夏之交来发布,一般在3月份的GTC图形技术大会上首次披露,但今年非常特殊,一直拖到了9月份,比往年晚了几乎半年。
        更令人称奇的是,NVIDIA这一次保密工作做的极好,直到发布前,我们都不知道新卡的架构是Volta伏特、Ampere安培还是Turing图灵,也不知道新卡的命名是GTX 10系列还是GTX 20系列,结果最终是RTX 20系列。
        出现这种局面,最主要的原因是这一代从架构技术到产品体系都发生了翻天覆地的变化,而研发全新一代架构、完善全新技术特性,都是需要花费无数精力、金钱和时间的(想想AMD Zen憋了多久才出来再想想Intel酷睿老本吃了多少年)。
        按照NVIDIA的说法,早在10年前就在设计和研发图灵架构了(当然当时应该没这个代号),主要是光线追踪方面,因为在此之前,光线追踪只能用于影视渲染,谁也不敢想象它能在游戏里实时呈现。

      最终,NVIDIA创造奇迹,为PC游戏带来了实时光线追踪(即便是有条件的),也难怪黄仁勋骄傲地宣称图灵架构是2006年引入CUDA统一着色核心以来最大的革命。
        而另一方面不得不面对的一个现实就是,显卡市场已经沉闷太久了,尤其是在电竞火热朝的形势下,显卡却迟迟没有跟上。
        作为市面上仅有的两大GPU巨头之一,AMD近些年全力投入Zen CPU架构,虽然硕果累累,但也导致GPU方面进展缓慢,Polaris北极星架构的RX 400/500系列只能在中低端市场混,Vega织女星架构的RX Vega系列在高端市场又不具备足够的竞争力。
        这种形势下,对手很容易懈怠,反正没什么压力,但幸运的是,NVIDIA并没有任性挤牙膏,反而奉上了一道更美味的大餐:全新架构、实时光线追踪、AI人工智能、GDDR6显存等都让人激动不已,而且第一次首发就奉上了三款新卡。
        长久的等待终于值了,整个显卡市场也再次热闹纷呈起来。

      接下来,我们就会探析一下这个革命性的Turing架构,以及全新的RTX 2080 Ti、RTX 2080两款高端型号到底表现如何。
      『 5熊猫网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
      1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 5熊猫网 』管理办法》;
      2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
      3. 本帖子由 九流 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 九流 的书面同意;
      4. 本帖子由 九流 发表,仅代表用户本人所为和观点,与『 5熊猫网 』的立场无关,九流 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
      5. 本帖子由 九流 发表,帖子内容(可能)转载自其它媒体,但并不代表『 5熊猫网 』赞同其观点和对其真实性负责。
      6. 本帖子由 九流 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
      7. 『 5熊猫网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
      雷诺公布EZ-Pro概念车 展望城市包裹递送的未来 贸易紧张局势缓解提振商品货币 英镑日内波动加剧
      2#
       楼主|九流 发表于: 2018-9-20 08:26:00|只看该作者
      ★本站推荐:发帖子前,请使用“排版助手”软件,让您的文章更悦目!★
      二:架构解析之全新内核体系
        既然是一个全新设计的架构,我们就要好好看一看这个以计算机科学之父、人工智能之父艾伦·麦席森·图灵(Alan Mathison Turing)命名
        的Turing图灵新架构到底有哪些过人之处,不过硬件架构总是伴随各种高深晦涩的技术名词、技术原理,即便专业人士也得好好研究才行,所以这里我们仅从高级层面,介绍一下新架构的大致设计、技术概况,以及能带来的实际好处。
        在以往,NVIDIA为专业级计算卡、消费级游戏卡设计的都是统一架构,只是具体内部??椴季?、技术支持、核心大小不同。好处是可以统一开发,降低成本,坏处是缺乏针对性,技术资源要么浪费要么不够。
        这一次,NVIDIA选择了分而治之。针对高性能计算、图形渲染、人工智能、深度学习等专业应用的是Volta伏特架构,目前只有一个超大核心GV100,是迄今为止GPU历史上最大的核心,台积电12nm工艺制造,集成多达210亿个晶体管,核心面积达815平方毫米,妥妥的怪物级核弹。
        而针对游戏显卡的就是Turing图灵架构,也是台积电12nm(有说法称最初计划使用三星10nm),其中最大的核心TU102集成189亿个晶体管,核心面积754平方毫米,是仅次于GV100的史上第二大GPU核心。
      相比上代Pascal帕斯卡家族的大核心GP102,它的晶体管数量增加了55%,面积则增大了60%,甚至是次级新核心TU104都超越了GP102,拥有136亿个晶体管、545平方毫米面积。

        新架构核心之所以如此庞大,除了CUDA核心规模继续增大、升级Shading着色渲染之外,更关键的是RT Core光线追踪核心、Tensor Core人工智能核心的加入,这也是新架构革命性变化的根本支撑。
      拥有全新着色性能的SM CUDA核心阵列、支持高达每秒100亿条光线计算的RT光线追踪核心、为实时游戏画面导入AI人工智能加速的Tensor核心,三者就构成了图灵架构的三大支柱,各自有不同分工又互相协作,共同实现新的游戏渲染画面。

        同时,NVIDIA强调新架构的单个CUDA核心着色渲染性能是帕斯卡架构的1.5倍,第一次可以在4K分辨率、HDR开启的情况下,提供流畅的游戏体验,真正开启4K时代。
        按照NVIDIA的说法,RTX 2080就能基本实现4K分辨率下60FPS的游戏帧率,RTX 2080 Ti更是能够达到70-80FPS。当然具体还要看游戏需求,以及游戏设置,特别是某些高要求的技术特性,光线追踪打开后别说4K了,就连1080p就比较吃力。
        图灵架构的基本组成单元之一还是CUDA核心与SM流处理器阵列,这也是2006年的G80以来NVIDIA GPU的基石。
        事实上,图灵架构的SM阵列也融合了伏特架构的不少特性,相比帕斯卡架构差别还是挺大的,比如每一组TPC里的SM阵列由一个增至两个,同时SM内部的组成方式也截然不同。
        帕斯卡架构每个SM阵列集成128个FP32浮点单元,图灵架构则改成了2个FP64双精度浮点单元、64个FP32单精度浮点单元、64个INT32整数单元、8个Tensor核心、一个RT核心。支持浮点和整数并发操作,并有新的执行数据路径,类似伏特架构汇总的独立线程调度。
        按照NVIDIA的统计,每执行100个浮点指令,平均会有36个整数指令,两种指令可以并发执行。
        如此一来,帕斯卡架构的整数和浮点计算就可以分配得更加均衡,并与新的Tensor、RT核心相配合,更合理、高效地完成各种负载。
        整体而言,图灵核心的CUDA阵列可以每秒执行14万亿次FP32浮点操作、14万亿次INT32整数操作。
        缓存架构也彻底变化,由两个载入/存储单元牵头,一级缓存和共享缓存整合在一起,而且容量灵活可变,可以是64KB+32KB,也可以是32KB+64KB,大大降低了延迟,带宽也翻了一番。
      二级缓存容量则从3MB翻倍到6MB。

        NVIDIA宣称,新架构每个CUDA核心的着色渲染性能比上代平均提升50%,部分游戏可达70%左右,VRMark虚拟现实测试成绩甚至翻了一番还多。
        当然这只是基础理论上的数字,实际性能还要看其他部分和整体指标。
        图灵架构还首发搭配新一代GDDR6显存,目前业界最快,等效频率高达14GHz,搭配352-bit位宽可以带来616GB/s的惊人带宽,相比于GTX 1080 Ti在位宽不变的情况下提升了27%,也比用了2048-bit HBM2高带宽显存的AMD RX Vega 64高了27%。
        而且关键是,GDDR6的成本比HBM2低得多。
        另外,NVIDIA还对新显存进行了各种优化,信号窜扰降低了40%,更利于运行稳定和进一步超频。
      部分图片、文章来源于网络,版权归原作者所有;如有侵权,请联系(见页底)删除
      3#
       楼主|九流 发表于: 2018-9-20 08:26:00|只看该作者
      三:架构解析之RT核心、光线追踪
        图灵架构和RTX 20系列的最大亮点和卖点当然是──游戏实时光线追踪!
        从第一颗GPU NVIDIA GeForce 256诞生至今已经整整19年,GPU规模和技术越来越发达,但是最底层的图形渲染技术其实几乎一成不变,始终都是光栅化渲染,通过计算三角形和多边形来获得画面输出,好处是资源消耗容易控制,坏处就是距离真实画面相差甚远,甚至永远不可能接近。

      光线追踪(Ray Tracing)技术则堪称图形界的“圣杯”,简单地说就是在图形渲染过程中实时跟踪物体和环境的光线,准确进行光线反射和折射、全局照明、物理阴影的绘制,可以带来近乎百分之百真实的渲染画面,尤其是光影效果。
        光线追踪技术其实并不新鲜,1969年的时候在IBM工作的Arthur Appel就提出了这种概念,当时叫做Ray Casting,距今已经整整半个世纪。
        1979年,Turner Whitted研究出了递归光线追踪算法(Recursive RayTracing Algorithm)。
        1984年,Carpenter等人发表了一篇关于分布式光线追踪的论文《Distributed RayTracing》,影响甚广。
        但是,光线追踪的算法非常简单,稍有计算机图形只是的人都能理解,关键在于如何优化提高效率,因为它需要的计算量太过庞大,想想要实时计算场景中无数光线每时每刻的各种传播,那是多么恐怖,以前的GPU根本无力承担实时计算。
        因此直到2006年迪士尼的《汽车总动员》(Cars),影视行业才开始使用光线追踪渲染,如今大多数的照片级渲染系统多时基于光线追踪的,但背后都是超大规模的计算机群在吃撑,一帧画面往往都要渲染几个小时。
        虽然大家都在努力,但就在一个月前,如果说普通显卡可以在游戏里实现光线追踪(尽管是有条件的),相信绝大多数人都不会相信,但是NVIDIA的图灵做到了。

      NVIDIA在图灵架构中集成了最多72个RT Core核心,每个SM单元一个,专门用来服务光线追踪运算,等于一个特殊的专用单元,由硬件加速取代软件模拟,效率自然要比CUDA这种通用单元高很多,就像GPU做并行计算比CPU强得多。
        简单来说,图灵架构的光线追踪运算步骤是这样的:着色器单元首先发出光线探测请求,RT Core核心就开始完全接管下边的工作,并分为两个过程,其中包围盒求交评估单元(Box Intersection Evaluators)进行包围盒的获取和解码,并进行求交测试,得到子包围盒或者三角形。
        如果是子包围盒,就返回重新执行,重复刚才的步骤。如果是三角形,那就交给三角形求交评估单元(Triangle Intersection Evaluators),做下一步的求交测试,直到得到最终结果并输出给着色器,进行最终渲染。
      看懵了对吧?懵了就对了……
        整个光线追踪计算过程中,运用的主要是BVH算法,也就是Bounding Volume Hierarchy Traversal,层次包围盒遍历的意思。
        比如渲染对象是一只兔子,要几算一条光线和兔子本身的交互,就把兔子所在空间划分成N个包围盒,计算光线和哪一个包围盒相交,是的话就再把这个包围盒继续划分成N个更小的包围盒,再次计算相交,如此反复,一直找到和光线相交的三角形所在的包围盒,再对这个三角形进行最终的渲染。
        BVH算法可以大大减少计算每一条光线最近相交点所需要遍历的三角形数量,而且只需要进行一次就能给所有光线使用,大大提高了执行效率。
        除了硬件方面的工作,软件方面既有NVIDIA自己的OptiX光线追踪引擎、GameWorks SDK光线追踪模
        块,也有微软的DirectX 12 Ray-Tracing(DXR)API、Windows ML中间件,后者会在即将发布的Windows 10 2018年秋季更新版中正式提供。

      性能方面,RTX 2080 Ti在精简了四个只有68个RT核心的情况下,每秒钟可以计算超过100亿条光线,大约等于100TFlops(每秒1000亿次浮点运算)。
        而上代GTX 1080 Ti虽然也能执行光线追踪,但因为没有专用单元和算法,效率只有RTX 2080 Ti的大约十分之一,不足以实时用于游戏。
        接下来欣赏欣赏NVIDIA RTX光线追踪的效果和对比:
      ↑↑↑官方DEMO
      ↑↑↑官方DEMO
        目前支持NVIDIA光线追踪技术的游戏有11款(和首发时相比没变),分别是:
        - 《神力科莎》(Assetto Corsa Competizione)
        - 《原子之心》(Atomic Heart)
        - 《战地5》(Battlefield V)
        - 《控制》(Control)
        - 《应征入伍》(Enlisted)
        - 《逆水寒》(Justice
        - 《剑网3》(JX3)
        - 《机甲战士5:雇佣兵》(MechWarrior 5:Mercenaries)
        - 《地铁:离去》
        - 《Project DH》
        - 《古墓丽影:暗影》(Shadow of the Tomb Raider)
        不过,RTX 20系列上市初期,可以玩的光线追踪游戏暂时还是零,比如《古墓丽影:暗影》首发不支持得后期打补丁,《战地5》则跳票了。
      4#
       楼主|九流 发表于: 2018-9-20 08:26:00|只看该作者
      四:架构解析之Tensor核心、AI加速
        NVIDIA在伏特架构上引入了全新的专用处理??門ensor Core,也就是张量计算核心,重点用来支持深度学习、高性能计算(也是晶体管大户)。

      图灵架构则是在游戏卡上引入Tensor Core,同时针对游戏图形应用做了大量的调整优化,尤其是浮点精度方面。
        Tensor的意思是张量,不同于我们常见的标量(零维)、矢量(一维)、矩阵(三维),拥有三维或者更高维度,简单地说就是一个数据容器,可以包含多个维度的数据。
        现在火热的深度学习,就运用了超大规模的数据运算,其中就经?;嵊玫骄卣笕诤铣思樱‵MA)运算,Tensor核心就是为这种矩阵数学运算专门服务的。
        它可以对两个4×4 FP16浮点矩阵进行相乘操作,然后将结果加入到另一个4×4 FP16/FP32浮点矩阵中,最终输出新的4×4 FP16/FP32矩阵,这叫做混合精度数学运算,因为输入矩阵是半精度,结果则可以达到全精度。
        每个时钟周期内,图灵架构的Tensor核心可以执行64个FMA运算,从而大大加速矩阵运算,可用于新的神经实时图形渲染、深度学习训练和推理。

      图灵架构每个SM阵列里有8个Tenor核心,总计576个,完整支持114TFlops FP16浮点运算(每秒114万亿次),同时支持228TOPS INT8、455TOPS INT4整数运算(每秒228亿次、455亿次),后者是伏特架构里没有的。
        NVIDIA把看起来高深莫测的Tensor核心放到游戏卡里,显然不是做专业运算的,其深度学习能力也是为游戏服务的,结合新的神经图形框架(Neural Graphics Framework),简称NGX,可以在游戏中实现DLSS深度学习超采样抗锯齿、AI Super Rez超级分辨率、AI Slow-Mo慢动作、AI InPainting等等。
        这些计算繁琐、资源消耗巨大的操作,在以往也可以实现,但会付出很大的代价,效果也不尽如人意,如今有了新的Tensor核心,就可以建立属于GPU核心自己的DNN深度神经网络,将AI融入游戏。
      NVIDIA已经向游戏引擎开放NGX API,将其融入其中,实现底层加速。
        另外和很多AI应用类似,NVIDIA GeForce Experience软件的作用也非常重要,它会自动匹配显卡型号,从云端训练的AI模型哪里下载相应的NGX软件包,并定期更新,达到越用越好、甚至是因人而异的效果。

      AI Super Rez:
        有点类似高清视频中常见的Up Scaling,但是引入了人工智能和深度学习之后,可以实现近乎“无损放大”,原来的画面分辨率放大2倍、4倍乃至8倍,仍然清晰锐利。

      AI Slow-Mo:
        超级慢动作我们并不陌生,现在不少高端手机都支持240FPS、480FPS乃至是960FPS的慢动作视频录制。图灵架构可以对普通的30FPS视频进行智能插帧运算,得到240FPS/480FPS的慢动作视频,也就是说你不需要专门的高帧率摄像头,就可以获得很流畅的慢动作视频。

      AI InPainting:
        可以抹掉画面中不需要的内容,也可以智能补全缺失的内容,完全超越PS抠图的存在。它同样来自现实中大量真实世界图片的训练推理。
        其实,慢动作和修图这两项在之前就曾有相关报道,显然NVIDIA在硬件、算法两个方面都实现了真正的突破。
        接下来就是重中之重的DLSS(深度学习超采样抗锯齿)。
        我们知道,传统的光栅化图形渲染画面会存在各总各样的锯齿(狗牙),所以GPU厂商都会在后期处理中加入各种各样的AA抗锯齿技术,但传统抗锯齿都是由GPU去运算的,效果参差不齐不说,最关键的是会消耗大量的GPU资源,开启之后让游戏卡得没法玩再正常不过了。

      DLSS深度采样超采样抗锯齿则和传统抗锯齿技术走了一条完全不同的路,它是在NVIDIA超级计算机上进行训练,而不再消耗GPU本身的资源。
        针对每一款游戏,NVIDIA会在运算建立对应的训练神经网络,收集大量的64x超采样数据,对像素点进行64次偏移着色合成输出,理论上可以获得近乎完美的抗锯齿平滑效果,同时还会对比和普通渲染画面之间的差异,调整网络权重,反复迭代,最后获得更合理的抗锯齿画面效果,还可以避免传统TAA时间抗锯齿的运动模糊等问题。

      云端训练完成后,NVIDIA会通过GFE软件将成果分发给玩家,再用到游戏中,而且随着游戏运行得越多,DLSS学习效果就会越来越优化,甚至每个玩家都可以得到属于自己的不同效果。
        当然了,这也意味着NVIDIA需要和每一款游戏或者每一个游戏引擎合作,去进行专门的优化,还是相当费时费力的,不过考虑到NVIDIA在游戏行业广泛深入的合作关系,这方面倒不必担心。
        尤其是随着合作优化的深入,NVIDIA完全可以建立起属于自己的技术壁垒,让对手望尘莫及,进一步带动大量玩家忠实地跟随NVIDIA。
        以上是2x DLSS与传统64x SSAA、TAA的效果对比,大家可以仔细观察一下画面细节。
        更神奇的是,DLSS因为基本不需要消耗GPU本地资源,因此可以大大释放GPU性能,让其专心渲染游戏,提升性能。
        比如根据官方数据,Epic的《渗透者》(Infiltrator)游戏里,4K分辨率下1080 Ti开启TAA平均帧率还不到40FPS,2080 Ti开启DLSS则能达到80FPS,提升了整整一倍!
        游戏支持方面也不是啥大事儿,RTX 20系列发布之初就有16款游戏(PPT上写错了),现在产品还没完全上市就已经增加到25款。
        首发名单如下:
        - 《方舟:生存进化》(Ark:Survival Evolved)
        - 《原子之心》(Atomic Heart)
        - 《无畏》(Dauntless)
        - 《最终幻想XV》(Final Fantasy XV)
        - 《破碎之地》(Fractured Lands)
        - 《杀手2》(Hitman 2)
        - 《奈恩群岛》(Islands of Nyne)
        - 《逆水寒》(Justice)
        - 《剑网3》(JX3)
        - 《机甲战士5:雇佣兵》(Mechwarrior 5:Mercenaries)
        - 《绝地求生》(PlayerUnknown’s Battlegrounds)
        - 《遗迹:灰烬重生》(Remnant:From the Ashes)
        - 《英雄萨姆4:星球恶棍》(Serious Sam 4:PlanetBadass)
        - 《古墓丽影:暗影》(Shadow of the Tomb Raider)
        - 《锻造竞技场》(The Forge Arena)
        - 《少数幸运儿》(We Happy Few)
        新增名单如下:
        - 《暗黑血统3》(Darksiders 3)
        - 《飞向月球:财富》(Deliver Us The Moon:Fortuna)
        - 《恐惧群狼》(Fear the Wolves)
        - 《地狱之刃:塞娜的献祭》(Hellblade:Senua‘s Sacrifice)
        - 《KINETIK》
        - 《前哨零》(Outpost Zero)
        - 《超杀:行尸走肉》(Overkill‘s The Walking Dead)
        - 《人渣》(SCUM)
        - 《风暴奇兵》(Stormdivers)

      这其中有5款游戏同时支持RTX光线追踪和DLSS抗锯齿技术,分别是《原子之心》、《逆水寒》、《剑网3》、《机甲战士5:雇佣兵》、《古墓丽影:暗影》。
      部分图片、文章来源于网络,版权归原作者所有;如有侵权,请联系(见页底)删除
      5#
       楼主|九流 发表于: 2018-9-20 08:26:00|只看该作者
      五:架构解析之混合渲染、高级渲染
        图灵架构虽然引入了光线追踪,但以现在的GPU性能和技术算法,显然不可能把一切渲染都交给光线追踪,传统的光栅化渲染依然离不开。
        因此,NVIDIA在图灵架构中使用了混合渲染流水线(Hybrid Rendering Pipeline),针对不同的工作负载,分别使用CUDA核心的光栅化渲染、RT核心的光线追踪渲染、Tensor核心的计算渲染的一种或多种组合,获得渲染效率的最大化。
        当然,在典型的混合渲染场景中,也不会同时用到三种渲染方式。
        如此一来,如何衡量图灵架构的实际渲染性能,就不能用以前的算法了,而要根据三种不同渲染方式的使用程度,综合衡量。
        以上就是在一个典型的渲染场景中,图灵架构各种渲染方式的组合分配,一般而言80%的时间里使用着色器FP32浮点运算、28%的时间使用着色器INT32整数运算、40%的时间使用RT核心、20%的时间使用Tensor核心FP16浮点运算。
        比如RTX 2080 Ti,结合各个部分的峰值性能,最终的渲染性能就是:

      14×80%+14×28%+100×40%+114×20=78T
        NVIDIA给这个结果自定义了一个单位RTX-OPS,可以理解为RTX显卡每秒钟能执行的操作数,也就是780亿次。
        与此同时,图灵架构也引入了多种新的、更高级的Shade着色渲染技术。

      比如网格渲染(Mesh Shading):
        面对复杂、庞大的场景,不再逐一计算每一个物体的所有细节,而是由GPU灵活地计算物体细节等级(LOD),踢出被遮挡的,削弱低细节的,再加上传统曲面细分技术,更高效地生成真正实际需要的三角形,也能大大减轻CPU负担。

      可变率着色(Variable Rate Shading):
        按照场景中的复杂度不同,分区域动态调整着色速率和资源分配,目的还是减轻GPU负担、避免不必要的资源浪费,最终有利于提升渲染效率、游戏帧率。
        可变速率着色渲染有很多应用场景,比如内容适应性着色(CAS)、动作适应性着色(MAS)、注视点选择性渲染、镜头优化。就不一一展开了。
        多角度渲染(Multi-View Rendering)、纹理空间共享(Texture-Space Sharing)。
      6#
       楼主|九流 发表于: 2018-9-20 08:26:00|只看该作者
      六:架构解析之视频、输出、虚拟现实
        作为显卡,除了渲染游戏画面,视频编解码、输出显示也都是基础工作,而且这一代NVIDIA还特别强化了对VR虚拟现实的支持。
        视频编解码方面,图灵架构已经可以支持到VP9、HEVC(H.265)10/12-bit HDR解码,同时支持HEVC 8K30fps HDR实时编码,可节省最多25%的码率,H.264格式也能节省最多15%。
        根据NVIDIA的数据,图灵架构显卡进行视频直播时,1080p分辨率6K码率、4K分辨率40K码率的CPU占用率都只需1%,掉帧率也是1%甚至为零,相比之下帕斯卡就有点惨不忍睹了。
        显示输出方面,图灵新卡既有标准的HDMI 2.0b、DisplayPort 1.4
        接口(同时为DP 1.4a标准做好了准备),分别最高支持4K/60fps、8K/60fps
        输出,并首次加入了USB Type-C接口,用于支持VirtualLink VR应用,提供三个HBR3 DisplayPort通道,支持USB 3.1 Gen.2 10Gbps速度,可提供最大27W供电能力。
        VirtualLink标准由NVIDIA、Oculus、Valve、AMD/微软牵头制定,是一种开放的行业标准,可以让VR头显摆脱多条线缆的束缚,只需一根高速USB Type-C数据线,就可以直连显卡和VR头显。
        而现在的VR头显,比如说HTC Vive,就需要HDMI、USB、电源三条线。
      部分图片、文章来源于网络,版权归原作者所有;如有侵权,请联系(见页底)删除
      7#
       楼主|九流 发表于: 2018-9-20 08:26:00|只看该作者
      七:架构解析之三大核心与型号
        图灵家族除了架构本身变化巨大,产品体系也和以往明显不同,首发一口气就是三款型号RTX 2080 Ti、RTX 2080、RTX 2070,而且分别对应三个不同核心TU102、TU104、TUF106,而以往的x80、x70都是共享一个核心。
        具体原因不详,可能是新一代核心太大,x70直接用大核心阉割成本比较高,还不如再造一个省钱的小核心。
        这就是最顶级的TU102核心,186亿个晶体管、754平方毫米面积确实不是盖的。

      内有4608个CUDA核心,分为6组GPC、36组TPC、72组SM阵列(每组SM 64个CUDA核心),同时有72个RT核心、576个Tensor核心、288个纹理单元、96个ROP光栅单元,二级缓存容量6MB,寄存器文件18MB,352-bit位宽。
        不过,RTX 2080 Ti并未完全使用整个TU102核心,而是有所精简,仅提供4352个CUDA核心(68组SM阵列),RT核心则减少为68个,Tensor核心544个。
        目前只有Quadro RTX 8000用了完整的TUF102,可能是初期良品率不足,优先供给专业市场,也可能是功耗和发热在游戏卡上不好控制,还有可能是留一手……

      RTX 2080 Ti的核心频率基础为1350MHz,加速频率FE公版做到了1635MHz,非公版则规定是1545MHz,当然大家可以随意超频。

      显存搭配11GB GDDR6,等效频率14GHz,带宽为616GB/s,整卡功耗260W。

      TU104核心,136亿个晶体管,545平方毫米,比帕斯卡家族的大核心GP102都要大一圈。
        它集成了3072个CUDA核心,划分为6组GPC、24组TPC、48组SM(每组SM还是64个),同时有192个纹理单元、64个ROP单元、384个Tensor核心、48个RT核心,二级缓存容量4MB,寄存器文件12MB,显存位宽256-bit。
      </b></p>
      RTX 2080同样没有用满TU104核心,而是精简了两组SM,提供2944个CUDA核心、368个Tensor核心、46个RT核心,完整版还是在专业卡上,Quadro RTX 6000。
        RTX 2080核心基础频率1515MHz,加速频率非公版1710MHz,公版直接定在1800MHz,搭配8GB GDDR6显存,等效频率14GHz,带宽448GB/s,功耗225W。

      它的渲染性能为60 TRX-OPS,相比于RTX 2080 Ti削弱了23%,光线追踪性能8 GigaRays/s(每秒80亿条光线),削弱了20%。

      TU106核心,108亿个晶体管,445平方毫米,相比GP102也只是分别差了10%、6%,更可见图灵家族的庞大。
        TU106核心內建2304个CUDA核心,分为3组GPC、18组TPC、36组SM阵列(每组继续64个),同时有144个纹理单元、64个ROP单元、288个Tensor核心、36个RT核心,二级缓存容量4MB,寄存器文件9MB,显存位宽还是256-bit。

      RTX 2070终于用了完整的TU106核心,核心频率基础1410MHz,加速公版1710MHz、非公版1620MHz,继续搭配8GB 14GHz GDDR6显存,功耗185W。

      渲染性能45 RTX-OPS,相比于RTX 2080 Ti、RTX 2080分别低了25%、42%,光线追踪性能6 GigaRays/s(每秒60亿条光线),分别低了25%、40%。
        图灵家族三大核心与帕斯卡家族大核心GP102对比。
      8#
       楼主|九流 发表于: 2018-9-20 08:26:00|只看该作者
      八:图赏:16相数字供电 售价万元的双风扇“煤气灶”
        以下是RTX 2080的图赏。
        RTX 2080包装盒。
        公版RTX 2080显卡的外观有了巨大的变化,放弃以往的涡轮散热,转而采用开放式双风扇设计,加上银色金属机身,看起来像极了“煤气灶”。
        一块巨大的全覆银色金属背板,背板厚度达到了3mm,具有良好的散热效果。
        8+6PIN的供电输入,可以提供350W的输入功率。
        抛弃了传统的SLI接口,采用了第二代NVIDIA NVLink高速互联方案,能提供100GB/s的双向带宽,并且大大降低了延迟。
        拆开扇热器后的PCB本体,RTX 2080采用TU104核心,拥有136亿晶体管,几乎2倍于GTX 1080。显存采用的美光GDDR6 14000MHz,单颗1GB,一共8颗组成256Bit 8GB,显存带宽达到了448GB/s。
        供电部分采用了8相核心+2相显存的供电方案,并且大量采用了高端的钽电容,供电规模及用料远远超过了公版的GTX 1080(6+1相供电)。
        散热器可以完美贴合PCB上每一个发热的元件,显卡不会出现某个部分温度过高的情况。
        以下是RTX 2080 Ti的图赏。
        RTX 2080 Ti包装盒。
        与RTX 2080一样,RTX 2080 Ti也同样舍弃了以往的涡轮散热,转而采用双风扇设计,看上去就是一个价值一万元的煤气灶。
        银色全覆金属背板,也同样是和RTX 2080一样,没有什么区别。
        双8Pin供电,最高能提供400W的收入功率。
        同样采用了第二代NVIDIA NVLink高速互联方案。
        RTX 2080 Ti采用TU102核心,拥有189亿晶体管。
        显存采用的美光GDDR6 14000MHz,单颗1GB,一共11颗组成352Bit 11GB,显存带宽达到了616GB/s。
        供电部分则采用了14+2一共16相供电方案,顶级非公都很难达到这样的规模,看来售价万元的显卡在用料方面果真是舍得下本钱。
        散热器可以完美贴合PCB上每一个发热的元件,显卡不会出现某个部分温度过高的情况。
      部分图片、文章来源于网络,版权归原作者所有;如有侵权,请联系(见页底)删除
      9#
       楼主|九流 发表于: 2018-9-20 08:26:00|只看该作者
      九:测试平台:5.2GHz的i7-8086K助阵
        测试平台如下:
        最新的GPU-Z 2.10.0已经可以准确识别RTX 2080、RTX 2080 Ti。
        i7-8086K基于八代酷睿Coffee Lake构架,14++纳米工艺制造,核心面积约150平方毫米,拥有六个核心十二线程,睿频加速达5GHz,这是Intel史上第一颗默认能跑到5GHz频率的处理器。
        为了尽可能的发挥RTX 2080 Ti强大的性能,我们将此U超频到了5.2GHz。
        主板选用了华硕MAXIMUS X HERO,拥有高达10相超合金数字供电,超频能力在Z370主板中属于顶级水准。BIOS已经更新到最新版本。
        内存使用了影驰HOF II DDR4-4000 8GBx2套装,测试中开启XMP保持4000MHz频率,时序为19-25-25-45 CR2。
        机箱采用了酷冷至尊顶级的H500M型号,其前置双200mm风扇以及大面积的金属散热孔 能够将机箱内部热量快速排出,有效降低电源和硬盘的温度。
        机箱背部的金属铠甲将背线打理的井井有条,看上去十分干净。
        我们采用的显示器是LG 38UC99,其支持的最高分辨率为3840×1600,测试中的4K分辨率就是指的这个。
        测试平台使用的是酷冷至尊MasterWatt Maker1200W钛金电源。
        MasterWatt Maker1200W是目前顶级的双路电源,转换效率高达93%。双路12V输出,每路限流50A即600W的功率。
        MasterWatt Maker 1200采用的是全模组设计,不同功能的模组接口都有着不同的外形,以防止玩家误接。
        为了压制5.2GHz的i7-8086K,散热器采用了九州风神顶级的船长280一体水冷散热器。
      10#
       楼主|九流 发表于: 2018-9-20 08:26:00|只看该作者
      十:1080P分辨率测试:RTX 2080碾压帕斯卡全系 处理器开始瓶颈
        Turing的核心构架完全不同于以往的产品,从Kepler到Maxwell到再到Pascal,每一个CUDA核心都就是由FP32单元构成。
        而Turing每一个CUDA核心除了有一个FP32的单精度浮点单元之外,还有一个INT32的单精度整数单元。每8个CUDA单元搭配一个TENSOR核心,64个CUDA CORE+8个TENSOR CORE再加上一个RT CORE构成一组SM(其实每一组SM中还有2个FP64双精度浮点单元,只是下图并没有标示出来)。
        根据NVIDIA的说法,INT32可以为每个CUDA核心带来36%的性能提升,再加上L1缓存带宽的成本增加以及降低延迟,最终图灵每个CUDA核心相比帕斯卡能有50%的性能提升。
        图灵是否真如所说还是需要具体的测试来验证,下面正式进入游戏测试环节。
        3DMark Time Spy
        RTX 2080 Ti的3DMark Time Spy跑分,图形分数达到了13597。
        RTX 2080 Ti的3DMark Time Spy跑分,图形分数达到了10838。
        在3DMark Time Spy 测试中,RTX 2080超越了GTX 1080 Ti,领先了20%,相比GTX 1080的7393分则提升了46%之多。
        RTX 2080 Ti比GTX 1080 Ti提升了52%。
        3DMark Fire Strike Extreme
        2013年诞生的3DMark Fire Strike其实已经不再适合充当最新显卡的测试工具,RTX 2080的表现不如GTX 1080 Ti,有500分的差距,但是依然比GTX 1080强了22%。
        RTX 2080 Ti相比GTX 1080 Ti有21%的提升。
        GTA V
        《GTA V》于2015年登陆PC平台,全平台的销量已经超过了1亿,算是 10年来最成功的单机大作,现在依然人气不减。
        画质手动调为最高特效,开启MSAA 2×以及NVIDIA TXAA,分辨率为1920×1080,显存占用3422M。
        1080P分辨率下受制于CPU性能瓶颈,RTX 2080 Ti与RTX 2080帧数几乎一样,比GTX 1080 Ti只有2帧的优势,比起GTX 1080多了14帧。
        刺客信条:起源
        《刺客信条:起源》是由育碧制作并发行的《刺客信条》系列历史上规模最大的一个。本作采用开放地图沙盒玩法,游戏几乎呈现了整个古埃及王国,画质与风景无人能出其右。
        测试时开启极高画质,分辨率为1920×1080。
        图灵的2张显卡都过了100帧,RTX 2080领先GTX 1080 19帧,RTX 2080 Ti比GTX 1080 Ti多了12帧。
        孤岛惊魂5
        《孤岛惊魂5》是一款由育碧(Ubisoft)制作的第一人称射击游戏。已于2018年3月正式发售。
        在《孤岛惊魂5》中,RTX 2080 Ti领先GTX 1080 Ti 23帧,RTX 2080领先GTX 1080 29帧。
        古墓丽影10
        画面设置为1920×1080 FXAA、DX12+默认非常高画质。
        RTX 2080 Ti帧数达到了204,领先GTX 1080 Ti 32帧这是第一次有显卡能在1080P最高画质下跑出200+的帧数。RTX 2080领先GTX 1080 33帧。
        GTX980Ti在进行此项测试时,若选择DX12模式,帧数会爆降30%,因此该卡是以DX11进行的游戏测试。
        古墓丽影11
        《古墓丽影:暗影》是一款由Eidos Montreal工作室制作的动作冒险游戏,本作是重启版《古墓丽影》的系列第三作,已于2018年9月15日正式发售。该游戏在后续的补丁中将提供对RTX系列显卡DLSS与光线追踪技术的支持。
        画面设置为1920×1080 FXAA、DX12+手动最高画质。
        在古墓丽影11中,RTX 2080 Ti跑出了142帧,领先GTX 1080 Ti 37帧。
        RTX 2080也有117帧,比GTX 1080多了28帧。
        绝地求生
        虽然已经发售了一年之久,《绝地求生》依然是目前最火的PC游戏,经过蓝洞工作室数次优化,现在已经能较为完善的支持6核处理器。
        由于本游戏没有提供测试程序,我们选在训练场中选择了一块无人场地,反复进行多次帧率测试,确认每次得到的结果差距都在2%以内。
        受制与CPU性能,RTX 2080 Ti与RTX 2080跑出了同样的帧数,相比GTX 1080 Ti领先了27帧,比起GTX 1080则有45帧的优势。
        奇点灰烬
        《奇点灰烬》作为一个老牌的PC游戏测试项目,目前已经优化了8核处理器支持,它对处理器和显卡的要求都非常高。
        测试时选择Crazy画质、DX12模式、分辨率为1080P
        在《奇点灰烬》中,RTX 2080 Ti跑出了107帧,领先GTX 1080 Ti 25帧。
        RTX 2080也有98帧,领先GTX 1080 Ti 15帧,领先GTX 1080 29帧。
        突出重围:人类分裂
        《杀出重围:人类分裂》是Square Enix为PS4开发的次世代FPS类游戏,该游戏是目前所测试游戏中对显卡性能要求最高的一款。测试时画质
        RTX 2080 Ti帧率为93FPS,领先GTX 1080 Ti 25帧。RTX1080则有74帧,领先GTX 1080 Ti 19帧。
        生化?;?
        《生化?;?》是卡普空制作的生存恐怖类游戏《生化?;肥直嗪畔盗械诎瞬?,有着全新的恐怖求生体验,玩家的视觉切换为更骇人的虚拟实境“隔离视觉”模式,写实感提升至一个全新的境界。
        游戏的测试方式为从开局下车地点走到教堂门口,记录20秒帧数。
        《生化?;?》对CPU性能没有太高要求,在1080P最高画质下,RTX 2080 Ti跑出了了313FPS的高帧率,领先GTX 1080 Ti将近60%。
        RTX 2080也有243帧,领先GTX 1080 Ti 44帧,比GTX 1080快了83帧,领先幅度也有51%。
        守望先锋
        《守望先锋》暴雪娱乐第一次涉足FPS领域的作品,2016年曾经火爆全球,影响力一度超过了LOL,即便是现在仍然还有相当数量的玩家活跃在游戏中。
        由于游戏没有提供测试程序,我们选在训练关卡中从出生地一直向前奔跑,用Fraps记录20秒帧数。测试时打开10
        《守望先锋》游戏内锁死了300帧,所以RTX 2080 Ti最多也就能跑到300帧,相比GTX 1080 Ti领先了55帧。
        RTX 2080成绩为266帧,领先GTX 1080 同样也是55帧。
        文明6
        《文明6》是由Firaxis Games开发,2K Games负责发行的策略类游戏,该游戏是游戏设计师席德·梅尔创作的《文明》系列的第6部。
        测试时选择最高画质,并将所有材质分辨率调到最高。
        《文明6》也是一款几度需求CPU性能的游戏,除了RX580之外,其他几款显卡帧数都没有多少区别,最强的RTX 2080 Ti也就比GTX980Ti快了不到5%。
        巫师3
        《巫师3》为《巫师》系列游戏作品的第三部,也是杰洛特冒险的终曲。层获第33届金摇杆奖最佳剧情、最佳视觉设计、最佳游戏时刻,更获得IGN 2015年度最佳游戏。
        游戏内没有提供测试程序,测试场景选在一处山坡,测试时骑马直线奔驰,用Fraps记录20秒帧数。
        在1080P最高画质下,RTX 2080 Ti跑出了136帧,比GTX 1080 Ti快了43帧,领先幅度将近50%。
        RTX 2080帧数为115FPS,领先GTX 1080 32帧。
        中土世界:战争之影
        在最高画质下,同时开启TAA抗锯齿,RTX 2080 Ti能跑出160FPS的帧率,领先GTX 1080 Ti 39帧
      部分图片、文章来源于网络,版权归原作者所有;如有侵权,请联系(见页底)删除
      您需要登录后才可以回帖 登录 | 免费注册

      本版积分规则

      GMT+8, 2019-5-27 01:51, Processed in 0.280801 second(s), 10 queries, Gzip On, MemCache On
      同板块主题的 后一篇 !last_thread! 快速回复 安徽快3开奖走势图 返回列表
    • 沙特球员世界杯惨败后遭处罚?沙特足协回应假的 2019-05-23
    • 习近平参加湖南代表团审议 2019-05-10
    • 鲜琦:感恩父亲节,永远难忘父亲这首歌(2) 2019-05-10
    • 韩国考虑重启朝鲜旅游项目--旅游频道 2019-05-02
    • 台风“艾云尼”携雨袭广州 消防出动紧急救援 2019-04-13
    • 潇湘玉竹版主下午好! 2019-04-13
    • 洞庭湖3万亩“私家湖泊”事件续:当地拆除矮围7200米 当事人被刑拘合同将解除 2019-04-12
    • 市委宣传部纪检组为扶贫提供坚强纪律保障 2019-04-12
    • 股市跌得再狠,照样削尖脑袋想去圈钱 2019-04-11
    • 尘暴席卷火星 “机遇”号休眠失联 2019-04-11
    • 聚焦两会:两会代表通道再启 回应社会热点 2019-04-10
    • 消委会教你如何挑选家居服 2019-04-08
    • Windows 10新版17692发布:游戏帧率显示加入Windows10新版17692发布-手机行情 2019-03-17
    • 运城市两部微电影喜获全国奖 2019-03-17