历代GPU架构全解析DirectX至.docx

资源描述

历代GPU架构全解析DirectX至.docx

《历代GPU架构全解析DirectX至.docx》由会员分享，可在线阅读，更多相关《历代GPU架构全解析DirectX至.docx（39页珍藏版）》请在冰点文库上搜索。

历代GPU架构全解析DirectX至.docx

历代GPU架构全解析DirectX至

NVIDIA与ATI（AMD）的GPU之战，远比Intel和AMD的CPU之战有意思，毕竟双方的实力差距并没有那么悬殊，经常斗得是难解难分。

N/A的连年征战给我们带来无与伦比游戏画面和优秀产品的同时，也为喜欢IT技术的朋友带来了许多乐趣和谈资，只有深爱硬件技术的朋友才能有所体会。

　　掐指一算，从GPU诞生至今双方都已推出了十代产品，每一代产品之间的对决都令无数玩家心动不已，而其中最精彩的战役往往在微软DirectXAPI版本更新时出现。

虽说胜败乃兵家常事，但NVIDIA和ATI每一代产品谁更强大似乎有某种规律可循，而且与DirectX有着某种微妙的关系。

　　相信很多人都有这种感觉，似乎谁与微软走的更近，谁能最先支持新版DirectXAPI，谁就能占据更多的优势。

但也有例外，比如DX8.1对于Radeon8500的帮助有限，DX10.1也没有给HD3000带来好运。

其实这些只是表象，如果我们能够透过现象看其本质的话，就会发现DirectX与GPU的架构是有直接关系的，而GPU架构的优劣直接了决定一代产品的成败。

　　所以，今天我们就抛开GPU的晶体管数、管线/流处理器规模、工艺、频率、功能等等技术参数不谈，我们将关注的焦点集中在GPU体系架构方面。

看看每逢DirectX版本有重大更新时，NVIDIA与ATI是如何博弈的，克敌制胜的关键到底是什么？

　　DirectX7.0特性：

硬件T&L

　　在DirectX5.0以前，这个被微软整合在Windows操作系统内部的图形API并没有现在这么风光，当时的显卡和游戏都以支持OpenGL和Glide（3DFX的专用API）为荣，DirectX在持续不断的改进与发展，但始终都没能超越对手，一方面基于DOS系统的Windows还不够强大，另一方面微软的影响力还没到左右游戏开发商和芯片厂商的地步。

　　直到Windows95发布之后，全新的图形界面让整个业界都兴奋不已，90%的占有率直接带动了整个行业的需求，也迫使全球软硬件厂商都不得不向其靠拢。

此时整合Win95整合的DirectX6.0也有了足够的实力与OpenGL/Glide分庭抗力，在技术特性不输与人的情况下，DirectX的影响力与日剧增。

　　●DirectX7.0确定权威：

核心技术T&L

　　DirectX7.0是一次革命性的改进，其最大的特色就是支持Transform&Lighting（T&L，坐标转换和光源）。

　　3D游戏中的任何一个物体都有一个坐标，当此物体运动时，它的坐标发生变化，这指的就是坐标转换；3D游戏中除了场景＋物体还需要灯光，没有灯光就没有3D物体的表现，无论是实时3D游戏还是3D影像渲染，加上灯光的3D渲染是最消耗资源的。

基于T&L技术的演示Demo

　　在T&L问世之前，位置转换和灯光都需要CPU来计算，CPU速度越快，游戏表现越流畅。

使用了T&L功能后，这两种效果的计算用显卡核心来计算，这样就可以把CPU从繁忙的劳动中解脱出来，让CPU做他该作的事情，比如逻辑运算、数据计算等等。

换句话说，DX7显卡用T&L渲染游戏时，即使没有高速的CPU，同样能能流畅的跑3D游戏。

　　DirectX7.0架构：

首颗GPUGeForce256

★首颗GPU诞生：

GeForce256（NV10）

　　T&L优秀的特性成为当时业界关注的焦点，那么首款支持DX7与T&L的显卡自然备受期待，NVIDIA的GeForce256就是这样一款划时代的产品，为了突出它先进的技术特性，NVIDIA将GeForce256的显示核心称为GPU（GraphicProcessingUnit，图形处理器）。

　　GeForce256所采用的核心技术除了硬件T&L之外，还有立方环境材质贴图、顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素、256位渲染引擎等诸多先进技术。

在性能大幅提升的同时，3D游戏的画面得到了质的提升。

　　此后发布的GeForce2GTS就是GeForce256的提速版本，架构、规格和技术没有多少改变。

因此可以说GeForce256就已经确立了当今GPU的整体架构雏形，我们可以看到它拥有专门的坐标转换与光源引擎，还有装配引擎、渲染管线、后期处理模块等等，这些功能单元基本都被沿用至今。

　　★两强争霸局面形成：

Radeon256

　　在DX7大势所趋的局面下，ATI也发布了首款DX7显卡，其命名都与NVIDIA惊人的一致——Radeon256，由此掀开了NVIDIA与ATI、GeForce与Radeon争霸的局面。

Radeon256独特的单管线3纹理架构

　　Radeon256同样支持硬件T&L、环境贴图和凹凸贴图，还支持Hyper及和DOT3压缩技术，Radeon256只有两条渲染管线，但每条管线拥有多达3个纹理单元，而GeForce256每条管线只有1一个纹理单元，GeForce2GTS才改进为2个。

但遗憾的是Radeon256的第3个贴图单元直到它退市的时候也没有任何程序能够支持它，同时令人诟病的驱动也令用户大为恼火。

　　Radeon256及其衍生的RadeonVE/LE/SE等都是优秀的产品，技术与架构不输给GeForce系列，功能甚至还更丰富，但糟糕的软硬件支持度导致它无法同GeForce相抗衡，口碑和市场都不如人意。

　　★小结：

DX7架构平分秋色，硬件规格决定性能

　　GeForce256与Radeon256的基本架构是相同的，不同的是管线设计，GeForce256拥有更多4条管线，但纹理单元也只有4个；Radeon256虽然只有2条管线，但每管线拥有3个纹理单元，而且工作频率很高，因此在理论性能上占优势。

　　在当时来说，游戏大量使用了各种纹理贴图，因此对纹理单元提出了很高的要求，所以NVIDIA在GeForce2GTS当中改进为单管线双纹理。

NVIDIA管线：

纹理=1:

2、ATI管线：

纹理=1:

3的架构都维持了很多年，直到DX9时代才有了较大的变化。

　　DirectX8.0特性：

像素和顶点管线

●DirectX8.0：

引入像素和顶点两大渲染管线

　　面向图形计算，让GPU逐渐找到了自己的方向，那就是给予用户更真更快地视觉体验，但是GPU架构也遇到一些问题亟待解决。

首要问题就是，要实现更加复杂多变的图形效果，不能仅仅依赖三角形生成和固定光影转换，虽然当时游戏画面的提高基本上都是通过大量的多边形、更复杂的贴图来实现的。

　　但后期的发展中，顶点和像素运算的需求量猛增。

每个顶点都包含许多信息，比顶点上的纹理信息，散光和映射光源下表现的颜色，所以在生成多边形的时候带上这些附加运算，就可以带来更多的效果，但这也更加考验顶点和像素计算能力。

　　2001年微软发布了DirectX8.0，一场新的显卡革命开始，它首次引入了ShaderModel的概念，ShaderModel就相当于是GPU的图形渲染指令集。

其中像素渲染引擎（PixelShader）与顶点渲染引擎（VertexShader）都是ShaderModel1.0的一部分，此后每逢DirectX有重大版本更新时，ShaderModel也会相应的升级版本，技术特性都会大大增强。

　　与DX7引入硬件T&L仅仅实现的固定光影转换相比，VS和PS单元的灵活性更大，它使GPU真正成为了可编程的处理器，时至今日DX11时代ShaderModel都在不停地更新，以便渲染出更逼真更完美的画面。

这意味着程序员可通过它们实现3D场景构建的难度大大降低，但在当时来说可编程性还是很弱，GPU的这一特性还是太超前了。

DX8动态光影效果展示：

变色龙和不同角度的人脸

　　DirectX8.0当中的PixelShader和VertexShader的引入，使得GPU在硬件逻辑上真正支持像素和顶点的可编程，反映在特效上就是动态光影效果，当时波光粼粼的水面都是第一次展现在玩家面前。

　　但是DX8的普及之路并不顺畅，主要是因为当时的DX8显卡都定位太高，NVIDIA和ATI双方都没有推出过低端DX8显卡，热卖的产品都是DX7，直到DX9诞生之后，双方才把昔日高端的DX8显卡当作低端产品处理。

　　DirectX8.0架构：

N/A争霸开始

★首款DX8显卡：

GeForce3Ti

　　在DX8之前，无论NVIDIA还是ATI，都在强调显卡前端及后端输出。

而Shader理念提出之后，双方逐渐将竞争重点放在了显卡的渲染核心部分——像素渲染管线和顶点渲染管线，无论是GeForce3Ti还是Radeon8500都内置的规格和频率更强的PS和VS单元。

当然也对显卡的后端ROP（光栅化引擎，负责完成像素的输出）也做了相应的改进，各种各样的多重采样AA模式和材质过滤技术逐步得以实现。

　　上图就是GeForce3的核心架构图，可以看出，由于DX8渲染模式的改变，GeForce3相对于DX7的GeForce2/256有了天翻地覆的变化，一半以上的模块需要重新设计（绿色部分）。

GeForce3的顶点管线设计

　　硬件规格方面，GeForce3依然只有4条渲染管线，每条管线内置2个纹理单元，这与上代的GeForce2没有区别。

但是GeForce3的核心晶体管数竟然是GeForce2的两倍以上，额外的晶体管大都用在了顶点管线部分，虽然它只有一个顶点着色单元。

这个顶点着色单元其实就是一个4DSIMD（单指令多数据流）处理器，可以计算最多16项数据的顶点，这在当时来说运算能力已经非常富裕了。

　　不过，主流的游戏还是基于DX7开发，因此GeForce3的VS单元很多时候都派不上用场，由此导致GeForce3在DX7游戏当中领先GeForce2Ti的优势并不大，毕竟它们的像素渲染管线和纹理单元数目是相同的，频率也没有提升太多。

　　★ATI直上DX8.1：

Radeon8500

　　DX8方面ATI再次落后于NVIDIA，但后发制人也有好处，ATI直接采用了微软更新的DX8.1API，因此在硬件特性方面要更胜一筹。

不过DX8.1的改进极为有限，只是改进了大纹理水波纹的效能，未能得到整个业界的重视。

　　Radeon8500与DX7版的Radeon系列相比，架构上也产生了翻天覆地的变化，除了加入顶点引擎外，更多尚处于实验性的技术都被置于其中，而且2D输出部分的功能更为丰富，可以说在技术和功能方面完全超越了GeForce3Ti。

　　规格方面，Radeon8500拥有4条像素渲染管线，这与GeForce3是相同的，但是8500拥有2个顶点着色单元，而GeForce3只有1个，这就使得8500的理论性能更占优势。

纹理单元方面ATI放弃了管线：

纹理=1:

3的设计，采用了与NVIDIA相同的1:

2设计，因为第3个纹理单元在多数游戏中都毫无用处，这样双方的纹理单元数量也完全相同。

　　★小结：

DX8架构ATI更出色，NV性能更强

　　整体来看双方都是重新设计的优秀架构，考虑到众多的特色功能和技术，Radeon8500的确要优于GeForce3Ti。

这是在3DFX灭亡之后，第一次有一家公司对NVIDIA造成如此大的压力，所以NVIDIA发布了更高频率的GeForce3Ti500才勉强夺回性能之王的宝座。

当然NVIDIA成熟稳定的驱动和长期积累的用户口碑以帮助GeForce3Ti力压Radeon8500系列。

　　后期NVIDIA推出更多管线的GeForce4Ti自然拥有更强的DX8性能，但考虑到ATI方面没有与之相对应的产品，就不做对比了，因为ATI已经直接进入了DX9时代。

DirectX9.0特性：

高精度渲染

　　●DirectX9.0：

高精度渲染时代来临

　　2002年底，微软发布DirectX9.0，如果从技术规格上看，DX9似乎没有DX7和DX8那种让人眼前一亮的革命性技术，它只是将ShaderModel版本从1.0升级到2.0而已。

其实不然，此次ShaderModel指令集的改进让图形渲染画质提高到了新的水平。

　　首先，PixelShader2.0具备完全可编程架构，能对纹理效果即时演算、动态纹理贴图，还不占用显存，理论上对材质贴图的分辨率的精度提高无限多；另外PS1.4只能支持28个硬件指令，同时操作6个材质，而PS2.0却可以支持160个硬件指令，同时操作16个材质数量，新的高精度浮点数据规格可以使用多重纹理贴图，可操作的指令数可以任意长，电影级别的显示效果轻而易举的实现。

3DMark03中的最后一个场景就是DX9渲染，让人眼前一亮

　　其次，VertexShader2.0通过增加顶点指令的灵活性，显著的提高了老版本的顶点性能，新的控制指令，可以用通用的程序代替以前专用的单独着色程序，效率提高许多倍；增加循环操作指令，减少工作时间，提高处理效率；扩展着色指令个数，从128个提升到256个。

Radeon9700所提供的HDRDemo

　　另外，增加对浮点数据的处理功能，以前只能对整数进行处理，这样提高渲染精度，使最终处理的色彩格式达到电影级别。

突破了以前限制PC图形图象质量在数学上的精度障碍，它的每条渲染流水线都升级为128位浮点颜色，让游戏程序设计师们更容易更轻松的创造出更漂亮的效果，让程序员编程更容易。

　　DirectX9.0架构：

"真DX9"大获全胜

★首款DX9显卡——Radeon9700

　　当NVIDIA沉浸于GeForce4Ti大获全胜的DX8时代时，ATI在DX9标准正式确立之前就提前发布了Radeon9700显卡，打得NVIDIA措手不及。

这款产品来得如此突然，以至于ATI发布之时甚至没有提供相关技术PPT/PDF。

　　由于DX9相比DX8并没有改变3D渲染流程，仅仅是强化了ShaderModel指令集，因此R300的架构相比R200改进并不大，主要的变化是规模的扩充与外围控制模块的加强。

比如：

首次使用256bit显存控制器、类似CPU的FCBGA封装、更先进的纹理压缩技术以及后期处理单元。

R300的顶点和像素着色单元结构

　　当然，R300的Shader单元经过了重新设计，定址、色彩和纹理单元都支持浮点运算精度，这是它能够完美运行DX9程序的关键。

R300核心拥有8条像素渲染管线及4个顶点着色单元，每条像素管线中只有1个纹理单元。

至此ATI的像素与纹理的比例从1:

3到1:

2再到1:

1，在DX9C时代将会进一步拉大至3:

1，也就是风靡一时的3:

1架构，当然这是后话了。

　　★NVIDIA遭遇滑铁卢——GeForceFX5800

　　NV30核心采用了业界最先进的0.13微米工艺制造，并使用了最高频率的GDDR2显存，而且发布时间较晚，理应占尽优势才对。

但是这一次NVIDIA没能跟上微软的步伐，不仅在时间上晚于ATI，而且在DX9技术方面也未能超越。

NV30的架构存在较大的缺陷，NVIDIA艰难的完成了从DX8到DX9的过渡，但结果很不理想。

　　从宏观上说，NV30的整体架构更像是一个DX7（固定功能TRUET&L单元）、DX8（FX12combiner整数处理单元）、DX9（浮点像素单元）的混合体。

而在DX9的应用中，不能出现非浮点精度的运算，所以前两者是不起作用的，造成了NV30晶体管资源的浪费，同时也影响了性能。

　　NV30的PiexlShader单元没有Co-issue（标量指令+矢量指令并行处理）能力，而在DX9中，单周期3D+1D是最常见指令处理方式，即在很多情况下RGB+A是需要非绑定执行的，这时候NV30就无法并行执行，指令吞吐量大大降低。

其次，NV30没有miniALU单元，也限制了NV30的浮点运算能力（在NV35中DX8整数单元被替换为miniALU）。

　　另外，NV30在寄存器设计（数量及调用方式）、指令存储方式（读写至显存）等方面也有缺陷。

NV30的寄存器数量较少，不能满足实际程序的需要。

而且，用微软的HLSL语言所编写的pixelshader2.0代码可以说NV30的“天敌”，这些shader代码会使用大量的临时寄存器，并且将材质指令打包成块，但是NV30所采用的显存是DDR-SDRAM，不具备块操作能力。

同时，NV30材质数据的读取效率低下，导致核心的Cache命中率有所下降，对显存带宽的消耗进一步加大。

　　由于NV30是VILW（超长指令，可同时包含标量和SIMD指令）设计类型的处理器，对显卡驱动的Shader编译器效率有较高的要求。

排列顺序恰当的shader代码可以大幅度提升核心的处理能力。

在早期的一些游戏中，这种优化还是起到了一定的作用。

但对于后期Shader运算任务更为繁重的游戏则效果不大。

　　最终，虽然NV30与上代的NV25相比架构变化很大，但性能方面全面落后与对手的R300。

不过NV30的架构还是有一定的前瞻性，ATI的R600在Shader设计方面与NV30有很多相似之处。

　　★小结：

非“真DX9架构”导致NV30失败

　　现在再来看看，相信没人会认为DX9的改进有限了。

正是由于NVIDIA没能适应DX9所带来ShaderModel指令的诸多改进，采用DX8+DX9混合式的架构，才导致NV30存在很大缺陷，在运行DX9游戏时效率很低。

另外冒险采用先进工艺、不成熟的GDDR2显存、128bit位宽这些都极大的限制了NV30的性能，即便在DX8游戏中都无法胜过R300。

　　而ATI则占据天时地利人和等一切优势，完全按照DX9标准而设计，甚至在DX9标准确立之前就早早的发布了DX9显卡，这不免让人感觉ATI和微软之间存在微妙的关系，“阴”了NVIDIA一把。

　　DirectX9.0c特性：

震古烁今的HDR

这是DirectX历史上唯一一次半代更新就引起渲染大波的版本，DirectX9.0c，大名鼎鼎的HDR技术诞生。

　　●DirectX9.0c：

无与伦比的光影渲染

　　DX9也是一次革命性的改进，但由于没有代表性的关键技术，以至于被广大用户所忽视，其实ShaderModel从1.0升级到2.0给图像渲染品质带来了巨大的提升。

DX9的第三个版本DX9C则更进一步，将ShaderModel从2.0升级至3.0，这一次又能带来什么呢？

　　ShaderModel3.0除了继续扩展指令长度之外，还提升了指令执行能力，它开始支持动态分支操作，像素程序开始支持分支操作（包括循环、if/else等），支持函数调用。

因此DX9C和SM3.0标准的推出，可以说是DirectX发展历程中的重要转折点。

　　SM3.0除了取消指令数限制和加入位移贴图等新特性之外，更多的特性都是在解决游戏的执行效率和品质上下功夫，SM3.0诞生之后，人们对待游戏的态度也开始从过去单纯地追求速度，转变到游戏画质和运行速度两者兼顾。

因此SM3.0对游戏产业的影响可谓深远。

　　以上诸多改进相信很多人都不关心也不想知道，绝大多数人记住的只有一个，那就是只有DX9C显卡才支持HDR技术，因为HDR所带来华丽的光影效果给所有人都留下了深刻的印象，那种从暗淡无光到流光溢彩的美好回忆，可以说是前无古人后无来者的！

　　HDR的全称是HighDynamicRange，即高动态范围，是一种色彩存储方式，在游戏用于存储渲染和光照数据。

HDR渲染可以用4句话来概括：

1.亮的地方很亮；2.暗的地方很暗；3.亮暗部的细节非常非常明显；4.所有光照为实时计算生成，可模拟人眼视网膜动态改变明暗细节。

HDR（高动态范围）渲染

　　在DX9C之前，HDR已经得到了广泛应用，一般有FP16HDR（半精度浮点型）和INT32HDR（整数型），但效果都不如人意，FP16的动态范围不够大，而IN32的效率很低，因此这些HDR格式并未带来震撼效果。

而FP32HDR（32bit浮点格式）的诞生则大大拓展了明暗度扩展空间，使得游戏的光影效果有了质的提升，当年的《细胞分裂》、《FarCry》、《3DMark06》等一系列游戏开启HDR后的画面让人惊讶不已！

　　DirectX9.0c架构：

6800领衔1900收官

★首款DX9C显卡——GeForce6800

　　在经历了GeForceFX系列惨痛的失败后，NVIDIA痛定思痛，要挽回在高端产品上的失利局面，仅靠架构已完全定型的NV3x系列作一定程度的增补显然是很难实现的。

NVIDIA将更大的希望押宝在了新一代产品之上，它吸取了上一代产品的教训，重新设计的架构和完整支持DX9C标准，让这款显卡以全新的形象展现在用户面前。

甚至有分析家评论GeForce6800和GeForceFX简直不是一家公司设计的产品，其架构变化之大可见一斑！

　　NV3X最大的弊端就是像素渲染单元效能低下，而NV40最强大之处就在像素单元架构部分。

NV40拥有多达16条像素渲染管线暂且不谈，其每一个PSU的结构都值得探讨，NVIDIA将其称为Superscalar（超标量）的设计。

普通的像素渲染管线只提供一组着色器单元，每个周期最多只能执行四组运算，而NV40的超标量架构则内含第二组着色器单元，让每个周期的运算量增加一倍。

NV40的像素渲染管线结构

　　正因为如此，对手ATI的X800系列虽然在硬件规格上与NV40完全相同，但在DX9b游戏中的性能差距依然不小，这就是超标量架构的优势。

当然固步自封的ATI在X800时代依然仅支持DX9b，无法开启HDR，丧失了很多卖点，让用户大失所望。

　　6800的成功让NVIDIA风光无限，整个GeForce6家族在各个价位都力压对手的X800家族，而且完美的架构使得NVIDIA可以轻易的扩充规模，发布了拥有多达24条像素渲染管线的第二代DX9C显卡——GeForce7800系列（其架构基本没变，只做了些许优化，这里就不多做介绍了）。

　　★支持HDR+AA的DX9C显卡——X1800/X1900

　　X800的对手是6800系列，但它既没有性能优势，也不支持DX9C/HDR，这使得ATI经历了9700/9800系列短暂的辉煌之后再次陷入被动局面。

于是，ATI开始研发下一代GPU，改良架构，准备重夺王位。

但事与愿违，R520核心的X1800XT虽然使用了全新的架构，完美支持DX9C，但依然没能击败已经发布半年之久的7800GTX，因为X1800XT依然只有16条像素渲染管线，而7800GTX拥有多达24条，差距如此之大，根本无法用新架构的效率及高频率来弥补。

R520与R580的架构几乎完全相同，不同的只有像素单元数量

　　当时谁都没有料到ATI还预留了一手，原来R520这种架构的实力远不止16条像素渲染管线这么简单，ATI完全颠覆了传统“管线”的概念，R580核心紧随其后，将像素渲染单元提升只48个之多，整整是R520的3倍！

而顶点渲染单元和纹理单元以及GPU其它所有模块都没有做任何改动。

　　从R520到R580的这种改变当时令所有人都很费解，因为包括G70和R420在内的以往所有GPU都是管线式架构，就是像素渲染单元内部包含了纹理单元，一般像素和纹理的比例是1:

2或者1:

1。

而R520首次将像素单元和纹理单元拆分开来，成为独立的设计，所有的像素单元都可以互相共享所有纹理单元资源，R520的像素和纹理比例依然是1:

1，而R580的比例则瞬间提升至3:

1，相信资历较老的玩家一定记得ATI当年大肆鼓吹“三比一架构”。

　　这样设计是因为ATI发现了游戏的发展趋势，像素渲染的比重越来越高，而纹理贴图的增长比较缓慢，相信大家还记得当年ATI的DX7显卡，其一条管线中包括

展开阅读全文