电脑硬件图文详解显卡.docx

资源描述

电脑硬件图文详解显卡.docx

《电脑硬件图文详解显卡.docx》由会员分享，可在线阅读，更多相关《电脑硬件图文详解显卡.docx（25页珍藏版）》请在冰点文库上搜索。

电脑硬件图文详解显卡.docx

电脑硬件图文详解显卡

认识显示卡

啊....显示卡，一直是我最爱的零组件！

自从在十年前买了第一代Voodoo卡，机械继电器那「啪」的一声进入GLQuake，看到水面的「灰色泥浆」变成半透明之后，我就知道自己踏上3D的不归路了，自此之后我只买高阶卡，因为我无法忍受游戏特效不能全开的痛苦。

十年之后，显示卡的发展已经超乎我当初的想像，我相信也超乎绝大多数人的想像。

在电脑界，大家常会引用摩尔定律：

每12～24个月，芯片的复杂度和效能就会成长一倍。

但显示芯片（GraphicProcessingUnit，GPU）是少数能超越摩尔定律的零组件。

若以浮点运算能力来评断GPU的效能，GeForce6800Ultra是54GFlops，GeForce7800GTX是165GFlops，GeForce8800GTX就已经超过500GFlops，在这三颗GPU所间隔的短短两年半中，GPU效能就翻了将近10倍。

附带一提，现在蛮热门的IntelCore2DuoQ6600的GFlops大约是30左右。

（PS：

1GFlops，就是每秒有10亿的浮点运算指令，GigaFloationpointOperationPerSecond。

）

（PS：

严格来说，Voodoo一代不能算是显示卡，因为它没有2D核心，只能显示3D画面，2D的部分必须还有另一张显示卡，Voodoo1和Voodoo2都是3D附加卡的型态，但它们少数的特例，所以我不管了，也不去写拗口的3D加速卡，通通都叫显示卡吧！

）

当然，用GFlops来衡量CPU既不公平也不准确，因为CPU和GPU是完全相对的存在。

在接下来的章节中，我们会仔细谈显示卡的结构，什么是DirectX？

Shader在干嘛？

游戏和显示卡怎么相辅相成，摆脱十年以前的2D黑暗期，造就这十年来的3D爆炸性成长。

我们先从最简单的开始....

这十年来显示卡改变多大？

1997年我们只能勉强跑GLQuake（Quake的OpenGL加速版，算是第一套展现Voodoo能力的游戏。

透明水，有看到吗！

？

），2007年我们已经可以玩画面接近相片拟真的Crysis。

显示卡的外观

显示卡是一个小型的完整系统，它有自己核心芯片、存贮器、电源输入和散热模组，我们先以一般人最常用的显示卡为例做介绍：

啊....拿错了，一般人用这种卡就见鬼了。

一般用的显示卡大约像这样，我把几个重点部分标号出来。

1.传输介面：

这一长条金手指是显示卡输出输入资料的地方，图中的卡是PCI-Expressx16介面，大家或许也有听过AGP（AcceleratedGraphicsPort，加速绘图埠），甚至现在还有人死不放弃。

最早的3D卡是用PCI介面，但大量读取的资料很快就撑爆PCI介面，当时只好先用AGP应急。

但AGP是一对一的埠，而非通用的总线，限制颇多，所以在三四年前显示卡开始转换到PCI-Express1.1，这是由数量不等的通道组合成的总线，PCI-Ex16就表示组合16条通道，每一条的频宽是双向每秒500MB。

在今年底，PCI-E2.0的显示卡将会出现，传输频宽会加倍，这是为了把要运算的资料搬进显示卡中，并把运算结果回传出来。

2.视讯输出：

显示卡是连接各种显示器输出画面，位于显示卡后端的就是这些输出接头，相信大家都分的出来DVI（白色）和D-Sub（蓝色）接头，这是电脑最常用的两种接头。

其中DVI是纯数位资料，比D-Sub的模拟传输有更好的稳定性和清晰度，加上现在流行的LCD也是数位对应显示，用DVI才能达到最佳效果。

现在就算最差的显示卡都至少有一个DVI，稍好一点的就会有两个DVI，或是特殊的Dual-LinkDVI。

Dual-LinkDVI可以输出比一般Single-LinkDVI更高的解析度，最高达3840x2400，一般DVI只到1920x1200。

除了DVI，现在显示卡也开始具备HDMI输出，未来甚至有DisplayPort等更先进的输出方式。

HDMI算是可以传输SPDIF音讯的DVI，在视讯方面几乎跟DVI一模一样（差别只在HDMI可以另外传输色差讯号）DisplayPort的话太新了，还没有实际产品，我也不太了解，希望高手指教。

除这些电脑用的端子，一般显示卡还有九针的多功能视讯输出（圆孔的那个），可转接成AV、S、色差端子。

3.电源处理：

这些柱状物和线圈是电容和电感，显示卡也是要吃电的，电容和电感可以稳定电源，避免突然过高或过低的电压造成死机，甚至伤到硬件，跟主机板上的电容电感的用意是完全相同的。

一般显示卡都是由PCI-Express插槽直接供电，最高75W，这种卡的电源处理就会集中在插槽附近，但像上面那张图的高阶卡，耗电量超过75W就要另外插电，通常在卡的末端会有这种PCI-Express的6pin电源插孔，可额外再输入75W。

这种要外接电源的卡，电源模组的部分就会集中到电源插头附近，在散热器后面那一块全部都是做电源处理的。

依卡的高中低阶不同，低阶的通常不用外接电源，最高阶的则可能会有两个6pin电源，甚至用上PCI-Express2.0新规格的8pin电源，一个就可供电150W。

当然，会吃到这么多电的卡，在世代交替淘汰之前，价格绝不会低于一万元。

4.散热模组：

就跟CPU一样，GPU也会发热，也有自己的TDP规范，要让GPU能稳定运作，显示卡上的散热模组必须消散掉GPU所产生的废热。

至于要怎么把废热排掉就是各厂商的创意了，要用巨型风扇加铝鳍导风罩散热、或是纯被动散热片避免风扇噪音等等，只要符合TDP的规范就可以了。

而GPU的高中低阶就等于发热量的多寡，也就等于散热器的大小，加上高阶卡的线路也比较复杂，因此显示卡的高中低阶通常会反应在外观上，上图就是四种常见的尺寸，从最长的10寸，到最小的LowProfile。

散热器主要都是针对GPU，拆下来之后就会露出显示卡的核心芯片GPU，旁边八颗则是辅助GPU的显示存贮器。

他们的关系就跟CPU和系统存贮器一模一样，GPU做运算，存贮器则存贮GPU所需的一切资料。

看布线就知道，所有的存贮器都通往GPU，所以GPU有内建存贮器控制器。

5.GPU核心：

十年以前，显示卡的核心都只负责2D显示，但2D没几年就已经发展到顶点了，在那之后都是着重在3D运算能力，近几年则另外再加上影片的解码播放加速。

GPU跟CPU一样也是半导体制程，制程方式虽然不同，但同样会随着时代进步缩小制程以降低成本，目前最新的是65奈米，年底左右会有55奈米。

GPU一样是靠电晶体来运算3D，但因为CPU和GPU本质上差异极大，所以GPU很容易就出现超大量的电晶体，至少都是CPU的两三倍以上，正中央那颗就是GPU的die晶粒，不过因为制程、芯片特性等种种因素，GPU的时脉不易拉高，今年大约可以突破800MHz而已。

6.显示存贮器：

做为GPU的暂存空间，存贮正要处理或已经处理完的资料。

就跟系统存贮器一样，容量和时脉也是影响效能的两大因素，但这都已经无关2D显示了，就像前面说的，2D显示已经发展到顶点了，显示存贮器早就远远超过2D显示所需。

现在容量和时脉完完全全是针对3D游戏，游戏的资料量愈大，显示卡就需要愈大的存贮器来存贮资料；显示芯片的处理速度愈快，就需要时脉愈高的存贮器来快速进出GPU。

依显示卡的高中低阶不同，容量从32MB～768MB不等，突破1GB是迟早的事，时脉则从400MHz～2000MHz以上都有。

显示卡的基本运作原理

现在显示卡的玩家端应用不外两大宗：

3D游戏和影片播放，3D绘图和影片压缩格式的专有名词很多，乍看真的眼花缭乱，但这里我们先把视角拉高一点，从最远的地方来看显示卡的运作，其实不管是3D绘图、影片加速、甚至是更先进的GPGPU，都脱离不了以下要讲的流程。

显示卡的基本运作流程，直到驱动程序为止都是CPU在运算，因此CPU的效能也会影响显示卡的效能，如果前端太慢，显示卡都在等资料、喂不饱，就会造成效能瓶颈。

在DOS之后，应用软件就很少再直接存取硬件，因为直接存取硬件会影响操作系统的稳定性，在多工OS下尤其重要，便免使用者手贱把系统搞挂。

而且直接存取的话，软件和硬件的设计都很不方便，因为软件得想办法支持个别硬件，就像早期的DOS游戏那样，每套游戏都得手动针对不同的硬件做支持，显示卡、摇杆、音效卡什么的，硬件一多就快起笑了。

业界急需一个共通的中介标准，于是微软制定了第一代DirectX，这是一种「应用程序介面」（API，ApplicationProgrammingInterface）夹在软硬件之间，虽然多了第三者会减损效能，但换来的方便性是绝对值得的，其中Direct3D是针对显示卡的3D绘图API，是DirectX最重要的一部分，其他还有DirectSound、DirectInput负责声音和周边。

DirectX

DirectX是显示卡和游戏共同支持的标准，游戏以DirectX的语法来写，显示卡将DirectX的语法转变成3D画面，两者就有统一的标准，不再需要个别支持，可降低开发难度，而且执行结果有一致性，不管用什么硬件，只要都支持DirectX，跑出来的画面理论上都要一样。

除了DirectX之外，OpenGL也是另一个绘图API，通常用于专业的3D绘图领域，但也有少部分PC游戏使用（游乐器则除了Xbox，大多是用OpenGL），OpenGL的历史比DirectX久，但因为Windows的内建优势、原生支持硬件加速、更新速度快，在游戏应用上DirectX比OpenGL强势多了。

虽然显示卡一定得支持DirectX，但实际GPU芯片线路要怎么设计则是各家厂商的创意，就像x86CPU不能直接执行x86指令，得通过内部的解码器转换，GPU也不能直接执行DirectX的指令，中间还得通过驱动程序，这也是为什么显示卡的驱动程序超级重要，因为它得解译DirectX的指令，转换成GPU看得懂的机器语言（MachineCode），驱动程序会直接影响显示卡的效能和功能。

DXVA

影片的部分也就不难懂了，API换成DXVA（DirectXVideoAcceleration），播放软件的影片解码器下达DXVA指令，再通过驱动程序解译交给GPU运算，我们就有了影片硬件加速。

跟DirectX相同的道理，要支持硬件加速，解码器、驱动程序和显示芯片都要支持DXVA才能启动，缺一不可。

以上就是GPU非常基本的运作原理，详细的3D运作流程、宣传过度的DirectX10、GPU硬件规格、影片加速的原理、驱动程序等等，会在楼下文章中一一介绍，欢迎来到华丽又迷人的电脑影像世界！

显示卡规格解说，附带该死的3D图学

对于想深入了解GPU规格的人，我必须很遗憾的说，GPU规格跟基本3D图学绑在一起，要真的了解像素管线、顶点处理单元等等那些鬼东西的意义，就一定得对3D绘图流程有基本的概念。

这篇我会用最浅显的语言来讲，但许多部分会跳过不讲，3D高手们请见谅，看完如果有问题再用讨论串来聊吧，我会尽我所能的回答。

3D绘图流程

现在显示卡主要就是玩3D游戏，而游戏画面是属于3D「即时绘图」（RealtimeRendering）的领域，它不像工业设计、动画电影那样需要超高解析度和精确度，游戏的3D画面只要快，一秒至少要画出30张（动画电影可能是一两个小时画一张），打电动的人才不会觉得推迟，所以娱乐用的GPU都会有很多取巧。

而拆解到最简单，3D绘图可分成「建立骨架」、「贴图」和「输出画面」三个步骤。

1.建立骨架

由于一些我也不太确定的历史原因，现在3D绘图是以三角形或「多边形」（Polygon）为基础来建构物体的外型，游戏里「所有的」物体都是由一片片三角形堆叠出来的，而每个三角形都是由三个顶点（Vertex）构成，比如附图的那个人头骨架，仔细看就会发现它是由数万个三角形组合而成。

这也是为什么早期游戏的物体都让人觉得棱棱角角的，因为需要大量的三角形才能组成近似圆弧状的物体，若显示卡不够力就没办法处理大量多边形，只用少量的多边形建构外型，就会出现棱棱角角的物件。

仔细看这个人头，他的骨架其实是由数十万个三角形组合而成。

（PS：

每一个三角形需要三个顶点，但每「两个」三角形只需要四个顶点，所以厂商标的GPU规格的三角形组合速度是以每四个顶点形成两个三角形来计算的。

）

（PS：

过去曾有「非」多边形运算为基础的GPU，它们是以方程序来建构物体外型，方程序可以非常简单的画出圆弧，但却不容易画出方正的物体，由于自然界或人造物体大多偏方正，也许这是最后采用多边形的原因。

）

2.材质贴图

用三角形建立出物体的骨架之后，物体就有线条式的骨架了，但如果要让人知道它到底是什么，一定要贴上一层皮，也就是材质贴图（Texture），附图就是贴上皮肤、眼睛、眉毛的材质，其实材质就是图片，由一点一点的像素（Pixel）构成，贴上之后原来的骨架就会变成人头了。

贴上材质再做处理之后，就变成一颗人头了。

3.输出画面

你屏幕是3D的吗？

我相信99.999%正在看这篇文章的人都只有平面的屏幕，但以上两个步骤运算完会得到一颗真正全3D的人头，但因为屏幕只有2D平面，所以GPU最后一步就是把这个3D的场景，依照你所看到的视角（摄影机视野），投射成一张2D的画面，并输出到屏幕上。

以上就是3D绘图超简化流程，GPU要做的就是把多边形组合起来，在正确的地方贴上正确的图片，然后输出画面到屏幕上，变成下面的游戏图。

GPU平行运算

仔细看一下游戏图，右上角的房子跟右下角的枪其实没什么关连，它们根本就是两组多边形的骨架，也有各自的贴图，在游戏中这两样东西也不会互动，如果能把枪和房子的运算分离开来，GPU内装两组运算单元，那不就可以同时运算画面的不同部分，加快运算速度了？

事实上，无论3D或2D画面，会彼此相关的通常只有紧接相邻的部分，大范围来看，其实很多地方都是可以各自独立运算的，也因为如此，GPU才会很早就有SLI或Crossfire这种串连技术的存在。

GPU最基本的运算方式就是将画面上各个像素做独立运算，很像现在双核心CPU的的处理方式，但GPU至少都数十或上百个核心，所以平行运算会更彻底。

PS：

实际上，GPU运算并非像上图那样把画面分割，那只是简化说明的示意图。

现在GPU通常是以很小的4x4的区域，16个像素一起做运算（16个只是「通常」，实际数字依各GPU的设计而不同），让有可能彼此相关的相邻像素一起运算，但画面是依序执行的，并没有真的「分割」，只是一次每16个像素依序丢进运算单元里，当运算单元大量复制时，就可以同时运算数百甚至上千个像素，彼此大多互不相干。

就某种意义上来看，就是运算画面的不同部分，只是这个「部分」是很微小的区域，真正「大范围的分割画面做运算」主要是用在SLI或Crossfire串连技术上。

因此，「平行运算」（ParallelProcessing）是GPU最基本的运算概念，就像现在流行的双核心CPU可一次做两件事，最新的GPU已经高度平行化到数百个运算单元（可模拟成有数百个简单核心）。

由于3D画面上不同区域的彼此关联性不高，在很久很久以前，GPU就开始在内部平行拆成好几个部分，就好像有好几个核心在一起运算，过去大家常说的「管线」（Pipeline）就是有多少条平行化的部分，从多边形组合、贴图到输出画面，这样的3D画面「生产线」可能有四或八条同时运作，愈多当然就愈快。

和CPU不同的是，GPU的平行运算是自发的，程序人员不需要特别去写，3D运算本身就有平行化的天性，GPU自己会在内部拆开来做运算。

Shader是什么？

但现在新的GPU已经不是管线的结构了，从DirectX8.0开始引进Shader运算的概念之后，现在GPU的运算几乎全部集中在Shader处理上。

Shader是多边形组合或贴图之后，GPU再对多边形与材质做进一步的处理，简单的说就是各种数学公式（化到最基本，就是加减乘除而已），依照不同的演算法技巧，原本静态的贴图或多边形就会变成动态的特效，比如大家现在在游戏中常看到水面起伏和物体的反光/凹凸效果，就是利用Shader调整顶点的位置或像素的颜色。

现在游戏超大量使用Shader，所以GPU硬件也跟着改变，处理材质和输出画面的单元并不多，但大幅增加Shader运算单元，比如新的高阶GPU至少都上百个Shader单元，但通常只有数十个输出画面的单元，因为瓶颈通通卡在Shader上，增加输出画面的单元也只是浪费芯片面积而已。

因此，看新一代的GPU结构的话，都是一大片Shader运算单元，搭配少量的材质和画面输出单元，这已经不是相同的管线有好几条，而是依照需求量高低做各种单元的配置。

现在游戏中Shader使用已经无所不在，就这一张单纯的场景，见到的每一个表面纹路（地板、墙壁、树干、招牌），都是先用单纯的图片，再套上记录材质高度信息的文件，以光源和视角计算光影位置，最后产生这种凹凸的纹路，而计算的程序码就是Shader。

GPU主要规格

现在，把多边形、像素、材质、画面输出、平行化、Shader记在心里，GPU的规格和这些息息相关，关于规格的我只能挑出几项最重要的，GPU的细部技术有几十项，一时也说不完。

还没焊到显示卡上的芯片，厂商朋友送我的，好像是ATIRadeonHD2600的样子。

我记得前年曾到NVIDIA总部参观他们的实验室，垃圾桶里有一堆这种芯片，就看到全球各大媒体在翻垃圾桶找纪念品，要不是里面不淮拍照，我一定把那一堆乞丐（包括我）拍下来。

GPU-Z

看CPU信息的CPU-Z大家都知道，最近出现一支GPU-Z则是看显示芯片的各种信息，GPU-Z的作者和CPU-Z好像不一样，只是取了一个很类似的名字，让大家一看就懂它的功能。

目前GPU-Z还在很初期的版本，但我试了NVIDIA和ATI的新卡都没问题，连最近才刚出的2900Pro都可以正确辨识。

GPU-Z会秀出几个主要的GPU规格，包括代号、diesize、时脉、频宽、Shader数量、ROP等等。

不过GPU-Z会存取系统信息，卡车司机防毒软件会挡下来，让它通过没关系，大家可以对照GPU-Z秀出来的规格，往下看各规格的说明。

支持DirectX版本

DirectX是显示卡与游戏沟通的标准，硬件通常通常会向下相容，但GPU和游戏所用的DirectX版本必须对应才能显示所有特效。

现在最新的DirectX到10.0，游戏大多还是用DirectX9.0。

DirectX9.0的GPU是可以玩DirectX10的游戏，但就秀不出只有DirectX10才支持的特效。

每一版DirectX10都会增加新的特色或指令，可以创造出更真实的画面，而就像GPU已转变成处理Shader为主，DirectX最重要的部分就是各种Shader指令，最新的DirectX10不止可以用Shader改变顶点（VertexShader）、像素（PixelShader），还能移动、产生或砍掉整片多边形（GeometryShader），这可以做出物体无限增长（如藤蔓、头发、流体等等）的特效。

这是DirectX10的一个demo，场景的地形可以一直增长改变形状，DirectX9不是做不到，但DirectX10做起来会比较轻松。

GPU核心时脉

GPU就跟CPU一样是半导体制程下的产物，但制程方式并不同，且GPU因为高度平行化，运算单元可以大量复制，所以GPU的电晶体数量都轻松超越CPU，芯片面积每一代都在挑战制程的极限，高阶GPU的电晶体已经达七亿之谱，最高阶的CPU还不到一半。

GPU靠着平行化的运算，时脉不用太高就有超高的运算能力，目前大约在400～800MHz左右，近期应该还不会突破1GHz的关卡。

GPU负责前面所讲的3D运算流程，因此直接影响3D效能，但不同结构的GPU不能互相比较时脉，因为它们单一时脉周期所做的事不一样，NVIDIA的600Mhz和ATI的600Mhz代表意义可能大不相同，对NVIDIA来说，600MHz可能算高，但对ATI可能只是一般时脉而已。

存贮器频宽

这是显示卡第二重要的规格，存贮器频宽（MemoryBandwidth）的计算方式是「存贮器总线介面x存贮器时脉」，存贮器介面（MemoryBusWidth）和时脉的讲解可参考「7楼认识存贮器，时脉和时序的意义」，这里就不再重复，显示存贮器和系统不同点是介面和时脉都比较高，介面至少是64位起跳，目前最高是512位，时脉则从400MHz～2000MHz以上不等，会因为不同的时脉而采用不同的存贮器，从DDR2到GDDR4都有，「版本」愈高，时脉就愈快。

显示卡的存贮器介面和时脉分开看并没有很大意义，相乘的频宽才是最重要的，由于GPU高度平行化，代表它内部可同时运算很多资料，但也代表后端必须能一次进出大量的资料。

在运算3D画面时，多边形、材质贴图、画面等等都要反覆进出显示卡的存贮器，容量反而是影响效能的次要因素，频宽速度才是决定显示卡的效能的主因之一（仅次于核心规格），若GPU的单元超多，但存贮器频宽却跟不上，没办法喂饱或支持GPU的话也没用，所以高阶卡一定有较宽的介面与较高的存贮器时脉，组合出超高的频宽，每秒将近100GB的传输速度也不稀奇。

记住一个原则，愈是平行化的系统，就愈需要存贮器频宽来同时输出输入大量资料，但像CPU这种核心较少的循序处理器，就愈需要高速、低推迟的存贮器来辅助（但CPU再往多核心继续发展下去，频宽的重要性也会愈来愈突显）。

GPU要的是资料的「量」，CPU要的是资料到达的「时间」。

StreamProcessor

在这一代产品之前，GPU内部都还有区分处理顶点和像素的Shader运算单元，但这一代NVIDIA和ATI都统一成StreamProcessor（串流处理器），SP不管顶点或像素Shader，通通都可以运算。

GPU做成SP不止是为了Shader运算，还有更长远的用途，但那之后再说。

总之，SP就相当于非常简化的CPU核心，负责Shader里的数学运算，现在GPU的SP数量从数十到数百不等，依显示卡的定位价格不同，数量愈多，平行化愈彻底，速度自然就愈快。

目前ATI和NVIDIA对于SP的设计很不一样，ATI是采取量大但低时脉的方向，NVIDIA则是小量但高时脉，ATI新RadeonHD2000系列通常有较多的SP，但SP时脉跟核心时脉一样；NVIDIAGeForce8的SP数目很少，但时脉至少都有1GHz以上，等于是在GPU核心时脉之外，另外有一个区域跑较高的时脉，加速Shader的运算。

现在新的GPU都采用UnifiedShader（统一Shader）结构，不再分像素或顶点，这样不管画面是多边形复杂、或是像素特效复杂的，GPU内的Shader运算单元都能保持在满载状态，不会浪费。

材质单元和画面输出

材质单元负责把游戏需要的贴图从存贮器载到核心之中，另外也负责材质的过滤（TextureFiltering），常听到的AF（Anisotropicfiltering，非等向性过滤）就是材质过滤的其中一种演算法，材质要过滤是因为在3D世界里，物体有远近之分，远的物体就只需要较小的贴图，材质过滤是把大图片缩成小图片，贴在远处的物体上，材质单元的数目会影响贴图速度和游戏画质，愈多当然愈好，不过现在的3D运算趋势是单一材质做大量Shader处理，所以材质单元反而主要是影响过滤后的画质。

画面输出通常称为ROP（RasterOpteration）或RenderBackend，这是把3D的场景依视角「扫瞄」成2D平面的一张图片，这会影响GPU的「像素填充速度」（PixelFillrate），但一样，现在3D运算的效能瓶颈都在Shader上，画面输出速度已经无所谓了。

现在ROP最重要功用是做反锯齿（Anti-Aliasing）和后处理，反锯齿是消除画面输出时所产生的锯齿，

展开阅读全文

电脑硬件图文详解 显卡.docx

电脑硬件图文详解显卡.docx