8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx

上传人:b****2 文档编号:1042407 上传时间:2023-04-30 格式:DOCX 页数:59 大小:2.24MB
下载 相关 举报
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第1页
第1页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第2页
第2页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第3页
第3页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第4页
第4页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第5页
第5页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第6页
第6页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第7页
第7页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第8页
第8页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第9页
第9页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第10页
第10页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第11页
第11页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第12页
第12页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第13页
第13页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第14页
第14页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第15页
第15页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第16页
第16页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第17页
第17页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第18页
第18页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第19页
第19页 / 共59页
8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx_第20页
第20页 / 共59页
亲,该文档总共59页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx

《8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx》由会员分享,可在线阅读,更多相关《8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx(59页珍藏版)》请在冰点文库上搜索。

8年光荣与梦想 经典Athlon全系列回忆录文档格式.docx

1997年4月,AMD推出K6以抵抗Intel,K6采用0.35微米工艺,工作频率在166-233MHz之间不等,基于对686处理器的研究开发,K6新增了MMX指令集(这是Intel发明的多媒体增强指令集技术,可以增强Pentium在图像、声音、通信应用等方面的性能),一级缓存为64KB,无内置二级缓存。

第一代K6还只能与具备MMX技术的Pentium打成平手,所以AMD于1998年4月迅速推出K6-2以抗击PentiumII,它支持新3DNow!

指令集(这是AMD发布的针对三维建模和效果渲染等三维应用场合性能增强的指令集,可以大幅度提高CPU的3D处理性能)及100MHz的前端总线频率(FSB),最初的时钟频率为266MHz,后增到475MHz,带有64KB的一级缓存,二级缓存位于主板上,容量为512KB—2MB之间,与总线频率同步。

后来的结果告诉我们K6-2是具有历史意义的CPU,因为它真正为AMD吹响了向Intel挑战的号角,并以极高的性价比打压了PentiumII。

1999年,Intel发布了Katmai核心的PentiumIII,它在原有PentiumII核心添加SSE指令集,使用0.25微米工艺,内含900万个晶体管,512KB半速二级缓存,使用Slot1接口。

PentiumIII

K6-III

接下来诞生的则是K6-3,它于1999年2月发布,是AMD推出的第一款将二级缓存整合在处理器芯片中的产品,实际上是K6-2的改进版。

它采用Socket插槽结构,主频在400MHz到450MHz,带一级缓存64KB,内置全速二级缓存256KB,创造性地外置512KB—2MB之间的三级缓存与系统总线同步。

虽然K6家族的浮点性能与Pentium有不小差距,二级缓存也没有完全集成在CPU内部,但另人满意的性能和低廉的价格让Intel感到巨大的压力。

它们是Athlon的前奏。

[1][2][3][4][5] 继续>

>

下一页

第一个4年(1999年6月23日——2003年9月22日)

●Athlon第一个4年Athlon诞生——Pluto、Orion、Magnolia

第一款K7处理器于1999年6月23日首度亮相。

AMD在K7时代给予了CPU一个响亮的名字——Athlon,其名称取自田径运动的“十项全能”(Decathlon)。

从这一天起,Athlon时代正式到来。

首批处理器的主频介于500到700MHz之间,并带有512KB的半速L2cache,之后AMD又抢在Intel之前推出了1000MHz的版本。

这一架构内核发展共经历3个阶段:

Pluto、Orion、Magnolia。

这些处理器使用的插槽,与PentiumII的Slot1相似,但两款插槽并不兼容。

采用了SlotA插槽的Athlon650(Pluto核心)

上图就是采用了SlotA插槽的Athlon650(Pluto核心)。

这颗CPU使用0.25微米工艺制造,核心面积为184mm2,6层金属连接,晶体管集成数量达到了2200万。

Athlon拥有128KB一级缓存(64KB指令+64KB数据),这一设计也在整个8年的变化中得以保留,这个阶段Athlon内核与L2Cache采用分离式设计,核心位于长方形电路板中央,L2Cache植荚谄淞讲啵幌馪entiumII集成在一个管芯里。

如图:

AMD的计划中,K6即将终结,Athlon时代到来

从Athlon时代开始,AMD的CPU能够实现乱序执行OutOfOrder(它允许执行指令的顺序和取指令的顺序不同,实际上做到了指令只要有可能就执行。

因为关键的路径计算可能随时开始和完成,因此这种方法加快了指令的执行速度)、可编程L2接口、在CPU与芯片组之间使用200MHzEV6总线(增加与内存之间带宽,获得更大的数据吞吐量)、增强型3DNow!

TM指令集(在原有的3DNow!

TM上继续完善追加至52个指令,包含一些SSE码,同时获得了更多软件的支持。

但是3DNow!

缺乏SSE所具备的IEEE-754兼容性、视频加速能力以及内存流式传输能力,因此虽然3DNow!

一开始的时候威势不少并且有大量媒体借机炒作,但事实证明3DNow!

的确有不少地方不如SSE)。

从内部而言,Athlon是完整的第七代x86处理器。

也是它的同类型中的首位。

这颗CPU是由AMD工程师和新雇用的DEC工程师联合开发的。

所以融合了AMD以前的CPU和DECAlpha21264的技术。

正如AMD的K5和K6,Athlon是一个RISC(精简指令集)的CPU,能够实时解码x86指令到它自己的内部指令。

AMD设计的这颗CPU提供了更加稳定的x86指令编码兼容性,使它可以同时处理更多的数据。

Athlon的CISC(相对RISC而言,复杂指令集计算机)-RISC三元组解码器能够在每个时钟解码6个x86操作。

关键分支预测单元(CriticalBranchPredictorUnit)相比K6得到增强,这是因为Athlon更长的管线使得高准确的预测成为必要,否则将会导致使性能下降的管线延迟。

上图为Athlon的内核设计详细结构,其在设计时参考了Alpha21264处理器。

21264以超标量超流水的方式实现了Alpha体系结构,是一颗设计先进的高性能CPU,其在SPECbenchmark中取得了相当好的成绩。

Alpha21264的缓存系统也对高性能水平做出了贡献。

Athlon继承了它的高效缓存设计——芯片内部L1包括一个64KB的指令缓存器(I-cache)和一个64KB的数据缓存器(D-cache)和外部总线——AlphaEV6200MHz,片上和片外缓存提供了低延时的数据访问能力,从而带来了很高的数据访问带宽和整体性能,而且AMDK7处理器的动态分支预测技术也领先于P6架构,同时具有多重并行x86指令解码器。

由于当时制造工艺的局限,L2Cache部分只能以2/3、1/2、1/3于CPU主频速度运行,在后来很大程度上又制约了CPU整体性能发挥。

以往AMDCPU较差的浮点性能在Athlon架构中同样得到改善,其浮点性能与PentiumIII相比毫不逊色。

AMD的缓存设计与Intel相比也有很大不同,Athlon架构使用拥有一个很大的L1Cache,直到今天的Athlon64也一样没有发生变化。

这表示了CPU需要的大量数据可以从L1获取,而PentiumIII的L1Cache则很小,为16KB,很大程度上要依赖于L2Cache提供数据。

所以Intel为CPU设计的L2Cache位宽和关联度都比较高,以此来获得较高的L2带宽。

特别是到了Pentium4时,L1Cache数据缓存只剩下8KB,Intel用新增的一种一级追踪缓存替代指令缓存,容量为12KμOps,表示能存储12K条微指令。

所以Pentium4必须有一个很大的L2Cache,L1Cache在Pentium4中更多的作用是告诉CPU数据在L2Cache的某个地方,而并没有存放很多数据。

因此在低端市场,AMD可以大幅度削减CPU的L2Cache,带来性能损失远没有Intel,这也为抢占低端市场打下了坚实的性能基础。

安装了散热器的SlotA插槽Athlon

Intel没有想到AMD在K7时代变得异常强大,这让PentiumIII措不及防,Intel迅速将PentiumIII过度到新核心——也就是后来最流行的Coppermine,它使用0.18微米工艺,256KB全速二级缓存,支持Socket370与Slot1两种接口。

Intel终于把L2cache集成到了和CPU同一枚管芯(die)内,也是在PentiumIII,Intel引入了71条SSE扩展指令集,显著加强了x86处理器在流媒体处理方面的能力。

Coppermine微架构(0.18微米PentiumIII,属于PentiumPro家族第3代改进型)

其实PentiumII和PentiumIII的设计来自于对PentiumPro的改进。

1995年11月1日,Intel推出了当时看来可以用“硕大”来形容的PentiumPro处理器(中文名称是高能奔腾),这款代号P6的产品和Pentium相比革新相当大,例如整数流水线采用了10级工位的超级流水线;

能作多重分支预测和猜测执行;

具备能够把x86指令转换成RISC风格微操作的译码器;

实现了乱序执行等。

如图,IntelCPU晶体管集成数量的发展

在规格上,PentiumPro相当强大,其晶体管集成度发展速度甚至超越了摩尔定律,使CPU的性能进一步提高到惊人的水平。

即使是这样,在整个PentiumIII时代,Intel仍无法超越AMD,Athlon优秀的架构抵挡了所有来自PentiumIII的进攻,在性能上几乎全面领先。

更重要的是2000年3月6日,AMD抢在Intel之前,在美国加州的Sunnyvale发布了第一款实用的1GHzAthlon处理器(Magnolia核心),跨越了一个新的里程碑。

对于奉行摩尔定律的Intel来说这样的局面是无论如何也抬不起头的。

这在当时被称作AMD完全的胜利!

如上图,Athlon在当时的各种测试中终于让AMD扭转乾坤,也使CPU市场格局发生了翻天覆地的变化。

Athlon取得不可动摇的性能领先。

在这个需要支持SMP的测试中,Athlon虽败给了双路Celeron,但用测试人员的话说:

不可想象未来配备在服务器上的双路Athlon将会取得怎样的领先。

第一代Athlon1GHz在生产时没有能得到高性能的SRAM晶圆,所以很可惜,其L2Cache是以1/3于CPU主频速度运行的。

反而随着PentiumIII的频率上升,性能的增益也越来越强,不要忘了其所采用的全速Cache。

在1GHz决战时,迟到的PentiumIII终于超越了Athlon。

后退<

<

上一页 [1][2][3][4][5] 继续>

●延续辉煌——Thunderbird

AMD当然没有放松,Athlon开始改用新核心——拥有全速L2Cache的Thunderbird(雷鸟)。

新核心除缓存速度发生变化,几乎没有其他改进,却让Athlon再次全面开花,压制了同频PentiumIII。

同时Thunderbird将频率提高到1.4GHz,配套芯片组如AMD760、KT133、KT133A也日臻成熟。

更重要的是AMD削减Athlon的L2Cache到64KB,打造了低端明星Duron(毒龙)。

Duron(毒龙)是AMD首款基于Athlon核心改进的低端微处理器,核心面积是100平方毫米,内部集成的晶体管数量为2500万个,比K7核心的Athlon多300万个。

在浮点性能上,Duron具有三个全流水乱序执行单元,一个用于加/减运算,一个用于复合指令还有一个是浮点存储单元。

其他规格方面,Duron外频为200MHz,内置128KB的一级缓存和64KB的全速二级缓存,工作电压为1.5V,功耗要较Thunderbird小一些。

Duron由于缓存结构的差异没有像Celeron那样性能严重降低。

Duron是AMD面向低端市场的利器,凭借先进的CPU设计构架和优良的血统,在性能上完全超过了CeleronII,特别是Duron芯片内的L2Cache较小,芯片面积(diesize)只有100mm,其功耗以及发热量也相对较低。

而最令用户对毒龙难以忘怀的,自然还是其极为强大的超频能力,Duron600通过铅笔破解倍频之后至少能够超频到800MHz,不少极品甚至达到1GHz,使很多DIYer所乐此不彼。

Duron对于AMD的意义在于将K7的架构优势成功地转换成为市场优势,其良好的性价比对Intel低端市场造成了严重威胁,至此,AMD成为了消费者心中性价比的代名词。

产品层次的划分标志着AMD有能力稳定驾驭市场,并逐步走向成熟。

图为Socket462接口的Thunderbird核心Athlon1.4GHz

在外部封装上,Thunderbird同样表现突出。

直立式的SlotA插槽变为陶瓷封装、体积小巧的Socket462接口,这一接口也一直沿用到2003年9月22日K7生命终结。

Thunderbird同样带动了AMD的再一次腾飞,强大的1.4GHz主频、200MHz系统总线、全速L2Cache、工作电压为1.70V~1.75V,相应的功耗也比上一代Athlon小,恐怖的超频能力同样诱人。

当然不要忘了Duron,有它在低端的配合,市场上掀起了一股抢购AMD处理器的狂潮,用专业媒体的话说:

Athlon、Duron市场供应闹饥荒。

●开始革新——Palomino

微架构的研发对一代甚至几代CPU产品都有着重要影响,其研发时必须考虑制造工艺、晶体管集成度、未来发展趋势等很多方面。

Intel在1998年开始了对NetBrust(网络爆发)微架构的研发并在2000年取得成效。

AMD也在98年前后开始了对新的64位微架构Hammer(大锤)的研发并在2001年生产了少量测试产品。

但是Hammer最终在2003年推出市场,而使得Athlon必须在这一段时间独立面对Intel。

依靠强大的产能和市场控制力,Intel在PentiumIII时代依然保持了良好的上升势头。

但Intel连续在与AMD的性能斗争中失利,让剧情在这里发生了变化。

Intel站在岔路口上:

是继续增强PentiumIII的能力,提高其主频?

还是转向新的微架构?

迫于Athlon的压力和自己在CPU市场的地位,Intel高层做出了一个惊人的举措,决定把P6微架构的发展暂时冻结(已成功生产的Tualatin核心PentiumIII必须为Pentium4让位),转向激进的甚深流水线架构——NetBrust,也被称作P68。

如图,PentiumIII和Pentium4的流水线长度对比

采用甚深流水线的目的为了在同样的工艺下获得更快的时钟频率,NetBrust正是如此,它采用了20级超长流水线,配合Intel的制造工艺,获得非常高的运行频率。

但长流水线也有致命的缺陷——执行效率低下。

流水线越长,对于采用乱序+猜测执行的处理器来说,预测失败的成本就越高。

PentiumIII的流水线在预测失败的时候会损失10个周期,而在第一代的WillamettePentium4上就达到了20个周期。

即使这样,Pentium4照样把频率提得超高,一定程度上弥补了分支测错造成的性能损失。

Athlon开始面对一场从未预料到的战斗,对手Pentium4采用了疯狂飙升频率的办法来打压自己,Athlon的战略也不得不做调整。

2000年11月20日,Intel发布Pentium41.4GHz、Pentium41.5GHz处理器,采用了0.18微米工艺技术,提供256K的二级缓存。

这是采用了Willamette核心的第一代Pentium4,虽然将频率提升到2.0GHz,但相对落后的工艺和缓存容量限制了性能的提升空间,Athlon还是能战胜它。

但这时的Athlon已明显感觉体力不支,并预测到未来会迎接更猛烈的挑战。

同时AthlonXP策划已经出炉,越来越多的信息表明AMD要改进核心来应对Intel。

2001年8月27日,Intel发布Pentium42.0GHz处理器,采用了最新0.13微米工艺技术,提供512K的二级缓存,这标志着Northwood核心正式启用。

随后,Pentium4在1年多的时间里将频率迅速提至3.06GHz,并引入超线程技术。

而AMD则开始艰苦的追随战。

AMD于2001年10月9日正式发布新型的AthlonXP处理器,AMDAthlonXP中的XP指ExtremePerformance(卓越性能),它支持更大的高速缓存、专业3Dnow!

技术和QuantiSpeed架构。

首批AthlonXP采用Palomino核心,制造工艺没有像人们预想的那样有所提升,而是沿用了上一代的0.18微米工艺,二级缓存的大小也维持了256KB,Palomino将Thunderbird的核心元件位置做了更改,内核形状由原来的长方形变为正方形,当时普遍认为这样的改动是为将L2提升到512KB做调整,很可惜实际的产品并没有证实这个想法。

Palomino相对于Thunderbird当然还是有一些改进的,它将一级缓存中DataTLB数据缓存中的4K寻址页的地址变量寄存器由Thunderbird的24项提升到32项。

这样可有有效增强缓存命中率,在缓存数量不变的情况下,有效增强了效率,商业应用下性能进一步提升。

同时新核心加入了第三代3DNow!

指令集,使3DNow!

通过一些转换能够兼容一些SSE指令。

其余架构方面完全没有改动。

如图,AthlonXP基本的架构没有发生变化,而Pentium4则完全不同了。

AthlonXP相对于Pentium4拥有更高的IPC是不争的事实,性能(Performance)=频率(Frequency)×

每一时钟周期内所执行的指令多少(IPCinstructionspercycle),IPC是一个较为公正的效率值。

比如AthlonXP1600+,实际频率为1333MHz,它的性能大约相当于1颗1.6GHz的Pentium4。

针对自己拥有高IPC,而对手拥有高频率,AMD提出了QuantiSpeed架构理论来反击“频率至上论”。

QuantiSpeed架构理论有以下几个部分组成:

1、超标量完全管道化微体系结构。

QuantiSpeed体系结构的核心是同时发出9条指令的超标量完全管道化微体系结构。

这种体系结构能提供更多的路径,并应用指令传送到核心的执行机制,因而处理器能够在给定的时钟周期内完成更多的任务(高IPC)。

路径(管道)深度与处理器操作频率之间的良好平衡能产生极高的性能。

如果只是管道更长,就会产生较低的IPC和高操作频率。

如果只是管道更短,将提高IPC,但频率会降低。

AMDAthlonXP处理器能够保持管道深度与处理器频率之间的平衡,因而能实现极高的总处理器性能。

2、超标量完全管道化浮点QuantiSpeed采用了超标单元量完全管道化浮点运算单元(FPU),与x86处理器相比,不但能够在每个时钟周期内完成更多的浮点操作,还能提高操作频率,因而能产生最强大的x86FPU。

AMDAthlonXP处理器有足够的计算能力,能满足计算最密集的软件应用的要求。

3、硬件数据预取将指令从系统内存预取到处理器的一级指令高速缓存中,提高了处理器的工作吞吐量,从而提高整体性能的通用作法。

QuantiSpeed体系结构的这种特性能将数据从系统内存预取到处理器的一级数据高速缓存中,从而缩短了向处理器输入关键数据的时间,提高了工作吞吐量。

因此,在使用带QuantiSpeed体系结构的AMDAthlonXP处理器时,应用性能将自动得到增强。

4、非复用TLB。

QuantiSpeed体系结构中的TLB结构能保留关键数据表以及靠近处理器的指令。

当再次请求数据或指令时,这种设计使处理器无需等待就能开始操作。

这些TLB结构现在更大,在高速缓存之间是唯一的,具有预测性。

更大的TLB使AMDAthlonXP处理器能访问其它图形;

这些结构的排他性消除了信息复制,在二级高速缓存中释放出更多的空间,留给处理器使用其它有用信息;

推测使AMDAthlonXP处理器能快速产生关键数据和指令的未来图形。

对TLB结构的这3种增强进一步提高了每个时钟周期能完成的工作量,从而提高了AMDAthlonXP处理器的实际应用性能。

QuantiSpeed架构理论实际上是完全相对NetBrust微架构提出的,它全面总结了AthlonXP一贯的架构优势,间接地说明对方高频低能。

AthlonXP在此理论背景下重新启用了废弃多年的PR值对CPU性能进行标注,当然这也是在Intel的高频压力下被迫做出的举动。

特别是像Pentium4这样使用长流水线的CPU,IPC相对AthlonXP偏低,所以频率较低的CPU使用PR值来标注性能是完全可行的。

在其他方面也有一些变化,与Thunderbird核心相比Palomino对核心做了一些优化,如晶体管数量增加的同时CPU功耗大大减少。

新核心中集成了热敏二极管和温控电路,使处理器具备内核温度探测和过热保护功能,增强了CPU的稳定性和易用性,改变了以往给人们不稳定的印象,性价比在Pentium4的压迫下也同样很高。

Palomino最终把频率提到1733MHz,PR值为2100+。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2