高性能计算机体系结构的研究.docx

资源描述

高性能计算机体系结构的研究.docx

《高性能计算机体系结构的研究.docx》由会员分享，可在线阅读，更多相关《高性能计算机体系结构的研究.docx（17页珍藏版）》请在冰点文库上搜索。

高性能计算机体系结构的研究.docx

高性能计算机体系结构的研究

学院：

计算机与通信学院

专业：

计算机应用技术

姓名：

贺言君

学号：

122081203001

日期：

2012年10月27日

摘要：

高性能计算（HPC）是一个计算机集群系统，它通过各种互联技术将多个计算机系统连接在一起，利用所有被连接系统的综合计算机能力来处理大型计算问题。

它的的基本原理就是将问题分为若干部分，而相连的每台计算机（称为节点）均可同时参与问题的解决，从而显著缩短了解决整个问题所需的计算时间。

高性能计算机的研制水平受探求复杂的物理世界与人类社会本身的应用计算需求的驱动及研制者所处环境及当时的可选择的实现技术的影响。

本文主要介绍了高性能计算机的体系结构，同时，对高性能计算机的历史和发展方向也做了简单的介绍与分析。

关键字：

高性能计算机；集群；体系结构

正文

1.高性能计算机的历史回顾

最早的电子计算机就是为了能够进行大量繁琐的科学计算而产生的。

从1960年开始，计算机技术逐渐成熟，在各种商业领域慢慢地开始采用电子领域，而且应用范围越来越广泛，逐渐出现了针对各种不同商业用途的计算机，被称为“通用计算机”，具有性能和功能上的优势的一类计算机被称为“高性能计算机”，在当时主要用于科学计算。

20世纪70年代出现的向量计算机可以看作是第一代的高性能计算机。

20世纪80年代初期，随着VLSI技术和微处理技术的发展，向量机一统天下的格局逐渐被打破。

通过多个廉价的微处理器构建的并行化超级计算机首先从成本上具有了无可比拟的优势。

20世纪90年代初期，大规模并行处理（MPP）系统成为了高性能计算机的发展主流。

MPP主要通由多个微处理器通过高速互联网络构成，每个处理器之间通过消息传递方式进行通讯和协调。

20世纪90年代中后期，CC-NUMA结构问世，即分布式共享内存。

每个处理器节点都可以访问到所有其他节点的内存，但访问远程内存需要的延迟相对较大。

CC-NUMA本身没有在提高性能上进行较大的创新，而对于科学计算任务，CC-NUMA是否优于MPP仍存在争议。

在发展CC-NUMA的同时，集群系统（cluster）也迅速发展起来，类似MPP结构，集群系统是由多个微处理器构成的计算机节点，通过高速网络互联而成，节点一般是可以单独运行的商品化计算机。

由于规模经济成本低的原因，集群系统更具有性能/价格比优势

电子计算机在诞生之初主要就是为科学计算服务的。

到1960年代，随着技术的成熟，计算机开始走向各种商业领域的应用，并且应用范围越来越广泛。

因此，为了有别于“通用计算机”，专门针对科学计算进行优化设计的计算机开始被称为“高性能计算机”，或简称HPC。

可以把1970年代出现的向量计算机看作是第一代的高性能计算机。

通过在计算机中加入向量流水部件，可以大大提高科学计算中向量运算的速度，其中比较著名的有CDC系列、CRAY系列、NEC的SX系列向量机。

中国有代表性的是银河一号及中科院计算所的757计算机。

80年代初期，随着VLSI技术和微处理器的技术的发展，向量机一统天下的格局逐渐被打破。

通过多个廉价的微处理器构建的并行化超级计算机首先从成本上具有了无可比拟的优势。

“性能/价格比”而非单一性能成为衡量高性能计算机系统的重要指标。

按照摩尔定律速度发展的微处理器的性能快速超越传统向量机。

1990年代初期，大规模并行处理（MPP）系统已经开始成为高性能计算机发展的主流。

MPP主要由多个微处理器通过高速互联网络构成，每个处理器之间通过消息传递的方式进行通讯和协调。

比较有代表性的有TMC的CM-5,IntelParagon等。

中国的第一个MPP系统是计算所国家智能机中心的曙光1000计算机。

较MPP早几年问世的对称多处理机SMP系统，是由数目相对较少的微处理器共享物理高性能计算机研究的现状与展望内存和I/O总线形成的计算机系统（国内最早基于微处理器的SMP为曙光1号）。

和MPP相比，早期的SMP扩展能力有限，并不具有很强的计算能力。

但由于SMP与单机系统兼容性好，是单机系统的升级与增强，被广泛应用于商业计算领域。

1990年代中后期的一种趋势是将SMP的优点和MPP的扩展能力结合起来，这一趋势发展成后来的CC-NUMA结构，即分布式共享内存。

每个处理器节点都可以访问到所有其它节点的内存，但访问远程内存需要的延迟相对较大。

代表性的系统有SequentNUMA-Q,SGI-CrayOrigin等,国内的神威与银河系列等。

CC-NUMA本身没有在提高性能的角度上进行较大的创新，主要优点是便于程序的开发和与SMP的兼容性。

而对科学计算任务CC-NUMA结构是否优于MPP系统仍存在争议。

在发展CC-NUMA同时，机群系统（Cluster）也迅速发展起来。

类似MPP结构，机群系统是由多个微处理器构成的计算机节点通过高速网络互连而成。

节点一般是可以单独运行的商品化计算机。

由于规模经济成本低的原因，机群系统具有比MPP更高的性能/价格比优势。

机群系统还继承MPP系统的编程模型，更进一步加强其竞争优势。

代表性的系统是IBMSP2，国内有曙光3000，4000等系列。

到2000年初机群实际上已经构成了高性能计算机系统的主流。

据2003年的统计，TOP500中的MPP（含CC-NUMA）占42%,Cluster占29.8%。

MPP取代向量机和机群逐步替代MPP这两个进程的背后都是摩尔定律在起作用。

高性能计算机体系结构的创新必须与半导体技术和产业发展相结合，否则很难变成主流技术，这也是SIMD系统、阵列机、数据流等新型体系结构没有流行起来的主要原因。

2.高性能计算机的体系结构

1高性能计算机体系结构

对于服务器而言，单纯地提高单个处理器的运算能力和处理能力正在变得越来越难，虽然制造商从材料、工艺和设计等方面进行了不懈的努力，近期内CPU保持着高速的增长势态，但高频之下的高功耗所引起的电池容量问题和散热问题等负面效应，以及这些负面效应对整机系统产生的电磁兼容性问题，又反过来将CPU运算能力的提升推到了暮年．显然，提高单个处理器速度和性能已是强弩之末．而研发多个CPU的并行处理技术，才是真正提高现代服务器处理能力和运算速度的有效途径．目前，由图SIMD技术、SingleProc技术、Const技术已经不再使用，并行处理技术主要有SMP技术、NUMA技术、集群技术和网格技术等.根据2006年对排行前500名的机器作TOP500统计，TOP500中的Cluster约占70．8％，MPP（含CC—NUMA）约占22％，而SMP约占7．2％.

1.1SMP技术

对称多处理（symmetricalmultiprocessing，SMP）技术是相对非对称多处理技术而言的、应用十分广泛的并行技术．在这种架构中，多个处理器运行操作系统的单一复本，并共享内存和一台计算机的其它资源．所有的处理器都可以平等地访问内存、I／0和外部中断．系统资源被系统中所有CPU共享，工作负载能够均匀地分配到所有可用的处理器之上．目前，大多数SMP系统的CPU是通过共享系统总线来存取数据，实现对称多处理的．在SMP系统中增加更多处理器的两个主要问题是系统不得不消耗资源来支持处理器抢占内存，以及内存同步.

1.2NUMA技术

在非一致访问分布共享存储技术（nonuniformmemoryaccess,NUMA）体系结构中，每个处理器与本地存储器和高速缓存相连，多个处理器通过处理器、存储器互联网络相连．处理器还通过处理器、I／O网络访问共享的I／O和外围设备．至于处理器之间的通信则通过可选的处理器之间的通信网络来实现．NMUA技术在科学与工程计算领域具有不可替代的地位，在联机事务处理（OLTP）、决策支持服务（DSS）和Intranet以及Internet中的地位也越来越重要．目前，NUMA并行机的处理器数目可达到512个，且带宽可随处理器数目基本上呈线性扩展．这样大的处理器数，使单一系统映像的NUMA机足以覆盖绝大多数的应用．首先，由于它具有与SMP相同的编程模式，因此在科学与工程计算领域具有不可替代的地位；其次，由于它具有共享内存和良好的可扩展性优势，可以适应企业数据中心的多种应用．NUMA系统能够运行世界上一些最大的UNIX数据库应用，而且正被广泛接受为电子商务的主流技术，包括处理功能强大、I／O的大规模可扩展性、高可用性、工作负荷和资源管理的广泛灵活性，而且无需改变SMP编程模型等优越技术．

1.3Cluster技术

集群（Cluster）技术是近几年兴起的发展高性能计算机的一项技术．它是一组相互独立的计算机，利用高速通信网络组成一个单一的计算机系统，并以单一系统的模式加以管理．其出发点是提供高可靠性、可扩充性和抗灾难性．一个集群包含多台拥有共享数据存储空间的服务器，各服务器通过内部局域网相互通信．当一台服务器发生故障时，它所运行的应用程序将由其它服务器自动接管．在大多数模式下，集群中所有的计算机拥有一个共同的名称，集群内的任一系统上运行的服务都可被所有的网络客户使用．采用集群系统通常是为了提高系统的稳定性和网络中心的数据处理能力及服务能力．

1.4网格技术

网格技术有可能成为实现Petaflops的另一条途径．网格是近年来计算机体系结构发展的一个重要方向，其基本思想是通过Internet进行资源共享和协同工作．目前连接到Internet的计算机已经达到1亿台以上，通过互联网可能达到的聚合计算潜力是不可估量的．国际上已经有Globus等组织为网格环境制定标准和参考实现．但是用网格技术实现PetafloPs仍需要关键技术上的突破：

一方面互联网连接的速度和带宽仍有待提高，近年来，网络通信技术以超摩尔定律的速度高速增长，已经为此提供了可能，达到实用阶段只是时间问题．另一方面是有效的网格体系模型和计算模型还没有建立．网格的资源是分散和动态的，计算也是一种分散的、动态的过程。

传统的并行共享内存或消息传递程序模式不能直接有效地利用,如何科学计算高效使用网格的计算能力是当前一个主要的研究方向．

2现状

目前，世界上最快的超级计算机EarthSimulator的实际计算速度是35Tflops，即35万亿

次。

对高性能计算机研究的下一个挑战是1Petaflops，即千万亿次计算。

预计Petaflops计算机将由10000~1000000个处理器、10TB~1PB主存、1PB~100PB在线

存储、100PB以上离线存储构成。

第一个系统实现将在2010年前完成。

如何达到千万亿级，

是继续依靠摩尔定律的发展，还是在体系结构或者构件技术上找到新的突破，现在还是一个

悬念。

2.1高性能计算机体系结构的研究

目前高性能计算机体系结构的主流仍然是MPP和机群技术的进一步发展，通过将更多的

处理器连接起来构建更大规模的并行系统。

其中最具代表性的就是美国能源部的ASCI计划，

分别由Intel、SGI、IBM、HP等构建超大规模的机群系统，其中HPASCIQ共有8192个处

理器，20Tflops的峰值。

ASCI计划原计划2004年达到100Tflops。

日本NEC的EarthSimulator结合了向量处理技术和MPP的技术，利用带向量部件的节

点构建MPP系统，不但取得了Top500峰值第一位，而且实际应用运行效率也比较高。

美国

的CrayX1系列也采用了类似的结构。

IBM计划在2000年~2005年，每年花费1亿美圆研究经费，以便最终建造出用于生物计

算的petaflops级机器。

2002年该项目中的Bluegene/L结构设计已经确定，预计峰值计算速

度360Tflops。

Bluegene/L的设计中没有采用传统的高功耗的高端处理器，而是采用了低功

耗的SOC芯片。

IBM将这种技术称为cellular结构。

虽然每个处理器性能并不很高，但是

可以通过增加系统中的处理器数量来达到高的峰值计算能力。

Bluegene/L共有65536个节点，

计划中的BlueGene/C处理器个数可能达到100万个。

美国Stanford大学的StreamingSuperComputer计划，尝试采用专门设计的streaming处理

器来构建超级计算机。

一个Streaming节点中集成了128个1GHz的FPU，一个背板支持32

个节点，32个背板就可以达到PetaFlops,而预计成本只有4千万美元。

Streaming技术最初

的思想来源于专用游戏机的设计中。

现有科学计算应用是否能有效移植还有待研究。

美国NASA支持的HTMT（HybridTechnologyMulti-threaded）采用了另一条不同的路线。

HTMT试图避开摩尔定律，采用了超导逻辑、光交换、全息存储，PIM等等全新的技术，

其核心处理单元SPELL的频率可达100GHz,而主要设计挑战是能够满足这样高速处理器的

存储体系。

HTMT原计划在2006年左右达到1Pflops，但此计划研制费用极高，技术风险大，

因此很有可能再次让位于摩尔定律。

网格技术有可能成为实现PetaFlops的另一条途径。

网格是近年来计算机体系结构发展的

一个重要方向，其基本思想是通过Internet进行资源共享和协同工作。

目前连接到Internet

的计算机已经达到1亿台以上，通过互联网可能达到的聚合计算潜力是不可估量的。

国际上

已经有Globus等组织为网格环境制定标准和参考实现。

但是用网格技术实现petaflops仍需

要关键技术上的突破:

一方面互联网连接的速度和带宽仍有待提高，近年网络通信技术以超

摩尔定律的速度高速增长已经为此提供了可能，达到实用阶段只是时间问题。

另一方面是有

效的网格体系模型和计算模型还没有建立。

网格的资源是分散和动态的，计算也是一种分散

的、动态的过程，传统的并行共享内存或消息传递程序模式不能直接有效的利用。

如何使科

学计算高效使用网格的计算能力是当前一个主要研究方向。

2.2增强高性能计算机功能与特征的研究

Berkeley的ROC（RecoveryOrientedComputing）项目中提出未来峰值不是高性能计算机

面临的主要问题，相反，如何将硬件、软件故障，包括人为失误考虑在内，真正提高系统的

可用性是一个挑战。

为此ROC项目研究了一系列通过硬件和软件的进行故障监测、故障屏

蔽、故障注入、故障恢复等技术方法。

USC的PAMA（PowerAwareMultiProcessorArchitecture）则关注高性能计算中的功耗问

题,其开发的实验平台可以监测到系统中实际的功率消耗，并通过结合应用程序动态调整处

理器的功率（可在102

的范围内内调整），从而达到减少总功耗的目的。

美国的LANL实验室在高密度计算研究项目中，设计了一个可以在1立方米放下240个

处理器的beowulf机群系统。

其主要技术是刀片式（blade）结构，通过简化处理器主板的设

计，可以在更少的空间内放入更多的处理器，从而达到高的性能/空间比。

ProcessorinMemory（PIM）也是近年来研究比较多的一个方向。

其基本思想是一方面处

理器主频提高和内存访问速度之间的差距不断增大,另一方面芯片内计算逻辑相比于存储占

用的晶体管面积只有很小一部分，因此将部分处理功能集成到Memory中，可以提高存储器

的利用效率，同时增加并行处理的能力。

这方面的研究有IRAM、Imagine、FlexRAM、DIVA等项目。

MIT的RAW项目与PIM的思想有些相通，通过在一个芯片中加入多个嵌入式处理器和

互联网络，来更有效利用芯片内部的功能单元，并且可以通过动态调整改变功能单元、通道

和输出管脚的分配和联结，最大限度发挥单位面积硅的计算能力。

有观点认为RAW将是未

来处理器芯片的主要模式。

与RAW类似的是可重构计算的研究。

通过利用FPGA等复杂的现场可编程逻辑器件，

可以根据应用的特点动态改变芯片的内部结构，从而得到较高的性能。

通常把这种可重构的

单元称为RPU。

RPU的有效性在很多实际应用中得到验证。

一些研究项目如DISC、

MATRIX、BRASS等集中于探讨如何结合CPU和RPU功能的新型体系结构。

随着芯片集

成度的进一步提高，可编程逻辑器件计算的能力也将不断加强，可重构计算有可能最终打破

原有高性能计算中硬件/软件的分界线。

随着ASIC和复杂可编程逻辑器件技术的普及，专用计算机（specialpurposecomputer）的

研制也逐渐在高性能计算领域占据重要的地位。

如日本RIKEN高性能计算中心研制的分子

动力学模拟专用计算机MD-GRAPE系列的峰值速度甚至超过同时代最快的通用计算机,其

中的MDM在2001年就达到78Tetaflops的峰值。

而研制中的”ProteinExplorer”很可能会成

为世界上第一个Petaflops的系统。

2.3高性能计算机构成器件的研究

微处理器仍是高性能计算机的核心技术。

目前的微处理器技术已经开始向单芯片多核心

（如IBMPower4）和单芯片多线程（如IntelPentium4）以及SoC等方向发展。

单个芯片的

处理能力还会进一步提高。

SONY公司的计划中PS3单芯片到2005年将达到1Tflops的处理

能力。

但由于10年之内摩尔定律继续有效，芯片集成度和频率每18月翻番，导致芯片的功

耗问题日益显著。

最高端的微处理器功耗可达几十甚至上百瓦，使得系统散热成为不可忽视

的问题。

芯片之间的互联也因为信号频率的提高成为一个突出的问题。

使用铜线连接的脉冲信号

传输受寄生电阻、电容、电感的影响，而且频率越高这种影响越大。

尽管当前主流CPU主

频已经达到2Ghz，但板级的并行总线互联仍限制在800Mhz以内。

光互联有可能成为最终的互联解决方案。

相比于铜线连接光互联具有高带宽、长距离、

低损耗等特点。

而基于表面发射激光的VCSEL技术已经成功的将半导体技术和激光技术结

合起来。

主机之间的光互联已经广泛应用，主板之间光互联也发展成熟，基于光波导的板内

互联技术也在实验之中。

光互联应用到高性能计算机的主要问题是成本，这是因为VCSEL技术还只能用于GaAs

等半导体工艺，不能和CMOS直接结合。

一旦这方面技术取得突破，光互联必将进入计算

机系统的内部。

全光交换技术近年来在骨干通信网络中已经开始采用。

传统的集中式电路交换技术受电

信号之间交叉干扰和电信号频率的限制，其进一步大容量扩展受到限制，目前主流技术在

Tb/s的量级已经很难提高。

而光传输没有串扰和带宽限制，因此全光交换的潜力远远超过电

交换的极限。

目前已经有基于微机电系统（MEMS）技术的1000路自由空间光交换实验系统。

全光交换系统的发展将进一步为高性能计算机的动态系统互连提供支持。

随着网络技术的发展，网络化的器件也成为高性能计算机的一部分。

突出的例子就是网

络存储的发展。

一个计算机系统中不需要有专用的存储设备，只要拥有网络接口，就可以通

过网络访问远程的共享存储服务。

网络存储服务把一类功能相同的器件集中管理起来并通过网络对外提供服务。

这是一种网格化的方式。

构成计算机系统的其他器件如CPU、Memory

等是否也可以采用同样的方式分解、集中和重组，是当前研究的一个新的方向。

3.高性能计算机的发展方向

计算机体系结构最新进展及发展趋势

高性能计算（highperformancecompute，HPC）是一个计算机集群系统，它通过各种互联技术将多个计算机系统连接在一起，利用所有被连接系统的综合计算能力来处理大型计算问题．高性能计算方法的基本原理就是将问题分为若干部分，而相连的每台计算机（称为节点）均可同时参与问题的解决，从而显著缩短了解决整个问题所需的计算时间．解决大型计算问题需要功能强大的计算机系统，随着高性能计算的出现，使这一类应用从昂贵的大型外部计算机系统演变为采用商用服务器产品和软件的高性能计算机集群．因此，高性能计算系统已经成为解决大型问题计算机系统的发展方向．

2高性能计算的发展方向

2.1混合体系结构已成为HPC发展的趋势

建在东京技术研究所的TSUBAME采用的就是混合体系，除了使用10368个AMD双核Opteron外，360块加速卡为系统贡献了24％的性能，仅增加了1％的功耗．而IBM将在2008年完成的名为RoadRunner的1600万亿次HPC中，总共采用了16000个Opteron和Cell两种不同架构的处理器．可以说，多核微处理器和面向领域的混合体系结构已成为HPC发展的趋势．

2.2集群将成为超级计算系统的主流

集群架构的超级计算系统，特别是以采用普通商用芯片和内联技术组成的所谓“贝奥伍尔夫集群（BeowulfCluster）”系统，在近几年获得突飞猛进的发展，迅速成为目前高性能计算架构的主流．在最新的全球500强排名上，确实已有超过70％的系统属于集群系统．它大受欢迎的主要原因在于其经济有效性和公开性，与MPP的不同之处在于，它一般采用廉价的普通IA服务器为运算节点，小规模的系统一般用以太网进行内联，规模大一点的和性能要求较高的系统多采用InfiniBand、QsNET或Myrinet作为内联网络，外加免费的、公开的、通用的操作系统（Linux）和并行编程接口（MPI），使超级计算机的造价告别了天文数字．

2.3基于刀片式服务器的集群架构兴起

刀片式服务器技术经历了不同的研究发展阶段，从1999～2001年最初的BladeSwich领域，及其后的体系结构（architecture）、存储虚拟化，到2004年刀片式服务器整体性能提升技术研究，再到2005年刀片式服务器的专用化研究，可以说刀片式服务器产品在多核、低功耗技术的推动下已完成从追求高计算密度的第一代刀片，发展到强调整体综合性能、高生产力的第三代刀片产品．未来的两到三年，刀片式服务器将以其高服务密度、敏捷式部署维护、全方位监控管理融合、高可扩展性、高可用性，全面取代传统的基于机架式服务器的Linux集群体系架构．预期基于刀片式服务器的Linux集群架构将兴起．

2.4集群标准化深人泛高性能计算时代

2005年9月，国内服务器厂商曙光公司把泛高性能计算时代下集群技术总结为10大标准，为Lin—ux集群技术及应用推广打下了非常好的基础．继此之后，集群在远程／异地操作控制、一体化监控、集群负载均衡、智能机柜、异构支持、集群简易管理、集群快速部署、集群高速并行吞吐、集群安全、行业应用等方面的技术标准慢慢浮出水面，并被高性能计算行业所接受．标准化是行业应用成熟化的标志，预计集群标准技术会有更进一步的发展和普及．

2.5虚拟计算技术在集群应用中的深层次发展

基于应用级集群虚拟计算技术不仅将带来更高的集群部件利用率，同时也会带来支持应用动态迁移、故障自动隔离、系统自动重构的高可靠集群应用环境，以及更为简洁、统一的Linux集群管理

展开阅读全文