GPUHPC集群方案Word格式.docx

资源描述

GPUHPC集群方案Word格式.docx

《GPUHPC集群方案Word格式.docx》由会员分享，可在线阅读，更多相关《GPUHPC集群方案Word格式.docx（19页珍藏版）》请在冰点文库上搜索。

GPUHPC集群方案Word格式.docx

过去人们一般把计算机应用分为科学计算、信息处理和自动控制等类型。

其中，以信息处理为主的应用统称企业应用，是市场容量最大的应用领域。

早期的企业应用与高性能计算应用有很大的差别，涉及的计算比较简单、使用的数据量也不大，对计算机系统的主要要求是能够支持大量用户（包括网上用户）进行事务处理如信息输入、查询和统计等，而对于计算能力、存储容量要求也不高。

因此，高性能计算应用往往使用与企业应用不同的系统，影响了产品批量的扩大。

当前，人类正在从工业化社会进入信息社会，技术的持续创新、市场需求的瞬息万变、竞争空间的迅速扩大，要求企业采用Internet、电子商务、电子商务企业等现代化手段，来适应时代的发展。

许多新型的企业应用对计算能力、存储容量和系统带宽的要求都越来越高、越来越迫切，高性能计算应用和其他类型应用的界限也日益淡化。

当前，几乎所有应用领域都需要使用能够提供高计算能力、系统带宽和存储容量的计算机系统，促使用户选择相同的系统满足各种类型的需求，为利用大批量、低成本的通用产品满足高性能计算应用需求创造了有利的条件。

1.1.3更加严格的预算约束

随着竞争的加剧和应用的普及，高性能计算不再是一个不惜工本的应用领域，许多项目的预算约束越来越严格。

这就要求厂商生产全系列的产品满足不同规模应用的需求、更加可靠地保护用户原有投资、加速IT投资回报，而且也要求实现资源按需供应和更大范围的资源共享，推动了网格和公用服务等新的计算模式的发展。

1.1.4使用商品化部件

为了促进高性能计算广泛应用必须降低成本，否则很难为更多的用户所接受。

由于高端的高性能计算系统（特别是超级计算机）需要使用许多计算节点和互联设备等部件，因此必须保持每个部件的低成本。

早期的超级计算机系统使用专门定制的处理器和互联设备等部件价格非常昂贵。

以后，CrayResearch公司的T3D和CRAYT3E开始使用商品化的Alpha处理器。

当前商品化处理器和服务器性能日益提高、价格也日趋下降，为利用它们建立高端和超级计算机系统提供了良好的基础。

为此，美国政府还推出了ASCI计划，力图降低超级计算机系统的成本，其主要途径是尽可能采用商品化市售（COTS）硬件和软件部件，把力量集中在发展主流计算机工业不能有效地提供的专门技术。

目前已经很少再有厂商使用专门的部件如向量处理器来建立超级计算机系统。

今后的发展趋势是在高端和超级计算机系统中尽可能普遍地采用商品化和大批量的工业标准部件，包括处理器、互联设备、I/O、存储、操作系统、语言、编译程序、编程工具和应用软件。

人们注意到，基于开放性IA－32体系结构的Xeon和Pentium4处理器的超级计算机已经在TOP500占有重要地位。

新兴的Itanium处理器系列（IPF）必将以其开放性、大批量和64位寻址和处理能力，对超级计算机水平的提高产生划时代的影响，以远比32位体系结构时代高的性能和性价比来满足日益增长的需求。

我们深信，通过采用HP的高性能计算系统，必将加速×

在高性能计算领域取得更加丰硕的科研成果。

1.2高性能计算应用的特点

在传统意义上高性能计算应用是属于CPU和内存密集型的应用,它对所运行的计算机体系结构（超级计算机体系结构）提出了几个主要的要求:

浮点计算能力（尤其是64位双精度浮点运算）,内存带宽和内存容量及体系框架。

所有这些因素都是相互关联的。

高性能计算通常利用各种数学方程式来建立模型和模拟物理现象。

随着各种模型越来越大，越来越复杂，数据集的规模也急剧增长。

例如，一个100*100*100的栅格包含100万个元素，该模型仅占用32MB内存，如果此栅格的分辨率提高10倍，这一模型就变为1000*1000*1000，包含10亿个元素，此模型的原始数据将占用32GB的内存！

因此不论是分布式内存还是共享式内存，要将此数据传输至内存中，由CPU处理，就需要高带宽，高容量，低延迟的体系结构，当然还需要强大的CPU进行计算。

而超级计算机主要用来处理这样庞大的工作负载。

这样的负载所要求的超级计算机一定是采用快速的CPU，高性能的内存和I/O子系统，旨在实现最高的运算速度。

同样这样的负载所要求的超级计算机还必须采用多级别并行处理技术，能够利用几十个甚至几千个处理器来处理一项任务；

这样的并行处理技术也需要超级计算机要采用高性能的互连设备和系统设计，以较高的成本去换取最高的性能。

1.3高性能计算主机性能评价体系

衡量主机系统或处理器计算处理能力的测试体系（BenchMark）也有多种，如SPEC、Linpack等,尤其是通过Linpack值更可以衡量一个主机系统或一个处理器芯片的实际运算能力,而不仅仅是虚的理论峰值能力。

过去，人们使用系统能够达到的执行指令最大速率如每秒执行百万指令数/浮点操作数（MIPS/MFLOPS）来量度计算机硬件性能。

但是，这些量度指标的实用价值十分有限，它们只能给出理论上最大的性能，并没有全面反映计算机系统的实际性能如内存带宽、内存延迟和I/O性能等。

此外，硬件性能量度和系统体系结构都是非标准的，使得人们很难使用它们作为服务器选型的性能指标。

因此，出现了计算机系统性能基准测试的概念，即由某些中立的非盈利机构开发出一组经过精心统筹设计和组合的程序，来量度计算机系统运行这组程序的性能指标。

此类程序一般称为基准测试程序。

不同的计算机系统都运行同一组基准测试程序，就可以相对客观地比较计算机系统的性能。

目前有许多专门设计基准测试程序和管理各种计算机系统基准测试指标的机构，其中最著名的是SPEC和TPC。

第二章设计方案

2.1系统设计原则

帮助用户建立一套既能最大限度地满足用户实际需要且技术又处于领先地位的高性能计算环境是我公司为高性能计算用户设计方案的基本出发点。

我们认为，中国XXXX大脑初级视觉系统仿真平台系统应具有处理大规模的复杂运算，尤其是浮点运算及图像处理的能力。

它将为图形化分析提供优化工程设计、分析、验证的手段，最终实现提高设计质量、缩短计算周期、降低开发成本。

方案设计以用户现场测试结果为基础，根据XXXX对未来应用模式及业务量需求预测为前提，强调高性能以及可行、合理和低风险。

架构设计和系统选型遵循以下原则：

1．先进性

本系统方案所采用的技术既要符合业界的发展方向,又要在未来几年内仍具有很高的技术先进性，保持在同类系统中的领先地位。

这样有利于提高整个系统的计算与处理能力。

2.有限投资获取最大计算性能

在有限的投资前提下，高性能计算系统应具有优秀的处理能力，它不仅具有符合要求的峰值性能（PeakPerformance），更重要的是应具有稳定的应用性能（sustainedperformance）。

各种复杂的研究课题在本系统中能够得到准确，快速的计算结果。

3.可扩展性

系统应具有很强的扩展能力。

随着对计算机系统性能的要求不断提高，该计算机系统应具有扩展能力，并且容易实现。

4.开放性和兼容性

本计算机系统应符合公认的工业标准，包括体系结构，硬件，I/O,网络，操作系统，开发环境和开发工具等。

这样，便于和其他平台上的系统互操作。

5．应用软件丰富

本系统的平台上应具有丰富的软件资源，能够提供研究课题的解决方案和相应的软件系统。

我公司与高性能计算方面的独立软件开发商紧密合作，例如：

Fluent,ANSYS等专业工程软件商,RedHat,Etnus,Pallas,Platform等专业平台软件商,不仅提供处理节点间的协调和通信的中间件，使整个系统节点能够真正实现合作，负载均衡，还能针对不同应用需求，提供一系列并行计算应用。

6.良好的技术支持

由于本系统是比较复杂的计算机环境，在使用过程中不可避免的会遇到一些技术问题。

当遇到这些问题时能够得到有效的支持，使问题得以圆满的解决。

7．性能价格比优越

由于本系统比较庞大，价格因素也比较重要。

本系统在性能价格比方面在同类系统中应具有明显的优势，对于三院三部来说在采购大型系统中应该考虑的重要因素。

8．管理简单

尽量减少数据中心的设备管理难度。

2.2总体方案结构

针对中国XXXX大脑初级视觉系统仿真平台系统高性能计算应用的特点,结合与相关业务处室的沟通。

从满足应用需求的角度出发，我们建议建立一个高可扩展、易管理的混合SMP与Cluster结构的高性能计算环境，整体方案架构如下：

我们推荐采用1台宝德服务器PR4768GW作为GPU计算节点，主要运行并行计算、图形分析等应用。

GPU计算节点服务器采用高性能计算操作系统环境，并运行动态资源管理工具对任务的资源分配进行管理和调度。

高性能计算集群配置1个管理节点及2个存储节点，并通过用户网络和管理网络进行互联。

管理节点运行管理软件实现Cluster中所有节点的集中管理、配置、激活/关闭等，并通过软件对用户提交的任务进行作业管理。

GPU节点服务器和集群管理节点通过1000Base-T千兆以太网连接到三部的骨干网中，各室工作组通过该网络申请计算资源和提交任务。

GPU节点服务器和存储节点可通过扩展的IB光纤通道卡连接到SAN中，满足高性能计算环境对存储性能和空间的巨大需求。

2.3计算服务器方案

2.3.1GPU计算节点服务器型号及配置

根据以上分析，我们配置两台宝德PR4768GW作为GPU计算节点服务器。

宝德PR4768GW具有两颗E5-2690V312核CPU，256GBDDR4内存和8块NVIDIATESLAK80GPU加速卡，非常适合做高性能计算服务器，并最多可支持32核CPU及扩展至1.5TB内存。

宝德PR4768GW如下图所示：

宝德PR4768GW计算服务器的配置如下：

服务器型号

宝德PR4768GW

处理器

2XIntelXeonProcessorE5-2690V3

内存

16X16GB/DDR4/2133/MHz/ECC/REG

硬盘

2TB/SATA/6Gb/128M/7200rpm/2.5寸/企业级

1.2TB/2.5in/SATA/6Gb/s/16nm/MLC

GPU加速卡

8XNVIDIA/TESLA/K80/4992C/24GB

网络接口（内置）

Mellanox/56GB/40GB/单口IB卡

X520-SR2/双口/万兆网卡/双多模SFP+模块

扩展网卡

1*10/100/1000Base-T

DVD-ROM

1*DVD+RW

机柜

42U，PDU

电源风扇

N+1热拔插电源风扇

2.3.2基于KEPLER的nvidia芯片GPU加速技术

TeslaK80的目标领域包括数据分析和科学计算。

它的单精度计算性能最高可以达到每秒9万亿次浮点运算，而消费级的GeForceGTX980很难超过每秒5万亿次。

这款显卡由2个KeplerGK210GPU所组成，每个图形处理单元可支持最高12GBGDDR5闪存（共计24GB）。

除此之外，TeslaK80还支持480GB/s的带宽，4992个CUDA并行处理核心，DynamicNvidiaGPUBoost等定制技术，以及动态并行（DynamicParallelism）。

根据Nvidia的说法，这些配置让K80大幅超越了现有的最佳硬件。

他们还声称，TeslaK80比最优秀的CPU还要快10倍。

根据Nvidia在网站上挂出的一张图表，TeslaK80对比前任K40拥有大幅的提升。

跑分成绩也显示出，K80也同样领跑全局，无论是化学、物理还是机器学习领域。

GPU处理器提供的寄存器资源

2.3.3高性能计算环境

宝德PR4768GW采用CENTOS操作系统，提供高性能计算环境的基础,并配合相应的系统管理软件、语言编译器、并行模式、相关数学库,还可支持目前流行的各种第三方高性能计算商业软件包和应用软件包,例如Platform的LSF（负载平衡软件）和checkpoint,Etnus的TotalView,Pallas的Vampir及Gaussian等等,这些可根据实际要求灵活配置,以运行高性能计算应用程序和商业软件（含数据库软件）。

在此系统下的C,C++和Fortran编译器展示出卓越的实际应用性能,操作系统库充分利用了此架构的先进技术,其中包括:

MLIB。

一系列子程序,为科学和技术计算提供了常用数学软件,并针对Itanium2架构进行了优化;

MPI。

实现对集群架构信息传递接口的高性能,为开发人员提供了API和软件库来支持下有效,可移植的并行信息传递的应用,是分布式计算的理想选择。

2.3.4计算任务提交及管理

所有向宝德PR4768GW计算服务器提交的任务其所需的CPU内存等系统资源是通过动态资源管理工具来进行管理的。

动态资源管理是一个非常简单、高效、易用的资源分区和管理工具，通过它，系统管理员可根据计算服务器的资源情况及提交任务的优先级给使用用户灵活分配和调度CPU、内存及I/O等系统资源，当更高优先级的任务提交后，HPWLM可动态调整系统资源的分配，保证高优先级的任务获得所需的资源。

动态资源管理可通过本地或远程终端进行管理。

2.4Cluster计算集群方案

2.4.1宝德Cluster计算集群结构

宝德公司作为高性能科学计算集群技术的领导者，可提供最强大的、易于管理的一系列现有的Linux集群解决方案。

宝德结合了Linux的优势、最好的软件、内部互连、工业标准的计算机平台、宝德集群技术专家、支持和服务向用户提供具有增加容量和能力的Linux集群系统。

Linux集群系统也叫做BeowulfCluster集群系统。

宝德Beowulf集群的逻辑架构如下：

硬件部分应包括：

⏹计算节点

⏹管理节点

⏹I/O节点

⏹互连系统

软件部分应包括：

⏹操作系统

⏹集群管理软件

⏹开发环境

⏹数学库、并行库

⏹作业管理系统

⏹文件系统

和

⏹客户应用软件

⏹标准应用软件

根据用户的需求分析，按HPBeowulf集群的逻辑架构，我们为本项目设计的Cluster计算集群方案如下：

上述Cluster高性能集群主要为Fluent、Fastran等流体类应用提供计算环境，另外，根据现场测试的结果，LS-Dyna应用在此SMP和Cluster架构上均有非常出色的表现，用户也可选择在此Cluster计算集群中来运行此类应用。

2.4.2Cluster节点系统配置

根据用户需求，配置高性能

⏹管理节点配置

配置如下：

宝德PR2750G

2XIntelXeonProcessorE5-2640V3

8X8GB/DDR4/2133/MHz/ECC/REG

2X240GB/2.5in/SATA/6Gb/s/16nm/MLC

⏹存储节点配置

配置1台存储节点，配置如下：

宝德PR4036GS

28X4TB/SATA/7200PRM/3.5寸/企业级

480GB/2.5in/SATA/6Gb/s/16nm/MLC

1XLR382B/8口/SAS12Gb

管理节点通过集群控制管理计算节点，并进行作业的调度管理。

2.4.3节点互连、管理和用户网络

宝德高性能集群系统的计算节点通过高速的Infiniband互连技术实现互联，高速的Infiniband互连网络主要用于计算节点之间进行MPI通讯，交换节点应用进程信息和计算数据。

Infiniband互连采用36端口的Infiniband交换机。

整个高性能集群的每个节点连接分别连接到两个网络，管理网络和用户网络。

管理网络主要用于节点管理信息的传输，用户网络又称存储网络，主要用于各节点与I/O节点之间的数据传输，包括应用程序和数据的装载、计算结果的保存等等。

管理网络和用户网络均采用中兴以太网络产品搭建。

管理网络采用千兆以太网交换机，用户网络（存储网络）采用万兆系列以太网交换机。

网络交换机配置如下：

互连交换机

（Infiniband）

32端口Infiniband交换机，

以太网交换机

（用户网络）

-24*10GBase-TSFP+

-4*10/100/1000Base-T或mini-GBIC（双功能定制端口）

（管理网络）

-24*10/100Base-T

4*10/100/1000Base-T或mini-GBIC（双功能定制端口）

所有Cluster集群计算节点、I/O节点和管理节点及上述互连交换机和以太网交换机均被分别安装在1个2米高42U的机柜中（含PDU），安装位置进行适当调整，以优化机柜配线。

2.4.4Cluster计算集群节点管理

为了有效的管理计算集群系统，管理节点配置了管理能力很强的管理软件。

管理系统是一个非常出色的Beowulf集群系统环境下的管理软件，它负责系统的诊断、软件安装、性能监控、系统的克隆（Cloning）和事件的分析与管理。

通过使用友好的用户界面，集群管理将变得更加高效。

也将通过减少相关的管理任务，使Cluster计算集群成为一个经济高效的解决方案。

集群管理软件，使得所有计算节点的远程文本控制台在服务器的所有状态下（设置、启动、OS或暂停）均可使用。

并借助独立WEB浏览器，远程访问任何活动节点的图形控制台。

通过管理程序，Cluster集群系统管理员可以远程控制服务器电源，而无论服务器处于何种状态（即使服务器关机）。

另外，还可进行远程BIOS设置。

集群管理软件还具有将一个系统配置向集群中的所有计算节点传播的功能。

CMU可以通过网络将一个映像服务器的磁盘分区内容克隆到计算节点本地磁盘中。

这可用于计算节点的首次安装，以及向核心或当前系统配置传播更新内容等。

在目标分区与初始映像不同的情况下，则会重点考虑目标磁盘分区。

在克隆阶段对目标磁盘进行分区，避免了在初次安装期间对各个计算节点进行分区。

集群管理实用程序可以有效地管理大量计算节点。

带有图形用户界面（GUI），可以根据需要和集群中任意数量的节点进行定制。

借助集群管理，只需在单一显示屏上单击鼠标即可访问所有的计算节点控制台。

软件主窗口可通过访问配置显示界面来设置控制台服务器硬件。

通过集群管理，可以监控、暂停、启动、重启或关闭选定的任何节点。

还可以连接到集群中的多个节点，并通过一次键盘输入以广播的方式向其发出命令。

也可以管理来自集群的事件，如节点的增加或减少等。

2.4.5Cluster计算集群作业管理

高性能计算用户通过登录管理节点进行作业的提交，作业提交后，由管理节点上的作业管理软件进行管理和分发。

作业管理为生产环境设计的，它可提供了图形和命令行两种用户界面来提交批处理、交互式作业，并提供查询作业、队列、系统的状态和跟踪作业的处理。

在作业运行之前，用户可将需要的文件拷贝到执行节点上，和将这些指定的文件在作业执行完之后，拷贝出来。

只有在所有的文件成功传输之后，作业将会被列入调度表。

提交任务的用户可以指定作业的优先级，可以向队列和系统层提供默认值。

作业管理支持单队列或多队列方式。

并选择标准的first-in,firstout调度，或者改进的调度算法。

作业管理可以使用户定义广泛的批处理作业的内部相关性。

这些相关性包括：

执行顺序、同步执行和根据指定作业的成功或失败结果条件执行。

2.4.6宝德Cluster计算集群的特点和优势

宝德Cluster计算集群具有以下特点和优势：

1）具有很高的性能价格比。

采用先进的Beowulf架构，扩展性好即可扩充到几百上千个节点，从而获得很高的性能和比较低的总体成本。

2）方案采用惠普公司的高性能、高可靠性的产品。

高节点内存带宽，高性能的网络交换产品，集群管理软件。

3）方案采用工业标准设备和顺应高新技术发展的趋势。

如INTELCPU，Linux技术，集群并行计算技术，开放代码程序。

4）由宝德公司提供专业服务支持。

2.5高性能计算外接存储需求分析

本次方案涉及的存储区域网络的设计，给计算服务器和集群存储节点配置的24个4TB硬盘考虑临时的应用需要，高性能计算对存储空间的巨大需求是显而易见的。

在这里，我们根据现场测试的结果，分析存储的容量要求，供XXXX在规划存储区域网（SAN）设计时参考。

假设以三个月作为用户的活跃生产数据迁移到近线存储空间（作为非频繁访问数据）的周期，以一年作为非频繁访问数据迁移到离线备份设备（作为离线备份数据）的周期，因此用户的SAN总存储空间需求为高性能磁盘空间

展开阅读全文