高性能计算机集群平台实施与售后方案x.docx

上传人:聆听****声音 文档编号:702362 上传时间:2023-04-29 格式:DOCX 页数:128 大小:1.08MB
下载 相关 举报
高性能计算机集群平台实施与售后方案x.docx_第1页
第1页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第2页
第2页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第3页
第3页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第4页
第4页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第5页
第5页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第6页
第6页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第7页
第7页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第8页
第8页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第9页
第9页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第10页
第10页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第11页
第11页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第12页
第12页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第13页
第13页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第14页
第14页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第15页
第15页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第16页
第16页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第17页
第17页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第18页
第18页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第19页
第19页 / 共128页
高性能计算机集群平台实施与售后方案x.docx_第20页
第20页 / 共128页
亲,该文档总共128页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

高性能计算机集群平台实施与售后方案x.docx

《高性能计算机集群平台实施与售后方案x.docx》由会员分享,可在线阅读,更多相关《高性能计算机集群平台实施与售后方案x.docx(128页珍藏版)》请在冰点文库上搜索。

高性能计算机集群平台实施与售后方案x.docx

高性能计算机集群平台

实施与售后方案

27

目录

一、 高性能计算平台技术服务方案与项目实施方案 7

1.投标人对任务的理解 7

2.本项目实施团队主要人员简历表 11

3.人员分工 17

4.设备供货、验收、安装、调试计划及保证措施 18

1)硬件设备安装 19

a)供货机房要求 19

b)机房场地要求 19

c)设备摆放要求 21

d)设备搬运要求 23

e)安全预防措施 23

f)噪声考虑 24

g)机房环境规划 24

h)设备供电要求 27

i)机房辅助设备要求 29

2)安装和调试 29

a)项目初步实施计划及时间安排 29

b)产品的交付 32

3)产品验收 32

a)设备的开箱和检验 32

b)设备到货与初验 32

c)设备初始测试 33

d)硬件设备的验收步骤 34

e)软件产品和验收 35

4)项目实施安装前准备 35

a)安装场所的准备阶段 35

b)设备安装及配置方案制定 36

5)产品安装 36

a) 现场的硬件安装服务 36

6)现场的硬件调试 37

7)配合其他厂商、应用软件厂商安装调试 37

8)软件部署规划与实施方案 37

a)实施计划 37

b)实施准备 37

c)硬件系统 38

d)软件系统:

39

e)维护 40

9)软件产品实施 41

a)存储系统 41

b)集群管理与作业调度软件 41

c)并行库软件 44

d)应用软件集成 44

e)系统备份 44

f)安装后验证 44

10)软件产品调试 45

a)HPL调试 45

b)IOZone调试 46

c)支撑环境调试 47

11)软件验收方案 47

a)项目基本情况 47

b)项目进度审核 48

c)项目验收计划 48

d)项目验收原则 48

e)项目验收内容 48

f)项目验收情况汇总 50

g)项目验收附件明细 50

h)开发单位项目实施总结 55

i)使用单位意见 56

5.测试方案 56

1)系统测试目标 56

2)HP集群测试计划 57

a)连通性测试 57

b)NIS功能测试 57

c)NTP时间服务测试 58

d)CPU稳定性测试 58

e)CPU浮点运算测试 58

3)网络性能测试 59

a)网络性能测试 59

b)8.4.2网络延迟测试 59

6.实施质量控制和管理措施 62

1)重点提示 62

2)项目管理工具 62

3)项目组织结构及岗位责任 66

4)总指挥部职能、责任简介 66

5)工程部职能、职责简介 66

6)合同执行部职能、职责简介 68

7)阶段成果的交付及确认 68

8)项目变更管理 69

9)沟通管理 70

a)项目中的沟通 70

b)会议 70

c)情况通报会议 70

d)解决问题会议 70

e)合理化建议阶段评审会议 71

f)报告 71

g)客户评价管理 73

10)质量保证程序 73

a)重点提示 73

b)质量管理规范与标准 74

c)项目质量保证策划 74

d)质量度量 74

e)质量考核 75

f)过程监控与阶段评审 75

g)系统测试与验收 75

h)配置管理 76

i)文档管理 77

j)独立的项目审计 77

11)货物安装、验收标准 77

a)到货验收 77

b)初步验收:

78

c)最终验收 78

7.技术支持及培训方案 83

1)北京科技股份有限公司培训方案 83

2)紫光华山硬件培训方案 84

a)现场培训 84

b)集中培训 85

c)HPCMU及Proliant系列服务器培训课程 85

3)培训方案 85

a)培训目的 85

b)现场培训 86

c)培训内容 86

4)培训质量保证 88

a)培训策略 88

b)培训过程管理 89

8.售后服务方案 91

8.1本项目售后服务承诺 91

8.2公司售后服务内容 91

8.3售后服务体系 101

a)服务体系说明 102

b)分支机构和服务组织结构 103

c)标准服务流程 104

d)巡检及健康检查流程 104

e)故障处理流程 107

f)技术支持流程 110

g)现场服务流程 116

h)重大故障处理流程 117

i)备品备件流程 120

j)故障事件总结,统计分析报告流程 123

k)设备,软件,微码以及相关补丁,升级流程 125

一、高性能计算平台技术服务方案与项目实施方案

1.投标人对任务的理解

硬件技术方案规划:

a)高性能计算系统

采用5台HP DL380G9两路服务器,每台配置2颗Intel E5-2690v4处理器,主频

2.6GHz,14个CPU物理核心,28个线程,内存配置128GB1866MHzRDIMMs内存,配置2块300GB万转SAS硬盘。

b)集中网络存储系统

我们采用HPHPE3Par高性能计算专用存储阵列,以确保高性能计算集群的数据能快速地读写,也确保整个平台数据的安全性。

存储包含14块4T近线SAS硬盘.

系统一共70个计算核心,存储裸容量为56TB,系统整体功耗约为8KW。

方案拓扑图如下:

方案描述:

GPU计算节点:

我们选用HPDL380G9服务器作为高性能计算系统的GPU计算节点。

每个计算节点配置2颗IntelXeonE5-2690v4处理器2.6GHz,每节点14个CPU内核。

配置GPU加速卡

5台计算节点组成的高性能计算系统就可以满足用户的相应技术要求。

基于英特尔E5-2600v4系列至强处理器,可以实现性能、功能和经济高效性的超凡组合。

a)管理和I/O节点:

选择HPHPE3Par两节点高密服务器作为管理节点并配置每个计算节点配置2颗IntelXeonE5-2690v4处理器2.6GHz,每节点14个CPU内核。

HPHPE3Par服务器作为系统的登录与管理节点,用于作业递交和系统管理。

计算网络和磁盘I/O通过InfiniBand56GB网络互联保证工作效率。

b)成熟的计算网络:

每台计算节点、登录节点之间采用主流的infiniband连接,保证系统的通信性能和节点的计算性能相匹配。

c)管理网络:

为所有节点之间的管理和访问信息,提供千兆以太网链路,承载运行集群的管理、调度的网络通讯信号。

d)存储系统:

计算节点、NFS存储节点、登录节点之间的系统磁盘I/O数据通过高速的IB链路传输。

e)HPHPE3Par双I/O节点提供NFS网络共享,冷热数据分离存放,大大提高了文

件的读写性能,同时保证系统的可用性。

f)操作系统:

64位LINUX企业级操作系统,提供相应的服务。

软件技术方案

本系统集群管理软件采用联科CHESS高性能计算管理系统完成集群管理功能,CHESS联科高性能计算管理平台是联科自主研发的高性能集群软件,采用B/S架构,通过浏览器进行操作实现集群资源统一部署、管理、监控、报警、调度和报表,可将松散的堆叠服务器变成一整套HPC集群系统,可大幅提高集群效率,简化集群管理。

CHESS可以帮助用户部署操作系统,安装和调试集群软件,应用环境和应用软件,搭建一套完整的HPC软件系统。

a)NFS文件系统

NFS文件系统是可以在群集中的多个节点间实现对共享文件系统中文件的快速存取操作,并提供稳定的故障恢复和容错机制。

b)系统方案特点

序号

本方案特点

其他方案容易出现的缺点

1

放心的交钥匙工程,完整的

HPC系统解决方案

整体方案完全基于成熟的服务器硬件产品和

HPC系统软件产品,统一品牌,平衡设计。

全球排名靠前的大型机构均采用HPE高性能计算系统;在中国HPE公司已经为包括国家气象

局在内的数百家机构提供了规模不等的高性能

计算系统。

系统硬件和软件、技术服务来源于多个厂家/供应商/开发者,很多软件产品是基于开源软件二次开发;软件配合程度欠佳。

2

资源管理软件的先进性

CHESS其具有灵活的调度策略,比如抢占、回填、预约等高级调度策略。

开源软件

3

成熟、稳定的硬件产品平台

HP服务器为数据中心提供10年的公认可靠性,拥有十几年经验的高弹性的创新架构。

全世界的数据中心。

许多中小硬件厂商,采用OEM或ODM的产品,产品换代之间没有技术连续性,出货量小,可靠性和稳定性差。

4

有力的技术支持、培训及售后服务

完整售后服务体系支持,提供完善的售后服务;

现场高性能计算环境培训和客户化,包括

Fortran/C/C++编译器使用,并行环境使用,数学库使用,作业调度程序的客户化设置和使用,常用技巧等。

无法保证系统顺利实施,无法保证客户得到有力的技术支持服务。

2.本项目实施团队主要人员简历表

一般情况

姓名

杨明

年龄

35

电话

13810051792

职称

高级工程师

职务

客户经理

本项目中

任职

项目经理

学习经历

2004年7月毕业于北京信息工程学院学校

电子信息工程专业,学制4年

技术认证

PMP认证

工作经历

时间

参加过的相关项目

项目中任职

备注

2015.2-

2015.8

新华社容灾备份系统第三阶段核心采编供稿同城

灾备项目IT设备采购与集成子项

项目经理

2015.9-

2016.2

新兴际华云数据中心建设项目

项目经理

2014.8-

2015.1

新华社承建中央纪委监察部网站客户端项目

项目经理

姓名

李金泷

年龄

32

专业

信息管理与信息系统

职称

高级工程师

公司单位职务

部门经理

拟在本项目担任职务

实施工程师

毕业学校

2007年7月毕业于北京机械工业学院学校

信息管理与信息系统专业,学制4年

经历

年~年

参加过的项目名称

担任何职

用户代表及联系电话

2016年

东风电气容灾项目

实施工程师

王勇02887898946

2014-2015年

永安保险异地容灾项目

实施工程师

李乾029-86476373

2012-2013年

中海油CDP项目

实施工程师

郭浩010-84528099

获奖情况

优秀员工

目前任职项目状况

项目名称

东风电气容灾项目

担任职位

实施工程师

可以调离日期

随时

备注

可随时参与本项目

姓名

王博

年龄

31

专业

电子信息工程

职称

高级工程

公司单位职务

售后工程师

拟在本项目担任职

工程师

毕业学校

2008年7月毕业于西安电子科技大学学校应用数学专业,学制4年

经历

年~年

参加过的项目名称

担任何职

用户代表及联系电话

2014/10至今

中石油物联网备份项目

工程师

姚刚13466793637

2015/04-

中电投河南电力有限公司灾备项目

工程师

李振宇13937104825

2015/12

2014/5–2014/7

沈阳广电灾备项目

工程师

王臣13842008781

2013/6-2013/7

山东高速灾备项目

工程师

潘勇18668959961

获奖情况

多次受到用户表扬

目前任职项目状况

项目名称

中国外文出版发行事业局基础设施改造项目

担任职位

工程师

可以调离日期

随时

备注

姓名

姜海鸥

年龄

36

专业

电子商务

职称

高级工程师

公司单位职务

售后工程师

拟在本项目担任职务

实施工程师

毕业学校

2003年 7月毕业于 中国农业大学 学校

计算机科学与技术 专业,学制4年

经历

年~年

参加过的项目名称

担任何职

用户代表及联系电话

2013年

中美大都会系统集成项目,

项目经理

陈刚:

02123103636--63644

2014年

永安保险容灾项目

工程师

李乾:

18629092869

2015年

长安马自达机房建设项目

项目经理

魏涛:

18913801110

2015年

上海长征医院系统集成项目

项目经理

夏洪斌(主任)

021-81886211

获奖情况

2014年优秀员工,受到4次客户表扬信

目前任职项目状况

项目名称

首都机场综合信息展示平台项目

担任职位

售后工程师

可以调离日期

随时

备注

可随时参与本项目

3.人员分工

姓名

职位

任务

项目经理

确保项目目标实现,制定项目阶段性目标和项目总体控制计划项目总目标一经确定

实施工程师

完成项目设备上架、上电、调试,配合项目验收

实施工程师

完成项目设备上架、上电、调试,配合项目验收

实施工程师

完成项目设备上架、上电、调试,配合项目验收

4.设备供货、验收、安装、调试计划及保证措施

本项目托管平台的实施将在合同签订后,以到货时间或公司项目组确定的时间为存储系统实施计划的起始点。

在服务器系统部署前应当完成项目前期准备工作,并经公司项目组批准。

确保环境达到

《环境需求说明书》的要求,包括但不限于空间、供电、网络。

设定合同签订之日为0。

进度安排以日为单位进行规划。

进度计划表

工作任务

第1-15天 第16-20天 第21-25天 第26-29

设备到货,设备清点、设备运输到

数量验收,系统规划和设计

设备上架,内部连接,电源连接,外部网络连接,初始设置

设备配置,主机连接和识别,管理软件和应用软件在主机的安装

单元测试,连通性测试、多个单元联合测试,数据保护测试

按照生产系统进行配置,空间分配和保护配置,项目验收

现场培训,知识交接,安装报告,

系统试运行

注:

其中系统规划和设计可在设备到货之前提前完成。

1)硬件设备安装

a)供货机房要求

在进行服务器机房场地的准备时,需要考虑如下几个方面的问题:

n机房场地要求。

n设备摆放要求。

n设备搬运要求。

n安全预防措施。

n噪声考虑。

b)机房场地要求

1.空间

计算机机房场地要留有足够面积的空间作安装、维修及操作之用。

如有需要,还应预留空间作系统扩展之用。

HPC集群中主要采用的是HP10000系列机柜,常用的是HP-10642型号42U机柜(高

2000mm,深885.3mm, 宽600mm)。

以HP-10642机柜为例,机柜摆放所需的最小面积可以按如下方法计算:

最小值

机柜前部预留空间

1220mm(48in)

机柜后部预留空间

914mm(36in)

机柜顶部预留空间

根据上表,机柜摆放所需最小面积为:

最小值

机柜总长

600mm*机柜个数

机柜前后预留空间

885.3mm+1220mm+914

mm

机柜占用面积

机柜总长*机柜前后预留空间

三个机柜组成的系统在机房中摆放的示意图如下:

2.门窗

机房外窗宜采用双层窗、中空窗或将外窗封堵,避免阳光直射。

门户及走廊的大小应足够让系统在安装时运输之用。

3.地板

机房内的地板可以采用高架地板或一般平面地板,高架地板将有如下优点:

n避免电缆线及电源线的交错,地板下铺设不受限制且保护电源、电缆线及接头。

n未来扩充设备时,机器易于重新摆置而且美观。

n机器的重量分散在整个地板结构上。

n如果配合下送风空调,地板下将形成风腔,通过合理地选择送风地板的位置,有利于使机房各个区域温度湿度一致,防止局部过热过干。

当使用这种场地作为机房时,需要考虑地板和搬运通道是否能支撑机房这些设备的重量,

在计算所需的地板强度时应该考虑:

n计算机系统主机和所有外围设备的重量。

n辅助设备的重量,比如桌、椅、打印机等。

n工作人员的重量。

n高架地板自重和电缆线等的重量。

高架地板下面的走线需要注意:

n电源线和计算机设备的数据线应分开,距离应大于15cm。

n布线时,电源线和数据线应平行摆放,如遇交叉,应尽量90度交叉。

n电源线和数据线等摆放整齐,不能阻碍地板下送风的风流。

n如果空调是通过地板下方送风,那么操作时同时掀开的地板越少越好,以便保持空调系统正常的风压。

n保持地板清洁,注意灰尘碎屑等。

4.照明

计算机机房内应有足够的照明设备。

所有照明仪器均需要固定在墙上或天花板上,以保证操作人员及系统的安全。

机房内最好设置紧急照明设备。

5.防水

机房内应切断各种不必要水源,如暖气、消防水管等。

对机房内必须的水源,如精密空调上水、排水管路应作漏水检测,应采取有效的防止给排水漫溢和渗漏的措施。

c)设备摆放要求

在计算机设备搬运到机房场地前,请按下表检查是否符合设备摆放要求:

项目

规格要求

机房地板要求

请确认高架地板承重,地板使用防静电材料。

计算机机房楼板荷载:

A级>500kg/m2 B级>300kg/m2

项目

规格要求

地板开孔要求

每个机柜至少配一块带边孔(30cmx20cm以上)的地板,以备设备走

线。

设备摆放要求

机柜摆放前后需留出1米空间以便机柜门可以打开。

建议机柜并排紧贴

放置。

设备固定方法

惠普机柜配有可拆装地面固定支脚(角钢),防止机柜倾倒,机柜的固定

可以通过调节旋转支角实现。

(请参考下图)

设备走线方式

惠普标准机柜不支持上走线方式。

如客户需进行上走线,则需由客户自行对惠普机柜顶部开孔处理。

惠普机柜的底部有4个轮子,可以移动机柜。

在机柜摆放好后,需要调整机柜的水平并固定机柜,可以通过机柜下角的调整支角来调整。

对于HP/E系列机柜,在日常维护中,可能需要将设备拉出机柜,为了防止机柜倾倒,所以机柜还配备了防倾倒的支座,前后各一个,可以用螺丝固定到机柜下面。

机柜的固定和防倾倒支座请见下面的图:

如果需要将机柜固定在地板或水泥地面上,客户可根据本行业的规范,根据机柜的底部尺

寸信息,自制机柜固定底座,对设备进行固定。

惠普机柜的底部尺寸信息,请参考附录或与中国惠普公司安装计划支持中心联系。

客户还可以自行设计机柜固定方式,比如可以利用调整支角或在防倾倒支座上面打孔进行固定,具体方法可以参考下图:

d)设备搬运要求

1.机柜搬运要求

所有机柜设备,均需垂直搬运,搬运时机柜倾斜角度不得大于30度。

2.台阶处理方法

因机柜较重,请准备至少6名搬运人员,将机器搬过台阶。

(机柜自带滑轨,可将滑轨倾斜置于台阶上,将机柜推上台阶。

3.搬运通道要求

惠普机柜最高为2米,宽度一般不超过80厘米,搬运通道和机房门不能影响机柜设备的通过。

e)安全预防措施

许多的安全因素在场地的结构和电源的施工时就已经包括进去了,比如火警的预防和控制、电力安全及紧急照明,这部分请客户根据国家安全标准制订。

对于消防设备,水、泡沫、干粉灭火器喷射后有可能产生不同程度的水渍、泡沫污染和粉

尘污染等,对于计算机等设备,应选用高效洁净的灭火器。

f)噪声考虑

计算机及其外围设备会产生不同程度的噪音,建议适用吸音的材料降低噪音并做隔离。

g)机房环境规划

HP的机架式服务器系统应该安装在一个环境可控的计算机房中来确保系统的可靠运行,包括温度、相对湿度、空气污染和灰尘等。

i.温度和湿度

机房运行环境要求:

建议范围

允许范围

最大变化率

温度

20-25℃

15-32℃

5℃/小时

相对湿度

40-55%

20-80%

6%/小时

注:

海拔较高时,机房温度要降低1.8℃/1000米(海拔3000米内有效)

为了保持计算机机房的最佳温度和湿度,需要考虑机房内的总散热量,空调制冷量的计算应包括以下各项:

n计算机设备冷负荷

n电源设备冷负荷

n围护结构冷负荷

n照明冷负荷

n补充新风冷负荷

n人员冷负荷(450BTU/Hr)不同热量单位得换算关系为:

1kWatt=3412BTU/hr

1TON=12000BTU/hr

惠普公司主要设备的功率可以在相关手册中查到或与惠普公司安装计划支持中心联系。

ii.回风系统

HP10642和HP/E系列机柜都是前面进风,机柜后面或上面出风。

机柜的前后门和顶盖都有开孔,便于通风,请见下面的图示:

由于当今主机系统的散热量越来越高,为了避免主机超温故障,建议机柜并排摆放。

机房内送风方式建议采用下送风、上回风的送风方式。

地板下的空腔是最好的冷风通道,建议地板高度为46-61cm(18-24inch)。

每个机柜前部应该有开孔地板,用于送冷风。

此外,机房的空调必须保证机房具有良好的空气流动,不存在局部热点问题和风短路现象,机房的不同地点不应该有较大温差。

下面给出了回风系统的一个实例,仅供参考用。

客户可以自行设计机房的回风系统。

常见的计算机机房都采用如下图所示的机柜朝同一方向并排摆放的方式。

冷空气通过机柜前面的开孔地板送风,然后经过计算机设备后从机柜后面出风。

这种摆放方式的缺点是前排机柜排出的热空气会与下一排机柜前的开口地板送出的冷风混合,给设备降温后从机柜后面排除,容易导致后排机柜进风处的温度逐渐升高,导致机房局部温度过高。

另一个缺点是离空调近的冷风会不经过设备而直接返回空调的进风口。

因此可以考虑机柜面对面摆放,并将空调放置在机柜侧方。

这样进入机柜的冷风就不会与给设备降温后的热风混合而降低制冷效率。

对于空调的摆放,还要考虑要维持一定的风压。

一个空调系统可能只能保证一定范围内的风速,因此要考虑每个空调的送风范围,合理摆放空调,使机房的各个地方都能维持一定的风压。

这样机柜和空调的摆放就如下图所示:

设备摆放俯视图

理想情况下,给设备降温后的热空气上升到房间的天花板,然后返回空调的进风口。

但实际情况无法避免冷热空气的混合,尤其是在天花板比较低的时候,

因此,可以利用天花板吊顶,在机柜后面上方的吊顶上开孔,使热空气通过吊顶上方空间返回空调的进风口。

这样就能取得非常好的效果。

冷热风的流向如下图所示:

iii.洁净度

计算机运行环境应远离污染源,比如含二氧化硫、灰尘,含腐蚀性化学品的微粒等。

污染的典型例子是机器设备的风扇,经常在其表明形成以灰尘为主的污染层,所以对于各

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 初中教育 > 中考

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2