集团大数据平台系统配置方案.docx

上传人:b****0 文档编号:9261015 上传时间:2023-05-17 格式:DOCX 页数:10 大小:133.63KB
下载 相关 举报
集团大数据平台系统配置方案.docx_第1页
第1页 / 共10页
集团大数据平台系统配置方案.docx_第2页
第2页 / 共10页
集团大数据平台系统配置方案.docx_第3页
第3页 / 共10页
集团大数据平台系统配置方案.docx_第4页
第4页 / 共10页
集团大数据平台系统配置方案.docx_第5页
第5页 / 共10页
集团大数据平台系统配置方案.docx_第6页
第6页 / 共10页
集团大数据平台系统配置方案.docx_第7页
第7页 / 共10页
集团大数据平台系统配置方案.docx_第8页
第8页 / 共10页
集团大数据平台系统配置方案.docx_第9页
第9页 / 共10页
集团大数据平台系统配置方案.docx_第10页
第10页 / 共10页
亲,该文档总共10页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

集团大数据平台系统配置方案.docx

《集团大数据平台系统配置方案.docx》由会员分享,可在线阅读,更多相关《集团大数据平台系统配置方案.docx(10页珍藏版)》请在冰点文库上搜索。

集团大数据平台系统配置方案.docx

集团大数据平台系统配置方案

集团大数据平台系统配置方案

1.1硬件系统配置建议

1.1.1基础Hadoop平台集群配置规划

根据此次大数据平台的建设要求,大数据平台需要满足全量3PB数据的存储要求,根据数据的特点,大概30%为结构化数据,70%为非结构化数据,并以此进行估算。

其中:

1)结构化数据的数据量为:

3PB*30%=0.9PB=922TB(结构化数据全部进入数据仓库)

对于结构化数据存储容量要求为:

922TB*(3+1+0.5)/3*1.3=1798TB

注:

对结构化数据,采用3倍副本冗余存储,1倍中间结果余留,0.5倍索引存储空间,3倍数据压缩,0.3倍空间余留。

2)非结构化数据的数据量为:

3PB*70%=2.1PB=2151TB

对于非结构化数据存储要求为:

2151TB*3=6453TB

非结构化数据采用3倍副本冗余存储。

3)全量数据存储容量要求为:

1798TB(结构化数据)+6453TB(非结构化数据)=8251TB

DataNode单节点存储容量推荐配置为:

4TB*12=48TB

基础Hadoop平台DataNode节点数为:

8251TB/48TB=172节点

因此,DataNode服务器推荐配置为:

表10-1推荐配置

服务器

推荐配置及说明

节点数量

172个节点

CPU

两路8核处理器E5-2650v3或以上

内存

128GBECCDDR4

硬盘

2个600G的SAS硬盘,15000RPM,RAID1,作为系统盘

12个4TB的SATA硬盘,7200RPM,不做RAID1

网络

双电口万兆(10Gbps)以太网卡

另外:

对于此次搭建的大规模Hadoop集群,需要单独规划Zookeeper9个节点,NameNode2个节点,ResourceManager2个节点,HMaster5个节点,总共9+2+2+5=18个节点

综上所述,基础Hadoop平台节点规模如下:

表10-2节点规模

角色

节点数量

(X86服务器数量)

功能简述

DataNode

172

存储/计算节点

NameNode

2

管理节点

Zookeeper

9

Hadoop分布式系统中的高可靠的协调系统

ResourceManager

2

负责集群中所有资源的统一管理和分配

HMaster

5

为RegionServer分配region负责RegionServer的负载均衡

总共

190

针对NameNode,Zookeeper,ResourceManager,HMaster等角色的功能和性能要求,服务器建议采用如下配置:

表10-3推荐配置

服务器

推荐配置及说明

节点数量

18个节点

CPU

两路8核处理器E5-2650v3或以上

内存

256GBECCDDR4

硬盘

2个300G的SAS硬盘,15000RPM,RAID1,作为系统盘

10个300GB的SAS硬盘,15000RPM,不做RAID1

网络

双电口万兆(10Gbps)以太网卡

1.1.2数据仓库集群配置规划

根据此次大数据平台的建设要求,大数据平台需要满足全量3PB数据的存储要求,根据数据的特点,大概30%为结构化数据,70%为非结构化数据,并以此进行估算。

其中:

结构化数据922TB*(3+1+0.5)/3*1.3=1798TB(结构化数据全部进入数据仓库)

DataNode单节点存储容量推荐配置为:

2TB*12=24TB

基础Hadoop平台DataNode节点数为:

1798TB/24TB=75节点

因此,DataNode服务器推荐配置为:

表10-4推荐配置

服务器

推荐配置及说明

节点数量

75个节点

CPU

两路8核处理器E5-2650V3或以上

内存

128GBECCDDR4

硬盘

2个600G的SAS硬盘,15000RPM,RAID1,作为系统盘

12个2TB的SATA硬盘,7200RPM,不做RAID1

网络

双电口万兆(10Gbps)以太网卡

固态硬盘(可选)

800GB或1.2TBPCIeSSD(例如IntelP3600SeriesPCI-eSSD)

另外:

对于此次搭建的大规模Hadoop集群,需要单独规划Zookeeper7个节点,NameNode2个节点,ResourceManager2个节点,HMaster5个节点,总共7+2+2+5=16个节点

综上所述,基础Hadoop平台节点规模如下:

表10-5节点规模

角色

节点数量

(X86服务器数量)

功能简述

DataNode

75

存储/计算节点

NameNode

2

管理节点

Zookeeper

7

Hadoop分布式系统中的高可靠的协调系统

ResourceManager

2

负责集群中所有资源的统一管理和分配

HMaster

5

为RegionServer分配region负责RegionServer的负载均衡

总共

91

针对NameNode,Zookeeper,ResourceManager,HMaster等角色的功能和性能要求,服务器建议采用如下配置:

表10-6推荐配置

服务器

推荐配置及说明

节点数量

16个节点

CPU

两路8核处理器E5-2650v3或以上

内存

256GBECCDDR4

硬盘

2个300G的SAS硬盘,15000RPM,RAID1,作为系统盘

10个300GB的SAS硬盘,15000RPM,不做RAID1

网络

双电口万兆(10Gbps)以太网卡

1.1.3集群规模综述

表10-7集群规模

集群名称

集群用途

集群规模

基础Hadoop集群

进行全量数据存储,进行数据清洗、转换工作。

190台

数据仓库集群

存储结构化数据,并提供高复杂度、高负载的计算、分析任务,提供数据仓库、数据集市等功能

91台

总共

281台

1.1.4开发集群配置建议

表10-8开发集群配置

服务器

推荐配置及说明

CPU

两路8核处理器2*E5-2650v3或以上

内存

128GBECCDDR3

硬盘

10个2TB的SATA硬盘,7200RPM,不使用RAID;

2个300G的SAS硬盘,15000RPM,RAID1,作为系统盘

网络

双电口千兆(1Gbps)以太网卡

固态硬盘(可选)

800GB或1.2TBPCIeSSD(例如IntelP3600SeriesPCI-eSSD)

1.1.5测试集群配置建议

表10-9测试集群配置

服务器

推荐配置及说明

CPU

两路8核处理器2*E5-2650v3或以上

内存

128GBECCDDR3

硬盘

10个2TB的SATA硬盘,7200RPM,不使用RAID;

2个300G的SAS硬盘,15000RPM,RAID1,作为系统盘

网络

双电口万兆(10Gbps)以太网卡

固态硬盘(可选)

800GB或1.2TBPCIeSSD(例如IntelP3600SeriesPCI-eSSD)

1.2软件配置建议

表10-10软件配置

服务器

推荐配置及说明

操作系统

LINUX(红旗)操作系统

大数据基础平台软件

星环TDH产品,281节点

自有数据挖掘分析工具

星环Discover(含并行化R算法库)

商用数据挖掘分析工具

推荐SAS/SPSS等(建议甲方单独采购)

数据整合平台软件

Trinity(ETL、元数据管理、数据整合)

自有可视化BI工具

iRecharts、Cognos(利旧)

商用可视化BI工具

QlikView/Tableau(建议甲方单独采购)

自有互联网数据采集软件

iRIS

自有大数据语义分析软件

iNLP

商用大数据语义分析软件

推荐SASTextMiner等(建议甲方单独采购)

工作流引擎

开源免费:

Activiti

规则引擎

开源免费:

Drools

表10-11TDH软件配置

集团大数据平台软件配置建议

软件组件名称

软件功能说明

备注

TranswarpInceptor

星环分布式内存计算引擎,完整支持SQL99,SQL’2003,全面兼容OraclePL/SQL以及DB2存储过程。

TranswarpHyperbase

星环分布式NoSQL数据库,支持海量数据高并发数据写入与查询,提供多种索引功能、提供图计算、分布式事务等功能支持。

TranswarpDissover

星环分布式分析挖掘引擎,提供6000多种数据挖掘、统计分析、机器学习算法。

TranswarpStream

星环实时流数据处理引擎,支持对高吞吐量的实时数据进行快速的计算。

TranswarpHadoop

星环分布式存储系统,提供高吞吐量的数据写入,提供稳定、高效的数据存储与计算功能。

TranswarpManager

星环TranswarpDataHub平台图形化的管理工具。

1.3软硬件配置总表

表10-12软硬件配置总表

软件部分

推荐配置及说明

数量

操作系统

LINUX(红旗)操作系统(建议甲方单独采购)

281

大数据基础平台软件

星环TDH产品,281节点

281

自有数据挖掘分析工具

星环Discover(含并行化R算法库)

281

商用数据挖掘分析工具

推荐SAS/SPSS等(建议甲方单独采购)

1

数据整合平台软件

Trinity(ETL、元数据管理、数据整合)

1

自有可视化BI工具

iRecharts、Cognos(利旧)

1

商用可视化BI工具

QlikView/Tableau(建议甲方单独采购)

1

自有互联网数据采集软件

iRIS

1

自有大数据语义分析软件

iNLP

1

商用大数据语义分析软件

推荐SASTextMiner等(建议甲方单独采购)

1

工作流引擎

开源免费:

Activiti

1

规则引擎

开源免费:

Drools

1

硬件部分

推荐配置及说明

数量

PC服务器

两路8核CPU2*E5-2650v3;

内存分别为128GB(DataNode)、256GB(NameNode等)ECCDDR3;

硬盘10个4TB的SATA硬盘,7200RPM,2个300G的SAS硬盘,15000RPM;

双电口千兆(1Gbps)以太网卡

190

PC服务器

两路8核CPU2*E5-2650v3;

内存分别为128GB(DataNode)、256GB(NameNode等)ECCDDR3;

硬盘10个2TB的SATA硬盘,7200RPM,2个300G的SAS硬盘,15000RPM;

双电口千兆(1Gbps)以太网卡

固态硬盘800GB或1.2TBPCIeSSD

91

1.4网络拓扑

图10-1网络拓扑图

建议配置12个一级TOR万兆交换机(48端口),3个二级TOR万兆交换机(48端口)。

任意两台服务器之间的带宽为2Gbps。

规划24个机柜,每个机柜部署12个2U服务器,每台服务器以双网口链路聚合上联集群交换机,后续随着集群规模的扩展可增设核心数据层交换机,向下负责汇聚多个集群节点。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医药卫生

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2