集团大数据平台系统配置方案.docx
《集团大数据平台系统配置方案.docx》由会员分享,可在线阅读,更多相关《集团大数据平台系统配置方案.docx(10页珍藏版)》请在冰点文库上搜索。
集团大数据平台系统配置方案
集团大数据平台系统配置方案
1.1硬件系统配置建议
1.1.1基础Hadoop平台集群配置规划
根据此次大数据平台的建设要求,大数据平台需要满足全量3PB数据的存储要求,根据数据的特点,大概30%为结构化数据,70%为非结构化数据,并以此进行估算。
其中:
1)结构化数据的数据量为:
3PB*30%=0.9PB=922TB(结构化数据全部进入数据仓库)
对于结构化数据存储容量要求为:
922TB*(3+1+0.5)/3*1.3=1798TB
注:
对结构化数据,采用3倍副本冗余存储,1倍中间结果余留,0.5倍索引存储空间,3倍数据压缩,0.3倍空间余留。
2)非结构化数据的数据量为:
3PB*70%=2.1PB=2151TB
对于非结构化数据存储要求为:
2151TB*3=6453TB
非结构化数据采用3倍副本冗余存储。
3)全量数据存储容量要求为:
1798TB(结构化数据)+6453TB(非结构化数据)=8251TB
DataNode单节点存储容量推荐配置为:
4TB*12=48TB
基础Hadoop平台DataNode节点数为:
8251TB/48TB=172节点
因此,DataNode服务器推荐配置为:
表10-1推荐配置
服务器
推荐配置及说明
节点数量
172个节点
CPU
两路8核处理器E5-2650v3或以上
内存
128GBECCDDR4
硬盘
2个600G的SAS硬盘,15000RPM,RAID1,作为系统盘
12个4TB的SATA硬盘,7200RPM,不做RAID1
网络
双电口万兆(10Gbps)以太网卡
另外:
对于此次搭建的大规模Hadoop集群,需要单独规划Zookeeper9个节点,NameNode2个节点,ResourceManager2个节点,HMaster5个节点,总共9+2+2+5=18个节点
综上所述,基础Hadoop平台节点规模如下:
表10-2节点规模
角色
节点数量
(X86服务器数量)
功能简述
DataNode
172
存储/计算节点
NameNode
2
管理节点
Zookeeper
9
Hadoop分布式系统中的高可靠的协调系统
ResourceManager
2
负责集群中所有资源的统一管理和分配
HMaster
5
为RegionServer分配region负责RegionServer的负载均衡
总共
190
针对NameNode,Zookeeper,ResourceManager,HMaster等角色的功能和性能要求,服务器建议采用如下配置:
表10-3推荐配置
服务器
推荐配置及说明
节点数量
18个节点
CPU
两路8核处理器E5-2650v3或以上
内存
256GBECCDDR4
硬盘
2个300G的SAS硬盘,15000RPM,RAID1,作为系统盘
10个300GB的SAS硬盘,15000RPM,不做RAID1
网络
双电口万兆(10Gbps)以太网卡
1.1.2数据仓库集群配置规划
根据此次大数据平台的建设要求,大数据平台需要满足全量3PB数据的存储要求,根据数据的特点,大概30%为结构化数据,70%为非结构化数据,并以此进行估算。
其中:
结构化数据922TB*(3+1+0.5)/3*1.3=1798TB(结构化数据全部进入数据仓库)
DataNode单节点存储容量推荐配置为:
2TB*12=24TB
基础Hadoop平台DataNode节点数为:
1798TB/24TB=75节点
因此,DataNode服务器推荐配置为:
表10-4推荐配置
服务器
推荐配置及说明
节点数量
75个节点
CPU
两路8核处理器E5-2650V3或以上
内存
128GBECCDDR4
硬盘
2个600G的SAS硬盘,15000RPM,RAID1,作为系统盘
12个2TB的SATA硬盘,7200RPM,不做RAID1
网络
双电口万兆(10Gbps)以太网卡
固态硬盘(可选)
800GB或1.2TBPCIeSSD(例如IntelP3600SeriesPCI-eSSD)
另外:
对于此次搭建的大规模Hadoop集群,需要单独规划Zookeeper7个节点,NameNode2个节点,ResourceManager2个节点,HMaster5个节点,总共7+2+2+5=16个节点
综上所述,基础Hadoop平台节点规模如下:
表10-5节点规模
角色
节点数量
(X86服务器数量)
功能简述
DataNode
75
存储/计算节点
NameNode
2
管理节点
Zookeeper
7
Hadoop分布式系统中的高可靠的协调系统
ResourceManager
2
负责集群中所有资源的统一管理和分配
HMaster
5
为RegionServer分配region负责RegionServer的负载均衡
总共
91
针对NameNode,Zookeeper,ResourceManager,HMaster等角色的功能和性能要求,服务器建议采用如下配置:
表10-6推荐配置
服务器
推荐配置及说明
节点数量
16个节点
CPU
两路8核处理器E5-2650v3或以上
内存
256GBECCDDR4
硬盘
2个300G的SAS硬盘,15000RPM,RAID1,作为系统盘
10个300GB的SAS硬盘,15000RPM,不做RAID1
网络
双电口万兆(10Gbps)以太网卡
1.1.3集群规模综述
表10-7集群规模
集群名称
集群用途
集群规模
基础Hadoop集群
进行全量数据存储,进行数据清洗、转换工作。
190台
数据仓库集群
存储结构化数据,并提供高复杂度、高负载的计算、分析任务,提供数据仓库、数据集市等功能
91台
总共
281台
1.1.4开发集群配置建议
表10-8开发集群配置
服务器
推荐配置及说明
CPU
两路8核处理器2*E5-2650v3或以上
内存
128GBECCDDR3
硬盘
10个2TB的SATA硬盘,7200RPM,不使用RAID;
2个300G的SAS硬盘,15000RPM,RAID1,作为系统盘
网络
双电口千兆(1Gbps)以太网卡
固态硬盘(可选)
800GB或1.2TBPCIeSSD(例如IntelP3600SeriesPCI-eSSD)
1.1.5测试集群配置建议
表10-9测试集群配置
服务器
推荐配置及说明
CPU
两路8核处理器2*E5-2650v3或以上
内存
128GBECCDDR3
硬盘
10个2TB的SATA硬盘,7200RPM,不使用RAID;
2个300G的SAS硬盘,15000RPM,RAID1,作为系统盘
网络
双电口万兆(10Gbps)以太网卡
固态硬盘(可选)
800GB或1.2TBPCIeSSD(例如IntelP3600SeriesPCI-eSSD)
1.2软件配置建议
表10-10软件配置
服务器
推荐配置及说明
操作系统
LINUX(红旗)操作系统
大数据基础平台软件
星环TDH产品,281节点
自有数据挖掘分析工具
星环Discover(含并行化R算法库)
商用数据挖掘分析工具
推荐SAS/SPSS等(建议甲方单独采购)
数据整合平台软件
Trinity(ETL、元数据管理、数据整合)
自有可视化BI工具
iRecharts、Cognos(利旧)
商用可视化BI工具
QlikView/Tableau(建议甲方单独采购)
自有互联网数据采集软件
iRIS
自有大数据语义分析软件
iNLP
商用大数据语义分析软件
推荐SASTextMiner等(建议甲方单独采购)
工作流引擎
开源免费:
Activiti
规则引擎
开源免费:
Drools
表10-11TDH软件配置
集团大数据平台软件配置建议
软件组件名称
软件功能说明
备注
TranswarpInceptor
星环分布式内存计算引擎,完整支持SQL99,SQL’2003,全面兼容OraclePL/SQL以及DB2存储过程。
TranswarpHyperbase
星环分布式NoSQL数据库,支持海量数据高并发数据写入与查询,提供多种索引功能、提供图计算、分布式事务等功能支持。
TranswarpDissover
星环分布式分析挖掘引擎,提供6000多种数据挖掘、统计分析、机器学习算法。
TranswarpStream
星环实时流数据处理引擎,支持对高吞吐量的实时数据进行快速的计算。
TranswarpHadoop
星环分布式存储系统,提供高吞吐量的数据写入,提供稳定、高效的数据存储与计算功能。
TranswarpManager
星环TranswarpDataHub平台图形化的管理工具。
1.3软硬件配置总表
表10-12软硬件配置总表
软件部分
推荐配置及说明
数量
操作系统
LINUX(红旗)操作系统(建议甲方单独采购)
281
大数据基础平台软件
星环TDH产品,281节点
281
自有数据挖掘分析工具
星环Discover(含并行化R算法库)
281
商用数据挖掘分析工具
推荐SAS/SPSS等(建议甲方单独采购)
1
数据整合平台软件
Trinity(ETL、元数据管理、数据整合)
1
自有可视化BI工具
iRecharts、Cognos(利旧)
1
商用可视化BI工具
QlikView/Tableau(建议甲方单独采购)
1
自有互联网数据采集软件
iRIS
1
自有大数据语义分析软件
iNLP
1
商用大数据语义分析软件
推荐SASTextMiner等(建议甲方单独采购)
1
工作流引擎
开源免费:
Activiti
1
规则引擎
开源免费:
Drools
1
硬件部分
推荐配置及说明
数量
PC服务器
两路8核CPU2*E5-2650v3;
内存分别为128GB(DataNode)、256GB(NameNode等)ECCDDR3;
硬盘10个4TB的SATA硬盘,7200RPM,2个300G的SAS硬盘,15000RPM;
双电口千兆(1Gbps)以太网卡
190
PC服务器
两路8核CPU2*E5-2650v3;
内存分别为128GB(DataNode)、256GB(NameNode等)ECCDDR3;
硬盘10个2TB的SATA硬盘,7200RPM,2个300G的SAS硬盘,15000RPM;
双电口千兆(1Gbps)以太网卡
固态硬盘800GB或1.2TBPCIeSSD
91
1.4网络拓扑
图10-1网络拓扑图
建议配置12个一级TOR万兆交换机(48端口),3个二级TOR万兆交换机(48端口)。
任意两台服务器之间的带宽为2Gbps。
规划24个机柜,每个机柜部署12个2U服务器,每台服务器以双网口链路聚合上联集群交换机,后续随着集群规模的扩展可增设核心数据层交换机,向下负责汇聚多个集群节点。