浪潮云海大数据解决方案V30.docx

资源描述

浪潮云海大数据解决方案V30.docx

《浪潮云海大数据解决方案V30.docx》由会员分享，可在线阅读，更多相关《浪潮云海大数据解决方案V30.docx（17页珍藏版）》请在冰点文库上搜索。

浪潮云海大数据解决方案V30.docx

浪潮云海大数据解决方案V30

浪潮云海大数据一体机解决方案

高端服务器研发部

高端容错计算机产品部

2013.1

一．产品简介

为应对大数据时代的到来，浪潮集团适时推出浪潮云海大数据一体机，重点面向行业大数据应用，是一体化数据处理的解决方案。

采用新型技术体系架构，整合软硬件系统，涵盖数据存储、数据处理、数据呈现等全环节。

浪潮云海大数据一体机是公安、金融、电信、交通、医疗、企业等各个行业用户的大数据解决方案理想之选。

1.1浪潮云海大数据一体机总体架构

1.2系列化产品

SDA-1：

●满配：

CPU：

480Core；内存：

12TB；存储容量：

144TB；网络：

1Gbps、10Gbps或者40Gbps

●支持线性扩展

●适合数据处理应用：

模式计算，商业智能，医疗数据挖掘等。

计算能力、I/O能力、存储能力均衡。

SDA-2：

●满配：

CPU：

288Core；内存：

6912GB；存储容量：

540TB；网络:

1Gbps、10Gbps或者40Gbps

●支持线性扩展

●适合处理密集型的重载应用:

视频处理，图片处理分析，图像渲染，在线交易等。

可重构加速器件或众核处理器，硬件加速。

二．关键模块介绍

HDFS分布式存储解决数据如何存储的问题，Map/Reduce解决数据如何处理问题，HBase解决实时数据库问题，Hive解决基于SQL的数据分析和挖掘。

2.1Hadoop分布式文件系统：

–使用低成本存储和服务器构建

–存放PB级别的海量数据

–高可扩展性，实际生产环境扩展至4000个节点

–高可靠性和容错性，数据自动复制，可自我修复

–高带宽，高并发访问

2.2HadoopMapReduce计算框架：

为离线数据分析而设计，基本上是个利用数据并行性进行分布运算而后汇总结果的计算框架。

通用的计算框架，松耦合，非常利于线性扩展。

与HDFS一起使用，具有容错特性，数据本地化处理，通过移动计算，而非移动数据来实现高效数据处理。

•分析问题能够被并行化，且输入数据集可以被切分

•一个Map函数，在第一阶段计算对

•一个Reduce函数，在第二阶段用于汇总Map函数的结果

2.3HBase分布式数据库

HBase是一个分布式的、按列存储的、多维表结构的实时数据库,为高速在线数据服务而设计

–NoSQL

•面向列、可压缩，有效降低磁盘I/O，提高利用率。

•多维表，四个维度，其中三个维度可变，适合描述复杂嵌套关系。

•灵活的表结构，可动态改变和增加（包括行、列和时间戳）。

•支持单行的ACID事务处理

–分布式系统

•高性能，支持高速并发写入和高并发查询；

•可扩展，数据自动切分和分布，可动态扩容，无需停机；

•高可用性，建立在HDFS分布式文件系统之上。

2.4Hive数据仓库

Hive是一个建立在hadoop之上的数据仓库，用于查询和分析结构化海量数据

–采用HDFS进行数据存储

–采用Map/Reduce进行数据操作

基本特点:

–提供类似于SQL的查询语言

–高扩展性（scale-out），动态扩容无须停机

–针对海量数据的高性能查询和分析系统

–提供灵活的扩展性

•复杂数据类型，扩展函数和脚本等

三．浪潮云海大数据一体机解决方案优势

3.1高性能

●专用的大数据存储服务器：

针对大数据的应用特点，浪潮凭借在服务器及存储方面的领先优势，自主开发了大数据存储服务器，具备高密度、大容量存储特性。

●胖节点加速方案：

胖节点拥有英特尔至强平台的最强性能、最大内存、最高RAS特性保障。

●闪存加速技术：

将闪存盘放在整个计算缓存里面做高速缓存，针对不同应用类型，实现全局的算法，降低冗余率，使整个平台的计算节点、存储节点大大提高运行效率。

●高速通信网络：

通信网络选用性能领先的万兆网络或者IB网络，实现一体机内部的高速互联，消除网络瓶颈。

●软件性能优化

✓IO瓶颈易于解决

✓可以发挥大规模并行运算优势

✓支持大规模并行装载，装载前无需数据格式化，节点越多装载速度越快

✓优化系统任务调度策略，对任务实现实时监控，

✓动态调整任务执行资源，减少慢任务数量，提高整体性能

3.2高可靠性

●服务器本身冗余特性：

节点的硬盘、风扇、电源等关键部件都是冗余设计，保障了节点本身的可靠性。

●链路冗余：

网络可实现物理冗余设计，避免单点故障对系统的影响。

●采用Reed-Solomon算法，优化分布式散列数据布局，满足文件高并发和高带宽双重需求同时平衡数据冗余度。

采用两副本加编码的方式相对三副本最大可实现30%空间节省。

●智能失败任务识别：

自动将任务转移到备份数据节点执行，单个节点的故障不影响整个任务的执行，有效应对计算单元失效。

3.3高性价比

●Hadoop的诞生本身就是为了在低成本的通用硬件集群上运行分布式计算框架。

●浪潮云海大数据一体机具备优异的线性可扩展，满足了未来业务量增长的需求，有效保护了现有投资，降低总体CTO。

3.4易管理

●本地管理平台：

每套大数据一体机中都配有本地管理平台，使系统管理人员方便集中控管一体机。

●远程集中管理平台：

HDFS配置界面

HBase配置界面

监控管理界面

3.5专业化服务

●实施服务：

云海大数据一体机会在出厂前进行产品预装及严格的可靠性测试，保障产品的品质。

产品实施实现客户现场的一体化交付，真正做到插电即用，极大地降低了客户利用大数据的门槛。

●售后服务：

浪潮建立了以山东济南客户服务总部为中心、其他各省、直辖市设立服务分中心的覆盖全国的完备售后体系，所有客服工程师都是原厂经验丰富的服务工程师。

浪潮已经连续九年获得售后服务满意度金奖。

四．竞争性分析

4.1跟传统关系型数据库对比分析

机型

浪潮云海大数据一体机

OracleExadata一体机

类型

新型的Hadoop解决方案

传统关系型数据库（RDBMS）

适用场景

•数据规模10TB~EB规模

•结构化，半结构化，非结构化混合存储和处理

•海量数据的ETL和数据挖掘分析应用

•海量数据的高并发随机访问

•数据规模TB以下

•结构化数据的存储和处理

•联机交易应用

•GB级别的数据分析和ETL

架构

•无共享MPP架构

•单一实例

•Share-all架构

可用性

•默认三份数据冗余，用户可依据需求进行调整

•备用元数据节点，故障后自动切换

•数据损失后，可以在剩余机器上自愈

•故障节点作业可以转移到其它节点

•无需第三方支持，HBase提供基于日志的容灾解决方案

•大部分产品依赖RAID技术进行数据冗余

•大部分产品不具备数据自愈能力，需要数据备份

•节点故障后，SQL任务中断，不能自动转移

•部分主流商业数据库，无需第三方支持提供基于日志的容灾解决方案

性能

•IO瓶颈易于解决

•可以发挥大规模并行运算优势

•支持大规模并行装载，节点越多装载速度越快

•IO瓶颈难以解决

•难以发挥大规模并行运算优势

•装载性能有限，数据需要格式化

可扩展性

•存储能力，性能，并发访问，既可纵向扩展硬件得到提升，也可横向增加节点进行线性扩展

•国内外均有大量数百，上千节点的部署案例

•海量数据环境中，可联机改变数据结构

•存储能力，性能，并发访问能力主要通过硬件纵向扩展提升，难以进行线性扩展

•Share-all集群架构规模难以突破40节点

•海量数据环境下，改变数据结构代价大，且影响业务

访问接口

•标准文件访问接口（FTP，NFS等）

•部分兼容SQL92（ODBC/JDBC）

•NativeJAVA访问接口

•Rest访问接口

•Thrift访问接口

•完整的SQL访问接口（ODBC/JDBC,专有客户端等）

•丰富的开发，集成，管理工具

其它

•低廉的软硬件成本，完全开放架构

•无字符集选择问题

•支持基本权限管理和透明数据加密解密

•以开源文档为基础，提供新增特性接口和使用说明

•高昂的软硬件成本

•需要事先确定字符集

•部分产品支持完善权限管理和透明数据加密解密

•完整的文档

4.2跟开源Hadoop对比分析

浪潮云海大数据一体机

直接使用开源Hadoop

新型的Hadoop解决方案

开源Hadoop

•一体化交付方案型产品，经过系统优化，实现了软件、硬件的最优性能

•全面测试的企业级发行版，保证长期稳定运行，集成最新开源的和自行开发的补丁，用户可以及时修正漏洞保证各个部件之间的一致性，使应用顺滑运行

•无相关经验，单纯地进行硬件和软件环境的搭建

•针对HDFS数据节点的读写选取提供高级均衡算法，提高系统扩展性，适合不同配置服务器组成的集群

•简单均衡算法，容易在慢速服务器或热点服务器上产生读写瓶颈，最慢服务器成为系统性能瓶颈

•根据读请求并发程度动态增加热点数据的复制倍数，提高Map/Reduce任务扩展性

•无法自动扩充倍数功能，在集中读取时扩展性不强，存在性能瓶颈

•为HDFS的NameNode提供双机热备方案，提高可靠性

•主NameNode节点失效时，自动切换到备用NameNode

•NameNode是系统的单点破损点，一旦失效系统将无法读写

•实现跨区域数据中心的HBase超级大表，用户应用可实现位置透明的数据读写访问和全局汇总统计

•允许跨多个物理数据中心建立分布式大表，突破单一数据中心由于空间和供电限制无法建立超大集群的限制

•无此功能，无法进行跨数据中心部署

•可将HBase表复制到异地集群，并提供单向、双向复制功能，实现异地容灾

•没有成熟的复制方案

•在HBase中，根据数据局部性、服务器Region数、表的Region数来实现负载均衡，适合多用户共享集群创建多张大表的应用

•只根据Region数量进行负载均衡，容易产生系统不均衡

•基于HBase的分布式聚合函数，比传统方式提高10倍以上效率

•无成熟方案

•提供独有的基于浏览器的集群安装和管理界面，解决开源版本管理困难的问题，提供网页、邮件方式的系统异常报警

•无图形化管理界面

•完善的售后服务体系

•无售后服务

五．成功案例

5.1某城市智能交通系统

项目背景

●年过车信息数据量达数百亿级记录规模

●市局和区县的数据中心两级架构，分布式存储，集中管理。

●支持多条件组合快速查询：

卡口名称、车道名称、车辆类型、车牌类型、车牌号码、车身颜色、车牌颜色、车速范围、车长范围、号牌段范围、时间范围。

●支持海量过车信息的模糊匹配检索。

●支持各种统计分析、数据挖掘：

车辆违章率统计、过车识别率统计、套牌分析、关联性分析、黑名单等

系统需求

●数据量（过车记录+违章图片+数据冗余+异地容灾）：

~6PB

●数据采集终端：

12000个，写入性能>24000记录/秒

●用户数：

>1000

过车记录

单个区数据中心

全市数据总和

每秒钟

~6MB/s

1200条记录/s

120MB/s

24000条记录/秒

每小时

~20GB/hour

432万条/小时

~400GB/hour

8640万条/小时

每天

~480GB/day

1亿条/天

~9.6TB/day

20亿条/天

每月

~14.4TB/month

30亿条/月

~288TB/month

600亿条/月

三个月

~43.2TB/3months

90亿条/三个月

~0.8PB/3months

1800亿条/三个月

违章车辆图片数据

单个区数据中心

全市数据总和

每小时

~1.8GB/h

36GB/h

每天

~43.2GB/day

~864GB/day

每月

~1.2TB/month

~24TB/month

三个月

~3.6TB/3months

~72TB/3months

难点分析

传统数据库方案潜在问题:

●初始投入和后期维护，扩展成本巨大

●人为分库，灵活性差。

●混合数据类型支持

●规模仅能支持单个区域中心

●应用可靠性差，难以保证业务连续性

●代码复杂

●系统可维护性

浪潮云海大数据一体机解决方案

拓扑图

智能交通应用技术

方案规模、指标、特点

●该方案使用SDA-1、SDA-2，共计580节点

●集群性能：

写入100000条记录/秒，20000主键查询/秒

●系统特点：

✓解决了海量过车信息（结构文本+图片）存储问题

✓解决了分布式数据查询问题，应用系统可以接入任何一个本地数据中心，并访问全库数据

✓系统提供了易于使用的API，方便进行二次开发

✓系统做了较多优化，性能很好的满足了项目的实时性要求

✓系统稳定性强，建立在X86服务器平台，自动进行数据迁移和数据恢复

5.2某省级运营商清帐单查询系统

原有方案：

小型机+存储+Oracle

●成本高、扩展性差

✓服务器采用P595的两个分区（48CPU），部署不同的地市，互为主备；存储使用2台DS8300，RAID5方式，有效容量54TB

✓数据量大，增长迅速，但数据库的扩容工程施工风险高

●数据风险高

✓灾难恢复依赖磁带，业务中断时间长

●效率低

✓关系数据库处理困难，查询慢（超过15秒）

✓关系数据库入库慢，常有清单文件积压，不能实时入库，从而不能实时查询

新清账单中心方案

●底层为浪潮提供的大数据解决方案平台，上层由应用开发商开发业务程序，对入库和查询进行业务处理。

●这种架构有效的屏蔽了底层的功能，对上层来说，只需要调研相关接口即可。

数据的分发、复制、任务调度、容错都是由系统软件来控制。

大规模的PC具备强大的处理能力和网络带宽，同时具备线性的横向扩展能力。

3份冗余的数据保证对硬件的容错和读处理的支持。

●存储使用69台PC机身硬盘作分布式存储DataNode，每台PC配置6TB磁盘容量，按每份数据存放3份计算，有效容量138TB，保存6+1个月数据，压缩比1:

六．浪潮云海大数据一体机配置

系统平台

●根据客户实际应用容量需求，用SDA-1、SDA-2进行灵活线性扩展。

●操作系统：

✓RedHatEnterpriseLinuxforServers或CentOS，64位系统，版本6以上。

✓SUSELinux11SP1

●Hadoop平台：

✓HDFS/MapReduce

✓HIVE

✓HBASE

✓HadoopManager

✓Zookeeper

展开阅读全文