大数据处理技术参考架构Word格式文档下载.docx
《大数据处理技术参考架构Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《大数据处理技术参考架构Word格式文档下载.docx(29页珍藏版)》请在冰点文库上搜索。
![大数据处理技术参考架构Word格式文档下载.docx](https://file1.bingdoc.com/fileroot1/2023-5/1/7d4fe14e-d5dd-4e16-a611-b9615f5f5e3d/7d4fe14e-d5dd-4e16-a611-b9615f5f5e3d1.gif)
随着大数据时代的到来,数据由海量拓展为多样,在注重计算速度的同时更加关注挖掘有价值的数据。
以IOE体系为核心的数据计算和存储方式越来越不能满足目前大数据处理在性能和成本上的综合要求。
为适应对大数据处理的要求,众多的分布式计算平台随之兴起,在对众多分布式计算平台进行权衡的同时,增强自主创新能力,以满足人民银行对信息技术安全可控的要求。
在核心应用自主研发、核心知识自主掌控的氛围下,保障大数据技术达到灵活可用的目标,确保数据和信息的有效、及时,确保信息系统的可靠、灵活。
同时,充分的利用开源产品透明公开的关键信息,做到对技术细节的掌控和验证,开源产品的特点也更能够激发开发者的热情并推进技术的快速变革。
在“互联网+”的战略布局下,当利用信息通信技术把互联网和包括金融行业在内的相关行业结合起来时,能够更加合理和充分的利用大数据技术促进互联网金融的健康发展。
当前互联网金融的格局中,由传统金融机构和非金融机构组成。
传统金融机构的发展方向主要为传统金融业务的互联网创新以及电商化创新、手机APP服务等;
非金融机构的发展方向则主要是指利用互联网技术进行金融运作的电子商务企业、P2P模式的网络借贷平台,众筹模式的网络投资平台或掌上理财服务,以及第三方支付平台等。
在金融行业新兴业态下,为促进互联网金融的健康发展,为全面提升互联网金融服务能力和普惠水平,为有效防范互联网金融风险及其外溢效应而提供技术支撑。
在金融领域,新生业态层出不穷,金融机构日益多样化,金融资产的流动性快速上升,金融体系的关联度、复杂度大幅提高。
金融业的快速发展和创新,使货币政策操作环境、传导渠道发生重大变化。
在数据的处理分析上,对原有的宏观审慎分析框架及其有效性、准确性提出了挑战。
2.技术目标节约系统建设成获得最优系统价值,满足大数据的处理性能,本。
以保障大做到对技术细节的掌控和验证,充分利用开源产品,数据技术达到灵活可用。
增强自主创新能力,满足人民银行对信息技术安全可控的要求。
有效提供技术支撑,适应金融行业新兴业态下对大数据技术的需要。
3.技术要求
在满足海量数据高效处理的同时,对用户的访问能够保持较高的实时性,快速响应用户的请求。
采用的大数据技术架构能够支持水平扩展(Scale-out),适应未来五年对大数据存储和处理的需要。
采用的大数据技术架构能够支持故障的检测和自动快速恢复,确保系统的高可用性。
在满足大数据业务场景性能要求的同时,采用更加经济的大数据技术解决方案。
大数据处理业务场景4.
以统计分析类的业务场景为例,针对大数据的处理主要经过采集、存储、校验、审核、汇总、计算、分析挖掘等过程,在数据粒度还要包括不同层次的总量指标数据,既要包逐笔的标准化源数据,上,统计分析类大数据处理、无遗漏。
从而实现对统计体系业务的全覆盖、报表展现和信息发布的典型流程如下图所示:
统计分析类业务的特点主要包括:
均能够为业务操作员提供实时的业务处理在每个处理环节中,
情况或处理结果的查询。
校验、汇总、计算等环节中,所涉及到的运算规则均定义在数
据库或配置文件中,在执行处理之前,需要获取运算规则。
指标数能够提供逐笔数据、在报表数据生成或信息发布环节,
并能够通过BI汇总数据和报表数据的实时查询,工具访据、问以上数据。
统计类的数据查询多为综合查询,条件通常可由用户在查询前
定制,有查询响应实时性、查询条件多样性、查询多表关联性的特点。
能够灵活的通过数据挖掘技术对数据进行价值分析,例如:
R
语言。
能够灵活的使用数据可视化技术对数据进行互动展现,例如:
EChars。
统计系统业务量以每月增量40亿笔进行估算(以每笔1KB估算,约4TB/月增量数据;
每笔数据平均包含20个字段),现有存量数据
大约在20TB。
增量数据在当月5-8日进行校验、审核等处理,数据处理过程希望在T+0完成。
实时查询业务为用户随机进行。
在使用数据进行分布式计算时,一般情况当月4TB的数据全部参与计算。
比较复杂场景之一是逻辑校验部分的算法,按不同的规则,有的规则会使用到当月的全部增量数据参与校验,有的规则会按金融机构维度使用当前机构的历史数据参与校验。
大数据处理技术对比5.
目前对海量数据进行分布式处理的技术主要分为两类:
)大规模并行处理技MassivelyParallelProcessingMPP(术;
技术大多用于数据仓库领域,是将任务并行的分散到多个服MPP将各自部分的结果汇总在一在每个节点上计算完成后,务器节点上,HP,起得到最终的结果的一项技术,典型的代表例如:
Teradata,EMCGreenplum,GBaseVertica,OracleExadata等。
ApacheHadoop、Spark技术。
Hadoop&
Spark是由Apache基金会所开发的分布式系统基础架构,它所解决的核心问题是,通过部署在低廉的硬件上的、可以协同工作的软件组件,来完成分布式数据存储、高吞吐量数据访问、以及高负载的分布式计算。
近些年在众多行业都得到广泛应用。
5.1.MPP与Hadoop&
Spark技术对比
集群规模上,MPP技术支持近百个节点(中国大陆很少有100+节点的案例)。
Spark技术支持几千个节点。
扩容影响上,MPP技术扩容通常导致停机、服务中断;
数据需要重新分布,性能严重下降。
Spark技术扩容无需停机、服务不中断;
数据无需重新分布,新数据自动被分配到新的节点中,性能没有影响。
数据分布方式上,MPP技术以预定义数据分布策略,按列进行散列或轮询分布;
真实数据通常有倾斜,将导致数据不均匀分布,对计算效率影响较大。
Spark技术中,数据按预配置的块大小自动均匀分布,通过blockmap映射表查询数据位置;
数据分布均匀、扩容无需停机。
处理数据量上,MPP技术在数十TB级别。
Spark技术在PB级别。
容错能力上,MPP技术不存放中间结果,出错时需要重新执行整
个任务。
Spark技术存放中间结果,出错时只需要重新运行出错的子任务
并发能力上,MPP技术多用于分析型应用场景,数据装载时建立索引较慢;
通常不超过数百个并发。
Hadoop&
Spark技术数据装载快,采用公平调度/配额调度;
可支持上亿用户并发数据插入、查询、检索。
数据存储对象,MPP技术支持结构化数据,Hadoop&
Spark技术支持结构化、半结构化、非结构化数据。
应用运算逻辑实现方式上,MPP技术SQL语言,Hadoop&
Spark技术支持SQL2003、部分PL/SQL、R、Java、Scala等。
数据访问接口,MPP技术支持JDBC、ODBC,Hadoop&
Spark技术支持JDBC、ODBC、R语言接口等。
MPP
Spark
集群规模
近百个节点(中国大陆很少有
100+
节点的案例)
几千个节点
扩容无需停机、服务不中断;
动态扩展扩容通常导致停机、服务中运算能力断;
扩容时数据无需重新分布,新数据数据需要重新分布,性能严自动被分配到新的节点中,性能没有影重下降。
响。
数据分布数据以预定义的块大小自动均匀分数据以预定义的分布策略,
布,方式按列进行散列或轮询分布;
映射表查询数据位通过blockmap真实数据通常有倾斜,将导置;
致数据不均匀分布,
数据分布均匀、扩容无需停机。
对计算效率影响较大。
处理数据数十PBTB
量
存放中间结果,出错时只需要重新不存放中间结果,出错时需容错能力运行出错的子任务要重新执行整个任务
数据装载快,采用公平调度用于分析型应用场景,数据并发能力/配额调装载时建立索引较慢;
度;
询、检索。
可支持上亿用户并发数据插入、查
结构化、半结构化、非结构化数据数据存储结构化数据
对象
、JavaR、SQL2003、部分PL/SQL应用运算、SQL语言逻辑等Scala实现方式
数据访问R语言接口等JDBC、ODBC、JDBC、ODBC
接口
索引、二维索引、全支持(索引rowkey支持
文关键字索引)
技术优势5.2.Hadoop&
Spark级别的结构化、半结构化、非结构化数据。
存储、处理、分析PB40%低成本运算能力,使用低成本的存储和服务器构建,仅花费架构的性能。
左右价格,便可以达到甚至超越IOE动态扩展运算能力,扩容无需停机、服务不中断,数据无需重新分布,新数据自动被分配到新的节点中,性能没有影响。
。
高扩展能力,集群规模可扩展至几千个节点出错时只需要重新高容错能力,数据处理过程中存放中间结果,运行出错的子任务。
SQL2003等。
语言、Java、RScala、应用运算逻辑,支持Hadoop框架对比5.3.
ApacheHadoop
ClouderaCDH
HortonworksHDP
专有代码依赖
开源程度技术支持集群部署集群监控集群管理主要特点
已经形成生态系统,除了包含MapReduce很多其他目,ZooKeeperSqoop可以根据需要自由组合。
如:
完全开源无复杂较易较易无Apache
HBase等等,使用者
HDFS,、
还包含了Apache
Hadoop、、Ambari
YARNHive
、项、、
部分开源(包含免费版每年按节点数量收费容易容易容易有(如:
管理工具)通过添加专有代码实现的成集群的部署和管理,并对集群的节点及服务进行实时监控。
Cloudera
Manager
/企业版)
完
业版)收费通SoftwareFoundation形式开发,需专用扩展。
避免随着扩展而背离主干,以及随之而来的兼容性问题。
完全开源(包含免费版每容易容易容易无所
年有
过
按解
节决
点方Apache以项目HDP
数案
/内无
企量都
Hadoop使用情况5.4.
Hadoop年进行的一项调查,部署2014根据咨询机构Wikibon在的开源版本是基于Hadoop51%仅有的机构中,25%是付费用户,而有Hadoop等HortonworksCloudera24%自行开发,还有的用户则是使用、开发商推出的免费版本。
5.5.Hadoop血缘关系
IBMBigInsights是基于ApacheHadoop框架的存储,管理和分析Internet级别数据量的半结构化和非结构化数据的方案,具备企业级管理、工作流管理、安全管理、可视化挖掘与展现等能力,能与现有基础设施和大数据流计算技术集成。
产品设计思路是基于Apache
Hadoop框架,在保持完全100%ApacheHadoop兼容的情况下,加入
IBM的项目和研究开发的分析能力。
整体架构如下图所示:
EMCPivotalHD是EMC公司进行自主研发的Hadoop商业化产品,在2013年2月独立推出的商业发行版(2013年以前EMC和MapR公司在Hadoop领域为合作伙伴)。
PivotalHD产品包括Hadoop的MapReduce和HDFS,可以利用Hive、HBase、Pig开发语言、Yarn资源管理、Mahout分析工具和Zookeeper工具等。
还包括Hardware
VirtualExtensions(HVE)组件,它可以让Hadoop集群知道自己是
建立在虚拟机还是物理服务器上。
MapRHadoop是MapRTechnologies公司于2011年正式发布的产品,目标是使Hadoop变为一个速度更快、可靠性更高、更易于管理、使用更加方便的分布式计算服务和存储平台,同时性能也不断提高。
它将极大的扩大了Hadoop的使用范围和方式。
它包含了开源社区许多流行的工具和功能,例如Hbase、Hive。
它还100%与Apache
Hadoop的API兼容。
目前有M3(免费版)和M5(收费版)两个版本。
天云趋势科技Hadoop解决方案主要基于Hortonworks发行版,同时也提供了对ClouderaHadoop发行版的支持。
整体架构如下图所
示:
发行版。
整体架解决方案基于ClouderaHadoop音智达Hadoop构如下图所示:
整体架构如下HadoopIntelHadoop浪潮解决方案基于
图所示:
华为FusionInsightHadoop是完全基于ApacheHadoop组件构建的Hadoop产品,在ApacheHadoop版本的基础上对HBase、HDFS和MapReduce等组件增加了HA、查询和分析功能,进行了性能优化,并及时回馈Hadoop社区,保持版本同步,接口与社区版本完全一致。
整体架构如下图所示:
星环科技TranswarpDataHub(TDH)基于ApacheHadoop组件构建,并在此基础之上研发了交互式SQL分析引擎Inceptor、实时NoSQL数据库Hyperbase和TranswarpManager等引擎。
同时支持R语言数据挖掘、机器学习、实时流处理、全文搜索和图计算和系统安装及集群配置功能。
5.6.行业大数据应用场景对比分析
基于
MPP
的数据仓库
Hadoop&
Spark
阿里云
工商银行建设银行交通银行广发银行中国银联民生银行恒丰银行北京银行上海银行天弘基金众安保险新华保险中国联通
美团网
TeradataTeradataTeradataOracle
大数据分析平台(星环科技)实时查询采用基于实时查询采用基于历史明细数据查询、司法查询精准营销分析(通话及短信息记录舆情分析大数据分析平台(实时查询采用
数据仓库(星环科技)
风险控制与交易查询实时查询采用
((东方国信)(东方国信)
Cloudera
信息库HyperbaseHyperbaseHadoop-HBase
Hadoop-HBaseHadoop-HBase
Hadoop-HBase
Cloudera
)Apache
和
的星环的星环MySQL
))
核心系统及数据分析核心系统及数据分析核心系统及数据分析
6.大数据处理参考架构
6.1.参考架构
结合统计分析Web应用的数据处理典型场景,在Hadoop&
Spark开源框架中,分布式文件系统HDFS、资源调度引擎YARN、内存计算引擎Spark、挖掘分析引擎SparkR、分布式迁移引擎Sqoop等较为符合统计类应用场景。
分布式文件系统HDFS,是Hadoop体系中数据存储管理的基础,也是高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。
资源调度引擎YARN,是通用资源管理系统,可以为上层应用提供统一的资源管理和调度。
计算引擎MapReduce,用以进行大数据量的计算。
Hadoop的MapReduce与Common、HDFS一起,构成了Hadoop发展初期的三个组件。
分布式数据仓库Hive是建立在Hadoop基础上的数据仓库架构,为数据仓库的管理提供的主要功能包括:
数据ETL工具、数据存储管理和大型数据集的查询和分析能力。
分布式协作服务ZooKeeper,提供了统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
ZooKeeper通过封装好复杂、易出错的关键服务,将简单易用的接口和性能高效、功能稳定的服务提供给用户。
分布式迁移引擎Sqoop主要作用是在结构化数据存储与Hadoop之间进行数据交换。
Sqoop可以将一个关系型数据库(如:
MySQL、DB2等)中的数据导入Hadoop的HDFS、Hive中,也可以将HDFS、Hive中的数据导入关系型数据库中。
内存计算引擎Spark是与Hadoop相似的开源集群计算环境,Spark启用了内存分布数据集,基于内存进行分布式计算,除了能够提供交互式查询外,还可以优化迭代工作负载。
配置管理监控服务Ambari是基于Web的工具,用于配置、管理和监视Hadoop集群,并支持HDFS、MapReduce、Hive、ZooKeeper、Sqoop等框架。
Ambari还提供了集群状况仪表盘,以及查看MapReduce、Hive应用程序的能力,以友好的用户界面对它们的性能进行诊断。
下图基于ApacheHadoop的开源框架,给出了大数据处理的参考架构。
统计类系统数据处理流程主要包括以下步骤:
采集(解压报文等文件操作)-校验(每笔数据各字段的格式校验、各笔数据之间的逻辑关系校验等)-审核(与历史数据的比对,同期/上期;
或执行自定义审核SQL、算法