集团大数据平台整体方案建议书.docx

资源描述

集团大数据平台整体方案建议书.docx

《集团大数据平台整体方案建议书.docx》由会员分享，可在线阅读，更多相关《集团大数据平台整体方案建议书.docx（531页珍藏版）》请在冰点文库上搜索。

集团大数据平台整体方案建议书.docx

集团大数据平台

整体方案建议书

1 项目概述 14

1.1 建设背景 14

1.1.1 集团已有基础 14

1.1.2 痛点及需提升的能力 14

1.1.3 大数据趋势 15

1.2 建设目标 15

1.2.1 总体目标 15

1.2.2 分阶段建设目标 16

1.3 与相关系统的关系 16

1.3.1 数据分析综合服务平台 16

1.3.2 量收系统 17

1.3.3 金融大数据平台 18

1.3.4 各生产系统 18

1.3.5 CRM 18

1.4 公司介绍和优势特点 18

1.4.1 IDEADATA 18

1.4.2 TRANSWARP 20

1.4.3 我们的优势 21

2 业务需求分析 24

2.1 总体需求 24

2.2 数据管理 25

2.2.1 数据采集 25

2.2.2 数据交换 26

2.2.3 数据存储与管理 26

2.2.4 数据加工清洗 27

2.2.5 数据查询计算 27

2.3 数据管控 28

2.4 数据分析与挖掘 28

2.5 数据展现 29

2.6 量收系统功能迁移 30

3 系统架构设计 31

3.1 总体设计目标 31

3.2 总体设计原则 31

3.3 案例分析建议 32

3.3.1 中国联通大数据平台 32

3.3.2 恒丰银行大数据平台 40

3.3.3 华通CDN运营商海量日志采集分析系统 51

3.3.4 案例总结 56

3.4 系统总体架构设计 57

3.4.1 总体技术框架 57

3.4.2 系统总体逻辑结构 61

3.4.3 平台组件关系 63

3.4.4 系统接口设计 68

3.4.5 系统网络结构 72

4 系统功能设计 74

4.1 概述 74

4.2 平台管理功能 74

4.2.1 多应用管理 74

4.2.2 多租户管理 78

4.2.3 统一运维监控 79

4.2.4 作业调度管理 98

4.3 数据管理 100

4.3.1 数据管理框架 100

4.3.2 数据采集 102

4.3.3 数据交换 105

4.3.4 数据存储与管理 106

4.3.5 数据加工清洗 124

4.3.6 数据计算 125

4.3.7 数据查询 140

4.4 数据管控 159

4.4.1 主数据管理 159

4.4.2 元数据管理技术 161

4.4.3 数据质量 164

4.5 数据ETL 171

4.6 数据分析与挖掘 173

4.6.1 数据分析流程 175

4.6.2 R语言开发环境与接口 176

4.6.3 并行化R算法支持 177

4.6.4 可视化R软件包 180

4.6.5 编程语言支持 182

4.6.6 自然语言处理和文本挖掘 182

4.6.7 实时分析 183

4.6.8 分析管理 183

4.6.9 分析支持 187

4.6.10 指标维护 187

4.6.11 分析流程固化 188

4.6.12 分析结果发布 188

4.6.13 环境支持 188

4.7 数据展现 189

4.7.1 交互式报表 191

4.7.2 仪表盘 196

4.7.3 即席查询 197

4.7.4 内存分析 198

4.7.5 移动分析 199

4.7.6 电子地图支持 199

5 技术要求实现 201

5.1 产品架构 201

5.1.1 基础构建平台 204

5.1.2 大数据平台组件功能介绍 205

5.1.3 系统分布式架构 243

5.2 运行环境支持 245

5.2.1 系统操作支持以及环境配置 245

5.2.2 与第三方软件平台的兼容说明 246

5.3 客户端支持 247

5.3.1 客户端支持 247

5.3.2 移动端支持 247

5.4 数据支持 247

5.5 集成实现 249

5.6 运维实现 251

5.6.1 运维目标 251

5.6.2 运维服务内容 252

5.6.3 运维服务流程 254

5.6.4 运维服务制度规范 256

5.6.5 应急服务响应措施 257

5.6.6 平台监控兼容 257

5.6.7 资源管理 258

5.6.8 系统升级 260

5.6.9 系统监控平台功能 261

5.7 平台性能 269

5.7.1 集群切换 269

5.7.2 节点切换 271

5.7.3 性能调优 272

5.7.4 并行化高性能计算 277

5.7.5 计算性能线性扩展 280

5.8 平台扩展性 281

5.9 可靠性和可用性 283

5.9.1 单点故障消除 283

5.9.2 容灾备份优化 285

5.9.3 系统容错性 289

5.10 开放性和兼容性 291

5.10.1 高度支持开源 294

5.10.2 操作系统支持以及软件环境配置 306

5.10.3 兼容性与集成能力 307

5.11 安全性 308

5.11.1 身份鉴别 309

5.11.2 访问控制 309

5.11.3 安全通讯 315

5.12 核心产品优势 315

5.12.1 高速运算、统计分析和精确查询 315

5.12.2 有效的资源利用 317

5.12.3 高并发、低延迟性能优化 318

5.12.4 计算资源有效管控 319

5.12.5 API设计和开发工具支持 320

5.12.6 友好的运维监控界面 322

5.12.7 扩容、备份、恢复机制 326

5.12.8 集群自动负载均衡 328

5.12.9 计算能力扩展 328

5.13 自主研发技术优势 328

5.13.1 高稳定、高效的计算引擎Inceptor 328

5.13.2 完整的SQL编译引擎 330

5.13.3 高性能的SQL分析引擎 330

5.13.4 SQL统计分析能力 331

5.13.5 完整的CURD功能 332

5.13.6 Hyperbase高效的检索能力 333

5.13.7 基于Hyperbase和SQL引擎的高并发分布式事务 335

5.13.8 Hyperbase非结构化数据的支持 336

5.13.9 机器学习与数据挖掘 336

5.13.10 TranswarpStream 340

5.13.11 内存/SSD/磁盘混合存储 342

5.13.12 MR/Spark/流处理统一平台 344

5.13.13 多租户支持能力 345

5.13.14 多租户安全功能 346

5.13.15 标准JDBC与ODBC接口 346

6 系统性能指标和测试结果说明 348

6.1 性能测试报告 348

6.1.1 测试目标 348

6.1.2 测试内容 348

6.1.3 测试环境 348

6.1.4 测试过程和结果 350

6.2 TPC-DS测试报告 353

6.2.1 测试目标 353

6.2.2 测试内容 353

6.2.3 测试环境 355

6.2.4 测试过程和结果 356

6.3 量收迁移验证性测试报告 357

6.3.1 测试目标 357

6.3.2 测试内容 357

6.3.3 测试环境 358

6.3.4 串行执行情况 358

6.3.5 并行执行情况 360

6.3.6 生产表数据规模 361

6.3.7 测试结果 363

6.4 某银行性能测试报告 363

6.4.1 测试目标 363

6.4.2 测试内容 363

6.4.3 测试环境 363

6.4.4 测试过程和结果 364

7 系统配置方案 376

7.1 硬件系统配置建议 376

7.1.1 基础Hadoop平台集群配置规划 376

7.1.2 数据仓库集群配置规划 378

7.1.3 集群规模综述 380

7.1.4 开发集群配置建议 381

7.1.5 测试集群配置建议 381

7.2 软件配置建议 382

7.3 软硬件配置总表 383

7.4 网络拓扑 385

8 系统测试 386

8.1 系统测试方法 386

8.2 系统测试阶段 387

8.3 系统测试相关提交物 388

9 项目实施 390

9.1 项目实施总体目标 390

9.2 项目管理 390

9.3 业务确认 391

9.4 数据调研 392

9.5 系统设计阶段 393

9.6 集成部署阶段 394

9.7 ETL过程设计 394

9.8 ETL开发与测试 395

9.9 系统开发阶段 396

9.10 系统测试阶段 397

9.11 系统上线及验收 398

9.12 提交物 400

9.13 系统的交接与知识转移 402

10 项目管理 404

10.1 项目总体管理 404

10.1.1 项目实施总流程 404

10.1.2 项目实施中各阶段的主要任务 404

10.1.3 项目组织架构 409

10.1.4 项目负责人及主要成员 415

10.1.5 项目管理制度 490

10.2 项目质量管理 493

10.2.1 范围 494

10.2.2 过程目标 494

10.2.3 角色与职责 494

10.2.4 过程活动 496

10.3 项目计划 499

11 安全保密 509

12 知识产权 511

13 技术服务 512

13.1 现场支持服务 512

13.2 标准售后技术服务 513

13.2.1 提供预防性维护 513

13.2.2 系统升级服务 514

13.2.3 系统性能优化 514

13.2.4 提供系统完整文档 514

13.2.5 定期系统健康检查服务 515

13.2.6 应急预案 516

13.3 承诺 516

13.3.1 我方对集团的承诺 516

13.3.2 关于开发队伍的承诺 516

13.4 技术保证 517

13.4.1 方案实用性保证 517

13.4.2 应用系统的运行能力的保证 517

13.4.3 预防性维护检修内容 517

13.4.4 服务响应 518

13.4.5 关于软件维护的保证 518

13.4.6 专业服务保证 519

13.4.7 售后服务流程及时限 519

14 人员培训 520

14.1 Hadoop系统培训 521

14.2 业务使用培训 522

14.3 分析挖掘培训 523

14.4 运行维护培训 525

14.5 开发培训 526

14.5.1 培训目标 530

14.5.2 培训方式 530

14.5.3 培训资源 531

1项目概述

1.1建设背景

1.1.1集团已有基础

经过十几年的信息化建设，集团已经积累了覆盖邮务、速递物流、金融三大板块的海量生产和经营数据，这些数据分布在集团各类应用系统和数据库中，支撑着集团业务的发展。

集团初步搭建了由名址系统、量收系统、速递平台系统、数据分析平台组成的初步的数据仓库，为数据分析挖掘工作打下了一定的技术基础。

组建了专业的组织架构促进企业数据管理与应用的规范化与制度化。

集团已成立数据中心，集团数据中心和各省的数据分析团队已经进行了多个专题的数据分析与成果应用的尝试。

1.1.2痛点及需提升的能力

集团拥有丰富的客户资源，海量的数据积累。

在大数据时代，要充分挖掘数据价值，跟上时代的步伐。

板块间数据存在壁垒，共享不足，无法实现集团企业数据的充分有效利用。

数据存在冗余、分散、安全性差、一致性差等问题，应建立有效的数据管控体系，打破信息孤岛、实现企业信息数据共享、提升数据价值。

非/半结构化数据利用不足，需利用大数据技术加强应用。

1.1.3大数据趋势

随着移动互联网、云计算、物联网和大数据技术的广泛应用，现代社会已经迈入全新的大数据时代。

掌握大数据资产，进行智能化决策，已成为企业胜出的关键。

越来越多的企业开始重视大数据战略布局，重新定义自己的核心竞争力，从数据中揭示规律，了解过去、知悉现在、洞察未来，数据驱动企业运行与决策的科学性，构建智慧企业，打造核心竞争力。

数据的爆炸式增长以及价值的扩大化，将对企业未来的发展产生深远的影响，数据将成为企业的核心资产。

如何应对大数据，挖掘大数据的价值，让大数据为企业的发展保驾护航，将是未来信息技术发展道路上关注的重点。

1.2建设目标

1.2.1总体目标

根据集团信息化规划，遵循“互联网+”的理念，建设集团大数据平台，实现集团数据资源的集中及整合，构建集团统一的数据模型，提高企业数据的处理效率与共享程度。

实现对集团企业内部数据和外部数据的分析挖掘，对内对外提供数据服务。

为全网提供决策支持、产品创新、交叉营销、服务支撑、风险管控以及流程优化等支撑服务。

集团大数据平台将在Hadoop和云计算等技术的基础上，对现有量收系统、数据分析综合服务平台的历史数据、数据模型、报表应用等进行移植，全面整合集团业务数据。

数据来源涵盖集团所有的生产和管理系统，并可接入同业及相关市场甚至互联网信息，建立从业务层到管理层到决策层的智能分析体系，模拟量化风险和收益，实现对集团各种业务数据进行分类、管理、统计和分析等功能，给各级管理人员提供各类准确的统计分析预测数据，使其能够及时掌握全面的经营状况，为宏观决策提供支持；为基层业务人员提供详尽的数据，供其对各自的工作目标、当前和历史状况进行准确的把握，对业务活动进行有效支撑；满足集团经营管理及决策支持，建设国内一流，世界领先的大数据平台。

1.2.2分阶段建设目标

l第一阶段目标

利用大数据技术，搭建大数据平台，实现统一数据交换、数据管控、企业级数据分析、数据可视化展现服务等功能。

完成邮务和速递数据资源的归集、加工和整理，取代现有的量收系统，集成现有的数据分析综合服务平台，搭建高性能、扩展性强的数据计算和数据分析环境。

建立集团统一的数据模型，实现数据的标准化和规范化。

对集团各板块及外部的结构化数据、半/非结构化数据进行采集和存储，围绕“服务支撑、风险管控、流程优化、交叉营销、产品创新、决策支持”六个重点应用方向进行大数据成果应用。

l第二阶段目标

全方位整合集团数据资源，利用专业的数据分析工具，提升数据分析质量与效率，完善数据分析应用模型及相关指标，深入推广六个重点应用方向，逐步提供面向移动互联网的快速服务，不断优化生产工作流程，实现降本增效，为科学运营和决策提供支撑。

1.3与相关系统的关系

1.3.1数据分析综合服务平台

数据分析综合服务平台是依托集团综合网，实现邮务数据集中及整合，为集团公司和各省分公司提供企业数据分析挖掘服务，对内对外提供数据服务的信息系统。

该系统使用Oracle数据库，目前数据量已达到9TB，平均日增长量约22GB。

目前该系统已经对接了13个业务系统（集邮系统、报刊系统、电商平台-机票、网运系统、邮资封片卡系统、短信平台、农资分销系统、贺卡兑奖平台、营业系统、投递系统、客管系统、订单系统、国际业务平台），实现了31个省的邮务类数据的上传及下载。

系统实现将数据由全国中心推送至省中心；实现已有专题分析的固化，包括报刊、约投挂号、国内国际小包专题分析结果的固化展现；实现将接入系统的数据按照业务规则进行后台加载、评估、清洗、重构，并按照客户维度进行数据整合；提供对内对外数据服务，支持客户数据的上传和结果下载、邮编匹配、地址清洗匹配等功能。

数据分析综合服务平台是大数据平台的子集，数据分析综合服务平台的数据是大数据平台的数据集市之一。

1.3.2量收系统

量收系统是通过从集团生产经营业务系统及其他相关系统中自动采集、汇总、上传业务量、业务收入信息（简称量收信息），进行稽核、查询、分析、预警等应用的信息管理系统。

该系统使用Teradata的数据仓库和Oracle的数据库，数据使用空间已接近15TB。

目前该系统已经对接了8个业务系统（速递平台、集邮系统、营业系统、订单系统、报刊系统、农资分销系统、邮资机管理系统、电商平台），此外，通过营业系统还接入商函、国际普邮、电子商务、短信等业务数据。

现有使用用户2.9万个，提供近500张报表的查询，实现集团业务量收入的统计分析，为企业的经营管理起到了很重要的作用，但随着管理要求的不断提高，量收系统的能力已捉襟见肘。

集团大数据平台建成后，将替代量收系统。

1.3.3金融大数据平台

大数据平台从金融大数据平台获取金融客户、市场营销等数据分析结果以及相关数据，与金融大数据平台互为数据源，用于支撑集团邮务、速递物流和金融板块对数据分析的需求。

1.3.4各生产系统

大数据平台从各生产系统获取交易数据、基础数据等，对数据进行分析挖掘，将分析成果反馈回各生产系统用于支撑生产运营。

1.3.5CRM

CRM系统实现以客户为中心的集团与板块间的协同管控，以及集团各环节间客户营销及服务的协同管理。

大数据平台将实现CRM系统的部分数据分析功能。

1.4公司介绍和优势特点

1.4.1IDEADATA

北京爱狄特信息科技有限公司（IDEADATA）成立于2011年3月，总部设在北京，在南京及沈阳等地设有技术研发中心和办事机构。

公司注册资金2080万，是北京市高新技术企业。

公司专注于企业级数据（仓）库和大数据领域的技术和应用，业务和技术能力发展迅速，核心和骨干成员均具有领域内资深的业务经验、技术能力以及落地实践，对基于从集群到云平台、从传统数据库到MPP以及Hadoop的各种数据管理和应用平台架构及演进路线图均有深刻的理解和积累。

公司通过不断的实践积累，独立研发了包括结构化、半结构化/非结构化数据结构在内的一系列从数据获取（抽取）、数据管理到数据应用的多项拥有自主知识产权的产品和服务，包括数据平台交互系统、数据BI分析系统、智能地址匹配系统、互联网信息获取与分析系统（iRIS）、自然语言处理（iNLP）和机器学习挖掘算法等方面。

另外，公司积极与国内外大数据领域先进的解决方案、平台和工具厂商包括Teradata、南大通用、IBM、星环科技（Transwarp）、Trinity和SAS等都有深入和紧密的合作关系及基础。

在质量管理体系上，公司以GB/T19001-2008《质量管理体系-要求》为标准，进行周密的质量管理体系策划，建立了完整的质量管理体系，获得了认证中心颁发的质量管理体系认证证书。

公司在组织结构中设立了过程管控委员会，专职负责贯彻实施公司质量方针、质量目标，维护ISO9001质量管理体系有效运行，控制产品质量，实现产品和服务质量的持续改进。

公司财务及营运状况良好，具有一般纳税人资格，具备独立、完整的会计核算和内部控制体系，配备专业的会计核算与管理人员，财务核算制度健全，能够据以如实核算，准确及时的反映生产经营成果。

公司严格执行企业会计准则和《企业会计制度》的有关规定，以权责发生制为记账原则，以实际成本为计价基础，财务报表在所有重大方面均能公允反映公司的财务状况以及经营成果和现金流量。

公司始终坚持“服务的价值在于帮助客户成功”的理念，为客户提供的产品和服务追求“专业、专注、极致、价值”。

1.4.2TRANSWARP

星环信息科技（上海）有限公司（以下简称“星环公司”）是一家高科技大数据公司。

公司致力于大数据基础软件的研发，目前拥有超过300人的Hadoop专业团队，大部分来自于IBM、Intel、Microsoft、Oracle、EMC等知名企业，其中技术研发人员占80%以上。

无论是团队规模，还是人员的整体能力，在全球大数据平台领域都处于领先位置。

在国际知名咨询机构Gartner发布的2016版数据仓库及数据管理解决方案市场的魔力象限报告中，来自中国的公司星环科技（Transwarp）是唯一一家上榜的中国公司，也是魔力象限远见者（Visionaries）领域中全球最具有前瞻性的公司。

图2-1Gartner2016数据仓库魔力象限评测结果

星环科技从事大数据核心平台的研发与服务，基于TDH大数据平台软件全国产化，将大数据技术与传统数据仓库结合，已经为国内多家金融银行机构提供专业化的数据仓库服务，包括江苏银行、恒丰银行、民生银行、中泰证券等。

星环公司已经在国内建立200多个大数据应用案例，覆盖行业包括金融、运营商、互联网、政府、能源、制造业、军工、教育、交通运输、公安等行业，目前是国内市场落地案例最多、应用范围最为广泛的大数据平台提供商，星环公司已经成为全球瞩目的大数据平台商。

1.4.3我们的优势

北京爱狄特信息科技有限公司与星环信息科技（上海）有限公司紧密协作，参与集团大数据平台项目建设，与其他友商相比具有以下四方面的优势特点：

图2-2公司优势

（1）大数据平台产品技术优势

SQLonHadoop技术领先国内外厂商。

SQL99、SQL2003标准的全面兼容性，支持PL/SQL、分布式事务、分布式内存OLAP/Cube等平台特性，为企业级数仓建设奠定坚实的平台基础。

国内首家实现并成功运用HadooponDocker分布式容器集群管理平台技术。

TranswarpOperatingSystem（TOS）是为大数据应用量身订做的云操作系统，支持一键部署TDH，基于优先级的抢占式资源调度和细粒度资源分配，让大数据应用轻松拥抱云服务。

（2）具有基于Hadoop平台成功建设企业级数仓的丰富经验

星环Hadoop平台产品已在国内100多个大数据项目建设中得以应用，行业覆盖金融、运营商、互联网、政府、能源等行业，其中有多个基于Hadoop平台完全实现企业级数仓系统的成功案例，在企业级数仓平滑可靠迁移及替换国外MPP数仓系统、高性价比提升企业数仓性能方面，积累了丰富的实践经验。

作为Hadoop创新应用的开拓者，星环公司目前已成为在国内市场落地案例最多、应用范围最为广泛的大数据平台提供商。

（3）大数据分析挖掘团队的专业实施经验优势

爱狄特公司在大数据可视化交互展现和多维分析查询、大数据分析挖掘、自然语言处理（iNLP）、地址清洗匹配服务等方面积累了自有的产品技术并成功运用到集团、金融保险、IT等行业。

经历多年大数据实战项目的锻炼，培养建立起了一支专业的大数据分析挖掘团队，能够运用多种分析挖掘工具和并行化算法库，从大数据中挖掘客户价值，为集团、金融、IT等行业的经营分析、决策支持提供专业的技术支持服务。

（4）集团项目实施经验优势

爱狄特公司有多名核心技术骨干人员参与过集团的量收系统、全国名址、EMS平台、综分平台等大型项目的总体架构设计、应用系统开发、数仓建设及系统运维等工作，熟悉现有数仓系统的数据模型、ETL流程及汇总处理程序、数据接口格式及应用集成要求等，对现有数仓的迁移及大数据平台应用做了充分的PoC实验验证，明悉迁移工作中的难点及重点问题并有针对性的风险防范及管控措施加以解决。

因而，我方的集团项目实施经验结合极具优势的大数据平台产品技术，我方有充分的信心，在短时间内高质量、高可靠地完成本项目任务。

2业务需求分析

2.1总体需求

大数据平台应支持集团总部、省和地市三级使用方式。

使用单位还包括下属单位和控股公司等。

大数据平台要求使用Hadoop系统应实现主流数据仓库的功能，同时支持与现有系统Oracle数据库及Teradata数据仓库的无缝连接。

大数据平台需支持多应用管理，即支持对应用的服务级别管理（SLA）。

能够实现应用的访问资源控制，支持资源隔离。

同时支持多租户功能，例如多租户管理、租户的操作员管理、租户的分等分级分组管理、租户的度量管理、租户的角色管理、租户应用授权、租户数据隔离、租户的资源隔离等功能。

大数据平台应具有统一运维监控方面，可以图形化的实现安全管理、用户

展开阅读全文