ImageVerifierCode 换一换
格式:DOCX , 页数:66 ,大小:49.69KB ,
资源ID:8198754      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-8198754.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(关于数据采集处理项目技术优秀规划优质方案docxWord下载.docx)为本站会员(b****3)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

关于数据采集处理项目技术优秀规划优质方案docxWord下载.docx

1、项目目标制定招商大数据运营规范及管理办法。制定招商大数据相关元数据标准,完成相关数据的采集、整理与存储。根据业务需求,研发招商大数据招商业务分析模型,并投入应用。根据运营规范及管理办法的要求持续开展数据运营工作。建设原则基于本项目的建设要求,本项目将遵循以下建设原则:33前瞻性和高标准 整个项目要按照企业对大数据应用的需要的高要求和高标准建设,参考行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定前瞻性。经济性和实用性 整个项目以现有需求为基础,充分考虑未来发展的需要来确定系统的架构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设计应充分考虑对已有投资的保护,对已建立的数

2、据中心、基础平台、应用软件应提供完备的整合方案。先进性和成熟性 为了确保项目具有较长的生命周期,应充分考虑到管理创新、技术发展需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业务需求。高性能和安全性 规范地进行系统建设和开发,提供合理且经济有效的应急方案,确保系 统的稳定,向各类服务对象提供可靠的服务。具有安全性,在系统遭到攻击或崩溃时能快速恢复,确保重要数据的机密性和完整性。参考规范GB/T 20269-2006 信息安全技术信息系统安全管理要求GB/T 20984-2007 信息安全技术信息安全风险评估规范GB/T 22239-2008 信息安全技术信息系统安全等级保护基本要求

3、GB/T 22240-2008 信息安全技术信息系统安全等级保护定级指南GA/T 388-2002B 计算机信息系统安全等级保护管理要求44GB/T 8567 -1988 计算机软件产品开发文件编制指GB/T 11457-1995 软件工程术语GB/T 11457-2006 信息技术 软件工程术语GB/T 软件工程 产品质量 第 1 部分 : 质量模型GB/T 软件工程 产品质量 第 2 部分 : 外部度量GB/T 软件工程 产品质量 第 3 部分 : 内部度量GB/T 软件工程 产品质量 第 4 部分 : 使用质量的度量GB/T 14394-2008 计算机软件可靠性和可维护性管理GB/T

4、17544-1998 信息技术 软件包 质量要求和测试名词解释S2DFS:简单存储分布式文件系统 ( Simple Storage Distributed File System )D2B:分布式数据库( Distributed Database )55JSS:作业调度服务( Job Scheduler Service )DCS:数据计算服务( Data Computer Service )MPS:消息处理服务( Message Process Service )SDS:流数据处理服务( Stream Data Service )DMQ:分布式消息队列( Distributed Message

5、 Queue )JGS:作业生成服务( Job Generation Service )ACS:自动清理服务进程( Automatic Cleaning Services )HTTP:超文本传输协定( HyperText Transfer Protocol )SMB:服务器信息块协议( Server Message Block )662云数据采集中心需求概述根据规划,云数据采集中心的建立至少满足 1 至 2 年内的 数据存储和计算规模,需要满足:数据采集范围包括但不限于世界 500 强、全国 500 强、行业 20 强企业相关数据。总数据容量至少达到 30T。总体设计整个云数据采集中心分为三部

6、分:硬件资源层、软件平台层、软件应用层。硬件资源层主要指实体硬件设备, 包括用来存储数据的光纤阵列柜和存储服 务器,用来作统计、分析以及搜索用的计算服务器,用来部署分布式消息( DMQ)/WEB/APP 软件的 WEB及消息服务器,用来部署用 PostgreSQL 关系数据库软件的应用数据库服务器, 用来部署作业调度服务进程 (JSS)的作业调度服务器。 作为数据通信用的全千兆三层交换机等等。其中光纤阵列柜主要用来存储统计分 析后的粗颗粒度数据。 存储服务器用来部署分布式文件系统和分布式数据库, 同 时存储非结构化和结构化(台标图片,电商图片等等)和结构化数据(行为数据, 索引数据, log

7、数据,清理后的细颗粒度数据等等)。计算服务器主要用来完成数 据的清理、统计、搜索等计算任务。为了节省成本和减少通信代价,建议存储服务器和计算服务器合二为一, 所以该服务器同时具有计算和存储数据的功能, 前期也可以考虑把作业调度服务进程( JSS)进程部署在存储 / 计算服务器上。由于 云数据采集中心需要面对多种宽带用户 (电信、移动、联通),所以,数据中心 的对外的网络需要直连上电信、 移动、联通三家公司的网络, 保证以上三家公司间的通信性能高速和可靠。77软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施的主体部分,在核心技术章节会对“分布式文件系统 (S2DFS)”、“分布

8、式数 据库(D2B)”、“分布式消息服务 (DMQ)”“作业调度服务进程 (JSS)、数 据计算服务进程 ( DCS)”主要部分加以详细的描述。软件平台层的所有服务器都统一部署的 64 位操作系统 CentOS (也可以选择 RHEL x64);其核心软 件或者进程有:分布式文件系统( S2DFS)、分布式数据库( D2B)、作业调度服 务进程( JSS)、数据计算服务进程( DCS)、作业生成服务进程( JGS)、消息处 理服务进程( MPS)、流数据处理进程( SDS)等等。 WEB及应用服务器软件Apache&Tomcat,消息队列软件分布式消息 ( DMQ)。还要实现整个云数据采集 中

9、心的资源管理及监控管理系统。软件应用层是云数据采集中心的功能实现及 UI 表达层,功能实现需要基于 软件平台层的支撑, 后期设计和实施的主体。 该层的主要功能应用有: 数据采集应用、数据统计应用、云数据采集中心的资源监控及调度。通过公共数据网(电信、联通、移动)和 HTTP 协议,把采集的海量文本、图片数据以及用户行为数据存储在云数据采集中心里, 以供后期分析计算用。88云数据采集中心整体架构图99云数据采集中心网络结构图核心技术及功能分布式文件存储技术(1) 传统存储技术面临的问题:构建成本高:大容量及高网络带宽的高端存储系统架构昂贵。文件系统功能和性能差强人意:难以实现全局命名空间的文件共

10、享、 文件系统难以扩展,容易形成瓶颈。扩展性困难:技术存在瓶颈( Scale-up 架构决定的)、扩展成本无法 控制。可用性问题:潜在的单点故障 , 数据恢复困难,代价高。应用目标差异:主要面临运营商、金融行业的 OLTP 应用、很少针 对海量的流数据,或者非结构化数据进行设计和优化。异构设备繁杂:不同时期、不同公司、不同操作系统的异构设备纷 繁复杂,无法整合,资源利用率极低。分布式文件系统主要为解决以上问题而出现的一种新型大规模数据存储技 术架构。主要为非结构化数据 (视频 / 文件 / 文档 / 图像 / 音频等非结构化数据) 提 供海量的存储平台,以集群的方式提供线性横向扩展能力。101

11、0分布式文件系统是一种构建于通用 x86 部件之上的高可用、 高可靠、高可扩 展的新型分布式文件系统。 应用分布式文件系统, 用户可以采用廉价可靠的通用 服务器、SATA/SAS硬盘以及以太网络来构建媲美企业级存储产品的存储系统。(2) 分布式文件系统应对的数据特性和访问特性:数据量巨大,数百 TB 或 PB 级,增长迅速;类型多样化,包括图像、文本、语音、视频等文件数据;按时间有序生成,数据均带有时间标志 ;前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记 录或者上 GB 量数据 ;更新操作极少:追加方式写入,一旦写入,几乎没有数据修改,查 询涉及大量的磁盘读操作,查询处理产生大量

12、的临时结果,不同类 型的数据存在联合分析查询;分布式文件系统的基本原理是采用集群方式来整合物理上独立的多个存储 资源,以软件方式提供单一的名字空间; 采用多副本的方式保证数据的高可用性, 任意单一节点失效均不会导致数据丢失和数据服务的正常运行; 同时,分布式文 件系统通过良好设计的系统结构和数据分布策略, 可保证系统性能的高可扩展性, 并支持存储容量 / 性能的在线扩展。1111相比较于 DAS(直连存储)、 SAN(存储区域网络)和 NAS(网络存储), 应用分布式文件系统构建的网络存储系统更像是一个 NAS,提供类似于传统 NAS 的文件级访问接口( SAN 和 DAS 都是块设备级别的访

13、问接口)。(3) 分布式文件系统与传统 NAS/SAN 设备的比较:比较项 高端 NAS性能 一般双端口,性能受机头影响,难以扩展,出口带扩展能力 性能及容量无法扩展,或者有限扩展FC-SAN 分布式文件系统一般双端口,性能受 性能随节点数的增加成线机头影响, 难以扩展, 性增长能较好扩展,但成本 性能及容量按需扩展,动高昂 态均衡可用性RAID 方式保护, 双机保RAID 方式保护,双机基于灵活的多副本机制,护,停机 RAID Rebuid ,耗保 护 , 停 机自动检测,自动故障恢复,数据管理企业级功能需要单独购买企业级功能需要单内嵌多种企业级应用:快独照、镜像、回收站购买(还需要单独的文

14、件系统,100 多万一套)成本专有的硬件平台,软件拥专有的硬件平台,软开发通用的硬件平台,一有成本高,扩展成本高件拥有成本高, 扩展体化的软件,成本低,扩成本高展成本低可维护性专门的技术支持服务,需结构异常复杂,需要内嵌多种自动化的故障检要培训大量培训, 厂商服务测和恢复功能,国内开发,昂贵技术支持快速用户使用分布式文件系统如同使用本地文件系统。所不同的是,传统 NAS 通常以单一节点的方式实现, 容量和性能的扩展能力有限, 易于成为性能瓶颈和 单一故障点。而分布式文件系统则有多个节点集合地提供服务, 由于其结构特征, 分布式文件系统的性能和容量均可在线线性扩展, 并且系统内不存在单一故障点。

15、 对比参看下面两幅示意图:1212传统存储架构图分布式文件系统架构图1313分布式文件系统的设计应用特别适合海量非结构化数据存储, 大量客户端并发的 I/O密集型应用。目前,分布式文件系统已经被应用于政府、医疗影像、 勘查数据计算、视频服务以及动画制作等领域。这些领域的数据访问特征均为: 数据量巨大, I/O 吞吐率高,数据增长迅速以及数据可用性要求高。经过长时间 的实际生产环境使用,分布式文件系统已被证明是该类型应用的有效解决方案。布式文件系统的服务器端程序运行于 Linux x64 系统之上,支持多种 Linux64 位发行版,包括 Redhat 、CentOS 等。分布式文件系统客户端则

16、支持 Linux 和 Windows,同时分布式文件系统还可以通过第三方软件输出 CIFS 和 NFS 接口, 可以兼容大多数应用。(4) 分布式文件系统的核心技术及特征:扩展性和高性能:分布式文件系统利用双重特性来提供几 TB 至数 PB 的高扩展存储解决方案。 Scale-Out 架构允许通过简单地增加资源 来提高存储容量和性能,磁盘、计算和 I/O 资源都可以独立增加, 支持 10GbE和 InfiniBand 等高速网络互联。分布式文件系统弹性哈 希( ElasticHash)解除了分布式文件系统对元数据服务器的需求, 消除了单点故障和性能瓶颈,真正实现了并行化数据访问。高可用性:分布

17、式文件系统可以对文件进行自动复制,如镜像或多 次复制,从而确保数据总是可以访问,甚至是在硬件故障的情况下 也能正常访问。自我修复功能能够把数据恢复到正确的状态,而且 修复是以增量的方式在后台执行,几乎不会产生性能负载。分布式 文件系统没有设计自己的私有数据文件格式,而是采用操作系统中 主流标准的磁盘文件系统(如 XFS/EXT4/ZFS)来存储文件,因此 数据可以使用各种标准工具进行复制和访问。1414全局统一命名空间:全局统一命名空间将磁盘和内存资源聚集成一 个单一的虚拟存储池,对上层用户和应用屏蔽了底层的物理硬件。 存储资源可以根据需要在虚拟存储池中进行弹性扩展,比如扩容或 收缩。当存储虚

18、拟机映像时,存储的虚拟映像文件没有数量限制, 成千虚拟机均通过单一挂载点进行数据共享。虚拟机 I/O 可在命名 空间内的所有服务器上自动进行负载均衡,消除了 SAN 环境中经常 发生的访问热点和性能瓶颈问题。弹性哈希算法:分布式文件系统采用弹性哈希算法在存储池中定位 数据 ,而 不 是 采 用 集 中 式 或 分 布 式 元 数 据 服 务 器 索 引 。 在 其 他 的Scale-Out 存储系统中,元数据服务器通常会导致 I/O 性能瓶颈和单 点故障问题。分布式文件系统中,所有在 Scale-Out 存储配置中的存 储系统都可以智能地定位任意数据分片,不需要查看索引或者向其 他服务器查询。

19、这种设计机制完全并行化了数据访问,实现了真正 的线性性能扩展。弹性卷管理:数据储存在逻辑卷中,逻辑卷可以从虚拟化的物理存,不会导致应用中断。逻辑卷可以在所有配置服务器中增长和缩减,可以在不同服务器迁移进行容量均衡,或者增加和移除系统, 这些操作都可在线进行。文件系统配置更改也可以实时在线进行并 应用,从而可以适应工作负载条件变化或在线性能调优。完全软件实现( Software Only):分布式文件系统认为存储是软件问 题,不能够把用户局限于使用特定的供应商或硬件配置来解决。分 布式文件系统采用开放式设计,广泛支持工业标准的存储、网络和 计算机设备,1515而非与定制化的专用硬件设备捆绑。对于

20、商业客户, 分布式文件系统可以以虚拟装置的形式交付,也可以与虚拟机容器 打包,或者是公有云中部署的映像。开源社区中,分布式文件系统 被大量部署在基于廉价闲置硬件的各种操作系统上,构成集中统一 的虚拟存储资源池。简而言之,分布式文件系统是开放的全软件实 现,完全独立于硬件和操作系统。完整的存储操作系统栈 (Complete Storage Operating System Stack :分 布式文件系统不仅提供了一个分布式文件系统,而且还提供了许多 其他重要的分布式功能,比如分布式内存管理、 I/O 调度、软 RAID 和自我修复分布式文件系统汲取了微内核架构的经验教训,借 鉴了 GNU/Hur

21、d操作系统的设计思想,在用户空间实现了完整的存 储操作系统栈。用户空间实现(User Space :)与传统的文件系统不同, 分布式文件系 统在用户空间实现,这使得其安装和升级特别简便。模块化堆栈式架构( Modular Stackable Architecture)分布式文件系统:采用模块化、堆栈式的架构,可通过灵活的配置支持高度定制化的应用环境,比如大文件存储、海量小文件存储、分布式文件系统、多传输协议应用等。每个功能以模块形式实现,然后以积木方式进行简单的组合,即可实现复杂的功能。比如, Replicate模块可实现RAID1, Stripe模块可实现 RAID0,通过两者的组合可实现R

22、AID10 和 RAID01,同时获得高性能和高可靠性。原始数据格式存储( Data Stored in Native Formats:)分布式文件系统 以原始数据格式(如 EXT3、EXT4、XFS、ZFS)储存数据,并实现 多种数据自动修复机制。因此,系统极具弹性,即使离线情形下文件也可以通过其他标准工具进行访问。如果用户需要从分布式文件系统中迁移数据,不1616需要作任何修改仍然可以完全使用这些数据。无元数据服务设计( No Metadata with the Elastic Hash Algorithm)对Scale-Out 存储系统而言,最大的挑战之一就是记录数据逻辑与物理位置的映像

23、关系,即数据元数据,可能还包括诸如属性和访问权限等信息。传统分布式存储系统使用集中式或分布式元数据服务来维护元数据,集中式元数据服务会导致单点故障和性能瓶颈问题,而分布式元数据服务存在性能负载和元数据同步一致性问题。特别是对于海量小文件的应用,元数据问题是个非常大的挑战。分布式文件系统独特地采用无元数据服务的设计,取而代之使用算法来定位,服务器都可以智能地对文件数据分片进行定位,仅仅根据文件名和路径并运用算法即可,而不需要查询索引或者其他服务器。这使得数据访问完全并行化,从而实现真正的线性性能扩展。无元数据服务器极大提高了分布式文件系统的性能、可靠性和稳定性。基于标准协议:分布式文件系统存储服

24、务支持 NFS, CIFS, HTTP, FTP 以及分布式文件系统原生协议,完全与 POSIX 标准兼容。(5) 分布式文件系统技术及性能指标:支持设备数量:最大百万台以上支持存储容量:最大 1024PB 以上客户端的数量:最大支持上亿并发1717网络支持:以太网:1Gbps、10Gbps/INFINIBAND:10Gbps、40Gbps文件副本数量:任意 ( 缺省 1 份)协议: NFS/CIFS/HTTP/FTP/WEB DAV,及原生协议 , 兼容 POSIX 标准支持文件数量:最大上亿个文件最大单个文件: 16TB(6) S2DFS 与 HDFS 的比较对比项HDFS(GFS)S2D

25、FS架构类型带元数据库中心架构全分布式去中心架构( 瓶颈及故障易发生点 )x86 平台存在方式分布式文件系统软件,基于使用方式CLI/REST APINATIVE CLIENT/CIFS/NFS 标准协议(应用代码与平台无关性,便于移植和维护)系统可用性低高数据可用性复制类 RAID数据定位方式INodeHash同步方式异步同步负载均衡自动支持网络千兆以太网千兆 / 万兆以太网, IB网网络写:读(万兆/ 单流)约 100MB/s : 160MB/s约 800MB/s :1000MB/s读( 1*20GB)(万兆)约 125s约 25s1818写( 1*20GB)(万兆)约 200s约 20s读 / 写(千兆)差距不大

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2