纵横大数据云计算数据基础设施Word文件下载.docx

资源描述

纵横大数据云计算数据基础设施Word文件下载.docx

《纵横大数据云计算数据基础设施Word文件下载.docx》由会员分享，可在线阅读，更多相关《纵横大数据云计算数据基础设施Word文件下载.docx（11页珍藏版）》请在冰点文库上搜索。

纵横大数据云计算数据基础设施Word文件下载.docx

任何资料中关于各种技术的适用场景描述，即使是正确的，也都有其特殊的上下文环境，不可以当成普遍真理去盲目遵从。

这里所说的对技术的了解，并不是指具体如何去使用它，而是指其内在本质、特点与相互联系，这些往往比使用方法更重要，也是本书区别于其他大数据资料的主要特点之一。

首先，让我们看看云计算与大数据的关系，目前人们对此的理解更是混乱不堪，有人认为两者完全不同，有人则认为大数据技术其实就是云计算。

对“云”，最开始，人们普遍认为那是一种采用一堆闲散资源完成一件重大任务的技术。

后来，人们又意识到现代社会对“云”的诠释，其实更多的是指一种以服务为主的商业模式，而不是一种技术。

现在，绝大多数人对“云”的理解停留于此，认为“云计算”与技术无关的人大都是这种思路。

但在对“云”业务模式的实践中却发现，要搞“云”服务，必须从技术手段与商业模式两个维度同时入手才有意义，只拥有其中任何一个方面都是不行的，甚至可以说前者要比后者重要得多。

大多数情况下，在“云”能适用的领域内，如果没有前者，后者所能提供的服务水平自然也就很有限，从而也就自然失去了“云”的含义。

所以说，云计算的本质是商业模式，但其核心却仍然是技术问题。

而云在技术层面的核心问题又是什么呢？

有人认为是“小变大”的分布式计算，有人认为是“大变小”的虚拟化，而本书认为，云计算最核心的问题是数据，具体地讲，是现代业务环境下的数据管理问题，也就是能实现海量、多类型、高负载、高性能、低成本需求的数据管理技术，这实际上就是传统数据管理技术在现代的最大挑战。

这其中最耀眼的，就是各种新兴的大数据家族成员的出现，包括开源体系的Hadoop、各种NoSQL数据库、NewSQL数据库（关系数据库联邦）、分布式文件系统等，甚至还包括非开源体系的新一代关系数据库。

这样看来，“大数据”应该是“云计算”业务模式得以实现在数据管理层面的核心技术支撑，两者密不可分。

而从纯技术的角度看，“云计算”概念最初出现时就是指采用网络互联起来的设备共同完成一项庞大任务的技术策略，而Hadoop等流行大数据技术的核心思路大多如此。

因此，我们又可以说：

“云计算”是大数据的技术实现方法。

这便是云计算与大数据的联系，两者无论是在业务上，还是技术上，都是相互依存的。

一句话，无论叫什么名称，其实都是代表现代IT发展的最新进展而已。

再来看看各种流行的大数据技术本身，包括Hadoop，NoSQL，NewSQL，甚至一些新一代的关系数据库等。

对它们，在现代数据管理领域内，目前的状态却是：

人们普遍困惑的并不是能不能掌握这些技术的具体用法，而是到底什么时候，在什么场景下，如何定位与使用这些技术？

这主要表现在以下几个方面。

一是如何定位新旧技术。

即指新兴的以Hadoop为代表的开源技术，与传统的关系数据库技术，到底是新技术彻底颠覆传统技术，还是两者共存？

如果是共存，如何共存？

这是目前各个企业普遍感到困惑的最重要的问题。

二是部分技术人员对新事物只是盲从。

大家在应用实践中或多或少地会遇到一些困难，于是很多技术人员就会把希望寄托在新出现的技术上，认为只要一用上如Hadoop或NoSQL这些新东西，目前的问题就会迎刃而解。

接下来就立即紧张地投入到新技术的学习与使用上去，而不做是否适合自己需求的合理判断。

很显然，这种对新技术的崇拜是盲目的。

三是各种技术之间出现了互相攻击、互相否定的态势。

一度以来，传统的主流关系数据库（如Oracle，DB2等）在实践中出现了一些问题，主要是对高负荷环境下的海量数据应用出现了力不从心的现象，同时，其水平扩展性的限制与高昂的成本问题使客户越来越难以忍受。

于是，一些非关系型的NoSQL数据库，或者一些低端数据库集群方案（如MySQL集群）就在一些场合替代了主流的商业数据库，并且表现出很优秀的性价比；

另外，有些企业在分析领域也出现了以HadoopMapReduce等开源产品全面替代关系型数据仓库的现象。

于是，便出现了一种思潮，认为关系数据库最终将退出历史舞台。

而另有一部分人则认为，所谓极其成功的新技术，只是昙花一现的暂时现象而已，传统的关系数据库经过改良以后，依然会是数据管理领域的王者，其他的技术会像30多年前关系数据库与其他数据管理技术之争的结果一样，逐渐消失。

这些观点中，大多都是凭直觉、凭感觉、凭个人经验的判断得出，虽然不能说是武断，但如果没有令人信服的技术分析做支撑，就很难说谁对谁错。

四是新技术本身在实践中也出现了很多的问题。

例如HadoopMapReduce，虽然已经出现了Hadoop2.0中的各项重要改进，但相信只要是真正用过它的人都知道，其在方便性、可靠性、可用性、效率等方面都还很不尽如人意。

笔者记得一位很熟悉Hadoop的朋友说：

“如果企业能用关系数据库解决问题，就尽量不要用它！

”再如Twitter放弃了用Cassandra替代MySQL的决策，Digg使用Cassandra后出现的一系列严重问题等，都使很多人开始重新审视这些新技术。

其实，究其根本，以上现象出现的主要原因是：

人们只是去学习如何使用这些新技术，却很少独立思考，对它们进行较为深入的学习与剖析；

很少在设计思想、技术架构、内在本质等方面将它们与其他技术进行对比，以能在真正掌握后，做出属于自己、适合自己的判断。

而这些又正是本书的主体内容。

如果在数据库技术领域继续探究，会发现NoSQL技术虽然适合海量数据的快速存取，却无法满足较复杂的关系模型数据管理及人们对习惯使用SQL语言的要求，而标准的关系数据库在水平扩展性上又严重受限。

那么，是否存在一种技术，既可以使用关系模型存储数据，使用SQL操作数据，又可以像NoSQL一样方便扩展？

于是，本书还与读者分享了笔者自主研发的一个关系型云数据库的设计与实践，它既不同于目前流行的Hadoop/NoSQL等开源技术，也不同于传统的关系数据库，是一种介于两者之间的技术模式，目前的状态正好满足Hadoop与传统关系数据库都不太适用的企业级海量历史数据管理的需求，并已经在实践中取得一定的成果。

接着，由该自主产品的设计实践活动出发，我们产生了对Hadoop本身许多固有技术问题更大胆的、更进一步的深入思考：

PB级海量数据的批量分析能不能比Hadoop再提高一个数量级，例如，达到秒级？

在保守的认识中，这样的要求似乎是不合理的，也是不可能实现的。

然而大数据领域最新的技术进展—Hadoop的缔造者Google近年来一系列更前沿的、被称为“Google新三驾马车”的研究成果，通过模式（Schema）的回归与精巧的设计，已经向这样似乎是“不可能的任务”的宏伟目标迈出了一大步。

这使我们意识到：

技术的发展瞬息万变，Hadoop本身已不见得有多么先进了，想要在实践中做出正确的决策，就必须不断学习，勇于创新，不断经历破与立的过程，而不能故步自封，原地不动。

除了需要对各种大数据技术手段进行深入剖析以外，当今IT界还在云计算技术两个不同的技术策略上有着广泛的争议，即“分”为云与“合”为云，前者是指数据切分后以小变大，后者是指以大变小，将分散的小资源集中整合起来管理后，再将资源进行统一的按需调度与分配。

两者都称自己是云计算技术（或者说是大数据技术）的正宗，相互攻击与否定的现象极为激烈，并且各自都有坚实的成功实践为基础。

表现最明显的就是以淘宝为代表的新兴互联网技术力量与IBM、Oracle等老牌的数据库厂商之间关于以“分”为主的开源技术及以“合”为主的一体机技术之间的争论与竞争，可以说已经到了白热化的阶段。

他们各说各话，各有千秋，已经成为企业技术决策者的主要困惑之一。

而实际上，经过研究与分析，很容易就可以发现，他们所争论的“分”与“合”，看起来是完全相反的，实际上并不矛盾，其实是你中有我，我中有你，两者是有机结合的统一体，在现代数据管理的需求中都有各自的定位。

企业所要做的并不是对技术策略进行非你即他的选择，而是根据自己的实际情况与需求，对各种技术与产品进行合理的定位；

同时，更加重要的工作并不是某一项技术的正确定位与使用，而是能站在云数据中心建设的高度，将传统关系数据库资源与Hadoop集群资源集中起来形成PaaS平台，再对外提供分散的、数据相关的云服务，包括数据库云与Hadoop平台云，可以将之统称为大数据云。

将大数据的话题提高到这样的层面，虽然相关的资源池调度与分配技术也非常重要，但更重要的却已经是面向云计算的大数据服务模式了。

另一方面，虽然关系数据库将与Hadoop等技术共存的思想被大多数人接受，也是本书所认同的观点，但广大读者可能还注意到一个现象：

新兴的Hadoop/NoSQL等非SQL技术在不断发展的过程中，已经在逐步引进一些原本属于SQL技术体系的功能，如索引与事务；

而关系数据库领域，也在逐步将这些新兴的技术引入其技术体系，如AsterData与最新Oracle12C所具备的InDBMapReduce功能，都是除原有的SQL引擎以外，在其数据库内引入MapReduce处理引擎。

那么，未来数据管理技术的发展趋势究竟如何呢？

我们说，在物理基础设施上，分布式集群架构应该是未来发展的大趋势，而在软基础设施层面，虽然SQL与非SQL技术体系在相当长的时间内会共存，但未来的趋势是相互融合的。

现在看来，起码对数据管理技术来讲，开源是大趋势，摒弃产品销售为主导的商业模式，以技术服务为主体应该是各大厂商应该尽早考虑的策略。

在本书最后，笔者结合企业数据架构规划的实际，针对当今各个企业在响应大数据潮流时最为关心、最为困惑的问题：

“到底如何在本企业实施与推广大数据”给出了切实可行的建议。

可以看到，企业引入大数据的本质就是：

以适合更多更广的数据源，以及提供更强大的数据管理处理能力为目标，面向新时代的业务规划（如互联网金融），对现有数据体系的各个层面（包括采集、传输、加工、集成、分析、展现等）进行全面改造，推出大数据时代的新一代企业级数据架构，并将其作为现代企业IT架构的重要组成部分之一。

笔者认为，企业引入云计算与大数据的战略思想应该是：

“业务上是改造，技术上是改进；

业务上是创新，技术上是补充”，仅供企业参考。

最后借此机会向王建波、李鹏、葛荪葳等朋友表示感谢，与他们的讨论使我受益匪浅，也一并感谢所有对我的写作有过帮助的人。

希望本书是一个成功的尝试，同时也希望能为广大读者与企业的相关设计、规划与实践活动提供有用的借鉴与帮助。

第1部分　大数据概论

第1章大数据与云计算

1.1云计算概论

1.2大数据概论

1.2.1现代数据管理需求分析

1.2.2大数据的引入

1.2.3大数据的定义与特征

1.2.4大数据与互联网

1.2.5大数据战略、大数据与大数据技术

1.3大数据的技术实现——云计算

1.4本章小结

第2章关系数据库的挑战与应对

2.1关系数据库技术的核心特征

2.2主流关系数据库的挑战

2.2.1经典DBMS的挑战

2.2.2Share

2.2.3SharedN

2.3改进型关系数据库

2.3.1技术改进

2.3.2主要产品代表

2.4本章小结

第3章非SQL技术简介

3.1大数据技术家族3.1.1NoSQL

3.1.2关系数据库联邦N

3.1.3分布式海量文件管理

3.1.4Map

3.2分与合——云计算的两种技术路线

3.3本章小结

第2部分“分”为云——数据切分

第4章NoSQL

4.1NoSQL的引入

4.1.1概念诠释与特征分析

4.1.2NoSQL的本质

4.2NoSQL家族

4.2.1NoSQL产品目录与分类

4.2.2Hadoop?

4.2.3Facebook之Cas

4.2.4MongoDB与C

4.2.5OracleNo

4.2.6Memcached?

4.2.7图数据库

4.2.8其他NoSQL数据库

4.2.9问题与疑惑

4.3NoSQL技术探研

4.3.1NoSQL理论基础

4.3.2NoSQL技术手段

4.3.3NoSQL技术解析

4.4NoSQL与关系数据库

4.5本章小结

第5章NewSQL——关系数据库联邦

5.1数据库联邦的引入

5.1.1企业业务数据管理面临的问题

5.1.2垂直分库

5.1.3水平分表

5.1.4读写分离

5.1.5联邦的引入

5.2“联邦”的设计与实践

5.2.1企业级“联邦”架构设计

5.2.2公共基础服务设计

5.2.3联邦的元数据库

5.2.4联邦的应用实践

5.3“联邦”技术分析

5.3.1关于“垂直分库”

5.3.2如何“水平分表”5.3.3关于“读写分离”

5.3.4基本方法——分布与聚合

5.3.5关于分布式事务

5.3.6关联操作

5.2.7冗余策略

5.2.8异步解耦策略

5.2.9使用缓存

5.2.10其他问题

5.4数据库联邦、NoSQL与主流关系数据库

5.4.1技术与应用——八仙过海，各显神通

5.4.2互联网的神话

5.5本章小结

第6章文件系统联邦

6.1问题的引入

6.1.1关于几个数据概念的澄清

6.1.2文件数据管理的困难

6.1.3文件系统联邦的引入

6.2典型开源技术介绍

6.2.1Mog

6.2.2Fa

6.2.3MogileFS与FastDFS的对比

6.3技术分析

6.4本章小结

第7章平民化的分布计算——MapR

7.1分布式计算概述

7.1.1几个概念的澄清

7.1.2分布式计算技术综述

7.1.3MapReduce的引入

7.2MapReduce技术介绍

7.2.1设计思想

7.2.2MapReduce框架介绍

7.3MapReduce技术分析

7.3.1关于效率

7.3.2关于扩展性

7.3.3关于可靠性与可用性

7.3.4关于MapReduce与关系数据库

7.3.5关于适用的数据类型

7.3.6关于数据存储与管理

7.4MapReduce的应用实践

7.5本章小结

第8章后Hadoop时代

8.1Hadoop体系及其困惑8.2Google的新三驾马车

8.2.1新一代搜索引擎Caff

8.2.2大规模图处理系统Pr

8.2.3Dremel——秒级实现PB级数据分析

8.3SymphonyMapR

8.4后Hadoop时代即将来临

8.5本章小结

第9章InfiniData—一种关系型云数据库的设计与实践

9.1现代企业数据管理需求再分析

9.1.1新的企业数据需求——海量关系数据管理

9.1.2技术分析

9.2关系型云数据库架构设计

9.2.1关系型云数据库的引入

9.2.2技术架构设计

9.3云存储层

9.3.1逻辑架构

9.3.2物理架构

9.3.3关系模型云存储元

9.4云计算层

9.4.1MapReduce云计算引擎

9.4.2集群式云计算引擎

9.4.3两种引擎的比较

9.5云存储索引层

9.5.1存储索引的管理

9.5.2索引云运行时动态创建

9.6技术分析

9.7本章小结

第3部分　云计算的分与合

第10章合为“云”——数据整合

10.1数据整合的需求分析

10.2存储整合云

10.3数据库整合云

10.4本章小结

第11章关于分与合的讨论

11.1困惑——分与合，孰是孰非？

11.2分为技，合为神

11.3分为雨，合为云——大数据云

11.4数据管理技术发展趋势总结

11.4.1数据管理物理基础设施发展趋势

11.4.2数据管理软基础设施发展趋势

11.5本章小结

第12章企业大数据技术体系与云计算数据基础设施12.1现代企业数据管理需求再分析

12.2新一代企业数据体系建设

12.2.1新一代企业数据体系建设的定义与内容

12.2.2新一代企业数据分类体系

12.2.3新一代企业数据分布与流转规划

12.3大数据技术在企业数据架构中的定位

12.3.1技术规划战略

12.3.2大数据技术架构规划

12.3.3典型场景——电子渠道线上行为分析

12.4云计算数据基础设施概念的引入

12.5本章小结

后记——超越技术

参考文献倚窗远眺，目光目光尽处必有一座山，那影影绰绰的黛绿色的影，是春天的颜色。

周遭流岚升腾，没露出那真实的面孔。

面对那流转的薄雾，我会幻想，那里有一个世外桃源。

在天阶夜色凉如水的夏夜，我会静静地，静静地，等待一场流星雨的来临…

许下一个愿望，不乞求去实现，至少，曾经，有那么一刻，我那还未枯萎的，青春的，诗意的心，在我最美的年华里，同星空做了一次灵魂的交流…

秋日里，阳光并不刺眼，天空是一碧如洗的蓝，点缀着飘逸的流云。

偶尔，一片飞舞的落叶，会飘到我的窗前。

斑驳的印迹里，携刻着深秋的颜色。

在一个落雪的晨，这纷纷扬扬的雪，飘落着一如千年前的洁白。

窗外，是未被污染的银白色世界。

我会去迎接，这人间的圣洁。

在这流转的岁月里，有着流转的四季，还有一颗流转的心，亘古不变的心。

展开阅读全文