深度学习领域高性能计算发展分析.docx

资源描述

深度学习领域高性能计算发展分析.docx

《深度学习领域高性能计算发展分析.docx》由会员分享，可在线阅读，更多相关《深度学习领域高性能计算发展分析.docx（16页珍藏版）》请在冰点文库上搜索。

深度学习领域高性能计算发展分析.docx

深度学习领域高性能计算发展分析

1.1深度学习领域高性能计算发展现状3

1.1.1深度学习领域介绍3

1.1.2常用深度学习软件简介8

1.1.3深度学习框架XSharp12

1.1.4深度学习领域需求分析15

深度学习领域高性能计算发展现状

深度学习领域介绍

深度学习简介

深度学习框架，尤其是基于人工神经网络的框架可以追溯到1980年福岛邦彦提出的新认知机，而人工神经网络的历史更为久远。

1989年，燕乐存（YannLeCun）等人开始将1974年提出的标准反向传播算法应用于深度神经网络，这一网络被用于手写邮政编码识别。

尽管算法可以成功执行，但计算代价非常巨大，神经网路的训练时间达到了3天，因而无法投入实际使用。

许多因素导致了这一缓慢的训练过程，其中一种是由于尔根·施密德胡伯（JürgenSchmidhuber）的学生赛普·霍克赖特（SeppHochreiter）于1991年提出的梯度消失问题。

与此同时，神经网络也受到了其他更加简单模型的挑战，支持向量机等模型在20世纪90年代到21世纪初成为更加流行的机器学习算法。

“深度学习”这一概念从2007年前后开始受到关注。

当时，杰弗里·辛顿（GeoffreyHinton）和鲁斯兰·萨拉赫丁诺夫（RuslanSalakhutdinov）提出了一种在前馈神经网络中进行有效训练的算法。

这一算法将网络中的每一层视为无监督的受限玻尔兹曼机，再使用有监督的反向传播算法进行调优。

在此之前的1992年，在更为普遍的情形下，施密德胡伯也曾在递归神经网络上提出一种类似的训练方法，并在实验中证明这一训练方法能够有效提高有监督学习的执行速度.

自深度学习出现以来，它已成为很多领域，尤其是在计算机视觉和语音识别中，成为各种领先系统的一部分。

在通用的用于检验的数据集，例如语音识别中的TIMIT和图像识别中的ImageNet,Cifar10上的实验证明，深度学习能够提高识别的精度。

硬件的进步也是深度学习重新获得关注的重要因素。

高性能图形处理器的出现极大地提高了数值和矩阵运算的速度，使得机器学习算法的运行时间得到了显著的缩短

基本概念

深度学习的基础是机器学习中的分散表示（distributedrepresentation）。

分散表示假定观测值是由不同因子相互作用生成。

在此基础上，深度学习进一步假定这一相互作用的过程可分为多个层次，代表对观测值的多层抽象。

不同的层数和层的规模可用于不同程度的抽象。

深度学习运用了这分层次抽象的思想，更高层次的概念从低层次的概念学习得到。

这一分层结构常常使用贪婪算法逐层构建而成，并从中选取有助于机器学习的更有效的特征.

不少深度学习算法都以无监督学习的形式出现，因而这些算法能被应用于其他算法无法企及的无标签数据，这一类数据比有标签数据更丰富，也更容易获得。

这一点也为深度学习赢得了重要的优势。

人工神经网络下的深度学习

一部分最成功的深度学习方法涉及到对人工神经网络的运用。

人工神经网络受到了1959年由诺贝尔奖得主大卫·休伯尔（DavidH.Hubel）和托斯坦·威泽尔（TorstenWiesel）提出的理论启发。

休伯尔和威泽尔发现，在大脑的初级视觉皮层中存在两种细胞：

简单细胞和复杂细胞，这两种细胞承担不同层次的视觉感知功能。

受此启发，许多神经网络模型也被设计为不同节点之间的分层模型。

福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。

燕乐存将有监督的反向传播算法应用于这一架构。

事实上，从反向传播算法自20世纪70年代提出以来，不少研究者都曾试图将其应用于训练有监督的深度神经网络，但最初的尝试大都失败。

赛普·霍克赖特（SeppHochreiter）在其博士论文中将失败的原因归结为梯度消失，这一现象同时在深度前馈神经网络和递归神经网络中出现，后者的训练过程类似深度网络。

在分层训练的过程中，本应用于修正模型参数的误差随着层数的增加指数递减，这导致了模型训练的效率低下。

为了解决这一问题，研究者们提出了一些不同的方法。

于尔根·施密德胡伯（JürgenSchmidhuber）于1992年提出多层级网络，利用无监督学习训练深度神经网络的每一层，再使用反向传播算法进行调优。

在这一模型中，神经网络中的每一层都代表观测变量的一种压缩表示，这一表示也被传递到下一层网络。

另一种方法是赛普·霍克赖特和于尔根·施密德胡伯提出的长短期记忆神经网络（longshorttermmemory，LSTM）。

2009年，在ICDAR2009举办的连笔手写识别竞赛中，在没有任何先验知识的情况下，深度多维长短期记忆神经网络取得了其中三场比赛的胜利。

斯文·贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型，用以解决图像重建和人脸定位的问题。

其他方法同样采用了无监督预训练来构建神经网络，用以发现有效的特征，此后再采用有监督的反向传播以区分有标签数据。

辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。

这一方法使用斯摩棱斯基于1986年提出的受限玻尔兹曼机对每一个包含高层特征的层进行建模。

模型保证了数据的对数似然下界随着层数的提升而递增。

当足够多的层数被学习完毕，这一深层结构成为一个生成模型，可以通过自上而下的采样重构整个数据集。

辛顿声称这一模型在高维结构化数据上能够有效低提取特征。

吴恩达和杰夫·迪恩（JeffDean）领导的谷歌大脑团队创建了一个仅通过YouTube视频学习高层概念（例如猫）的神经网络。

其他方法依赖了现代电子计算机的强大计算能力，尤其是GPU。

2010年，在于尔根·施密德胡伯位于瑞士人工智能实验室IDSIA的研究组中，丹·奇雷尚（DanCiresan）和他的同事展示了利用GPU直接执行反向传播算法而忽视梯度消失问题的存在。

这一方法在燕乐存等人给出的手写识别MNIST数据集上战胜了已有的其他方法。

截止2011年，前馈神经网络深度学习中最新的方法是交替使用卷积层（convolutionallayers）和最大值池化层（max-poolinglayers）并加入单纯的分类层作为顶端。

训练过程也无需引入无监督的预训练。

从2011年起，这一方法的GPU实现多次赢得了各类模式识别竞赛的胜利，包括IJCNN2011交通标志识别竞赛和其他比赛。

深度学习结构

深度神经网络是一种具备至少一个隐层的神经网络。

与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

深度神经网络通常都是前馈神经网络，但也有语言建模等方面的研究将其拓展到递归神经网络。

卷积深度神经网络（CovolutionalNeuronNetworks,CNN）在计算机视觉领域得到了成功的应用。

此后，卷积神经网络也作为听觉模型被使用在自动语音识别领域，较以往的方法获得了更优的结果[40]

Ø深度神经网络

深度神经网络（deepneuronnetworks,DNN）是一种判别模型，可以使用反向传播算法进行训练。

权重更新可以使用下式进行随机梯度下降求解：

其中，

为学习率，

为代价函数。

这一函数的选择与学习的类型（例如监督学习、无监督学习、增强学习）以及激活函数相关。

例如，为了在一个多分类问题上进行监督学习，通常的选择是使用Softmax函数作为激活函数，而使用交叉熵作为代价函数。

Softmax函数定义为

，其中

代表类别

的概率，而

和

分别代表对单元

和

的输入。

交叉熵定义为

，其中

代表输出单元

的目标概率，

代表应用了激活函数后对单元

的概率输出[41]。

Ø深度神经网络的问题

与其他神经网络模型类似，如果仅仅是简单地训练，深度神经网络可能会存在很多问题。

常见的两类问题是过拟合和过长的运算时间。

深度神经网络很容易产生过拟合现象，因为增加的抽象层使得模型能够对训练数据中较为罕见的依赖关系进行建模。

对此，权重递减（正规化）或者稀疏（-正规化）等方法可以利用在训练过程中以减小过拟合现象。

另一种较晚用于深度神经网络训练的正规化方法是丢弃法（"dropout"regularization），即在训练中随机丢弃一部分隐层单元来避免对较为罕见的依赖进行建模。

反向传播算法和梯度下降法由于其实现简单，与其他方法相比能够收敛到更好的局部最优值而成为神经网络训练的通行方法。

但是，这些方法的计算代价很高，尤其是在训练深度神经网络时，因为深度神经网络的规模（即层数和每层的节点数）、学习率、初始权重等众多参数都需要考虑。

扫描所有参数由于时间代价的原因并不可行，因而小批量训练（mini-batching），即将多个训练样本组合进行训练而不是每次只使用一个样本进行训练，被用于加速模型训练[44]。

而最显著地速度提升来自GPU，因为矩阵和向量计算非常适合使用GPU实现。

但使用大规模集群进行深度神经网络训练仍然存在困难，因而深度神经网络在训练并行化方面仍有提升的空间。

Ø深度置信网络

深度置信网络（deepbeliefnetworks，DBN）是一种包含多层隐单元的概率生成模型，可被视为多层简单学习模型组合而成的复合模型。

深度置信网络可以作为深度神经网络的预训练部分，并为网络提供初始权重，再使用反向传播或者其他判定算法作为调优的手段。

这在训练数据较为缺乏时很有价值，因为不恰当的初始化权重会显著影响最终模型的性能，而预训练获得的权重在权值空间中比随机权重更接近最优的权重。

这不仅提升了模型的性能，也加快了调优阶段的收敛速度[46]。

深度置信网络中的每一层都是典型的受限玻尔兹曼机（restrictedBoltzmannmachine，RBM），可以使用高效的无监督逐层训练方法进行训练。

受限玻尔兹曼机是一种无向的基于能量的生成模型，包含一个输入层和一个隐层。

图中对的边仅在输入层和隐层之间存在，而输入层节点内部和隐层节点内部则不存在边。

单层RBM的训练方法最初由杰弗里·辛顿在训练“专家乘积”中提出，被称为对比分歧（contrastdivergence,CD）。

对比分歧提供了一种对最大似然的近似，被理想地用于学习受限玻尔兹曼机的权重。

当单层RBM被训练完毕后，另一层RBM可被堆叠在已经训练完成的RBM上，形成一个多层模型。

每次堆叠时，原有的多层网络输入层被初始化为训练样本，权重为先前训练得到的权重，该网络的输出作为新增RBM的输入，新的RBM重复先前的单层训练过程，整个过程可以持续进行，直到达到某个期望中的终止条件。

尽管对比分歧对最大似然的近似十分粗略（对比分歧并不在任何函数的梯度方向上），但经验结果证实该方法是训练深度结构的一种有效的方法。

Ø卷积神经网络

卷积神经网络（convolutionalneuronnetworks，CNN）由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（poolinglayer）。

这一结构使得卷积神经网络能够利用输入数据的二维结构。

与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更优的结果。

这一模型也可以使用反向传播算法进行训练。

相比较其他深度、前馈神经网络，卷积神经网络需要估计的参数更少，使之成为一种颇具吸引力的深度学习结构。

Ø卷积深度置信网络

卷积深度置信网络（convolutionaldeepbeliefnetworks，CDBN）是深度学习领域较新的分支。

在结构上，卷积深度置信网络与卷积神经网络在结构上相似。

因此，与卷积神经网络类似，卷积深度置信网络也具备利用图像二维结构的能力，与此同时，卷积深度信念网络也拥有深度置信网络的预训练优势。

卷积深度置信网络提供了一种能被用于信号和图像处理任务的通用结构，也能够使用类似深度置信网络的训练方法进行训练。

注：

资料来源于维基百科：

https:

//zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0

常用深度学习软件简介

Caffe

Caffe的全称应该是ConvolutionalArchitectureforFastFeatureEmbedding，它是一个清晰、高效的深度学习框架，它是开源的，核心语言是C++，它支持命令行、Python和Matlab接口，它既可以在CPU上运行也可以在GPU上运行。

它的license是BSD2-Clause。

DeepLearning比较流行的一个原因，主要是因为它能够自主地从数据上学到有用的feature。

特别是对于一些不知道如何设计feature的场合，比如说图像和speech。

ØCaffe的设计

基本上，Caffe对神经网络进行了一个简单假设----所有的计算都是以layer的形式表示的，layer做的事情就是拿一些数据，然后输出一些计算以后的结果，比如说卷积，就是输入一个图像，然后和这一层的参数（filter）做卷积，然后输出卷积的结果。

每一个layer需要做两个计算：

forward是从输入计算输出，然后backward是从上面给的gradient来计算相对于输入的gradient，只要这两个函数实现了以后，我们就可以把很多层连接成一个网络，这个网络做的事情就是输入我们的数据（图像或者语音），然后来计算我们需要的输出（比如说识别的label），在training的时候，我们可以根据已有的label来计算loss和gradient，然后用gradient来update网络的参数，这个就是Caffe的一个基本流程。

基本上，最简单地用Caffe上手的方法就是先把数据写成Caffe的格式，然后设计一个网络，然后用Caffe提供的solver来做优化看效果如何，如果你的数据是图像的话，可以从现有的网络，比如说alexnet或者googlenet开始，然后做finetuning，如果你的数据稍有不同，比如说是直接的floatvector，你可能需要做一些自定义配置，Caffe的logisticregressionexample兴许会很有帮助。

ØCaffe的亮点：

（1）、模块化：

Caffe从一开始就设计得尽可能模块化，允许对新数据格式、网络层和损失函数进行扩展。

（2）、表示和实现分离：

Caffe的模型（model）定义是用ProtocolBuffer语言写进配置文件的。

以任意有向无环图的形式，Caffe支持网络架构。

Caffe会根据网络的需要来正确占用内存。

通过一个函数调用，实现CPU和GPU之间的切换。

（3）、测试覆盖：

在Caffe中，每一个单一的模块都对应一个测试。

（4）、Python和Matlab接口：

同时提供Python和Matlab接口。

（5）、预训练参考模型：

针对视觉项目，Caffe提供了一些参考模型，这些模型仅应用在学术和非商业领域，它们的license不是BSD。

MXNet

这是自xgboost,cxxnet,minerva以来集合DMLC几乎所有开发者力量的一个机器学习项目。

MXNet名字源于”MixandMaximize”。

我们一直有一个目标，就是希望把cxxnet这样强调性能静态优化的C++库和灵活的NDArray有机结合在一起。

做包含cxxnet的静态优化，却又可以像minerva,theano,torch那样进行灵活扩展的深度学习库。

与其他工具相比，mxnet结合了符号语言和过程语言的编程模型，并试图最大化各自优势，利用统一的执行引擎进行自动多GPU并行调度优化。

不同的编程模型有各自的优势，以往的深度学习库往往着重于灵活性，或者性能。

MXNet通过融合的方式把各种编程模型整合在一起，并且通过统一的轻量级运行引擎进行执行调度。

使得用户可以直接复用稳定高效的神经网络模块，并且可以通过Python等高级语言进行快速扩展。

MXNet由dmlc/cxxnet,dmlc/minerva和Purine2的作者发起，融合了Minerva的动态执行，cxxnet的静态优化和Purine2的符号计算等思想，直接支持基于Python的parameterserver接口，使得代码可以很快向分布式进行迁移。

每个模块都进行清晰设计，使得每一部分本身都具有被直接利用的价值。

C接口和静态/动态Library使得对于新语言的扩展更加容易，目前支持C++和python2/3，接下来相信会有更多语言支持，并方便其他工具增加深度学习功能。

轻量级调度引擎。

在数据流调度的基础上引入了读写操作调度，并且使得调度和调度对象无关，用以直接有机支持动态计算和静态计算的统一多GPU多线程调度，使得上层实现更加简洁灵活。

符号计算支持。

MXNet支持基于静态计算流图符号计算。

计算流图不仅使设计复杂网络更加简单快捷，而且基于计算流图，MXNet可以更加高效得利用内存。

同时进一步优化了静态执行的规划，内存需求比原本已经省的cxxnet还要少。

混合执行引擎。

相比cxxnet的全静态执行，minerva的全动态执行。

MXNet采用动态静态混合执行引擎，可以把cxxnet静态优化的效率带和ndarray动态运行的灵活性结合起来。

把高效的c++库更加灵活地和Python等高级语言结合在一起。

更加灵活：

在MShadowC++表达式模板的基础上，符号计算和ndarray使在Python等高级语言内编写优化算法，损失函数和其他深度学习组件并高效无缝支持CPU/GPU成为可能。

用户无需关心底层实现，在符号和NDArray层面完成逻辑即可进行高效的模型训练和预测。

对于云计算更加友好：

所有数据模型可以从S3/HDFS/Azure上直接加载训练。

代码更加简洁高效：

大量使用C++11特性，使MXNet利用最少的代码实现尽可能最大的功能。

用约11k行C++代码（加上注释4k行）实现了以上核心功能。

开源用户和设计文档，mxnet提供了非常详细的用户文档和设计文档以及样例。

所有的代码都有详细的文档注释。

并且会持续更新代码和系统设计细节，希望对于广大深度学习系统开发和爱好者有所帮助。

TensorFlow

Google大脑项目开始于2011年，目的是探索在科研和Google的产品中超大规模深度神经网络的使用。

作为这个项目的早期工作，Google构建了DistBelief——第一代的可扩展分布式训练和推断系统，这个系统工作得很不错。

Google的同事使用DistBelief进行了广泛的研究包括非监督学习、语言表示、图像分类模型和目标检测、视频分类、语音识别、序列预测、Go的移动选择、行人检测、强化学习等等。

另外，超过50个Google内部的团队和其他Alphabet公司也已经部署了使用DistBelief的深度神经网络在众多产品中，包括GoogleSearch、广告产品、语音识别系统、GooglePhotos、GoogleMaps和街景、Google翻译、Youtube和很多其他的产品。

Google基于使用DistBelief的经验和对于期望用来训练和使用神经网络的系统特性和需求更加完备地理解，构建了TensorFlow——第二代大规模机器学习模型的实现和部署的系统。

TensorFlow使用通过类似数据流模型的计算，将这些计算映射到不同的硬件平台例如使用包含一个或者多个GPU显卡的装有Android和iOS的单个机器上进行推断，到运行在数百台包含数千个GPU的大规模系统训练和推断。

拥有一个单一的系统可以扩展分布到众多的平台上可以大大简化真实场景中机器学习系统的使用，正如在用分离的系统进行大规模训练和小规模的部署，会产生巨大的维护代价和较差的抽象效果。

TensorFlow的计算被表示为含状态的数据流图，我们聚焦在让这个系统足够灵活能够快速地实验研究中产生的新模型，并同时充分地提升产品级训练的性能和部署机器学习模型健壮性。

为扩展神经网络训练搞更大的部署环境，TensorFlow允许client简单地表达不同类型的并行通过复制和并行执行一个核心模型数据流图，依赖不同计算设备合作更新一个共享的参数或者其他的状态。

对计算描述的微妙变动可以使用较低的代价来达到和尝试很多不同的并行的方法。

一些TensorFlow的用途借助参数更新的一致性来实现灵活性，可以在一些更大的部署环境中轻易表达和利用这些同步上的松弛。

对比DistBelief，TensorFlow的编程模型更加灵活，性能也更好，支持在大规模的异构硬件平台上训练和使用很多的模型。

DistBelief的内部用户已经切换成TensorFlow了。

这些客户依赖TensorFlow来研究和产品，执行诸如在移动电话计算机视觉模型的推断到使用数百台机器进行千亿级样本的千亿级参数的深度神经网络的训练。

TersorFlow按照Apache2.0协议在2015年11月开源了TensorFlowAPI，可以在www.tensorflow.org查看。

Torch

Torch诞生已经有十年之久，但是真正起势得益于去年Facebook开源了大量Torch的深度学习模块和扩展。

Torch另外一个特殊之处是采用了不怎么流行的编程语言Lua（该语言曾被用来开发视频游戏）。

除了以上三个比较成熟知名的项目，还有很多有特色的深度学习开源框架也值得关注

Keras

Keras是一个极度简化、高度模块化的神经网络第三方库。

基于Python+Theano开发，充分发挥了GPU和CPU操作。

其开发目的是为了更快的做神经网络实验。

适合前期的网络原型设计、支持卷积网络和反复性网络以及两者的结果、支持人工设计的其他网络、在GPU和CPU上运行能够无缝连接。

深度学习框架XSharp

深度学习的泰斗吴恩达指出，高性能计算（HighPerformanceComputing,HPC）是深度学习的动力引擎。

凭借自身在国内HPC的技术和市场领先优势，率先提出深度学习XSystem系统。

此系统为用户提供一体化的深度学习软硬件整体解决方案，包含深度学习XSharp软件栈和XMachine硬件平台。

藉此软硬件一体化平台，帮助用户快速进入DeepLearning领域，实现企业应用快速成长，将科研成果快速转化为第一生产力。

整个系统以“XMachineDeepLearning一体机”为硬件平台，为深度学习定制开发，多种类型GPU服务器供选择，原生支持NVIDIADIGITS开发环境，大大降低用户进入深度学习领域的软件件投入成本。

XSharp系统特点

XSharp深度学习软件与其他产品有着本质的区别。

与其他厂商简单包装开源软件不同。

XSharp产品初衷以用户应用为主，科研为辅。

产品面向企业用户的实际应用，以XSharp平台为契合点，为用户提供相应的优化策略，加速应用效果。

“XSharpDeepLearning软件平台”包含三个不同层次的软件开发优化层面，分别从分布式并行系统优化，分布式并行机器学习执行模式优化，大规模机器学习算法工具集三个层面提供DeepLearning优化策略，帮助用户实现应用优化。

同时，XSharp软件栈各模块可以随意组合，按照用户应用进行裁剪，满足不同需求。

XSystem系统以“HPC+大数据处理”为设计理念，为深度学习用户提供完整的软件栈，整个平台的目标是加速用户开发进度，而非喧宾夺主，让用户偏离原有的研发方向。

XSharp软件意义

XSharp是目前国内厂商唯一一个针对深度学习的开放框架。

我们利用HPC多年的技术积累，在HPC架构基础上构建XSharp软件栈，从原生技术上支持机器学习。

XSharp聚焦用户应用，以加速实际应用为目标，抽取图像处理、音频处理、自然语言处理过程中的通用方法，以核心的算法

展开阅读全文