人工智能深度学习模式识别机器学习神经网络实验室建设方案Word格式.docx

资源描述

人工智能深度学习模式识别机器学习神经网络实验室建设方案Word格式.docx

《人工智能深度学习模式识别机器学习神经网络实验室建设方案Word格式.docx》由会员分享，可在线阅读，更多相关《人工智能深度学习模式识别机器学习神经网络实验室建设方案Word格式.docx（26页珍藏版）》请在冰点文库上搜索。

人工智能深度学习模式识别机器学习神经网络实验室建设方案Word格式.docx

为了提高资源使用效率，支持多个模型训练任务同时运行，深度学习实验平台采用轻量级的容器云资源调度技术，提高平台整体的可伸缩性，同时采用分布式任务调度服务，实现多任务容错并行处理，并支持多租客资源管理。

3.深度学习框架层：

采用目前业界常用的各种深度学习框架，包括TensorFlow、Keras、PyTorch、Caffe、CNTK、PaddlePaddle等，各个框架都采用本地预装的容器镜像进行封装，可以快速构建运行环境，极大的减轻框架更新升级的工作量。

4.深度学习模型层：

平台内置常用的各种深度神经网络模型，包括卷积神经网络如AlexNet、VGGNet、ResNet、FastR-CNN、SSD等模型，循环神经网络如LSTM、GRU等模型，以及AE自编码器、GAN生成对抗网络和深度强化学习神经网络DQN等模型，便于学生学习这些模型的框架，并进行调整优化，训练自己的模型。

5.深度学习应用层：

平台提供目前深度学习的各种常见应用案例，包括机器视觉、自然语言处理、机器人智能控制，以及行业应用较多的基于深度学习的推荐引擎、广告预测、时间序列分析等案例，每个案例都包括数据集、源代码和实验指导，学生可以快速上手，模拟真实行业的深度学习项目开发。

6.深度学习课程资源：

包括深度学习实验课程相关实验指导，包括PPT讲义、实验视频等，以及深度学习建模常用模型、训练数据集和案例代码等。

7.深度学习开发工具：

提供数据分析项目开发常用的各种工具，包括版本管理工具、集成开发环境、数据网络爬虫、模拟数据生成工具，以及数据可视化平台等。

3.系统功能设计

深度学习实验平台的主要功能包括GPU集群管理、任务调度管理、教学资源管理、用户角色管理和应用工具管理五个模块。

这些模块的逻辑关系如下图：

3.1.GPU集群管理

深度学习实验平台的底层是GPU服务器集群，通常由高性能的服务器，搭配高性能的GPU深度学习单元，按照一定的拓扑关系，由高速网络交换机进行组网，形成服务器集群。

服务器集群主要提供CPU、GPU计算资源，以及存储资源和网络资源。

3.1.1.GPU集群管理功能

●硬件资源运行管理

按照分布式计算的要求，协同各个服务器的资源使用，提供统一的任务运行调度接口，提高硬件资源的使用效率。

●硬件资源容错管理

针对硬件可能出现的异常，采用数据备份和容错监控机制，提供资源容错管理功能，使硬件异常不影响上层任务的运行。

●硬件资源扩展管理

支持硬件资源的动态扩展，不需要停止集群运行，即可对集群服务器节点进行增减调整。

●硬件资源状态监控

对硬件资源的运行状况进行实时监控，并提供可视化的监控功能，对于超过阈值的硬件资源使用“热点”，进行预警管理。

3.1.2.GPU集群管理设计

深度学习实验平台的GPU服务器集群管理，基于最新的容器云编排和管理框架Kubernetes实现。

Kubernetes是一个轻便的和可扩展的容器云管理平台，用于管理容器化应用和服务，通过Kubernetes能够进行应用的自动化部署和动态扩容缩容。

在Kubernetes中，会将组成应用的容器组合成一个逻辑单元以更易管理和发现。

以下是Kubernetes架构图：

Kubernetes属于主从分布式架构，主要由主管理节点和多个工作节点组成，以及包括客户端命令行工具kubectl和其它附加项。

1）主管理节点作为控制节点，对集群进行调度管理，主管理节点由API服务器、调度器、分布式集群状态配置库和控制管理器等服务所组成。

2）工作节点作为真正的任务运行节点，运行业务应用的各种容器。

工作节点包含kubelet、kubeproxy和容器运行时服务。

其中，kubectl用于通过命令行与API服务器进行交互，对Kubernetes平台进行操作，实现在集群中进行各种资源的增删改查等操作。

3）Add-on附加项是对Kubernetes核心功能的扩展，包括增加网络和网络策略等能力。

以下是基于Kubernetes的深度学习平台GPU集群管理器界面：

3.2.任务调度管理

深度学习平台需要运行各种深度学习算法训练任务，这些任务不仅仅是模型构建，还包括大数据处理等任务类型。

为了同时支持大数据和深度学习任务的运行，本平台的任务调度管理模块采用YARN框架来实现任务调度管理功能。

3.2.1.任务调度模块架构

YARN任务调度管理模块的架构如下图：

YARN各服务的说明如下：

●资源管理器（ResourceManager：

RM）：

负责对各工作节点管理器（NodeManager）上的资源进行统一管理和调度，将应用管理器（ApplicationManager）分配空闲的容器（Container）运行并监控其运行状态。

对应用管理器申请的资源请求分配相应的空闲容器。

主要由两个组件构成：

调度器（Scheduler）和应用管理器（ApplicationsManager）。

调度器（Scheduler）：

调度器根据容量、队列等限制条件（如每个队列分配一定的资源，最多执行一定数量的作业等），将系统中的资源分配给各个正在运行的应用程序。

调度器仅根据各个应用程序的资源需求进行资源分配，而资源分配单位是容器，从而限定每个任务使用的资源量。

Scheduler不负责监控或者跟踪应用程序的状态，也不负责任务因为各种原因而需要的重启。

总之，调度器根据应用程序的资源要求，以及集群机器的资源情况，为用程序分配封装在Container中的资源。

调度器是可插拔的，例如CapacityScheduler、FairScheduler。

应用程序管理器（ApplicationManager）：

应用管理器负责管理整个系统中所有应用程序，包括应用程序提交、与调度器协商资源以启动应用主服务（AM）、监控应用主服务（AM）的运行状态并在失败时重新启动等，跟踪分给的Container的进度、状态也是其职责。

●节点管理器（NodeManager：

NM）：

节点管理器是每个节点上的资源和任务管理器。

它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态；

同时会接收并处理来自应用管理器的Container启动/停止等请求。

●应用主服务（ApplicationMaster：

AM）：

用户提交的应用程序均包含一个应用主服务，负责应用的监控，跟踪应用执行状态，重启失败任务等。

应用主服务（AM）是应用框架，它负责向资源管理器协调资源，并且与节点管理器协同工作完成Task的执行和监控。

●容器（Container）：

是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当应用主服务（AM）向资源管理器申请资源时，资源管理器为应用主服务（AM）返回的资源便是用容器表示的。

YARN会为每个任务分配一个容器且该任务只能使用该容器中描述的资源。

3.2.2.任务调度交互设计

YARN任务调度模块各服务的交互流程如下图：

任务调度过程：

1、客户端提交任务给资源管理器ResourceManager，任务一般包括应用代码和应用需要的一切参数和环境信息；

2、资源管理器收到请求之后，调用应用管理器ApplicationManager向节点管理器NodeManager发送请求，申请一个容器Container资源，并且要求容器启动应用主服务ApplicationMaster；

3、容器启动之后，首先注册自己到资源管理器，然后为任务申请容器资源，这个过程是轮训的，循环申请资源，资源管理器收到请求之后，会要求节点管理器分配资源；

4、资源分配完毕之后，应用主服务发送请求到节点管理器，启动任务；

5、节点管理器设置容器的运行时环境，节点会通过脚本启动任务；

6、启动的过程是由节点管理器的容器启动程序ContainerLauncher负责的，容器启动程序完成启动任务的工作；

7.1任务和应用主服务保持定期交互，报告任务状态和进度信息，应用主服务利用这些信息监控任务的整个执行过程；

7.2节点管理器和资源管理器两者之间保持的心跳信息，更新节点管理器状态的变化；

8、应用主服务在检测到作业运行完毕之后，通知资源管理器，并且停止自己执行。

3.3.教学资源管理

教学资源管理提供深度学习实验平台教学活动相关的资源管理功能，教学资源包括各种讲义、视频、源码等文档，以及实施深度学习实验所需的各种镜像（Image）、数据集和预训练的算法模型等文件。

主要功能包括在线资源目录管理和实验案例管理两部分：

3.3.1.在线资源目录管理

教学资源管理采用统一的Web访问方式，方便教师和学生通过浏览器管理自己的相关资源文件。

以下是教学资源管理模块的界面：

3.3.2.深度学习实验案例

中智讯深度学习实验平台支持的基础实验主要包括机器学习基础理论和算法模型，以及使用神经网络实现各种深度学习基础理论和算法模型相关的实验，具体实验列表如下：

⏹机器学习基础实验

实验1：

一个简单的线性回归预测实验

实验2：

机器学习数据准备-鹫尾花数据集

实验3：

数据探索-均值、中位数、众数和均值偏差计算

实验4：

数据探索-数据偏度计算

实验5：

数据探索-数据离散度（方差/标准差/Cohen'

sd度量）

实验6：

数据探索-数据可视化（直方图/散点图/箱图）

实验7：

特征处理-皮尔逊相关系数计算

实验8：

特征处理-信息熵系数计算

实验9：

特征处理-条件熵系数计算

实验10：

特征处理-相对熵系数计算

实验11：

特征处理-交叉熵系数计算

实验12：

特征处理-Lasso正则化（L1）处理

实验13：

特征处理-Ridge正则化（L2）处理

实验14：

特征处理-主成分分析PCA

实验15：

基于最小均方误差MSE的误差分析

实验16：

机器学习模型度量指标-查全率、查准率和F1度量

实验17：

机器学习模型度量指标-ROC和AUC

实验18：

基于信息熵增益率的决策树算法

实验19：

基于Gini系数的决策树算法

实验20：

基于Python实现的逻辑回归分类算法

实验21：

基于Python实现的K近邻分类算法

实验22：

基于Python实现的朴素贝叶斯分类算法

实验23：

基于Python实现的支持向量机SVM分类算法

基于Python实现的K均值聚类算法

实验24：

基于Python实现的Apriori频繁项集算法

实验25：

基于GridSearch的模型超参数优化

实验26：

基于RandomSearch的模型超参数优化

⏹神经网络基础实验

基于Sigmoid激活函数的感知机

基于Tanh激活函数的感知机

基于ReLu激活函数的感知机

基于Python实现一个三层前馈神经网络

多层前馈神经网络解决XOR问题

基于Python实现的随机梯度下降算法

基于Python实现的Back-Propagation神经网络

神经网络实现手写字符识别

⏹深度学习基础实验

TensorFlow环境安装

第一个TensorFlow手写字识别算法

TensorFlow图编程模型

TensorFlow变量和作用域

TensorFlow常用API

TensorFlow批标准化方法

TensorFlow神经元函数

TensorFlow常用优化器算法

TensorFlow随机梯度下降算法

TensorFlow读取TRRecord文件数据

TensorFlow训练模型保存和恢复

使用TensorBoard可视化工具检查模型训练过程

TensorFlow队列

TensorFlow线程和协调器

TensorFlow分布式多节点部署实验

TensorFlow实现卷积神经网络

TensorFlow实现循环神经网络

TensorFlow实现LSTM神经网络

TensorFlow实现GRU神经网络

TensorFlow实现AutoEncoder自编码器

TensorFlow实现GAN生成对抗网络

TensorFlow实现时间序列预测

基于TensorFlow的深度强化学习DeepQ-Learning算法

3.4.用户权限管理

为了满足不同用户之间操作权限控制和资源访问隔离的需求，深度学习实验平台提供了基于角色的用户权限管理功能。

平台预设的角色包括系统管理员、教师、学生三类，各个类别的角色拥有不同的操作权限，系统管理员还可以根据需求的不同，自定义新的角色，并配置给相应的操作权限。

以下是基于角色的用户权限管理模块E-R图设计:

深度学习实验平台预设的角色描述如下表：

角色名称

角色说明

管理权限

系统管理员

负责整个平台的管理工作，一般授予专门的平台运维管理人员

拥有所有权限

教师

从事教学活动的老师，授予此角色

任务管理：

提交任务、取消任务、查询任务状态等

资源管理：

提交文档资料，设定文档访问部门或人员，提交镜像和数据集

工具管理：

使用相关工具

学生

提交深度学习算法训练任务的学生，授予此角色

提交文档资料，设定文档访问部门或人员

以下是平台的用户权限配置管理界面：

3.5.应用工具管理

深度学习实验是一项综合性的工程实践活动，学生需要掌握各种辅助工具，才能熟练的完成深度学习相关的各种算法训练任务。

本平台提供的应用工具主要包括数据爬取工具、数据模拟工具、数据可视化工具，还附带安装有实际项目开发使用的版本管理工具、集成开发工具（IDE）等。

3.5.1.数据爬取工具

数据爬取工具基于业界领先的数据爬虫框架开发，提供定时多线程调度爬取，支持代理IP设置，防止封IP，而且提供扩展支持验证码识别等功能，内置各种数据输出源设置，包括MongoDB、MySQL、SQLite和JSON或CSV文件等。

数据爬取工具由调度器、抓取器、脚本执行器和输出模块组成，同时提供WebUI界面和后台监控工具，各部分组成如下：

数据爬取工具操作界面如下：

3.5.2.数据模拟工具

为了解决深度学习课程教学过程中面临的数据量不足的问题，深度学习实验平台提供了数据模拟工具，该工具提供千万级别以上的模拟数据生成功能，可以配置不同的数据序列和数据范围，按照配置生成所需的样例数据，而且支持采取不同参数的概率分布，按照设定的概率分布均值和标准差，生成数值型样例数据，还可以按不同的数据格式和生成顺序，使用多线程快速生成海量的模拟数据，供大数据处理和深度学习分析使用。

数据模拟工具界面如下：

生成的数据示例如下：

3.5.3.数据可视化工具

为了满足深度学习实验过程中，对数据进行探索分析，并对实验生成的数据成果进行可视化展示需求，深度学习实验平台提供基于Web的轻量级数据可视化工具，该工具内置各种常用数据描述性统计函数，便于用户进行数据探索分析，而且集成了常用的散点图、线图、柱图、饼图、雷达图等图表控件，提供丰富的数据可视化功能。

使用该工具，用户可以自定义不同的数据来源，自动从数据源中抽取数据，快速生成各种数据统计分析图表，并将图表导出为Excel、Word或PDF本地文件，方便用户制作数据实验报告。

数据可视化工具使用界面如下：

数据可视化工具生成的数据展示仪表舱示例如下：

4.系统部署

4.1.系统部署拓扑

深度学习实验平台系统主要由管理节点和GPU服务器集群构成，管理节点用于部署GPU集群管理平台的管理服务，包括集群资源管理、用户权限管理，以及各种应用工具管理等，GPU服务器集群节点作为计算节点，提供深度学习计算服务，两者之间通过高速数据网络和管理网络相互连接。

平台部署示意图如下：

4.2.系统部署步骤

深度学习实验平台的部署包括以下部分：

第一部分：

底层容器资源层安装，包括Docker安装、Kubernetes容器云管理平台安装；

第二部分：

任务调度层安装，采用容器方式安装YARN任务调度服务，如果需要运行大数据任务的话，还可以安装Spark、Kafka等服务；

第三部分：

深度学习框架安装，同样采用容器方式按照常用的深度学习框架如TensorFlow、Caffe、Keras、PyTorch、MXNet等；

第四部分：

用户权限管理和应用工具安装，可以采用容器方式按照，也可以直接部署在管理节点上。

以下是单节点的具体部署步骤：

●测试节点部署环境：

OS：

Ubuntu16.0464位LTS

Python：

3.5.2

GPU：

NvidiaGTX1080Ti（11G）。

●安装部署步骤：

1）安装Docker：

请参考相关指导

2）安装必要的包：

sudoapt-get-yinstallnanojoevimwgetcurljqgawkpsmiscpythonpython-yamlpython-jinja2python-paramikopython-urllib3python-tzpython-nosepython-prettytablepython-netifacespython-devpython-pippython-mysqldbopenjdk-8-jreopenjdk-8-jdkopenssh-serveropenssh-clientgitbash-completioninotify-toolsrsyncrealpathnet-tools

pipinstallpython-etcddockerkubernetesGitPython

3）下载框架源码：

gitclone

4）准备部署节点：

Dev-Box

sudodockerpulldocker.io/openpai/dev-box

sudodockerrun-itd\

-eCOLUMNS=$COLUMNS-eLINES=$LINES-eTERM=$TERM\

-v/var/run/docker.sock:

/var/run/docker.sock\

-v/pathConfiguration:

/cluster-configuration\

--pid=host\

--privileged=true\

--net=host\

--name=dev-box\

docker.io/openpai/dev-box

sudodockerexec-itdev-box/bin/bash

cd/pai

5）准备Kubernetes集群配置：

pythonpaictl.pyconfiggenerate-i/pai/deployment/quick-start/quick-start.yaml-o~/pai-config-f

6）部署Kubernetes集群：

cdpai

pythonpaictl.pyclusterk8s-bootup\

-p~/pai-config

确认Kubernetes集群已经安装OK：

http:

//192.168.100.141:

9090/

7）更新GPU集群管理服务配置：

pythonpaictl.pyconfigpush-p/path/to/config/dir[-c~/.kube/config]

8）启动GPU集群管理服务：

pythonpaictl.pyservicestart

GPU集群管理服务包括：

prometheus'

hadoop-batch-job'

hadoop-name-node'

watchdog'

node-exporter'

hadoop-resource-manager'

pylon'

zookeeper'

cluster-configuration'

展开阅读全文