旅游大数据平台方案Word文件下载.docx

资源描述

旅游大数据平台方案Word文件下载.docx

《旅游大数据平台方案Word文件下载.docx》由会员分享，可在线阅读，更多相关《旅游大数据平台方案Word文件下载.docx（29页珍藏版）》请在冰点文库上搜索。

旅游大数据平台方案Word文件下载.docx

2.数据挖掘与大数据分析科研平台总体规划

2・1科研平台规划

科研平台建设的基本原则是科研为主，同时为教学实验提供部分计算资源及安全资源，系统在授权范田内共享科研系统的计算资源，提高教学实验的真实性。

项目的总体架枸如图1所示。

大数据科研环境

图1•总体架构图

系统整体由千兆核心交换机作为核心节点•并以两个千兆接入交换机作为科研与实脸环境的交换节点。

科研环境由我司开发的商业Hadoop集群为基础，上层集成便于操作的大数扌居科研应用系统，集成10TB大数据案例集及可扌色拽的数据算法和可视化算法。

2.2科研平台功能规划

本科研平台针对数据挖掘有大数携分析研究内容，兼硕科研与教学的需求，既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点。

1）大数据资源规划

内置商业级数据资源，按带见科研分类规划数据资源，可以直接用于科学研究*具有数扌居资源授权管控功能。

2）大數据分析功能规划

建设以商业版Hadoop为核心的大数据分析平台，系统提供MapReduce以及Spark等大数据挖捌功能。

系统具有完整的管理调度功能。

3）硬件资源功能规划

系统具有24个IntelXconE5CPU计算能力，提供超过40TB的存储能力以及1T以上的内存•可满足1000任务共时计算内能，方便扩克。

3.数据挖掘与大数据分析科研平台建设方案

3.1大数据科研平台设备架构

3.1.1主节点和备份主节点

主节点负责整个分布式大数据平台的运行。

主节点始终在内存中保存整个文件系统的目录结构，每个目录有哪些文件，每个文件有哪些分块及每个分块保存在哪个计算上，用于处理读写请求。

同时，主节点还负责将作业分解成子任务*并将这些子任务分配到各个计算节点上。

备份主节点在主节点发生故障时承担主节点的各种任务，使得分布式大数据平台仍然能够正當运行。

3.1.2管理节点

管理节点用于管理整个分布式大数据平台，可进行节点安装、配置、服务配置等，提供网页窗口界面提高了系统配置的可见度*而且降低了集群参数设置的复杂度。

3.1.3接口节点

终端用户通过接口节点连接和使用分布式大数锯平台，提交任务并获得结果，并可以用其他数据分析工具做逬一步处理，与外界进行数据交互（如连接关系型数据库）。

3.1.4计算节点

分布式大数据平台包含了多个计算节点•计算节点是系统中真正存储数据和做数据运算的节点。

每个计算节点周期性地和主节点通信，还吋不时和客户端代码以及其他计算节点通信。

计算节点还维护一个开放的socket服务器，让客户端代码和其他计算节点通过它可以读写数据，这个服务器还会汇报给主节点。

3・2大数据科研平台底层架构

大数据科研平台低层架构以我司自主研发的商业版IIadoop为基础架构»

包含和大数据分析、数据挖掘、机器学习尊功能模块，并以HDFS以及Hbase作为存储基础。

任务执行调度接口1（Shell）

数据交互接口（JDBC,ODBC）

|统计建模

L（R）J

批处理（MapReduce,Pig）

交互式SQL引擎（Hive）

机器学习算法库）[内存计算

（Mahout）（Spark）

分布式资源调度管理（YARN）

厂

分布式存储（Sentry）

分布式持久化数据存储

（HDFS）*

分布式实时数据库（Hbase）

偿理监控（HonyaES-data）

图2.软件架枸

3.2.1分布式持久化数据存储一一HDFS

Hadoop分布式文件系统（HDFS）被设计成适合运行在通用硬件上的分布式文件系统。

它和现有的分布式文件系统有很多共同点。

但同时，它和其他的分布式文件系统的区别也是很明显的HIDFS是一个高度容错性的系统，适合部罟在廉价的机器上。

HDFS能提供高呑吐量的数据访问，非常适合大观模数据集上的应用。

HDFS放宽了一部分P0SIX约束，来实现流式读取文件系统数据的目的。

3.2.2分布式实时数据库——HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于FayChang所撰写的Google论文“Bigtable:

—个结构化数据的分布式存储系统”。

就像Bigtable利用了Google文件系统（所提供的分布式数据存储一样，IIBase在Hadoop之上提供了类似于BigTable的能力。

IlBase是Apache的lladoop项目的子项目。

HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

另一个不同的是HBase基于列的而不是基于行的模式。

3.2・3分布式资源调度管理一一YARN

Yarn是Uadoop2.0的MapReduce框架。

YARN分层结构的本质是ResourceManager。

这个实体控制整个集群并管理应用程序向基础计算资源的分配。

ResourceManager将各个资源部分（计算、内存、带宽等）梢心安排给基础NodeManager（YARN的每节点、代理）。

ResourceManager逐与ApplicationMaster一趙分配资源，与NodeManager—起启动和监視它们的基础应用程序•在此上下文中*ApplicationMaster承担了以前的TaskTracker的一些角色，ResourceManager承担了JobTracker的角色。

3.2.4交互式SQL引擎一一Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。

其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

3.2.5内存计算一一Spark

Spark是UCBerkeleyAMP实脸室所开源的类HadoopMapReduce的通用的并行计算框架。

Spark拥有HadoopMapReduce所具有的优点；

但不同于MapReduce的是Job中间输出结果可以保存衣内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数扌居挖掘与机器学习等需要迭代的MapReduce算法。

3・3科研平台的功能

3.3.1科研项目管理

在科研平台中，科研计算是以计算项目来保存的，包括了计算项目建立、计算项目维护、计算项目设计、计算项目运行和结果可视化等几个坏节。

从技术角度来说，计算项目中也包括了算法组件、算法流程和数据集，一旦设计完后，就可用于计算，后期还可以调整算法和基于新的数据资源进行计算。

计算项目完成后，可以训练出算法模型，在新的计算项目中使用已经训练好的模型进行数据的预测，形成一次训练多次使用的算法实现。

3・3.2平台内置数据集

在科硏工作中•如何获取到海量高质量大数据说源是最大的难点C日前在互联网等渠道是很难找到科研工作所需的数据源，尤其是经过数据清洗和治理后的高质量数据。

数据超市平台利用以下模式，通过外部的资源，为高校的科研工作提供优质数据资源：

1）通过商务合作的模式，直接与数据所有权拥有者进行灵活的商务沟通，获得科研的数扌居使用授权；

2）邀请行业内优质的第三方数据服务提供商入驻数据超市平台；

3）通过数据采集的方式*经过数据寻源、采集、治理、清洗后，引入具有公开版权的数据资源；

所有引入数据都会经过数据工程师的严格审核，保证数据的清洁和质量，可以直接用于數据计算。

如平台内置的专利数据，包括了国内近2000万各类商业数据，并且不斷更新，可以直接用于旅游各方而的科学研究。

有别区目前行业提供的数据库，数扌居超市直接提供了原始的数据，可以打通其他的行业数据，用于深层次的数据分析和经济预测。

3.3.3科研数据上传

科研老师已有的数据可以上传到平台参与数据计算，老师可以在平台上建立数据表，然后把本地数据文件上传到数据表中。

也可以维护外部的JDBC数据源，平台会把外部数据自动抽取到平台中进行计算和预测。

3.3.4集成算法组件

为了便于科研老师快速进行科研数据的加工、分析和计算，数据超市平台集成了50多种通用大数据算法组件，包括回归算法、分类算法、聚类算法、关联规划算法、推荐算法、预测评估、数据预处理算法、机器学习等。

所有的算法无须重新编程，只需要拖拽绘图完成即可进行计算>

如下图：

字习

♦an分新

■文拿分析

■■络分折

可視化

算法组件经过配置可以实现强大的自定义计算功能和欢果•训扭后S模型可以完成老师需

要的数据分析和预测O

BK均值聚类曰K

曰Maxlter

InitMode

k-means||

@Tol

0.01

3.3.5科研平台可视化功能

数据分布图

提供20余种可视化展示模式，一键选择，一犍切換，可按使用者需求展示大数据之美，根据需要展示对应的纬度，并可以一键生成高质量PNG文件，保存到本地后可用于科研报告和论文等。

4.平台数据集清单

科研平台为方便用户快速开展科学研究、生成科研数扌居报告，平台提供了一些通用的数扌居集*包括各类标准科研数据等。

平台也内置了数百款可选数据集，分为多个数拆包，总量近10TB，并且随商务和采集工作推进，仍在不斷增加中。

5.定制数据服务

根据科研老师的需求，数据超市平台提供数据采集和商务合作等定制数据引入模式，数扌居引入后，可以直接引入数据超市，由老师来进行使用。

如老师需要旅游服务评价类数据进行服务情况的分析和预测，可以直接通过数扌居超市内的数据定制摸块提岀数据需求，经数据超市平台管理员汇总后，可以通过数据超市平台进行数据的准备，交给老师进行使用。

科研平台算法清单

平台集成的算法包括72种，全部来自科研网站，经过了商业机构的验证，引入平台后完成了分布式优化，可以高效执行*详细如下表：

序号

皐法分类

算法名称

算法榕逛

回归算法

线性回归

利周线性換型对欽值5?

变量进行拉合・

决策忖回归

利用平方课左il小化准时，追行特征选捋・生成二又狗•从而对对氨值童变量进行核合

隨*1森林回归

次回归从策树为基泉童•将一定敎量的虽銀型组合对变量执合・舁对娠慣型的預测果半均作为算法的最终怙杲

梯度提升回归树

以二又回归决棄树为躱函农的加法筷空为前向分步结合的篦法•通过对捋失由敎衣当林銀型的移测值的棉度作为辽似残左进行拟金•从而对做值型变量斤测・

分类算法

逻辑回扫二分类

对目标变*为二值里分类变衆，建立参软化逻辑渐谕分布•即sigmoid由做，迫似条件概率分布•以实規二值分典•

逻禅回扫多分类

逻辑回归参分类.k个独立的loRislic回扫分矣召

^onevsall结合的分矣模型，分矣对象奥别Z间不

赴互斥的

Soft»

x回归多分离

Softnax回归就是逻辑回牺的一叙形犬.址logistic回归換摆在&

分类何玛上的推广■分类对泉矣别是互斥的

决策阿分矣

利用仕念增益*则或屋尼扌8欽最小化*则•进行料征选择•生成二又期•从而对对目标走量为离飲变量的做据盪行分类

分典算法

隨就森林分矣

以分矣决策树为基镇里•将一定敎量的屋棋型组合对焉收型的目标变量扱金•并舉梶恳淇型的预测肚果迓行投票•以占&

铁馆果的伸矣作为算決的最烬结果

様度提升分矣树

以二又分类;

央策树为基由欽的加法模型与前向分步馆仝的算法•逋过对播失创毀程当帅棋型的硕测值的構度作为班似代左进行拟金•从而对分矣5!

目标变量預测。

BP神经网烙

以貞知23为屋函袞・通过将当前恳函餃的的綸出作为下一个威知欝的输入•从而实现对离收型分矣更量的分类

贝叶斯分类

竦于页叶斯定理与转征条件做立假代•对给宅魏梅集•学习输入綸岀的联合帆率分布・利用贝叶斯总理输出后滋飙率最大的横渕类作为預测结果

支持向*机分类

在巔知机的虽咄上•通过在特征空间上间隔最大和核技巧•实现对二矣目标变量分类

聚掘算法

K均值录具

将无标记样本战尿转征空何中的段梶结柯•划入R个不相交的子集中

聚类算法

二分K均值£

类

K均值聚类的改进版•能.克服原篦法收敘总部最小的从点•毎犬选其屮一扳分成网義•

2类算法

高斯混合惟型

对于符合高斯分布的欽摇假代存在K个高W«

•护篡据反夏迭代、期望极大化。

石样本聚列后验祖率迁大的模型矣下•

关联规则算

烦緊顼奧挖摊算法（FP-Growth）

主宴分为蹲个步ST：

FP-trcc构建•運M挖甩

FP-trec•lt«

岀共同岀现的频緊物品寰•

推荐算法

协同过酒算法

饬问过述是程海量敎捋中挖掘出累輿分与旦标#户行为矣似的做勰・畀槪捋某艸駱标对只建行抑序•

预测评估

分类预测尺讦估

分类篦法中，农已有讽练软据训练械5?

的虽础上・眉来讽练的敛堀代入算法中，预测结果与实际目标变量比对许仕•檢测模型的找能•

幘测评估

回扫幵测及坪估

回归算法中，在巳有讽练數据训练棋型的寒础上・将来训练的铁腿代入算法屮，ffi测结果与实际H标变量比对评仕•检测權5!

的找能•

聚类廉测民讦估

聚矣算法中•农已有W«

tt48训练權5J的虽础上・

符未调练的敛据代入算法中，预测结果与实际敘捋

矣型比对许怙*检测摸5!

的性能•

預测理仕

推荐I■決屮•A已片饲练做掘训练棋型的虽础上•桁未调练的数锯代入箕法中•预测怯果与物品矣目比对评估，桧测棋理的性紇。

数据復处玫

归一化

将有量纲的敎堀转化为尢童纲的釵攥>

min-«

x悻

准化

Join-两衣关职

矣似sqljoin60功紀，帝两张农通过一个字检对或者&

个半股对的相菲关系关联合成一张表

数据横处理

类世转棲（string类理转换袞值类型）

眉不同敎据的典型按窝要进行转换

Union

对不同釵据集取畀集

铁据掩处理

标准化/正则化

标浪化爱将铁据埔放钊一个g间范田内•如正态分布•小魏定标・逆辑斯裙分布•正财化是利用丸恋知识•对楼理增加约隶，防止过拉合。

缺失值填克

对钱梶屮累顼做值衙对应的某些悴本缺失，逋过累艸丸总假仗•战舄样*具他已如IU■瑚对燄矢值拉金预测•

数据预处理

拆分

按黒比例拆分样本集>

如役菱0.6•切分成60:

40两个样本褰。

隨就来样

当tUS量it大或.棋5!

饲练批容量有限时•随机采収一定量/比倒的样本鄒•

tt据笊处理

增加序列号

在tt据表第一列迫加［［）列・

Select

It格库叠询操作，壹询某限定条件下的样本

SelectDistinct

欽捋应it询撫作，鱼询其隈定条件下畀过沌却重

E的样本

数据环处理

Select.lhere

询操作•直询指定条件下的样本

Select_And_Or

欽将库査询操作，壹询条件的交褰与并集

数据廉处理

Select_OrderBy

做将库壹询操作，査均结果扶某指标樣序

it攥復处灶

Sclect_Li«

牧将怎直询操作•佥均某隈定段的越据

铁据復处丘

Sclect_Likc

fc询操作•畳均包含轴龙字尺的4UE

特征工觀

主成分分析

软梅降维去唏常用方法・对数据的诲方差矩阵耿询K个最大方左方向作为斯的魏捋方向。

料征工怨

Onehot编玛

用尸筋料征值追行二元编码映射成二元向量•畀与数值向量遽行拼援

特征工权

特征尺厦变换

由于计篦需要戎眾提数据轻点将某特征对应软捋项迓行缩放，不改变样本间诚数值顼的相对大小

WU-Ttt

分析

ihIftMSft.4¥

篥&

顼肖征也M決帳型中对U悴交量的相对重姜収度的分析•从而提岀冗余特征•关注

重妥料征•提高算法犠型的效丰准越性

特征工程

特征禹散

对连续型特征扶某方法转検为离敢型变量

文本分析

Spiitlord

分布式jicba分列接口，屋于Trie实現高

效的词•生成句子屮汉字所有可能成问悄况所佝成的有向无坏图（DAG）；

采用了动态«

LMfcA最大概率路径.找岀思于词频的最大切分组合：

对于来登录诃，采用了躱于汉字成何能力的槪型•使周了Viterbi算決

文档左疤生成橫型（LDA）

LDA（LatentDirichletallocation）•是一种左玛僅嗨•它可以苻文档集中每筑文档的主题按照概串分布的影戎给出•同时它是一神丸监好学习算法・虑训练时不需娶牛工标注的训练鼻•需雯的仅仅是文忖鼻以及指定左超的软量k即可•LDA酋先由DavidM.Blei*AndrewY.Nr和Michael1.Jordan于20034-提出，H前恵文本挖也鎭域包括文本主<

5识别•文本分真以及文本啊似度计負方面祁芳应用•

TF特征

屛文本文档的集合转援为词频计徽的向量・

HashingTF44征

使用tt列技巧禅一系列词语映射到其饲频的向量•HasliinRTF的过收粒走对毎一个词作了一次哈蜡外对料征维铁取余得刘体阿的位置•热后按熙ii词岀現的次魏计次•所以純不用偉传饯.方法一样每次维护一张词表，运用HashingTF就可以方便的得钊谨诃所对应向*元素的位覺「当热这样做的代价紐爱向量维啟会非會丸•好徃spark可以支捋《确向量•所以计箕开備并不丸•

TF-IDF44U

TF-1DF（termfrequency-inversedocumentfrequency）是一和用千窃is.桧*与支本挖握的代用加权技术oTF・II）F是一卄统计方法•用以iffi-字词对干一个文件"

我一个涪料虜中的具中一份文件的重姜収2字词的重要性随着它在文件中岀現的次敎成正比增加・但冋时令随着它程语斡障申出现的烦率扳反比下斤•TF-IDF加权的&

种彫氏供被搜索引罕应用•作为文件与用户支询乙间相关程度的度量或.评级*

字符串相似度

一个字好串转换成另卄一个字符串的代价，转挟妁代价越高则悅叨两个字符申的村似度越低“

停用诃过⑥

针对X«

tt据■前包含的轻定词汇过沌艸•不计入统计魏据中

Word2Vec

Iord2Vec是一种著名的均嵌入（FordEmbedding）方決•它可以计算&

个单诃4其给定诰料專坏境下的分布式词向量（Distribut

展开阅读全文