格力大数据项目工作说明书Word格式.docx

资源描述

格力大数据项目工作说明书Word格式.docx

《格力大数据项目工作说明书Word格式.docx》由会员分享，可在线阅读，更多相关《格力大数据项目工作说明书Word格式.docx（15页珍藏版）》请在冰点文库上搜索。

格力大数据项目工作说明书Word格式.docx

5 费用支付 9

6 需求变更过程 9

6.1 变更依据 9

6.2 变更请求处理流程 9

7 双方责任 10

8 项目组织架构 12

9 假定条件 12

1项目目标

在珠海格力电器股份有限公司的范围内，分期实现格力工业大数据平台项目的数据集成、连接、处理、分析、挖掘等相关功能。

本期项目包括设计、搭建大数据平台，接入商技一部、商技二部、计算机中心的销售订单等相关数据，实现设备故障诊断、故障预测、产品统计、实时查询、营销支持、智能搜索等功能。

故障诊断的业务目标：

大数据平台处理、分析商用空调运行时采集回传的工况数据，及时、准确定位运行故障并给出大致原因，为维护部门维修空调设备和系统提供信息支撑，降低故障定位的时间、范围和工作量，缩短停机时长并提高客户满意度、忠诚度。

故障预测的业务目标：

大数据平台利用数据挖掘、机器学习技术，通过学习业已存在的设备故障数据、信息，尤其是发生故障的前兆数据，归纳故障发生的特点、规律知识，并利用流计算相关技术及时发现潜在的故障及风险，及时预警，减少停机的次数及停机时长。

另外发现停机模式、规律可以进一步应用到产品设计、改进过程中。

产品统计的业务目标：

大数据平台利用集成的产品及销售数据进行统计分析，用于分析产品的销售情况，客户情况，销售规律、特点及变化趋势，用于指导产品的个性化设计及产品的推广销售。

实时查询的业务目标：

大数据平台利用NewSQL存储技术存放设备数据，提供特定编号设备、一段时间内工况信息的实时查询功能，用于业务人员分析、判断特定设备在查询时间范围内的工作状态，总结、发现业务规律。

营销支持的业务目标：

大数据平台利用集成的产品及销售数据进行分析，发现其中先后、重复购买及交叉购买情况和规律，提醒、推荐客户购买特定的产品和服务，提高产品和服务的销量。

智能搜索的业务目标：

大数据平台提供通过语音输入完成产品及销售数据的查询、统计及分析的功能。

2建设及服务内容

以下所有内容基于1月19日版本的需求文档。

详见《格力大数据需求说明1.0》文档，建设内容为基于Hadoop生态系统构建大数据平台，内容包括商用空调、家用空调、销售等历史数据的入库，ETL处理，数据仓库、离线计算、内存计算、实时计算、即席查询、可视化展示等内容。

具体内容如下：

2.1需求调研及数据标准化

包括功能商技一部、商技二部、销售、审计部门的需求调研、数据调研以及数据标准化。

2.2大数据基础平台搭建

基于Hadoop搭建大数据平台，包括HDFS、MapReduce、HBase、Hive、Spark，MySql集群。

使用HDFS存储原始数据，供离线分析挖掘；

使用Spark/MapReduce执行离线任务；

使用HBase做实时查询；

使用Hive/SparkSQL做数据仓库；

使用MySql集群存储分析结果书，供上层应用查询。

2.3数据采集

大数据采集包括非结构化数据、结构化数据的采集，非结构化数据采用FlumeNG采集，Oracle/SQLServer/MySQL关系数据库中的结构化数据采用Sqoop收集。

此外还有实时流数据采用分布式消息队列采集。

Flume收集非结构化数据，Flume是一个高可用的，高可靠的，分布式的海量数据采集、聚合和传输的系统，Flume支持定制各类数据发送方，用于收集数据；

同时，Flume提供对数据进行简单处理，并写入到HDFS中。

Sqoop收集结构化数据，Sqoop（发音：

skup），主要用于在Hadoop（Hive）与传统的数据库（mysql、postgresql...）间进行数据的传递，可以将一个关系型数据库（例如：

MySQL,Oracle,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Sqoop，类似于其他ETL工具，使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。

Sqoop专为大数据批量传输设计，能够分割数据集并创建Hadoop任务来处理每个区块。

实时数据处理，通过采集层数据通过消息队列组件Kafka接入到SparkStreaming里，SparkStreaming实时处理后把结果存到Hbase或Mysql等关系数据库中供用户查询。

2.4分层存储设计

通过将给定文件、数据集或应用程序的必需数据特征对数据进行分层存储设计，满足不同的应用场景。

提供数据利用率与使用效率。

将常用数据存储在高速设备上，而不太常用的数据存储在低速设备上。

在宏观上，数据可以在不同的设备之间进行数据复制迁移，分层保存。

2.5数据加工处理

对数据进行分析和加工。

包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。

经过加工清洗后的数据根据不同的数据类型，选择不同数据存储方式，可以存入HDFS供离线挖掘，或者存储到实时性高的MPP数据库进行统计分析。

2.6数据分析挖掘

大数据分析系统以机器学习、数据挖掘等作为核心技术，构建于大数据管理系统和云计算平台之上。

其中，大数据管理系统提供数据的存储与查询功能，云计算平台提供分布式并行计算服务。

通过分布式计算与统计分析服务器访问大数据系统，实现KPI与报表统计分析服务。

采用SparkMLlib做为数据挖掘和机器学习框架，MLlib是Spark的标准机器学习框架，MLlib相对于其他机器学习库包具有更加优异的性能或者更容易入门。

MLlib机器学习库具有完整的机器学习框架和各类别机器学习算法，满足各种场合的需求。

Mllib随着Spark版本一起发布和应用。

本系统采用MLlib构建在Hadoop之上对大数据进行挖掘处理，实现故障诊断、故障预测、配件库存优化等深度挖掘。

2.7内存数据库

内存数据库是将全部数据驻留内存的分析型数据库系统，采用内存计算技术，从根本上解决了数据仓库由于磁盘I/O导致的性能瓶颈问题，具有性能高、成本低、灵活、可扩展等众多优良特性，尤其适合做为大数据的计算引擎、分析引擎使用。

把热点数据加载到内存数据库中，提供交互式探查分析、智能查询分析等功能。

2.8交互式探查分析

基于内存数据库快速查询，使用明细数据，免去清洗、聚合过程，更快速地分析和揭露数据中蕴含的问题,直接由业务人员使用，免去提需求、澄清、确认沟通环节，快速实现分析意图，提高了发现和解决问题的效率使用时可由全部数据快速过滤出关注的部分数据进行分析；

关注数据的特征可进一步由明细数据刻画、佐证；

可按需保存分析场景、导出明细数据付诸解决。

优异的用户体验，以客户体验为中心设计，侧重易理解（业务视角，选择、过滤、分析）、易用（平铺、图形操作）、去除干扰（功能隐藏）、快速响应（内存计算）、增加趣味性（改分档数）。

2.9数据可视化应用

提供通过实时查询、产品统计功能，不做个性化推送。

2.10语音智能分析

大数据平台提供语言智能分析，通过录入语言，将语言转换为文本，并对文本进行分词和语义分析，提交到大数据平台完成产品产品及销售数据的查询、统计及分析的功能。

2.11文本、视频、图片存储

大数据平台增加文本、音视频、图片等非结构化数据的存储。

2.12大数据平台运维监控

提供格力大数据平台管理、运维工具及说明，包括服务器和运维系统都正常运行，运维系统可以对集群所有物理机进行性能监控，包括但不限于以下指标：

CPU使用率、内存使用率、硬盘利用率、网络流量、IO负载、系统负载均值、ETL监控、数据质量监控、等服务器性能指标进行监控。

运维要考虑大数据平台的可扩展性，支持：

1、在线添加节点

2、服务扩展

3、组件的升级

4、异常处理：

挂了的节点如何恢复，记录日志方便追踪

2.13大数据平台任务调度

任务调度系统能够对各类任务进行配置、启动、跟踪。

同时，应并具备任务联动能力，即可以将多个任务通过流程组装成一个联合任务，各任务之间存在相互制约关系，任务调度管理能够根据各任务的执行状态、结果来自动的启动后续任务，任务间允许并发及串行两种模式。

要求各任务的配置应当为可视化的配置。

对于任务启动至少包括定时启动和条件启动两种模式。

同时允许管理员进行任务的手动执行。

任务执行可设定优先级，比如按销售>

技术>

质量>

售后（销售量大的>

销售量小的>

生产

检验来设定。

2.14ETL过程可视化

ETL尽量满足可配置性及可视化操作，如果甲方购买了第三方ETL可视化工具如kettle、Dataflow、Syncsoft等工具，乙方应支持甲方做集成工作。

2.15培训工作

从格力大数据平台未来的使用及运行来看，北京西塔提供的培训将达到如下的目标：

完成知识的转移

承建单位开发完成一个软件系统后，将通过培训工作实现知识的转移，不仅包括软件系统的使用方法，同样还包括业务理念、系统运行维护方法、技术开发方法等满足系统未来业务拓展需要的各项技能与方法。

实现全员的应用

应用系统的建设目标即要建设一个全员参与使用的系统，因此培训的目标之一，也是要使业务人员均可以熟练使用该系统，增强业务人员的知识储备，提高整个使用应用系统的业务人员素质。

保障系统的安全运行

对格力大数据平台的技术管理人员进行技术培训，使其能掌握有关软件产品及系统的使用、维护、管理，达到能独立进行管理、故障处理、日常测试维护、个性化应用开发等工作目的，以保障北京西塔所提供的应用系统能够正常、安全地运行。

通过以上培训使用户系统管理员能够独立完成平台的设置、管理、故障恢复、应急处理等，能够进行日常的数据库备份及恢复操作、能够独立处理常见突发事件及操作员提出的常见操作问题。

3建设方案

详见《格力大数据项目技术方案.docx》。

4时间进度与里程碑

格力工业大数据平台建设。

项目工期要求：

总工期10个月分3个阶段：

里程碑

阶段性成果与提交物

时间（月）

付款

1.项目签约

人员进场

30%

2.、基础平台搭建&

业务模型设计

数据调研报告、

数据标准化文档

需求规格说明书

功能设计说明书

20%

3.业务需求开发

ETL、业务模型开发、

大数据服务接口开发、

大数据标准可视化系统开发、

MPP内存数据库、

交互式探查分析、

智能语音搜索

4.大数据管理系统

大数据运维监控系统

大数据任务管理系统

大数据安全管理系统

10%

5.项目终验

产品配置说明

应用系统部署架构说明

平台监控、维护说明

5费用支付

以合同为准。

6需求变更过程

6.1变更依据

1.变更请求

除特殊紧急情况，只处理书面变更请求。

2.变更标准

当工作说明书中建设内容所说明的工作项因某种原因（如实际业务变更、可实现性变更等）发生增加、减少或变更时，认为变更发生。

3.变更申请样式

详见《需求变更申请表.docx》。

6.2变更请求处理流程

客户项目经理将书面变更请求提交项目经理

项目经理与技术经理或软件架构师研究可行性

项目经理将研究结果与变更请求一同提交项目控制委员会审批

控制委员会将审批结果提交所有相关人

若审批通过，项目经理

n将变更请求提交项目团队执行

n相应修改项目管理计划以便后续跟踪

7双方责任

甲方：

珠海格力电器股份有限公司

乙方：

甲方责任

l自合同签定后，成立项目领导协调小组并委派高层经理参与项目委员会，协调解决实施过程中的各种问题；

n共同审核批准项目实施计划；

n共同进行项目实施过程中的重大事件的决策；

n共同根据项目过程中的进度、质量、技术、资源、风险等实行宏观监控；

n帮助协调项目组织中甲方相关方的工作关系

l自合同签订后，委派项目经理或协调人

n在项目的各个阶段，包括需求调研、系统开发、系统实施、验收测试用例制定、验收测试、合同收尾与上线后支持等，协调项目组织中甲方或其它相关方的工作关系，包括相关的业务人员、技术人员等

n有责任根据双方确认的实施进度提供必要的工作环境和工作支持，及时应乙方的要求向乙方提供实施过程中所需的各种资料和数据、配合乙方人员的工作

l在项目的各个阶段乙方提交评审请求后，包括需求、设计、验收测试用例与验收报告，甲方有责任在2个工作日内提供反馈确认

l在项目实施过程中，能及时应乙方的通知组织有关人员参与测试与培训工作。

l甲方需提供给乙方一个20人的办公场所，以及宿舍、出入证。

l甲方需要参与项目开发维护人员需要具备以下条件：

开发人员：

熟悉java或scala语言，具有一定的软件开发、设计经验。

运维人员：

深入理解linux系统，运维体系结构，精于容量规划、架构设计、性能优化；

精通一门以上脚本语言（shellperlpython等）；

熟悉 Hadoop大数据生态圈，包括HDFS、YARN、Hive、HBase、Spark 等

使用人员：

有一定的计算机知识，能熟练使用SQL语言以及浏览器。

乙方责任

l乙方承诺所提供的大数据相关软件具有自主知识产权，不侵犯任何第三者的合法权益。

l负责甲方项目实施范围内的开发与实施工作

n委派项目经理

u根据项目进展及工作范围要求整合工作计划，并监督实施，控制进度；

u协调项目组内人员的分工合作，资源分配；

u向双方汇报项目状况，提出建议及改进措施；

u负责用户需求汇总和分析；

u与用户进行有效的沟通协调

u负责需求管理、需求变更管理、质量管理、进度管理、成本管理和风险管理

n委派技术经理

u参与系统总体设计；

u指导并参与开发团队工作任务，包括开发、实施与上线支持

u协助项目经理完成需求管理、需求变更管理、质量管理和进度管理

n委派软件架构师

u负责系统总体设计

n委派开发团队

u负责系统开发、实施与上线支持

l应妥善保管与正当使用甲方交付的技术资料、设备设施。

l应及时交付包括源代码在内的工作成果，并交还相应的技术资料及设备。

l乙方有责任在项目的各个阶段通过电子邮件方式提交评审请求，包括需求、设计、验收测试用例与验收报告

l乙方将通过知识转移对合作伙伴和甲方进行培训

l乙方应对甲方的数据、设备、项目相关资料进行保密

8项目组织架构

项目建设过程中的人员配置和管理是影响项目好坏和成败的重要因素。

在项目目标和内容确定之后，如何组织、如何实施、如何管理，这都将对能否顺利进行，工程的质量能否达标起到至关重要的作用。

为保证格力大数据项目的顺利实施，建议建设方和承建方一起组建适于本项工程实施和管理的人员配置方案。

项目的组织架构如下图所示。

说明：

项目委员会，由用户与供应商双方的高级代表组成；

项目经理对项目委员会负责，定期检查项目情况并在必要时向上汇报；

项目人员包含硬件集成、需求调研、软件设计、软件开发测试等人员；

9假定条件

提需求的各业务部门能够提供WebService、JavaAPI、XML或者数据库接口，作为大数据平台的数据源。

需要对接的系统原厂商或甲方相关技术人员能够及时有效提供支持。

签名

日期

展开阅读全文