《Hadoop》数据分析系统.docx

资源描述

《Hadoop》数据分析系统.docx

《《Hadoop》数据分析系统.docx》由会员分享，可在线阅读，更多相关《《Hadoop》数据分析系统.docx（37页珍藏版）》请在冰点文库上搜索。

《Hadoop》数据分析系统.docx

《Hadoop》数据分析系统

《Hadoop大数据技术》课程设计报告

设计题目：

基于Hive的销售数据分析系统

计算机与数据科学学院

2019年12月17日

1系统分析

1.1开发目的

随着计算机技术以及互联网的快速发展特别是网络的普及，金融、通信等大众行业对信息的需求越来越高，待处理的数据量也越来越大。

与此同时，人们对复杂查询操作能力的需求以及高性能联机事务处理能力也在不断提高,分析核心数据成为了公司发展的关键点，但是公司内部的核心数据原始文件庞大，目前大部分是通过人工分析得出结论，因此分析处理海量数据成为待解决的问题。

由于公司内部的许多核心数据是必须要产生并且加以分析的，而众多的公司系统则对产生和分析数据造成了相当大的困难，一方面，大规模的数据需要强大的运算能力才能够加以分析，传统的单机处理已经不能够满足当前业务发展的需求，另一方面，众多的业务系统，使得众多数据的处理和分析更加困难，公司内部存在着手工分析分布式系统数据结果的现状不能够得到改善，工作效率严重受到影响。

因此，企业迫切的需要一个可以大规模集中处理和分析展现数据的系统模式，统筹规划庞大的数据，实现高效处理。

解决问题：

此设计使用Hadoop的相关技术和HDFS文件系统，分析京东的需求，将海量原始数据通过Windows下的Mysql和LinuxMysql转换成HDFS数据，通过Hive进行大数据操作，筛选出对分析有价值有用的信息，并对获得的这些数据进行可视化，可视化通过交互式视觉表现的方式来帮助企业探索和理解复杂的数据。

可视化与可视分析能够迅速和有效地简化与提炼数据流，有助于使用者更快更好地从复杂数据中得到新的发现，成为用户了解复杂数据、开展深入分析不可或缺的手段。

1.2开发语言

表1.1开发语言

开发语言

编程语言

Java、JavaScript

文本标记语言

HTML

数据库语言

MysqlSQL

HiveQL

1.3开发环境

表1.2开发环境

开发环境

操作系统

Windows10x64

LinuxUbuntu

开发工具

EclipseJeeOxygen

Hadoop平台

数据库

MySQL5.5

Hive1.1.6

可视化

HTML

Echarts

浏览器

谷歌浏览器

文件管理系统

HDFS

2功能分析

2.1数据处理

数据处理把数据转换成便于观察分析、传送或进一步处理的形式。

以便从大量的原始数据中抽取部分数据，推导出对人们有价值的信息以作为行动和决策的依据。

利用计算机科学地保存和管理经过处理（如校验、整理等）的大量数据，以便人们能方便而充分地利用这些宝贵的信息资源。

图2.1数据处理流程图

2.2数据可视化

图2.2可视化总体框架

2.2.1数据信息

图2.3数据分析模块

2.2.2会员占比

图2.4会员占比模块

2.2.3京东销售数据总计

图2.5京东销售数据总计模块

2.2.4平台分类

图2.6平台分类模块

2.2.5用户印象

图2.7用户印象模块

2.2.6印象榜TOP5

图2.8印象榜模块

3实现技术

在本次的系统中主要用到了Eclipse、MySQL、Hive等软件。

用Sqoop传输数据；用JavaAPI连接数据库；用Eclipse写Java代码，操作Hive数据库，导出数据；用获得的数据，利用Echarts平台进行展示数据可视化。