大数据分析系统需求.docx

上传人:b****3 文档编号:10401672 上传时间:2023-05-25 格式:DOCX 页数:19 大小:20.81KB
下载 相关 举报
大数据分析系统需求.docx_第1页
第1页 / 共19页
大数据分析系统需求.docx_第2页
第2页 / 共19页
大数据分析系统需求.docx_第3页
第3页 / 共19页
大数据分析系统需求.docx_第4页
第4页 / 共19页
大数据分析系统需求.docx_第5页
第5页 / 共19页
大数据分析系统需求.docx_第6页
第6页 / 共19页
大数据分析系统需求.docx_第7页
第7页 / 共19页
大数据分析系统需求.docx_第8页
第8页 / 共19页
大数据分析系统需求.docx_第9页
第9页 / 共19页
大数据分析系统需求.docx_第10页
第10页 / 共19页
大数据分析系统需求.docx_第11页
第11页 / 共19页
大数据分析系统需求.docx_第12页
第12页 / 共19页
大数据分析系统需求.docx_第13页
第13页 / 共19页
大数据分析系统需求.docx_第14页
第14页 / 共19页
大数据分析系统需求.docx_第15页
第15页 / 共19页
大数据分析系统需求.docx_第16页
第16页 / 共19页
大数据分析系统需求.docx_第17页
第17页 / 共19页
大数据分析系统需求.docx_第18页
第18页 / 共19页
大数据分析系统需求.docx_第19页
第19页 / 共19页
亲,该文档总共19页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

大数据分析系统需求.docx

《大数据分析系统需求.docx》由会员分享,可在线阅读,更多相关《大数据分析系统需求.docx(19页珍藏版)》请在冰点文库上搜索。

大数据分析系统需求.docx

大数据分析系统需求

 

大数据分析系统需求

 

天津绍闻迪康科技咨询有限公司

 

2018/5/28

 

仅为需求基本框架,需要根据贵公司产品、技术路线具体面议。

 

一、系统定位.........................................................................................

2

二、功能模块.........................................................................................

3

2.1

爬虫系统...........................................................................................

3

2.1.1

数据源......................................................................................

3

2.1.2

爬虫系统功能..........................................................................

3

2.2

数据处理、存储、计算系统

............................................................4

2.2.1

数据处理模块..........................................................................

4

2.2.2

数据存储模块..........................................................................

4

2.2.3

数据计算模块..........................................................................

5

2.3

数据分析、可视化系统....................................................................

9

2.4

对外接口.........................................................................................

10

2.4.1

会员制体系............................................................................

10

2.4.2

其他........................................................................................

10

2.5

其他

.................................................................................................

11

2.5.1

数据痕迹................................................................................

11

2.5.2

信息安全................................................................................

11

2.5.3

注意事项................................................................................

11

 

1、系统定位

 

从数据接入到数据应用,我们需要【大数据分析系统】包括几大功能模块:

 

(1)爬虫系统

 

(2)数据处理、存储、计算系统

 

(3)数据人工智能分析、可视化系统

 

(4)外部接口

 

其中第(3)模块是核心,需要结合我们公司业务方向建设相关的数学模型,进行人工智能的自动分析。

 

爬虫系统可以从指定网站自动的进行信息的抓取,对数据库中的已有词条进行更新或新建,或者从全站按照关键词抓取信

 

息,更新数据库中词条,爬虫搜集到的数据也需要存储到系统中。

 

数据库系统可以将公司现有资料分库录入系统,生成词条,词条之间相互关联,可以实现跳转,可视化查看;存储爬虫得到的数据。

数据库中的词条或者数据源大多是国外的,例如美国,日本等,涉及到的人物或者其它词条会有多种语言的表达。

 

系统可以结合爬虫的数据、库中本来的数据按照一定内容生成词条自身的时间轴,多库之间词条的的关系图。

系统需要与外部互联的接口,包括微信平台,天蝎系统,邮件营销平台,调查问卷分析平台。

 

2、功能模块

 

2.1爬虫系统

 

2.1.1数据源

 

1)网站,可能是信息变化不大的静态网站,也可能是信息

 

在实时更新的动态网站,例如博客或者论坛。

网站库不定时更新。

 

2)数据库,需要模拟登陆,从一些数据库中抓取数据,例如论文或者专利数据库等,可能是从国内或者国外的数据库网站中。

 

3)自媒体,例如Facebook,twitter等,需要从中抓取一

 

些个人信息,例如一个人的邮箱,可能需要与公司已有的天蝎系

 

统结合,从天蝎系统已经分析出的个人信息Excel中抓取所需信

 

息。

(可具体商议)

 

2.1.2爬虫系统功能

 

1)爬虫系统需要从指定数据源网站中实时抓取信息,通过

 

实体抽取,和数据库中的词条进行关联,自动更新数据库中已有

 

的词条。

 

2)可以设定关键词,从全站以及所有数据源中抓取信息,

 

进行数据处理后,按照词条准确匹配,存入数据库;

 

3)可以按照用户指定的关键词在指定的网站中抓取信息,

 

生成结果。

 

4)爬虫得到的信息生成的报告等可以进行导出。

 

数据处理在更新或增加词条时需要将抓取到的信息与词条

 

中的属性进行匹配,将对应的信息录入。

可以是实时更新,自动

 

匹配更新;可以是非实时的,有一定的人工干预。

由于库中数据

 

有一大部分是国外的,有一些属性的显示方式并不唯一,需要有

 

一定的匹配规则。

 

2.2数据处理、存储、计算系统

 

2.2.1数据处理模块

 

系统需要可以对导入系统的文档等数据和爬虫得到的数据进

 

行数据的预处理,进行分词切词,实体抽取(可能为中英日文)。

 

需要可以自动增加新词条,对比现有词条实现词条的实时更新;

 

或者也可以非实时更新可以有一定的人工干预,进行词条的半自

 

动化增长。

处理过程需要考虑处理的规则和词条匹配的规则。

 

2.2.2数据存储模块

 

存储在数据库中的数据分为几部分:

 

1)结构化数据

 

分词条存储在数据库中,词条分为:

调研人物库,专

 

家库,论文库,专利库,领域库,专题库,快讯库。

 

还需要存储词条的一些非业务属性:

词条的负责人,

 

参与人,时间周期,存储词条本身的时间轴,上传的

 

联系痕迹等。

 

2)非结构化存储

 

爬虫来的网页,文档(PDF、Word、Excel、PPT、图

 

片、视频)图片,视频。

 

2.2.3数据计算模块

 

数据库系统含有以下词条库:

 

(1)调研人物库:

生成人物简历,信息包括:

 

照片,姓名。

 

基本信息:

单位,语言,国别,生日,所在地,曾住地。

 

联系方式:

电话传真邮箱即时通讯方式教育经历:

时间学习单位专业学历/学位工作经历:

时间工作单位职位备注

 

官方网站:

官方人物数据库社会人物数据库

 

学术情况:

研究领域论文情况:

包括引用次数的表格和具体论文。

专利情况编写书籍参与会议表格所受奖励表格合作项目:

次数跨度涉及单位具体合作事件

 

社会活动:

媒体采访政治活动来华交流国内外自媒体:

在国外社交网站上的交友列表

 

人脉关系:

总结(共多少人等)姓名、职位的表格家庭情

 

 

调研总结及合作建议:

调研总结合作建议

 

原始信息来源网站

 

原始文档

 

(2)专家库:

生成专家简历,包括:

 

照片,姓名

 

基本信息:

国籍出生年月出生地语言种族

 

联系方式:

电话邮箱

 

教育情况

 

工作情况

 

合作情况

 

所属学会、协会或团体

 

其他信息:

研究领域获奖头衔

 

原始文档

 

(3)领域库:

有一定的分类,信息包括:

 

从事研究相关领域的人员信息:

包括姓名,所在地,毕业院校,单位等

 

从事相关行业的公司、机构信息:

分国别进行公司介绍包括:

 

名称,类型,地址,联系方式等

 

本领域的研究成果等

 

领域相关的会议,事件等信息:

会议举办时间,主要参与人

 

员,地点,名称。

 

领域相关论文资料:

论文名称,发表日期,作者等。

 

领域相关:

专题报告,名称,原始文件

 

(4)专利库:

信息包括:

 

专利名称

 

专利申请时间,国别

 

专利相关领域,

 

专利涉及单位或学校

 

专利涉及人员

 

(5)论文库:

信息包括:

 

论文题目,作者,国别

 

所属领域

 

发表时间

 

论文原文

 

(6)专题库:

将之前写过的专题报告做整理,信息包括:

 

题目,

 

提交时间,

 

具体报告:

可以查看。

 

(7)快讯库:

之前写过的快讯导入,或者手动添加,内容

 

为:

 

快讯标题,

 

添加时间,

 

领域,

 

具体内容,原始文档。

 

系统本身包含以上几种词条库,库中数据实现可视化查看:

 

1)以上数据首先需要从公司已有的文档中导入,自动匹配

 

词条的属性,生成词条的可视化列表,其中词条的每一个属性作

 

为一个标签,用户可以自己勾选需要的属性,自定义在页面中显

 

示。

 

2)需要针对不同的国别对词条设置待遇、晋升机制的参考

 

值:

针对不同国家公务员,科研机构,高等院校有不同的待遇参

 

考标准,需要在录入词条时能够人工选择,可以进行可视化对比。

 

3)库中数据可以进行导入导出。

 

4)数据库中每一个词条都要有相应的负责人,参与人,每

 

一个词条都要有相应的创建更新时间和修改、更新浏览痕迹以及

 

修改内容。

对于一些词条,员工可以上传关于此词条的联系痕迹,

 

比如,专家库中,员工可以上传一些和这个专家的联系记录。

 

统可以统计每个员工使用了多少词条,进行可视化查看。

 

系统中的存储数据主要包括结构化数据:

词条数据;非结构

 

化数据:

爬虫系统爬取的或者第三方导入的网页、文档(PDF、

 

Word、Excel、PPT、图片、视频)等。

 

2.3数据分析、可视化系统

 

系统需要能够进行关联分析,生成可视化列表,主要功能为:

 

1.库中结构化数据本身要进行关联分析,不同库中的词条会

 

有属性能够进行相互关联,点击一个库中某一词条的相关属性可

 

以进行跳转到另一库中的相关词条中。

 

2.可以根据一个关键词,从已有数据库全部词条库、库中存储的非结构化数据(爬虫数据等)中提取出来,形成关系图。

如人

 

物关系图或者机构关系图。

若是输入人物希望包含人物的人际关

 

系图,排出交友情况,公司,领域,会议,研究等相关信息,交

 

友情况要根据人物共同出现的次数排序。

若是输入公司或者机构

 

可以查看公司地点,国家,类型,建立日期公司或机构的人员,

 

分支机构等基本情况。

若输入会议名称可以看到会议举办方,举

 

办地点,主题,涉及领域,参会人员等。

若输入领域可以查看

 

领域相关的科研人员,领域得到研究成果,相关论文,研究机构

 

等。

关联需要可以查看到信息来源。

 

3.进行多维度分析,例如人物库中,可以生成一个人的时间轴,记录这个人的主要事件。

可以生成这个人的兴趣爱好图,家人关系图等。

行业技术机构库中可以生成主要事件的时间轴等。

 

4.输入两个关键词可以生成这两侧关键词之间的关系图,可

 

以显示出多层关联,可以查看每层关联的证据。

 

5.可以对同一库中数据进行模糊查询,全文检索,或者按属性条件进行各种组合的筛选查询。

 

6.可以实现2-3同库词条的的对比,可视化展示出来。

 

2.4对外接口

 

2.4.1会员制体系

 

与微信开发对接,实现推送消息半自动化导入,系统数据库可以作为一项客户服务对用户有权限开放。

 

1.与公司已有的会员制微信体系的对接,系统后期作为客户可以使用的数据库商品,作为一项客户服务对用户有权限开放:

 

需要可以把控客户的使用权限,让客户可以自动化便捷的使用数据库服务。

 

2.实现推送消息半自动化导入,能够将系统抓取的数据导出,可以人工的方式导入,进行微信的推送。

 

2.4.2其他

 

1.可能与公司已有天蝎系统对接,实现一定格式的文档的导入作为爬虫系统的数据源。

 

2.可能与外部邮件营销系统对接,记录员工发送邮件地址,记录等。

 

3.可能与调查问卷分析平台对接,将调查问卷的分析结果导入等。

 

2.5其他

 

2.5.1数据痕迹

 

1.系统要有内部行为记录,可以查看:

员工修改记录:

查看修改词条痕迹以及具体的修改内容,员工使用记录;

 

2.有外部行为记录:

记录客户的查看信息,记录用户行为,可以对客户行为进行一定的分析。

 

2.5.2信息安全

 

1.系统需要注重系统中的数据信息安全,设置接口可以在文档上传到系统时将公司文档防泄密软件的加密文件解密。

 

2.可以在从系统传到微信或导出时将文档解密正常的查看;导出的推送报告要有隐藏的水印。

 

2.5.3注意事项

 

1.系统可能分为几期开发。

 

2.爬虫系统需要考虑由于涉及数据源可能为海外,主要为英

 

语和日语,国外网站会有不同的反爬机制。

 

3.需要驻场对接,更好的梳理了解公司业务逻辑。

 

4.系统完成后需要培训教程,帮助员工快速使用。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2