大数据处理技术平台.docx

资源描述

大数据处理技术平台.docx

《大数据处理技术平台.docx》由会员分享，可在线阅读，更多相关《大数据处理技术平台.docx（165页珍藏版）》请在冰点文库上搜索。

大数据处理技术平台.docx

大数据处理技术平台

1总体设计方案

1.1项目概述

在移动互联网和大数据蓬勃发展的背景下，以大数据为基础的信息增值服务随之显现出了巨大的市场潜力。

本项目立足新华网技术现状和业务方向，以“技术引领，应用为本”为核心导向，以政企用户为主要服务对象，以分布式并行计算框架为基础，充分应用多元数据存储、大规模数据检索和智能文本挖掘、人工智能、机器学习等先进技术，构建新华网政务类大数据智能分析系统的大数据处理技术平台（简称大数据处理技术平台）。

大数据处理技术平台集数据预处理、海量数据存储检索和数据智能挖掘分析等先进的软件技术于一体，为构建新华网政务大数据系列产品提供底层技术支撑。

1.2需求分析

1.2.1总体需求

1.2.1.1总体结构需求

本项目通过整合集成数据预处理、海量数据存储检索和数据智能挖掘分析等相关软件系统，架构一个能够提供大数据检索挖掘分析服务的大数据处理技术平台，该平台不仅涉及到智能文本挖掘、自然语言处理、存储检索和服务架构等多种技术，还要具备良好的可扩展性，为基于大数据、机器学习和人工智能等集成创新提供开放的接口和服务调用。

因此，大数据处理技术平台的框架结构需要满足大数据处理的要求，并具有健壮性、可扩展性和技术先进性。

下图描述了大数据处理技术平台的总体框架参考示意：

1.2.1.2总体技术需求

1．开放性

要采用开放标准，选用的技术产品要符合开放标准，可根据新华网未来业务的变化而灵活地改变，满足新华网业务今后进一步拓展的需要。

2．高安全性

信息安全是新华网业务平台的重要要求，要确保所涉及软件不存在任何已知漏洞，确保信息内容网络上的安全传输，防止任何XX的访问，防范黑客对内容和平台的攻击，当发生入侵时能够及时检测并自动屏蔽和恢复。

不论硬件设备、操作系统，还是中间件和应用开发都要将的安全性放在首位。

3．高可用性

作为重要技术支撑平台，大数据处理技术平台的各个系统要稳定、可靠，要确保7×24小时不间断工作，不存在单点故障。

4．可扩展性和可分步实施性

大数据处理技术平台能够根据数据量增加和服务访问增强，灵活的进行扩展；大数据处理技术平台应考虑到和其他系统/平台的通信连接，应具有良好的外接接口；随着业务的不断扩充，大数据处理技术平台可以方便地扩展业务功能模块。

5．良好的管理性和维护性

大数据处理技术平台包括数据接预处理、海量数据存储检索和数据智能挖掘分析等子系统，每个子系统又包括非常多的功能，因此要求技术架构合理，模块清晰，有管理和运维模块，可方便管理员进行平台管理和维护。

各子系统应具有详细的系统异常描述文档及相应异常处理文档。

6．先进性

大数据处理技术平台应使用先进和成熟的技术产品，以满足技术领先的要求。

7．集成性

数据处理技术平台能够由各个软件模块构建，各个模块之间，要有良好的内置集成；其次，各模块具有与其他系统集成的能力。

8．开放接口和二次开发能力

大数据处理技术平台应提供开放接口，并可以根据项目具体需求方便地进行二次开发，满足个性化的要求，实现应用集成。

9．部署简易性

大数据处理技术平台部署都应简易，实现自动化或半自动化部署。

10．跨平台性

大数据处理技术平台应该具有跨平台性，可以运行在常见操作系统和应用服务器中间件平台上，支持私有云和公有云平台部署。

1.2.1.3大数据处理技术平台自测需求

为保证大数据处理技术平台的质量，要求在部署之前和之后必须进行测试，且需要根据大数据处理技术平台实际的运营需求，提供测试方案、测试用例和测试报告。

测试后，应该达到如下要求：

1）经测试，能够支撑每天至少5000万条数据，年数据增量至少50T的数据处理要求；

2）经测试，大数据处理技术平台整体不存在致命性问题和严重性问题；

3）经测试，数据接预处理、海量数据存储检索和数据智能挖掘分析等各个子系统不存在致命性问题和严重问题；

4）测试用例的执行率是100%；

5）高、中风险功能点的测试覆盖率达到100%，低风险功能的测试覆盖率达到90%；

6）对于核心功能，平均每个功能点至少设计5个测试用例；

7）需要具备性能扩展能力的测试；

8）需要具备压力测试，高并发和高吞吐量的场景；

9）需要具备稳定性测试，持续不低于一周，而且其中要体现访问量的高峰和低谷。

1.2.2需求描述

大数据处理技术平台软件主要包括数据预处理系统、海量数据存储检索系统和数据智能挖掘分析系统。

数据预处理系统提供数据接入、数据文本处理和数据入库等功能；海量数据存储检索系统提供数据存储、数据管理和数据检索等功能；数据智能挖掘分析系统主要针对文本数据进行准确分析，提取潜在的有价值的信息。

数据预处理系统实现多源数据接入和处理，并按照统一标准入库，为后续处理提供了基础；海量数据存储检索系统实现数据的快速查询服务；数据智能挖掘分析系统能够提供深层次数据加工，可以为检索、业务应用提供必要的数据处理技术。

1.2.2.1功能需求

1.2.2.1.1数据预处理系统

数据预处理系统要求采用分布式架构，通过采用内存计算、流式计算等模式，实现海量数据的分布式实时处理，满足大数据平台对数据实时性的要求。

数据预处理系统主要包括数据接入、文本处理和数据入库等功能。

数据接入能够接入多个数据源的数据，实现数据接收、过滤、去重和检测，数据预处理实现对文本内容进行分词、关键词提取、摘要等操作，最后，由数据入库模块完成数据的入库操作。

1．数据接入

数据接入是指接收不同数据源的推送数据。

该功能要求实现和数据提供商系统的无缝对接，满足业务应用对数据数量、质量和时效性的要求。

数据接收的具体要求包括但不限于：

1）数据接收：

能够支持通过多种方式实现各数据厂商互联网数据的实时获取，能够依据各数据厂商提供的数据文件和格式说明，对其数据进行解析、格式转化，保证所接收数据的完整性和一致性。

2）数据过滤：

能够依据用户预定义的规则对不符合条件的各数据厂商数据进行过滤，实现对接收数据的提纯；

3）数据去重：

能够实现各数据厂商接入数据的去重，去重范围包括平台已入库数据和正在接入的各数据厂商数据。

4）数据报告：

能够统计各数据厂商推送频度、数据量和有效数据量等，并记录到数据库中，能够提供调用接口来灵活设置统计频度和查询记录。

2．数据文本处理

数据文本处理是指在数据接入后，对每条数据的文本内容进行处理，实现包括分词、关键词、摘要、实体识别和自动分类等操作，以便后续的统计分析。

数据文本处理的具体要求包括但不限于：

1）自动分词：

能够提供文本的自动分词功能，实现对接入数据中文本的分词操作，能够支持多种词典，并保证分词的快速性、准确性与实用性；

2）关键词提取：

能够提供文本的关键词提取功能，实现对接入数据中文本的关键词提取操作，并保证关键词提取的快速性和准确性；

3）文本摘要：

能够提供文本摘功能，实现对接入数据中文本的摘要提取操作，并保证文本摘要的快速性和准确性；

4）命名实体识别：

能够提供命名实体识别功能，实现对接入数据中文本的实体词识别操作，识别包括人名、地名、机构名、专有名词等在内的实体词，并保证命名实体识别的快速性和准确性；

5）自动分类，实现基于内容特征的分类，能够支持规则定制（比如行业、地域、公司、政府机构等），并能够根据规则实现类别划分，自动分类需要满足快速性、准确性。

3．数据入库

数据入库是指建立完善的数据库，并完成接入数据的入库，为后续的业务系统提供基础的数据源。

数据入库的具体要求包括但不限于：

1）数据入库要保证高效、快速；

2）数据入库要保证数据的完整性、一致性。

1.2.2.1.2海量数据存储检索系统

海量数据存储检系统主要是为大数据平台提供数据的存储管理和检索服务，支撑大数据平台的多种业务应用。

海量数据存储检系统要求采用分布式架构，满足对大规模数据的检索、查询及统计的功能和性能需求。

海量数据存储检系统能够与应用系统进行交互，实现索引创建和数据检索。

海量数据存储检系统能够支持动态扩展，满足数据规模的增长和高并发检索的需求，满足PB级数据规模下的快速检索、实时更新等业务需求。

1．数据存储

存储要求采用分布式存储框架及分布式数据库，以及包括列存储技术在内的多种存储技术，提供大规模稀疏数据的存储解决方案和技术方法，并实现大规模稀疏数据的有效存储。

数据存储的具体要求包括但不限于：

1）能够依靠横向扩展，通过不断增加廉价的商用服务器来增加计算和存储能力。

2）能够提供大规模稀疏数据的存储解决方案和技术方法，并实现大规模稀疏数据的有效存储；

3）能够实现海量数据集压缩、集成和持久化；

4）能够实现海量数据的全局共享存储和分布式并行处理；

5）数据存储设计要保证数据访问的高效、快速；

6）数据存储设计要能够满足大流量访问的需求；

7）数据存储要可扩展、易扩展；

8）要求支持大规模结构化、非结构化数据的存储，能够支持文本数据、图片数据、音视频数据的存储；

9）能够从完整性、一致性、唯一性等多个层面轻松实现对存储数据的全面校验，提高数据使用质量；

10）能够提供高性能、高可用的数据服务API，实现对全局数据的可视化管理，实现对所有存储设备的管理和性能检测。

2．数据索引

存储检索要求实现数据索引功能。

数据索引能够对文本进行快速切词，并采用多种索引技术和索引管理、校验技术，完成对海量文本信息索引。

数据索引的具体要求包括但不限于：

1）支持灵活的切词方式，能够满足实际检索的不同应用需求；

2）要求采用先进索引技术，能够实现字词混合索引、倒排索引技术、分段索引技术、内存索引技术,并能够根据实际业务应用灵活切换；

3）要求支持索引智能合并，当数据源发生变化时，系统自动识别被更新的数据，并自动增量式建立索引，与已创建的老数据索引无缝合并，可大大提高建索引速度，降低系统人工维护成本；

4）要求支持索引自检与容错，建立索引自检与容错机制，在创建索引和检索过程中若存在发生错误的索引库片段，自检时将自动丢弃该错误索引库片断，且不影响正常的索引创建和检索过程。

3．检索功能

1）多库联合检索：

当用户在应用系统中指定的检索信息类型为全部或多个时，由于按照信息类型创建不同的索引库，全文检索需要支持多个类型索引库进行联合检索。

2）短语检索：

检索系统需要支持基于关键字、词、短语等的检索。

3）布尔检索：

检索系统需要支持与、或、非、组合逻辑关系检索。

以空格、and、&表示“与”的关系，以or、|表示“或”的关系，以not、！

表示“非”的关系，（）表示组合查询。

4）词串切分检索：

当用户输入词串进行检索时，检索系统需要支持对词串进行合理切分，以模糊检索方式扩大检索结果范围。

例如以“嫦娥三号成功发射”为检索条件，全文检索服务对该词串进行切分，以“嫦娥and三号and成功and发射”为检索条件进行检索。

5）精确检索：

当用户需要进行基于关键词的精确检索，检索系统需要提供精确检索方式。

在精确检索方式下，该关键词内的所有子词需要精确匹配，且词与词之间的位置关系要严格匹配。

6）模糊检索：

模糊检索多用于英语等多语言检索的场景中，查询与某单词拼写相近的单词。

例如，关键词“computer”通过模糊检索可查到“computer”和“compute”。

7）临近检索：

包含以下两种使用方式。

a.用户输入一组关键词，并以数字的方式指定了各单词的间隔距离总和。

临近查询的含义是:

文章中包含各个关键词，并且各单词之间间隔距离总和不超过用户指定的数字。

b.用户输入一组关键词或短语，并指定分隔点和分隔距离。

临近查询的含义是:

按指定的分隔点和分隔距离检索而不按照分词的结果进行分隔。

8）文本检索：

检索系统需要支持用户在应用系统中输入一段搜索文本，通过检索得到包含该段文本的数据结果，即以文找文。

9）聚合检索：

检索需要支持查询某类信息数据的总数，包括但不限于时间、信息类型、褒贬义的数量查询。

10）范围检索：

检索系统需要支持数字和日期的范围查询。

数字包括但不限于转发数、评论数、点赞数、阅读数等。

11）通配符检索：

需要支持单词和多词的通配符检索。

检索系统需要指定单词和多词的检索通配符，用户在输入关键词时，直接加上单词或多词的通配符即可。

12）转义字符检索：

对于\+-!

（）:

^[]{}"~*?

|&这些特殊符号，如果要查询符号本身，需要支持对该符号进行转义后检索。

13）拼音检索：

基于统计的汉字注音技术和多音排歧技术，通过超大的拼音词典支持，支持同音检索、全拼检索和简拼检索，支持拼音输入校正，向用户提供同音查询建议。

14）同义检索：

检索系统需要支持同义检索，即与用户给定的短语同义。

用户可以在应用系统中选择是否进行同义检索。

15）联想检索：

要求提供搜索检索词自动联想功能，即当用户输入某个检索词的一部分时，自动在搜索下拉列表中联想到与该输入词相关的词语，方便用户直接选择进行搜索。

16）Orderby检索：

检索系统需要支持按指定域进行排序，包括但不限于按时间排序、按相关信息数排序、按转发评论数等排序。

17）动态摘要：

检索系统需要支持关键词在标题、摘要、正文中高亮，并自动提取关键词相关上下文信息作为摘要。

18）检索结果消重：

检索系统需要支持对检索结果内容的消重，对URL不同、文章内容相同的信息进行合并展示。

19）二次检索：

检索系统需要支持用户在已有搜索结果范围内追加关键词进行二次检索。

20）检索结果统计：

检索系统需要支持多维度的结果统计功能，可统计出某一个字段值出现的次数，也可按照时间段统计出某一字段值在时间段内出现的次数。

支持按时间、信息类型、站点、正负面等多维度的统计。

21）多语种检索：

检索系统需要支持对英、法、日等多语种的分词及多粒度索引切词处理技术，支持用户在应用系统中进行多语种关键词检索。

22）智能纠错：

能够自动检查用户输入的检索条件，并对拼写有误或不合理的检索条件进行修改、优化，从而保证检索的查全率和查准率，提高检索效率的检索辅助功能。

1.2.2.1.3数据智能挖掘分析系统

数据智能挖掘分析系统主要作用是实现大规模数据的文本挖掘分析功能，从海量的互联网数据中提取知识，挖掘出潜在的、有价值的内容信息。

系统重点在于互联网内容的实时处理、关联分析和深度挖掘，通过准确地挖掘分析目标文本的内容，提取所需的特征信息并进行更深层次加工，为大数据平台提供必要的文本挖掘分析技术。

数据智能挖掘分析系统的健壮性、准确性和时效性会直接影响到大数据平台的应用效果。

1．分词

数据智能挖掘分析系统要求能够对获取的各类文本（包括新闻、微博、微信、论坛主贴、评论等）进行准确的分词处理，以支持其它功能和应用。

分词是数据智能挖掘分析系统其它功能的基础，因此需要有一个准确性高、数据适应能力强、处理高效、运行稳定并且能够进行智能化的分词处理。

分词具体要求包括但不限于：

1）要求分词准确，能够正确处理文本分词过程中二义性、歧义现象，保证分词的准确度；

2）要求提供用户词典支持，能够结合用户词典进行分词，优先使用用户词典，并提供用户词典的创建、维护功能；

3）提供停用词功能，能够根据停用词典对分词结果进行过滤，去掉分词结果中的停用词，并提供停用词典及停用词典的维护功能；

4）提供不同编码格式的文本分词，实现包括GBK、GB18030、BIG5、UTF-8、UNICODE（双字节部分）编码等在内的文本分词功能；

5）提供多语种分词，要求具备对中文、英文及其他语种（日文、法文、西文、阿文、俄文、韩文等外文语种，以及藏文、维文等少数民族语种）的分词功能，其中中文和英文是主要处理文本；

6）要求记录每个词的位置信息，如果同一个词出现在多个位置，依次记录其在文本中出现的位置信息，多个词按照文本出现的先后进行排列；

7）提供新词发现功能，能够发现来至新闻、微博、微信、论坛等的文本中包含的未登录的词和具有新词形、词义和新用法的词；

8）提供单个文本的分词，实现对输入单个文本（比如新闻、博文、主贴、评论等）进行分词和新词发现，实时返回分词结果；

9）提供多个文本的分词，能够接收多个文本，并依次对每个文本进行分词和新词发现，并实时返回每个文本对应的分词结果；

10）要求支持大量数据的分词操作，实现批量的分词操作，能够对实时流数据进行分词操作，并能正确输出每条数据的对应分词结果；

11）要求分词结果至少包括：

文档ID，词的内容，词的位置（按第1次出现的位置排序）；

12）要求系统分词效率高，新词识别准确率高，结果准确性高，运行稳健。

2．词性标注

数据智能挖掘分析系统要求能够对待处理的文本信息进行智能化的词性标注处理。

中文词汇分为实词和虚词两大类，实词包括:

名词、动词、形容词、数词、量词、代词六大类。

虚词包括:

副词、介词、连词、助词、象声词六大类。

词性标注具体要求包括但不限于：

1）要求支持单个词串的词性标注，能够实现单个文本分词结果的词性标注，为其包含的每个词标注正确的词性；

2）要求支持多组词串的词性标注，能够实现多个文本分词结果的词性标注，分别为每个文本包含的每个词标注正确的词性；

3）要求支持单个文本的词性标注，能够实现对输入的文本进行分词，然后实现对分词结果的词性标注；

4）要求支持多个文本的词性标注，能够同时接收多个文本，然后对每个文本实现分词和词性标注；

5）要求实现大量数据的词性标注功能，能够满足批量数据和流式数据的词性标注操作的要求；

6）详细词性标注参照“北大《人民日报》语料库词性标记集”或“美国宾州大学中文树库（ChinesePennTreeBank）词性标记集”。

3．命名实体识别

数据智能挖掘分析系统要求实现文本中实体词识别功能，包括人名、地名、机构名、时间、专有名词等。

命名实体识别针对文本（比如新闻、微博、微信等）或文本包含的词序列，实现自动的识别实体词，无须进行人工干预。

命名实体识别功能包括但不限于：

1）要求实现识别包括但不限于人名、地名、机构名、专有名词、日期时间在内的命名实体；

2）要求实现国内外人名的识别，国内外地名的识别，国内外企业名的识别和国内外组织机构名的识别；

3）能够识别单个词串的实体词，实现单个词串的实体词识别，依次判断每个词是否为实体词，并判断实体词的类型（比如人名、地名、机构名、专有名词、日期时间等），实时返回实体词；

4）要求支持多个词串的实体词识别，实现多个词串的实体词识别，依次或同时对多个词串进行处理，判断每个词是否为实体词及其类型（比如人名、地名、机构名、专有名词、日期时间等），实时返回实体词；

5）要求支持单个文本的命名实体识别，能够实现单个文本的实体词识别，首先对文本进行分词操作，然后处理分词结果中的每个词，判断是否为实体词及其类型（比如人名、地名、机构名、专有名词、日期时间等），实时返回其所包含的实体词；

6）要求支持多个文本的命名实体识别，能够依次或同时处理每个文本，实现所有文本的命名实体识别，并实时返回每个文档包含的实体词；

7）要求支持大规模数据处理的要求，实现对批量数据和实时流数据的命名实体识别；

8）要求输出包括：

实体词、实体词的类别（人名、地名、机构名、专有名词、日期时间等），实体词位置。

4．实体关系抽取

数据智能挖掘分析系统要求能够抽取文本中实体之间的关系。

具体要求包括但不限于：

1）实现自动人名及其关系识别，能够自动从大量文本内容中，识别出人名及其之间的关系，比如上下级关系、亲属关系、医患关系等；

2）实现指定人名的关系识别，指定两个或多个人名，能自动从大量文本内容中，抽取出人名之间的多种关系；

3）实现人名和时间日期之间的关系抽取，能够识别出文本中包含的人名和时间日期，并推理出它们之间的具体关系，比如出生日期、就读大学的时间等；

4）能够抽取个人和公司之间从属关系，并实现个人职位、职务识别。

5）要求能够准确描述关系的类型，关系识别准确、快速、全面。

5．新词发现

数据智能挖掘分析系统要求实现新词发现功能。

新词是指未登录词以及具有新词形、词义和新用法的词。

新词发现需要支持准确识别新词、按照其与文本内容的相关性权重排序、以及添加到词库等操作。

新词发现的具体要求包括但不限于：

1）实现包括人名、地名、产品名、机构名等命名实体新词发现；

2）能够基于新闻文本、微博、微博、论坛等的不同特点，实现新词发现；

3）实现网络用语、外来语等的新词发现；

4）能够支持大量文本数据的新词发现，实现批量和实时数据流的新词发现；

5）要求输出包括：

新词、位置，按照位置进行排序；

6．词关联信息提取

数据智能挖掘分析系统要求能够实现词的近义词、同义词、近义短语、同义短语、衍生词等关联词的提取。

要求在无人工干预的前提下，采用语义分析方法，快速实现词语关联信息提取。

词关联信息提取功能要求包括但不限于：

1）实现同义词识别，能够对输入的词，在指定的文本集中提取出其同义词，可以设定同义词数量，实现同义词出现频度和位置的统计，能够基于同义词的数量对文本进行排序，并输出每个文本包含的同义词；

2）实现近义词识别，能够对输入的词，在指定的文本集中提取其近义词，支持近义词数量的设置，实现近义词出现频度和位置的统计，能够基于近义词的数量对文本进行排序并输出每个文本包含的近义词；

3）要求支持同义短语提取，对于指定词，提取指定文本集中意义相同的短语，统计短语出现的频度，按照短语出现的数量对文本进行排序，并输出每个文本包含的同义短语；

4）要求支持近义短语提取，对于指定词，提取指定文本集中意义相近的短语，统计短语出现的频度，按照短语出现的数量对文本进行排序，并输出每个文本包含的近义短语；

5）能够识别词的衍生词，对于指定词，能够从指定的文本集中识别出词的各种变化形式，比如繁体变化、词序颠倒、拼音形式等；

6）词关联信息提取要求准确、快速、全面。

7．关键词提取

数据智能挖掘分析系统要求实现自动关键词提取功能。

关键词包括主题词和文本标签。

针对文本内容（包括新闻、微博、微信等），提取出重要的词或短语，作为能够表达该文档的关键词。

关键词提取的具体要求包括但不限于：

1）支持灵活的关键词数量，能够人工指定的关键词个数，如果人工未指定时，提取系统默认的关键词个数；

2）支持单个文本的关键词提取，能够接收单个文本的关键词提取操作，实现单个文本的关键词提取；

3）支持多个文本的关键词提取，能够接收多个文本的关键词提取任务，依次处里每个文本，实现所有文本的关键词提取；

4）支持长短文本的关键词提取，能够支持新闻等长文本的关键词提取，能够支持微博等短文本的关键词提取；

5）支持大量数据的关键词提取，能够完成批量数据或实时流数据的关键词提取操作；

6）关键词的信息包括词性、是否是命名实体及类型和权重，并按权重进行排序；

7）要求输出文本对应的关键词列表（包括词的权重，词性、是否命名实体及类别）。

8．文本摘要

数据智能挖掘分析系统要求实现自动文本摘要功能。

针对单个文本或多个文本（比如单篇或多篇新闻、微博等）进行内容分析，摘取其中重要的词语、句子，实现单文档或多文档摘要。

文本摘要的具体要求包括但不限于：

1）支持单个文本的摘要提取，能够分析处理单个文本的内容信息，实现单个文本的摘要提取；

2）支持多文本摘要，能够对内容相似的文本（比如有关同一事件的多篇报道）进行分析处理，实现多个文本的摘要提取；

3）支持大规模数据的摘要提取，能够完成批量数据和实时流数据的摘要提取操作；

4）支持词语组合形式的摘要，能够为短文本（比如微博等）提取词语组合形式的摘要；

5）支持句子组合形式的摘要，能够为长文本（比如新闻等）或多文本提取句

展开阅读全文