项目建设方案广州公共资源交易中心.docx
《项目建设方案广州公共资源交易中心.docx》由会员分享,可在线阅读,更多相关《项目建设方案广州公共资源交易中心.docx(18页珍藏版)》请在冰点文库上搜索。
项目建设方案广州公共资源交易中心
项目建设方案
一、项目背景与现状
近年来随着金盾工程建设的展开,公安整体信息化水平迅速提升,在各级公安机关和业务警种手中积累了丰富的业务数据资源,其种类不断丰富、总量呈现爆发性增长,公安行业的大数据体系已经初具雏形,信息资源已逐渐成为继警力资源、装备资源之后的新一类公安核心资源。
同时随着数据资源汇集、整合、存储、管理、共享、交换与应用需求的不断增长,当前存在的数据不规范、质量不高、整合压力大、共享困难等问题也日益凸显,这些问题最终制约着公安数据资源的应用深度和价值,导致数据利用价值低、难以管理、应用范围窄、跨警种数据共享困难等一系列问题。
快速积累并不断增长的信息数据已成为继警力资源、装备资源之后的新一类核心资源。
如何快速挖掘其内在价值,转化为现实战斗力,在更高更深层次服务保障公安工作的开展,已成为公安信息化迫切需要解决的关键问题。
伴随着公安信息资源的快速增长,特别是白云区大力推动出租屋电子门禁系统、视频监控、物流数据、互联网数据建设后,大数据质量不高、处理能力不强、标准规范不足、共享应用不够、专业应用不深等问题已全面显现,迫切需要以新的思路、新的方法、新的技术解决存在的问题,应对数据资源海量化、异构化及应用需求多样化,复杂化等带来的挑战。
为了适应时代变化,创新社会管理工作方式,提高警务运行效率,白云分局把“数据工作”列为全局第三大基础工程。
为了支撑分局数据工作的顺利开展,分局计划建设白云大数据平台建设项
二、建设目标
本期项目建设目标是租赁硬件设备为白云区辖内企业如大型物流园内部网络、城中村和大型商场视频内部网络的“安全内网”抽取数据提供必要的运行环境,为大数据平台提供鲜活数据支撑。
其次对白云大数据一期项目所积累的监控数据、门禁数据、物流数据等大数据进行清洗和标准化,以高质量的数据资源为基础,以信息资源服务体系为支撑,建设信息查询、一键式搜索、信息关联、分析、挖掘及可视化展现等应用,面向普通民警直接提供服务,提高社区治安防控水平,为创造和谐社区打下坚实基础。
最后采购门禁系统办理电子钥匙过程所需的手机验证短信服务,实现门禁手机号码登记过程的号码真实性验证。
三、项目现状
一是目前各重点企业地理位置分散,系统属于企业内网不具备联网条件,系统稳定性要求高,数据存储量大,缺少必要的硬件运行环境。
二是缺少对接公安内、外信息资源,按照大数据、云中心的架构总体设计,需要建立公安数据仓库与数据集市,统一数据共享交换标准,开展对内对外标准化信息共享服务、信息搜索集成、数据质量监控、数据统计分析,以及通过数据挖掘与分析开展警务预测、警务决策支持服务,全面构建公安信息资源整合应用服务体系,更好地为基层民警、业务警种提供全方位的信息资源服务支撑。
三是面向基层实战,提供情报信息服务支撑。
平台始终以基层实战应用为引领,向整合信息要实战效益。
面向基层担负侦查工作的干警,提供信息综合应用和分析研判功能。
通过落地侦查案件串并等线索,实现跨区域刑侦协作,有效服务基层,开展情报信息实战应用,提升各级公安部门开展“信息战”的能力和水平。
四是需要注重科学规划,保证持续发展。
平台设计以各警种信息化发展成果为指导,按照金盾工程的统一规划和公安部的标准,明确平台和多个系统间的信息组织、数据交换、差异化应用、共享互通服务等。
在充分满足现有应用需求的同时,系统可支撑业务发展需求,能够保证系统的稳定性和可发展性。
四、建设内容
4.1数据采集软件
主要实现以下功能:
1、电子门禁数据接口:
对已经使用其他异类门禁系统进行管理的电子门禁,提供门禁数据批量导入接口,任何第三方用户均以分局颁发的密钥字符串和数据标准,把门禁数据批量提交给接口,即可导入系统,同时提供导入统计和质量反馈功能。
2、从业人员数据接口:
提供数据接口,让已授权的企业或公司按白云分局的数据标准,向公共接口自动提交数据。
3、零散资料数据接口:
提供数据接口,让已授权的企业或公司按白云分局的数据标准,向公共接口自动提交数据或压缩文件。
4、管理门禁数据:
提供网页,让没有门禁系统的单位录入门禁数据,并提供基本的新增、注销、日志、统计等门禁管理基本功能。
5、在线录入企业从业人员信息:
提供网页,让企业把其从业人员信息录入系统,并提供基本的统计与管理功能。
6、批量导入企业从业人员信息:
提供界面与接口,让企业按预设的格式把从业人员由Excel批量导入系统,减轻企业重复录入人员工作量,页面提供数据模板和质量监控模块。
7、企业数据自动抓取器:
在企业的网络中,部署一个自动运行软件,根据企业提供的用户名及密码,实时在线提取其客户数据库中的资料,然后传回位于互联网的警务数据库中。
8、大文件上传功能:
提供数据说明、联系人员等简要信息录入与大文件附件上传功能,提供批量多文件同时断点续传功能。
9、异构网络数据摆渡:
把互联网的数据从数据库导出并切分为小块文件,通过互联网-公安网边界系统,以FTP的形式摆渡进入公安内网,重组文件后再导入数据库里。
10、零散数据清洗和入库工具:
根据各种数据格式,开发不同的数据自动化清洗、提取、入库工具,开发通用的数据处理工具,尽量减轻用户人工清洗数据的工作量。
11、数据爬虫:
根据不同的数据种类,开发满足其需求的数据爬虫,把数据快速写入到Oracle,MongoDB和ElasticSearch里面。
12、精确查询结构化数据库:
根据输入的条件,精确查询Oracle+MongoDB数据库的内容并高亮显示关键字,其性能为查询100亿条数据小于10秒。
13、模糊检索非结构化数据库+数据引擎:
根据输入的条件,模糊检索MongoDB数据库+Lucene数据引擎的内容并高亮显示关键字,其性能为查询100亿条数据小于10秒。
14、比对犯罪前科数据:
读取新采集的数据与科技处大数据、刑警支队各系统、情报处各系统进行碰撞比对,排查出追逃、前科、高危等人员,为派出所分类精确管理提供支持。
15、反馈展示犯罪前科数据:
向各用户展示其采集的数据与犯罪前科等系统比对之后的结果,提供数据导出功能。
16、对外共享数据:
为情报、刑警及其他单位提供根据权限访问的数据共享接口,提供共享的数量统计及访问日志功能。
17、获取大数据平台的数据:
根据输入条件或需要,通过大数据的WebService接口读取或导出所需要的数据到本系统或文件中。
18、导出海量筛查结果:
根据情报分析需要,输入筛查条件,然后把筛查结果导出为文件,提供给I2等专业分析软件使用。
19、上传案件文件:
提供数据说明、联系人员等简要信息录入与大文件附件上传功能,提供批量多文件同时断点续传功能。
20、统计考核功能:
提供各用户及其下属用户上传数据数量与质量的统计表。
21、权限与功能分配:
管理用户分单位、部门、组别三个级别,第四级别是企业应用用户,用户之间设置上下递属关系,并且能为每个用户分配不同的菜单、权限与管理区域,为管理用户提供新建辖内用户的功能,用户之间可以进行上下递属统计。
22、用户的监控、审计与统计:
为各管理用户和企业应用用户提供其业务量和数据质量的统计功能,用户使用日志审计功能。
4.2数据清洗和标准化
为了开展数据清洗标准化建设,首先需要建立本地数据标准体系,标准体系的建设按照公安大数据中心的体系进行规划和设计。
公安数据元标准:
数据元信息以及相关的数据字典,其中数据元是进行数据整合的关键,其在基础库建设中用于对源数据字段的含义进行准确描述,在关联库及专题库建设中用于规范字段的类型、长度及命名方式,并基于数据元建立数据间的自动关联关系。
元数据标准:
在遵循公安部相关标准的基础上,根据本地数据实际情况,形成本地的元数据标准。
本系统的元数据规范和标准主要包括业务元数据、技术元数据和数据元数据三类。
元数据主要记录数据的名称、资源标识、描述等基本信息以及数据更新信息、数据来源信息、数据处理流程、相关业务系统等。
数据资源目录标准:
对结构化数据与非结构化数据统一进行资源编码,针对资源名称、资源标识码、数据表名、描述信息、字段信息等建立统一的标准,最终将所有数据资源汇总到一个数据资源目录中,并按应用需求建立专题资源目录。
分类代码标准:
结合公安数据元标准建立相应的分类代码标准,并与各数据资源中相应的字段进行关联,约束字段的取值范围,控制数据的质量。
4.2.1数据分析
数据分析梳理对了解数据资源现状,开展数据元、限定词的分析梳理工作具有重要意义,也是开展数据整合工作的前提条件,数据调研梳理过程可借助数据管理软件,建立本地标准体系之后,安排专门的数据分析人员负责。
数据调研梳理过程涉及到对数据资源的如下信息的调研:
●数据的物理存储位置
●相关字典表
●数据上游来源
●分析时间
●核心业务字段
●数据结构
●数据对应业务信息
●数据的时间、空间范围
●数据的更新情况
●数据量
●数据的质量
⏹重复率
⏹缺失情况
⏹错误信息
4.2.2本地数据标准建立与管理
1.数据元及限定词标准导入及梳理
首先参考现有的公安数据元标准,导入到本地并进行梳理,利用本地数据元管理机制进行扩充。
数据元标准导入的主要功能包括:
导入数据元及限定词标准:
批量导入excel格式的数据元及限定词到本地数据标准中,以备后续的数据元分析及比对。
数据元分类梳理:
为了便于使用及检索,对数据元进行分类梳理,按照描述对象及所属业务进行分类,并组织形成树状结构。
2.数据元对标及扩充
在数据元梳理结果的基础之上,对未匹配成功的数据资源字段进行整理分析及统计,确定字段的来源警种及业务、产生原因、实际含义等,并与现有的数据元进行对照,寻找相关联的数据元,并确定是否进行扩充。
对于不确定的数据元,按照统一的流程从来源警种、描述对象、特性词等方面依次进行分析,并搜索相关数据元项。
完成数据元梳理之后,进入提交审核确认阶段,将数据元梳理结果及扩充建议整理形成报告材料,按照公安部的统一要求通过数据元管理系统进行上报,提交审核。
根据审核结果,将确认的新增数据元更新到本地库中,为今后信息化系统设计提供参照依据,并对未通过的数据元进行分析总结,以提升今后数据元申报的质量和成功率。
在数据元的对标和扩充阶段,主要通过人工、自动化相结合的方式按步骤推进相关工作,在该阶段将形成如下自动化工具辅助相关工作的开展,这些工具作为通用的数据元分析工具,负责对现有梳理出来的数据表字段信息与公安数据元标准进行匹配,建立自动关联机制,并可输出详细的匹配结果及匹配度信息等。
该工具可以大大降低人工梳理的工作量。
3.数据元及限定词管理
数据元标准是进行数据整合的关键,其在基础库建设中用于对源数据字段的含义进行准确描述,在关联库及专题库建设中用于规范字段的类型、长度及命名方式,并基于数据元建立数据间的自动关联关系。
数据元标准建设过程需参考公安行业相关标准,包括:
GA/T543公安数据元
GA/T541-2005公安业务数据元素管理规程
GA/T542-2011公安数据元编写规则
数据元标准建设工作将结合珠海市数据标准化试点工作展开,按试点要求开展公安数据元的梳理、编制和推广应用工作,建立全局统一的数据标准化管理和应用工作机制,深入推动数据元的业务应用,统筹协调各警种的数据标准化建设,有效支撑公安大数据资源的标准化采集、管理和共享服务。
具体试点工作包括数据元的梳理以及数据元应用的开展,并建设本地数据元标准管理系统,开展标准化对标工作。
4.数据字典标准建设
结合数据元标准的建设工作,同步建立与数据元相关的数据字典标准,并与基础库数据资源中相应的字段进行关联,以数据字典标准约束字段的取值范围,控制数据的质量。
数据字典管理功能如下图所示,主要包括:
●代码的分类组织和浏览
●字典代码的过滤查找
●按代码名称、值提供搜索功能
●代码的新增维护
●代码的导入导出以及比对等功能
5.元数据标准建设
在遵循公安部相关标准的基础上,根据本地数据实际情况,形成本地的元数据标准。
本系统的元数据规范和标准主要包括业务元数据、技术元数据和数据元数据三类元数据体系是信息资源体系的内在核。
心和描述基础。
资源体系中的各种资源都是由元数据进行描述的,并且基于其元数据属性进行管理和控制的。
元数据体系的主要目的就是为了实现数据资源的标准化和规范化,使不同时期、不同载体、不同维度、不同规格的数据可以被统一、规范、科学、全面的描述,保证数据的一致性、可解释性、可追溯性,支持数据资源的统一管理、共享和利用。
此外需要对元数据体系建立持续更新的机制,通过和数据提供方、数据管理方的共同配合,并结合软件的自动化更新机制,实现元数据的持续更新。
通过建立持续更新的元数据体系,实现对数据资源的来源去向准确的记录,并基于此实现数据资源的流向分析、数据溯源等功能。
4.3大数据应用软件
大数据应用开发使用的分析方法要适应多渠道、多种类、多种访问方式、不断发展变化的信息资源环境。
针对实践中成熟的技战法要构建模型、固化应用。
大数据研判如需构建主题数据库,要认真规划主题数据库的维护机制,保证信息鲜活,避免过度建设。
要保证应用及资源访问的安全性。
大数据研判应用需提供根据用户角色控制对应用及各类数据资源的使用。
具体应实现如下功能:
(1)精确查询功能,是根据用户输入的关键字返回精确查询内容并提供结果导出功能;
(2)模糊检索功能,是根据用户输入的多个组合条件,在搜索引擎中进行检索,返回符合条件的内容并提供结果导出功能。
(3)犯罪前科比对功能,是把具有身份证号码的人员信息与市局科技处的追逃、前科、涉案、重点、高危等数据库进行碰撞比对,把碰撞对比的结果返回给数据采集民警及数据采集单位,以便于基层单位对辖内的人员进行分类管理,挤压犯罪空间。
对有重新犯罪或潜在犯罪的从业人员,适当知会数据提供的企业,让其加强防范,同时也是“警企共建,以服务换取数据”的一种方式。
(4)情报数据筛查功能,是根据某些特定条件,筛查出符合条件的多种数据,然后导入到情报独立分析系统中进行分析。
(5)模型预警分析,通过定义预警分析模型(犯罪团伙预警模型、人员轨迹预警模型等),计算机后台计算发现模型关注情况,在符合预警条件时发布预警信息。
可针对预警分析结果信息继续研判。
(6)全景通查,全景通查是立足于平台全部可用信息资源,包括侦查应用基础信息库数据资源、授权可使用的公安信息资源服务平台服务资源、授权可使用的各警种系统提供的信息应用服务资源,利用信息检索服务,面向实战应用中各类查询、检索需要,提供一系列有针对性的查询检索工具。
提供对人员及各类物品标识号、服务标识号在全部数据资源中背景信息的查询,支持数据库、全文索引、请求服务资源查询;可选择结果信息展示方式、浏览详细信息、导出详细信息、打印详细信息、导出检索结果、打印检索结果、嵌入使用其他专业工具和研判方法。
(7)关联查询,提供关联查询功能,能自由选择数据表和数据字段,配置选择项和查询条件,自由进行逻辑组合,并能保存成方案。
查询以列表显示,点击看记录详情,结果能导出和打印。
(8)关系挖掘,利用关联挖掘服务,获取与关注对象有直接关联关系、潜在关联关系的其他各类对象信息。
(9)数据比对碰撞,使用集合运算服务,提供对多个、多种类数据资源(如本地文件、数据库资源、请求服务资源、全文索引数据)间的数据集合操作。
4.4大数据爬虫系统运行环境设备租赁
大数据平台系统除了在互联网的服务平台上部署标准数据接口,接收从各电子门禁、从业人员等系统主动推送的数据之外,还要在各企业“安全内网”里面部署爬虫服务器,从企业的数据库中抽取数据,并传输到互联网的大数据平台。
因各企业内网的网络安全保护严格,禁止互联网程序侵入其企业内网爬取数据,所以大数据平台需要在企业内网里面部署独立单机运行的服务器,并在其上安装爬虫程序,先由爬虫程序从企业内网里自动运行,并根据企业提供的用户名和密码爬取数据库的业务数据,然后加密压缩、再穿过安全的路由器和防火墙安全系统,把数据传送到互联网上,由大数据平台的web接口接收从企业内网发送来的业务数据。
本项目需要通过爬虫程序吸取数据的种类是大型物流园区的物流快递监管数据和公共WIFI监管数据,要实现以上技术功能,其服务器必须在企业本地部署,因此计划租赁服务方式解决硬件运行环境。
租赁期为三年,到期后设备资产归白云区公安分局所有。
具体如下表:
序号
部署位置
数量
1
大型物流园企业内部网络
4
2
城中村WiFi内部网络
4
3
公安网-互联网边界交换系统内网
2
合计
10
设备配置要求如下:
名称
主要配置
数量
单位
说明
大数据爬虫系统设备
2x英特尔至强E5-2630v32.4GHz,20M缓存,8.0GT/sQPI,Turbo,HT,8C,最大内存1866MHz/64G内存/8块400GB固态硬盘SASMixUseMLC12Gbps2.5英寸热插拔硬盘+8块1TB7.2KRPMNLSAS6Gbps2.5英寸热插拔硬盘,13G/DVD/PERCH730P集成RAID控制器,2GB缓存/双个,热插拔冗余电源(1+1),1100瓦/ReadyRails滑动导轨,带电缆管理臂/WindowsServer2012R2标准版,工厂安装,无介质,2插槽,2VMs,无CALs,简体中文/iDRAC8Enterprise/3年专业支持和关键任务:
(7x24)4小时上门服务3年硬盘不返回服务/加速软件SanDiskDAS缓存,永久软件许可和3年软件维护
10
套
4.5大数据展示工具
为展示大数据应用功能需要,购买大屏显示器2台,机房用工具推车2台。
参数要求如下表:
序号
名称
主要配置
数量
单位
1
大屏显示器
国际知名品牌
屏幕尺寸80英寸
屏幕类别X超晶液晶面板
屏幕分辨率全高清(1920*1080)
网络参数
网络连接支持
连接方式无线/网线
屏幕比例16:
9
背光源侧光式LED
扫描方式逐行扫描
支持格式(高清)1080p或以上
水平视角(度)160-180度
垂直视角(度)160-180度
网络连接支持
连接方式无线/网线
含后背支架、HDMI连接线
2
台
2
工具推车
机房用三层多功能折叠服务车
展开尺寸:
664*380*863mm以上
折叠尺寸:
1067*380*203mm
承重:
25KG以上
2
个
4.6门禁系统手机验证短信采购
门禁系统实名制办卡时,需要登记用户手机号码,为鉴别手机号码真伪需要使用手机短信验证。
预计每年登记用户为80万户,为此需要购买短信发送费,数量80万条。
要求:
短信发送能力达到2000条/秒以上,满足高峰时期的需要。
接收成功率达到99%以上。
全网三网固定短信端口,支持上行回复。
提供CMPP、SMGP、SGIP、WEBService、HTTP等各类接入方式的接入接口。
方便用户其他业务系统的接入。
支持子端口扩展。
五、技术要求
5.1并行指标
向分局内侦查办案用户开放,要求支持用户数≥800,系统支持并发访问数≥100。
5.2稳定性指标
系统必须稳定、可靠,不因系统本身的原因造成死机、停止等故障,系统有效运行时间≥99.9%,系统故障平均间隔时间≥180天。
5.3系统操作性能指标
1、数据操作:
一般时段响应时间≤2秒,高峰时段≤5秒。
2、简单查询:
一般时段响应时间≤2秒,高峰时段≤5秒。
3、复杂查询:
一般时段响应时间≤5秒;高峰时段≤10秒。
4、特定复杂应用:
响应时间不超过30秒。
5、数据比对响应指标:
源表(视图)的只读查询(以时间戳为条件)的吞吐量为10MB(含)以上,如每条记录为1K,每秒的可读10000条记录,每条记录为0.3K,每秒可读30000条记录;
数据库抽取的性能为20000条/秒;
200万VS2000万数据时,比对引擎的单次执行时间需要在800秒(含)以内。
6、关系检索指标:
支持关系节点检索速度≤3秒。
7、高性能接口指标
混合IOPS:
100000(基于文件大小为8kb,80%读/20%写的条件测试);吞吐量:
读:
1.2GB/s;写:
650MB/s;延迟:
<1ms;并发数:
≥500。
5.4安全策略要求
1.网络安全性
具备防火墙、防病毒、入侵检测等网络安全防范措施。
系统不允许直接与非公安网交换信息和服务。
2.操作安全性
设置三级安全控制,即:
网络安全级、数据库安全级和用户安全级。
操作安全性由网络登录验证、数据库登录验证、应用系统使用验证三级组成。
网络登录验证由信息通信部门负责;用户安全级由用户身份认证和用户角色分配二部分组成,用户身份认证作为独立的一层,由统一用户管理系统来实现,并实现向“金盾工程”的CA认证体系对接;数据库登录验证由数据库服务器完成,用于对具有数据库访问权限用户的验证;系统用户角色分配由应用系统完成;应用系统将采用三种验证相结合的方式验证用户。
3.系统安全性
任何客户端程序与数据库都没有直接的连接,均由应用服务器统一管理数据库连接、数据接收、数据同步、事务处理和线程调度等工作,最大限度地保障了数据的统一、完整和准确性能。
用户界面层与逻辑表达层之间采用协议通讯,可采用不同的数据加密措施,增强系统的安全性。
4.数据安全性
提供数据库服务器、应用服务器的容错运行保障机制。
对已日益积累的数据,采用周期备份的方法,保障数据库万一在遭受损坏时,也有途径恢复数据。
5.应用安全性
1、身份认证:
用户必须通过数字证书PKI/PMI认证后方可访问平台。
严格记录访问日志,包括用户PKI信息、IP地址、访问时间等。
2、访问授权:
各项功能基于用户身份进行授权管理和访问控制。
3、日志审计:
提供对关键功能访问、关键数据操纵、数据交换、应用共享服务等应用环节的日志记录和审计检查功能。
4、运行监控:
提供对系统运行状态、数据库健康状况、数据交换通道、关键功能压力状况等环节的监控和预警。
6.防病毒措施
各级公安信息中心的统一要求采取防病毒措施,安装公安认证的杀毒软件,并定期进行病毒库更新。
7.安全审计要求
严格按照《公安部公安信息系统应用安全审计平台技术规范V0.1》要求记录并存储用户操作行为和接口服务的日志信息。
按要求提供相关日志数据的服务接口。
生产的日志数据,必须包含安全审计规范要求的内容。
日志数据的保留按照规范中要求的时间。
5.4技术路线要求
公安数据类别繁多、服务压力较大,需要同时考虑与部省市级信息资源服务平台的对接以及对分局应用的支撑,因此在平台建设过程中需要在数据整合、管理、服务等方面选择合适的技术,具体如下。
1.大数据资源的统一ETL技术
ETL(Extract–Transform–Load的缩写,即数据抽取、转换、加载的过程)负责将分布的、异构的数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到目标数据源中。
ETL技术的优势在于,其将数据的处理流程划分为源数据读取、处理器处理以及目标数据更新三个主要阶段,通过定义源数据对象、处理器对象、以及目标数据对象,实现数据处理、写入、更新与具体数据格式的分离。
同时通过处理器对象的灵活挂接,实现数据处理流程的灵活定制。
2.基于混合环境构建大数据统一管理体系
在数据存储方案的选择方面,根据数据类型、规模、特点以及应用的需求,采用关系型数据库、列式数据库、分布式文件系统、全文数据库、内存数据库等技术建设信息资源的混合存储环境。
其中,关系型数据库主要存放人口、案件、车辆等传统公安数据资源,并