ImageVerifierCode 换一换
格式:DOCX , 页数:17 ,大小:388.19KB ,
资源ID:18646450      下载积分:1 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-18646450.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(社保大数据分析平台建设方案.docx)为本站会员(b****6)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

社保大数据分析平台建设方案.docx

1、社保大数据分析平台建设方案社保大数据分析平台建设方案tsi:鹄学吧一、 建设背景目前,XX市“金保工程”业务系统基于联机事务处理( OLTP ),主要解决了日常业务经办的问题,但随着社保数据不断积累,数据量呈现海量存储特征,随着公共服务的不断推进,非结构化数据量也 迅猛增加,这些情况导致社保的统计分析能力不断下降,普遍存在业务报表分散、统计查询不便、效 率低下的问题,另一方面,随着基金平衡压力剧增,管理层基于海量数据的主题分析、预测分析、政 策仿真需求日渐增多,现有的传统数据库平台和核心业务平台难以满足上述这些需求,亟待使用大数 据技术来破解难题。二、 项目建设总体要求2.1总体建设思路及目标

2、针对人社部门中社保业务数据分析和利用最为迫切的特点,作为 XX市“智慧人社平台”的重要组成部分,拟在我市“金保工程”应用系统数据基础上,运用大数据技术,建立 XX市社保大数据系统平台,建立完整的社保数据指标体系,实现对社保数据的综合统计分析,实现社保业务关键指标的主题 分析、关联分析,建立数据分析模型,来协助社保政策部门、基金监管部门、经办部门进行政策调整 仿真,分析预测社保基金运行的走向,辅助实现社保基金的“开源”和“节流”,辅助实现“应保尽保、 应收尽收”,帮助“堵塞漏洞”2.2本项目建设目标(1 )建设社保大数据综合统计分析基础平台框架;(2 )建设社保大数据综合统计分析系统;(3 )建

3、设养老保险关联分析系统;(4 )建设医疗保险关联分析系统。3.1项目解决需求3.1.1建设社保大数据综合统计分析基础平台框架+分布式数采用先进的混搭架构模式,运用大数据技术,结合数据仓库的设计模式,采用分布式计算据存储的技术架构框架来实现基础平台框架,本期主要工作包括:(1 )根据平台技术架构及应用部署架构完成系统环境搭建(2 )将“金保工程”业务系统的数据通过 ETL工具或同步工具,抽取到 MPP数据仓库。(3) 完成数据质量分析,进行数据预处理,重点包括数据清理、数据集成、数据规约、数据变换等。(4)初步完成基础建模,在 MPP数据仓库中构建数据集市。(5) 通过ETL工具将MPP数据仓库

4、中明细数据抽取到 Hadoop中,同时将爬虫过来的数据存储到 Hadoop 中。(6) MPP数据仓库作为数据集市支撑上层数据分析和服务, Hadoop提供非结构化数据的存储和管 理,同时提供社保明细数据查询。其中数据抽取部分,可根据源系统的特点采用不同的数据采集方式。数据采集方式包括:(1 ) 变更数据抽取:在业务系统部署监控程序,业务系统数据一有变化,就实时从业务系统获取变 更数据,保障了业务监控和决策的快速反应。适合的数据源:人社的核心业务系统。(2 ) 批量增量数据抽取:定期从数据源中增量抽取数据。适合的数据源:人社的核心业务系统(在无法采用变更数据抽取时)。(3 )数据交换平台:人社

5、部门与其它数据提供方确定数据交换接口和规范,通过数据交换平台以文件 数据交换的形式获取。适合的数据源:政府部门相关数据资源、社会部门相关数据资源、互联网数据 资源。(4 )网络爬虫:自动的抓取互联网信息的程序。对于如公共服务网站的信息可以利用网络爬虫抓取数 据。(5 ) API接口:按需求订制开发 API接口供数据需求方获取数据tsi:鹄学吧-为重要的数据抽取方式,必须保证不影响原有核心业务系统的正常运行,需要原核心系统开发商 配合完成的工作由建设方负责协调,配合工作若产生的相关费用须由中标商承担。3.1.2建设社保大数据综合统计分析系统按原有统计口径重新开发现有 “金保工程”系统中的各类综合

6、统计汇总查询功能, 并确保数据的准确、一致。按照业务部门实际需求,根据统计分析系统设计要求,设计开发各类可定制化的条件查询统计 汇总功能,其主要统计分析对象应至少包括:(1 )参保人员分析参保人群在各险种间参保、缴费的对比统计分析情况。基于参保人口的当前信息和历史信息(如 年龄、性别、在职或退休、生存状态等),根据生育率、生命表等,利用年龄移算,分析参保人口的 现状、预测人口趋势。通过参保人口的分析与预测,可以了解辖区内参保人口现状(年龄结构、性别 结构、在职与退休人员比例、期望寿命等),了解参保人口和老龄化的演化趋势。通过系统内外数据 比对联动,分析查询人员社保变化轨迹,提炼人员标签,进行个

7、体特征分析,并提供给“智慧人社” 公共服务平台查询;针对人群特征比对,挖掘全民参保扩面空间,分析政策补贴拉动社保征缴的可行 性。(2 )参保单位参保缴费率分析:按区域、单位类型、经济类型、隶属关系、行业等分析不同企业的参保缴费情况。欠费情况分析:分析欠费规模、欠费企业特征。缴费基数分析:比较分析同类企业的缴费基础,与社平工资、行业指导工资的差异。针对缴费基数按照最低缴费工资水平缴费的现象进行分析。企业经营状况分析:根据企业的人员规模、工资规模、人员流动情况、缴费情况分析企业的经营状况通过系统内外数据比对联动,分析单位社保变化轨迹,提炼单位标签,实现特征分析,并提供给“智慧人社”公共服务平台查询

8、。(3 )基金收支根据需求订制开发统计查询功能,用于实时、动态、准确地分析各社会保险基金的收入、支出和结余情况,同比、环比变化情况,以及对应的安全支付级别。(4)考核指标类数据分析具体按业务部门提供表样,应基本涵盖现行社保的统计报表及决策部门需要的统计分析报表。(Si1鶴学吧(5 )医疗保险待遇统计分析根据XX医保政策,有针对性地对历年医保待遇数据进行统计分析,设计和构建综合性的医保基金运 行状况的指标体系,结合专家经验和大数据技术,从基金收入、支出、结余、监管、管理等多维度全 面、综合的考察、监测医保基金运行的状况。展示上应多采用图标形式,方便业务人员寻找其中的规 律,分析离散点的成因。内容

9、上应至少包括:医保费用分布情况,各待遇段人数分布情况;医保费用 按医保项目分布情况,如药品、检查、化验等的占比统计分析;参保人医保待遇分析,如人均费用、 均次费用、年人均就诊次数、人均住院天数、就诊率、各类参保人(如按年龄、在职 /退休状态、文化程度、收入状况)的医保费用和项目使用情况等;各类诊疗类型的医保待遇分析,如门急诊、住院 等的医保费用使用情况分析。3.1.3建设养老保险关联分析系统按关联分析系统设计要求,建立指标体系,从多维结构化的角度处理对社会保险基金产生影响的政策、宏观经济方面的因素,为进一步挖掘事件与社保基金之间的深层关系打好基础,具体包括:(1 )养老基金参保征缴指标体系基金

10、征缴是养老基金主要来源,因此加强基金征缴力度,防范其中风险,有利于保障养老基金的总体稳定 对养老基金征缴产生影响的因素主要有:养老保险参保率(实际参保人数/养老保险制度覆盖人群的人 数X100%);养老基金征缴率(实际缴费人数/应缴费人数x 100%);缴费基数;养老保险缴费率;养老 补缴/中断;养老账户;利率等。(2 )养老基金支付指标体系养老基金支付主要受以下因素影响:赡养率 (领取养老金职工人数/在职职工人数X100%);隐性负债 率(隐性负债/养老基金总额x 100%);养老保险替代率(统筹区内同期养老金人均领取数 /在岗职工人均 工资数x 100%) o(3)养老基金违法违规指标体系

11、基金冒领比率(基金冒领总额/应收统筹养老基金总额);养老基金偷缴漏缴率(偷缴漏缴额/应收统筹养 老基金总额)。3.1.4建设医疗保险关联分析系统按关联分析系统设计要求,建立指标体系,从多维结构化的角度处理对职工和居民医疗保险基金产生 影响的政策、宏观经济方面的因素,具体包括:tSi:鹄学吧(i)医疗费用实时预警监测通过实时计算技术,对医保基金、医院的结算情况进行实时监控;利用时序预测方法,预测未来若干月度的基金结算规模。(2 )医保支付比例调整辅助决策构建医疗保险报销参数调整的模型,针对不同医疗机构等级、就诊类型、人员类别等调整报销比例,测算各类人群的医疗负担,受益受损情况,以及对医保支出的影

12、响。(3) 医保药品目录的调整利用大数据手段,帮助业务部门在诊疗记录、医保支付记录中筛选使用广泛、疗效确切但未纳入目录的药品,或者,筛选已纳入目录但效果未达到预期的药品,为提出目录调整动议提供数据支撑(4) 居保个人缴费与财政补贴标准测算利用历史结算数据,构建居保缴费水平、财政补贴与医保支出的测算模型,为标准调整提供决策依据(5) 医保季度分析报告基于大数据,自动生成季度报告所需的指标数值。三、项目建设主要内容与要求3.1系统总体建设方案本项目充分利用现有金保工程数据中心资源,采用先进的混搭架构模式,运用大数据技术,结合数据仓库的设计模式,采用分布式计算 +分布式数据存储的技术架构框架来实现基

13、础平台框架,同时建立 一套完备的数据标准和数据治理体系。基于平台提供的数据分析、数据挖掘、数据专题等服务能力,实现社保大数据综合统计分析、养老保 险关联分析、医疗保险关联分析三大系统,通过 PC和移动双门户进行接入访问。IS据厝理 pc H户 移动门户臥平台 匚 壮氏人数枢甲合根柱3.1.1平台技术架构PC门户 移动门户機入平台煤合蜿计甘析 养老题分析文晔删关崇逊牖僅社保人城平台(1 )数据源:充分利用现有金保工程业务系统中的关系型数据资源,结合大数据技术的理念,搜集文件处理和网络爬虫工具抓取来的互联网上的数据资源,通过清洗、整合,统一同步至数据存储层。(2 )数据存储层:采用先进的混搭技术架

14、构, 利用Hadoop软件满足人社海量数据的存储、 加工及并行计算,Hadoop的Hive汇聚整合各来源的数据,用于社保明细数据的快速查询,并提供高并发查询的信息;利用列存MPP数据库搭建人社数据集市,实现各类数据资源的关联计算、分析计算和挖掘计算等应用在性 能上的需求,支撑数据分析和数据服务 m鸽学吧(3) 数据服务层通过构建统一数据服务平台,对异构数据存储、计算能力进行整体封装,实现数据与业务的结合,满 足数据分析、挖掘和专题服务,提升大数据价值挖掘能力。(4) 数据应用层提供各类服务接口、公共组件,接入现有ESB总线系统统一调度管理, 与各前端应用系统或公共服务 (网站、移动端)实时对接

15、,为社保业务经办部门及服务对象提供更高层次的定制化服务。(5) 接入平台层:平台采用双门户(PC门户+移动门户)设计,PC门户主要面向业务经办机构,解决的是业务部门的 日常业务管理统计分析需求。移动门户一方面面向社保经办部门和决策部门,解决的是汇总统计和决 策分析的移动端实时查询需求;另一方面,面向服务对象,以提供个性化定制服务。双门户均可按需 实现报表的跳转、切片/切块、钻取和旋转等功能。PC端的应用从功能上应当实现方便、快捷地查看专业报表及直方图、饼图、趋势图、点图、区域图 等,配有仪表盘等可随意组合多种报表和图在同界面展示,并可在各类图形界面通过简单点击进行各 种维度的变化、数据钻取、切

16、片等。通过开发接口与其它应用系统对接,实现数据共享。移动门户要实现通过移动应用,可以实时、动态掌握各类统计查询数据,支持数据的维度变化及向上 向下钻取。移动应用主要提供可视化展现和预警的功能。业务现状需要从多维度(多指标项)评价, 按阈值进行不同类别的警示。3.1.2设备部署架构人社内网坏境人社外网环境本次项目建设应当按照用户方要求搭建 XX市人社大数据平台。平台可采用成熟的产品解决方案,但应根据用户实际需求进行本地化改造(所提供的大数据管理平台,应提供用户长期免费使用)。要求 覆盖XX社保系统各个维度数据,同时支持未来百亿级的数据存储需求。在数据的处理能力方面,模 糊数据检索速度做到亿级秒回

17、,亿级数据基于 SQL的实时分析,也能在秒级水平返回结果。平台在tsi:鹄学吧技术底层的应当具备良好的可扩展性, 从而能够为用户方其它大数据分析项目提供稳健扎实的底层支撑。数据存储和处理引擎的版本。它包括: HDFS、HBASE、Spark、YARN、MapReduce、Hive等处理引擎以及本项目所涉及到的工具组件。以及MPP数据库软件要求:序号技术48标1 Hadoop 台探供窝旳吹州戛成工具应丈托以多科关系型数据库导入数扌亂 包括但不隈于 orocl e. SQL server . rnycql c2Hpikop平台提供商対費怅直成工具应JU*数据从HDFS向HHa闕的相互孚人、导出口3

18、Hadcop平舍提供两対诙掩巢展工負应文持黄蒂从HDFS、HBseH多忡关 系型软按库导出数扼包桔但不隈亍orglg SQL ser vert mysql等4Hadoop平台提供离的数据集成工具应乂捋从关系型数据库向phoenix卷 柿工导入、F字出数援B I h5Hadoop+*供商的软携集应工其,在同一能基娜内,JU#从HDFS字数 携 HBasePhoen( x i r 也 电持从HBpsephoen i x 表 导-ft?据到HDFS*6HadooO台授供誦苦殺排集就二具.序人(导出厂瓷襌忖,支持对尢件 进厅转换编码格式*同时总持嫁持原来文件的目录结衲和文件老不更“7H/dgp半令提供

19、简妁敕择集曲工具”字人(导出)丈件特*支持时艾伴 进行合并、转换和过滤.过滤规则同时支持逋配耕和正则表达式8Hadoop平舍握供戏的款堀臬磺工具.提洪界齒管理工具&9大散据F- o需i持操作系统4t件也括;Suse Linux 11 SP1、Suse Linux 11 SP2x Suse Linux 11 SP3, RedHat 6.4、 RedHat 6,5、 GentOS 6 4、CentOS 6.5序5技术册标1*妄击产韶为关系型敢摊璋非屁doop果构*且为成熟的药业产品.抿供 隼群腿杠.项目部爭t令节点*2盒电朮产品和列存傣MPP呆枸.MPP+Shared NothingJ.所有节点匕

20、热 享.对寻计慕能力完金扁Oaster 11A *不痔在单点性能就颈和SPOF 单点故庫3音妄朮严品尬洛通过増加臥务篇节点对系统的计茸石4鶴泄力逊拧扩雅。 支材在縄相痰;茶中斷当瞬瘵蜒的塔拧.桂能鐵性摄比可胪嶽节点数蚤tZl.廉去1 1 J I J f达到页令节貳以上疑模。4妥求产品基柚弄旃敷册库问增曇数松黄站同步豹衛 求用基于源戟据库 V y H花的增趙荻取疔貞,吗董获取不恠頼源就理弹表們叶间取、触发紀 K #同吵性能眾饭15000条/秽.5舉求心岛特佥SOL 92标准,乞持CPFATF, ALTER. DROP寻DDL返法, 支持 SELECT. INSERT, UPDATE. DELET

21、E 薈 DHL 悟法.支持单飢 多 表联合童询:6$永龙品n 4 4 2非CAP I、ODBC. JOBC、ADO. NET等国际按门观范:(Si1鶴学吧3.1.3应用设计需求3.131统计分析系统设计要求按照社保业务部门要求,利用各类统计分析方法(比较、分组、时间序列、平衡等),对分析对象(人 员、单位、基金等)设计分析指标(如参保人数、参保率、缴费率等),按照分析维度(时间、行业、 单位性质、行政区划等)从定量与定性两个角度进行分析。统计分析功能是决策支持系统的最基础功 能,也是后续开展关联分析和预测分析的基础准备工作。统计分析系统解决基本和复杂的社保数据统计,从功能上需满足以下要求:(1

22、 )可按报表格式设计报表,包括报表的名称、(复杂的)表头、各类指标项、页眉页脚等。(2 )报表需按一定的周期(如月、季度、年度)自动生成,用户无法手动修改数据。(3) 用户可基于生成的报表进行(图形化)分析,如钻取、排序、添加额外字段、添加图表等。(4) 用户也可以将数据导出用于后续分析。(5)全市性的数据统计分析,在展示上须使用市国土部门提供给用户方的 XX市地理信息数据电子地图底图,通过开源工具建立 GIS服务,并要求在原有的二维地图上增加影像地图图层,提供影像地 图服务,具体包括:实现二维及影像地图基本功能, 如地图的放大、缩小、移动、定位、图层控制等; 实现二维地图和影像地图的快速切换

23、,并同步两种地图的数据,包括统计信息等。查询方式主要包含以下两种:(1 )统计报表查询指是按一定周期生成的固定格式报表,一般用作向上级主管部门或本级统计部门提交,报表格式一般由上级主管部门或统计部门制定。统计报表应覆盖社保相关的日常报表及业务部门订制的临时性报表; 按用户角色控制报表的访问权限。(2 )自助式查询按人力资源和社会保障业务设计语义层, 将数据仓库的数据资源按照业务部门易于理解掌握的语言和方式呈现。用户可以基于语义层通过拖拽的形式自助式查询数据、 制作报表,以便进行更深入的分析。(3)突发性数据统计分析金保业务部门或上级主管部门出于工作、决策需要,常要求在指定时间内为其提供偶发性的

24、统计查询 或统计分析,这类查询、分析不同于固定格式报表,使用的频度不高,一般无需固化。但所提供数据 的准确性、及时性要求较高,不得逾期。一般情况下,从接获需求到提供最终统计分析结果的时间不 得超过72小时。3.132关联分析系统设计要求在统计分析基础上,利用关联分析方法(关联比对、关联挖掘算法等)寻找存在于社保业务数据之间 或与其他部门数据的频繁模式、关联性、相关性或因果结构,寻找分析对象某些属性的规律和模式。在辅助业务部门进行决策判断时能够全面考虑、综合分析,找到当前存在问题的原因,从而更加有针 对性地提出解决问题的办法。关联分析也包含已知因果关系的社保业务主题分析。关联分析系统包括社保内部

25、指标之间的关联和主题分析,社保和外部数据间的关联和主题分析。要求对大数据量的社保数据利用关联规则的挖掘进行探索性的分析, 针对业务部门关心的核心数据指标,设计和实现社保业务关联规则,建立数据模型,搭建分析平台,提供多种成熟的关联分析模型及 算法,并预留模块化的外部数据输入功能。平台要求能够实现业务人员依据实际业务、 社保数据的特点及个人理解, 依托平台自主运用进行研判,寻找数据的频繁模式、关联性、相关性或因果结构,寻找分析对象某些属性的规律和模式,从而对政 策执行情况进行研究分析和规划统计分析,为决策部门提供科学、准确、及时的依据。具体功能上应 至少包括:(1)决策支持需求分析:分业务领域、分

26、地区对业务运行情况和存在的问题、业务关联变化情况等 进行数据分析和数据挖掘,从而对政策执行情况进行研究分析和规划统计分析(2 )政策仿真需求分析:构建政策仿真模型,确定模型的输入参数与输出参数之间的计算关系,从而能够辅助决策者科学地制定政策。3.133预测分析系统设计要求在关联分析的基础上,根据预测分析方向进行数据建模,利用挖掘算法在宏观面(社保各险种基金与 宏观经济指标)和微观面(社保各险种基金收支构成的微观层面)分析和挖掘单位或个人的内在驱动 模式,预测未来社保基金的收支情况及其他业务预测,以期提前做好准备,降低或规避风险。预测分析系统在设计上应至少包括对社保业务系统短期和中长期运行情况的

27、预测分析、 对政策调整的预测分析、对外部因素扰动后的预测分析以及预测回归分析。部分主题的预测分析可与统计分析功能进行整合,以实现重要指标数据的监测预警。在具体功能上,要求针对业务部门感兴趣的主题,充分依托统计分析系统与关联分析系统得出的有价值信息,科学建模,以多种展现形式的图表,依输入参数的变化动态显示预测结论,并提供多维度的钻取、切片等功能。预测结论数据要可以固化,方便回归检测预测模型的准确性。3.134图形化展示设计要求系统在展示上应尽可能多采用图形化可视功能,根据用户需求,对接用户方阿里云大数据展示平台,开发相关展示大屏。图形化展示部分应至少包括:地图展示、数据信息多形式展示、模型输出结

28、果多形式展示、阿里云DataV平台展示等。(1 )地图展示:利用XX市国土部门提供地图,针对市区范围内的不同地区(如行政区域等),在地图上展示各地区的相关指标。按地理位置,点击不同地区可以查看详细指标项,并支持向上向下、维度变换等动态方式按需进行查看。(2 )数据信息多形式展示:指数据指标详细图形展示,可以选择相匹配的相关指标,然后分指标详细展示图形,展示指标按需求使用时间和数据值等,展示图形支持柱状图、饼状图、折线图、 3D图形等图形模式。有需要时,也应当提供向上向下维度变换的展示功能。(3) 模型输出结果多形式展示:通过进入不同模型预测平台,可以对模型输出结果进行不同形式的 图形展示。(4) 应支持和满足用户涉及社保业务、基金及监管的相关实时大屏动态展示需求,须包含在阿里云 DataV大屏平台上的实时和非实时展示设计。3.1.4安全设计需求该项目是在金保工程系统的基础上进行融合扩展开发, 因此与金保工程系统信息安全等级保护定级相同,均定为三级,应遵照国家信息系统安全等级保护的要求来进行大数据平台的设计、应用系统的开 发及测试,确保系统在数据保密性、完整性及整体安全等方面符合等保三级标准。

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2