大数据技术重构数据仓库应用架构x.pptx

上传人:聆听****声音 文档编号:13411108 上传时间:2023-06-13 格式:PPTX 页数:33 大小:10.03MB
下载 相关 举报
大数据技术重构数据仓库应用架构x.pptx_第1页
第1页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第2页
第2页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第3页
第3页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第4页
第4页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第5页
第5页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第6页
第6页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第7页
第7页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第8页
第8页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第9页
第9页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第10页
第10页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第11页
第11页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第12页
第12页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第13页
第13页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第14页
第14页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第15页
第15页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第16页
第16页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第17页
第17页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第18页
第18页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第19页
第19页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第20页
第20页 / 共33页
亲,该文档总共33页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

大数据技术重构数据仓库应用架构x.pptx

《大数据技术重构数据仓库应用架构x.pptx》由会员分享,可在线阅读,更多相关《大数据技术重构数据仓库应用架构x.pptx(33页珍藏版)》请在冰点文库上搜索。

大数据技术重构数据仓库应用架构x.pptx

,大数据技术重构数据仓库应用架构,目录,平台建设背景数仓应用体系建设风控领域创新应用取得成果与未来展望,烟囱式应用现状存在的问题,应用野蛮生长数仓地位尴尬,01,硬件资源分散,峰值服务能力和大数,据量处理能力受限,04,数据治理目标难实,现:

企业数据模型、,数据标准统计口径,03,跨应用数据共享困难,大量的数据冗余,02,大数据技术助力构建大规模数据处理平台,1,高性价比,1.相同计算与容错能力,基础环境软硬件成本只需原来的,1/3-1/5,大幅降低项目预算2.分布式并行计算技术解决传统数据库架构海量数据的加工能力难题,2,弹性伸缩,1.构建大规模计算与存储资源池,用个平台承载以数据仓库,为核心的大部分数据应用;SSD介质加速随机读写速度,2.在线横向扩容,实现资源弹性分配与隔离,快速满足应用需求,变化,3,开放便利,1.开源技术促进平台快速升级迭代,提升核心技术自主,掌控能力2.整合存储、加工、实时流处理、机器学,习等多样化能力,降低集成难度,基础数据平台技术选型,性能优异兼顾大数据批量处理和小样本数据精确查询统计的性能需优化的数据存储与访问技术,支持索引、分区、行列混合存储尽量避免GC引发的性能抖动,避免大数据量广播计算资源有效管控,容易开发1.支持SQL2003标准和存储过程,原有应用迁移成本低,2.编程接口与开源主流兼容,支持ODBC/JDBC标准接口,运维简单,高度容错,无单点故障完善的运维监控管理,开放的监控输出接口,3.支持在线弹性扩容,支持到位,厂商掌握核心技术有经验的运维支持团队晌应及时的产品开放团队,24.11.2015,构建统的数据管理平台释放软件开发生产力,构建统的数据管理平台释放软件开发生产力,强化数据仓库核心地位,促进数据应用开放协同,统规划企业信息模型,从全局视角规划设计,整合提炼多应用共性需求,构建公共数据模型层,01,应用轻装上阵削减基础数据加工任务,应用数据集市瘦身,共享融合的企业级信息视图,03,份数据,直接共享统调度,集中授权,直接访问,统计口径致,实现数据标准化目标,02,数据服务专业化聚焦专业领域数据价值提炼,开放专业数据视图与应用服务,04,拓展数据仓库新能力,业务数据开放能力开放高时效性的业务主题应用集市,提供自主数据探索与业务建模的可视化工具,多样化数据整合能力内外部结构化与非结构化数据的整合加工与共享,构建更全面的客户信息视图,准实时数据应用能力全渠道数据实时整合,实现客户营销、风险管理、业务分析等领域的实时智能应用,技术平台规划,海量数据实时智能,A数据管理平台,B,应用服务平台,D高性能计算平台,C数据探索平台,海量数据高效采集、存储、加工数据标准化治理、数据生命期管理多租户数据服务资源管理,高并发低延迟的微服务架构大数据技术集成,业务数据可视化交互式数据分析图形化的挖掘建模工具,CPU/GPU混合并行计算架构并行挖掘算法和深度学习框架并行处理语言、实时流与图计算,构建企业级数据应用能力,决策支持,数据探索与业务预测,统计分析,数据存储与联机查询,自主学习,无监督深度学习自适应进化演算,产品差异化定价,业务数据探索模型测试验证,即席业务统计报表,生产数据实时与T+1复制作业数据直接存储,事件触发式自动推理引擎自然语言理解与虚拟机器人,区域行业规划,业务趋势预测客户行为预测,客户细分统计分析,支持历史数据在线查询,离线批处理,准实时,实时,目录,平台建设背景数仓应用体系建设风控领域创新应用取得成果与未来展望,数仓基础应用架构,非结构化数据接入,非结构数据台区社交媒体信息第三方数据,.,统一调度数平据台运维体大系数据,数接据,数,据存,储,公共数据模型层CDM,源数据基础数历史层据模型,HDM层FDM,源数据基础数历史层据模型,HDM层F源DM数据缓冲区ODM/结构化数据接入文件交换区FSA,数据集市数据服务,客户关系管理集市,综合监管集市,数据分析集市历史数据服务接口历史数据平,审计、反洗钱等其他数据服务接口DSI在线数据平台公共数据模型层CDM,数据应用总体技术架构,Sign,微服务Akka,Skyline大数据应用服务平台,互联网数据采集与文本分析平台,数据挖掘工具Discover/Midas,可视化报表工具Tableau,数据库基础工具Waterdrop,公共实时智能知识图谱与技术决策引擎认知计算平台,FarMfaQra-Kwaafyk,abehindthew缓o存rdRmeoduisntains,farfromthe服c务ountriesVokaliaandConsonantia,therelivetheblind,texts.SeparatedtheyliveinBookmarksgroveright组at件thecoastofthe大Se数m据an实tic时s,流a处lar理ge平la台nguageo非ce结an构.化数据服务平台,数据库工具,分行数据集市,各应用集市部门分析集市,Spark,企业级数据模型/公共数据模型,贴源层数据集市,应用服务技术平台,数据仓库,Hadoop+SparkTDH数据库,内存数据库Voltdb,半结构化数据库SDB,数据库平台,应用系统,关联应用系统,数据应用服务,ESB,手机银行,微信,网银,信贷评审,贷后管理,柜面系统,智能顾投服务,客户营销服务,家庭金融服务,信贷平台风险预警服务,实时反欺诈,非结构化数据应用服务,CRM系统,财富管理系统,家庭金融,精准营销平台,统一绩效考核平台,客户生命周期管理系统,业务发展规划台,大数据资讯平台,全面风险预警,运营风险监测系统,“恒丰足迹”,公共数据模型层设计,数据的准确性数据具有可逆性,能够真实地反映原始数据的面貌数据具有可回溯性,能够准确地反映历史数据清况,模型的稳定性、可扩展性结构上应该是稳定的、灵活的、可扩展的足够的灵活性才能适应复杂业务清况以及业务的变化高抽象化的模型能便于扩展,模型的可用性便于最终用户理解统的规范、规则定义、业务语言层次、关系清晰数据无二义性文档完备,采用维度建模为主面向主题覆盖银行分析决策的各个方面满足维度模型的高效性和易理解性,数据的整合性SingleSource,SingleView数据共享平台为各种分析应用提供单的、整合的数据来源统的数据定义标准和编码规则,数据的完整性性能涵盖银行现有的业务范畴以及数据范围重要实体、重要关系、重要分析维度属性均保持完整,模模型型设设计计原原则则,公共数据模型主题成果,产品,协议,银行,客户,客户信息,财务,绩效,汇总层,明细层交易,指标层,财务绩效,资产,主要是科目总账和统计科目信息,主要是银行持有资产和押品信息,交易,主要是交易、传票以及特定业务、渠道的交易,产品,协议,主要是通用产品信息以及特定产品信息,主要是容器账户、结算账户、授信业务和国结业务,客户信息,主要是客户基本信息、客户关联信息和客户分类信息,实施过程遇到的问题与对策,技术支持工具,问题:

跨集群数据自动复制,系统监控、SQL性能分析诊断等技术工具尚不完善。

对策:

与平台厂商合作,自开发技术工具,作为补充,避免复杂的SQL编写问题:

编译器难以判断嵌套SQL在每个节点上的初始结果集是否可以驻留直接使用,结果往往需要汇聚后,再广播给每个节点,增加大量的网络IO成本对策:

尽可能把过滤条件放到嵌套SQL内部执行,减少中间结果集大小,降低数据广播带来的处理延迟,跨节点的数据网络传输带来的IO成本问题:

IO成为性能瓶颈对策:

客户号存在并作为分片键,并且在表关联,操作中将客户号相等的计算条件作为必要条件;,元数据表尽可能设计为复制表;避免在分片键上出现空值,导致数据分在过度倾示,分布式计算任务带来的调度协调成本,问题:

看似较小成本的SQL实际执行成本(时间)比传统数据库要高很多,对策:

包括规避存储过程内游标使用,尽可能用聚,合成复合SQL语句或拆分成若干批量数据更新处理步骤,基础数据平台技术优化工作,数据权限管理多分支机构行级权限管控列级权限,用户级数据脱敏定义,服务质量管控1.任务级资源管控避免不良设计影晌整体性能2.SQL执行成本、执行时间、排队时间等多维质量管控策略,实时监控预警针对实例和组件不同层级的实时监控搭建实时采集组件可用性、资源占用情况、任务排队数、平台事件等信息配置智能告警规则,数据权限管控,实时获取数据,缩短数据获取路径,分行数据集市,数据权限划分,行级权限空制,歹级权限空制,公共数据模型,行级权限行级权限实现数据的行级授权,分行用户只能查询该分行数据基础模型统口径加工歹级权限歹级权限实现数据脱敏,针对不同用户设定不同的查询结果,集群灾备以及数据同步,在线数据平台在线跑批集群数据集市对接业务系统提供数据服务,灾备历史数据平台,历史数据平台,1.历史数据备份,2.提供历史数据服务,灾备在线数据平台灾备在线集群可做灾备切换,灾备历史集群可做历史集群切换,同步,同步,同步,数据同步,集群间日常增量同步针对ORC类型表,从在线数据平台每日获取增量数据,同步到其他三套数据平台针对Hbase表类型,使用Hbase表同步功能进行准实时同步,集群间全表同步,集群间区间同步,1.从在线数据同步获取需同步区间的增量数据,同步到其他三套数据平台,针对ORC类型表,从在线数据平台获取表结构及全表数据,同步到其他三套数据平台,并保留历史平台的授权情况针对Hbase表类型,使用Hbase表同步功能进行整表数据同步,技术实施关键点,01,02,04,性能优化设计建立性能设计规范始千开发阶段的性能监控分布式数据平台与传统数据平台性能问题的异同点,应用项目管理数据模型设计管控资源按需弹性分配批处理任务集中调度,知识传递细分主题多波次培训成立技术兴趣小组技术反模式案例总结,03,数据质量管控自动化数据质量检核构建加工路径上多个系统相对独立的数据质量防火墙,目录,平台建设背景数仓应用体系建设风控领域创新应用取得成果与未来展望,思路-风险管理的两种思考体系,需要准确财报数据才能判断企业经营状况选取合适的变量和模型,通过对历史数据的拟合验证,可以预测客户是否将出现信用违约评审与贷后环节对人的判断能力非常依赖外部环境复杂多变,系统性风险难以防范,1.大部分客户财报数据不准确,是否能从公开信息变化辅助判断客,户经营是否正常,2.信用违约的原因很复杂,没有足够多数据支撑模型精准预测,但多个关联信息可以推测违约概率是否在变大,多个环节引入并更多的客观数据可减少人为判断风险可以建立数字化监控体系来对系统性风险感知预警,风险管理应用规划,大数据风控,业务规划平台,移动信贞应用,交易反欺诈系统,全面的信用风险预警服务:

1、多维风险视图提升决策效率2、知识图谱技术分析风险传导,提升风险感知能力3、智能决策引擎汇聚专家智慧,降低人员要求4、信用欺诈检测有效防范道德风险,客户交易风险管理:

1、流处理技术实现实时欺诈风险识别2、自主学习和优化的反欺诈模型3、识别和阻断事中风险,业务协作、风控前置:

1、便捷采集申请信息,提升流程效率2、自动交叉验证外部数据3、减少人为判断,规避人员道德风险,行业数字地图:

1、自动遴选、组织数据,提升规划效能2、量化分析提升授信决策效率,3、感知行业趋势变化,敏捷应对系统性风险,风险管理全生命期系统支持,业务规划,客户引入,业务办理,客户存续,风险预警系统-业务能力规划,基础数据支撑服务,统一联机接口服务,统一风险防控规则配置服务,综合风险分析、决策支持,分区域行业宏观分析,客户风险综合分析,风险事件跟踪分析,历史信息趋势分析,风险演变分析,风险预测及其跟踪验证分析,数据价值挖掘群体信用违约预测模型,要解决的问题识别股权、交易、担保网络的系统性风险规避循环担保、过度授信星化企业违约风险技术实现客户属性、信用行为、关系图谱、社区特征复杂网络技术挖掘违约风险影晌分子关系链图特征、客户行为特征建模模型输出关系网络可视化风险监控高风险预警客户名单输出授信评审阻断策略因子,交易反欺诈系统,覆盖全电子渠道,实时侦测,灵活的规则配置,站式管理平台,风险事件持续跟踪,数据价值挖掘交易反欺诈应用流图,知识图谱,异常账户识别,异常用户识别,戙诈团伙识别,实时报警,决策规则引擎更新,历史数据存储,Inceptor,阻止交易,人工确认,诈骗交易,加标签存储,知识图谱更新,直接交易,模型更新,各渠道交易数据,手机银行,网上银行,刷卡交易,其他交易,是否匹配,历史数据存储,Inceptor,人工确认,可疑账户、用户、团伙,实时交易事件,Y,戙诈概率,N,小千阔值,大千阔值,线下图谱建模,有监督分类,深度网络,集成学习,无监督异常检测,孤立点森林,表征学习,可疑交易,决策规则引擎,专家规则,推理规则,诈骗账户、用户、团伙,实施过程的困难与挑战,外部数据成本过高缺乏高度整合的公开市场数据政府、公营事业单位数据时效性差业务团队风险理念转变高层强力支持风控流程和操作管理办法的适应调整智能技术成熟应用需要时间学术成果的转换成本、试错成本数据科学人才缺乏、培养需要时间行业知识图谱构建缺乏业务专家外部信息源、产业标准化信息实体逻辑关系、风控专家规则,目录,平台建设背景数仓应用体系建设风控领域创新应用取得成果与未来展望,VS,大数据平台,数据量规模400多T模型处理个数2300,原数仓,数据量规模6T模型处理个数1500,处理效率13个小时,处理效率2个小时,单个模型效率对比:

p处理效率是指,从接入核心系统数据算起到模型数据处理完成的日终时间。

以存款账户表为例:

p数据处理逻辑相近,数据星致p原数仓存款模型-平均耗时:

3小时30分钟p大数据存款平台模型-平均耗时:

39分钟,取得成果-提升全行数字化支撑能力,创新应用助力业务发展,01.32个创新应用,发布1100个业务功能02.全行2500个用户,月均使用6万余次03.335张业务可视化报表,每次支撑6000次统计分析04.月推送实时业务提醒60万条,累积推荐潜在客户5万户,全天候的风险监测体系,01.实时跟踪30万行业标杆客户02.300多个信用风险预警规则,年触发风险预警信号8000次03.各类平台贷风险服务接口23个,月均调用5万余次04.196个运营风险监测模型,月均生成工单4500笔,实时的大数据平台能力,01.13个部门集市、18个分行集市、26个应用集市管理380TB数据,日实时处理200万交易数据对外发布110个服务接口,月均调用近200万次对接26个外部数据源,月采集企业舆情80万条每天聚合8大行业资讯、23类市场指数、200多份投研报告,工作展望,1,2,基千Docker容器技术,建设面向多租户的大数据平台,实现更细粒度的资源管控与调度,融合行内外多样化数据,深度提炼数据价值,优化业务领域模型,,为业务线和客户提供更多场景的智能化数据服务,3,4,建立行业知识图谱技术平台,满足客户价值评估,行业风险传导,路径,重大事件影晌分析等业务需求,研发面向业务团队、可定制的实时智能业务决策引擎,满足实时,营销、实时风险管理、实时交易反欺诈等多种场景需求。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2