范文精选数据掘金大数据在金融行业中的应用.docx

资源描述

范文精选数据掘金大数据在金融行业中的应用.docx

《范文精选数据掘金大数据在金融行业中的应用.docx》由会员分享，可在线阅读，更多相关《范文精选数据掘金大数据在金融行业中的应用.docx（9页珍藏版）》请在冰点文库上搜索。

范文精选数据掘金大数据在金融行业中的应用.docx

范文精选数据掘金大数据在金融行业中的应用

数据掘金-大数据在金融行业中的应用

在当前大数据技术潮流中,各行各业都在不断的探索如何应用大数据技术以解决企业面临的问题。

目前国内已有不少金融机构开始尝试通过大数据来驱动相关金融业务运营。

如下是百分点就金融行业如何应用大数据技术提出我们的见解。

按照我们的经验,企业面向消费者的应用大致可以分为运营、服务和营销三大类,在金融行业中这三类应用的典型例子有:

运营类:

历史记录管理、多渠道数据整合分析、产品定位分析、客户洞察分析、客户全生命周期分析等。

服务类:

个性化坐席分配、个性化产品推荐、个性化权益匹配、个性化产品定价、客户体验优化、客户挽留等。

营销类:

互联网获客、产品推广、交叉销售、社会化营销、渠道效果分析等。

大数据技术在这些应用中都可以发挥价值,其核心是通过一系列的技术手段,采集、整合和挖掘用户全方位的数据,为每个用户建立数据档案,也就是常说的“用户画像”。

大数据可应用于金融行业实时数据分析,场景包括:

在风险管理领域,可以应用于实时反欺诈、反洗钱,实时风险识别、在线授信等场景;

在渠道方面,可以应用于全渠道实时监测、资源动态优化配置等场景;

在用户管理和服务领域,可以应用于在线和柜面服务优化、客户流失预警及挽留、个性化推荐、个性化定价等场景;

在营销领域,可以应用于（基于互联网用户行为的）事件式营销、差异化广告投放与推广等场景。

大数据在金融业统计分析类应用中的优势

大数据在数据量、多种数据源、多种数据结构、复杂计算任务方面都优于传统的数据仓库技术,这里仅举两个例子:

a）大量数据的运算,例如:

两张Oracle里面表数据分别是1000多万和

800多万做8层join,放在大数据平台运算比在Oracle里面运算至少

快2倍多;

b）对于跨数据库类型的表之间的join,例如一张Oracle的表和一张

sqlserver的表,在传统的数据仓库中是没有办法join的。

可以将数

据通过sqoop等工具放到HDFS上面。

利用hive,pig,impala,spark等

进行更快的处理。

大数据协助银行实现其对客户的多维度分析

有人指出,目前银行自身的数据难以完成客户全维度分析,那么应用大数据又能如何?

首先,有几个问题我们需要仔细思考:

什么叫客户“全维度”?

有没有可能做到“全维度”?

按照百分点的理解,不存在对一个人的“全维度”的刻画,因为我们现实中都做不到。

您可以想象,一个人的DNA可以代表他的“全维度”吗?

或者他的所有言论可以代表他的“全维度”吗?

都不可以。

我们期望的“全维度”实际上是想说最大可能的利用和挖掘手上的数据资源!

基于上面的理解,我们认为银行在大数据平台建设过程中最需要考虑的是如何最大程度的整合所有数据源,特别是行内自有数据源,并且针对业务需求做出有价值的分析应用。

其次,假设银行要引入第三方数据,这些数据怎么利用?

这些数据如何和行内数据整合发挥价值?

这些数据又如何转化为客户“全维度”分析?

显然的,第三方数据也不是直接就能“全维度”的,还是要经过一系列的数据分析和挖掘。

对银行客户了解、并且契合银行业务的数据一定来自于银行业内!

任何外部的数据都需要经过大量的转换和业务解读才能直接在银行中使用。

如果需要第三方数据支撑,银行必须找到对金融业务有相当理解,并且已经按照银行业务诉求分析好的数据才是有价值的。

最后,按照我们的理解和实践经验,银行只需要把第三方数据看做一个数据源即可,“全维度”的关键还是如何整合所有数据源并进行深度挖掘。

在百分点的实际案例中,我们有一套自己的方法论,包括数据的集成、清洗、脱敏、多渠道整合、用户画像标签建模、用户画像整合、用户画像服务等几个步骤。

第三方数据是在集成阶段就解决的问题,后面各阶段关注点都在如何整合、挖掘和应用这些数据。

相比传统技术,大数据技术的优势如下:

a）大数据技术更关注过程数据、行为数据、非结构化数据,可以真正

做到“全方位”;

b）大数据技术在实时性、数据量和并发量上有明显优势,因为这些技

术一开始就是为互联网、海量数据和高并发设计的;

c）大数据技术在组件化、水平扩展方面有明显优势,对业务升级和扩

展支持更加平滑。

如何选择大数据技术产品

选择大数据技术产品最优先考虑的原则是什么?

大家选择某一款大数据技术产品时,不能只关注某款产品有什么“高端”的功能,而应该关心是这款产品是否能给我们带来价值,能解决我们的业务痛点。

所以大数据产品的关键不在于建一个大数据的平台,然后把数据进行采集和存储,而在于这些大数据产品能在哪些方面支撑我们的应用场景、能从数据中分析出哪些有价值的观点、能基于数据产生哪些数据应用、如何为企业提供增值变现的能力。

这一点,我们需要向互联网公司学习。

大数据能够蓬勃发展正是因为互联网行业真正让大数据产生丰富的价值,如Google的精准广告,亚马逊的“千人千面”推荐等。

金融是极度依赖信息化技术的行业,在这个行业中,业务场景可以分为下面几大类:

1）支撑类。

例如海量数据的存储和查询等。

2）操作类。

例如受众人群筛选、营销活动策划等。

3）战术类。

人群分析洞察、产品舆情分析等。

4）战略类。

运营分析报告、新业务拓展等。

不存在一款产品可以支撑以上所有场景,我们在产品选型时应该尽量考虑那些可以支撑更多场景的产品,至少应该了解:

1）该产品适合的直接场景是什么?

2）该产品上已经提供的应用有哪些,支撑了哪些场景?

3）该产品上可以衍生出哪些应用,能够支撑哪些场景?

正是基于上述考虑,百分点才推出了大数据技术、大数据管理和大数据应用三层产品,每一层解决特定的业务问题,但这些产品可以像搭积木那样轻松整合在一起。

大数据平台建设

1.1大数据平台硬件选型

大数据的特点是数据量大但往往价值稀疏,从大数据里提取价值就像是从大海里捞针,要想完成大海捞针的工作就必须提供性价比可接受的软硬件解决方案,开源Hadoop解决方案就是典型的代表,通过基于廉价x86架构服务器之上提供海量数据存储和分析解决方案赢得互联网界的青睐,所以,这种通过软件层面来保证数据安全和稳定,硬件基于标准x86标准服务器的解决方案是未来的主要方式。

另外对于x86服务器的硬件选型也是需要考虑的,从实践经验来看,我们往往会综合数据量、数据应用和成本提供一个平衡性的硬件配置,然后基于平衡型的硬件配置依据任务作业情况,调整硬件配置,如IO密集型可能会使用SSD&内存,CPU密集型任务则会选择高端CPU等。

1.2大数据平台建设最佳实践

大数据平台建设中,Hadoop体系所包含的生态系统,如:

Hbase,Hive,snoop,pig,spark等子系统,那么如何根据各自的特性,通过组合方式来适应实际需求并应用到具体场景中呢?

我们的最佳实践是利用互联网+大数据的技术架构,构建Lamda架构,如图所示:

1）数据采集

a）传统业务系统数据库和数据集市、数据仓库的数据,均可以通过

Sqoop等数据桥接的方式接入大数据平台,同时可以将数据库日志、

系统日志等非结构化文本数据通过Flume等组件接入大数据平台。

b）银行线上渠道（网站、APP应用、微信公众号等）中的用户行为可

以通过数据探头技术,Web端及H5通过JS、移动端通过SDK部码,

采集用户行为数据;银行线下渠道（柜面、ATM等）的用户行为数

据,需从线下接入的系统数据中解构分析。

c）互联网公开数据,如论坛、微博、媒体资讯等,通过数据爬取技术

进行数据采集。

d）也可以利用各种API接口接入其他合作方、第三方等的在线或离线

数据。

2）数据分发

通过FTP或Kafka消息队列将数据实时分发,分发后分开实时数据处理和离线数据存储和处理两条线,形成“人”字型的Lamda架构。

3）离线数据存储及处理

基于Hadoop平台和MpReduce技术的离线数据处理,常用的是HBase列式数据库。

4）实时数据处理

利用Storm或Spark技术的实时数据处理,例如Storm是事实流式处理,

Spark（SparkStreaming）是基于内存的实时批处理。

5）数据存储

不同的数据类型、不同的业务场景,需要的不同的数据存储服务,在我

们的产品中应用了Redis、MongoDB、MySQL、ElasticSearch等多种存储

服务。

百分点基于此架构为银行提供服务的典型应用场景包括:

1）用户行为采集分析:

利用数据探头（JS、SDK,Nginx、ICE）、数据分发

（Kafka）、离线数据存储及处理（HBase）、运营分析结果展现（MySQL）。

2）跨部门数据整合:

利用数据桥接（Sqoop）、日志接入（Flume）、数据分

发（FTP）、离线数据存储存储及处理（HBase、ES）。

3）离线用户画像和用户洞察（支持营销）:

利用离线数据存储存储及处理

（HBase、ES）。

4）实时用户画像及推荐:

利用实时数据处理（Storm、Spark）、数据存储

（Redis、MongoDB）。

5）实时反欺诈:

利用数据接口（API）、数据分发（MQ）、实时数据处理（Storm）。

1.3大数据平台和现有数据仓库的有效整合

目前各行都有自己的数据仓库或数据集市平台,而大数据平台的引入又往往独立于数据仓库,对于某些场景,将结构化数据与非结构化数据进行整体结合往往能够起到更好的效果,如何能够将大数据平台和现有数据仓库进行有效整合?

1）非结构化数据处理与大数据应用的关系

首先分享一下我们对“结构化”和“非结构化”的理解:

狭义的理解:

结构化就是指关系型数据,其余都是非结构化数据。

广义的理解:

结构化是相对于某一个程序来讲的,例如视频对于播放器来说显然是结构化的,但是对于文本编辑器来说就是非结构化的。

事实上,即使是人脑,处理的也都是“广义的”结构化数据。

你可以想象,自己在注视一张照片时,脑海中形成的一定不是一个一个像素点,而是抽象过的一些属性!

按照我们上面的理解,无论是语音、影像还是其它“狭义”的非结构化数据,只要我们有工具可以将这些数据转化成我们关心数据结构,那就可以作为大数据应用的一个数据源,后续由针对这类数据的的特定工具处理即可。

这里举一个例子:

通常我们认为HTML网页,例如电商的单品页面,是非结构化的,因为我很难从中提取出结构化字段,例如商品名称、价格等。

但通过互联网抓取系统,我们可以将这些页面转化为结构化字段,那么后续按照结构化数据处理即可。

语音、影响也是一样,关键是我们期望从中提取什么信息,用什么工具提取,一旦提取成功,即可整合到大数据应用中。

在百分点的实践中,我们已经完全整合了网页、文本、JSON、XML等非结构化数据,部分整合了图像和语音数据,这些内容都已经应用到了业务中。

2）大数据平台和现有数据仓库的整合

现有的数据仓库完全可以和大数据平台进行整合,现有数据仓库可以作为大数据平台的一个数据源和数据应用。

对于金融银行业,往往已经实施有数据仓库,这个时候如果盲目上大数据平台进行平台替换往往容易造成数据混乱,所以我们提供的建议是混搭先行,逐步替换,先替换那些传统手段不能解决的问题,再替换那些数据仓库已经存在的应用。

现阶段数据仓库上下游生态圈丰富程度远远大于大数据生态圈,我们应该充分利用现有数据仓库上下游丰富的解决方案充分发挥传统数仓的价值,然后通过Hadoop等大数据产品来补充传统数仓对于非结构化数据处理不足的缺陷。

随着大数据技术的发展,大数据产品（Hadoop等）各项功能和性能不断完善,再逐步把数仓之上已有业务应用迁移到大数据平台。

常见技术问题解答

1）在Hadoop中导入Oracle的数据后,数据怎么备份?

在数据导入到Hadoop中之后,数据的备份数就已经根据Hadoop的HDFS

配置做了多备份（默认是3备份）。

2）Oracle关系数据库的数据怎么部署Hadoop环境中使用?

Oracle数据库中的数据可以直接导入到Hadoop中,而后利用一些工具

进行处理:

a）Hadoop生态中有一系列的工具和组件可以在RDBMS和Hadoop间导

入导出数据,例如Sqoop,这些工具或多或少会有一些坑,需要使用

者注意或者找有经验的专家指导。

b）数据处理方面,Hive、SparkSQL和Impala都是很好的SQLonHadoop

工具,它们可以满足大部分的数据处理需求,但它们对SQL的支持

不尽相同,目前也没有任何组件能完美支持Oracle的PL/SQL。

这些

SQL组件无法满足数据处理需求,一般的做法是利用其它工具,例如

Pig、原生MapReduce等。

3）HDFS数据怎么入Hbase

HDFS数据导入到HBase有三种方式:

a）可以通过普通的MR程序,在Map或者Reduce里面通过HTable的

对象来写入到HBase。

b）直接通过MR程序,用HBase的TableMapper和TableReducer方法,

然后用TableMapReduceUtil类来执行MR,和1类似。

如果数据量大,建议使用bulkload的方式,通过HfileOutputFormat方法生成HFile格式的数据,再通过LoadIncrementalHfile的方法把结果加载到Hbase。

展开阅读全文