信用评分管理.docx

资源描述

信用评分管理.docx

《信用评分管理.docx》由会员分享，可在线阅读，更多相关《信用评分管理.docx（9页珍藏版）》请在冰点文库上搜索。

信用评分管理.docx

信用评分管理

信用评分的好处

信用评分具有很多好处，不仅仅对借款者如此，对贷款者同样如此。

举例说明之，由于信用评分模型提供了关于用户信用价值的客观分析从而可以帮助简化判别。

这可是使得信用提供者仅仅关注于与信用风险相关的信息并且避免信用分析师或保险公司的个人主观性。

在美国，在同等信用机会法案下，显著的判别变量诸如种族、性别、宗教信仰和年龄等都不能包括在信用评分模型中。

只有本质上是非判别性的信息和那些被证实为对支付能力有预测性的信息才能包括在模型之中。

信用评分同样可以帮助我们增加贷款申请过程的速度与一致性，并且允许借款过程的自动化。

同样的，其大大简化了信用评价过程中人工干预的必要以及分发信用的成本（Barefoot，1995）。

凭借信用评分的帮助，金融机构在很短时间里能够量化提供特别申请者与信用关联的风险。

Leonard（1995）研究了加拿大的银行，发现在使用了信用评分之后，用于处理消费贷款申请的时间由原来的九天缩短为三天。

那么处理贷款申请节省下来的时间就可以用于从事更为复杂的问题。

BanaslakandKiely（2000）总结出在信用评分的帮助下，金融机构能够制定更快、更好和更高质量的决策。

此外，信用评分能够帮助金融机构确定利息率，这些他们将对他们的用户收费并且对资产组合定价（Averyetal.，2000）。

高风险用户将被提供更高的利息率，反之亦然。

基于用户的信用评分，金融机构也能够确定对用户设定信用限度（Sandleretal.,2000）。

这些都可以帮助金融机构更为有效的和有利的管理他们的账户。

作为扩展，利润评分则能用于在一系列产品中最大化利润（Thomas，2000）。

与上面谈到的相关，信用评分模型实现了次一级借贷行业的发展，在这里，次一级的消费者具有不足的信用记录并且不符合信用承诺与风险。

他们可能因为信用缺陷、信用历史记录的缺失或者在确认他们的收入等方面无法满足传统金融业务的要求（Quittner，2003）。

在次一级借贷的发展中，其中一个最主要的因素已经自动化的认购，其允许次一级抵押贷款能够进行打包然后作为投资性有价证券来销售。

在这一市场专门金融机构的初始成功已经驱动更多的金融机构进入次一级借贷市场，期望伴随着信用评分技术的前进而增长（Perin，1998）。

最后，由于技术方面的发展，更为智能的信用评分模型得到了发展。

相应的，信用卡提供者能够使用由模型得到的信息来明确表示更好的策略，然后更为有效的使用这些资源。

Lucas（2000）报告称，收获率（recoveryrate）从1997年的9.1%，1998年的12.1%上升到1999年平均15.9%。

此外，保险业应用信用评分来使得保险申请与续约过程更加简化有效率。

尤其是，信用评分帮助保险公司作出关于索赔的更好的预测以及更为有效的控制风险。

他们同样也能更准确的对产品进行定价。

这使得保险公司能够以更为公平的成本提供更多的保险覆盖面给更多的用户，更快的对市场变化作出反应以及赢得竞争优势（KellisonandBrockett，2003）。

信用评分应用

在最近几年里，金融机构使用信用评分主要是针对贷款申请作出信用决策。

然而，在过去的25年里，信用评分的应用从制定信用决策开始向对与住房、保险、基础公共事业服务甚至就业等方面制定决策转移。

但是，也并不是所有的应用都是得到同等广泛的应用的。

信用评分最为普及的应用是在贷款申请中进行信用决策。

除了在个人贷款应用上的决策之外，金融机构现在也开始利用信用评分帮助设定信用限度、管理现金账户并且预测用户与客户的利润度（Punch，2000）。

例如，澳大利亚与新西兰银行集团（AustraliaandNewZealandBankingGroup）利用信用评分协助他们识别那些将接受信用的申请者，决定申请者应该接受的信用数量，以及当在贷款支付过程中失败时所应该采取的步骤。

同样，信用卡发行者使用信用评分作为决策支持工具识别他们信用卡的目标市场（这实际上就是客户赢得应用）（Punch，2000）。

在最近这些年里，信用评分同样也在给小商业企业信用决策过程的部分程序中使用（Rowland，2003）。

例如，Fleet金融集团（FleetFinancialGroup）在低于10万美元的贷款中使用信用评分。

信用评分模型同样也用于保险行业中（例如抵押以及汽车保险），用于对新保险政策的申请以及现存政策的更新做出决策。

应用的前提是：

在金融稳定性与风险之间存在着直接的联系。

据讨论得知在汽车与抵押保险方面的信用鉴定与损失比率之间都有很强的相关关系。

统计上的证据也证明了相对损失比率（关于索赔频率与成本的函数）减少而信用等级鉴定改善（Schiff，2003）。

GECapitalMortgageCorporation使用信用评分帮助他们甄别抵押保险申请表（Prakash，1995）。

信用评分同样用作调整年金的基准。

一般地，具有差的信用得分的用户会比具有很好的信用得分的用户拥有很高的机率申请保险索赔。

因此，前者都会被克以比较高的保险费。

信用信息同样也用于在一项保险政策的条件下评价一个消费者的责任性以及行为。

除了上面提及的之外，其他的信用评分的应用可以在2002年美国消费者联盟（TheConsumerFederationofAmerica）的报告。

比如，农场主可以利用信用得分来判定潜在的农户能否尽可能的及时支付他们的租金。

美国的一些公共事业提供者同样也应用信用得分决定是否对他们的消费者提供服务。

最后，一些企业主利用信用历史数据以及信用得分来决定是否雇用一个可能的雇员，尤其是对那些需要处理大量金钱的雇员的职位来说更是如此。

其含意是雇员的诚信价值进而个人特性也能通过他们的信用得分进行评价。

信用评分模型的构建

构建信用评分模型的方法论通常包含了以下过程。

首先，选择一个以前客户的样本并且将他们分类成好与坏，主要依赖在一段给定时间里的支付能力来确定（为了简化起见，这里仅仅使用两分法）。

紧接着，从贷款用户、个人和/或商业信用记录以及可以获得其它不同的资源那里收集数据（比如，信用局报告）。

最后，统计或者其他定量的分析方法应用到这些数据上，产生信用评分模型。

这一模型将包含应用到不同个体用户变量（或属性）上的权重以及分割点。

应用到单个用户或客户变量的权重的总和构成了信用得分。

分离点确定了是否这个用户或客户应该被分类为好的还是坏的。

更为准确与具体的是伴随分类的概率同样也可以生成。

需要注意的是，对于不同的数据的细分将构建成不同的模型。

到此为止，几种技术已经用于信用评分模型的构建了。

最为常用的技术是传统统计学方法。

例如，一些最早建立的信用评分模型使用判别分析技术。

然而，判别分析需要相当严格的统计假设，这些假设在实际生活中是很少能够满足的。

相应的，Logistic回归（相对不是很严格）被推荐成为判别分析的替代方法。

一些技术是以前就使用过的，但是不是相当频繁，构建信用评分模型包括基因算法、K最近邻值方法、线性规划以及专家系统方法。

在最近这些年里，数据挖掘技术不断增长的应用于构建信用评分模型。

尤其是，决策树方法已经变成一种建立信用评分模型的流行的技术，因为得到的决策树是很易于解释和形象化的。

进一步，神经网络也是普遍得到使用。

这些技术在下面的文章中我们进行详细讨论。

关于信用评分模型的经验研究包括（LeeandJung，1999/2000）和（West，2000）。

应用数据挖掘技术进行信用评分

为了展示数据挖掘技术应用于信用评分，考虑一信用卡提供者，他们致力于建立一个信用评分模型来预测信用卡申请者的信用风险，并把他们分为有害损失、有害利润、良好风险三种。

信用卡提供者倾向于在信用卡申请者进行检查时部署模型。

假设所有的申请者都以申请表的形式提供以下的相关信息。

1.年龄；

2.年收入；

3.性别；

4.婚姻状况；

5.家庭子女数目；

6.拥有其他信用卡情况；

7.申请者是否具有未完结的抵押贷款。

考虑到上面涉及到的因素，目标变量为信用风险，输入变量为上面列出的七个变量。

在我们建立信用评分模型之前，信用卡提供者把代表性样本中的4117一年期信用卡持有者用户分成三类：

有害损失、有害利润和良好风险。

同样，作为常规的做法，申请者所提供的所有信息都是电子化自动收集的。

信用风险模型的构建需要建立预测性的模型技术。

为此，三种数据挖掘技术是比较合适的，也就是，Logistic回归、神经网络和决策树。

我们在本文的例证中使用SPSS公司的Clementine7.2（数据挖掘软件）。

与本文例证相关联的数据挖掘的图表参见图1。

需要注意的是，在图中包含了描述与可视化以及预测性模型。

进一步，关联与聚类对于信用风险评分的应用并不相关，因此这里并没有涉及。

关于数据的快照可以参见图2。

图1

图2

描述与可视化结果

正如先前提及的，描述与可视化对于理解数据以及在初始建模过程中发现模式、趋势以及关系是非常有用的。

在本例证中使用了几种描述与可视化的工具。

其中一些结果被汇总在图.3中。

例如，在Clementine中由统计节点生成的描述统计量，展示了在样本中，平均年龄为31.82，平均年收入为25580美元，家庭平均拥有子女数目为1.45个。

另外，3200或者是77.73%的信用卡持有者持有未完结的抵押贷款。

尽管有些结果没有显示，仍然主要注意的是，每个客户平均拥有其他类型的信用卡为2.43张，2077或者50.45%的客户为女性，2089或50.74%为已婚。

至于我们的目标变量——信用风险，906（22.01%）的客户为有害损失，2407（58.46%）的客户为有害利润，804（19.53%）的客户为良好风险。

这些描述性结果显然有助于我们理解数据（也就是信用卡申请者与持有者）。

图3

在Clementine中使用散点图节点与直方图节点来可视化数据，关于年龄与年收入的散点图以及直方图展现了客户年龄与收入之间的相关关系。

需要注意的是，在图表中我们使用了信用风险状况这个变量来交叠，反映目标变量的相关的可视化结果。

关于结果的分析展示了年龄大与收入高的客户以及持有相对较少其他信用卡的客户表现出更为有利的信用风险状况。

最后，利用Clementine中的网络节点可以绘制出反映性别、婚姻状况、抵押贷款状况与信用风险的联系（见图3下半部分）。

其中联系越为强烈的关系用更粗的线条来表示。

如果联系低于我们设置的某个门限，就不会显现在网络图中（比如良好风险与婚姻状况）。

网络图显示出有害损失与是否拥有未完结抵押贷款有着中等程度的关联，与女性、已婚信用卡持有者有着弱相关联。

正如早前提及的，描述与可视化对于建模来讲是有用的。

预测模型结果

在本文是用数据挖掘技术进行信用评分应用的展示中，预测性建模是最为重要的分析。

特别的，Logistic回归、神经网络、决策树都能够用于购建信用评分模型。

在实施预测性建模之前，样本数据首先要被分割为构建/训练样本集（大约占75%的数据）和评价/检验样本集（大约占25%的数据）。

为了简化，我们假设模型的完全准确率是衡量各个预测性模型的主要的性能指标。

也就是说，完全准确率是评价每个模型以及在模型间进行比较的标准。

图4和图5显示了分别由Clementine中的Logistic回归节点、神经网络节点、决策树节点C5.0生成的Logistic回归模型、神经网络模型以及决策树模型的部分结果。

Logistic回归结果说明了模型在统计上是显著的（基于0.05的置信水平）。

另外，正如图4左下部分所显示的，以下所列的输入变量在预测信用风险上在统计上是显著的：

年龄、年收入、子女数目、其他信用卡持有情况、婚姻状况、是否持有未完结的抵押贷款。

性别在统计上是不显著的。

关于模型的详细的结果汇总在图4的右边。

最后，对于Logistic回归模型，完全准确率为72.7%。

对于我们本文的例证来讲可以认为是足够的了。

图4

图5（左边部分）显示了一个相对简单的决策树模型，拥有九个最终节点（预测有害损失、有害利润和良好风险）和五个重要的输入变量：

年收入、年龄、子女数目、持有其他信用卡数目以及婚姻状况。

关于决策树模型的一个图形化的描述展示在图6中。

正如我们所看到的，决策树既可以非常直观的解释，也可以根据规则进行解释。

例如，良好风险信用卡持有者可能是那些年收入高于25049美元并且不超过一个子女的信用卡客户以及那些收入虽然低于25049美元但是39岁以上且单身的信用卡持有者。

决策树模型的完全准确率为76.0%，对于我们本文的例证来讲也可以认为是足够的了。

图5

最后，图5显示了神经网络模型，在模型中输入层有九个神经元（也就是四个连续变量和三个分类变量），隐含层有三个神经元，输出层有三个神经元（也就是风险状况——有害损失、有害利润、良好风险）。

在神经网络中，在输入层中输入变量的重要性以降序的方式排列为：

年收入、持有其他信用卡数目、婚姻状况、年龄、子女数目、是否有未完结的抵押贷款以及性别。

神经网络的完全准确率为76.6%，同样对于我们本文的例证来讲也可以认为是足够的了。

从上面展示的模型的结果我们可以注意到，神经网络模型是最为准确的。

但是，由于依据在构建/训练数据集上的三个模型的性能是向上有偏的（由于相同的观察值被用于模型的构建与模型的评估），所以需要依赖评价/检验数据集来评价模型的性能是非常重要的。