建立信用评分模型利用遗传编程Read.docx

资源描述

建立信用评分模型利用遗传编程Read.docx

《建立信用评分模型利用遗传编程Read.docx》由会员分享，可在线阅读，更多相关《建立信用评分模型利用遗传编程Read.docx（15页珍藏版）》请在冰点文库上搜索。

建立信用评分模型利用遗传编程Read.docx

建立信用评分模型利用遗传编程Read

创新研修作业

陆原鹏

建立信用评分模型利用遗传编程

周崇雄，黄纪正，郑国雄，

信息管理系，国立台湾大学，台北，台湾

管理技术学院，国立交通大学，Ta-Hsuch路，Hsunchu300，新竹1001年，台湾

管理学院，海南大学，桃园县

摘要

信用评分模型已被广泛研究领域的统计，机器学习，和人工智能（AI）。

许多新方法，如人工神经网络（神经网络），粗集，或决策树已建议增加信贷的准确性得分模型。

由于改善准确性不到百分之一可能转化为重大的节约，更先进的模型应提议大大提高精度的信用评分的模式。

本文遗传编程（GP）是用来建立信用评分模型。

两个数值例子将聘用这里的错误率比较其他信用评分模型包括人工神经网络，决策树，粗糙集和Logistic回归。

在此基础上的结果，我们可以得出结论GP可以提供更好的性能优于其它型号的模型。

2005年埃尔塞维尔有限公司Allrightsreserved。

关键词：

信用评分;人工神经网络（ANN）;决策树;遗传规划（GP）;粗糙集

1导言

信用评分模型已广泛应用于金融机构，以确定是否属于贷款客户是良好的申请人集团还是坏的申请人集团。

利用信用评分模型的优势可以被描述为从降低信贷成本的分析造福，从而实现更快的信贷决定，确保信贷集合，并尽可能减少风险（李，邱，吕&陈，2002年;西，2000年）。

由于改善准确性不到百分之一可能转化为可观的节余（西，2000年），更先进的模型应该提议大大提高精度的信用评分模型在本文。

为了获得满意的信用评分模型，许多方法被提出。

大体上，这些

方法可分为以参数统计方法（例如，判别分析和logistic回归），非参数统计方法（例如K近邻和决策树）和软计算方法（如人工神经网络（ANN）和粗糙集）。

近年来，人工神经网络是用于信用评分最流行的工具，并已有报告说，其精确度优于传统的统计方法处理关于信用评分的问题，特别是在关于非线性模式（德赛克鲁克，＆Overstreet，1996年，1997年;Mahlhotra＆马罗特拉，2003年;詹森，1992年;Piramuthu，1999年）。

然而，另一方面，人工神经网络已被批评其表现不佳纳入不相关的属性或小的数据集（卡斯蒂略，马绍尔群岛，格林&科登，2003年;费罗＆Cleror，2002年;纳特，Rajagopalan，＆Ryker，1997年）。

为了建立一个有效的判别函数，两个问题应该加以考虑。

首先，之间的关系属性和类别可线性或非线性。

第二，不相关的属性，应该被取消，以便提高精度的分类模型。

在本文，GP是采用自动和启发式以确定适当的判别函数和有效属性同时进行。

此外，与人工神经网络不同的只适合于大型数据集，GP在小数据集可以做得更好（纳特等人，1997年）。

为了有效地获取判别功能，数据集进行预处理的离散。

两个现实世界案件将用于以下比较准确率其他分类模式包括logistic回归模型，人工神经网络，决策树和粗糙集。

在此基础上,我们可以得出结论，可以提供更好的性能优于其它型号的模型。

其余本文安排如下。

第2节介绍了模型的信用评分。

离散和遗传规划中提出了第3节。

两个实时世界的例子是用来证明拟议,方法在第4节。

讨论中提出的第5节和结论是在第6节。

2信用评分模型

在本节中，我们描述三种流行中使用的模式建立信用评分模型。

第一种模式是后勤回归，这是主要用于在统计领域分类问题。

第二种模式是人工神经网络，这是以其出色的学习能力，非线性关系的一种制度。

第三个模型是粗糙集，这是一种感应基础算法，并已被广泛应用在20世纪90年代以来的分类问题。

2.1。

Logistic回归

Logistic回归模型是一个最流行的统计工具的分类问题.Logistic回归模型，不同于其他统计工具（例如判别分析或普通线性回归），可以适合各种分配的职能，如Gamble,Poisson,normal等（新闻威尔逊，1978年）更适合信用评分的问题。

另外，为了提高其准确性和灵活性的几种方法已建议延长传统二进制后勤回归模型，其中包括多分类Logistic回归模型（莱斯蒂，1990年;奥尔德里奇和纳尔逊，1984年;DeMaris，1992年;诺克＆伯克，1980年;廖，1994年）和后勤回归模型下令类别（本周二，1980年）。

因此，广义Logistic回归模型是一般形式的二元逻辑回归模型和多分类Logistic回归模型。

让一个P-三维解释变量x0Z（x1,x2,.,

xp）和Y的反应变量与类别1,2,.,r.

那么多分类Logistic回归模型得到的

方程

（1）

是一个（p+1）条载体的回归系数为可变的jth.

让过去的应答水平的参考水平，然后反应概率的

有关公式可以计算

是的ln可能性的多分类Logistic回归模型和

指样本的N对象。

当类是等于2的多分类Logistic回归模型降低了二元logistic回归模型。

虽然logistic回归模型在许多应用中可以发挥出色，但是当关系的系统非线性的精确度下降和logistic回归人工神经网络提出了处理这个问题。

2.2。

人工神经网络人工神经网络制定了模仿神经生理学的人脑是一种灵活的非线性回归，判别和聚类模型人工神经网络的结构通常可以作为一个代表三层系统，命名为输入，隐藏，和输出层。

在输入层的第一个过程的输入功能隐层。

隐藏层然后计算了足够的使用权的转让，如双曲函数切线，softmax，或后勤功能，然后递交给输出层。

许多计算神经元结合成一个高度互联系统，我们可以发现复杂的非线性关系的数据。

简单的3层感知，这是最常用的信用评分的问题，可以描绘成图1所示。

近年来，人工神经网络已广泛应用于信用评分的问题，据报道，其精度优于传统的统计方法，如判别分析和logistic回归（德赛等，1996年，1997年;詹森，1992年;Mahlhotra＆马罗特拉，2003年;Piramuthu，1999年）。

然而，如前所述，人工神经网络而受到批评，其表现不佳时，现有的不相关的属性或小的数据集。

虽然许多方法已经提出来处理这个问题的变量选择（费罗＆Cleror，2002年;纳特等人。

1997年），它是时间的浪费和使模型更复杂。

此外，其他一些学者的批评限制了其长期的培训过程中的设计优化网络的拓扑结构在信用评分的问题（葵涌及格雷，1999年;文＆的Shavlik，1997年）。

2.3。

粗糙集

粗糙集，原先提出的帕夫拉克（1982年），是一个数学工具来处理含糊不清或不确定，确定性与模糊集，也有一些优势，粗糙集理论（帕夫拉克，Grzymala-Busse，Slowinski，＆Ziarko，1995年）。

一个主要优点是，不粗糙集不需要任何预先假设或初步信息的数据，如等级隶属函数在模糊设置秒（石墨zymal一个Busse，1988）。

最近升Ÿ，研究ough设置理论和模糊集理论已被用于补充或把（查克拉巴蒂，比斯瓦斯，与南大，2000年;Mordeson，2001年;Radzikowska＆Kerre，2002年）彼此而不是竞争（杜波伊斯和普拉德，1991年）。

更多详细的讨论的过程中粗糙集理论可以提及Walczak和Massart（1999年）。

原来的概念近似空间中粗糙集可描述如下。

鉴于一个近似空间

其中U是宇宙是有限的和非空集，和A一科技，他的一套在T里，但胚胎干。

然后基于T他近似空间，我们可以定义的上，下限近似一套。

设X是一个子集U和下近似的

（5）

上近似的X在A是

（6）

（7）

（5）代表组成，至少于一载有十，所谓最好的上近似的X在A和（6）代表组成的最大的背景设置在X中所载，所谓最佳的下近似。

在建设上，下近似的边界可派

（8）

根据近似空间，我们可以计算约简和决策规则。

鉴于信息系统

I=（U,A）,RED（B））

（9）

指质量近似的U的B.

一旦简已经产生，上覆约简的信息系统可诱导的决定规则。

决定规则可以表示为

，其中

指结合初等条件，

是指'表示'，

指脱节的初等的决定。

诱导方法的优势（如粗糙集和决策树）在于，它可以提供可理解的规则为决策者（简称DMS）。

这些智能gible规则可以帮助管理系统，以实现内容的数据集。

虽然这些方法已上岗以及发展的oped并成功地应用于信用评分问题（安，町，与金，2000年;Beynon及剥离，2001年;Dimitras，Slowinski，Susmaga，＆Zopounidis，1999年），主要问题的方法是诱导的能力预测。

很显然，如果一个新进入对象不比赛的规则，就不能确定哪些级IT属于。

下一步，我们所描述的概念，这是模型用在这里，以在第3节建立信用评分模型。

3。

遗传编程

遗传规划是由古座（1992）自动提取可理解关系的一种制度并已用于许多应用，如象征性的回归（戴维森，莎维科，与沃尔特斯，2003年），和分类（斯特凡诺，Cioppa，＆Marcelli，2002年;张与巴氏，2004年）。

模型的代表可看作是一个树的结构组成的功能设置和T呃米信号设置。

的F队第一盘我科技，他运营商，职能或声明如算术操作上或声明如

其中可在模型。

终端一套包含所有的投入，常量和其他零论点模型树。

例如，表示xy+3/GP树可以派代表作为图2。

一旦我们初始化一个人口GP树的下面的程序相似，遗传算法图1。

三层神经网络。

包括确定的适应度函数，遗传等运营商的交叉，变异和繁殖，和终止的标准，等下一步，我们介绍三主要运营商，交叉，变异和繁殖，以显示程序找到（近似）最佳代。

在GP的交叉算子是用来交换的子树从家长制的儿童使用交配选择政策，而不是交换位字符串如天然气。

一个例子是交叉的GP中显示图3。

类似的GAs，GP使用的变异算子，以避免陷入局部最优的解决方案。

突变运营商采用随机选择一个节点的子树和取而代之的是一个新创建的子树随机。

最后，新一代可从两个父母转载使用复制经营者代表一个更好的解决办法。

为了确定适当的判别函数，健身功能的糖蛋白可被描述为

（10）

在abs是指绝对的运营商，Oi指观察类和荣表示预期级。

应当强调，在功能设置和终端设置应多样化，足以代表独立之间的关系和反应变量。

更过去，为了满足简约的原则，深度在GP树也应该是有限的。

此外，为了获取判别函数切实有效地，持续离散属性应采用前站。

许多discretiza-化算法，如布尔推理算法，熵算法和奈维生素E算法已经提出处理这个问题（单，哈密尔顿，Ziarko，＆Cercone，1996年;吴，1996年）。

本文布尔推理算法是用来确定适当的离散价值观。

接下来，两个案件的经验将被用于后续到比较建议的方法和其它型号。

4实证分析

在本节中，GP和MLP比较，分类回归树（CART），C4.5，粗糙集，和后勤回归表（LR）使用两个现实世界中的数据集。

第一数据一套包括数据，澳大利亚信用评分与307例子信用值得客户和383例子信用不配客户。

它包含14个属性，有6名是连续属性和八个明确属性。

第二个数据集，称为德国信用数据集，提供了霍夫曼教授在汉堡。

图。

3。

交叉经营GP树。

图。

2。

代表性的GP树。

表1

澳大利亚离散的连续属性的数据集

表2

参数设置GP

它包括客户的信用评分的数据与20的功能，如年龄，性别，婚姻状况，信用历史记录，工作，帐户，贷款目的，其他个人信息等,有700个记录被认为是有价值和信贷300,记录被认为是信贷不配。

这两个数据集公开从国际自行车联盟的存放机器学习数据库，主要是用来比较性能各种分类模式。

第一步所提出的方法是解剖连续属性。

例如澳大利亚的数据集，结果的离散可显示在表1。

离散的连续属性在德国数据集可以被描述为显示在附录A

下一步，我们设置的澳大利亚GP参数数据集如表2所示的参数和德国的数据集还可以显示在附录B为了建立该判别函数尽可能灵活，我们把逻辑算子的功能设置。

论另一方面，由于一系列的离散值从1日至14日，我们把常数从1到14进入终端设置。

五个分样品用于比较错误率的信用评分模型。

此外，抵抗方法用于避免过度的问题。

错误率的测试设备在澳大利亚和德国的数据集可以被描述为显示在表3和表4。

在此基础上的结果，我们可以得出这样的结论：

提出的方法优于其它型号的实证分析。

此外，神经网络与logistic回归也执行了这项研究，可以有其他选择信用评分模型。

下一步，我们提供的讨论根据我们的实施。

5。

讨论

由于巨大的增长率信贷业，建立有效的信用评分模型是一个重要任务，节约成本和效率的数额决定决策。

虽然许多新的方法已被建议，更多的问题，应考虑增加的准确性，信用评分模型。

首先，将摧毁无关变量的结构这些数据的准确性和降低的判别功能。

其次，信用评分模型应确定正确判别函数（线性或非线性）自动。

第三，信用评分模型应有用的大国和小的数据集。

针对上述原因，GP是用来建立信用评分模型在这个文件。

在此基础上的模拟结果，我们可以得出结论该GP优于比其它型号。

但是，神经网络和Logistic回归还可以提供满意的解决方案可其他办法。

的准确性上岗基础的方法（决策树和粗糙集）处于劣势的这项研究。

很显然，决策规则是来自训练集。

但是，如果一个新进入对象测试设置不符合任何规则，但不能确定其中类属。

相比其他模式，我们认为，GP更适合信用评分问题以下原因。

与传统的统计方法需要假设的数据和属性，GP是一个非参数的工具，适用于任何情况和数据集。

人工神经网络相比，GP能确定适当的自动判别函数，而不是分配传递函数的决策者。

此外，GP也可以选择自动的重要变数。

最后，该判别函数是可以得出的GP省日吨他bett呃预测性能比感应基于算法。

6结论

建立信用评分模型涉及的问题变量选择和模型辨识。

虽然许多办法已经提出，灵活和准确的方法是有限的。

本文GP受雇于建设判别函数的信用评分的问题。

论根据实证结果，我们可以得出结论，GP更加灵活，性能更好的准确性信贷得分问题明显。

附录A

离散的连续属性在德国数据集使用布尔推理算法可称为表A1。

附录B

德国的参数数据集可以表明在表B1。

参考资料

莱斯蒂，答：

（1990）。

分类数据分析。

纽约：

威利。

安贞桓，谢博，赵，薰修，与金，牟隽（2000年）。

综合方法粗糙集理论和人工神经网络的企业倒闭预测。

专家系统的应用，18

（2），65-74。

奥尔德里奇，学者，与尼尔森，楼4（1984年）。

线性概率，罗吉特和概率模式。

贝弗利山庄，美国加利福尼亚：

贤者。

Beynon，学者（2001年）。

变精度粗糙集理论和数据discretisation申请企业未能预测。

欧米茄：

国际管理科学学报，29（6），

561-576。

卡斯蒂略，楼，马绍尔群岛，光，绿色，学者，及科登，答（2003）。

一种方法

相结合的象征性的回归与设计实验改进的经验模型的建立。

遗传与进化计算移植会议上，1975年至1985年。

查克拉巴蒂，光，比斯瓦斯，河，与南大，南（2000年）。

模糊粗糙集。

模糊集与系统，110

（2），247-251。

涌，华茂，与灰色，第（1999年）。

特别部分：

数据挖掘。

杂志管理信息系统，16

（1），11月16日。

克雷文，总统先生，＆的Shavlik，学者（1997年）。

利用神经网络的数据采矿。

下一代计算机系统，13（2/3），221-229。

戴维森，金威，莎维科，多巴胺，及沃尔特斯，大会（2003年）。

象征性的和数值回归：

实验和应用。

信息科学，150（1/2），95-117。

DeMaris，答：

（1992）。

罗吉特模型。

贝弗利山庄，美国加利福尼亚：

贤者。

德赛五，克鲁克，学者，及Overstreet湾（1996年）。

比较神经网络和线性评分模型在信用联盟的环境。

欧洲杂志的运营管理，95

（1），24-37。

德赛五，克鲁克，学者，及Overstreet湾（1997年）。

信用评分模型中的信用社环境使用神经网络和遗传算法。

的IMA应用数学杂志在商业和工业，8（4），324-346。

Dimitras，人工智能，Slowinski，河，Susmaga，河，与Zopounidis，角（1999年）。

经营失败预测使用粗糙集。

欧洲杂志运筹学，144

（2），263-280。

杜波依斯，博士，与普拉德阁下（1991年）。

在卓Pawlark（编辑），Rough集：

理论方面的推理数据。

多德雷赫特，荷兰土地：

克鲁维尔。

费罗，河，与Cleror，楼（2002年）。

一种方法来解释神经网络分类。

神经网络，15

（2），237-246。

Grzymala-Busse，学者（1988年）。

知识获取不确定，性给粗糙集方法。

杂志智能机器人系统，1

（1），3月16日。

延森，彭（1992年）。

利用神经网络的信用评分。

管理财务，18

（1），15-26。

诺克，4，＆伯克，学者（1980年）。

对数线性模型。

贝弗利山庄，晚上：

贤者。

古座，学者（1992年）。

遗传规划：

在计算机编程通过自然选择。

剑桥，美国马萨诸塞：

麻省理工学院出版社。

李指标，潮州，连铸，鲁，希杰，与陈，中频（2002年）。

信用评分采用混合神经判别技术。

专家系统应用，23（3），245-254。

廖吨楼（1994年）。

解读概率模型：

罗吉特，概率及其他广义线性模型。

贝弗利山庄，美国加利福尼亚：

贤者。

Mahlhotra，河，与马罗特拉，4光（2003年）。

消费贷款使用评价神经网络。

欧米茄：

国际期刊的管理科学，31

（2），83-96。

本周二，第（1980年）。

回归模型序数据。

杂志英国皇家统计学会，B辑，42

（2），109-142。

Mordeson，蔡志（2001年）。

粗糙集理论应用到（模糊）理想的理论。

模糊集与系统，121

（2），315-324。

纳特，河，Rajagopalan湾，与Ryker，河（1997年）。

确定显着的输入变量的神经网络分类器。

电脑和行动研究，24（8），767-773。

帕夫拉克，卓（1982年）。

粗糙集。

国际计算机和信息科学，11（5），341-356。

帕夫拉克，卓，Grzymala-Busse，学者，Slowinski，河，与Ziarko，美国（1995年）。

粗糙的集。

通信的计算机，38（11），88-95。

Piramuthu，美国（1999年）。

金融信贷风险评价的神经和神经系统。

欧洲运筹学杂志，112

（2），310-321。

出版社，由学者，和威尔逊，美国（1978年）。

选择logistic回归和判别分析。

杂志美国统计学会，73（4），699-705。

Radzikowska，马昂，＆Kerre，大肠杆菌大肠杆菌（2002年）。

比较模糊粗糙集。

模糊集与系统，126

（2），137-155。

山，北，哈密尔顿，黄建忠，Ziarko，美国，及Cercone，北（1996年）。

离散连续值属性的属性值的系统。

程序第四次国际orkshop粗糙集，模糊集，并MachineDiscovery，日本东京，74-81。

斯特凡诺，裁谈会，Cioppa，广告及Marcelli，答：

（2002）。

字符预基于遗传规划。

模式识别字母，23（12），1439年至1448年。

Walczak湾，及Massart，斯塔弗尔比（1999年）。

粗糙集理论。

化学计量学与智能实验室系统，47

（1），1月16日。

西，4（2000年）。

神经网络信用评分模型。

计算机和业务研究，27（11月12日），1131年至1152年。

吴十，4（1996年）。

贝叶斯discretizer的实值属性。

那个计算机学报，39（8），688-691。

张元，与巴氏，美国（2004年）。

遗传规划中分类大规模数据：

一个集成的方法。

信息科学，163（1/3），85-101。

展开阅读全文