案例分析---数据挖掘在通信业中的应用.ppt

上传人:聆听****声音 文档编号:12048908 上传时间:2023-06-04 格式:PPT 页数:99 大小:2.21MB
下载 相关 举报
案例分析---数据挖掘在通信业中的应用.ppt_第1页
第1页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第2页
第2页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第3页
第3页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第4页
第4页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第5页
第5页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第6页
第6页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第7页
第7页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第8页
第8页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第9页
第9页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第10页
第10页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第11页
第11页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第12页
第12页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第13页
第13页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第14页
第14页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第15页
第15页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第16页
第16页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第17页
第17页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第18页
第18页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第19页
第19页 / 共99页
案例分析---数据挖掘在通信业中的应用.ppt_第20页
第20页 / 共99页
亲,该文档总共99页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

案例分析---数据挖掘在通信业中的应用.ppt

《案例分析---数据挖掘在通信业中的应用.ppt》由会员分享,可在线阅读,更多相关《案例分析---数据挖掘在通信业中的应用.ppt(99页珍藏版)》请在冰点文库上搜索。

案例分析---数据挖掘在通信业中的应用.ppt

数据挖掘在通信业中的应用,案例分析,案例1:

电信业务数据分析案例2:

电话通话记录分析,案例分析,案例1:

电信业务数据分析案例2:

电话通话记录分析,概述,本案例学习如何为通信业公司建立客户流失模型。

在电信业界,“流失”(Churn)一词专指客户的流失客户流失模型是用来预测哪些客户不久将流失。

建立客户流失模型是数据挖掘在许多不同行业的共同应用。

特别对电信而言,全球几乎每一家电信公司都正在或将要建立客户流失模型,而没有或不准备建立流失模型的公司是缺乏竞争力的。

概述(续),在本案例中,研究如何使用数据挖掘技术加强客户关系管理问题,通过客户流失预测模型的建立和客户流失原因分析,找出适当的促销方式及客户保留措施,提高客户满意度和忠诚度,提升客户价值,找出有客户流失倾向的、有价值的以及潜在有用的客户,让更多的客户享受更好的待遇和实惠,从而降低客户流失率,提高客户保留率,从根本上提升客户关系管理水平,达到全面提高企业赢利能力和核心竞争能力的目的。

最终为电信行业创造出更多的价值和财富,同时也为企业经营管理活动提供决策支持。

客户流失分析流程,电信客户流失预测分析是数据挖掘技术在实际领域中的一项基本应用,其流程也符合数据挖掘的一般流程,主要包括以下几个方面:

客户流失分析流程(续),客户流失分析流程(续),数据准备具体工作有数据收集、商业理解、数据理解、确定预测对象及目标等。

数据处理根据收集到的实际数据进行具体分析和处理,主要包括数据清理、数据转换、特征构造以及数据调整等步骤。

通过对历史数据进行分析并建立模型,对未来客户消费情况进行预测,这就要求有正确合理的历史数据。

因此,数据集中的特征需要挖掘出能够体现客户消费价值及消费倾向的特征。

在建立模型时,并不需要保留太多的特征,需挑选出能够充分体现客户价值及客户流失倾向的特征,即需要进行特征选择。

客户流失分析流程(续),建立模型利用合适的数据挖掘算法对整理好的数据进行聚类细分,并建立流失预测模型。

结果优化根据企业实际情况调整预测模型,优化预测结果。

制定策略依据模型分析得到的结果制定相应的客户保持策略。

电信客户流失原因分类,从世界各地的电信运营商运营情况来看,电信客户流失主要具有以下几个方面的性质:

(1)客户流失问题具有普遍性;

(2)客户流失不可避免;(3)客户流失代价昂贵;(4)客户流失难以控制。

电信客户流失原因分类(续),电信客户流失原因分类(续),从电信客户流失原因分类图上可以看出,最易于辨别的流失者类型是非自愿流失者。

非自愿客户流失已经成为某些运营商最大的一种流失类别。

这一类别包括由于欺诈、不付款和使用不足而流失的客户,一般来说这类用户存在的比例不大。

处理非自愿客户流失的一个有利之处是,运营商在如何管理这种客户流失问题上,具有很大的回旋余地,有许多手段可以处理非自愿客户流失带来的风险。

例如欺诈、信用以及使用不足,都是可以提前预料的问题。

通过加强对客户的筛选,可以减少此类情况的发生。

虽然非自愿客户流失是相当大一部分客户流失问题的根源。

但是,当人们想到电信运营商的客户流失的时候,通常想到的还是自愿客户流失。

电信客户流失原因分类(续),自愿客户流失出现在客户开始终止服务合同之际。

根据不同市场、不同的国家、不同的文化中各有不同,但大多数调查发现,自愿客户流失所声称的主要原因包括,电信客户流失原因分类(续),电信客户流失原因分类(续),调查显示存在许多不同的原因,但是,价格、质量、覆盖范围和客户服务这四个原因在所有客户流失原因列表中总是名列前茅。

从客户流失的性质来看,又可以把上述具体客户流失原因又可以总结为以下几类:

自然流失、恶意流失、竞争流失及过失流失,电信客户流失原因分类(续),数据准备,为了建立客户流失预测模型,必须收集大量的客户信息资源数据,同时需要对其进行数据预处理,得到构建模型所需的格式。

因此,在这个阶段需要对模型所需的历史数据(训练数据和测试数据)进行分析和处理,以便能充分挖掘出客户的关键行为特征。

数据准备(续),样本选择和数据描述以某地区电信行业的客户业务数据作为实验数据(包括训练样本集和测试样本集)。

该样本数据集中总共包含了176921条(正常客户记录156885条+流失客户记录20036条)记录,每条记录由18个客户基本特征和108个客户行为特征以及一个类别特征来刻画。

样本数据集中主要包含三类特征数据:

客户基本特征:

主要客户资料数据客户基本特征数据是客户的静态数据(如表7-1),相对来说是比较稳定的,但由于这些数据在收集时会包含大量的缺失值、不一致的值甚至是错误的数据。

所以需要进行大量的数据转换和清理工作。

数据准备(续),客户行为特征:

主要是客户的消费行为特征数据每条记录包含了客户在一个年度内的消费行为数据,包括一年中每个月的总费用,月租费用、本地通话费、传统国内通话费用、传统国际通话费用、传统港澳台通话费用、IP国内通话费用、IP国际通话费用以及IP港澳台通话费用等9个基本消费行为特征。

所以该样本数据集中共包含108个(129=108)消费行为特征。

详细内容见表7-2。

数据准备(续),数据准备(续),数据准备(续),客户类别特征实验样本数据集中包含一个能够判定类别信息的类别特征,根据类别信息可知道每个样本的基本状态(如表7-3)。

在样本数据集中,客户类别特征(Class)由0和1来表示,0表示该客户已经流失,1则表示该客户是正常客户。

数据准备(续),数据预处理数据预处理是数据建模前的准备工作。

数据预处理的效果会直接影响到模型的性能及分类预测的效果。

一方面,通过对数据格式和内容的调整,可以使建立的模型更加准确、简单且便于理解;另一方面,可以降低学习算法的时间和空间复杂度。

数据预处理主要包括数据清洗、数据转换、特征构造和特征选择等几个过程。

数据准备(续),数据清洗数据清洗的目的是补全数据、处理缺失值、除去噪声以及改正不协调的数据。

例如在客户样本数据集中有些客户的套餐名称、套餐生效时间、套餐失效时间及套餐竣工时间等数据为空。

在处理含有缺失值的特征时,如果有些特征的有效值少于总记录数据的1/5,则可删除此类特征;如果某记录中存在大量的空缺值,而这些空缺值难以以正常方法给予补全,则可以去除此类记录。

数据准备(续),数据变换数据转换主要包括构造新的衍生特征和对连续型数据进行规范化。

在实验数据集中除了有表示客户类别信息的特征外(也是用其它方法赋值的),没有直接体现客户价值和客户流失倾向的特征。

在本实验数据集中,消费行为特征中只包含了12个月的消费行为(月总费用,月租费用、本地通话费、传统国内通话费用、传统国际通话费用、传统港澳台通话费用、IP国内通话费用、IP国际通话费用以及IP港澳台通话费用),这几个特征不能充分体现客户在季度和年度的消费情况。

根据需要可以构造以下特征:

季度总费用:

将实验数据中的12个月平均分成四份,每三个月为一个季度。

数据准备(续),数据准备(续),季度消费比率的大小可以从客观上反映客户的消费行为趋势。

根据已知特征还可构造两个非常重要的特征:

ForthQ/total_Rate为第四季度占总年度消费的百分比,该特征也能从一定程度上反映客户的消费近况。

其计算如下:

根据客户在一个年度内的消费情况可构造未消费月份数Non-fee,此特征可反映样本客户消费情况及流失情况。

数据准备(续),同时为了体现不同类别客户群体之间的消费差别,我们还需要构造8个不同的消费行为特征,分别为年度月租总费用、年度本地通话总费用、年度传统国内通话总费用、年度传统国际通话总费用、年度传统港澳台通话总费用、年度IP国内通话总费用、年度IP国际通话总费用、年度IP港澳台通总话费用。

其计算方法比较简单,就是将12个月份的相关费用进行累加。

数据准备(续),通过构造新特征,该样本数据集中总共包含了126个消费行为特征(108(原始行为特征)+4(季度总费用)+1(年度总费用)+3(季度消费比率)+1(Non-fee)+8(消费行为总费用)+1(ForthQ/total_Rate)。

在样本数据集中我们可以根据客户的年度总费用及其它消费行为的总费用来判断客户的价值,以季度总消费、季度消费比率及未消费月份数来判断客户的潜在价值,采用消费行为总费用识别不同客户群体的消费倾向。

数据准备(续),考虑到要对数据进行聚类分析,而聚类算法中要求对各连续型数据进行规范化,使得各连续数据的取值范围在0,1之内。

因此,需要对所有连续特征数据进行规范化,规范化的采用最大最小值规范化方法。

具体方法如下:

假设S和S,分别表示某有限值域的原值和新值,max_s和min_s分别在该值域中数据的最大值和最小值。

那么在该值域范围内各数据的规范化表达式可表示为:

数据准备(续),特征选择经过数据清理和数据变换后,接下来就要进行特征选择。

特征选择的效果会直接影响到分类预测模型的性能。

通过特征选择可以减少样本的维度,大大减少计算量,降低时间和空间复杂度,简化学习模型。

例如该样本数据集中电话号码和客户编号的相关性很强,我们可以认为它们之间存在冗余性,则可删除与目标特征相关性小的特征,即电话号码字段被删除掉。

我们主要采用第三章介绍的基于混合特征相关性的特征选择方法进行特征选择。

通过特征选择,服务编号、行业大类ID、行业小类ID、电话号码、竣工时间、拆机时间、最后一个月的IP港澳台通话费用、最后一个月的IP国际通话费用、最后一个月的传统港澳台通话费用、倒数第二个月的IP港澳台通话费用,倒数第二个月的IP国际通话费用、倒数第二个月的传统港澳台通话费用以及一年之中的月租费等12个特征被删除。

数据准备(续),经过数据预处理,实验数据集中最后留下的客户基本特征和行为特征分别为5个(客户编号、客户类别、用户类型、渠道、产品)和108个(90个行为特征和18个构造特征)。

最后该数据集中保留下来的特征总数为113个。

为了保证实验数据的分布能够很好地与现实情况相吻合,我们定义浓度这个概念来解释。

其目的就是要使得训练出来的预测模型能尽可能的抓住流失客户的特征。

所谓浓度就是训练集中流失客户与正常客户的比例。

如果训练集中的正常客户与流失客户的比例为1:

1,那么就说该训练集的浓度为1:

1。

通过观察我们会注意到,数据分布不平衡现象广泛存在于现实生活中。

一般地,对于绝大多数电信企业来说,客户流失率都比较低。

也就是说正常客户与流失客户的分布是不平衡的,每月流失的客户总是少数,而正常客户占绝大多数。

数据准备(续),经过上述分析,我们需要调整正常和流失数据的分布比例。

据电信部门统计,当正常流失率不超过20%时,客户流失特征不是很明显。

因此,我们在实验中,取实验训练集的浓度为4:

1(正常客户:

流失客户)。

经过数据预处理,有效客户流失样本记录数为15326条,结合预先定义的训练集浓度(4:

1),我们在样本集随机选取61304条正常样本与流失样本共同组合成训练数据集。

所以用于实验数据集的样本总记录数为76630条。

客户聚类分析,在讨论客户流失问题之前,我们首先要对客户进行细分。

在电信市场业务中,清楚地了解客户类别是对每个客户群采取有针对性措施的基础。

对电信业而言,不同的用户群在流失前后表现出不同的消费特征,这就需要将不同的群体分别开来对待,针对不同的用户群体建立分类预测模型,使得预测分析达到更好的效果。

客户聚类是根据一个或多个客户特征组合把所有客户划分成不同的群体,相同群体的客户间具有最大的行为相似性,不同群体的客户间具有最大的行为差异性。

通过对客户合理的类别划分,并对当前客户以及预期的客户群作区段分析,判断不同区段的突出特点,使电信企业对客户总体构成有准确的认识,同时对客户的服务和营销具有针对性。

对客户聚类可以达到如下目标:

了解客户群体的消费特征,了解客户的总体构成;了解各种客户价值的客户群体特征;了解流失客户的客户群体特征。

客户聚类分析(续),根据常识我们知道,任何企业的客户按不同的标准可以划分为不同的类型。

同样在电信行业中也存在着不同类型的客户群体,签于此,需要对客户进行聚类,可以得到更小、更精细的客户群体。

在对客户进行聚类后,会得到不同的客户群体,而不同群体的客户对电信企业创造的价值是不同的。

这里采用一趟聚类算法作为客户细分的基本方法。

具体的客户细分流程见图7-5。

客户聚类分析(续),客户聚类分析(续),在一趟聚类算法实验中,我们取聚类阈值S在EX-0.5DX,EX中随机选取,得到的最后聚类结果为:

训练集被聚成36个簇,聚类精度为87.94%,其中大簇8个,小簇28个且几乎都是单条记录聚成的簇相当于噪音。

由于小簇对我们的研究没有任何实际意义,所以忽略28个小簇。

在聚类结果中,8个大簇的正常样本和流失样本分布及各簇的年度消费总金额、各簇中客户的平均季度消费比率分别如表7-4和表7-5所示。

客户聚类分析(续),客户聚类分析(续),从各簇的类别分布情况来看,有6个簇(簇1、簇2、簇3、簇4、簇6和簇7)的客户基本上都是由正常客户组成的,只有两个簇(簇5和簇8)的客户基本上是由流失客户组成。

依据客户对企业所创造的价值(主要是各簇年度总费用平均值)可以将电信客户分为VIP客户群(簇7,约占总客户数的1.7%)、主要客户群(簇4,约占总客户数的8.5%)、普通客户群(簇2,约占总客户数的22%)以及小客户群(簇1、簇3、簇5、簇6和簇8,约占总客户数的67.8%)。

客户聚类分析(续),客户聚类分析(续),同时,从各簇的平均季度消费比率来看,簇6和簇8的消费比率呈下降趋势,所以属于流失型客户群而簇6属于具有潜在流失可能性的客户群,因为簇6中季度消费比率是逐渐减少,甚至第四季度的消费额只占到全年总消费额的1.5%,所以可以判定簇6是具有流失倾向的客户群。

而其它几个簇则可以认为是属于正常的客户群,但是它们的消费行为也存在较大的差别。

再从各簇的类别分布分析得知,不同价值群都或多或少地存在着流失客户,即所有客户群中都存在着客户流失现象,只是流失程度不同而已。

客户聚类分析(续),注:

AG分别表示各簇单个客户的年度本地通话总费用、年度传统国内通话总费用、年度传统国际通话总费用、年度传统港澳台通话总费用、年度IP国内通话总费用、年度IP国际通话总费用及年度IP港澳台通话总费用,客户聚类分析(续),从上述两个表中同样也可以看出,8个簇中存在着两对消费趋势相似的簇:

簇1和簇3,簇5和簇8。

为了更清楚地了解不同簇中客户消费行为的区别,表4-6列出了簇1、簇3、簇5和簇8的单个客户年度消费平均值。

从表7-6中可以看出,簇1和簇3的消费行为主要区别:

簇1偏向于国际通话消费,而簇3主要是港澳台通话消费。

同样可以看出簇5和簇8的区别在于国内和国际的通话消费偏向不同。

根据聚类分析的结果,在簇6这一易流失的客户群中,他们的年度消费额度也比较大,如果不挽留这些客户将会带来很大的损失。

查看客户的详细信息,了解客户具体的消费行为,分析客户的流失倾向和原因等等,这些都是电信企业的重要工作。

建立分类预测模型,客户聚类作为预测的基础,目标是将客户划分为不同的类别,这样可以使预测分析在不同的客户群体上进行,也就是说可以根据各记录的簇标号判定客户的类别。

因此,需要将聚类结果作为一个新的特征增加到实验数据集中(用于分类建模的数据集中包含了115个特征(113+1个聚类标号+1个目标特征)和76630条记录样本)。

实验根据各种分类算法的特点,我们选择算法结构和推理过程都比较好的决策树进行建模。

本实验采用Weka的决策树分类器(C4.5)作为分类预测的基本工具。

在实验中,对数据集采用随机选取2/3的数据用于训练,剩余的数据作为测试集。

建立分类预测模型(续),决策树从顶部开始,直到获得最佳分类结果时才停止分支。

当其达到最佳结果并获得按同一规则分类的客户时,便在底部出现叶节点。

通过决策树的树形可视化,可以了解每个叶节点的分类规则所需的最重要的变量。

如图7-6所示,第四季度/年度总费这个特征被认为是最重要的变量,接着是年度总费用、第一季度总费用以及渠道等等。

现举例说明被分类为流失客户的一个分支节点。

根据所显示的规则,这些客户为:

(1)第四季度占全年总费用的比率大于0.33656;

(2)年度总费用小于或等于61728元;(3)第一季度总费用大于2630元;(4)在符合上述条件的所有客户中,大客户类型为正常客户,而商业客户类型则为流失客户。

建立分类预测模型(续),建立分类预测模型(续),表7-7列出了实验数据集的分类正确率(CorrectlyClassifiedInstances),分类精度(Precision),召回率(Recall)、F度量(F-measure)以及混淆矩阵等测试结果。

根据测试结果可以判定测试结果是比较理想的,能够用于电信行业的分类预测。

对于几种评估方法的实际意义我们将在下一节中具体说明。

此外,为了说明本文方法的有效性,我们未加聚类结果作为新特征的数据集进行同样的分类测试,其分类正确率为96.325%,流失客户类别的召回率为0.932。

经过对比可以看出,将聚类和分类相结合可以提高分类的性能,也能提高少数类的识别率。

建立分类预测模型(续),模型评估与调整优化,聚类和分类预测模型所挖掘的是基于不同层面的知识,两模型的用途和作用也不同,很难评价这两种模型获取的知识之间是否存在优劣。

但是由于选取的数据可能存在一定的偶然性和必然性,不能保证挖掘出来的知识能直接判定其正确性和适用性,因此需要对挖掘出的模型进行评估和检验。

在评估和检验的分析结果的基础上对模型进行调整和优化,以保证所挖掘的知识更有效、更适用,能更准确的反映出市场状况。

模型评估与调整优化(续),

(1)模型评估在数据样本选择、预处理、建模过程中都会得出一系列的分析结果、知识、模式或模型,它们是对目标问题的多个侧面的描述。

但要形成最终的决策支持信息,还需要对这些结果和模型进行综合的解释和分析。

由此可以看出,模型评估是数据挖掘过程中必不可少的一个步骤。

通过对模型进行评估,检验样本数据的代表性以及模型的完备性。

模型的评估分为两个步骤:

第一步是由数据挖掘模型使用检验数据对挖掘出的模型进行评估;第二步是由数据分析人员对经过系统检验的数据进行评估。

由于在进行数据挖掘时,特别是对大规模的数据进行挖掘时,有可能是数据预处理中的特征选择方法在处理具体问题时产生了偏差,当模型建立起来后,这些问题往往会很容易被发现。

这时挖掘出的知识虽然正确,但并不一定具有实际价值,这就需要利用数据分析人员的业务知识对其进行过滤。

模型评估与调整优化(续),一般来说,模型的优劣可以从两个方面来进行评估:

一是从商业角度来评估模型的准确性,并尽可能找出解释的原因和理由;二是从理论角度来解释模型的合理性,从理论上判断挖掘结果的可行性。

从理论上说,对数据挖掘模型评估的数据应该利用未参与建模的数据进行检验,这样才能得到更准确的结果。

利用建模数据进行检验很容易导致分类模型出现较大的误差。

一个好的分类器不仅要能够很好地拟合训练数据,而且对未知样本也要能准确地分类。

换句话说,一个好的分类模型必须具有低训练误差和低泛化误差。

因为对训练数据拟合太好的模型,其泛化误差可能比具有较高训练误差的模型高,这种情况下就会导致所谓的过分拟合。

模型评估与调整优化(续),聚类模型评估聚类模型的评估无法在测试集上进行,评估聚类模型的主要方法就是看它所产生的每个簇对应的规则集是否能给出确切的商业解释。

对于聚类模型来说,聚类模型的建立的是用户整体特征,用整体特征去判断某个客户的具体行为可能是不合理的。

为了能够更全面地反映客户整体特征,使用越多的数据并且选择合适的特征,结果就越贴近真实存在的客户特性。

从聚类结果中可以判定客户价值以及簇与簇之间的相似性与区别。

不同客户群的客户在基本特征及消费行为特征方面的表现都是不相同的。

模型评估与调整优化(续),分类预测模型的评估针对分类模型的检验方法是对已知客户状态的数据利用模型进行预测,得到模型的预测值和实际的客户状态进行比较。

由于并不指望挖掘出普遍真理只是希望能够挖掘出在客户服务和市场决策中可供参考的知识,因此在进行模型检验时,需要对模型进行评估,如果在评估时达到要求就可以认为是合理的、可以接受的并能够进行实际使用的知识。

分类预测模型评估主要是在测试集上进行验证,评估分类预测模型的主要方法有分类正确率、召回率(预测覆盖率)、预测命中率(分类精度)以及F-measure值(如表7-8所示)。

模型评估与调整优化(续),模型评估与调整优化(续),分类正确率和预测命中率都是描述模型精确度的指标,其中分类正确率是预测正确记录数占总记录数的比值,预测命中率是预测流失中实际流失的比例。

召回率是描述模型的普适性的指标,是实际流失中预测正确的比例。

在实际模型的应用中,这三项指标实际上决定了决策者是否对特定客户群采取必要措施来降低流失率以及对哪些客户进行挽留。

如果覆盖率过低,例如,覆盖率仅达到40%,也就是说预测流失的客户数远远少于实际流失的客户数,这可能给决策者一个错误的信息,认为该指定客户群没有进行挽留的必要或者进行挽留代价过高,造成决策失误,影响企业的最终营业收入。

模型评估与调整优化(续),预测命中率和分类正确率同样也都是一个非常重要的指标,它反应了预测模型的准确性。

当预测覆盖率达到要求时,需要对客户采取挽留措施。

但如果预测命中率过低,则会造成对目标客户的误分类,其结果可能是对一些没有流失倾向的客户采取了挽留措施,而对一些流失倾向较大的客户则出于其被错误的划分为非流失客户没有进行挽留造成客户流失,商业投入的浪费。

因此,合适的预测命中率和覆盖率对企业的经营决策有重大的影响。

由上述分析可知,这几个指标值越大,说明模型的预测效果好。

从行业标准来看,基于决策树的分类模型已经达到了要求(几个主要指标都比较理想),可以投入使用。

模型评估与调整优化(续),

(2)模型调整与优化运用模型是将数据挖掘结果运用到业务操作中的关键步骤。

而预测结果会直接影响到电信部门的营销和市场动作。

所以当建立预测模型后,必须要根据测试集的预测效果对模型进行一定的调整与优化,提高模型的预测效果。

当得到被认为正确的知识后,希望业务人员可以针对得到的知识做出一些合理的业务理解。

例如:

可能发现客户的消费总金额与客户的流失可能性相关度较高。

模型评估与调整优化(续),对于分类模型的调整,其主要方法是对模型的参数的进行设定。

不同的挖掘算法建立的模型所得结果也不尽相同,所以参数也不同,其调整与优化的方式也有很大的差异。

对于聚类算法来说,聚类算法的选取、聚类阈值的确定和记录顺序会直接影响到聚类性能。

对聚类结果进行改进的方法有:

试用多个聚类算法及多次试验探索聚类阈值取舍,以能得到最好聚类性能(聚类精度高和可解释性强)的算法和阈值作为实验算法和参数;将训练数据随机打乱顺序多次,比较多次实验结果,在性能差异相差不大的几个训练集中抽出一个训练集进行实验。

经过理论分析和实验测试,从聚类的性能和时间复杂度两方面进行综合考虑,选择一趟聚类算法作为客户细分的基本方法。

模型评估与调整优化(续),对于分类算法来说,我们主要调整的是误分类成本和模型参数。

大多数预测模型都把在正常客户预测为流失客户与流失客户预测为正常客户这两种默认预测错误代价认为是相同的。

但是针对于不平衡数据而言,多数类和少数类的错分代价是不相同的,把多数类的样本预测为少数类代价相对较低,而把少数类预测为多数类的代价往往是较高的。

所以我们要尽量提高少数类(流失客户类)的分类精度,从而降低少数类的错分成本。

对于决策树模型来说,我们主要是调整树的结构,比如设定树的最大层数,每个节点的分支数量等等。

小结,数据挖掘技术在为电信企业争夺客户资源、制定营销策略、扩大市场份额、拓展业务领域等方面都可以起到不事或缺的作用。

使用两类模型进行挖掘:

聚类和分类预测模型。

针对客户流失这个问题来说,聚类有利于分析客户特征,让经营决策者可以根据流失客户的特征制定具有针对性的市场策略来减少客户的流失;而分类预测模型通过数据挖掘获得的知识,更主要地是对每个客户的消费行为进行评估,对客户的流失行为进行预测。

结合聚类和分类模型的结果基本上判定流失客户的类别及价值。

从这些知识的用途来说,聚类模型建立的是战略

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2