某电信经营分析与决策支持系统数据挖掘分析.doc

资源描述

某电信经营分析与决策支持系统数据挖掘分析.doc

《某电信经营分析与决策支持系统数据挖掘分析.doc》由会员分享，可在线阅读，更多相关《某电信经营分析与决策支持系统数据挖掘分析.doc（12页珍藏版）》请在冰点文库上搜索。

某电信经营分析与决策支持系统数据挖掘分析.doc

XX电信经营分析与决策支持系统二期

数据挖掘分析

1前言

小灵通用户是XX电信企业利润的主要来源之一，也是市场竞争的焦点。

在目前的市场形势下，发展新客户的成本远远大于留住已有客户的成本。

因此加强对小灵通用户的营销和服务工作，减少小灵通用户的流失，是XX电信的重要任务。

目前在XX电信经营分析与决策支持系统中，存在对离网小灵通数据的事后分析，但是这样的分析无法做到提前预警，挽留用户。

利用数据挖掘技术则可以发现离网小灵通用户的潜在模式，提前进行预测，从而变被动服务为主动服务。

CRISP—DM（cross-industrystandardprocessfordatamining）是一个跨行业的、以用户为中心，交互式的数据挖掘标准流程，是目前数据挖掘领域内较成熟的方法论。

它将数据挖掘过程分为商业理解、数据理解、数据准备、建立模型、模型评估和结果部署等6个阶段。

本挖掘分析遵循数据挖掘标准流程，讨论小灵通用户流失预测模型建立的方法和过程，并对预测结果进行分析，以帮助业务人员及时、准确地做出针对性营销服务。

2后付费小灵通用户离网预测

2.1理解

商业理解是从业务角度来理解数据挖掘的目标和要求，再转化为数据挖掘问题。

本挖掘分析的目标确定为：

针对目前在网的后付费小灵通数据进行离网概率的预测。

该目标涉及后付费小灵通用户和离网两个概念。

其中，后付费小灵通在业务系统中已有标识；离网的用户定义为主动及被动拆机用户。

2.2数据理解

数据理解的任务是对原始数据进行收集和熟悉，检查数据质量，对数据进行初步探索，并发现可能存在的、有分析价值的数据特征，以形成对隐藏信息的假设。

2.1.1研究对象选取

以全省2007年1月离网的后付费小灵通用户为研究对象，同时选取同期在网的后付费小灵通用户作为对照研究对象。

确定离网时间点为2007年1月，因此对后付费小灵通用户从2006年7月至12月共6个月的相关变量进行研究。

离网用户的选取：

选取2006年7月前入网，2007年1月内拆机的用户，共选出满足条件的用户31862名。

在网客户的选取：

2006年7月前入网，2007年1月31日状态为正常的后付费小灵通用户共1805006名。

同时，为避免一些偏差数据的影响，在用户的选择中屏蔽了公免后付费小灵通用户。

2.1.2变量选取

基本假设：

后付费小灵通用户的行为在年度上不存在强的季节性，即后付费小灵通用户的行为特征和离网影响变量不会因为处于一年中的不同月份（季度）而发生较大变化。

根据对业务的理解，选定以下3方面的变量进行数据理解：

1.后付费小灵通用户产品订购数据：

主要反映用户与服务商关系的数据，如产品类型、在网时长、订购增值业务信息、是否加入套餐等。

2.用户消费行为特征数据：

主要通过用户每月帐务数据反映，且这类数据可以从平均水平和变动情况2个方面来反映。

本挖掘分析采用离网时间前6个月，用户的帐务数据变化情况来反映用户消费行为的变动。

主要数据包括：

用户6个月的收入、平均月租费、市话费、传统长话费、IP长话费，以及用户平均月租费占总费用的比例、6个月总收入波动率（（最大收入-最小收入）/平均收入）等

3.用户其他行为特征数据：

如欠费时长、累计欠费金额等。

2.2数据准备

数据准备阶段初步完成变量的选择和导出变量的生成，同时对一些存在数据质量问题的字段进行相应的处理。

首先按照选取的数据范围和变量生成数据，如下图结构：

在Clementine中对数据进行实例化分析，数据结果如下所示

1.后付费小灵通用户产品订购数据：

主要反映用户与服务商关系的数据，如产品类型、在网时长、订购增值业务信息、是否加入套餐等。

此部分数据来自于97系统用户资料，经检测，除入网时长外，这些数据准确度较高，无缺失值和偏差值。

从上图可看出，入网时长取值范围为6个月到24071个月，很明显，存在错误数据。

故将超过入网时长在180个月（15年）以上的用户（共3314个），定义为入网时长180个月。

因总数据量大，此操作直接在数据库中进行。

2.用户消费行为特征数据：

主要包括：

用户6个月的收入、平均月租费、市话费、传统长话费、IP长话费，以及用户平均月租费占总费用的比例、6个月总收入波动率（（最大收入-最小收入）/平均收入）等。

经数据质量核查，发现有部分用户6个月收入都为0。

这些数据（共88322条记录）中，绝大部分是由于97、计费系统资料不统一造成，少量是由于用户长期欠费，造成停机，不产生费用。

这些数据由于特征值相同，对模型会造成偏差影响，故直接删除这些数据。

3.用户其他行为特征数据：

如欠费时长、累计欠费金额等，经核查，数据较准确，不进行任何处理。

进行上述处理后，数据质量报告如下：

2.3建立模型

在建立模型过程中，将根据实际模型的效果对变量做进一步的筛选和处理，既保证模型准确率，又尽量减少最终模型输入的变量，便于业务解释。

离网预测模型的准确率，在技术上主要包含预测命中率和预测覆盖率2个指标。

其中，预测命中率表示在被预测出离网的客户当中，实际离网所占的比率，它是描述模型精确性的指标；预测覆盖率表示在实际离网客户中，被预测出为离网的客户所占的比率，它是描述模型普适性的指标。

从业务的角度来说，对离网用户的预测是尽可能地将存在离网倾向的后付费小灵通用户预测出来，以便能及时采取措施进行挽留。

因此，要求在控制预测命中率的前提下尽量提高模型的预测覆盖率。

2.3.1变量筛选

首先选择除主体产品实例标识、业务接入号、本地网代码、拆机标志外的所有字段作为模型的输入变量，拆机标志作为输出变量，类型节点定义如图：

分别生成神经元网络、C5.0、Logistic回归模型，如图：

对生成的模型进行实际值和预测值比较，得出结果如下（图中纵坐标表示实际离网情况，横坐标表示预测离网情况）：

以上三个模型，命中率和覆盖率分别是：

神经元网络模型：

命中率：

79.01%，覆盖率：

74.36%；

C5.0模型：

命中率：

90.25%，覆盖率：

84.02%；

Logistic回归模型：

命中率：

79.36%，覆盖率：

72.61%。

从以上分析可以看出，这3种模型均达到较理想的状态，尤其是C5.0模型，命中率超过90%。

但是模型中用到了所有的变量，不利于业务理解和解释，对这三种模型进行详细分析，进行变量筛选：

神经元网络变量关联度图：

Logistic回归关联图：

C5.0模型树：

对三种模型中，变量关联度与重要性进行筛选，最终确定以下变量作为最终模型变量：

入网时长、定购增值业务个数、是否加入套餐、平均月租费、平均月租费占比、平均市话费、平均长话费、平均IP长话费、总收入波动率。

2.3.2建立模型和模型参数调整过程

以筛选后的变量作为输入，分别建立神经网络模型、C5．0模型和Logistic回归模型。

类型节点定义如下：

神经网络模型评估：

命中率：

70.62%；覆盖率：

80.19%

C5.0模型评估：

命中率：

86.33%；覆盖率：

84.60%

Logistic回归模型评估：

命中率：

70.18%；覆盖率：

87.02%

从以上建立模型的过程中发现，不同的模型达到的准确率（命中率和覆盖率）都比较高，能够达到业务上的要求。

实际应用中，可以根据具体需要选择使用不同的模型。

2.4模型评估

从技术角度来看，建立的神经网络模型、C5．0模型和Logistic回归模型中，C5.0模型的综合准确率最高，但是与其它模型的准确率相比并无大的差异。

从业务角度来看，由于目前竞争激烈，小灵通用户是企业利润的关键，业务人员最关注的是能够尽可能多地获取可能离网的小灵通用户的信息，即要求预测模型的覆盖率尽可能高，其次的要求才是保证模型的命中率。

因此，在实际应用过程中，可以将利用神经网络、C5．0、Logistic回归模型预测出的离网用户，都作为可能离网的用户，以尽量提高模型的覆盖率。

从模型评估结果来看，模型的覆盖率达到了87.02％，而模型的命中率也达到了86.33％。

2.5结果发布

结果部署的目标是将预测模型生成的结果以一定的形式展现给业务人员使用。

因此，应当从业务的角度来关注模型发布的形式。

后付费小灵通用户离网预测模型的预测结果主要包括：

给出具体的离网用户的名单；针对预测出可能离网的用户，给出其离网可能性的量化指标，即离网概率。

这些结果是针对单个用户的，可以以列表的形式提供给业务人员，采取一对一的服务。

如果是采用决策树（C5．0）算法建立模型，还可以得到离网用户的特征描述。

但由于其中特征描述是以规则的形式表现的，过于技术化，很难从业务角度加以理解和解释，也不适合业务人员获取真正的离网用户的特征信息。

因此，在分析离网用户特征时，考虑以预测出的离网用户为研究对象，将输入模型的变量作为分析角度，利用多维联机分析处理（MOLAP）技术辅助业务人员获取离网用户的群体特征，得出定性的结论，从而采取有针对性的挽留措施。

2.6总结

本文遵循数据挖掘标准流程（CRISP．DM），介绍了后付费小灵通离网预测模型的建立过程。

建立的预测模型的准确率能够满足业务人员的需求，但是仍存在一定的局限性。

一方面，在数据准备过程中，将满足条件的数据随机地拆分成了训练集和检验集。

训练集用于模型的训练，而检验集用来判断模型效果的好坏。

但是在模型评估中并未对模型进行脱离本次抽取数据的预测。

另一方面，模型建立的基本假设不考虑季节性、竞争对手营销措施等外部因素对模型稳健性的影响，这也是一个局限。

因此，未来的工作应主要关注以下几个方面：

一是在数据准备过程中，除了训练集和检验集的数据外，还应准备专门的独立评估数据，以便对模型效果进行更全面的评估；二是由于用户的通话行为可能存在季节性的波动，因此，考虑增加外部因素作为模型的输入变量，以增强模型的稳健性。

展开阅读全文