通讯业务数据分析方案论文.docx
《通讯业务数据分析方案论文.docx》由会员分享,可在线阅读,更多相关《通讯业务数据分析方案论文.docx(34页珍藏版)》请在冰点文库上搜索。
通讯业务数据分析方案论文
通话数据分析方案
摘要
用户分类是通讯公司改善通讯设施、拓展新的通讯业务的基石。
用户价值包括当前价值和潜在价值两部分,对于通讯公司实现用户价值目标,最主要的两个用户信息变量为通话时间和通话频数。
对用户的两个变量的离群数据进行分析,将用户分为49小类3大类,不同类别的用户应采取不同的管理策略。
在此基础上构建用户分类器和用户分类模型,并进行用户分类的实例研究。
本文主要完成的任务有:
关于用户类型转化预测的研究中,划分用户群体的原则是采用帕累托“二八法则”。
对于问题一,根据给出的通话记录信息,采用帕累托“二八法则”来划分用户群体,以用户的通话时间和通话频数这两个信息变量为指标,可建立一个用户分类模型。
对用户的两个变量的离群数据进行分析,将主叫和被叫均分为49小类,3大类。
对于问题二,分析了主叫与被叫之间的关系,因其不存在必然的联系,同时根据现有的通讯公司的收费情况和运转方向,故可不考虑被叫。
进而可根据问题一的分类结果,则可为通讯公司开发一项新的业务选择合理的用户作为推广人选。
对于问题三,计算出每个通讯设施(基站)上调查的总的通话时间和通话频数,将基站划分成8个区域,则算出每个区域的相应的用户指标和基站个数,即可得相应区域的单位面积上的用户指标数t。
观察用户指标数t与其对应的基站个数是否相协调,若相协调,则表明其通讯设备设置合理;否则,根据每区域的用户指标数t调整各区域的基站个数。
关键词:
离群数据 用户分类通讯业务通讯设施通话时间通话频数帕累托“二八法则”
一、问题重述与问题分析
1.1问题重述
通讯技术的不断发展拉近了人与人之间的距离。
电话作为主要的通讯工具之一悄无声息地将我们联系在一起,形成一个巨大的社交网络。
这个巨大的社交网咯对当前的通讯设备和业务提出了更高的要求。
如何利用现有的通话记录数据进行概括分析,以便做出合理的决策,进而改善通讯设施、拓展新的通讯业务,依然是很多通讯公司所面临的一个难题。
附件给出了一家通信公司公布的2009年6月份某地300个用户10天内的通话记录,试完成以下问题。
1.请根据这些通话记录信息建立数学模型以对用户分类。
2.如果需要退出一款新的通信业务,如何合理选择部分用户作为首选推广人群。
说明你的理由,并撰写一份不超过两页的给公司经理的建立。
3.该地现有的通信设施(如基站等)建设情况是否合理。
如需改进,请给出合理的建议。
图一基站的位置
2.1问题分析
对用户分类的依据在于用户对通讯公司的效益会产生多大的影响,以用户的通话时间和通话频数为指标,通过对这两个变量参数的离群数据的挖掘,可以发现重要用户的有利信息。
从而可根据帕累托“二八法则”对用户进行分类,即可分为49小类,3大类。
对于问题二,选择合理用户作为新业务的推广人选,则要基于用户分类的基础上。
同时,先要分析主叫与被叫之间的联系,若其之间无必然的联系,同时根据现有的通讯公司的收费情况和运转方向,则可不考虑被叫。
若其之间有相关的联系,则要同时考虑被叫情况。
考虑主叫根据问题一得分类,则可从用户的当前价值和潜在价值两个维度分析,被叫同理。
对于问题三,根据调查给出的通话记录,即可得每个通讯设施(基站)的通话总时间和通话总频数,分析其两种之间的关系,若其两者对反应基站的利用合理性能达到统一效果,则可选其一进行分析,否则用他们的综合效应来衡量基站的合理性。
可利用相应区域的单位面积上的用户指标数t作为衡量指标,若t小,而其区域所占的基站数多,则表明基站设施不合理,否则设施合理。
二、模型假设
根据题意,可以进行如下假设:
1、当前用户的消费习惯在短期时间内没有很大变化
2、现有的通讯设施对当地居民无很大的障碍
3、通讯公司的效益大致符合帕累托“二八法则”
4、通讯公司调查的通话记录数据具有代表性
5、基站的地理位置以图中一个小方格为最小划分区域
6、若基站处于方格线上,则认为该基站同时属于此相连的两个方格
三、符号说明
变量名称符号说明
A通话数据
T最高通话时间
P最高通话频数
ti第i阶段通话时间对应的人数比例
pi第i阶段通话频数对应的人数比例
count(i,j)落在ti、pi相应区间的人数比例
t相应区域的单位面积上的用户指标数
Ti第i个用户的通话总时间Ti
Pi第i个用户的通话总频数Pi
其中i、j=1、2、3………...7
四、模型的建立与求解
本文模型的整体框架如下:
4.1划分用户群体的原则
采用帕累托“二八法则”。
即通讯公司80%收入来自20%的用户,70%的用户只提供了不足20%的利润,另有10%的用户不仅不会为通讯公司带来任何利润,甚至会削弱通讯公司的赢利水平。
4.1用户信息变量
1、用户通话时间
用户在通讯公司调查的时间段内的通话总时间Ti
2、用户通话频数
用户在通讯公司调查的时间段内的通话总频数Pi
模型一
——对问题一的求解
1.1模型的建立
将给出的编号1~300的用户的10天中的通话时间和通话频数这两个指标都从通话记录中提炼出来,并记录下最大的通话时间T和最大的通话频数P,同时将每个通话时间和通话频数段内占的用户比绘画出来。
进而将这两个指标综合起来,即可得综合指标下的用户比count。
这样就可按帕累托“二八法则”建立一个用户分类模型。
图二主叫的分析图
图三被叫的分析图
1.2模型的求解
根据模型建立的过程中,对主叫、被叫的分析,被叫明显不满足帕累托“二八法则”,且考虑通讯公司现有的收费情况和运转模式,可以不考虑被叫,同时也为其分类。
根据综合指标下的count(i,j),就可以顺利地将用户划分器分为49个空间,由帕累托“二八法则”约束条件,从count(i,j)最大的开始相加,直到加到用户比总和占0.2,则可得到第一类用户,同理可划分第二类、第三类用户。
这样就实现了用户分类。
其求解的程序代码见附录1.1。
其结果如下:
countl=
0.00070.00400.01090.01280.00800.00330.0003
0.00230.01370.03740.04370.02730.01140.0009
0.00420.02530.06920.08110.05070.02110.0017
0.00510.03030.08290.09710.06070.02530.0020
0.00310.01870.05100.05970.03730.01560.0012
0.00110.00670.01820.02130.01330.00560.0004
0.00020.00130.00360.00430.00270.00110.0001
当3000<=t<5000时:
k1=-0.0060
b1=54
当5000<=t<=6000时:
k2=-0.0060
b2=48.0000
当0<=t<=3000时:
k3=-0.0060
b3=24
当3000<=t<4000时:
(3000,0)
结果分析:
当用户的通话时间t在3000<=t<5000这一范围时,其通话频数满足p>=k1*t+b1时;或用户的通话时间t在5000<=t<=6000这一范围时,其通话频数满足p>=k2*t+b2时,则这一类用户为第一类用户,即为通讯公司赢得效益近80%的20%黄金用户。
当用户的通话时间t在0<=t<=3000这一范围时,其通话频数满足p<=k3*t+b3时;或包括点(3000,0)时,则这一类用户为第三类用户,这10%的用户不仅不会为通讯公司带来任何利润,甚至会削弱通讯公司的赢利水平。
这两类以外的用户即为第二类用户,这70%的用户只提供了不足20%的利润。
模型二
——对问题二的求解
2.1模型的建立
根据主叫与被叫关系的分析,确定是否将被叫参与到新的业务的推广人选。
进而一问题一的分类为依据,根据用户的当前价值和潜在价值这两个维度,从而可为公司开发新的通讯业务选择合理的推广人选。
图四主叫与被叫的通话时间关系
图五主叫与被叫的通话频数关系
分析主叫与被叫的关系的Matlab代码见附录1.2.1。
2.2模型的求解
根据图四所分析的主叫与被叫之间的关系,可以看出其两者不存在必然的关系,同时又考虑到通讯公司现有的收费情况和运转模式,可以不考虑将被叫参与到新的业务推广人选中。
根据问题一对用户的分类结果,并从用户的当前价值和潜在价值这两个维度出发,可以为公司开发新的业务选出合理的推广人选。
用户的当前价值能为公司当前的运转提供保证,并为公司带来丰厚的效益,而客户的潜在价值能为公司带来源源不断的利益。
其建议书见附录1.2.2。
模型三
——对问题三的求解
3.1模型的建立
根据调查给出的通话记录,可得每个通讯设施(基站)的通话总时间和通话
总频数,分析其两种之间的关系,若其两者对反应基站的利用合理性能达到统一效果,则可选其一进行分析,否则用他们的综合效应来衡量基站的合理性。
可利用相应区域的单位面积上的用户指标数t作为衡量指标,若t小,而其区域所占的基站数多,则表明基站设施不合理,否则设施合理。
图六基站上的通话时间与通话频数的变化关系
图七基站上的通话时间
图八基站上的通话频数
3.1模型的求解
根据图六所分析的基站上的通话时间与通话频数的变化关系,可以看出其通话时间和通话频数对反应基站设施的是否合理性有同等的效应。
故可只考虑通话时间这个指标,来衡量基站设施是否合理。
同时,将基站分为8个不等区域,可求其相应区域的单位面积上的用户指标数t,将其作为衡量指标。
其求解的程序代码见附录1.3。
其求解结果如下:
cover=
1.0e+004*
5.63010.0003
0.99700.0004
1.26030.0002
6.19970.0008
4.62300.0003
1.76290.0002
3.01310.0007
1.78900.0001
avcover=
1.0e+004*
1.87670.24930.63010.77501.54100.88140.43041.7890
t=
1.0216e+004
n=
2.5110-3.0241-0.7664-1.93151.5252-0.2745-4.05070.7511
结果分析:
根据结果二维数组cover的结果可知,其相应区域的单位面积上的用户指标数t减少,而其上的基站数反而增加,故可判断通讯设施(基站)设置不合理。
avcover表示相应区域的单位面积上的每个基站上的通话时间量,用t记录avcover的平均值,其表示单位面积上的每个基站上的通话时间量。
n表示在现有的基站的基础上拆除或增加的基站数,其中n(i)=cover(i,1)/t-cover(i,2)。
n(i)大于0表示要增加的基站数,反之,则为要减少的基站数。
(当(-n(i)+1)>cover(i,2)时,应减少的基站数为(-n(i)-1))。
五、模型的分析
●误差分析
对于模型一是使用了帕累托“二八法则”对用户进行分类,因通讯公司的效益可能不是完全符合这一原则,故会存在一些不可避免的误差,但这一法则在市场上对用户分类是比较经典的分类原则,故这一模型可用。
对于模型二,因在对主叫和被叫关系的分析下,其两者不存在很大的关系,故没有考虑被叫,这样对选择合理的推广用户会造成一些误差,但根据现有的通信公司的运转方向,其误差不会很大,故此模型也可用。
对于模型三,在分析通话时间和通话频数之间的关系中,发现其两者对反应基站设施是否合理性有同等的效应,故只考虑的通话时间作为衡量标准,以相应区域的单位面积上的用户指标数t来判断基站设施的合理性,如此可能会造成一些误差,但其误差可忽略不计,故该模型可用来求解此问题。
●灵敏度分析
对于模型一、三,灵敏度很好,模型的准确性很高。
对于模型二,由于主叫与被叫没有进行综合分析,其准确性还不是很高,但其灵敏度很好,因此模型可以使用。
六、模型的评价、改进和推广
6.1模型的评价
优点:
·充分的利用了已知数据来建立模型,使其具有很高的准确性和可行性
·使用的准确的分类原则和适当的假设,使模型的准确性和实用性达到统一
·运用了功能强大的Matlab工具使数据处理误差达到最小
缺点:
·由于数据太多,没法使用工具进行模型的检验,只能一步一步地精化模型
6.2模型的改进
对于模型一主要进行模型的验证
对于模型三,将用户通话时间和通话频数综合成衡量基站设施是否合理,这样得到的结果更加精确
主要是对模型二的改进,可以考虑被叫这一方面,通过对被叫进行分析,来改变公司现有的运转模式也是很有实效性的
6.3模型的推广
可充分使用到市场上用户分类,为企业和公司制定相关策略和管理奠定了基础。
用户分类是企业用户关系管理战略的第一个基石,用户关系管理能帮助企业掌握用户的需求趋势,加强与用户的关系,有效地发掘和管理用户资源,获得市场竞争优势。
总之,本文模型对市场管理的影响和效益是不可估量的。
七、参考文献
[1]:
姜启源、谢金星、叶俊编,数学模型-3版,北京,高等教育出版社,2003.8
[2]:
吴建国、汪名杰、李虎军、刘仁云编,数学建模案例精编-1版,北京,中国水利水电出版社,2005.5
[3]:
杨 兰,卢润德.基于客户价值的客户分类方法研究[J].现代管理科学,2007(11):
95-96[2] AndrisAZoltners,MichaelBMoorman.CVM模式基石之一:
客户分类[J].商学院,2008(8):
50
[4]:
于红霞,汪 波,钱 荣.基于三维客户分类价值体系的客户关系管理研究[J].商业经济与管理,2006(11):
43-47
[5] 王维兵,刘 苗.客户分类方法综述[J].现代商业,2009(3):
74-75
[6] 夏火松.知识管理———市场营销知识获取与共享模式[M].北京:
科学出版社,2005:
60
附录:
Matlab程序代码
1.1问题一的求解
1.1.1对主叫的分析
clc
clear
A=xlsread('data.xls');
A;
n=size(A,1);
max=0;
%用二维数组person(1,2)表示人的信息,第一维通话时长,第二维通话次数
fori=1:
300
person(i,1)=0;
person(i,2)=0;
end
fori=1:
n
person(A(i,2),1)=person(A(i,2),1)+A(i,5);
person(A(i,2),2)=person(A(i,2),2)+1;
end
%绘制图形
fori=1:
300
x(i)=i;
end
subplot(2,2,1)
bar(person(:
1)')
title('用户通话时间图')
xlabel('用户的编号1~300')
ylabel('10天内通话时间:
分钟')
subplot(2,2,2)
bar(person(:
2)')
title('用户通话频数图')
xlabel('用户的编号1~300')
ylabel('10天内通话次数')
%T表示最高消费时间,P表示最高消费次数
T=0;
P=0;
fori=1:
300
ifTT=person(i,1);
end
ifPP=person(i,2);
end
end
%对用户的消费时间和消费频率分7阶段
%t(i),p(i)存储每阶段人数比例
fori=1:
7
t(i)=0;
end
fori=1:
7
forj=1:
300
ifperson(j,1)>1000*(i-1)&&person(j,1)<=1000*i
t(i)=t(i)+1;
end
end
t(i)=t(i)/300;
end
fori=1:
7
p(i)=0;
end
fori=1:
7
forj=1:
300
ifperson(j,2)>6*(i-1)&&person(j,2)<=6*i
p(i)=p(i)+1;
end
end
p(i)=p(i)/300;
end
%对每阶段的人数绘图
subplot(2,2,3)
bar(t)
title('用户比例-通话时间图')
xlabel('通话时长*1000')
ylabel('用户比例')
subplot(2,2,4)
bar(p)
title('用户比例-通话频数图')
xlabel('通话次数*6')
ylabel('用户比例')
holdon
%用矩形区域count(i,j)表示落在t,p相应区间的人数比例
fori=1:
7
forj=1:
7
count(i,j)=t(i)*p(j);
end
end
%找到消费时间最长次数最多的%20的人对应的区间
prob=0;
k=14;
whileprob<=0.2
forj=1:
7
i=k-j;
ifi>=1&&i<=7
prob=prob+count(i,j);
ifprob>=0.2
break;
end
end
end
k=k-1;
end
m=i;
n=j;
t1=m+n-7;
t2=n-1;
k1=(m*6-n*6)/((n-1)*1000-(m+n-7)*1000);
b1=m*6-k1*(n-1)*1000;
k2=((m-2)*6-(m-1)*6)/(n*1000-(n-1)*1000);
b2=(m-2)*6-k2*n*1000;
%找到消费时间最短次数最少的%10的人对应的区间
prob=0;
k=0;
whileprob<=0.1
fori=1:
7
j=k-i;
ifj>=1&&j<=7
prob=prob+count(i,j);
ifprob>0.1
break;
end
end
end
k=k+1;
end
mm=i;
nn=j;
last=prob;
fori=1:
7
forj=1:
7
countl(i,j)=count(8-i,j);
end
end
disp('每个矩形区间内的人数比例。
横坐标时间,总坐标频率')
countl
disp('当3000<=t<5000时:
')
k1
b1
disp('当5000<=t<=6000时:
')
k2
b2
disp('当0<=t<=3000时:
')
k3=((mm-1)*6-(mm+nn-2)*6)/((nn-1)*1000)
b3=(mm+nn-2)*6
disp('当3000<=t<4000时:
')
disp('(3000,0)')
1.1.2对被叫的分析
clc
clear
A=xlsread('data.xls');
A;
n=size(A,1);
max=0;
%用二维数组person(1,2)表示人的信息,第一维通话时长,第二维通话次数
fori=1:
300
person(i,1)=0;
person(i,2)=0;
end
fori=1:
n
person(A(i,3),1)=person(A(i,3),1)+A(i,5);
person(A(i,3),2)=person(A(i,3),2)+1;
end
%绘制图形
fori=1:
300
x(i)=i;
end
subplot(2,2,1)
bar(person(:
1)')
title('用户通话时间图')
xlabel('用户的编号1~300')
ylabel('10天内通话时间:
分钟')
subplot(2,2,2)
bar(person(:
2)')
title('用户通话频数图')
xlabel('用户的编号1~300')
ylabel('10天内通话次数')
%T表示最高消费时间,P表示最高消费次数
T=0;
P=0;
fori=1:
300
ifTT=person(i,1);
end
ifPP=person(i,2);
end
end
%对用户的消费时间和消费频率分7阶段
%t(i),p(i)存储每阶段人数比例
fori=1:
7
t(i)=0;
end
fori=1:
7
forj=1:
300
ifperson(j,1)>1000*(i-1)&&person(j,1)<=1000*i
t(i)=t(i)+1;
end
end
t(i)=t(i)/300;
end
fori=1:
7
p(i)=0;
end
fori=1:
7
forj=1:
300
ifperson(j,2)>6*(i-1)&&person(j,2)<=6*i
p(i)=p(i)+1;
end
end
p(i)=p(i)/300;
end
%对每阶段的人数绘图
subplot(2,2,3)
bar(t)
title('用户比例-通话时间图')
xlabel('通话时长*1000')
ylabel('用户比例')
subplot(2,2,4)
bar(p)
title('用户比例-通话频数图')
xlabel('通话次数*6')
ylabel('用户比例')
holdon
%用矩形区域count(i,j)表示落在t,p相应区间的人数比例
fori=1:
7
forj=1:
7
count(i,j)=t(i)*p(j);
end
end
1.2对问题二的求解
1.2.1主叫与被叫关系的分析
clc
clear
A=xlsread('data.xls');
A;
n=size(A,1);
max=0;
%用二维数组person(1,2)表示人的信息,第一维通话时长,第二维通话次数
fori=1:
300
total(i,1)=0;
total(i,2)=0;
total(i,3)=0;
total(i,4)=0;
end
fori=1:
n
total(A(i,2),1)=total(A(i,2),1)+A(i,5);
total(A(i,2),2)=total(A(i,2),2)+1;
total(A(i,3),3)=total(A(i,3),3)+A(i,5);
total(A(i,3),4)=total(A(i,3),4)+1;
end
xlswrite('total.xls',total);
B=xlsread('paixu.xls');
fori=1:
300
x(i)=i;
B(i,2)=B(i,2)*170;