网络游戏运营中的数据挖掘技术及相关案例分析.docx

上传人:b****0 文档编号:17253536 上传时间:2023-07-23 格式:DOCX 页数:14 大小:29.85KB
下载 相关 举报
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第1页
第1页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第2页
第2页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第3页
第3页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第4页
第4页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第5页
第5页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第6页
第6页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第7页
第7页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第8页
第8页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第9页
第9页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第10页
第10页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第11页
第11页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第12页
第12页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第13页
第13页 / 共14页
网络游戏运营中的数据挖掘技术及相关案例分析.docx_第14页
第14页 / 共14页
亲,该文档总共14页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

网络游戏运营中的数据挖掘技术及相关案例分析.docx

《网络游戏运营中的数据挖掘技术及相关案例分析.docx》由会员分享,可在线阅读,更多相关《网络游戏运营中的数据挖掘技术及相关案例分析.docx(14页珍藏版)》请在冰点文库上搜索。

网络游戏运营中的数据挖掘技术及相关案例分析.docx

网络游戏运营中的数据挖掘技术及相关案例分析

网络游戏运营中的数据挖掘技术及相关案例分析

网络游戏运营中的数据挖掘技术及相关案例分析

摘要

窗体底端

数据挖掘技术在网络游戏客户关系管理中的应用现今,数据挖掘技术已经在各个领域得以应用,并有了相当的发展。

许多学者对数据挖掘的研究及其在客户关系管理中的应用上获得了相当的突破,很多行业因此获益匪浅。

在我国,网络游戏作为一个新兴不久的行业,拥有着巨大的市场和庞大的潜力,但随之而来的是愈发激烈的市场竞争,一些主流的游戏运营商已经把目光投向了在传统行业中取得了巨大成功的客户关系管理体制。

但是,不同于其他行业,网络游戏是建立在网络信息交流平台之上,它所搜集到的客户数据更为庞大和繁杂,那么怎样从如此庞大的数据中找到有效资料呢?

这就需要应用到数据挖掘技术。

本文简要介绍了网络游戏客户关系管理的模式和内容以及几种主要的数据挖掘技术;着重利用决策树玩家进行了分类、利用神经网络对玩家流失进行了分析、利用粗糙集对玩家信息进行了挖掘。

通过上述分析论证了数据挖掘技术在网络游戏客户关系管理中应用的可行性和有效性。

关键词:

网络游戏;客户关系管理;数据挖掘;应用

1综述

“网络游戏”也被成为“在线游戏”(OnlineGames),是通过互联网进行、可以多人同时参与的电脑游戏,是通过人与人之间的互动以达到交流、娱乐和休闲的目的。

网络游戏不同于其他行业,它建立在网络信息交流平台之上,因此,它所搜集到的客户数据更为庞大和繁杂,那么如何从如此庞大的数据中找到有效资料,又如何应用于客户关系管理之上,这便是我们需要去研究的问题。

在我国,网络游戏是一个新兴的行业,对其研究多集中于法律的虚拟财产案件上,网络游戏客户关系管理方面的研究寥寥无几。

虽然如此,但我们仍旧可以通过数据挖掘技术在其他行业上的客户关系管理中的应用里进行参考,进而对数据挖掘技术在网络游戏客户关系管理中的应用的可行性,有效性进行探讨。

哈尔滨工程大学的鞠伟平,邓忆瑞所刊登的《基于决策树的数据挖掘方法在CRM中的应用研究》中指出:

“客户关系管理是一种旨在加强企业与客户之间关系的新的管理机制。

其如何利用数据挖掘技术对客户数据进行深层分析,保留高价值客户、发掘潜力客户,实现在恰当的时间,为客户提供合适产品和服务是现在客户关系管理中的研究重点。

本文将数据挖掘中的ID3分类算法应用于CRM系统中,不仅可以使企业更好地发现客户群特征,掌握市场动态,同时也将有助于企业的管理全面走向信息化。

[3]”山东财政学院的董宁所刊登的《数据挖掘技术在CRM中的应用》中指出:

“数据挖掘技术帮助企业管理客户生命周期的各个阶段,包括客户的识别、获取新的客户、让已有的客户创造更多的利润、保持住有价值的客户等。

它能够帮助企业确定客户的特点,使企业能够为客户提供有针对性的服务……客户识别的关键问题是确定对企业有意义客户的标准……数据挖掘技术应用在对营销的反映情况的预测上。

根据历史数据运用数据挖掘技术建立“客户行为反应”预测模型,对客户的未来行为进行预测……解决客户流失问题,可以使用数据挖掘方法对已经流失客户进行分类,并对每类流失客户的特征进行描述。

然后,使用关联、近邻等挖掘技术和方法对现有客户消费行为进行分析,以确定每类客户流失的可能性,其中着重于发现那些流失可能性大的优质客户。

[4]”华中师范大学经济学院的曹萍刊登的《利用数据挖掘技术(DM)提升客户关系管理(CRM)》中指出:

“客户关系管理系统随着信息技术的发展和企业管理理念的转变,己受到国内外企业的广泛重视。

在实际应用中CRM还可进一步延伸企业供应链管理,与ERP(企业资源计划)进行整合,将客户、经销商、销售和人力资源等方。

面链接起来,构成企业完整的管理信息系统。

CRM作为企业的前台提供供应链中的下游链管理,实现企业对客户个性化需求的快速反应。

DM作为CRM中的关键信息技术,其在CRM中的应用与发展,必将为企业在信息时代提供‘看得见的优势’。

[5]”Penzias曾在《计算机世界》上评论说:

“DM将变得更加重要,由于DM如此有价值以至于企业不再会丢失与其客户有关的任何事物。

如果你不在这方面做些什么,那么你将失去你的生意。

”还有许多专家和研究者提出了许多观点,都说明DM在CRM中的应用是可行的,是必要的,是具有强大竞争力的。

随着社会信息化的不断建设,网络设备的不断提升以及社会需求的不断增加,DM技术在CRM领域运用将得到普及。

1.1研究意义及思路

至2007年1月,中国互联网用户已经达到1.37亿人,其中26.6%的用户为网络游戏用户群体,市场规模已达到93.6亿元人民币。

随着中国互联网发展,网络游戏市场还会持续增加。

[2]”但是激烈的竞争是不可避免的,面对平均粘稠度仅为7.9个月的网络游戏玩家来说,如何吸引及留住玩家,如何掌握优质客户已经成为各游戏运营商的当务之急。

在其它行业取得巨大成功的客户关系管理体系已越来越受到网络游戏运营商的重视,几个主流运营商:

网易,世纪,久游,九城,盛大等都在近年纷纷建立和完善客服体系,以应对愈发激烈的市场竞争。

如今的客户关系管理已从“被动型”转向“主动型”,如果能够通过各种数据挖掘技术,对庞大的玩家数据进行挖掘分析,对玩家进行分类,判断玩家行为,预测玩家流失,分析玩家兴趣等,就可以使客户关系管理目标更明确化,客服更主动化,形式更人性化,以达到利益最大化。

论文将通三大版块进行分析探索:

1、通过对网络游戏的介绍,网络游戏客户关系管理内容的分析,并对一种类型网络游戏(MMORPG)生命周期的分析,使读者对网络游戏及其客户关系管理有一个相对具体的概念,以方便数据挖掘案例分析的说明。

2、介绍十种主流的数据挖掘技术,让读者对数据挖掘技术有个相当的概念,以方便数据挖掘案例分析的说明。

3、着重通过利用决策树对玩家进行了分类;利用神经网络对玩家流失进行了分析判断;利用粗糙集对玩家信息进行了挖掘。

这三个案例,来论证数据挖掘技术在网络游戏客户关系管理中应用的可行性和有效性。

2网络游戏的客户关系管理

2.1网络游戏分类

网络游戏其实是电子游戏中的一种(详见图2.1.1),其中角色扮演类网络游戏(MMORPG)和大中型休闲游戏占据了大多数的市场份额,因此本文所有的研究内容都是针对这两种网游形式进行分析的。

一.角色扮演类网络游戏MMORPG(MassiveMultiplayerOnlineRolePlayingGame),即大型多人在线角色扮演类游戏,这是目前最主流的在线游戏类型,游戏构筑了一个有基本健全的社会体制和经济系统的虚拟世界,玩家在游戏虚拟世界中扮演特定角色,通过自己的游戏技能及其它各方面投入,实现自己所扮演的角色在游戏虚拟社会中的生存和成长,并参与游戏虚拟世界的人际沟通及社会活动等。

目前有56%的玩家分布在其中。

二.休闲游戏休闲对战类网络游戏(Casual/LobbyGame),简称休闲游戏,包括大中型休闲网络游戏和游戏平台上的游戏。

休闲游戏本身是网络游戏的一种,休闲游戏的特点在于回合制、阶段性,玩一盘所耗费的时间一般不会超过10分钟。

通过玩休闲游戏这种娱乐方式,玩家通常可以得到放松、休息。

目前40%玩家分布在大中型休闲游戏中;4%玩家分布在平台类游戏中。

2.2网络游戏客户关系管理范围

2.2.1游戏帐号及安全措施服务

帐号的安全是网络游戏客户关系管理的重中之重!

是在客户关系管理涉及到的范围中客户流失率最高的一个。

如果一个MMORPG游戏帐号被盗,考察期的玩家流失率基本为百分百,形成期流失率也很高,即使是稳定期的玩家,如果帐号不安全了,也会考虑退出,所以一个游戏想延长他的生命周期就必须要最大限度的保证安全措施做到位。

2.2.2游戏内容及玩法服务

这是吸引新玩家,延长老玩家生命周期的重要手段。

一个游戏是否让玩家有归属感,除了游戏本身和游戏内玩家的交流,游戏管理人员和玩家的交流也是一大因素。

2.2.3游戏线下活动

组织玩家举行游戏外的各种活动,对于稳定期的玩家来说具有极大的吸引力。

这样的活动能极大地延长玩家的生命周期,很好地宣传游戏。

2.2.4游戏的更新及版本

当游戏出现问题,更新是很好的解决方法。

当玩家进入稳定后期,开始迈向衰退期的时候,游戏的新版本,新玩法能延长玩家的生命周期,乃至延长整个游戏的生命周期。

2.2.5客户分析及客户正面引导

客户分析包括很多,也是需要运用数据挖掘最多的地方。

比如玩家资料分析,玩家行为分析,玩家流失分析,玩家期望分析,玩家导向分析,玩家流动分析等等。

凡是涉及到游戏利益有关的玩家数据都是其分析的目标。

客户正面引导就是利用客户服务系统,对玩家进行有利于运营商的行为引导。

比如:

正面言论引导,客户流失引导(当一个优质客户必定离开该游戏时,客户服务就需要利用各种方法,尽可能地引导其进入该运营商运营的其他游戏,即使失败也要使玩家对运营商存在好感,当运营商推出新游戏时就有极大可能使该玩家再次消费)等等。

3MMORPG客户生命周期

MMORPG客户生命周期根据Dwyer的五阶段模型,MMORPG客户关系发展分为:

考察期,形成期,稳定期,退化期;其简要描述如下

3.1考察期

这是关系的探索和实验阶段,在该阶段,玩家测试和考察游戏是否值得自己继续玩下去。

考察期内的客户,客户的消费量很少或者根本没有消费量;而服务成本和交易成本却是最高的;间接效益基本没有,最多只是聚集人气;利润很低甚至可能是负利润;;由于不确定性很高,这段时期内的客户流失可能性很大,新游戏出现,不好玩,家人反对朋友离开等都有可能造成客户流失。

3.2形成期

这是关系的快速发展阶段,双方关系能进入这一阶段,表明考察期玩家对该游戏基本满意,建立了一定的好感与依赖。

形成期的客户,客户的消费量开始呈上升趋势,而到形成后期更加明显而服务成本和交易成本开始明显下降;间接效益有所形成但不是很明显,只有到形成后期才有扩大趋势;利润快速上升,到形成后期开始向最高点接近;在这一阶段,由于玩家对游戏的了解与依赖的增加,玩家开始对游戏产生一定感情,游戏虚拟财产开始累加,客户流失情况开始好转。

但是流失数量还是很多,特别是“盗号”对该阶段客户的打击是毁灭性的,一旦玩家虚拟财产损失过大就会导致玩家放弃游戏,所以对游戏客户安全服务,特别是防盗,帐号找回,损失挽回等工作要特别细致。

3.3稳定期

这是关系发展的最高阶段,在这个阶段,玩家已经沉迷于游戏中,对游戏有了相当的好感与依赖。

稳定期的客户,客户的消费量是最大的也是最稳定的;而服务成本和交易成本开始降到一个最低点;间接效益已经相当明显,并且进一步扩大中;利润进入一个稳定的高水平;在这个阶段被称为“铁杆玩家”,对游戏的关注度和期望度会相当高,会对游戏提出各种意见和建议,会主动拉拢朋友进入游戏;这个阶段的玩家外界干扰对其影响也是最小的,即使有人劝阻玩家游戏,号被盗而损失严重,游戏中朋友流失等情况也很难让他放弃游戏。

所以管理人员要重视这部分玩家,积极听取他们意见,甚至可以给予他们一部分游戏中的管理权限,尽可能延长稳定期。

3.4退化期

这是关系发展过程中关系水平逆转的阶段。

关系的退化并不一定在稳定期之后,其实任何一个时期都有可能因为各种原因退化。

退化期的客户,客户的消费量开始回落,也可能是直接消失;而服务成本和交易成本开始回升,因此要尽量挽留这些客户,但一般不会超过考察期的费用,所以挽留客户比建立个新客户成本要低的多;间接效益开始缩小,如果玩家开始传播坏的口碑,那么间接效益将成为负效益;利润开始下降,甚至直接消失;进入这个阶段的玩家一般是由于长期玩该游戏而进入一个疲劳阶段,一些小的影响就可能使之离开。

但由于玩家已经投入巨大的经历,对游戏的感情还是比较深厚的,所以挽留这部分的玩家就成为管理者的当务之急。

更新游戏的新玩法,新活动,出新的版本,新的虚拟装备虚拟宠物等都可以在一定程度上延迟退化期的形成。

表2.4.1对上述四个周期的各种影响因素作了个总结。

4网络游戏客户关系管理中的数据挖掘

4.1客户分类

4.1.1.区分“优质客户”CRM

中心思想就是“优质客户”概念,即:

20%客户贡献80%利润。

在网络游戏中,特别是免费游戏,由于其不收取在线服务费,单纯依靠变卖“虚拟道具”来盈利,“优质客户”更为重要,那么如何区分出这些“优质客户”,就成为首要解决的问题。

4.1.2区分“热心玩家”

对于网络游戏运营商来说,“热心玩家”不可缺少,他们可能不是“优质客户”,但他们肯定是铁杆玩家,是拥护该网络游戏的稳定期玩家。

他们会热心提供游戏BUG,举报非法玩家,帮助和介绍新玩家,帮助管理更新网站论坛,提高游戏正面影响力。

所以找到这些玩家并给予一定的权限有助于游戏正常运营。

4.1.3区分“非正常玩家”

“非正常玩家”那些虚拟数据有异常的帐号,出现的可能有:

使用外挂等非法软件;盗号或利用BUG非法获得大量虚拟物品或经验;利用交易转移非法获得的物品;不过也可能是玩家通过线下交易获得大量虚拟物品。

如何区分出这些帐号,并时刻监视这些帐号,对延长游戏寿命有很大的作用。

4.1.4发掘潜在客户

在考察期间的玩家中就有相当一部分是潜在客户,他们现在可能没有消费或者消费不多,但只要他们觉得这个游戏好玩或者其他需要的时候就可能变成“优质客户”,比如:

一个被游戏所吸引的玩家,其本身没大量时间且希望变强,并有这个经济条件,那么他就是一个有消费能力和欲望的“潜在客户”。

4.2客户行为分析

4.2.1安排GM(GW)在线时间

从理论上来说,一对一的营销战略是最好的,但是从成本论来说在网络游戏的CRM中这是不可能的,那么如何让GM(GW)的作用发挥到最大呢?

这就需要去分析挖掘数据,分析玩家在线时间,游戏流量。

分析一天中哪个时间段玩家在线最多,一月中各个时间段玩家在线波动,及一年中玩家上线时间波动变化差异,根据玩家数量,分配GM(GW)的在线时间和数量。

4.2.2建立自动反馈系统

玩家的数量是庞大的,因此对客服所提出的问题也有大量是重复的,特别是新游戏,大量玩家的重复提问会导致本就不多的GM(GW)重复工作,效率下降。

因此设置一个自动反馈系统,对玩家大量提到的问题进行数据库自动反馈成为有效的解决方法之一,那么如何筛选数据库中的问题及答案就成为需要解决的问题。

4.2.3客户流失分析

在竞争愈发激烈的游戏市场,即使是没有任何消费的玩家也是运营商的一种资源,因为“优质客户”是建立在比没有消费的“普通客户”更为“强大”的基础上,才愿意投入资金玩游戏的,所以,只有大量的“普通客户”的存在才能吸引“优质客户”。

因此维系老玩家,是十分重要的,不同于其他产业,网络游戏是人们在线交流的一个平台,某个玩家的流失很有可能出现联动性流失玩家。

所以监视玩家数据动态,比如上线时间变化,消费数量变化等,预测可能流失的玩家,及时做好与玩家的交流,有助于维护老客户。

4.2.4客户细分

由于国家强制推出防沉迷系统,身份验证更为真实(不排除玩家使用他人身份证,导致获得数据有偏差)另外,。

由于网络游戏虚拟物品现实价值越来越高,非法盗取帐号行为越发猖狂,因此玩家对帐号安全也越来越重视,注册帐号时填写真实资料的比例越来越高,这对玩家数据分析极为有利。

通过数据分析,游戏运营商可以了解“优质客户”的身份,职业,地域,喜好以及在线时间等资料,可以因此而进行有效决策。

比如:

线下活动及宣传的地点安排,各种活动奖励的物品内容,点卡发放地点的比例安排,周边产品的推出地点,客服中心的安排地点及针对方向等等。

4.2.5.客户期望分析

客户期望分析是通过客户行为分析,历史数据分析,综合客户资料,来分析客户对游戏的各种期望。

比如:

游戏中举行个活动,发放多少虚拟物品作为奖励,这需要经过严格计算的。

因为发放过多虚拟物品会影响游戏内市场稳定,导致玩家流失,影响玩家消费道具的热情;发放过少会引起玩家不满,游戏评价会降低。

这时就要分析客户期望,找到客户期望的下限,结合市场情况,来设定虚拟物品奖励的发生几率。

5数据挖掘技术介绍

5.1数据挖掘概论

数据挖掘(datamining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。

数据挖掘功能用于指定数据挖掘任务中要寻找的模式类型。

数据挖掘任务一般可以分为两类:

描述和预测。

描述性挖掘任务刻画数据库中数据的一般特性。

预测性挖掘任务是在当前数据上进行推断,以进行预测。

5.2数据挖掘技术

5.2.1统计技术

统计技术对数据集进行挖掘的主要思想是:

统计的方法对给定的数据集合假定了一个分布或者概率的模型(比如一个正态分布),然后根据模型采用相应的方法进行挖掘。

5.2.2关联规则

数据关联是数据库中存在的一类很重要的可以发现的知识。

若两个或者多个变量的取值之间存在某种规律性,就成为关联。

关联可分为简单关联,时序关联,因果关联。

关联分析的目的是找出数据库中隐含的关联网,有时并不知道数据库中的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

5.2.3基于历史的分析

MBR(Memory-basedReasoning)MBR的本质是:

先根据经验知识寻找相似情况,然后再将这些情况的信息应用于当前的例子中。

使用的三个问题是:

寻找确定的历史数据;决定表示历史数据的最有效方法;决定距离函数、联合函数和邻近的数量。

5.2.4遗传算法GA(GeneticAigorithms)

该算法是基于进化理论,并采用遗传结合、遗传变异及自然选择等方法优化结果。

主要思想是:

根据适者生存的原则,形成由当前群体中最适合的规则组成新的群体,以及这些规则的后代。

规则的适合度(Fitness)是对训练样本分类准确性的评估。

5.2.5聚集检测

将物理或者抽象对象的集合,分组成为由类似的对象组成的多个类的过程被成为聚类。

在由聚类生成的数据对象集合中,这些对象具有相似性,并与其他集合中的对象具有相异性。

这种相异度是根据描述对象的属性值来计算的,距离是经常被采用的度量方法。

5.2.6连接分析(Linkanalysis)

连接分析()它的基本理论是图论,图论的思想是寻找一个可以得出好的结果但不是完美结果的算法。

这种不完美但是可行的思想模式,可以使之运用到更广的用户群中。

5.2.7决策树(decisiontree)

决策树()决策树是能够被看成一棵树的预测模型。

树的每个分支都是一个分类的问题,内部节点表示在一个属性上的测试,树叶代表类或者分布。

决策树算法是目前应用最广泛的归纳推理算法之一,是一种逼近离散值函数的方法,也可将它看作是一个布尔函数。

它是以实例为基础的归纳学习算法,通过对一组训练数据的学习,构造出决策树形式的只是表示,在决策树的内节点进行属性值的比较并根据不同的属性值判断从该节点向下的分枝,从而在决策树叶节点得到结论。

所以从根到叶节点的一条路径就对应着一条规则,整棵决策树就对应着一组吸取表达式规则。

5.2.8神经网络(NerualNet)

神经网络()神经网络是指由大量神经元互联而成的网络,类似于服务器互联而成的因特网。

它主要由“神经元”的互联,或按组织的结点构成。

通常神经网络模型由三个层次组成:

输入层,中间层,输出层。

在神经元求得输入值后,再汇总计算总输入值;由过滤机比较总输出值,确定网络的输出值。

可以通过模拟判断,来不断修正计算的“权值”来达到学习的目的,增加判断的正确性。

5.2.9粗糙集

粗糙集是一种研究不确定性问题的工具,它根据已有的给定问题的知识,对问题论域进行划分。

然后对划分后的每个组成部分确定其对某个概念的支持程度。

它用于从数据库中发现分类规则的基本思路是将数据库中的属性分为条件属性和结论属性。

对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。

5.2.10回归分析

回归分析分为线性回归、多元回归和非线性回归。

线性回归中,数据是用直线建模;多元回归是线性回归的扩展,涉及多个预测变量。

非线性回归是在基本线性模型上添加多个项式项形成非线性回归模型。

6数据挖掘技术在网络游戏CRM中的具体应用

6.1利用决策树归纳分类方法进行玩家分类

6.1.1信息增益的计算

决策树的核心问题是选择最佳的划分标准。

ID3算法运用信息熵理论,选择当前样本属性集中具有最大信息增益值的属性作为测试属性。

该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。

这种信息理论方法使得对一个对象分类所需的期望测试数目达到最小,并确保找到一棵简单树。

设S是s个数据样本的集合。

假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,…,m)。

设Si是类Ci中的样本数。

对一个给定的样本分类所需的期望信息,即系统的总熵由式(4.1.1.1)给出:

其中Pi是任意样本属于Ci的概率,并用Si/S估计。

可以看出,系统总熵是属于各个类的信息量的加权平均。

设属性A具有v个不同值{a1,a2,a3.......av},可以用属性A将S划分为v个子集{s1,s2,s3.......sv},;其中,Sj包含S中这样一些样本,他们在A上具有值aj。

如果A选作测试属性,则这些子集对应于由包含集合S的节点生长出来的分枝。

设Sij是子集Sj中类Ci的样本数。

那么,这时按A的每个属性值进行分割后的信息量,也就是系统总熵或期望信息由式(4.1.1.2)给出:

项充当第j个子集的权,并且等于子集中的样本个数除以S中的样本总数。

熵值越小,子集划分的纯度越高。

引入一个量:

信息增益(InformationGain)表示系统由于分类获得的信息量,由系统熵的减少值定量描述。

用属性划分样本集S后所得的信息增益值为式(4.1.1.3):

Gain(A)=I(s1,s2,…,sm)-E(A)(4.1.1.3)

6.1.2利用决策树归纳分类方法

进行网络游戏中玩家(客户)分类利用决策树归纳分类方法,进行网络游戏中玩家(客户)我们现在要通过一个案例来进行玩家分类。

首先,我们要在游戏的玩家数据库中找到我们需要的关键字,经过筛选,以下三个关键字将被作为游戏玩家分类的依据:

玩家收入(高收入者更容易成为优质客户)玩家在线时间(长时间在线的玩家更容易成为优质客户)玩家消费情况(只有消费的玩家才会成为优质客户)表(4.1.2.1)是对5种不同客户(类别标记)及其判断依据的解释。

表(4.1.2.2)是计算机经过处理后得出的16种判断。

由表(4.1.2.1)“类别标记”这一类别属性,划分为:

优质客户,消费客户,潜在客户,普通客户和无效帐号5类。

类优质客户有8个样本;类消费客户有4个样本;类潜在客户有1个样本;类普通客户有1个样本;类无效帐号有2个样本。

因此给定本分类所需信息增益为:

各属性相应的信息增益为:

Gain(

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2