基于电子商务个性化服务的数据挖掘技术研究.docx
《基于电子商务个性化服务的数据挖掘技术研究.docx》由会员分享,可在线阅读,更多相关《基于电子商务个性化服务的数据挖掘技术研究.docx(13页珍藏版)》请在冰点文库上搜索。
基于电子商务个性化服务的数据挖掘技术研究
基于电子商务个性化服务的数据挖掘技术研究
摘要随着信息技术快速的发展和应用,我们已处于信息爆炸时代。
同时,我们也面临着更加严峻的挑战。
比如,目前电子商务推荐系统存在推荐策略单一、推荐自动化低、缺乏个性化的推荐等问题。
针对这些不足,本文提出了根据产品和用户的不同特性设计和选择相应的推荐策略,建立一个系统的电子商务个性化服务体系,在这个系统中,将数据挖掘技术应用到电子商务个性化服务推荐模型中,分别设计不同的推荐策略和推荐模型,从而有效的满足电子商务系统中不同用户的各种推荐需求。
本文分为三部分,前两部分讲述数据挖掘技术理论,最后一部分阐述电子商务个性化服务系统的实现。
关键词数据挖掘;个性化推荐;推荐模型;电子商务;
ResearchofPersonalizationE-commerceModelBasedonDataMining
AbstractWiththerapiddevelopmentandapplicationofinformation,wehavesteppedintoaninformationexplosionera.Atthesametime,wearefacedwithmoreseverechallenges.Forexample,atpresenttherehavesomeissuesinrecommendationsystemssuchassimplexrecommendationstrategyorlowdegreeofrecommendationautomatizationorlackofindividualitystrategy.toaddresstheseissues,thisthesispresentdifferentrecommendationstrategiesbasedcharacteristicoftheproductsandconsumersrespectively.ItapplydataminingintothestudyofpersonalizationE-commercemodel,whichdifferentrecommendationstrategiesandrecommendationmodelsaredesignedtosatisfytherecommendationdemandfromdifferentusers.Therethreepartsinthisarticle.Thefirsttwopartsdescribesthedataminingtechnologyandtheory,thelastpartintroducestherealizationofpersonalizationE-commercesystem.
Keywordsdatamining;personalizedrecommendation;recommendationmodel;electroniccommerce
前言
Internet使计算机、网络、通信合而为一,使各种各样的信息均以数据的形式存储。
这也让人们对数据探索的热情越来越高。
60年代,大的物理流伴随着大信息流。
传统的文件方式不能适应信息处理的需求,因此出现了数据库技术。
90年代,人类积累的数据量以高于每月15%(或每年5.3倍)的速度增加,虽然web上的搜索引擎部分地解决了web的资源发现问题,但是其精确度不高,其结果远不能使人满意,更不能满足客户的个性化需求[1]。
而且,数据海洋不能产生决策意志,为了进行决策,人们不断地扩大数据库能力,搜集海量数据,但这使得决策者更难于决策,因此出现了数据挖掘技术,以便从数据库中发现知识。
国际上有影响的典型数据挖掘系统有SAS公司的EnterpriseMiner,IBM公司的IntelligentMiner,SGI公司的SetMiner等。
目前,随着商业web站点的快速增长而呈指数级增长的信息产生了信息过载问题。
用户在产品之间选择的机会虽然在增加,但是同时增加的还有在选择出他们最中意的产品之
前的信息处理负担。
对用户而言,不得不用越来越多的时间浏览网络以发现他们需要的信息,同时对于企业而言,如何利用网络留住更多的客户是至关重要的。
一个解决上述问题的方法就是使用数据挖掘技术对用户进行个性化推荐服务。
通过这样的方法可以增加用户对该网站的忠诚度和满意度,以此留住顾客,增加企业竞争力。
1Web挖掘分类
很多电子商务网站都是一个巨大的、分布广泛的包含方方面面的信息服务中心,它不仅包含大量的文本、图片等数据信息还包含各种丰富的动态的超链接等,这为我们进行数据挖掘设置了一个很大的障碍。
所以,为了能够在电子商务网站上挖掘出相关信息,则对web页面信息的组织就显得非常的必要。
Web上的信息主要是3类:
(1)Web页面中的内容,包括文本信息和各类媒体信息;
(2)Web服务器上的用户登陆网站的访问日志数据;(3)Web页面中存在的超链接之间相互引用的数据。
根据这3类不同的信息将Web数据挖掘分为Web内容挖掘、Web日志数据挖掘与Web结构挖掘。
1.1Web内容挖掘(Webcontentmining)
Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识及模式的过程,同时也可以对Web组织结构和链接关系进行挖掘,从人为的链接结构中获取有价值的知识。
web内容挖掘的重点是页面的分类和聚类。
Web页面的分类是指根据页面的不同特征,将其划分为事先建立起来的不同的类。
Web上的信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的,可以简单地分为Web文本信息和Web多媒体信息。
针对所处理的Web信息对象,Web内容挖掘又可分为Web文本挖掘和Web多媒体挖掘。
1.2Web日志数据挖掘(Webusagemining)
Web日志挖掘又叫Web使用记录挖掘,是从用户存取模式中获取有价值的信息,对Web上日志数据及相关数据的挖掘来发现用户访问Web页面的模式。
Web其他两类挖掘的对象是网上的原始数据,而Web日志挖掘面对的是在用户和网络互动过程中抽取出来的第二手数据,即代理服务器日志记录、网络服务器访问记录、浏览器访问记录、用户的个人简介、注册信息、用户提问式等。
可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行Web日志挖掘;可以根据用户访问Web的记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些Web页面加快用户获取页面的速度。
Web使用记录挖掘的主要目标则是从Web的访问记录中抽取感兴趣的模式。
WWW中的每个服务器都保留了访问日志(Webaccesslog)记录了关于用户访问和交互的信息分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务[2]。
这方面的研究主要有两个方向:
一般的访问模式追踪和个性化的使用记录追踪。
一般的访问模式追踪通过分析使用记录来了解用户的访问模式和倾向,以改进站点的组织结构。
而个性化的使用记录追踪则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。
1.3Web结构挖掘(WebStructuremining)[3]
整个Web空间中,Web结构包括不同网页之间的链接结构和一个网页内部的可以用HTML、XML表示成的树状或图状结构,以及文档URL中的目录结构等。
挖掘Web结构的目的是发现页面的结构和Web间的结构。
在此基础上对页面进行分类和聚类,从而找到权威页面,这种方法可以用来改进搜索引擎的工作方法。
2电子商务个性化服务的数据挖掘方法
访问信息挖掘是在电子商务上进行知识发现,最关键的是进行客户访问信息的挖掘,得到客户的浏览行为和访问模式,从而发现客户的兴趣、爱好等有用的市场信息,本系统针对不同的数据格式和类型使用不同的挖掘方法和工具,主要的策略有以下几种:
(1)频繁路径分析。
用于判断出在一个Web站点中最频繁访问的路径或网页,以此来优化网页结构,可以改进页面和网站目录结构的设计,使用户直奔所需,减少客户的流失率。
(2)关联规则发现[4]。
应用关联规则发现技术可以找到客户对网站上各种文件进行访问的相互关系。
可以找到用户访问的页面与页面之间一般的相关性和规律性,可以更好的组织web空间结构,提高营销策略。
比如70%的客户在访问页面1时会选择访问页面2这一关联性事务。
(3)序列模式发现。
通过时序分析和序列模式的挖掘来预测企业产品未来的销售情况。
以及发掘潜在客户、促进产品销售。
例如,根据前3个月企业产品的销售情况来预测下个月的销售情况:
当客户在线购买一台个人电脑时,系统会根据挖掘出来的序列模式购买这种电脑的人在一个月以后很可能再来购买一台打印机,而建议他同时购买一台打印机。
(4)分类。
就是为具有某些公共属性的特定群体建立概要特征。
这些特征可以用来对新增到数据库里的数据项进行分类。
对用户分类后,就可以发现未来的潜在客户并开展有针对性的商务活动。
(5)聚类分析技术。
聚类分析可以从服务器访问信息数据中聚集出具有相似特性的客户组,即把有相似特性的用户、数据项集合到一起。
如自动给一个特定的顾客聚类发送销售邮件。
通过这些举措使商务活动能够在一定程度上满足客户的个性化要求,实现目标营销。
3电子商务中个性化服务系统的实现
要实现个性化电子商务,就要在其中引入Web数据挖掘技术。
基于Web的数据挖掘技术是实现个性化电子商务的关键技术。
本文通过Web数据挖掘技术完成收集用户的各种信息,然后分析用户数据,进而创建符合用户特性的访问模式、需求模式和爱好模式,使个性化电子商务成为可能。
电子商务网站个性化服务体系实质上就是一种以用户需求为中心的Web站点:
该站点主要是将数据挖掘的思想和方法应用到Web服务器日志及Web数据库等资源上,挖掘出客户的访问规律,划分出具有相似兴趣的顾客群体。
根据每一客户群体的不同特征构造出不同的兴趣模型,然后提供差异化的营销策略,进而实现个性化服务。
3.1数据来源
电子商务服务系统中的主要数据是Web日志、客户登记注册的数据以及产品数据等。
其中,Web日志中存放了用户访问站点的原始记录。
网络日志作为用户在网络中访问站点时所进行的各种操作的实时记录,是十分重要的信息。
通过分析日志中用户的访问规律,可以识别用户的忠实度、喜好、满意度,通过应用数据挖掘技术,分析用户访问行为、信息需求取向等信息,进而整理归纳,可以发现潜在用户,实施有针对性的服务,为提高站点的竞争力提供了直观的依据(如图3.1)。
图3.1数据来源
3.2电子商务中个性化服务体系流程
电子商务个性化服务体系主要有以下几个模块,对于Web数据的挖掘必须经过相应的处理流程(如图3.2)。
图3.2服务体系流程图
当用户通过浏览器访问该电子商务网站时,Web服务器接受客户端的请求,下载客户端构件,通过远程构件访问标准方法向应用服务器上的应用构件发出请求。
Web数据挖掘服务器离线运行数据挖掘算法的程序,并将结果保存至数据库服务器。
当Web服务器与应用服务器根据用户识别的结果向Web数据挖掘服务器请求个性化服务时,Web数据挖掘服务器向数据库服务器请求数据挖掘结果和推荐集,并反馈给Web服务器和应用服务器,最后将执行的结果反馈给用户。
3.2.1用户信息搜集模块
为了使数据挖掘模块有效工作,必须为它提供干净、准确、简洁的数据。
然而,数据采集生成的原始信息流具有杂乱性、重复性和不完整性的特点。
数据预处理是从大量的数据属性中提取出一部分对目标输出有重要影响的属性,即降低原始数据的维数,从而达到改善原始信息流中数据质量和提高数据挖掘速度的目的。
数据预处理模块生成结果称为数据挖掘信息流[5]。
数据预处理的基本功能包括数据集成、数据清理、数据变换和数据简化。
数据采集生成的信息包括用户访问记录和从存储系统中提取的信息,后者来源于数据库、信息库和知识库,存储系统的特点决定了它具有数据量小、集成化程度高等特点,一般来说不需要进行预处理。
所以,数据预处理的作用对象是来源于用户访问记录的信息。
对于网络日志数据进行预处理主要包括:
数据净化、用户识别、会话识别、路径补充、事务识别[6]。
数据净化:
指删除网络服务器日志中与挖掘算法无关的数据。
由于在网络日志中通常只有HTML文件与用户会话相关,所以通过检查URL的后缀删除不相关的数据。
用户识别:
指识别出访问网站的每个用户。
一般网络日志挖掘工具中常使用基于日志/站点的方法,并辅助一些启发式规则帮助识别用户。
会话识别:
将用户的访问记录分为单个的会话。
通常采用超时方法识别用户会话,如果两页间请求时间的差值超过一定的界限(超时阀值)就认为用户开始了一个新的会话[5]。
路径补充:
由于本地缓存和代理服务器缓存的存在,使得服务器的日志会遗漏一些重要的页面请求。
路径补充就是将这些遗漏的请求补充到用户会话中,解决的方法类似于用户识别中的方法。
事务识别:
用户会话是网络日志挖掘中唯一具备自然事务特征的元素。
但是,对于某些挖掘算法来说,用户会话的数据粒度可能太大,需要利用分割算法将其转化为更小的事务,从而进行识别。
3.2.2数据挖掘建模模块
目前电子商务环境下的数据挖掘算法已经进行了一定的研究,但是成熟的算法还比较少,主要原因是数据挖掘过程中需要对结构化的数据(数据库)和非结构化的数据(Web日志或页面)同时进行操作。
本数据挖掘框架模型由数据挖掘模块和存储系统组成。
其中存储系统包括数据库、信息库和知识库,数据库存储了商品详细信息、用户注册信息等系统数据,数据库运行于数据库服务器上。
信息库主要存储Web日志等动态信息,信息库运行于Web服务器上;知识库存储数据挖掘算法,以及与判断客户喜好的常识信息,知识库运行于数据库服务器上。
数据挖掘有四个核心模块(如图3.3):
Web挖掘、存储系统挖掘、信息参照和结果整合。
Web挖掘是从数据采集到的Web数据中挖掘顾客信息;信息参照是把当前顾客的记录与存储系统的既有信息进行比较,推理出顾客喜好;存储挖掘事实上是从存储系统中提取出顾客的相关信息和知识库中存储的数据挖掘算法;结果整合的功能是实现数据格式转换。
前三者实现的功能是数据挖掘,我们在数据挖掘模块的实现中可以采用现有的一些算法,信息参照采用了基于神经网络的数据挖掘方法,存储挖掘主要是通过信息检索实现。
结果整合是把数据挖掘的结果转化为具有标准格式的XML文件,供后续模块使用,增加数据整合模块的目的是提高系统的可扩充性。
图3.3数据挖掘
3.2.3用户个性化服务模块
用户的个性化服务是指针对不同的用户选择基于不同准则的的推荐技术,这样才更加贴近用户的真实需求,本系统主要采用以下三种推荐模式:
(1)基于内容的推荐技术(Content—basedRecommendation),是指通过比较资源与用户模型的相似程度向用户推荐信息的方式[7]。
(2)基于规则的推荐,是指根据已经生成的联系规则和序列规则向用户推荐信息方式。
在电子商务网站,根据用户浏览和购买的日志生成规则,向用户推荐感兴趣的商品。
这是本系统使用最频繁的规则推荐策略。
例如,通过关联分析发现啤酒与尿不湿之间的关联规则是购买啤酒的用户同时也会购买尿不湿。
因此,可以将这两种相关商品摆在一起组合销售或通过“购买200元尿不湿送两罐啤酒”来促进销售[8]。
关联规则推荐算法可以分为离线的关联规则推荐模型建立阶段和在线的关联规则推荐模型应用阶段。
离线阶段使用各种关联规则挖掘算法建立关联规则推荐模型,这一步比较费时,但可以周期性的离线进行。
在线阶段根据建立的关联规则推荐模型和目标用户的购买行为向目标用户提供实时的推荐服务。
关联规则推荐算法产生Top—N推荐集的步骤:
a.根据交易数据库中每个用户购买过的所有产品的历史交易数据创建每个用户的事务记录,构造事务数据库。
b.使用各种关联规则挖掘算法对构造的事务数据库进行关联规则挖掘,得到满足最小支持度阀值和最小置信度阀值的所有关联规则,记为关联规则集合R。
c.对于每一个目标用户C,设置一个候选推荐集PC,并将候选推荐集初始化为空。
d.对每个当前用户C,搜索关联规则集合R,找出该用户支持的所有关联规则集合RC,
即关联规则左边的所有产品出现在用户C的当前购买数据和历史交易记录中。
e.将关联规则集合RC右边的所有产品加入候选推荐集PC。
f.从候选推荐集PC删除用户已经购买过的产品。
g.根据关联规则集合R的置信度对候选推荐集PC所有候选项进行排序,如果一个项在多条关联规则中出现,则选择置信度最高的关联规则作为排序标准。
(3)合作推荐,是指通过相同或相近兴趣的用户对资源的评价向用户推荐信息的方式。
该方法是通过比较用户之间的相似性来推荐信息。
即先对用户进行聚类,然后对不同用户群组进行分类。
合作推荐既适用于可计算的文本领域。
又可应用于其他领域。
如音乐、电影、书籍等。
3.3电子商务个性化推荐系统的整体框架
图3.4系统整体框架
电子商务个性化推荐系统的完整框架主要由web日志管理、数据仓库、推荐模型库、推荐引擎、界面管理等构成(如图3.4所示)。
(1)web日志管理:
数据库中存储与用户操作密切相关的数据,包括了产品数据库、用户数据库、销售数据库、Web日志数据库等。
(2)数据仓库:
用来存储规整的经过清洗和初步挖掘后的数据,是推荐系统直接操作的数据,包括属性数据、购买数据、产品数据、点击流等[10]。
(3)推荐模型库:
用于存储推荐算法。
建立该模型库的目的是建立一种能表达用户行为变量间潜在依赖性的模型,通过该模型得到用户的兴趣迁移模式,目前有多种方法可以为用户的浏览和消费行为建模,如决策树的学习、神经网络、最近邻方法、隐马尔可夫模型、贝叶斯网等[11]。
例如,在对用户的行为进行预测时,可以采用决策树的学习和神经网络算法。
本系统主要采用了神经网络,最近邻方法和贝叶斯网算法等。
用户建模不仅为分析用户的行为提供了理论框架,而且对商家调配商品结构改进个性化服务都很有帮助。
(4)推荐引擎:
主要功能是接收推荐请求,运行推荐策略,产生推荐结果。
推荐引擎对内为推荐算法提供了统一的运行环境,方便了推荐算法的编制,对外则提供了统一的推荐服务接口。
(5)界面管理:
以可视化提供给用户推荐结果。
基于Web数据挖掘的电子商务个性化服务实现方法个性化推荐服务是个性化服务体系得以实现的重要方法和途径。
个性化体服务体系是个性化推荐服务的基础和来源,没有个性化服务体系思想作指导,个性化推荐服务便失去了方向:
没有个性化推荐服务也无法实现电子商务网站的个性化服务,个性化推荐服务是通过数据挖掘技术揭示出用户的需求(包括显性需求和隐性需求)。
从而根据用户的偏好程度推荐给用户最喜爱的N个产品。
并且当系统中的产品库和用户兴趣资料发生改变时,给出的推荐序列会随之自动改变。
4小结
目前,不管是在研究领域还是商业应用,数据挖掘都是一个热门话题。
随着XML的兴起,进一步推动了数据挖掘在各个研究领域的发展。
本文在电子商务的基础上对数据挖掘技术进行了全面的阐述,并在此基础上构建了一个完整的电子商务系统,该系统充分的展现了数据挖掘技术在该系统中的应用,为现实的电子商务个性化系统提供了一种参考方案。
但是,把数据挖掘技术应用到电子商务系统中还是个新兴领域,还有许多问题需要解决,技术方面仍有很大的改进空间。
比如各种算法虽然有其自己的适用范围,但由于技术还不够成熟,推荐结果不能保证很理想,较好的改进方法是将用户的最终反映结果作为反馈数据反馈给系统,使系统据此作出适当的调整,从而能更好的提高用户的满意度。
而且其技术实现还有待进一步具体化。
参考文献
[1]陈莉,焦李成,Internet/web数据挖据研究现状及最新进展[J].西安电子科技大学学报,2002,28
(1):
115-119
[2]韩家炜,孟小峰,王静等,Web挖掘研究[J].计算机研究与发展,2001,38(4):
406-414
[3]NingZhong,JimingLiuRonSunIntelligentagentsandDataMiningforcognitivesystems.cognitivesystemresearch,2004;(5)
[4]胡文瑜孙志挥吴英杰,数据挖掘取样方法研究[J].计算机研究与发展,2011,48
(1):
45-54
[5]沈洁,薛贵荣,一种基于XML的Web数据挖掘模型[J].系统工程理论与实践.2002,9:
75-77
[6]ChrisClifton,BhavaniThuraivisit,EmergingstandardsofDataMiningComputerstandard&interface2001;(24)
[7]沈超,黄卫东,数据挖掘在垃圾短信过滤中的应用[J].电子科技大学学报,2009,38:
22-24
[8]王光宏,蒋平,数据挖掘综述[J].同济大学学报.2004,34
(2):
247-252
[9]Mitchell,T.MMachineLearning
[10]中国电子商务研究中心.数据挖掘技术在电子商务中的应用研究,2010.3
[11]孙宇航,孙应飞,基于网络日志的数据挖掘预处理改进方法[J].系统工程与电子技术,2009,319(12):
2995-2997