基于知识库的礼品推荐系统的设计与实现.docx

资源描述

基于知识库的礼品推荐系统的设计与实现.docx

《基于知识库的礼品推荐系统的设计与实现.docx》由会员分享，可在线阅读，更多相关《基于知识库的礼品推荐系统的设计与实现.docx（60页珍藏版）》请在冰点文库上搜索。

基于知识库的礼品推荐系统的设计与实现.docx

基于知识库的礼品推荐系统的设计与实现

硕士研究生学位论文

题目：

基于知识库的礼品推荐系统的设计与实现

学号：

085707

姓名：

路卫杰

专业：

计算机科学与技术

导师：

孟祥武

学院：

计算机学院

年月日

独创性（或创新性）声明

本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。

尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。

与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。

申请学位论文与资料若有不实之处，本人承担一切相关责任。

本人签名：

日期：

关于论文使用授权的说明

学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定，即：

研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。

学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许学位论文被查阅和借阅；学校可以公布学位论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。

（保密的学位论文在解密后遵守此规定）

非保密论文注释：

本学位论文不属于保密范围，适用本授权书。

本人签名：

日期：

导师签名：

日期：

基于知识库推理的礼品推荐系统的设计与实现

摘要

当今，个性化推荐系统已经在很多领域得到了应用，如网络商品推荐、音乐推荐、影视推荐等。

推荐技术包括协同过滤、内容过滤、知识发现等，但是这些推荐技术并没有考虑推荐领域的知识对推荐结果的影响，或者推荐结果没有通过与用户的交互过程中得到完善和改进。

鉴于以上问题，本文针对礼品推荐领域提出了基于知识库的推荐方法。

首先在调研了礼品信息和礼品赠送知识后构建礼品知识库，然后礼品专家通过人工方式对礼品知识库进行初始化，最后系统根据礼品的基本信息计算出礼品综合相似度对礼品知识库进一步完善。

本文采用AJAX等技术设计并实现具有良好用户体验的知识库推荐用户接口，采用全文检索引擎工具包Lucene对礼品信息构建索引并根据用户的日志设计个性化的礼品搜索功能。

本文第一章介绍了推荐系统的研究背景和国内外的研究现状以及本文的研究路线方法和研究内容。

第二章介绍了主要的推荐算法和本系统所涉及的关键技术。

第三章描述了系统的需求分析，包括任务概述、需求规定以及运行环境的规定。

第四章阐述了系统设计，包括系统整体功能设计和系统整体架构设计。

第五章详细描述了系统实现中的关键问题和解决方案。

第六章对系统进行功能测试和性能测试。

第七章是工作总结和进一步的展望。

关键词：

礼品推荐知识库相似度个性化搜索

Knowledge-based Gifts RecommendationSystem DesignandImplementation

ABSTRACT

Personalizedrecommendationsystemhasbeenwidelyusedinmanyfields,suchasnetworkproductsrecommendation,musicrecommendation,movierecommendation,etc.Recommendationtechniquesincludecollaborativefiltering,contentfiltering,knowledgediscovery,etc.However,theserecommendationsdonotconsidertheinfluencesthattheknowledgesinrecommendedareastotheresults,ortherecommendedresultsisn'tperfectedorimprovedthroughtheprocessofinteractionwithusers.

Inviewoftheaboveproblems,thispaperproposedarecommendationmethodbasedonknowledgebaseforgiftrecommendation.First,knowledgebaseforgiftisbuiltafteraseriesofresearches,theninitializedbygiftspecialistsmanually,andfinallyajustedaccordingtosimilaritywhichiscalculatedonthebasicinformationofgifts.AJAXtechniqueisintroducedtoachievetheuserinterfaceinordertosupplygooduserexperience，andLucene,thefull-textsearchenginetoolkitisalsousedtoconstructindexforthegiftsinformationanddesignpersonalizedsearchfunctioninaccordancewiththeuser'slog.

InChapter1,thebackgroundofrecommendationsystem,thesignificanceofthestudy,andthemethodsandcontentsofthestudyisintroduced.InChapter2,wedescribethemainalgorithmsandkeytechnologiesthatinvolved.Requirementsanalysis,includesoverviewofthework,thedemandofrequirementandenvironmentisdescribedinChapter3.ThemaincontentinChapter4isthesystemdesign,whichisdividedintotwoparts,thefunctionpartandtheconstructionpart.Chapter5isthedetaileddescriptionofthekeyproblemsandsolutionsintheprocessofsystemconstruction.InChapter6,functionaltestingandperformancetestingofthesystemisoperated.ThelastChapterisasummaryofourworkandfurtherprospects.

KEYWORDS:

giftsrecommendation,knowledgebase,similarity,personalized,search

第一章绪论

1.1研究背景

随着互联网和电子商务的迅速发展，人类己步入网络信息时代。

随着信息技术特别是网络技术的发展，信息系统的规模越来越大，数量越来越多，信息获取的工具和方法越来丰富，在更方便的为用户提供越来越多信息和服务的同时，其结构和内容越来越复杂，在海量信息中，用户及时、准确地获得所需要的信息也更加困难[1]。

海量信息的同时呈现，一方面使用户很难从中发现自己感兴趣的部分，另一方面也使得大量少人问津的信息成为网络中的“暗信息”，无法被一般用户获取[2]。

面对网络信息量呈指数增长，如何从这浩瀚的海洋中取得所需要的、真正有用的信息，已成为广大网络用户共同面临的问题。

首先，由于很难准确描述出需要的信息的特征，用户常常会面对大量的信息而束手无策，迷失在大量的信息空间中；其次，信息系统单纯依靠提供的检索方式，往往不能满足用户描述检索条件的需求，找不到描述信息需求的方式。

另外，用户每次获取信息，都要输入大量、烦琐的检索条件，而信息系统不能通过服务历史和服务过程掌握用户需求，信息系统不能产生对用户持久的吸引力。

在这种背景下个性化智能推荐服务（PersonalizedRecommenderServices）应运而生并迅速发展起来，它通过与用户交互过程中获取的信息推测用户的兴趣偏好，并根据用户的兴趣偏好推荐符合用户兴趣偏好的信息。

个性化智能推荐服务不仅可以帮助用户找到所需信息，而且通过个性化智能推荐服务，可以有效保留用户，提高信息系统的吸引力和用户的忠诚度[3]。

1.2研究现状

1.2.1国外研究现状

在推荐用户模型方面，常用的用户建模技术有向量空间模型[4]、用户评价矩阵[5]，以及机器学习技术[6]。

在推荐算法方面，协同过滤是应用最广泛的个性化推荐技术。

协同过滤首先计算用户之间的相似度，然后将相似度最高的用户作为最近邻居，最后通过最近邻居用户产生推荐结果。

KuoRJ,LiaoJL和TuC提出了一个利用神经网络和遗传K-means算法通过分析用户在电子商务网站的浏览路径来获取用户偏好的方法。

各种挖掘技术如关联规则挖掘、聚类挖掘等被应用于Web日志的分析中，以提高推荐系统的精度[7]。

A推荐系统是由GeryLinden，BrentSmith和JeremyYork主导开发的集研究与应用于一体的推荐系统，采用项目-项目协同过滤算法，根据用户己购买和己评分项目寻找相似项目，将相似度高的项目列入到推荐列表中。

通过比较相似项目表与每个用户已购买和己评分的项目，系统整合比较结果将关联度最高和最畅销的项目推荐给用户。

根据用户己购买和己评分项目寻找相似项目的计算较快，它只依赖于用户已购买和已评分的项目数量，采用在线方式进行。

因此，即使是面对大规模数据集也有较快的运行速度[8]。

由于基于项目协同过滤推荐算法高度的关联性，推荐质量也比较高[9]。

MovieLens是由美国明尼苏达大学计算机科学与工程系开发的研究型自动协同过滤推荐系统，用于推荐电影。

MovieLens是一个基于Web的推荐，系统通过浏览器方式进行用户评分数据收集与推荐结果显示，用户使用更方便。

用户对网站提供的电影进行评分，用户可在notseen和0.5-5.0共11个选项中进行选择，网站根据每个用户的评分计算并分析用户的偏好，并据此向用户进行电影推荐。

MovieLens采用了基于用户的协同过滤和关联规则相结合的技术，计算用户的相似度并根据相似度分析用户的“邻居”，这些“邻居”是具有相似兴趣爱好的“邻居区”，“邻居”们对电影的评分数据被用来为目标用户生成个性化推荐项目[10]。

该系统既是一个个性化推荐研究的实验平台，也是向人们推荐感兴趣电影的应用系统，其不定期推出的用户评分数据为世界各国推荐领域研究人员提供了原始的实验数据[11]。

Ringo是由MIT媒体实验室开发的研究型协同过滤推荐系统，用于提供音乐推荐服务。

Ringo系统可以向用户推荐他们喜欢的音乐，预测用户不喜欢的音乐，也可以预测用户对特定音乐的评分。

FAB：

Stanford大学数字图书馆项目组开发的基于内容过滤和协同过滤的推荐系统，用于推荐Web页面。

其特点是综合了基于内容过滤的推荐和协同过滤推荐的优点，同时支持两种类型的推荐服务。

GoogleNews是一个为新闻领域开发的个性化资讯平台。

该平台采用基于MinHash聚类的协同过滤、统计隐含语义标引（ProbabilisticLatentSemanticIndexing，PLSI）和访问计数三种方法来产生推荐，使用一个线性模型将不同算法产生的推荐结合起来[12]。

GiftIdeas（）是一个专业的个性化礼品推荐网站，网站的礼品知识库非常专业，推荐页面用户体验性非常好。

网站从收礼人信息，送礼场合，个性化定制，礼品分类等多方面向用户进行礼品推荐。

1.2.2国内研究现状

复旦大学的邓爱林等针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居[13]。

浙江大学的孙小华针对协同过滤在无法得到项目的内容信息和用户个人信息的情况下，在数据稀疏和冷启动情况下提高预测准确性方面采用了属于特征递增型的PearAfter_SVD方法和属于转换型的LCMSTI方法。

针对新用户和新项目的冷启动问题采用了基于统计的众数法阻及信息熵法来解决[14]。

清华大学的邢春晓和高凤荣等人针对传统协同过滤算法不能及时反映用户兴趣变化的问题，提出了两种改进度量:

基于时间的数据权重和基于资源相似度的数据权重，在此基础上将它们有机结合，将这两种权重引入基于资源的协作过滤算法的生成推荐过程中，通过实验证明改进后的算法比传统协作过滤算法在推荐准确度上有明显提高[15]。

北京航空航天大学的张光卫等人针对传统相似度度量方法存在的不足,利用云模型在定性知识表示以及定性、定量知识转换时的桥梁作用，提出一种在知识层面比较用户相似度的方法，克服了传统基于向量的相似度比较方法严格匹配对象属性的不足。

以该方法为核心，在全面分析传统方法的基础上，提出一种新的协同过滤推荐算法。

实验结果表明，算法在用户评分数据极端稀疏的情况下，仍能取得较理想的推荐质量[16]。

国内推荐系统的应用现状如下：

豆瓣网（

淘宝礼物（

1.3研究意义

电子商务网站是推荐系统应用最广泛的地方。

根据电子商务网站的运营特征中国的电子商务网站可分为三类：

平台性质的电子商务网站，以淘宝为典型代表，不存在仓储、物流等服务，仅仅提供一个平台让更多的人在其中开店；服务型的电子商务网站，以当当、京东商城为典型代表，有自己的仓储、物流等；品牌型电子商务网站，销售自己品牌旗下产品，一般为企业官网建立的电子商务网站，例如凡客诚品。

2010年电子商务在中国发展如火如荼。

根据国内著名互联网分析机构艾瑞咨询调查显示，淘宝网占据国内电子商务80%以上的市场份额。

2009年淘宝网销售额达到了2000亿人民币，预计2010年淘宝网销售额将翻一番达到4000亿人民币。

由此可计算出2010年中国的电子商务总销售额将达到5000亿人民币。

当当网已经形成以图书、化妆品、家居、母婴等为主的核心品类，并于美国东部时间12月8日在美国纽约证券交易所正式挂牌上市。

京东商城增长速度每年都在300%以上，成了互联网和零售业的又一个奇迹制造者。

凡客诚品2010年销售的衣服达到了4000万件。

由上面的数据可以说明电子商务已经在中国开始全面发展，随着电子商务的发展，电子商务网站的用户和销售的商品急剧增加，如何为每个用户提供个性化的推荐服务成为电子商务发展的重要问题。

礼品作为电子商务网站中的特殊商品最具个性化的需求。

每个送礼人都希望送出一份个性化的礼品，每个收礼人都希望收到一份适合自己的礼品。

因此，基于知识库的礼品推荐系统的研究具有很高的经济价值和社会价值。

基于知识库的礼品推荐系统有其优点也有其缺点。

优点是可以全面形象地描述用户的送礼需求，通过礼品知识库进行推理向用户推荐准确的个性化的礼品。

缺点是礼品知识库需要礼品专家进行人工初始化，而且礼品知识库容易受到礼品专家喜好的影响。

1.4本文工作

1.4.1研究路线和方法

本文从淘宝网上抓取数千礼品信息，然后采用正则表达式进行文本提取，将提取的文本信息保存到数据库形成礼品库。

同时调研礼品领域知识，如礼品分类，送礼节日场合等知识并根据这些知识构建礼品知识库。

然后对其中一部分礼品的知识库进行人工初始化，并结合根据礼品基本信息计算出的礼品综合相似度对礼品知识库进行完善。

设计良好用户体验的推荐交互界面准确全面地表达用户的需求，从节日场合，收礼人兴趣爱好和收礼人描述向用户进行推荐。

最后根据用户对推荐礼品的反馈信息对知识库进一步调整和完善。

本文在搜索技术上采用开源的全文搜索引擎Lucene对礼品基本信息构建索引，同时结合用户的浏览日志分析用户偏好为用户的礼品搜索提供个性化的礼品推荐。

1.4.2主要研究内容

本文的主要研究内容为推荐系统在礼品推荐领域的应用研究，本文采用了知识库推荐的方法，并结合礼品个性化搜索，最后根据知识库的特点设计具有良好用户体验的推荐交互界面更好地描述用户的需求向用户提供个性化的礼品推荐服务。

1.4.3研究任务

本文的研究任务有如下三个方面：

礼品知识库的构建：

调研具有中国文化特色的礼品赠送知识，并根据这些知识构建礼品知识库。

礼品知识库的初始化和完善：

用礼品专家的礼品知识对礼品知识库进行初始化，然后采用一定的算法对礼品知识库进行完善。

礼品个性化搜索的设计：

构建礼品索引，并结合用户浏览日志向用户提供个性化的礼品搜索。

推荐交互界面的设计：

根据知识库设计具有良好用户体验的推荐交互界面准确全面地描述用户的需求。

第二章个性化推荐算法及系统实现关键技术介绍

2.1协同过滤（CollaborativeFiltering-CF）

协同过滤（CollaborativeFiltering-CF）技术是基于一组兴趣相同的用户进行推荐。

协同过滤基于这样的假设：

为用户找到他真正感兴趣的内容的好方法是，首先找到与他兴趣相似的用户，然后将这些用户感兴趣的内容推荐给此用户。

协同过滤技术可以分为两类：

基于用户的协同过滤和基于项目的协同过滤[17]。

1.基于用户的协同过滤推荐（CF-U）　

基于用户的协同过滤推荐技术是目前推荐算法实际应用中最为成功的个性化推荐技术，在商业推荐系统中得到广泛应用。

算法的基本思想是将具有相同爱好的用户感兴趣的项目推荐给目标用户。

首先利用用户的历史记录如搜索记录、浏览记录、评分评价等对用户特征进行分析和建模。

然后计算用户之间的相似度并将相似度最高的用户最为最近邻居[18]。

最后向用户推荐其最近邻居频繁购买的商品。

2.基于产品的协同过滤推荐（CF-I）　

基于产品的协同过滤技术也是应用比较广泛和成功的推荐技术，它与基于用户的协同过滤推荐的不同是它计算的是产品之间的相似度，向用户推荐的是于用户已经购买的商品相似度最高的商品。

3.协同过滤的优缺点　

优点：

协同过滤的最大优势就在于,系统与目标产品在网络上的呈现形式完全独立，只需要用户产品交易数据,比较简便易行。

缺点：

第一，协同过滤方法过于依赖于历史交易数据,会导致“产品冷启动”和“用户冷启动”问题,即无法对新产品与新用户进行推荐。

第二，协同过滤方法存在计算规模问题,而如果降低计算复杂度又会降低推荐质量。

第三,协同过滤方法只利用用户-产品交易关系,并未考虑用户多偏好和产品多属性的问题[19]。

2.2内容过滤（Content-BasedFiltering-CBF）

为了应对协同过滤的稀疏性问题出现了内容过滤。

内容过滤允许系统发掘用户的个性化特征而不需要将其与其他用户进行匹配,待推荐的产品也只是基于产品本身的特征信息。

其本质上是一个学习系统。

内容过滤分为两种:

基于新产品和基于新用户的内容过滤[20]。

1.基于新产品的内容过滤　

新产品进入系统后，系统将新产品与产品特征数据库进行匹配,然后提取新产品的特征。

再把用户数据库中的用户偏好类别与产品特征进行相似度匹配,从而生成推荐列表,最后根据用户反馈进行修正学习。

2.基于新用户的内容过滤　

新用户进入后,系统提取用户个性化特征,提取的方法一般有三种,一是问问题,二是通过注册信息获得,三是通过用户行为进行提取。

然后将用户与系统用户特征数据库进行匹配,归到一个用户类别中,再根据这个类别进行推荐,最后再进行修正学习。

3.内容过滤的优缺点　

优点：

正如内容过滤出现的原因内容过滤对推荐结果的解释更换在一定程度上解决了协同过滤方法中的用户多偏好和产品内容多样的问题，可以让用户提供一定的初始化信息,辅助系统做出更好的推荐。

缺点：

第一，产品提供商可能会有意更改产品特征误导系统以获取推荐机会。

第二，商品属性提取困难。

很难定义商品属性和用户特征的类别,那么也就很难做出精确的匹配。

而且这些属性特征成千上万,随着系统的不断学习,数据库规模还会不断扩大,对系统的性能也会有很大的影响。

第三，精确度问题,有试验表明内容过滤推荐可能不如协同过滤更为精确。

2.3知识发现（KnowledgeDiscoveryinData-base-KDD）

知识发现是从数据库中提取隐含的、先前未知的、潜在有用的知识或信息模式的决策支持方法。

知识发现需要提取发现用户和产品的特征,所采用的方法是分类、聚类、关联规则等数据挖掘方法。

知识发现将用户请求视作一个查询,然后基于用户需求和偏好进行推荐。

这个方法需要了解产品用户之间的关系和特征。

这些知识的获取有赖于知识库的建立,使得数据挖掘的方法得到了巨大的应用[21]。

1.数据挖掘技术的应用　

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的但又是潜在有用的信息和知识的过程[22]。

随着信息技术的高速发展，人们积累的数据量急剧增长，动辄以TB计，如何从海量的数据中提取有用的知识成为当务之急。

数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。

数据挖掘是知识发现的关键步骤。

电子商务推荐系统中的数据挖掘主要包括关联规则挖掘和分类挖掘两类,因此基于数据挖掘的知识发现方法又分为关联规则推荐和分类挖掘推荐两种。

关联规则推荐方法是先根据销售数据发现不同商品在销售过程中的相关性,然后基于生成的关联规则模型和用户的购买行为产生推荐结果;分类挖掘推荐方法是通过聚类、Bayesia网络、神经网络等多种机器学习方法产生分类挖掘模型,再根据用户输入信息和产品的特征信息,预测是否向用户推荐该产品[23]。

2.知识发现的优缺点　

优点：

知识发现可以利用电子商务网站的交易数据、日志数据等信息提高推荐系统的推荐质量和推荐效率。

缺点：

一种知识发现的算法只能适应某一领域的数据，而更换领域后知识发现的算法就不太适用了，因此需要重新定义规则或算法。

2.4系统实现关键技术介绍

2.4.1正则表达式

正则表达式（RegularExpression）在计算机科学中，是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。

在很多文本编辑器或其他工具里，正则表达式通常被用来检索和替换那些符合某个模式的文本内容。

许多程序设计语言都

展开阅读全文