姓名毕业设计论文正文格式Word格式.docx

资源描述

姓名毕业设计论文正文格式Word格式.docx

《姓名毕业设计论文正文格式Word格式.docx》由会员分享，可在线阅读，更多相关《姓名毕业设计论文正文格式Word格式.docx（41页珍藏版）》请在冰点文库上搜索。

姓名毕业设计论文正文格式Word格式.docx

1.4本文组织结构 3

第2章基于维基百科的本体构建方法 4

2.1本体概述 4

2.1.1本体的基本概念 4

2.1.2本体构建方法 5

2.2基于维基百科的本体构建 6

2.2.1维基百科简介 6

2.2.2传统方式构建本体存在的问题 7

2.2.3基于维基百科的本体构建 7

2.3本章小结 9

第3章基于本体的微博用户模型构建方法 10

3.1用户模型概述 10

3.2用户模型表示方法 10

3.2.1常用用户模型表示方法 11

3.2.2本体用户模型表示方法 11

3.3微博用户模型的构建方法 12

3.3.1特征词提取 12

3.3.2兴趣度计算 14

3.3.3用户模型的生成 14

3.4本章小结 16

第4章微博用户模型构建系统设计与实现 17

4.1系统整体设计 17

4.1.1开发环境简介 17

4.1.2系统整体架构 17

4.2数据库设计 18

4.3功能模块设计 22

4.3.1本体的构建与显示 22

4.3.2用户基本数据显示 23

4.3.3用户模型构建与显示 24

4.4本章小结 25

第5章总结与展望 26

5.1本文总结 26

5.1.1本文的主要工作 26

5.1.2本文的主要创新点 26

5.2展望 26

致谢 28

参考文献 29

附录：

部分源程序清单 31

XXX中文论文题目XXX

摘要

XXX。

关键词：

XXXX，XXX，XXX，XXX

XXXEnglishTitleXXX

ABSTRACT

Inrecentyears,withtherapiddevelopmentofMicro-blog,theneedthatusersgaintheaccesstoinformationisalsoalineargrowthmomentum.TheamountofSinaMicro-blogregisteredusershasreached503millionby2012.However,thedailyfloodofMicro-blogshasaseriousimpactonthequalityofinformationusersreceive.Thus,howtofindcontentthattheyareinterestedinquicklyandaccurately?

Orcanwepushtheinformationaccordingtotheuser'

sinterestactively?

Thatiswhatthispaperconcerns.

Usermodelisaformaldescriptionofusers'

interests.ToestablishapreciseusermodelforMicro-blogusers,inordertorecommendtheinformationtheyconcernedaboutandcontentstheyareinterestedin,isthedevelopmenttrendofpersonalizedrecommendation.Theachievementsofthispapercanbeusedfore-commerce,publicopinionmonitoring,advertisingandotherareas.

Inthispaper,Micro-blogusermodelconstructionmethodbasedontheontologytechnologyisdiscussed.Firstofall,accordingtoeachuser'

smicro-blogcontentanalysis,extractthekeywordswhichrepresentthecontentinformationofeachMicro-blog;

thencreateuser'

seigenvectorsinordertocalculatetheuser'

sinterestdegree;

finallymatchthesekeywordswiththeontologylibrarytocreateMicro-bloguserinterestmodel.TheachievementsofthispaperwilllaythefoundationofpersonalizedservicebasedonMicro-blogs.

Keywords:

Ontology,Micro-blog,Usermodel,InterestDegree

第1章绪论

本章主要描述了微博用户模型构建的背景、意义，分析了相关课题国内外的研究现状，进而提出了本文所要研究的内容及目标。

1.1微博用户模型构建的背景及意义

微博的数量和质量千变万化，各种海量、实时的数据信息已严重影响着用户接收信息的质量，进而影响着用户的生活质量。

传统的人找信息和人找服务的模式已越来越难以满足用户的需求。

如何为微博用户建立一个精准的用户模型，以便于之后为其推荐所关注的信息和感兴趣的内容，是各大移动电子商务网站进行个性化推荐的发展趋势。

本课题研究在微博上基于本体的用户模型构建方法具有现实意义。

1.2用户模型研究现状及存在的问题

近年来国内外学者对用户模型的研究做了大量的工作，而基于微博的用户模型构建也开始逐步成熟起来，下面具体阐述研究现状以及存在的问题。

1.2.1研究现状

近年来，用户建模技术作为个性化服务中的基础，愈来愈受到重视，并逐渐地从个性化服务中独立出来，形成了专门的研究方向。

研究人员逐渐意识到个性化服务质量的好坏不仅取决推荐技术或者检索技术，而且还取决于准确的用户模型。

国内的研究人员对用户模型构建和更新也展开了研究，例如大连理工大学林鸿飞和杨元生[1]根据用户提供的各类示例文档，通过考察特征、段落和类别的表达能力构建用户模型。

南京大学多媒体技术研究所开发的个性化搜索引擎DOLTRI-Agent[2]采用一些相互关联的关键词组成用户模型，对每个关键词设置权值来表示用户对该关键词的感兴趣程度。

国防大学的应晓敏[3]提出构建细粒度的基于关键词的用户建模方法，以更好体现出用户间的兴趣差异。

国防科技大学的徐振宁[4]和李勇[5]构建了一个包括个性化领域本体的用户模型，跟踪记录用户在Web上的浏览和检索过程，从大量数据中统计、分析和计算出用户的个性化信息需求。

在国外，Fragoudis和Likothanassis[6]对几个典型的个性化服务系统LIRA[7]，Letizoa等采用的用户建模方法进行了综述和分析，指出用户建模在个性化服务系统中的重要地位。

Pazzani和Binsusu[8]通过用户对浏览页面的标注获取用户感兴趣与不感兴趣的页面作为训练样本，而后计算单字的期望信息增益，选择期望信息增益大的128个单字构成用户模型。

Chan[9]通过观察用户对页面中超链接的选择获取用户感兴趣与不感兴趣的页面作为训练样本，而后计算单字的期望互信息，选择期望互信息大的250个单字构成用户模型。

Schwab[10]等通过观察用户对页面的选择获取用户感兴趣的页面作为训练样本，而后以出现在感兴趣页面中指定位置的单字构成用户模型。

Adomavicious和Tuzhilin[11]采用数据挖掘方法对用户个体的访问记录进行挖掘，挖掘出来的关联规则以及用户登记的个人信息构成用户模型。

在微博的用户模型研究方面，近年来国内学者做了大量研究工作。

例如广东社会主义学院的余伟[12]设计了一个基于本体的微博用户行为分析模型构架。

北京邮电大学的赵岩露[13]等提出了基于微博用户兴趣模型的发现算法。

而国外对Twitter的用户模型研究也有很多。

1.2.2微博存在的问题

虽然，近年来微博得到了空前的发展。

相比于传统博客，微博传播模式更加便捷，更新的频率更高。

作为新兴的媒体，目前仍存在很多问题。

（1）很多用户感兴趣的有用信息，往往被迅速湮没。

（2）微博信息过于简单，微博之间的联系松散、逻辑关系复杂，容易引起误解。

（3）微博监管困难，对于敏感信息传播的预测和监控缺乏有效手段。

1.2.3微博用户模型构建的难点

虽然用户建模技术已较为成熟，但针对微博这一特殊的平台，仍然存在了以下一些技术难点：

（1）对微博信息收集时，如何能够获取到大量有效的数据。

（2）微博信息短小精悍，对用户模型构建的准确性影响较大。

1.3本文研究内容及目标

本文针对微博中存在的问题，试图对用户的微博内容进行分析，提取用户的兴趣，并建立微博用户模型，为微博信息推荐、舆情监控、微博营销等提供技术支持。

1.3.1研究内容

本文研究基于本体的微博用户模型构建方法，具体研究内容有一下几个方面。

（1）领域本体构建；

（2）用户微博收集；

（3）微博内容分析；

（4）兴趣主题提取；

（5）用户模型构建。

1.3.2研究目标

针对本文的研究内容，制定了以下几项指标：

（1）自动对搜集到的所有用户（实验10个以上）的所有微博（30条以上）进行分词；

（2）自动统计每个用户的关键词词频；

（3）合理计算每个用户模型中的兴趣度；

（4）根据已有的本体库建立用户模型；

（5）开发系统原型，验证提出的方法。

1.4本文组织结构

整篇论文分为五章。

第一章介绍了研究背景、研究意义，分析了用户模型研究现状以及存在的问题和难点，并提出了本文的研究内容以及研究目标。

第二章主要介绍了本体的基本概念，并提出了基于维基百科的本体库构建方法。

第三章首先介绍了用户模型的基本概念及其表示方法，其次着重介绍了微博用户模型的构建方法，主要分为特征词提取、兴趣度计算和用户模型的生成。

第四章主要描述了微博用户模型构建系统设计与实现，展示了系统整体设计、数据库设计和各功能模块设计的内容。

第五章对全文进行了总结，归纳了本文的主要工作与创新点，并指出了需要进一步研究的问题。

第2章基于维基百科的本体构建方法

本章具体描述了基于维基百科的本体构建方法：

介绍了本体的基本概念，并引出本文所使用的基于维基百科的本体构建方法。

2.1本体概述

本节介绍了本体的基本概念以及目前研究学者常用的四种构建方法。

2.1.1本体的基本概念

在计算机领域，1991年开始，研究者们对本体做了多次说明，它表示的含义也更加清晰明确，现在人们一般认为本体论是对概念化对象的明确表示和描述[14]。

随着研究者们对本体研究的不断完善，本体的定义有很多种，以下是几种比较有代表性的定义。

1991年，Neches[15]等给出了构成相关领域词汇的基本术语、关系，以及这些词汇外延的规则。

1996年，Swartout[16]提出本体是一个知识库结构中术语集合，该结构中的术语是按照继承关系组织起来的，强调了本体中术语（Terms）的重要性。

1993年，Gruber[17]提出本体是概念模型明确的规范说明。

1997年，Borst[18]提出本体是共享概念模型的形式化规范说明。

1998年，Studer[19]等对上述两个定义进行了深入研究，认为本体是“共享概念模型的明确的形式化规范说明”，它有以下四个方面的含义：

（1）本体是一个概念模型（Conceptualization），它是指通过抽象客观世界中一些现象的相关概念得到的模型。

它表现的含义独立于具体的环境状态；

（2）本体的明确性（Explicit），本体包含的概念和概念之间的约束都应该有明确的定义；

（3）本体是形式化的（Formal），意思是本体应该是计算机可处理的；

（4）本体是可共享的（Sharable），本体中概念、关系、属性的描述是基于标准的、规范的、能被共享的。

本体的定义多种多样，其核心都一样，把本体作为一种描述资源的手段，为不同的主体进行知识交流提供语义基础。

在计算机领域中，对本体的研究主要是如何实现这种统一标准，以及本体的构建方法、本体描述语言、本体的管理和本体的应用等内容。

根据本体的语义特性，本体可以应用于不同的领域，致力于提高服务的联想能力和准确性。

总而言之，尽管本体的定义方式多种多样，但本体所包含的基本要素：

概念、概念之间的关系等。

2.1.2本体构建方法

目前，本体构建成功的案例很多，根据不同的领域，构建的方法也不一样，现在还没有构建本体的标准。

许多研究人员根据经验总结出来了一些方法，1995年，Gruber提出构建本体的五条规则如下：

（1）明确性和客观性：

本体应该是背景独立的、客观的，能反映社会真实情况，满足可计算性，具有明确的、客观的形式化语义；

（2）完整性：

给出的定义应该是完整的，能表达特定属于的含义；

（3）一致性：

只是推理产生的结论与属于本身的含义不产生矛盾；

（4）可扩展性：

在扩展本体功能的时候，可以自由添加新的术语而对已有本体的结构和内容不做修改；

（5）最少约束：

在满足可能的知识共享需求的基础上本体的约定应该最小。

它可以通过只定义通讯所需的词汇或者定义约束最弱的公理来保证。

目前比较普遍的构造特定领域的本体，一般都需要相关领域专家的参与。

以下列举了一些在项目实践过程中形成的方法：

IDEF-5方法：

IDEF（ICAMDefinitionLanguages）方法是上世纪七十年代由美国空军发明的。

在1981年针对集成计算机辅助制造（IntegratedComputerAidedManufacturing，简称ICAM）项目中用于描述企业内部运作的建模方法。

最初该方法只是应用于制造业，经过改造后，适用于软件开发。

目前已经形成了一系列方法。

包括IDEF1X和IDEF0到IDEF14共16套方法，每一套方法都通过建模程序获取某特定类型信息，其中IDEF-5是本体描述获取语言。

骨架法（SkeletalMethodology）：

该方法是由爱丁堡大学人工智能应用研究所开发企业建模过程中总结出来的。

评价法：

该方法由多伦多大学企业集成实验室，在开发虚拟企业本体工程项目时总结出来的。

通过建立制定知识的逻辑模型，用一阶逻辑构造形式化的模型，包括企业设计本体、工程本体、计划本体和服务本体。

七步法：

该方法是斯坦福大学医学院提出的基于Proté

gé

本体构建工具的一种领域本体构建方法。

一共包括七个步骤：

（1）确定只是本体的专业领域和范畴；

（2）考察复用现有只是本体的可能性；

（3）列出本题中的重要术语；

（4）定义类和类的层次体系；

（5）定义类的属性；

（6）定义类的分面（Facets）；

（7）创建本体实例。

2.2基于维基百科的本体构建

以上传统的构建本体的方法仍然存在许多弊端，下面就针对这些不足进行分析阐述，并提出本文所使用的基于维基百科的本体构建方法的优势所在。

2.2.1维基百科简介

维基百科（Wikipedia）是一个自由、免费、内容开放的网络百科全书，参与者来自世界各地。

这个站点使用Wiki，这意味着任何人都可以编辑维基百科中的任何文章及条目。

维基百科是一个基于Wiki技术的全球性多语言百科全书协作计划，同时也是一部用不同语言写成的网络百科全书，其目标及宗旨是为全人类提供自由的百科全书──用他们所选择的语言来书写而成的，是一个动态的、可自由访问和编辑的全球知识体。

维基百科自2001年1月15日正式成立，由维基媒体基金会负责维持，其大部分页面都可以由任何人使用浏览器进行阅览和修改。

因为维基用户的广泛参与共建、共享，维基百科也被称为创新2.0时代的百科全书、人民的百科全书。

这本全球各国人民参与编写，自由、开放的在线百科全书也是知识社会条件下用户参与、大众创新、开放创新、协同创新的生动诠释。

英语维基百科的普及也促成了其它计划，例如维基新闻、维基教科书等计划的产生，虽然也造成对这些所有人都可以编辑的内容准确性的争议，但如果所列出的来源可以被审察及确认，则其内容也会受到一定的肯定。

维基百科中的所有文本以及大多数的图像和其他内容都是在GNU自由文档许可证下发布的，以确保内容的自由度及开放度。

所有人在这里所写的文章都将遵循copyleft协议，所有内容都可以自由的分发和复制。

截至2013年1月，维基百科条目数第一的英文维基百科已有415万个条目，而全球所有282种语言的独立运作版本共突破2100万个条目，总登记用户也超越3200万人，而总编辑次数更是超越12亿次。

大部分页面都可以由任何人使用浏览器进行阅览和修改，英文维基百科的普及也促成了其它计划。

Wiki一词来源于夏威夷语的“weekeeweekee”，原本是“快点快点”的意思。

在这里“WikiWiki”指一种超文本系统。

这种超文本系统支持面向社群的协作式写作，同时也包括一组支持这种写作的辅助工具。

2.2.2传统方式构建本体存在的问题

本体的构建是一个系统性工程，由于没有统一的构建原则、方法，到目前为止，本体工程仍处于相对不成熟的阶段，整个建设过程在以下几个方面还存在很多问题[20]。

（1）构建方法

7种构建方法都是从具体领域本体的开发中总结出来的，应用领域很有限，大多数方法的细节比较粗，相关技术比较少，没有一种方法完全按照生命周期法进行开发。

另外，由于没有统一的构建原则作为指导，整个本体的构建过程难以进行规范的管理。

（2）可扩展性

随着领域的不断发展、变化，必然会有更多的领域相关概念和关系引入到核心本体中，需要通过知识的进一步获取、概念的进一步扩充或更改等方式，不断改进和扩展领域本体。

但是目前本体的维护和扩展问题还没有得到很好的研究和支持。

（3）共享和重用

领域本体构建的目的是为不同系统提供彼此交流的语义基础。

目前，为减少构建本体的工作量，多数的研究均利用现有术语丰富的叙词表作为构建工作的起点。

而叙词表到本体的转换还没有一个统一的标准，在转换的过程中各项目使用的描述语言以及描述广度和深度不尽相同，给今后本体之间语义互操作和重用造成了困难。

2.2.3基于维基百科的本体构建

维基百科全书于2001年1月投入运行，到2013年1月，英文版的维基百科全书就包含了415万多个条目，全部条目超过了2100万条，具有内容相互独立的282种语言版本。

维基百科全书具有与大英百科全书类似的写作风格，相近的准确性，但内容的丰富性已经超过了大英百科全书。

其内容不仅包括大量的插图，还包含了大量的多媒体内容，时效性更是印刷版的大英百科全书无法比拟的。

与传统百科全书相比，维基百科特点突出：

（1）首先，维基百科始终将自己定位为包含人类所有知识领域的百科全书，而不仅仅是一本词典、在线论坛或其他。

（2）其次，计划也是一个Wiki，允许大众广泛参与。

维基百科是第—个使用Wiki系统进行百科全书编撰工作的协作计划。

（3）最后，维基百科是一部内容开放的百科全书，其内容允许任何第三方不受限制地复制、修改及再发布，广泛的参与性，使得维基百科的权威性、中立客观性得到了保证。

它方便不同行业的人士寻找知识，而使用者也可以不断增加自己的知识从而充实自己。

当然，因为一些特殊的原因，目前中文版和英文版和百科全书也有部分敏感词汇被禁用。

目前，维基百科定期免费提供各个语言版本的所有数据，放到网络上供人下载。

其中，数据包中包括有page.sql文件和categorylinks.sql文件，前者记录了所有页面的基本信息，如：

页面标题、命名空间、页面长度等，后者记录了各个页面标记的类目信息。

[21][22]虽然维基百科网站也提供了树状形式的类目网络供人浏览，但是这个网页的数据存在如下缺陷：

（1）由人工维护，所以数据更新比较缓慢；

（2）迫于部分类目深度过深，所以这个网页把这些类目删除掉，如“生物分类树”；

（3）由于采用简单的深度遍历算法将图输出为树状结构，所以部分类目深度失衡，例如“自然科学”类目就没有子类目。

基于以上原因，我们编程实现了类目网络的自动生成。

基于维基百科中文本体的构建主要包括以下几个步骤：

（1）中文繁简转换

目前中文存在两种书写系统——繁体中文与简体中文。

一般来自台湾、香港、澳门的使用者使用正体中文（繁体中文），来自中国大陆、新加坡、马来西亚则使用简体中文。

[23]作为一个全球华人共同创作的平台，中文维基百科发布的数据中，既有繁体形式的，也有简体形式的，甚至很多在同一篇文章中繁简夹杂。

这给我们的抽取工作带来很大的不便：

一方面，文本繁简混杂的问题使得我们不能用现有的基于单一文字模式的中文信息处理工具直接分析文本；

另一方面，繁简夹杂必然使得我们的研究成果不能很好地得到利用。

所以，我们在利用维基百科所提供的简繁对应词表基础上，借鉴MediaWiki1.4的繁简转换功能的“用字模式”，实现了繁简转换功能。

（2）类目网络清理

在维基页面分类系统中，存在着若干为了方便管理而添加的元类目，例如：

“维基百科站务”。

[24]因为这些类目所含语义信息较少，所以我们必须清理这些类目。

我们剔除所有包含以下关键字的类目：

维基，列表，模板，维基人，专题，分类，条目，小作品。

另外，从数据库自动生成的类目网络中存在一些孤立点，我们将此类类目也全部清除。

在清理之前，中文维基类目之间的直接连接数为21776个，清理后的直接连接关系总数14009个。

（3）识别父子关系

首先界定两个概念：

下位词与“Is-a”关系（父子关系）[25][26]。

语言学家Fromkin和Rodman[27]认为，下位词是一个一般化词语具体化之后的相关词语集合。

例如，深红色，朱红，绯红色都是红色的下位词，而红色就是它们的上位词。

同时，红色又是颜色的下位词。

因此，下位关系也就是一般化术语（如多边形）和它的具体化实例（如三角形）之间的关系。

在计算机科学中，常常将此关系称为Is-a关系[28]。

例如，用“红色isa颜色”来描述红色和颜色之间的下位关系。

在知识表示和面向对象编程与设计中，在AisaB中，Is-a表示类A是类B的子类，即B是A的父类。

换言之，"

AisaB"

通常意味着概念A是概念B的具体化，概念B是概念A的一般化。

举例而言，“水果”是“苹果”、“桔子”、“芒果”等概念的一般化。

我们可以说，“苹果isa水果”。

下文对这些类目之间的Is-a和NotIs-a关系进行自动识别。

经过以上步骤可以建立一棵基于维基百科的概念知识树，这就是我们维基百科本体知识树的原型。

展开阅读全文