文本分类综述文档格式.doc

资源描述

文本分类综述文档格式.doc

《文本分类综述文档格式.doc》由会员分享，可在线阅读，更多相关《文本分类综述文档格式.doc（13页珍藏版）》请在冰点文库上搜索。

文本分类综述文档格式.doc

2015年6月2日

文本分类综述

摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容，将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。

文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。

本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。

介绍目前文本分类过程中的一些关键技术，以及流形学习在文本分类中降维的一些应用。

并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。

关键词文本分类；

特征选择；

分类器；

中文信息处理

1.引言

上世纪九十年代以来，因特网以惊人的速度发展起来，到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息，包括文本、声音、图像等。

这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。

文本数据与声音和图像数据相比，占用网络资源少，更容易上传和下载，这使得网络资源中的大部分是以文本（超文本）形式出现的。

如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。

基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下，根据文本的内容自动对文本分门别类，从而更好地帮助人们组织文本、挖掘文本信息，方便用户准确地定位所需的信息和分流信息。

利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。

通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。

因此文本分类技术得到日益广泛的关注，成为信息处理领域最重要的研究方向之一。

2.文本分类技术的发展历史及现状

2.1文本分类技术发展历史

国外自动分类研究始于1950年代末，早期文本分类主要是基于知识工程，通过手工定义一些规则来对文本进行分类，这种方法费时费力，还需要对某一领域有足够的了解，才能提炼出合适的规则。

H.P.Luhn在这一领域进行了开创性的研究，他将词频统计的思想用于文本分类中。

这一时期，主要是分类理论的研究，并将文本分类应用用于信息检索。

在这一段时期，提出了很多经典文本分类的数学模型。

比如1960年Maron在JournalofASM上发表了有关自动分类的第一篇论文“OnrelevanceProbabiliticindexingandinformarionretriral”，这是Maron和Kuhns提出概的率标引（Probabiliticindexing）模型在信息检索上的应用。

还有Salton提出利用向量空间模型（VectorSpaceModel,VSM）对文本进行描述等等。

20世纪80年代，这一阶段主要采用传统的知识工程技术，根据专家提供的知识形成规则，手工建立分类器。

这一段时期，信息检索技术逐渐成熟，为文本分类提供了许多技术支持，比如1962年H.Borko等人提出了利用因子分析法进行文献的自动分类。

Rocchio在1972年提出了再用户查询中不断通过用户反馈来修正类权重向量，来构成简单的线性分类器，还有VanRiJsbergen提出了信息检索的评估标准如准确率，查全率等。

20世纪90年代后进入第三阶段，随着网上在线文本的大量涌现和机器学习的兴起，大规模的文本（包括网页）分类和检索重新引起研究者的兴趣。

文本分类系统首先通过在预先分类好的文本集上训练，建立一个判别规则或分类器，从而对未知类别的新样本进行自动归类。

大量的结果表明它的分类精度比得上专家手工分类的结果，并且它的学习不需要专家干预，能适用于任何领域的学习，使得它成为目前文本分类的主流方法。

比如1992年，Lewis在他的博士论文《RepresentationandLearninginInformationRetrieval》中系统的介绍了文本分类系统实现方法的各个细节，并且在自己建立的数据集上进行了测试。

这篇博士论文是文本分类领域的经典之作。

后来的研究者在特征的降维和分类器的设计方面做了大量的工作。

YangYiming对各种特征选择算法进行了分析比较，讨论了文档频率（DocumentFrequency,DF）、信息增益（InformatiobGain,IG）、互信息（Multi-information,MI）和CHI等方法，结合KNN分类器，得出IG和CHI方法分类效果相对较好的结论，对后来的研究起到了重要的参考作用。

新加坡的HweeTouNG等人研究了用PerceptronLearning的方法进行文本分类，使用了一直树状的分类结构，大大提高了准确率。

1995年，Vipink基于统计理论提出了支持向量机SVM（SupportVectorMachine）方法，基本思想是想找到最优的高维分类超平面。

后来有人将线性核函数的支持向量机应用与文本分类，与传统的算法比较在性能上得到了很大的提高，后来也提出了AdaBoost算法框架，比较有代表性的有RealAdaBoost，GentleBoost，LogitBoost等。

这些Boosting算法均己被应用到文本分类的研究中，并且取得和支持矢量机一样好的效果。

2.2文本分类国内外发展现状

国外在自动文本分类以及相关的信息检索、信息抽取领域进行了较为深入的研究。

八十年代,自动文本分类以知识工程的方法为主,根据领域专家对给定文本集合的分类经验,人工提取出一组逻辑规则,作为计算机自动文本分类的依据。

进入九十年代,基于统计的自动文本分类方法日益受到重视,它在准确率和稳定性方面具有明显的优势。

到目前为止,国外的文本自动分类研究已经从最初的可行性基础研究经历了实验性研究进入实用的阶段,并在邮件分类、电子会议、信息过滤等方面取得了较为广泛的应用。

国外当前流行的文本分类算法有Rocchio法及其变异算法、k近邻法（KNN）、决策树、朴素贝叶斯、贝叶斯网络、支持向量机（SVM）等方法，这些方法在英文以及欧美语种的文本分类上有广泛的研究，并且KNN和SVm确实是英文分类的最好方法。

国外对英文文本分类领域的各个问题都有相当深入的研究，对几种流行的方法进行了大量的对比研究。

国内对文本分类研究比较晚,1981年,侯汉清教授首先探讨和介绍了国外文本分类的研究情况。

随后,国内很多学者在这方面进行了比较深入的研究。

1995年,清华大学电子工程系的吴军研制的汉语语料自动分类系统,以语料相关系数作为分类依据,以字频、词频及常用搭配为补充,采用停用词表排除非特征词,进行人工指导分类。

1998年,东北大学的计算机系的张月杰、姚天顺研制的新闻语料汉语文本自动分类模型,通过计算预定义类别和文本特征项之间相关性来进行自动分类。

1999年,邹涛、王继成等开发的中文技术文本分类系统CTDS（ChineseTechnicalDocumentClassificationSystem）采用了向量空间模型和基于统计的特征词提取技术,能够根据文本的具体内容将其分配到一个或多个类别。

此外,国内很多学者对中文文本分类算法也进行了深入的研究,黄萱箐等提出一种基于机器学习的、独立于语种的文本分类模型。

周水庚等在论述隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用。

李荣陆等使用最大熵模型对中文文本分类进行了研究。

张剑等提出一种以WordNet语言本体库为基础,建立文本的概念向量空间模型作为文本特征向量的特征提取方法。

朱靖波等将领域知识引入文本分类,利用领域知识作为文本特征,提出一种基于知识的文本分类方法。

相比于英文文本分类，中文文本分类的一个重要差别在与预处理阶段，中文文本的读取首先需要分词，不同于英文文本的空格区分，从简单的查词典的方法到后来的基于统计语言模型的分词方法，中文分词技术经过多年的发展已经趋于成熟。

比较有影响力的有中国科学院计算所开发的汉语词法分析系统ICTCLAS。

很长一段时间由于中文文本分类的研究没有公开的数据集，使得分类算法难以比较，现在一般采用北京大学建立的人民日报语料库和清华大学建立的现代汉语语料库等。

一旦经过预处理将中文文本变成了样本矢量的数据矩阵，那么随后的文本分类过程就可以参考英文文本分类的方法，因此当前的中文文本分类主要集中在如何利用中文文本本身的一些特征来更好的表示文本样本，国内外很多学者在基于知识和统计的两种方法上对中文文本分类进行了大量的研究，主要有基于词典的自动分类系统和基于专家系统的分类系统。

这其中上海交通大学，清华大学，北京大学，东北大学，山西大学，新加坡香港的一些大学都有显著的研究成果。

3.文本分类关键技术

一个完整的文本分类过程主要包括以下几部分:

首先是预处理,根据采用的分类模型将文档集表示成易于计算机处理的形式；

对文本类别进行人工标注；

对文本进行特征提取；

再次是根据预处理的训练集（已预知类别的文档）学习建模,构建出分类器；

最后利用测试集文档按一定的测试方法测试建立好的分类器的性能,并不断反馈、学习提高该分类器性能,直至达到预定的目标。

具体流程图如下：

图1文本分类流程图

3.1文本预处理

文本预处理包括字符编码转换，去掉网页中导航信息、tag标记等，去掉一些低频词和停止词比如“的”“啊”“the”“a”等，另外要去掉单词前后缀，还有就是词性标注，短语识别，去除停用词，数据清洗也就是去除噪声文档或者垃圾数据还有词频的统计，这里重点介绍自然语言处理技术范畴的中文分词和文本表示。

3.1.1中文分词介绍

由于中文语言的的特点，同一句话可能有不同的分词方式导致不同的意思，所以对文本分类首先要进行分词。

目前比较成功的分词系统有北京航空航天大学的CDWS，山西大学的ABWS，采用联想回溯来解决引起组合切分歧义，正确率达到了98.6%，还有哈工大统计分词系统，北大计算语言所分词系统，复旦分词系统等等，根据有无词典切分，基于规则统计切分，现有的分词算法主要有三类分别是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

（1）基于字符串匹配的分词方法

这种机械分词方法是按照一定策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。

根据扫描方式分为正向匹配和逆向匹配；

按照不同长度优先匹配的情况，分为最大和最小匹配；

按照是否与词性标注过程相结合，又分为单纯分词方法和分词与标注相结合的一体化方法。

目前常用的有正向最大匹配算法（FMM）、逆向最大匹配算法（BMM）、还有结合前两种方法优点的双向最大匹配算法（Bi-directionalMM），还有最少分词法也叫最短路径法，这是属于贪心算法的一种思想。

还有一种是改进扫描方式，称为特征扫描或者标志切分，优先把一些带有明显特征的词作为断电，将原来的字符串分为较小的串再进行机械切分，从而提高准确率，还有就是将分词和词性标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中对分词结果进行检验、调整，极大的提高切分准确率。

（2）基于理解的分词方法

基于理解的分词方法是通过让计算机模拟人对句子的理解，从而达到分词的效果，也就是在分词的同时进行句法，语义分析，利用局发信息和语义信息来进行歧义消解。

这种分词方法需要大量的语言知识和信息，由于汉语语言知识的笼统，复杂性，很难将各种语言信息组织成机器可以直接读取的形式，所以目前还处于研究阶段。

（3）基于统计的分词方法

基于统计的分词思想在于利用字与字之间和词与词之间共同出现的概率作为分词的依据。

这种方法属于无词典分词，只需要对语料库中的字组频度进行统计，定义两个字的互现信息，计算两个汉字的相邻共现概率，这种互现信息反映了汉字之间的结合关系的紧密程度，当紧密程度高于某一个阈值，我们可以认为这个字组可能构成了一个词。

但是这种方法的弊端在于对“这一”“我的”这些词的辨识度不高，所以实际应用中结合基本的分词词典进行分词。

还有一些别的分词方法比如我校刘开瑛老师提出的串频统计和词形匹配结合的分词方法，还有许多好的分词方法，在对中文进行分词时，面临两个难题，一是进行歧义消解，还有就是对未登录词的识别。

对于歧义消解目前的研究工作室基于统计方法、词性方法还有就是利用汉字独有的二元关系来处理。

对于未登录词主要是进行词性标注，这方面北京大学和山西大学都做了很多工作。

3.1.2文本表示介绍

不同于数据库中的结构化数据，文本使用自然语言，通常是非结构化的,计算机很难直接对其进行处理,因而在分类之前要对文本做一定的预处理,抽取代表其本质特征的元数据以结构化形式保存，将非结构化的文档转换为适合于学习算法以及分类任务的表示形式，这就是文本表示。

对文本表示时首先要解决的是特征粒度的选择，是选择字，词，句还是其他来分类，研究表明基于此的分类方法优于字和基于二元同现串的分类方法，所以词性，标点符号，语义模式作为了文档特征。

同学的文本表示方法有布尔模型（BooleanModel），向量空间模型（VectorSpaceModel），聚类模型（ClusterModel），概率模型（ProbabilisticModel）和基于知识模型（Knowledge-BasedModel）等。

（1）VSM模型

G.Salton提出的向量空间模型有较好的计算性和可操作性，在信息检索领域和文本分类领域都得到了广泛的应用。

VSM模型假设一份文本所属分类至于一些特定的词在改文本中出现的频率有关，而与他出现在文本中位置或顺序无关，也就是通过对构成文本的词项以及词项出现的词频，来进行分类。

对给定文档D（T1,W1;

T2,W2;

...Tn，Wn）抽象为向量空间中，由于在文档中Tk既可以重复出现又应该有先后次序的关系，分析起来仍有一定的难度。

为了简化分析，可以暂不考虑Tk在文档中的先后顺序，并要求文档无异（即没有重复）这时可以把T1...Tn看成一个n维的坐标系，而W1...Wn为相应坐标值，这样就可以看成n维空间的一个向量。

Wi为第i个特征的权重，也就刻画了词项在表示文本内容时的重要程度。

（2）权值计算公式

在一个给定的文本中，根据文本的长度和词项出现的频率不同,词的重要性也有所不同,在向量空间模型中这种重要性被称为权值；

权值的计算主要依据下面两个经验性的结论:

（1）一个项在某文档中出现的次数越多,它和该文档的主题就越相关。

（2）一个项在选取的文档集中出现的次数越多,它刻画某个特定文档特征的能力就越弱.

最初特征权值计算采用布尔权值，也就是出现为1，不出现为0，这样午饭体现其在文本中的中重要程度，目前普遍采用统计词频来赋权值，主要的计算方法有TFIDF公式。

（3）相似度计算

文本表示成向量以后，文本之间语义相似度可以通过空间中这两个向量间的几何关系来度量，通常采用内积，夹角余弦和相关系数来刻画相似度。

内积函数是一种简单但常有的相似度计算函数，在支持向量的分类算法中经常用到，而且效果也很好，公式如下：

。

夹角余弦采用空间中两个向量的夹角余弦值来度量语义相似度。

两个向量空间夹角越小，余弦值越大，语义相似度越大，反之亦然。

计算公式如下：

3.2特征降维

文本分类的一个核心难题就是特征空间的高维性和文本表示向量的稀疏性。

一个文档集中的特征项动辄就是上万维,这么高的维数特征不仅带来极高的计算复杂度,产生维度灾难,也给分类过程带来了大量的噪音,且容易产生过度拟合的问题,因而有必要简化原始的特征集,提高分类的效率和精度，这种简化技术就是降维技术。

降维技术主要分成两大类；

特征选择和特征提取。

特征选择又称独立评估法,其目的是滤除携带信息量较少的词,只保留对分类贡献较大的词。

在特征选择时一般都是利用某种评价函数,独立地对每个原始特征项进行评分,然后按分值的高低将它们排序,从中选取若干个分值最高的特征项,以达到减少总特征数的目的。

因此，评价函数的好坏是影响特征选择的关键问题。

常见的特征选择方法有文档频率（DF）、信息增益（IG）、互信息（MI）、统计量（CHI-2）等。

（1）文档频率

词条的文档频率（DocumentFrequency）是指在训练语料中出现该词条的文档数。

文档频率方法提取文档频率较高的特征,它的目的是去掉在训练集上出现次数过少和过多的特征,由于过少没有代表性过多没有区分度，保留具有一定影响力的特征。

在各个特征提取方法中,DF方是最简单的。

（2）信息增益

对于特征词条t和文档类别c，IG考察c中出现和不出现t的文档频数来衡量t对于c的信息增益，定义如下：

其中表示类文档在语料中出现的概率，P（t）表示语料中包含特征词条t的文档的概率，表示文档包含特征词条t时属于类的条件概率，表示语料中不包含特征词条t的文档的概率，表示文档不包含特征词条t时属于类的条件概率，m表示文档类别数。

信息增益的优点在于，它考虑了词条未发生的情况，即虽然某个单词不出现也可能对判断文本类别有贡献。

但在类分布和特征值分布是高度不平衡的情况下其效果就会大大降低了。

（3）互信息

互信息（MutualInformation）在统计语言模型中被广泛使用。

它是通过计算特征词条t和类别c之间的相关性来完成提取的。

如果用A表示包含特征词条t且属于类别c的文档频数，B为包含t但是不属于c的文档频数，C表示属于c但不包含t的文档频数，N表示语料中文档的总数，t和c的互信息可由下式计算：

（4）统计量

统计量度量特征词条t和文档类别c之间的相关程度，并假设t和c之间符合具有一阶自由度的分布。

特征词条对于某类的统计值越高，它与该类之间的相关性越大，携带的类别信息也越多。

反之，统计量也是反映属性t和类别c之间的独立程度。

当的值为0时，属性t与类别c完全独立。

比如对于两类分类情况：

令N表示训练语料中的文档总数，c为某一特定类别，t表示特定的词条。

A表示属于c类且包含t的文档频数，B表示不属于c但是包含t的文档频数。

C表示属于c类但是不包含t的文档频数，D是既不属于c也不包含t的文档频数.其定义为：

统计量和互信息的差别在于它是一个归一化的统计量，但它对低频特征项的区分效果不好。

（5）流形学习在降维中的应用

除了以上的降维方法还有文本证据权，期望交叉熵几率比等，此处结合我的研究方向讨论流形学习在降维过程中的应用。

流形学习放到是一种非线性降维方法，比如ISOMAP、LLE、LE3。

其中ISOMAP算法是建立在多维标度变换算法的基础上，考虑全局优化的算法。

通过构造领域图，测地线距离用欧氏距离直接近似，对非领域点，则采用领域图上两个点的最短路劲近似，最后用多维标度变换算法（MDS）构造低维嵌入。

LLE则是将数据中全局非线性转化成局部线性来讨论，在构造领域图后计算重构权值矩阵。

利用样本间的领域关系来重构权值矩阵，对每个样本，利用他的k个最近邻的线性组合进行重构，最后利用权值矩阵寻找低维嵌入。

3.3文本分类算法及分类器

文本分类算法是设计实现分类器的理论基础，由于属于机器学习的一个分支，许多经典的机器学习算法都被应用在文本分类中来，文本分类的方法大部分来自于模式分类，基本上可以分为三大类:

一种是基于统计的方法，如Naï

veBayes,KNN、类中心向量、Rocchio算法及其变异方法、回归模型、支持向量机、最大熵模型等方法；

另一种是基于连接的方法，即人工神经网络；

还有一种是基于规则的方法，如决策树、关联规则、粗糙集等，这些方法的主要区别在于规则获取方法的不同。

（1）Rocchio方法

Rocchio方法是一种基于相似度的计算方法。

基本思想是在训练阶段为每个类别ci建立一个代表向量，其中|T|表示训练集中的特征总数。

每类文本集生成一个代表该类的中心向量，然后在新文本到来时，确定新文本向量，计算该向量与每类中心向量的距离（相似度），从而判定文本属于与文本距离最近的类。

其中类别ci的代表向量的第k维值wki由公式计算：

其中，β为训练样本中正例的控制参数，γ为训练样本中反例的控制参数，|ci|表示训练样本中正例的数目，N表示训练样本的文档总数，正例指属于类别ci的文本，反例指不属于类别ci的文本。

β和γ是两个控制参数，可以通过提高β降低γ来削弱反例的影响。

具体执行步骤是通过所有训练文本向量采用简单的算术平均计算每类文本集的中心向量；

（γ=0），当新文本到达后，分词处理，将文本表示为特征向量；

计算新文本特征向量和每类中心向量间的相似度，公式为：

（2）朴素贝叶斯方法

Naï

veBayes是基于概率理论的学习和分类方法，是一种常见的简单的线性分类器。

贝叶斯分类是根据给定样本描述的可能的类别基础上产生的后验概率分布。

为了简化计算量，朴素贝叶斯是基于假定样本特征项是相互独立这一假设的，但是同时这也导致贝叶斯分类器分类效果不太理想。

具体思路设各个类别的集合为{c1,c2,…cn}，设E为实例的描述，确定E的类别。

则根据先验概率:

P（ci），条件概率:

P（E|ci）就可以知道p（E），最终对其进行分类。

（3）KNN分类

k近邻分类模型,是最著名的模式识别统计学方法之一,它在很早就被用于文本分类研究,而且是取得最好结果的文本分类算法之一，是一种稳定而有效的文本分类方法。

采用KNN方法进行文档分类的过程如下:

对于某一给定待分类的测试文本,考察和待分类文本最相似的k篇文本，通过相似度找到与之最相似的k个训练文本。

在此基础上,给每个文本类打分,分值为k个训练文本中属于该类的文本与测试文本之间的相似度之和。

也就是说,如果在这k个文本中,有多个文本属于一个类,则该类的分值为这些文本与测试文本之间的相似度之和。

对这k个文本所属类的分值统计完毕后,即按分值进行排序。

另外还应当选定一个阈值,只有分值超过阈值的类才予以考虑。

最后根据分值对待分类文本进行分类。

具体操作如下首先根据特征项集合重新描述训练文本向量，在新文本到达后，根据特征词，确定新文本的向量表示，在训练文本集中选出与新文本最相似的K个文本，计算公式为；

在新文本的k个邻居中，依次计算每类的权重，计算公式：

（4）SVM分类

支持向量机（SupportVectorMachine，SVM）是有贝尔实验室的小组一起开发出来的，目前在文本分类领域取得了很好的分类质量，它基于结构风险最小化原理，将原始数据压缩到支持向量集合，学习得到分类决策函数，基本思想是做一个超平面作为决策平面，是正负模式之间的空白最大，也就是使得分类错误率最小，它通过非线性变换，将输入向量映射到一个高维空间H，在H中构造最优分类超平面，从而达到最好的泛化能力。

在解决小

展开阅读全文