文本分类三.docx - 冰点文库

资源描述

文本分类三.docx

《文本分类三.docx》由会员分享，可在线阅读，更多相关《文本分类三.docx（16页珍藏版）》请在冰点文库上搜索。

文本分类三.docx

文本分类三

第五章分类系统设计与实验

5.1分类系统设计

文本分类系统可以分为三个相对独立的过程，文本预处理过程、通过机器学习建立分类器的训练过程和测试分类器效果的分类过程。

训练过程是利用训练文本集完成分类规则的获得，从而建立起分类器。

分类过程则在分类器建立后利用分类器对测试文本进行分类处理。

分类系统总体设计如图5-1。

图5-1分类系统总体设计图

其中增量训练算法模型及具体步骤参见4.5，主要的模块设计是基分类器的设计。

基分类器的设计如图5-2

图5-2基分类器设计模块图

下面分别对基分类器三个模块进行详细的描述。

5.1.1文本预处理

文本预处理包括去除停用词及分词处理等。

去除停用词，主要是去掉一些对文章的内容没有什么表现力的字词。

对于中文文本而言，词与词之间没有明显的分隔标志，所以要根据特征选择的情况决定是否要进行分词处理。

若选择字作为特征，则不需要分词；若选择N-Grams作为特征也不需分词，直接截取文本汉字串作为特征；若选择词（或短语）作为特征就需要分词，如果不分词也可采用术语的抽取技术直接截取文本汉字串作为特征。

分词方法主要有基于字符串匹配的方法，基于理解的方法和基于统计的方法。

在本文中的实验，我们选用词作为特征，进行了分词处理，我们采用中科院分词系统（ICTCLAS）。

预处理流程如图5-3

ICTCLAS简介：

计算所汉语词法分析系统ICTCLAS（InstituteofComputingTechnology,ChineseLexicalAnalysisSystem），功能有：

中文分词；词性标注；未登录词识别。

分词正确率高达97.58%（973专家评测结果），未登录词识别召回率均高于90%，其中中国人名的识别召回率接近98%；处理速度为31.5Kbytes/s。

图5-3预处理流程图

5.1.2训练分类器

这个模块是系统的主体部分，主要是利用经过预处理的文本，采用分类算法，构造分类器。

具体流程如图5-4所示。

我们采用特征抽取算法对原始特征集进行降维处理，从文本特征集中抽取一个最优的特征子集，这里所谓的最优特征子集是由评估结果来判定的。

特征选择算法采用2.3.2中介绍的信息增益，计算公式参见公式2-5。

确定最优特征子集的过程就是学习获取最优分类函数的过程，具体方法是先通过特征抽取算法对原始特征集中的特征进行打分，然后进入训练分类器的过程。

我们进行构造TFIDF分类器用的是向量空间模型VSM（参见2.2.2），需要计算权重，而贝叶斯概率模型不须要计算权重，所以在构造分类器之前进行判断是否贝叶斯分类。

图5-4训练分类器流程图

5.1.3测试评价

本模块主要根据最优文本特征子集将测试文本进行向量表示，然后根据所选分类器，对新文本进行类别判别，最后得出准确率。

流程图如图5-5所示。

图5-5测试评价流程图

5.1.4主要算法描述

在分类系统的设计中主要用到以下三个关键算法：

TFIDF、朴素贝叶斯算法、增量学习算法，分别描述如下：

TFIDF算法步骤：

step1：

处理训练集中每一类文本，将属于同一类的所有文档向量加起来，得到每一个类

（

，C表示所有类别的集合）的特征向量

；

step2：

利用公式4-18计算每个文档的向量

和每个类特征向量

的相似度距离

；

step3：

按相似度的大小降序输出训练集的类别，得到新文本的类别归属，并对其作标记；

朴素贝叶斯算法步骤：

step1：

由训练集数据，采用公式4-13计算特征项

在每一个类中的概率

；

step2：

根据公式4-9由每个单独特征

的概率乘积计算联合的

的概率，得到待测文档

属于类

的几率；

step3：

比较待测文档

在所有类别中的几率，将待测文档分到几率最大的那个类别，并对其做标记

增量学习算法：

在4.5中该算法有详尽的步骤描述，在此不再赘述。

5.2实验语料库

语料库一：

采用了中科院成熟语料库，该语料库是经过人工分类好的平衡语料库，包括十个类别：

环境、计算机、交通、教育、经济、军事、体育、医药、艺术、政治，分别存放在十个目录中，以目录名为其类别名，每个类别包含的文本数从258个至312个，总文本数为2816个。

语料库二：

我们从人民网（http：

5.3实验项目与分析

实验中，我们一共采用四个分类器进行分类试验，除了5.1中我们设计的分类器：

朴素贝叶斯分类器（简称NB），基于增量学习的朴素贝叶斯分类器（简称T_N），我们还利用现成的两个分类器：

SVM和KNN，这两个分类器是復旦大学李陆荣博士设计的，经实验验证，该分类器是比较成熟的、性能较好的分类器，我们主要利用这两个分类器进行中文网页分类实验，以评价经预处理的中文网页在分类性能上的提高。

我们一共设置了三组实验，并对实验结果进行分析和对比，主要是为了客观评价第四章提出的基于增量学习的分类算法和第三章提出的中文网页预处理方法。

为评价分类效果，我们采用2.5.1介绍的比较通用的性能评价方法：

准确率，对分类效果进行比较。

5.3.1实验一

我们对实验语料库一用NB和T_N分类器进行分类实验，训练集从每类10个文本开始进行递增，最大训练文本每类为100个，测试集文本每类80个，共进行七次分类测试。

NB分类器不需要增量集，而T_N的增量集取最大训练样本和测试样本所剩下的样本组成，不分类别，存放于一个目录中。

在实际的分类中，会出现兼类现象，为了处理方便，我们规定不允许兼类，即一个文本只从属一个类别，在后面的实验中都是一样。

经过分类测试，得到表5-1和图5-6的实验结果。

表5-1T_N和NB在语料库一上的分类准确率

每类文本数

100

T_N

0.665439

0.762364

0.788854

0.816621

0.845578

0.863548

0.883562

0.424675

0.552391

0.667834

0.721304

0.755191

0.803125

0.821542

图5-6T_N与NB在语料库一上的分类性能对比图

从上面分类结果中可以看到，T_N分类器在分类性能上比NB有一定的提高，在初始训练集较小的情况下，也可以得到不错的分类准确率，随着训练集文本数的提高，分类性能虽有提高，但起伏不大，这表明增量集对分类性能起到较大的作用；而NB分类器分类性能整体比T_N分类器差，而且对训练集大小比较敏感，随着训练集文本数的递增，性能曲线起伏较大，在训练集文本数少的情况下，分类性能明显降低。

这说明，未标记的数据集在分类中对分类性能起到较大的作用。

为了观察在算法迭代中增量集对分类性能的提高所作的贡献，我们在上面实验中，每经过两次迭代，就对测试集进行测试评价。

表5-2是初始训练集为25个文本时所得到的分类准确率，图5-7是相应的曲线图。

表5-2T_N分类器迭代过程中的准确率

迭代

次数

准确率

0.552391

0.602015

0.688310

0.713682

0.739524

0.748561

0.760871

0.762345

图5-7T_N分类器迭代过程中的准确率

从准确率的分布情况，我们可以看到，T_N分类器在经过每次迭代后所增加的训练样本都起到一定的作用，这进一步说明我们所设计的分类系统在每一次的增量学习中都能够提高分类器的性能。

5.3.2实验二

为了评价我们在第三章提出的中文网页预处理方法在自动分类中所起的作用，我们对语料库二中的三千多个网页进行如下两种处理：

处理1：

采用3.4中设计的中文网页内容提取程序，对中文网页进行处理，转换为文本文档；

处理2：

只是把所有中文网页中的汉字内容简单提取出来形成文本文档。

我们分别采用上面所述的SVM和KNN分类器对经过两种处理的中文网页数据集进行分类测试，训练集文本数从每类10个增加到每类150个，测试集每类80个，共640个。

实验结果如表5-3、表5-4和图5-8、图5-9。

表5-3在SVM分类器中的中文网页分类准确率

每类文本数

110

130

150

处理1

0.565271

0.713624

0.733245

0.763264

0.782649

0.811648

0.843591

0.861012

处理2

0.553162

0.663428

0.702671

0.703367

0.743195

0.766387

0.769167

0.781694

表5-4在KNN分类器中的中文网页分类准确率

每类文本数

110

130

150

处理1

0.506414

0.663157

0.697531

0.736294

0.773162

0.788638

0.799316

0.823742

处理2

0.522163

0.602831

0.665134

0.659148

0.715428

0.725486

0.753361

0.756692

图5-8两种不同处理方法在SVM上的分类准确率对比图

图5-9两种不同处理方法在KNN上的分类准确率对比图

从图5-8、图5-9中我们可以看到，不论是在SVM分类器上，还是在KNN分类器上，经过上述方法进行中文网页内容预处理的分类相比只提取中文网页中汉字内容的分类效果都有不少的提高，这是因为中文网页的半结构化和其中含有大量的噪音信息所造成的，这也说明了中文网页自动分类与一般文本的自动分类有很大的不同之处。

5.3.3实验三

为了比较我们设计的基于增量学习的分类器的性能在实际中文网页上的分类性能，我们做了如下实验。

采用语料库二，利用实验二中第一种处理方法进行网页预处理，训练集和测试集的设置与实验二相同，除去训练集和测试集文本，所余一千多个文本均作为T_N分类器中的增量集，然后进行T_N和NB的分类实验，实验结果如表5-5和图5-10。

表5-5T_N和NB在语料库二上的分类准确率

每类文本数

110

130

150

T_N

0.682375

0.753438

0.778125

0.798438

0.816621

0.828125

0.835187

0.849931

0.413521

0.617188

0.668750

0.683750

0.689930

0.712513

0.714063

0.759375

图5-10T_N与NB在语料库二上的分类性能对比图

从图5-10中我们看到，在初始训练集很小的情况下，NB的分类效果很差。

在训练集递增的情况下，T_N分类器相比NB分类器，准确率平稳上升，震荡较小，这与实验一相似，说明未标记增量集所起的作用。

所以在实际的中文网页自动分类上，基于增量学习的贝叶斯分类应该能发挥一定的作用。

另外因为网页数据处理关系，总体上分类效果不如成熟语料库好，因为成熟语料库经这专家人工识别并处理。

5.4本章小结

本章主要内容是：

用现有的成熟语料库和我们在人民网下载的3265个网页的语料库上，分别进行分类实验，通过实验数据的对比，我们证实了本文第三章提出的中文网页信息提取方法能有效地提高中文网页自动分类性能，也验证了第四章提出的基于增量学习的贝叶斯分类器在分类性能上的提高。

结论与展望

全文总结

本文在深入了解当前国内外在中文网页自动分类的研究动态的基础上，首先从理论上深入探讨了基于机器学习的自动分类的常用模型，简单介绍了常用的几种自动分类方法，深入地介绍了基于统计方法的贝叶斯分类算法。

中文网页具有格式灵活、内容丰富、来源广泛以及增长速度极快等特点。

网页信息的半结构化甚至无结构化导致网页中含有大量的噪音信息，所以中文网页的分类比纯文本的分类要困难得多。

如何获取网页中的有效文本内容是首要的一个关键性问题。

我们在第三章分析了中文网页的结构特点，提出一个中文网页有效文本内容的提取方法，设计了一个提取程序，并在第五章的实验中得到验证：

通过获取对分类更有用的信息，能够有效地提高中文网页的自动分类性能。

拥有海量数据的因特网为网页分类的研究提供了丰富的实验平台，但是由人工标记的网页数据集缺乏。

本文着重研究了半监督的分类算法，针对高分类精度需要大规模已标记训练集而己标记文档资源稀缺的问题，提出一种基于增量学习的贝叶斯分类算法。

此算法利用TFIDF分类器协同NB分类器进行增量训练已标记和未标记文档，能更好地提高分类器分类性能。

最后，我们设计了一个文本自动分类系统，在此文本自动分类系统上进行分类实验，首先用中科院成熟语料库进行分类实验，其次用我们在人民网下载的几千个网页进行分类实验。

从实验中我们验证了基于增量学习的贝叶斯分类算法能够充分利用容易获得的未标记网页数据，增量式学习并训练分类器，从而提高分类性能，这对解决当前海量网页的自动分类中已有分类算法均需要一个相当大的、已标记的训练集的问题有一定的示范作用。

总的来说，针对海量的中文网页自动分类问题，贝叶斯分类算法充分利用了先验信息的特性，是增量学习中的最佳选择模型，结合TFIDF算法的贝叶斯分类器应该能发挥其优点，解决实际中难以获得大量已标记文本的问题。

未来展望

同时，我们因为实验的复杂性，网页的获取方式等，没办法很全面地对分类器进行评价。

其中部分问题还有待于一步的研究，例如：

一、经验参数m值如何确定，针对不同规模的已知数据集以及未标记数据集，能否有一个较好的公式来确定m值。

二、能否有更好的算法结合贝叶斯算法，形成新的内嵌分类器，来进行增量训练，或者结合两个甚至三个其它分类算法，进一步提高确定未标记文本的准确率，从而提高分类性能。

三、网页中的字体、颜色、图片等对其类别也有一定的指示作用，如何结合第三章的研究，充分利用这些信息进一步提高分类性能。

希望在以后的研究中能更多地实现以上的课题的进一步探索，从而更进一步提高中文网页的分类性能，以达到更实用的地步，同时能对其它方面的同类研究起到一定的借鉴作用。

实现一个满足市场应用需求的高效的中文网页自动分类系统是我们努力的方向。

参考文献

[1]Luhn，H.P.（1959）.Auto-encodingofdocumentsforinformationretrievalsystems.InM.Boaz，ModernTrendsinDocumentation（p.45-58）.London：

PergamonPress

[2]MarkCraven，SeanSlattery，KamalNigam.First-OrderLearningforWebMining.Proceedingsofthe10thEuropeanConferenceonMachineLearning.1998

[3]SoumenChakrabarti，ByronDom，PiotrIndyk.EnhancedHypertextCategorizationUsingHyperlinks.SIGMOD1998，307318

[4]ArulPrakashAsirvatham，KranthiKumar.Ravi.WebPageClassificationbasedonDocumentStructure.2001

[5]LiseGetoor，EranSegal，BenTaskar，DaphneKoller.ProbabilisticModelsofTextandLinkStructureforHypertextClassification.InIJCAIWorkshoponTextLearning：

BeyondSupervision.2001

[6]YimingYang，SeanSlattery，RayidGhani.AStudyofApproachestoHypertextCategorization.JournalofIntelligentInformationsystems，2002；18（2-3）：

219241

[7]DanieleRiboni.FeatureSelectionforWebPageClassification.2002

[8]AixinSun，Ee-PengLim，Wee-KeongNg.WebClassificationUsingSupportVectorMachine.InProceedingsofthefourthinternationalworkshoponWebinformationanddatamanagement.ACMPress，2002，pp.9699

[9]WilliamW.Cohen.ImprovingAPageClassifierwithAnchorExtractionandLinkAnalysis.InAdvancesinNeuralProcessingSystems15.Vancouver，BritishColumbia，2002

[10]JiuzhenLiang.OnChineseWebPageClassification.LectureNotesinComputerScience，Volume3070/2004，Pages：

634-639

[11]张俐，李星，陆大.中文网页自动分类新算法.清华大学学报（自然科学版），2000年，第40卷，第1期

[12]范众，郑诚，王清毅等.用NaiveBayes方法协调分类Web网页.软件学报，2001年，第12卷，第9期

[13]Ya-pingLin，Zhi-pingChen.HypertextClassificationAlgorithmBasedonCo-weightingMulti-information.LectureNotesinComputerScience，Volume3129/2004，Pages：

678-683

[14]苏金树、张博锋、徐昕，基于机器学习的文本分类技术研究进展，软件学报，2006.9，vol.17，No.9

[15]NigamK.Usingunlabeleddatatoimprovetextclassification[Ph.D.Thesis].Pittsburgh:

CarnegieMellonUniversity,2001

[16]ZhouZ-H,TangW,ChenZ-Q.Combiningregressionestimators:

GA-basedselectiveneuralnetworkensemble.IntemationalJournalofComputationalIntelligenceandApplication,2001,1（4）:

341-356

[17]ParkSB,ZhangBT.Co-Trainedsupportvectormachinesforlargescaleunstructureddocumentclassificationusingunlabeleddataandsyntacticinformation.InformationProcessingandManagement,2004,40（3）:

421−439.

[18]KiritchenkoS,MatwinS.Emailclassificationwithco-training.In:

StewartDA,JohnsonJH,eds.Proc.ofthe2001Conf.oftheCentreforAdvancedStudiesonCollaborativeResearch.Toronto:

IBMPress,2001.8.

[19]宋枫溪，自动文本分类若干基本问题研究：

[博士论文].南京，南京理工大学，计算机系，2004.4

[20]高安秀树（沈步明，常子文译），分数维，北京，地质出版社，1989，68-69

[21]黄首普.大规模中文文本的检索、分类与摘要研究：

[博士论文].上海：

复旦大学计算机系.1998.5

[22]孙宾.现代汉语文本的词语切分技术报告（第二稿）.北京大学计算语言学研究所.参见http：

[23]GerardSalton，andM.McGill，IntroductiontoModernInformationRetrieval，NewYork：

McGraw-Hill，1983

[24]YYangand10.Pedersen.Acomparativestudyonfeatureselectionintextcategorization.InProceedingsofICML-97，14thInternationalConferenceonMachineLearning，pages412-20，Nashville，US，1997

[25]朱明、王军、王俊普．Web网页识别中的特征选择问题研究．计算机工程，2000，26（8）

[26]DunjaMladenic，MarkoGrobelink.Featureselectiononhierarchyofwebdocuments.DecisionSupportSystems，2003，35：

45287.51

[27]王国胜，钟义信，支持向量机的理论基础—统计学习理论.计算机工程与应用，2001，19

[28]VapnikVN.EstimationofDependenciesBasedonEmpiricalDataBerlin：

Springer-Verlag，1982

[29]VapnikVN.TheNatureofStatisticalLearningTheory.NY.Springer-Verlag，1995

[30]NelloCristianiniJohnShawe-Taylor.AnIntroductiontoSupportVectorMachinesandOtherKernel-basedLearningMethods.2004.3

[31]DouShen，ZhengChen，QiangY

展开阅读全文